[1]许高建 胡学钢 王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展,2007,(12):122-124.
 XU Gao-jian,HU Xue-gang,WANG Oing-ren.Research and Realization of Chinese Text Classification Algorithms on Text Mining[J].,2007,(12):122-124.
点击复制

文本挖掘中的中文分词算法研究及实现()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2007年12期
页码:
122-124
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Research and Realization of Chinese Text Classification Algorithms on Text Mining
文章编号:
1673-629X(2007)12-0122-03
作者:
许高建1 胡学钢2 王庆人1
[1]安徽农业大学信息与计算机学院[2]合肥工业大学计算机与信息学院
Author(s):
XU Gao-jian HU Xue-gang WANG Oing-ren
[1]School of Information & Technology, Anhui Agricultural University[2]School of Computer & Information, Hefei University of Technology
关键词:
中文分词歧义消除最大匹配词语优化
Keywords:
Chinese text participle different meanings eliminating most matching word optimization
分类号:
TP391
文献标志码:
A
摘要:
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理
Abstract:
Text mining uses the data mining technique to find and extract the crytic knowledge automatically from text files, which is self - existent the information users needed. Chinese text data is achieved by Chinese information handling. So text participle is a basic question for discussion on Chinese information handling. The rate of text participle is most important especially in applied in great information handling, and it affects the efficiency of whole system. This paper analyzes some ways in text participle, and designed a Chinese- text - participle - system based on most - matching from left to right. In order to improve the participle precision, the algorithms of eliminating different meanings and words optimization are dealt with

相似文献/References:

[1]盛启东 谭守标 徐超 冯二媛 陈军宁.巧用黑盒法逆推百度中文分词算法[J].计算机技术与发展,2010,(04):136.
 SHENG Qi-dong,TAN Shou-biao,XU Chao,et al.Inferring Baidu's Chinese Word Segmentation Algorithm by Supposing a Black Box[J].,2010,(12):136.
[2]李跃民 王浩 赵生慧 计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,(04):220.
 LI Yue-min,WANG Hao,ZHAO Sheng-hui,et al.Research on Cutting Knowledge Points in Intelligent Computer Aided Instruction[J].,2009,(12):220.
[3]张赢 万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,(05):134.
 ZHANG Ying,WAN Zhong-bao.Professional Search Engine Unknown Word of Recognition[J].,2009,(12):134.
[4]牟帅 黄映辉 李冠宇.语义Web服务的OWL—S描述及其应用[J].计算机技术与发展,2009,(01):13.
 MU Shuai,HUANG Ying-hui,LI Guan-yu.OWL - S Description of Semantic Web Service and Its Applications[J].,2009,(12):13.
[5]赵俊杰 胡学钢.一种基于段落词频统计的论文抄袭判定算法[J].计算机技术与发展,2009,(04):231.
 ZHAO Jun-jie,HU Xue-gang.A Way to Judge Plagiarism in Academic Papers Based on Word - Frequency Statistics of Paragraphs[J].,2009,(12):231.
[6]罗桂琼 费洪晓 戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,(01):80.
 LUO Gui-qiong,FEI Hong-xiao,DAI Yi.Research of Chinese Segmentation Based on Converse Segmentation Dictionary[J].,2008,(12):80.
[7]钟锋 罗燕京 杨曦 李虎.一种基于合并策略的机构名称切分方法[J].计算机技术与发展,2008,(05):12.
 ZHONG Feng,LUO Yan-jing,YANG Xi,et al.An Organization Name Segmentation Approach Based on Combination Strategy[J].,2008,(12):12.
[8]丁兆贵 金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,(02):105.
 DING Zhao-gui,JIN Min.Research and Implementation of Personal Search Engine Based on Lucene[J].,2011,(12):105.
[9]魏博诚 王爱平 沙先军 王永.一种消除中文分词中交集型歧义的方法[J].计算机技术与发展,2011,(05):60.
 WEI Bo-cheng,WANG Ai-ping,SHA Xian-jun,et al.A Method about Removing Overlapping Ambiguity Producing in Chinese Matching[J].,2011,(12):60.
[10]韩月阳 邓世昆 贾时银 李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,(07):29.
 HAN Yue-yang,DENG Shi-kun,JIA Shi-yin,et al.Chinese Word Segmentation Research Based on Classification of Words[J].,2011,(12):29.

备注/Memo

备注/Memo:
安徽省科技计划项目(2007ZD~7021010)许高建(1974-),男,安徽肥东人,讲师,研究方向为计算机应用、文本挖掘;胡学钢,教授,研究方向为人工智能、数据挖掘
更新日期/Last Update: 1900-01-01