[1]梁卓明 陈炬桦.基于专有名词优先的快速中文分词[J].计算机技术与发展,2008,(03):24-27.
 LIANG Zhuo-ming,CFIEN Ju-hua.A Rapid Chinese Word Segmentation Method Based on Priority Special Names[J].,2008,(03):24-27.
点击复制

基于专有名词优先的快速中文分词()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2008年03期
页码:
24-27
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
A Rapid Chinese Word Segmentation Method Based on Priority Special Names
文章编号:
1673-629X(2008)03-0024-04
作者:
梁卓明 陈炬桦
中山大学信息科学学院计算机系
Author(s):
LIANG Zhuo-ming CFIEN Ju-hua
Dept. of Computer Sol. ,Sch. of Info, Sci. , Zhongshan Univ
关键词:
中文分词专有名词词典机制
Keywords:
Chinese word segmentationspecial namedictionary mechanism
分类号:
TP391
文献标志码:
A
摘要:
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能
Abstract:
Chinese word .segmentation is a key component of Chinese information processing systems. The topic information retrieval system has special requirement for both speed and veracity. Answer two important questions for building dictionary: how to get word it

相似文献/References:

[1]盛启东 谭守标 徐超 冯二媛 陈军宁.巧用黑盒法逆推百度中文分词算法[J].计算机技术与发展,2010,(04):136.
 SHENG Qi-dong,TAN Shou-biao,XU Chao,et al.Inferring Baidu's Chinese Word Segmentation Algorithm by Supposing a Black Box[J].,2010,(03):136.
[2]张赢 万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,(05):134.
 ZHANG Ying,WAN Zhong-bao.Professional Search Engine Unknown Word of Recognition[J].,2009,(03):134.
[3]牟帅 黄映辉 李冠宇.语义Web服务的OWL—S描述及其应用[J].计算机技术与发展,2009,(01):13.
 MU Shuai,HUANG Ying-hui,LI Guan-yu.OWL - S Description of Semantic Web Service and Its Applications[J].,2009,(03):13.
[4]赵俊杰 胡学钢.一种基于段落词频统计的论文抄袭判定算法[J].计算机技术与发展,2009,(04):231.
 ZHAO Jun-jie,HU Xue-gang.A Way to Judge Plagiarism in Academic Papers Based on Word - Frequency Statistics of Paragraphs[J].,2009,(03):231.
[5]罗桂琼 费洪晓 戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,(01):80.
 LUO Gui-qiong,FEI Hong-xiao,DAI Yi.Research of Chinese Segmentation Based on Converse Segmentation Dictionary[J].,2008,(03):80.
[6]钟锋 罗燕京 杨曦 李虎.一种基于合并策略的机构名称切分方法[J].计算机技术与发展,2008,(05):12.
 ZHONG Feng,LUO Yan-jing,YANG Xi,et al.An Organization Name Segmentation Approach Based on Combination Strategy[J].,2008,(03):12.
[7]许高建 胡学钢 王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展,2007,(12):122.
 XU Gao-jian,HU Xue-gang,WANG Oing-ren.Research and Realization of Chinese Text Classification Algorithms on Text Mining[J].,2007,(03):122.
[8]丁兆贵 金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,(02):105.
 DING Zhao-gui,JIN Min.Research and Implementation of Personal Search Engine Based on Lucene[J].,2011,(03):105.
[9]魏博诚 王爱平 沙先军 王永.一种消除中文分词中交集型歧义的方法[J].计算机技术与发展,2011,(05):60.
 WEI Bo-cheng,WANG Ai-ping,SHA Xian-jun,et al.A Method about Removing Overlapping Ambiguity Producing in Chinese Matching[J].,2011,(03):60.
[10]韩月阳 邓世昆 贾时银 李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,(07):29.
 HAN Yue-yang,DENG Shi-kun,JIA Shi-yin,et al.Chinese Word Segmentation Research Based on Classification of Words[J].,2011,(03):29.

备注/Memo

备注/Memo:
梁卓明(1982-)男,硕士研究生,研究方向为搜索引擎、中文分词、聚类检索;陈炬桦,博士,副教授,研究方向为并行计算、信息管理系统
更新日期/Last Update: 1900-01-01