[1]盛启东 谭守标 徐超 冯二媛 陈军宁.巧用黑盒法逆推百度中文分词算法[J].计算机技术与发展,2010,(04):136-139.
 SHENG Qi-dong,TAN Shou-biao,XU Chao,et al.Inferring Baidu's Chinese Word Segmentation Algorithm by Supposing a Black Box[J].,2010,(04):136-139.
点击复制

巧用黑盒法逆推百度中文分词算法()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2010年04期
页码:
136-139
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Inferring Baidu's Chinese Word Segmentation Algorithm by Supposing a Black Box
文章编号:
1673-629X(2010)04-0136-04
作者:
盛启东 谭守标 徐超 冯二媛 陈军宁
安徽大学电子科学与技术学院
Author(s):
SHENG Qi-dong TAN Shou-biao XU Chao FENG Er-yuan CHEN Jun-ning
College of Electronic Science & Technology, Anhui University
关键词:
中文分词分词算法搜索引擎百度
Keywords:
Chinese word segmentation word segmentation algorithm search engineBaidu
分类号:
TP391.41
文献标志码:
A
摘要:
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。
Abstract:
In order to make better use of Chinese search engine systems, key technologies about search engine are required. Chooses Baidu, the best - known search engine system in China, as the study object. Several commonly- used Chinese word segmentation algo- rit

相似文献/References:

[1]张赢 万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,(05):134.
 ZHANG Ying,WAN Zhong-bao.Professional Search Engine Unknown Word of Recognition[J].,2009,(04):134.
[2]牟帅 黄映辉 李冠宇.语义Web服务的OWL—S描述及其应用[J].计算机技术与发展,2009,(01):13.
 MU Shuai,HUANG Ying-hui,LI Guan-yu.OWL - S Description of Semantic Web Service and Its Applications[J].,2009,(04):13.
[3]赵俊杰 胡学钢.一种基于段落词频统计的论文抄袭判定算法[J].计算机技术与发展,2009,(04):231.
 ZHAO Jun-jie,HU Xue-gang.A Way to Judge Plagiarism in Academic Papers Based on Word - Frequency Statistics of Paragraphs[J].,2009,(04):231.
[4]罗桂琼 费洪晓 戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,(01):80.
 LUO Gui-qiong,FEI Hong-xiao,DAI Yi.Research of Chinese Segmentation Based on Converse Segmentation Dictionary[J].,2008,(04):80.
[5]钟锋 罗燕京 杨曦 李虎.一种基于合并策略的机构名称切分方法[J].计算机技术与发展,2008,(05):12.
 ZHONG Feng,LUO Yan-jing,YANG Xi,et al.An Organization Name Segmentation Approach Based on Combination Strategy[J].,2008,(04):12.
[6]许高建 胡学钢 王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展,2007,(12):122.
 XU Gao-jian,HU Xue-gang,WANG Oing-ren.Research and Realization of Chinese Text Classification Algorithms on Text Mining[J].,2007,(04):122.
[7]丁兆贵 金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,(02):105.
 DING Zhao-gui,JIN Min.Research and Implementation of Personal Search Engine Based on Lucene[J].,2011,(04):105.
[8]魏博诚 王爱平 沙先军 王永.一种消除中文分词中交集型歧义的方法[J].计算机技术与发展,2011,(05):60.
 WEI Bo-cheng,WANG Ai-ping,SHA Xian-jun,et al.A Method about Removing Overlapping Ambiguity Producing in Chinese Matching[J].,2011,(04):60.
[9]韩月阳 邓世昆 贾时银 李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,(07):29.
 HAN Yue-yang,DENG Shi-kun,JIA Shi-yin,et al.Chinese Word Segmentation Research Based on Classification of Words[J].,2011,(04):29.
[10]黄宇达 魏霞 王迤冉[].一种轻量级中文搜索引擎模型的设计与实现[J].计算机技术与发展,2012,(09):201.
 HUANG Yu-da,WEI Xia,WANG Yi-ran.Design and Implementation of System Model of a Lightweight Chinese Search Engine[J].,2012,(04):201.

备注/Memo

备注/Memo:
盛启东(1983-),男,安徽定远人,硕士研究生,研究方向为网络与智能信息系统;谭守标,博士,副教授,研究方向为网络与智能信息系统、数据挖掘;徐超,博士,教授,研究方向为网络与智能信息系统、集成电路设计;陈军宁,博士后,教授,研究方向为超大规模集成电路。
更新日期/Last Update: 1900-01-01