[1]陈攀[],杨浩[],吕品[][],等. 基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(04):82-85.
 CHEN Pan[],YANG Hao[],L Pin[][],et al. Study on Text Similarity Based on LDA Model[J].,2016,26(04):82-85.
点击复制

 基于LDA模型的文本相似度研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
26
期数:
2016年04期
页码:
82-85
栏目:
智能、算法、系统工程
出版日期:
2016-04-10

文章信息/Info

Title:
 Study on Text Similarity Based on LDA Model
文章编号:
1673-629X(2016)04-0082-04
作者:
 陈攀[1]杨浩[1]吕品[1][2]王海晖[1][2]
1. 武汉工程大学 计算机科学与工程学院;2.武汉工程大学 智能机器人湖北省重点实验室
Author(s):
 CHEN Pan[1] YANG Hao[1] L Pin[1][2] WANG Hai-hui[1]2]
关键词:
 文本挖掘LDA模型Gibbs抽样文本相似度
Keywords:
 text miningLDA modelGibbs samplingtext similarity
分类号:
TP301
文献标志码:
A
摘要:
 LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性,文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模,通过Gibbs抽样间接估算模型参数,将文本表示为固定隐含主题集上的概率分布,以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明,与LSI模型相比,该方法能有效地提高文本相似度计算的准确性和文本聚类效果。
Abstract:
 LDA topic model is an unsupervised model which exhibits superiority on latent topic modeling of text data in the research of re-cent years. Considering the disadvantage of the traditional topic model when dealing with the large-scale text corpuses,a method which improves text similarity computations by using LDA model is proposed. It models corpus with LDA,parameters are estimated with Gibbs sampling. Each document is represented for the probability distribution of fixed implied theme set and computed the similarity between the texts. Finally,the K-means algorithm is selected as the evaluation index of text similarity. Experimental results show this method can im-prove the accuracy of text similarity and clustering quality of text effectively compared with LSI model.

相似文献/References:

[1]沈亚田 沈夏炯 张磊.基于图划分的谱聚类算法在文本挖掘中应用[J].计算机技术与发展,2009,(05):96.
 SHEN Ya-tian,SHEN Xia-jiong,ZHANG Lei.Application of Spectral Cluster Algorithm Based on Graph Partition in Text Mining[J].,2009,(04):96.
[2]葛育祥 熊励.整合文本挖掘的商务智能系统结构研究[J].计算机技术与发展,2009,(04):1.
 GE Yu-xiang,XIONG Li.System Structure Study of Business Intelligence Integrated Text Mining[J].,2009,(04):1.
[3]黄凯峰 何洁月.基于生物医学文献的知识发现研究[J].计算机技术与发展,2008,(02):62.
 HUANG Kai-feng,HE Jie-yue.Survey of Biomedicine Literature - Based Discovery[J].,2008,(04):62.
[4]许高建.基于Web的文本挖掘技术研究[J].计算机技术与发展,2007,(06):187.
 XU Gao-jian.Research on Text Mining Techniques Web- Based[J].,2007,(04):187.
[5]邹腊梅 肖基毅 龚向坚.基于Maximum Likelihood与HMM的文本挖掘[J].计算机技术与发展,2007,(12):110.
 ZOU La-mei,XIAO Ji-yi,GONG Xiang-jian.Text Information Mining Based on Maximum Likelihood and Hidden Markov Model[J].,2007,(04):110.
[6]王娜 李云松.基于概念格的文本挖掘[J].计算机技术与发展,2006,(01):114.
 WANG Na,LI Yun-song.Text Mining Based on Concept Lattice[J].,2006,(04):114.
[7]许晓昕 李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,(03):122.
 XU Xiao-xin,LI An-gui.A New TFIDF- Based Chat Stream Keyword Extraction Algorithm[J].,2006,(04):122.
[8]薛中玉 李春梅 黄道雄.基于文本挖掘的本体自动构建系统架构解析[J].计算机技术与发展,2011,(01):100.
 XUE Zhong-yu,LI Chun-mei,HUANG Dao-xiong.System Architecture Analysis of Automatic Construction System of Ontology Based on Text Mining[J].,2011,(04):100.
[9]苏小英,胡彦鹏[],杨竣辉,等.一种新的用于文本分类的概率分类器设计[J].计算机技术与发展,2014,24(03):46.
 SU Xiao-ying[],HU Yan-peng[],YANG Jun-hui[],et al.A New Probabilistic Classifier Design for Text Categorization[J].,2014,24(04):46.
[10]张志宏,吴庆波,邵立松,等.基于飞腾平台TOE协议栈的设计与实现[J].计算机技术与发展,2014,24(07):1.
 ZHANG Zhi-hong,WU Qing-bo,SHAO Li-song,et al. Design and Implementation of TCP/IP Offload Engine Protocol Stack Based on FT Platform[J].,2014,24(04):1.

更新日期/Last Update: 2016-06-16