[1]王振,邱晓晖.混合CHI 和MI 的改进文本特征选择方法[J].计算机技术与发展,2018,28(04):87-90.[doi:10.3969/ j. issn.1673-629X.2018.04.018]
 WANG Zhen,QIU Xiao-hui.An Improved Text Feature Selection Method Mixed CHI and MI[J].,2018,28(04):87-90.[doi:10.3969/ j. issn.1673-629X.2018.04.018]
点击复制

混合CHI 和MI 的改进文本特征选择方法()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
28
期数:
2018年04期
页码:
87-90
栏目:
智能、算法、系统工程
出版日期:
2018-04-10

文章信息/Info

Title:
An Improved Text Feature Selection Method Mixed CHI and MI
文章编号:
1673-629X(2018)04-0087-04
作者:
王振邱晓晖
南京邮电大学 通信与信息技术学院,江苏 南京 210003
Author(s):
WANG ZhenQIU Xiao-hui
School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China
关键词:
文本分类特征选择卡方统计互信息词频因子调节参数
Keywords:
text categorizationfeature selectionCHI statisticsMIword frequency factoradjust parameter
分类号:
TP391
DOI:
10.3969/ j. issn.1673-629X.2018.04.018
文献标志码:
A
摘要:
特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,引入词频因子。 考虑互信息方法倾向选择低频词的缺点,并研究特征词在不同类别文档内的分布情况对互信息方法的特征选择的影响,通过引入特征的词频因子和调节参数对卡方统计量方法和互信息方法进行改进,并混合改进后的卡方统计量方法和互信息方法,提出一种混合的特征选择算法(CHMI)。通过对 CHI 方法、MI 方法、改进的 CHI方法、改进的 MI 方法和 CHMI 方法进行实验对比,使用 CHMI 方法进行特征选择,使最终分类结果的查准率和F1 值都有了提高,验证了CHMI 方法的有效性。
Abstract:
Feature selection is a key part of text classification,and the choices of features directly determine the final classification result.CHI-square statistic (CHI) and mutual information (MI) are commonly used in feature selection. In order to solve the shortcoming of word frequency and analyze the distribution of the feature words in the documents within the categories,the word frequency factors and adjust parameter are introduced into the original CHI-square selection method and mutual information method,and then the improved CHI and improved MI are clustered to obtain a mixed feature selection algorithm (CHMI). By comparing CHI,MI,improved CHI,improved MI and CHMI with experiment,the CHMI improves the accuracy of classification and F 1 values,which verifies its validity.

相似文献/References:

[1]田昕辉 李成基.带有短语切分的中文文本分类方法[J].计算机技术与发展,2010,(01):5.
 TIAN Xin-hui,LEE Sung-kee.Phrase Segmentation for Chinese Text Classification[J].,2010,(04):5.
[2]刘利 何先平 袁文亮.股票趋势预测中Wrapper方法的研究与应用[J].计算机技术与发展,2010,(01):209.
 LIU Li,HE Xian-ping,YUAN Wen-liang.Research and Application of Wrapper Approach to Stock Trend Prediction[J].,2010,(04):209.
[3]姜鹤 陈丽亚.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,(03):17.
 JIANG He,CHEN Li-ya.A New Feature Selection Method in SVM Text Categorization[J].,2010,(04):17.
[4]周瑛 张铃.有限混合模型在文本分类中的应用研究[J].计算机技术与发展,2010,(06):18.
 ZHOU Ying,ZHANG Ling.Study of Application of Finite Mixture Model in Text Classification[J].,2010,(04):18.
[5]黄炜 黄志华.一种基于遗传算法和SVM的特征选择[J].计算机技术与发展,2010,(06):21.
 HUANG Wei,HUANG Zhi-hua.Feature Selection Based on Genetic Algorithm and SVM[J].,2010,(04):21.
[6]张家柏 王小玲.基于聚类和二进制PSO的特征选择[J].计算机技术与发展,2010,(06):25.
 ZHANG Jia-bai,WANG Xiao-ling.A Novel Algorithm Based on K-Means Clustering and Binary Particle Swarm Optimization[J].,2010,(04):25.
[7]许幸 张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,(04):206.
 XU Xing,ZHANG Qi-rui.Research of Medical Information Text Categorization Based on KNN Algorithm[J].,2009,(04):206.
[8]陈锦禾 范新 沈闻 沈洁.基于情感词识别的BBS情感分类研究[J].计算机技术与发展,2009,(07):120.
 CHEN Jin-he,FAN Xin,SHEN Wen,et al.Research on Sentiment Classification of BBS Reviews Based on Identifying Words with Polarity[J].,2009,(04):120.
[9]刘锋 唐佳 仲红.一种基于RBF神经网络的XML文本分类方法[J].计算机技术与发展,2009,(08):34.
 LIU Feng,TANG Jia,ZHONG Hong.A Text Categorization Method Based on RBF Neural Network[J].,2009,(04):34.
[10]冯甲策 叶明 王惠文.基于Gram—Schmidt过程的支持向量机降维方法[J].计算机技术与发展,2009,(11):7.
 FENG Jia-ce,YE Ming,WANG Hui-wen.Dimension Reduction Method of Support Vector Machine Based on Gram- Schmidt Process[J].,2009,(04):7.
[11]陈素萍 谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,(02):112.
 CHEN Su-ping,XIE Li-cong.Research on Document Feature Selection[J].,2009,(04):112.
[12]段震 王倩倩 张燕平 张铃.覆盖算法下文本分类特征选择的研究[J].计算机技术与发展,2008,(11):29.
 DUAN Zhen,WANG Qian-qian,ZHANG Yan-ping,et al.Study on Feature Selection of Text Classification in Cross Cover Algorithm[J].,2008,(04):29.
[13]董梅 胡学钢.基于多特征选择的中文文本分类[J].计算机技术与发展,2007,(07):117.
 DONG Mei,HU Xue-gang.Text Categorization Based on Multiple Features Selection[J].,2007,(04):117.
[14]张丽 黄东.基于Winnow算法的反垃圾邮件引擎的设计与实现[J].计算机技术与发展,2006,(04):170.
 ZHANG Li,HUANG Dong.Design and Implementation of One Prototype of Anti - Spam Engine Based on Winnow Algorithm[J].,2006,(04):170.
[15]张培颖,王雷全.基于语义距离的文本分类方法[J].计算机技术与发展,2013,(01):128.
 ZHANG Peo-ying,WANG Lei-quan.Text Classification Method Based on Semantic Distance[J].,2013,(04):128.
[16]陈春玲*,姜慧敏,郭永安.基于两阶段特征选择的医疗敏感文本分类[J].计算机技术与发展,2020,30(08):129.[doi:10. 3969 / j. issn. 1673-629X. 2020. 08. 022]
 CHEN Chun-ling*,JIANG Hui-min,GUO Yong-an.Medical Sensitive Text Classification Based on Two-stage Feature Selection[J].,2020,30(04):129.[doi:10. 3969 / j. issn. 1673-629X. 2020. 08. 022]

更新日期/Last Update: 2018-06-07