[1]赵金仿 赵艳 缪建明.网页信息抽取及其自动文本分类的实现[J].计算机技术与发展,2008,(10):37-39.
 ZHAO Jin-fang,ZHAO Yan,MIAO Jian-ming.Extraction of Homepage Text Information and Realization of Text Automatic Categorization[J].,2008,(10):37-39.
点击复制

网页信息抽取及其自动文本分类的实现()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2008年10期
页码:
37-39
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Extraction of Homepage Text Information and Realization of Text Automatic Categorization
文章编号:
1673-629X(2008)10-0037-03
作者:
赵金仿1 赵艳1 缪建明2
[1]江苏科技大学电子信息学院[2]中国科学院声学研究所
Author(s):
ZHAO Jin-fang ZHAO Yan MIAO Jian-ming
[1]School of Electronics and Information, Jiangsu Univ. of SCi. and Tech[2]Institute of Acoustics, Chinese Academy of Science
关键词:
标记文本分类信息抽取
Keywords:
lag text categorization information extraction
分类号:
TP393
文献标志码:
A
摘要:
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的
Abstract:
The non-subject information is often contained in the Web homepage. The useless information must be rejected in the process of forming the useful text information. The text classification is very important to the text information further processing. It ha

相似文献/References:

[1]田昕辉 李成基.带有短语切分的中文文本分类方法[J].计算机技术与发展,2010,(01):5.
 TIAN Xin-hui,LEE Sung-kee.Phrase Segmentation for Chinese Text Classification[J].,2010,(10):5.
[2]姜鹤 陈丽亚.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,(03):17.
 JIANG He,CHEN Li-ya.A New Feature Selection Method in SVM Text Categorization[J].,2010,(10):17.
[3]周瑛 张铃.有限混合模型在文本分类中的应用研究[J].计算机技术与发展,2010,(06):18.
 ZHOU Ying,ZHANG Ling.Study of Application of Finite Mixture Model in Text Classification[J].,2010,(10):18.
[4]许幸 张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,(04):206.
 XU Xing,ZHANG Qi-rui.Research of Medical Information Text Categorization Based on KNN Algorithm[J].,2009,(10):206.
[5]陈锦禾 范新 沈闻 沈洁.基于情感词识别的BBS情感分类研究[J].计算机技术与发展,2009,(07):120.
 CHEN Jin-he,FAN Xin,SHEN Wen,et al.Research on Sentiment Classification of BBS Reviews Based on Identifying Words with Polarity[J].,2009,(10):120.
[6]刘锋 唐佳 仲红.一种基于RBF神经网络的XML文本分类方法[J].计算机技术与发展,2009,(08):34.
 LIU Feng,TANG Jia,ZHONG Hong.A Text Categorization Method Based on RBF Neural Network[J].,2009,(10):34.
[7]晋幼丽 周明全 王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,(11):35.
 JIN You-li,ZHOU Ming-quan,WANG Xue-song.Research on Text Classification Method of SVM and K - means[J].,2009,(10):35.
[8]张燕平 徐庆鹏 苏守宝 邢猛.一种基于贪婪覆盖的文本分类方法[J].计算机技术与发展,2009,(01):74.
 ZHANG Yan-ping,XU Qing-peng,SU Shou-bao,et al.A Text Categorization Method Based on Greedy Cover[J].,2009,(10):74.
[9]陈素萍 谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,(02):112.
 CHEN Su-ping,XIE Li-cong.Research on Document Feature Selection[J].,2009,(10):112.
[10]于水英 丁华福 付志超.基于遗传算法和模糊聚类的文本分类研究[J].计算机技术与发展,2009,(04):131.
 YU Shui-ying,DING Hua-fu,FU Zhi-chao.Study on Text Categorization Based on Genetic Algorithm and Fuzzy Clustering[J].,2009,(10):131.

备注/Memo

备注/Memo:
国家自然科学基金(60573064)赵金仿(1981-),女,河北唐山人,硕士研究生,研究方向为知识工程与智能信息处理
更新日期/Last Update: 1900-01-01