[1]朱敏 罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,(02):65-68.
 ZHU Min,LUO Sheng-xian.Research of a Focused Crawler to Specific Topic Based on Heritrix[J].,2012,(02):65-68.
点击复制

基于Heritrix的面向特定主题的聚焦爬虫研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2012年02期
页码:
65-68
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Research of a Focused Crawler to Specific Topic Based on Heritrix
文章编号:
1673-629X(2012)02-0065-04
作者:
朱敏 罗省贤
成都理工大学信息科学与技术学院
Author(s):
ZHU MinLUO Sheng-xian
School of Information Science and Technology,Chengdu University of Technology
关键词:
聚焦爬虫HeritrixBKDRHash算法HTMLParser搜索引擎
Keywords:
focused crawler Heritrix BKDRHash algorithm HTMLParser search engine
分类号:
TP31
文献标志码:
A
摘要:
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备
Abstract:
By analyzing the Heritrix open-source crawler's component architecture,on account of the existed problems of the Heritrix open-source project,the project designs specific capture logics and classes that can directly crawl particular content pages,implements search for particular topic pages;And introduce the BKDRHash algorithms to URL hashing to achieve a particular topic pages for information search and improve the efficiency of the search data,and achieve the purpose of multi-threaded web crawler.Finally,analyse a particular topic pages and capture content,use HTMLParser tool to crawl the web data source into a specific format,the search can provide a data source for the topic-oriented information systems and data mining,prepare a good potential for further research

相似文献/References:

[1]杜光芹 张化祥 赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,(02):94.
 DU Guang-qin,ZHANG Hua-xiang,ZHAO Rui-dong.State of Topic Web Mining[J].,2008,(02):94.

备注/Memo

备注/Memo:
朱敏(1986-),女,湖南长沙人,硕士,主要研究方向为高性能计算领域中的网络并行计算、搜索引擎中网络爬虫研究;罗省贤,教授,主要研究方向是高性能计算领域中的网络并行计算、网格计算,信号及信息处理领域中的数字信号处理方法研究及软件开发、信号及图像非线性处理
更新日期/Last Update: 1900-01-01