[1]张春元 康耀红 伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,(09):250-253.
 ZHANG Chun-yuan,KANG Yao-hong,WU Xiao-qin.Design and Implementation of Web News Automatically Gathering and Publishing System[J].,2009,(09):250-253.
点击复制

Web新闻自动采集发布系统的设计与实现()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2009年09期
页码:
250-253
栏目:
应用开发研究
出版日期:
1900-01-01

文章信息/Info

Title:
Design and Implementation of Web News Automatically Gathering and Publishing System
文章编号:
1673-629X(2009)09-0250-04
作者:
张春元 康耀红 伍小芹
海南大学信息科学技术学院
Author(s):
ZHANG Chun-yuan KANG Yao-hong WU Xiao-qin
Institute of Information Science and Technology, Hainan University
关键词:
网络爬虫网页去噪文档消重Web新闻发布
Keywords:
Web crawler Web pages noises elimination replicated documents elimination Web news publishing
分类号:
TP391.3
文献标志码:
A
摘要:
针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用
Abstract:
News sites manually gather and publish Web news from other sites, which is inefficient and easy to repeatedly collect or miss some news. To solve this problem, using Web information fetching technology, Web pages noises eliminating technology, replicated

相似文献/References:

[1]张林才 张燕 王红霞.节点对等WebSpider设计与实现[J].计算机技术与发展,2010,(03):195.
 ZHANG Lin-cai,ZHANG Yan,WANG Hong-xia.Design and Realization of Peer - to - Peer Web Spider[J].,2010,(09):195.
[2]周凤丽 林晓丽.基于Lucene的Web搜索引擎的研究和实现[J].计算机技术与发展,2012,(01):140.
 ZHOU Feng-li,LIN Xiao-li.Research and Implementation of Web Search Engine Based on Lucene[J].,2012,(09):140.
[3]黄宇达 魏霞 王迤冉[].一种轻量级中文搜索引擎模型的设计与实现[J].计算机技术与发展,2012,(09):201.
 HUANG Yu-da,WEI Xia,WANG Yi-ran.Design and Implementation of System Model of a Lightweight Chinese Search Engine[J].,2012,(09):201.
[4]张俊,李鲁群,周熔.基于Lucene的搜索引擎的研究与应用[J].计算机技术与发展,2013,(06):230.
 ZHANG Jun,LI Lu-qun,ZHOU Rong.Research and Application of Search Engine Based on Lucene[J].,2013,(09):230.
[5]孙青云,王俊峰,赵宗渠,等.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(03):6.
 SUN Qing-yun[],WANG Jun-feng[],ZHAO Zong-qu[],et al.A Microblog Data Collection Method Based on Simulated Login Technology[J].,2014,24(09):6.
[6]杨洋[][],李晓风[][],赵赫[][],等. 基于网络爬虫的文献检索系统的研究和实现[J].计算机技术与发展,2014,24(11):35.
 YANG Yang[][],LI Xiao-feng[][],ZHAO He[][],et al. Research and Realization of Academic Search System Based on Network Crawler[J].,2014,24(09):35.
[7]付剑生[] .徐林龙[]。 林文斌[]. 分布式全网职位搜索引擎的研究与实现[J].计算机技术与发展,2015,25(05):6.
 FU Jian-sheng[],XU Lin-long[],LIN Wen-bin[]. Research and Implementation of Distributed Network-wide Job Search Engine[J].,2015,25(09):6.
[8]韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(02):139.[doi:10.3969/j.issn.1673-629X.2019.02.029]
 HAN Bei,MA Mingdong,WANG Deyu.Research on Crawler and Anti-reptile Based on Scrapy Framework[J].,2019,29(09):139.[doi:10.3969/j.issn.1673-629X.2019.02.029]
[9]王荩梓,赖雯洁. 基于房产交易网站的数据获取与在线工具开发[J].计算机技术与发展,2017,27(05):154.
 WANG Jin-zi,LAI Wen-jie. Data Acquisition and Development of Online Analysis Tools Based on Real Estate Transaction Websites[J].,2017,27(09):154.
[10]陈春玲,张凡,余瀚.Web应用程序漏洞检测系统设计[J].计算机技术与发展,2017,27(09):101.
 CHEN Chun-ling,ZHANG Fan,YU Han. Design of Vulnerability Detection System for Web Application Program[J].,2017,27(09):101.

备注/Memo

备注/Memo:
海南省自然科学基金项目(80638)张春元(1973-),男,湖北武汉人,讲师,硕士,研究方向为信息检索与数据挖掘
更新日期/Last Update: 1900-01-01