[1]朱永生 王军.基于Web内容的一种数据自动抽取方法[J].计算机技术与发展,2012,(05):87-89.
 ZHU Yong-sheng,WANG Jun.A Data Automatic Extraction Method Based on Web Content[J].,2012,(05):87-89.
点击复制

基于Web内容的一种数据自动抽取方法()

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2012年05期
页码:
87-89
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
A Data Automatic Extraction Method Based on Web Content
文章编号:
1673-629X(2012)05-0087-03
作者:
朱永生 王军
南京信息工程大学网络信息中心
Author(s):
ZHU Yong-sheng WANG Jun
Network Information Center, Nanjing University of Information Science & Technology
关键词:
Web抽取html变换Asp.Net
Keywords:
web extraction html anchor transform Asp. Net
分类号:
TP301
文献标志码:
A
摘要:
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c撑技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息
Abstract:
The rapid development of the Web makes it become increasingly an important source of data that people find useful data,cur rent Web sites present information on various topics in various formats and structures. The page organization structure of Web content makes it difficult to use the method of system to effectively extract target data. It uses the Asp. Net technology to develop a data automatic extraction method based on Web content. First it selects target data sources,then it invokes automatically data source and obtains static html document content,generates description file of webpage in accordance with fixed roles,analyzes html document,sets a goal anchor,finally it uses regular expressions and c # technology to automatically extract target data and generate required Web page. This data automatic extraction method can make Web user quickly get the required data information

相似文献/References:

[1]魏颖颖 熊淑华 李冲.基于CSS的网页下拉菜单设计与实现[J].计算机技术与发展,2011,(04):17.
 WEI Ying-ying,XIONG Shu-hua,LI Chong.Design and Implementation of Web Drop-Down Menu Based on CSS[J].,2011,(05):17.

备注/Memo

备注/Memo:
江苏省公益性行业科研专项(GYHY201106037)朱永生(1979-),男,江苏盐城人,硕士,信息系统项目管理师,实验师,研究方向为高级软件开发、web服务等;王军,博士,教授,研究方向分布式对象计算
更新日期/Last Update: 1900-01-01