[1]吕锋 余丽.基于XML的Web数据抽取研究[J].计算机技术与发展,2007,(06):53-55.
 LV Feng,YU Li.Study on Web Data Extraction Based on XML[J].,2007,(06):53-55.
点击复制

基于XML的Web数据抽取研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2007年06期
页码:
53-55
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Study on Web Data Extraction Based on XML
文章编号:
1673-629X(2007)06-0053-03
作者:
吕锋 余丽
武汉理工大学
Author(s):
LV Feng YU Li
Wuhan University of Technology
关键词:
XMLWeb数据抽取
Keywords:
XMLWebdata extraction
分类号:
TP274.2
文献标志码:
A
摘要:
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件
Abstract:
Introduces three common methods for Web data extraction.method that directly analyses HTML document, method that bases on XML(it is also called method that analyses the structure of HTML document ) and conceptual - model- based approach, especially,Web data extraction based on XML is studied. The original HTML document gets through a filter which checks and corrects the syntax structure of HTML document, then forms an well- formed XHTML, XML stools can be used to dispose these HTML documents. Implemented a data preprocessing which transformed the semi- structured HTML document to the structured XML document. Also it created a good condition of using the traditional data extraction methods to deeply data extraction

相似文献/References:

[1]况旭 刘波.XML的面向对象语言特性[J].计算机技术与发展,2010,(01):50.
 KUANG Xu,LIU Bo.XML Object-Oriented Language Characteristic[J].,2010,(06):50.
[2]陆遥 魏皎 陈丽果.基于Web的个性化营养评估保障系统设计与实现[J].计算机技术与发展,2010,(03):1.
 LU Yao,WEI Jiao,CHEN Li-guo.Design and Implementation of Web - Based Personalized Intelligent Nutrition Assessment and Guarantee System[J].,2010,(06):1.
[3]方杰 朱京红.日志挖掘中的数据预处理[J].计算机技术与发展,2010,(04):17.
 FANG Jie,ZHU Jing-hong.Data Pretreatment of Log Mining[J].,2010,(06):17.
[4]何忠秀 王霜 杜亚军.基于Web的多渠道用户需求知识获取框架研究[J].计算机技术与发展,2010,(04):124.
 HE Zhong-xiu,WANG Shuang,DU Ya-jun.Research on Multi- channel's Knowledge Acquisition Frame for Customer Requirements Based on Web[J].,2010,(06):124.
[5]戴伟 陈永艳.基于物理隔离环境下的Web Service访问研究[J].计算机技术与发展,2010,(04):167.
 DAI Wei,CHEN Yong-yan.Research on Web Service Access Approach in Physical Separation[J].,2010,(06):167.
[6]高永兵 吴纪磊 胡文江 魏晓东.基于Web服务的Mashup应用的研究与实现[J].计算机技术与发展,2010,(06):137.
 GAO Yong-bing,WU Ji-lei,HU Wen-jiang,et al.Research and Implementation of Mashup Application Based on Web Service[J].,2010,(06):137.
[7]邱鑫 林颖 王保保.基于XML的嵌入式系统日志解决方案[J].计算机技术与发展,2009,(05):52.
 QIU Xin,LIN Ying,WANG Bao-bao.An XML- Based Log Solution in Embedded System[J].,2009,(06):52.
[8]刘威 杨丹.基于虚拟视图的异构数据库集成平台的研究[J].计算机技术与发展,2009,(06):91.
 LIU Wei,YANG Dan.Research of Heterogeneous Database Integration Platform Based on Virtual View[J].,2009,(06):91.
[9]范金花 梁正和.报表系统中ETL通用框架的设计与研究[J].计算机技术与发展,2009,(06):202.
 FAN Jin-hua,LIANG Zheng-he.Design and Research of Universal ETL Framework in Report System[J].,2009,(06):202.
[10]许晓宏 胡志学 张建军[].基于Web的石油科技管理自动化办公系统[J].计算机技术与发展,2009,(06):213.
 XU Xiao-hong,HU Zhi-xue,ZHANG Jian-jun.Office Automation System of Petroleum Science and Technology Management Based on Web[J].,2009,(06):213.
[11]秦振海 谭守标 徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,(02):217.
 QIN Zhen-hai,TAN Shou-biao,XU Chao.Study on ,Tables Information Extraction Based on Web[J].,2010,(06):217.
[12]高永兵 胡文江 靳荣.Active XML文档重写机制的研究[J].计算机技术与发展,2008,(03):85.
 GAO Yong-bing,HU Wen-jiang,JIN Rong.Research of Rewriting of Active XML Documents[J].,2008,(06):85.
[13]李艳霞 巩九洲 黎玉琴 冯百明.一种基于Web Services的信息集成方案[J].计算机技术与发展,2008,(09):105.
 LI Yan-xia,GONG Jiu-zhou,LI Yu-qin.A Scheme Based on Web Services for Information Integration[J].,2008,(06):105.
[14]袁磊 李帅.基于WebServices的异构系统信息交换的实现[J].计算机技术与发展,2008,(12):8.
 YUAN Lei,LI Shuai.Realization of Information Interchange Model in Isomerous Systems on Web Services[J].,2008,(06):8.
[15]赵娟 郝克刚 葛玮.语义Web在Web服务中的应用[J].计算机技术与发展,2006,(02):7.
 ZHAO Juan,HAO Ke-gang,GE Wei.Application of Semantic Web in Web Services[J].,2006,(06):7.
[16]韩婧.Web Services技术在移动电子商务中的应用[J].计算机技术与发展,2006,(02):20.
 HAN Jing.Application of Web Services in Mobile E-Commerce[J].,2006,(06):20.
[17]白杨.基于Web Services的证书验证系统的模型框架[J].计算机技术与发展,2006,(06):38.
 BAI Yang.A Model Framework for Certificate Validation System Based on Web Services[J].,2006,(06):38.
[18]白杨.基于Web Services的证书验证系统的设计与实现[J].计算机技术与发展,2006,(07):138.
 BAI Yang.Design and Realization for Certificate Validation System Based on Web Services[J].,2006,(06):138.
[19]陆培军.基于XML Web Services的异构平台通信研究[J].计算机技术与发展,2006,(11):122.
 LU Pei-jun.Study of Communication of Different Platform Based on XML Web Services[J].,2006,(06):122.
[20]杨振宇 武波.XML在Web Services中的应用与研究[J].计算机技术与发展,2006,(11):250.
 YANG Zhen-yu,WU Bo.Application and Research of XML on Web Services[J].,2006,(06):250.

备注/Memo

备注/Memo:
教育部重点实验室开放研究基金(TKLJ0203)吕锋(1957-),男,山东滨州人,教授,研究方向为计算机网络通信、信息系统与信息安全技术、计算机控制与仿真、灰色系统理论与应用
更新日期/Last Update: 1900-01-01