[1]秦振海 谭守标 徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,(02):217-220.
 QIN Zhen-hai,TAN Shou-biao,XU Chao.Study on ,Tables Information Extraction Based on Web[J].,2010,(02):217-220.
点击复制

基于Web的表格信息抽取研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2010年02期
页码:
217-220
栏目:
应用开发研究
出版日期:
1900-01-01

文章信息/Info

Title:
Study on ,Tables Information Extraction Based on Web
文章编号:
1673-629X(2010)02-0217-04
作者:
秦振海 谭守标 徐超
安徽大学电子科学与技术学院
Author(s):
QIN Zhen-hai TAN Shou-biao XU Chao
Department of Electronic Science and Technology, Anhui University
关键词:
HTML表格信息抽取WebXML
Keywords:
HTML tables information extraction Web XML
分类号:
TP393
文献标志码:
A
摘要:
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格
Abstract:
Nowadays, web becomes the main information resource. According to the report, tables are used frequently in web documents. Since tables are inherently concise as well as information rich, the automatic understanding of tables has many applications includi

相似文献/References:

[1]韩普 姜杰.HMM在自然语言处理领域中的应用研究[J].计算机技术与发展,2010,(02):245.
 HAN Pu,JIANG Jie.Application and Research of Hidden Markov Model in Natural Language Processing Domain[J].,2010,(02):245.
[2]胡国晴 李建华.一种基于可信度分析的Web页面新属性发现方法[J].计算机技术与发展,2009,(01):56.
 HU Guo-qing,LI Jian-hua.A Credibility Analysis- Based Method to Discover New Attributes Web Pages[J].,2009,(02):56.
[3]李宏伟 史培中 张素智.一种高效Web数据抽取包装器的设计与实现[J].计算机技术与发展,2009,(02):123.
 LI Hong-wei,SHI Pei-zhong,ZHANG Su-zhi.Design and Implementation of an Efficient Wrapper for Web Data Extraction[J].,2009,(02):123.
[4]赵金仿 赵艳 缪建明.网页信息抽取及其自动文本分类的实现[J].计算机技术与发展,2008,(10):37.
 ZHAO Jin-fang,ZHAO Yan,MIAO Jian-ming.Extraction of Homepage Text Information and Realization of Text Automatic Categorization[J].,2008,(02):37.
[5]崔阳 吴爱华.一种面向B2B垂直搜索的网页信息去噪方法[J].计算机技术与发展,2008,(12):70.
 CUI Yang,WU Ai-hua.A Method of Eliminating Noisy Information in Web Pages Oriented B2B Vertical Searching[J].,2008,(02):70.
[6]徐慧 杨学兵.基于本体相似度的中文科研论文信息抽取[J].计算机技术与发展,2008,(12):203.
 XU Hui,YANG Xue-bing.Information Extraction from Chinese Research Papers Based on Ontology Similarity[J].,2008,(02):203.
[7]仲华 崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,(07):49.
 ZHONG Hua,CUI Zhi-ming.Research on Information Extraction and Multilayer Vector Space Based on XML Technology[J].,2007,(02):49.
[8]陈静 朱巧明 贡正仙.基于Ontology的信息抽取研究综述[J].计算机技术与发展,2007,(10):84.
 CHEN Jing,ZHU Qiao-ming,GONG Zheng-xian.Overview of Ontology - Based Information Extraction[J].,2007,(02):84.
[9]邹腊梅 肖基毅 龚向坚.基于Maximum Likelihood与HMM的文本挖掘[J].计算机技术与发展,2007,(12):110.
 ZOU La-mei,XIAO Ji-yi,GONG Xiang-jian.Text Information Mining Based on Maximum Likelihood and Hidden Markov Model[J].,2007,(02):110.
[10]杨红超 肖基毅.基于HMM/BP混合模型的文本信息抽取研究[J].计算机技术与发展,2011,(05):115.
 YANG Hong-chao,XIAO Ji-yi.Text Information Extraction Research Based on HMM and BP Network Hybrid Model[J].,2011,(02):115.

备注/Memo

备注/Memo:
安徽省自然科学研究重点项目(2005KJ004ZD)秦振海(1981-),男,安徽阜阳人,从事网络与智能信息系统研究;谭守标,博士,教授,从事网络与智能信息系统研究;徐超,博士,教授,从事网络与智能信息系统研究。
更新日期/Last Update: 1900-01-01