[1]戴颖 李兴国 赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,(07):13-16.
 DAI Ying,LI Xing-guo,ZHAO Qi-fei.Improved Method for Detecting Incremental Approximately Duplicate Records[J].,2010,(07):13-16.
点击复制

一种相似重复记录检测算法的改进研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2010年07期
页码:
13-16
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Improved Method for Detecting Incremental Approximately Duplicate Records
文章编号:
1673-629X(2010)07-0013-04
作者:
戴颖 李兴国 赵启飞
合肥工业大学管理学院
Author(s):
DAI YingLI Xing-guoZHAO Qi-fei
School of Management,Hefei University of Technology
关键词:
相似重复记录增量式聚类树等级法
Keywords:
approximately duplicate record incremental clustering tree ranked-based method
分类号:
TP311.5
文献标志码:
A
摘要:
相似重复记录检测是数据清洗领域中的一个重要方面。文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法。该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率。最后通过实验证明了该算法的有效性,并提出了进一步的研究方向
Abstract:
Cleaning approximately duplicate records is an important task in data cleaning.Problems of detecting approximately duplicate records when the data set is dynamically increased on the assumption of stable data model and matching rules are studied.An improv

相似文献/References:

[1]杨洋[],王秀芹[]. 基于能量衰减的增量式声源跟踪算法研究[J].计算机技术与发展,2014,24(12):41.
 YANG Yang[],WANG Xiu-qin[]. Research on Incremental Tracking Algorithm of Sound Source Based on Energy Attenuation[J].,2014,24(07):41.

备注/Memo

备注/Memo:
国家自然科学基金项目(70871033)戴颖(1985-),女,江苏扬中人,硕士研究生,研究方向为数据清洗、项目管理李兴国,教授,研究方向为信息管理、企业管理及其信息化建设
更新日期/Last Update: 1900-01-01