[1]包从剑 李星毅 施化吉.可扩展和可交互的数据清洗系统[J].计算机技术与发展,2007,(07):84-86.
 BAO Cong-jian,LI Xing-yi,SHI Hua-ji.Extendible and Interactive Data Cleaning System[J].,2007,(07):84-86.
点击复制

可扩展和可交互的数据清洗系统()

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2007年07期
页码:
84-86
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Extendible and Interactive Data Cleaning System
文章编号:
1673-629X(2007)07-0084-03
作者:
包从剑 李星毅 施化吉
江苏大学计算机科学与通信工程学院
Author(s):
BAO Cong-jian LI Xing-yi SHI Hua-ji
School of Computer Science and Tdecommunications Engineering, Jiangsu University
关键词:
数据仓库数据检测数据清洗
Keywords:
data warehouse data detection data cleaning
分类号:
TP311
文献标志码:
A
摘要:
可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率
Abstract:
The prominent features of the data cleaning system are manifested in extendibility and interactivity. To describe the traits of this system firstly,list the cause of abnormal data,then apply system framework to explain each functional parts;next introduce the statistics method to detect abnormal data; following, advocate corresponding cleaning amendment strategies in accordance with various patterns of abnormal data, thus explain the fineness of appraisal and elicit quality-measuring criteria; ultimately, explain this whole system by flow chart. The results of population data cleaning manifest that the quality of population data has been greatly improved ,and provide the evidences that this system bears the stamp of pretty high administrative efficiency

相似文献/References:

[1]吉同路 柏永飞 王立松.住宅与房地产电子政务中数据挖掘的应用研究[J].计算机技术与发展,2010,(01):235.
 JI Tong-lu,BAI Yong-fei,WANG Li-song.Study and Application of Data Mining in E-government of House and Real Estate Industry[J].,2010,(07):235.
[2]梁美红 张男楠 李建 伍东 胡永泉 杨静.一种钻井数据仓库ETL系统的设计[J].计算机技术与发展,2010,(03):250.
 LIANG Mei-hong,ZHANG Nan-nan,LI Jian,et al.Design of ETL System for Drilling Data Warehouse[J].,2010,(07):250.
[3]林智超 孙蕾.多维数据库模式下联机数据分析技术的实施[J].计算机技术与发展,2010,(05):75.
 LIN Zhi-chao,SUN Lei.Implementation of OLAP Based on Multidimensional Database[J].,2010,(07):75.
[4]汪涛.医院数据仓库数据模型设计[J].计算机技术与发展,2010,(05):191.
 WANG Tao.Data Model Design of Hospital Data Warehouse[J].,2010,(07):191.
[5]秦学勇 刘栋[].数据仓库的可扩展性研究与设计[J].计算机技术与发展,2009,(05):65.
 QIN Xue-yong,LIU Dong.Research and Design on Scalability of Data Warehouse[J].,2009,(07):65.
[6]吴先斌 林国龙 杨斌 王洁.数据仓库在口岸物流中的应用[J].计算机技术与发展,2009,(12):233.
 WU Xian-bin,LIN Guo-long,YANG Bin,et al.Data Warehouse Application in Port Logistics[J].,2009,(07):233.
[7]林昕 李心科.一种OLAP海量数据载入技术的研究[J].计算机技术与发展,2008,(02):51.
 LIN Xin,LI Xin-ke.Study on OLAP Mass Data Loading Technology[J].,2008,(07):51.
[8]闫娜娜 刘锋 李锡娟 耿波.支持CRM分析的数据仓库多维启动模型[J].计算机技术与发展,2008,(05):67.
 YAN Na-na,LIU Feng,LI Xi-juan,et al.A Multidimentional Starter Model of Data Warehouse to Support CRM Analysis[J].,2008,(07):67.
[9]王预.数据仓库与数据挖掘的关系及其安全性问题[J].计算机技术与发展,2008,(05):144.
 WANG Yu.Relation of Data Warehouse and Data Mining and Its Safety[J].,2008,(07):144.
[10]周蓝粢 周肆清 杨炼.数据仓库技术在医院病情诊疗分析中的应用研究[J].计算机技术与发展,2008,(08):230.
 ZHOU Lan-zi,ZHOU Si-qing,YANG Lian.Research and Application of Data Warehouse in Hospital for Analysis of Diagnosis of State of Illnesses[J].,2008,(07):230.

备注/Memo

备注/Memo:
包从剑(1975-),男,浙江三门人,硕士研究生,研究方向为数据仓库、数据挖掘、数据清洗;李星毅,副教授,博士研究生,研究方向为空间数据库交通信息系统和控制;施化吉,副教授,博士,研究方向为信息安全、数据库
更新日期/Last Update: 1900-01-01