[1]孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018,28(05):1-4.[doi:10.3969/j.issn.1673-629X.2018.05.001]
 KONG Qin,YE Changqing,SUN Yun.Research on Data Preprocessing Methods for Big Data[J].,2018,28(05):1-4.[doi:10.3969/j.issn.1673-629X.2018.05.001]
点击复制

大数据下数据预处理方法研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
28
期数:
2018年05期
页码:
1-4
栏目:
智能、算法、系统工程
出版日期:
2018-05-10

文章信息/Info

Title:
Research on Data Preprocessing Methods for Big Data
文章编号:
1673-629X(2018)05-0001-04
作者:
孔钦叶长青孙赟
南京大学,江苏 南京 210089
Author(s):
KONG QinYE Chang-qingSUN Yun
Nanjing University,Nanjing 210089,China
关键词:
大数据预处理脏数据研究
Keywords:
big datapreprocessingdirty dataresearch
分类号:
TP301
DOI:
10.3969/j.issn.1673-629X.2018.05.001
文献标志码:
A
摘要:
大数据时代下,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。数据预处理是数据分析、挖掘前一个非常重要的数据准备工作。一方面它可以保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。文中分析了预处理过程中的主要任务,总结了目前针对各类“脏数据”的几种常用的处理方法,重点阐述了数据在清洗、集成、变换和归约过程中的常用算法。通过各种预处理方法,清除冗余数据,纠正错误数据,完善残缺数据,甄选出必需的数据进行集成,使得数据信息精练化、数据格式一致化和数据存储集中化。在最精确、最可靠的最小数据集合上进行数据挖掘,大大减少了系统挖掘的开销,提高了知识发现的准确性、有效性和实用性。
Abstract:
In the era of big data,it is an enormous challenge about data perception,expression,understanding and computing due to the in-herent complexity of data type,organization pattern,different relations and data quality.Data preprocessing is a very important preparation efore data analysis and mining.On the one hand,it ensures the correctness and effectiveness of data mining.On the other hand,the adjustment of the data format and content makes data meet the demand of mining.We analyze the main tasks of data preprocessing and summarize several popular processing methods for handling various kinds of“dirty data”.The algorithms of data cleaning,integration,transformation and reduction are discussed in detail.Using such kinds of preprocessing methods,we can remove redundant and error data,improve the incomplete data,promote the required data integration,help data refinement and data consistency of centralized storage.We also can get the minimum and the most reliable data set necessary for the mining system.It also reduces the cost of data mining and improves the accuracy,validity and practicability of knowledge discovery.

相似文献/References:

[1]李玲娟 豆坤.层次分析法中判断矩阵的一致性研究[J].计算机技术与发展,2009,(10):131.
 LI Ling-juan,DOU Kun.Research on the Consistency of the Judgment Matrix in AHP[J].,2009,(05):131.
[2]李健 徐超 谭守标.一种Web数据挖掘系统的设计和研究[J].计算机技术与发展,2009,(02):70.
 LI Jian,XU Chao,TAN Shou-biao.Design and Research of a Web Data Mining System[J].,2009,(05):70.
[3]孙林森 吴小培 项明.一种有效的指纹图像预处理方法[J].计算机技术与发展,2009,(02):133.
 SUN Lin-sen,WU Xiao-pei,XIANG Ming.An Effective Method of Fingerprint Image Preprocessing[J].,2009,(05):133.
[4]杨韶华 马骏.一种基于对象相容度的形式背景分割算法[J].计算机技术与发展,2008,(02):27.
 YANG Shao-hua,MA Jun.A Context Partition Algorithm Based on Objects- Match[J].,2008,(05):27.
[5]李玲娟 李冰 薛明.K-MEANS算法在IDS中的应用研究[J].计算机技术与发展,2010,(07):129.
 LI Ling-juan,LI Bing,XUE Ming.Research on Application of K-MEANS Algorithm in IDS[J].,2010,(05):129.
[6]陈立潮 王宇 刘佳 张伟 张力.基于方向图的指纹图像预处理算法[J].计算机技术与发展,2007,(09):85.
 CHEN Li-chao,WANG Yu,LIU Jia,et al.Preprocessing of Fingerprint Image Based on Orientation Map[J].,2007,(05):85.
[7]张婷 吴元君 黄俊 吴建国.选票选举系统中选票图像的预处理方法研究[J].计算机技术与发展,2007,(04):225.
 ZHANG Ting,WU Yuan-jun,HUANG Jun,et al.Research of Image Pre- Processing in Vote Processing System[J].,2007,(05):225.
[8]龙占超 吴畅 徐俊.基于MBF200的嵌入式系统指纹预处理算法研究[J].计算机技术与发展,2006,(02):200.
 LONG Zhan-chao,WU Chang,XU Jun.Research for Fingerprint Pretreatment Algorithm of Embedded System Based on MBF200[J].,2006,(05):200.
[9]王虎 刘路路.基于图像OMR的预处理技术研究[J].计算机技术与发展,2006,(03):87.
 WANG Hu,LIU Lu-lu.Research of Pre- processing Algorithm Based on Image OMR[J].,2006,(05):87.
[10]韩升 刘广志.全文检索系统的数据预处理研究[J].计算机技术与发展,2006,(03):208.
 HAN Sheng,LIU Guang-zhi.Study of Data-Pretreatment for Full-Text Search System[J].,2006,(05):208.

更新日期/Last Update: 2018-06-26