[1]宋金玉,郭一平,王斌.DBSCAN聚类算法的参数配置方法研究[J].计算机技术与发展,2019,29(05):44-48.[doi:10. 3969 / j. issn. 1673-629X. 2019. 05. 009]
 SONG Jin-yu,GUO Yi-ping,WANG Bin.Research on Parameter Configuration Method of DBSCAN Clustering Algorithm[J].,2019,29(05):44-48.[doi:10. 3969 / j. issn. 1673-629X. 2019. 05. 009]
点击复制

DBSCAN聚类算法的参数配置方法研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
29
期数:
2019年05期
页码:
44-48
栏目:
智能、算法、系统工程
出版日期:
2019-05-10

文章信息/Info

Title:
Research on Parameter Configuration Method of DBSCAN Clustering Algorithm
文章编号:
1673-629X(2019)05-0044-05
作者:
宋金玉1郭一平1王斌2
1. 解放军陆军工程大学 指挥控制工程学院,江苏 南京 210007;2. 解放军陆军工程大学 教学考试中心,江苏 镇江 212000
Author(s):
SONG Jin-yu1GUO Yi-ping1WANG Bin2
1. School of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210007,China;2. Center of Teaching and Testing,Army Engineering University of PLA,Zhenjiang 212000,China
关键词:
数据异常检测聚类算法DBSCAN参数配置
Keywords:
abnormal data detectclustering algorithmDBSCANparameter configuration
分类号:
TP311
DOI:
10. 3969 / j. issn. 1673-629X. 2019. 05. 009
摘要:
随着互联网技术的飞速发展,海量数据涌现。 在海量的数据中,存在大量无用甚至错误的“脏数据冶,这些低质量的数据难以提供有价值的信息。 数据质量低的一个方面就是数据异常。 对数据异常检测问题进行了研究,将基于密度的DBSCAN 聚类算法应用于数据的异常检测,并针对该算法在应用过程中对参数设置敏感的问题,提出了一种邻域阈值(Eps)和点数阈值(Minpts)的配置方法。 该方法可根据数据集本身的统计特性以及图表的可视化展示来为算法确定合适的参数。 利用 MATLAB 工具,编程实现了 DBSCAN 聚类算法及辅助参数的计算,并在 Iris 数据集上进行了实验验证。 实验结果表明,用该方法进行 DBSCAN 聚类算法参数的设置是可行的,弥补了 DBSCAN 聚类算法参数设置的传统做法单靠经验的不足,使得检测结果的准确性和可伸缩性更好。
Abstract:
With the rapid development of Internet technology,massive data emerge. There are a large number of useless or even wrong “dirty data” in these data,and these low quality data are difficult to provide valuable information. Data exception is one aspect of low data quality. This paper discusses the application of DBSCAN clustering algorithm in the detection of abnormal data. Aiming at the problem that the algorithm is sensitive to parameter setting in the application process, we propose a configuration method of the neighborhood threshold (Eps) and the point threshold (Minpts) by applying the DBSCAN algorithm based on density to the anomaly detection of data. This method can determine the appropriate parameters according to the statistical characteristics of the data set itself and the visual presentation of the graph. Using MATLAB tool,the DBSCAN clustering algorithm and the calculation of auxiliary parameters are programmed,and the experimental verification is carried out on the Iris data set. The experiment shows that the method is feasible to set the parameters of DBSCAN clustering algorithm,which makes up for the lack of experience alone of the traditional method. The accuracy and scalability of the detection result are improved.

相似文献/References:

[1]方杰 张结魁 周军.基于有向带权图的页面聚类算法研究[J].计算机技术与发展,2009,(09):49.
 FANG Jie,ZHANG Jie-kui,ZHOU Jun.Study on Page Clustering Algorithms Based on Weighted Directed Graph[J].,2009,(05):49.
[2]李静 陈立潮 成洪静 聂跃光.基于Delaunay三角网的CBDT聚类算法研究[J].计算机技术与发展,2009,(01):21.
 LI Jing,CHEN Li-chao,CHENG Hong-jing,et al.Study of Spatial Clustering Algorithm Based on Delaunay Triangulation[J].,2009,(05):21.
[3]金萍 王浩 宗瑜 李明楚.基于调整学习的聚类算法[J].计算机技术与发展,2009,(02):58.
 JIN Ping,WANG Hao,ZONG Yu,et al.Clustering Algorithm Based on Fine- Tuned Learning[J].,2009,(05):58.
[4]吴庆棋 林江云.基于聚类优化GMM提高说话人识别性能的研究[J].计算机技术与发展,2009,(04):35.
 WU Qing-qi,LIN Jiang-yun.A Study on GMM Optimization with Clustering for Improving Speaker Recognition[J].,2009,(05):35.
[5]耿筱媛 张燕平 闫屹.改进的K—means算法在电信客户细分中的应用[J].计算机技术与发展,2008,(05):163.
 GENG Xiao-yuan,ZHANG Yan-ping,YAN Yi.Application of Improved K - means Algorithm Subdivision of Telecom Clients[J].,2008,(05):163.
[6]朱永红.覆盖聚类算法的应用研究[J].计算机技术与发展,2007,(01):123.
 ZHU Yong-hong.Application Study on Covering Clustering Algorithm[J].,2007,(05):123.
[7]王鑫 王洪国 王珺 王金枝[].数据挖掘中聚类方法比较研究[J].计算机技术与发展,2006,(10):20.
 WANG Xin,WANG Hong-guo,WANG Jun,et al.Comparison of Clustering Methods in Data Mining[J].,2006,(05):20.
[8]赵慧 刘希玉 崔海青.网格聚类算法[J].计算机技术与发展,2010,(09):83.
 ZHAO Hui,LIU Xi-yu,CUI Hai-qing.Grid-Based Clustering Algorithm[J].,2010,(05):83.
[9]黄韬 刘胜辉 谭艳娜.基于k-means聚类算法的研究[J].计算机技术与发展,2011,(07):54.
 HUANG Tao,LIU Sheng-hui,TAN Yan-na.Research of Clustering Algorithm Based on K-means[J].,2011,(05):54.
[10]周峰 李龙澍.结合蚁群聚类算法的模糊C均值聚类[J].计算机技术与发展,2012,(07):45.
 ZHOU Feng,LI Long-shu.Fuzzy C Mean Clustering Combined Ant Colony Clustering Algorithm[J].,2012,(05):45.

更新日期/Last Update: 2019-05-10