[1]张鑫,吴海涛,曹雪虹.Hadoop 环境下基于随机森林的特征选择算法[J].计算机技术与发展,2018,28(07):88-92.[doi:10.3969/ j. issn.1673-629X.2018.07.019]
 ZHANG Xin,WU Hai-tao,CAO Xue-hong.A Feature Selection Algorithm Based on Random Forest in Hadoop Platform[J].,2018,28(07):88-92.[doi:10.3969/ j. issn.1673-629X.2018.07.019]
点击复制

Hadoop 环境下基于随机森林的特征选择算法()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
28
期数:
2018年07期
页码:
88-92
栏目:
智能、算法、系统工程
出版日期:
2018-07-10

文章信息/Info

Title:
A Feature Selection Algorithm Based on Random Forest in Hadoop Platform
文章编号:
1673-629X(2018)07-0088-05
作者:
张鑫1 吴海涛2 曹雪虹3
1. 南京邮电大学 通信与信息工程学院,江苏 南京 210003;
2. 南京工程学院 通信工程学院,江苏 南京 211167;
3. 南京工程学院 康尼机电研究院,江苏 南京 211167
Author(s):
ZHANG Xin 1 WU Hai-tao 2 CAO Xue-hong 3
1. School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;
2. School of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China;
3. Kangni Electromechanical Institute,Nanjing Institute of Technology,Nanjing 211167,China
关键词:
高维大数据随机森林MapReduce特征选择分类
分类号:
TP181
DOI:
10.3969/ j. issn.1673-629X.2018.07.019
文献标志码:
A
摘要:
针对传统随机森林算法不能有效、快速地处理海量高维数据,导致分类效果不理想的问题,以提高分类准确率和运行效率为目的,提出了一种基于 Hadoop 平台的分布式可扩展随机森林算法。 该算法采用基于袋外数据集测试准确率变化的特征选择算法,在分布式平台上使用 MapReduce 构建随机森林,然后通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。 最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。 实验结果表明,相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。

相似文献/References:

[1]陈斌,苏一丹,黄山. 基于KM-SMOTE和随机森林的不平衡数据分类[J].计算机技术与发展,2015,25(09):17.
 CHEN Bin,SU Yi-dan,HUANG Shan. Classification of Imbalance Data Based on KM-SMOTE Algorithm and Random Forest[J].,2015,25(07):17.
[2]张丹丹,李雷. 基于PCANet-RF的人脸检测系统[J].计算机技术与发展,2016,26(02):31.
 ZHANG Dan-dan,LI Lei. Face Detection System Based on PCANet-RF[J].,2016,26(07):31.
[3]刘广东,邱晓晖.基于多模式LBP 与深度森林的指静脉识别[J].计算机技术与发展,2018,28(07):83.[doi:10.3969/ j. issn.1673-629X.2018.07.018]
 LIU Guang-dong,QIU Xiao-hui.Finger Vein Recognition Based on Multi-mode LBP and Deep Forest[J].,2018,28(07):83.[doi:10.3969/ j. issn.1673-629X.2018.07.018]
[4]刘凯,郑山红,蒋权,等.基于随机森林的自适应特征选择算法[J].计算机技术与发展,2018,28(09):101.[doi:10.3969/j.issn.1673-629X.2018.09.021]
 LIU Kai,ZHENG Shanhong,JIANG Quan,et al.A Self-adaptive Feature Selection Algorithm Based on Random Forest[J].,2018,28(07):101.[doi:10.3969/j.issn.1673-629X.2018.09.021]
[5]陆兵,顾苏杭.基于级联特征的随机森林运动目标跟踪算法[J].计算机技术与发展,2019,29(05):86.[doi:10. 3969 / j. issn. 1673-629X. 2019. 05. 019]
 LU Bing,GU Su-hang.A Moving Object Tracking Algorithm of Random Forest Based on Features Cascade[J].,2019,29(07):86.[doi:10. 3969 / j. issn. 1673-629X. 2019. 05. 019]
[6]刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(06):100.[doi:10. 3969 / j. issn. 1673-629X. 2019. 06. 021]
 LIU Yao-jie,LIU Du-yu.Research on Improved Random Forest Algorithm Based on Unbalanced Datasets[J].,2019,29(07):100.[doi:10. 3969 / j. issn. 1673-629X. 2019. 06. 021]
[7]苗立志,刁继尧,娄 冲,等.基于 Spark 和随机森林的乳腺癌风险预测分析[J].计算机技术与发展,2019,29(08):142.[doi:10. 3969 / j. issn. 1673-629X. 2019. 08. 027]
 MIAO Li-zhi,DIAO Ji-yao,LOU Chong,et al.Breast Cancer Risk Prediction Analysis Based on Apache Spark and Random Forest Algorithm[J].,2019,29(07):142.[doi:10. 3969 / j. issn. 1673-629X. 2019. 08. 027]
[8]于 澍,曹 琦,刘 涛.基于随机森林的微博互动特征分析[J].计算机技术与发展,2019,29(10):51.[doi:10. 3969 / j. issn. 1673-629X. 2019. 10. 011]
 YU Shu,CAO Qi,LIU Tao.Analysis of Interactive Characteristics of Weibo Based on Random Forest[J].,2019,29(07):51.[doi:10. 3969 / j. issn. 1673-629X. 2019. 10. 011]
[9]姬晓飞,石宇辰.多分类器融合的光学遥感图像目标识别算法[J].计算机技术与发展,2019,29(11):52.[doi:10. 3969 / j. issn. 1673-629X. 2019. 11. 011]
 JI Xiao-fei,SHI Yu-chen.Optical Remote Sensing Image Object Recognition Based on Multiple Classifications Fusion[J].,2019,29(07):52.[doi:10. 3969 / j. issn. 1673-629X. 2019. 11. 011]
[10]王 诚,高 蕊.基于特征约简的随机森林改进算法研究[J].计算机技术与发展,2020,30(03):40.[doi:10. 3969 / j. issn. 1673-629X. 2020. 03. 008]
 WANG Cheng,GAO Rui.An Improved Random Forest Algorithm Based on Feature Reduction[J].,2020,30(07):40.[doi:10. 3969 / j. issn. 1673-629X. 2020. 03. 008]

更新日期/Last Update: 2018-08-29