[1]王晓军,孙惠.基于MapReduce的多路连接优化方法研究[J].计算机技术与发展,2013,(06):59-62.
WANG Xiao-jun,SUN Hui.Research of Optimizing Multiway Joins Based on MapReduce[J].,2013,(06):59-62.
点击复制
基于MapReduce的多路连接优化方法研究(
)
《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]
- 卷:
-
- 期数:
-
2013年06期
- 页码:
-
59-62
- 栏目:
-
智能、算法、系统工程
- 出版日期:
-
1900-01-01
文章信息/Info
- Title:
-
Research of Optimizing Multiway Joins Based on MapReduce
- 文章编号:
-
1673-629X(2013)06-0059-04
- 作者:
-
王晓军; 孙惠
-
南京邮电大学信息网络技术研究所
- Author(s):
-
WANG Xiao-jun; SUN Hui
-
-
- 关键词:
-
MapReduce技术; 多数据集连接; 分区策略; Hadoop
- Keywords:
-
MapReduce technology; multiway joins; shuffling strategy; Hadoop
- 文献标志码:
-
A
- 摘要:
-
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用.但是MapReduce框架中的“一对一分区”策略使得其在处理多数据连接任务时,需要将该任务拆分成多个链接的子任务,造成中间结果集的频繁“洗牌”,带来巨大的磁盘I/O开销.文中就该问题提出了一种新的分区策略:“一对多分区”策略,为了能够在MapReduce框架中实现这一分区策略,因此需要对MapReduce框架中的分区函数接口进行修改.改进策略的优点在于只要一个MapReduce任务就能够完成多数据集连接任务,因此节省了I/O开销.最后在搭建的Hadoop平台上对改进前和改进后的两种方法进行比较.实验结果表明,改进模式的效率明显得到提高,因此这一方案是可行的
更新日期/Last Update:
1900-01-01