[1]王晓军,孙惠.基于MapReduce的多路连接优化方法研究[J].计算机技术与发展,2013,(06):59-62.
 WANG Xiao-jun,SUN Hui.Research of Optimizing Multiway Joins Based on MapReduce[J].,2013,(06):59-62.
点击复制

基于MapReduce的多路连接优化方法研究()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2013年06期
页码:
59-62
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
Research of Optimizing Multiway Joins Based on MapReduce
文章编号:
1673-629X(2013)06-0059-04
作者:
王晓军孙惠
南京邮电大学信息网络技术研究所
Author(s):
WANG Xiao-junSUN Hui
关键词:
MapReduce技术多数据集连接分区策略Hadoop
Keywords:
MapReduce technologymultiway joinsshuffling strategyHadoop
文献标志码:
A
摘要:
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用.但是MapReduce框架中的“一对一分区”策略使得其在处理多数据连接任务时,需要将该任务拆分成多个链接的子任务,造成中间结果集的频繁“洗牌”,带来巨大的磁盘I/O开销.文中就该问题提出了一种新的分区策略:“一对多分区”策略,为了能够在MapReduce框架中实现这一分区策略,因此需要对MapReduce框架中的分区函数接口进行修改.改进策略的优点在于只要一个MapReduce任务就能够完成多数据集连接任务,因此节省了I/O开销.最后在搭建的Hadoop平台上对改进前和改进后的两种方法进行比较.实验结果表明,改进模式的效率明显得到提高,因此这一方案是可行的
更新日期/Last Update: 1900-01-01