MapReduce的shuffle过程详解

程序员文章站 2022-10-25 19:10:18

[学习笔记] 结果分析：shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像 ......

[学习笔记]

结果分析：
shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？马克-to-win @ 马克java社区：shuffle在mapreduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为map端和reduce端两个部分。在最开始，假设我们就提交一个大文件，mapreduce会对要处理的大文件数据进行分片（split）操作放到多台机器的集群里，（想象一个搬走大山的大活给一个师的人马，是不是要把人，部署一圈，展开，一人干一块儿，现在是一样的道理。现在你要摆弄一个1.5t的文件，需要先把它切开，分配到不同机器）为每一个分片分配一个maptask任务，接下来会对每一个分片中的每一行数据进行处理，得到键值对（key,value），其中key为偏移量，value为一行的内容。准备给咱们的自己的map方法。执行完咱自己的map方法，便进入shuffle阶段。马克-to-win @ 马克java社区：为提高效率，mapreduce会把我们的写出的结果先存储到map节点的“环形内存缓冲区”（不深入探讨），当写入的数据量达到预先设置的阙值后（默认80%）便会启动溢出（spill）线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，可能会产生很多，并在写入前根据key进行排序（sort）和合并（combine，本章不讨论）。

文章转载自原文：

上一篇： C#图像伪彩色处理方法

下一篇： jQuery结合C#实现上传文件的方法

MapReduce的shuffle过程详解

CorelDraw绘制美女人物的过程详解

详解IE 11 for Win7正式版的安装与卸载过程

WinPE的启动过程详解

TensorFlow dataset.shuffle、batch、repeat的使用详解

为Android应用增加渠道信息自动化不同渠道的打包过程的使用详解

电子杂志的创编制作过程实例详解

android上传图片到PHP的过程详解

linux中了minerd之后的完全清理过程(详解)

mysql的存储过程、游标、事务实例详解

Python程序包的构建和发布过程示例详解

MapReduce的shuffle过程详解

CorelDraw绘制美女人物的过程详解

详解IE 11 for Win7正式版的安装与卸载过程

WinPE的启动过程详解

TensorFlow dataset.shuffle、batch、repeat的使用详解

为Android应用增加渠道信息 自动化不同渠道的打包过程的使用详解

电子杂志的创编制作过程实例详解

android上传图片到PHP的过程详解

linux中了minerd之后的完全清理过程(详解)

mysql的存储过程、游标 、事务实例详解

Python程序包的构建和发布过程示例详解

为Android应用增加渠道信息自动化不同渠道的打包过程的使用详解

mysql的存储过程、游标、事务实例详解