Hadoop - MapReduce（3）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2019-1-16 19:36 | 只看该作者

Hadoop - MapReduce（3）

InputSplit代表一个个逻辑分片，并没有真正存储数据，只是提供了一个如何将数据分片的方法
Split内有Location信息，利于数据局部化
一个InputSplit给一个单独的Map处理

View Code
RecordReader将InputSplit拆分成一个个<key,value>对给Map处理，也是实际的文件读取分隔对象</key,value>
问题大量小文件如何处理CombineFileInputFormat可以将若干个Split打包成一个，目的是避免过多的Map任务（因为Split的数目决定了Map的数目，大量的Mapper Task创建销毁开销将是巨大的）
怎么计算split的通常一个split就是一个block（FileInputFormat仅仅拆分比block大的文件），这样做的好处是使得Map可以在存储有当前数据的节点上运行本地的任务，而不需要通过网络进行跨节点的任务调度
通过mapred.min.split.size， mapred.max.split.size, block.size来控制拆分的大小
如果mapred.min.split.size大于block size，则会将两个block合成到一个split，这样有部分block数据需要通过网络读取
如果mapred.max.split.size小于block size，则会将一个block拆成多个split，增加了Map任务数（Map对split进行计算ק#x5E76;且上报结果，关闭当前计算打开新的split均需要耗费资源）
先获取文件在HDFS上的路径和Block信息，然后根据splitSize对文件进行切分（ splitSize = computeSplitSize(blockSize, minSize, maxSize) ），默认splitSize 就等于blockSize的默认值（64m）

View Code
分片间的数据如何处理split是根据文件大小分割的，而一般处理是根据分隔符进行分割的，这样势必存在一条记录横跨两个split

解决办法是只要不是第一个split，都会远程读取一条记录。不是第一个split的都忽略到第一条记录

View Code
MapReduce - Mapper主要是读取InputSplit的每一个Key,Value对并进行处理

View Code
MapReduce - Shuffle对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不#x662F;直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner，压缩，按key进行分区、排序等，尽量减少结果的大小每个Map完成后都会通知Task，然后Reduce就可以进行处理

收藏分享评分

回复引用

订阅 TOP

返回列表