默认的切片机制

  1. 简单地按照文件的内容长度进行切片
  2. 切片大小,默认等于 block 大小**(Local模式默认32M,集群模式默认128M)**
  3. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

源码分析

参考:Hadoop MapReduce Splits 切片源码分析及切片机制

计算切片大小 computeSplitSize

默认情况下,切片大小=blocksize

protected long computeSplitSize(long blockSize, long minSize, long maxSize) {return Math.max(minSize, Math.min(maxSize, blockSize));
}

SPLIT_SLOP

每次切片时,都要判断切完剩下的部分是否大于块的 1.1 倍, 不大于 1.1 倍就划分一块切片

private static final double SPLIT_SLOP = 1.1;   // 10% slop
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);splits.add(makeSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts(),blkLocations[blkIndex].getCachedHosts()));bytesRemaining -= splitSize;
}

通过分析源码,在 FileInputFormat 中,计算切片大小的逻辑:Math.max(minSize,
Math.min(maxSize, blockSize));

切片主要由这几个值来运算决定

mapreduce.input.fileinputformat.split.minsize=1 //默认值为 1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue //默认值

因此,默认情况下,切片大小=blocksize。
maxsize(切片最大值):参数如果调得比 blocksize 小,则会让切片变小,就等于
配置的这个参数的值。
minsize(切片最小值):参数调的比 blockSize 大,则可以让切片变得比 blocksize 还大

Hadoop FileInputFormat 默认切片机制相关推荐

  1. 他来了他来了,Hadoop序列化和切片机制了解一下?

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 切片机制 一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的 ...

  2. 【Hadoop】MR 切片机制 MR全流程

    1.概念 2.Split机制 3.MR Shuffle过程 4.MR中REDUCE与MAP写作过程 5.MR全貌 转载于:https://www.cnblogs.com/junneyang/p/585 ...

  3. Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制

    文章目录 13.MapReduce框架原理 13.1InputFormat数据输入 13.1.4FileInputFormat切片机制 13.1.4.1切片机制 13.1.4.2案例分析 13.1.4 ...

  4. 【hadoop】20.MapReduce-InputFormat数据切片机制

    2019独角兽企业重金招聘Python工程师标准>>> 简介 通过本章节,您可以学习到: Job的提交流程 InputFormat数据切片的机制 1.Job提交流程源码分析 1)jo ...

  5. MapTask并行度决定机制、FileInputFormat切片机制、map并行度的经验之谈、ReduceTask并行度的决定、MAPREDUCE程序运行演示(来自学笔记)

    1.3 MapTask并行度决定机制 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度 那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢? 1.3 ...

  6. FileInputFormat切片机制和实现类

    Hadoop学习 FileInputFormat切片机制和实现类 FileInputFormat切片机制 CombineTextInputFormat切片机制 CombineTextInputForm ...

  7. FileInputFormat切片机制和配置参数

    1. FileInputFormat中默认的切片机制 (1)简单地按照文件的内容长度进行切片 (2)切片大小,默认等于block大小(本地模式块大小32M,yarn模式128M,老的版本64M) (3 ...

  8. 大数据之-Hadoop3.x_MapReduce_FileInputFormat切片机制---大数据之hadoop3.x工作笔记0106

     然后我们再来看一下这个FileInputFormat的切片机制,可以看到 实际上切片就是按照文件的长度,一个切片大小默认等于块大小,切片是逻辑切片,不是物理切片 仅仅是做了标记 然后切片时不考虑数据 ...

  9. Hadoop MapReduce Splits 切片源码分析及切片机制

    本文从Job提交,逐步分析Splits相关源码. 数据块:Block是HDFS物理上把数据分成一块一块的. 数据切片:数据切片只是在物理上输入进行分片,并不会在磁盘上将其分成片进行存储. 文件路径 o ...

最新文章

  1. dataGridView1去掉第一列
  2. 信息网络传播权保护条例(2006)
  3. mongodb数据可视化_使用MongoDB实时可视化开放数据
  4. C/C++ ultoa函数 - C语言零基础入门教程
  5. 软件测试技术第一次试验之——JUnit的安装与使用
  6. js中精度问题以及解决方案
  7. python 3.5 format_python 3.5学习笔记(第四章)
  8. Python_二维数组
  9. 如何在虚拟机安装windows server 2003
  10. 喵咪制造机:生成式对抗网络的花式画喵大法
  11. android 玩pc游戏,如何在您的Android设备上玩经典PC游戏 | MOS86
  12. illegal offset type php,PHP warning Illegal offset type错误解决办法
  13. csrf 功能 及 csrf装饰器使用
  14. 五分钟掌握计时器CountDownTimer,快速实现倒计时功能
  15. UGUI动画快速制作
  16. jar包是干什么用的
  17. Python语言程序设计 - 测验6: 组合数据类型 (第6周)
  18. k8s进阶篇-云原生存储ceph
  19. hdu 6217 BBP Formula
  20. 免安装:MySQL配制

热门文章

  1. WEB端和微信小程序端的文档文件在线预览方法
  2. ACM--steps--dyx--1.3.8--Fighting for HDU
  3. 杰理之音量调节【篇】
  4. 万里挑一的小众APP,分享给你啦
  5. ExtJS config 使用
  6. 服务器部署Nginx和Vue项目
  7. trunk和acces
  8. class mate
  9. ui设计师的职责与岗位要求
  10. 神经网络模型的实际案例,神经网络模型数据处理