1.切片机制

切片大小,默认等于Block(128M)大小
切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

简单地按照文件的内容长度进行切片

2.源码中计算公式可以调整切片大小(默认等于Block(128M)大小)

computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

mapreduce.input.fileinputformat.split.minsize=1 (默认值为1)
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue (Long最大值)

每次切片时,需要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片,大于则分两块。

切片大小调整如下:
maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大。

获取切片信息API
// 获取切片的文件名称
String name = inputSplit.getPath().getName();
// 根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit) context.getInputSplit();

MapReduce之FileInputFormat切片机制相关推荐

  1. MapTask并行度决定机制、FileInputFormat切片机制、map并行度的经验之谈、ReduceTask并行度的决定、MAPREDUCE程序运行演示(来自学笔记)

    1.3 MapTask并行度决定机制 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度 那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢? 1.3 ...

  2. Mapreduce源码分析(一):FileInputFormat切片机制,源码详解

    FileInputFormat切片机制,源码详解 1.InputFormat:抽象类 只有两个抽象方法 public abstract List<InputSplit> getSplits ...

  3. FileInputFormat切片机制和实现类

    Hadoop学习 FileInputFormat切片机制和实现类 FileInputFormat切片机制 CombineTextInputFormat切片机制 CombineTextInputForm ...

  4. FileInputFormat切片机制

    FileInputFormat切片机制 FileInputFormat的切片方法getSplits 本示例以1G的一个文件来进行分析,块大小为128M,则1G数据有8个块 public List< ...

  5. Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制

    文章目录 13.MapReduce框架原理 13.1InputFormat数据输入 13.1.4FileInputFormat切片机制 13.1.4.1切片机制 13.1.4.2案例分析 13.1.4 ...

  6. FileInputFormat切片机制和配置参数

    1. FileInputFormat中默认的切片机制 (1)简单地按照文件的内容长度进行切片 (2)切片大小,默认等于block大小(本地模式块大小32M,yarn模式128M,老的版本64M) (3 ...

  7. MapReduce中FileInputFormat解析

    1.概述 在map阶段,文件先被切分成split块,而后每一个split切片对应一个Mapper任务. FileInputFormat这个类先对输入文件进行逻辑上的划分,以128M为单位,将原始数据从 ...

  8. Hadoop MapReduce Splits 切片源码分析及切片机制

    本文从Job提交,逐步分析Splits相关源码. 数据块:Block是HDFS物理上把数据分成一块一块的. 数据切片:数据切片只是在物理上输入进行分片,并不会在磁盘上将其分成片进行存储. 文件路径 o ...

  9. Hadoop FileInputFormat 默认切片机制

    默认的切片机制 简单地按照文件的内容长度进行切片 切片大小,默认等于 block 大小**(Local模式默认32M,集群模式默认128M)** 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 ...

最新文章

  1. TableView的重要性
  2. python在删除对象时会自动调用析构函数_Python面向对象程序设计构造函数和析构函数用法分析...
  3. php 获取文件扩展名的方法,PHP获取文件扩展名的4种方法,_PHP教程
  4. 风能matlab仿真_发现潜力:使用计算机视觉对可再生风能发电场的主要区域进行分类(第1部分)
  5. 信息学奥赛一本通(1049:晶晶赴约会)
  6. 《Python分布式计算》 第8章 继续学习 (Distributed Computing with Python)
  7. java swing画三角形_如何使用Java Swing编写肮脏的渐变绘制边框
  8. 300. 最长递增子序列(JavaScript)
  9. 安装CentOS的注意事项
  10. 图像识别算法超低代码开发方案
  11. uni的numberbox怎么用_jQuery EasyUI表单插件Numberbox数字框
  12. 计算机英语单词大全txt,计算机英语词汇大全.txt
  13. Element plus设置日历每周第一天从周一开始
  14. boa服务器如何运行cgi,BOA服务器与CGI
  15. 2021年高压电工考试技巧及高压电工模拟考试
  16. ES pinyin 插件 拼音搜索 原理 match_phase
  17. 实验一 网络流量捕获实验
  18. Check It Again: Progressive Visual Question Answering via Visual Entailment
  19. 文本匹配相似度计算---多种距离算法 ,多种相似度计算算法,一看就懂
  20. 【FLASK】发送QQ邮件

热门文章

  1. Python读Word里的表格
  2. 上元教师陶老师-如何在面试考试中脱颖而出,赢得考官“芳心”?
  3. 介绍一款Android小游戏--交互式人机对战五子棋
  4. 如何把android设备中的固件dump出来
  5. Python认证-权限
  6. 万里挑一的小众APP,分享给你啦
  7. linux防火墙禁用traceroute,raw socket traceroute权限拒绝处理
  8. linux修改内核禁用模块,sysctl以及利用sysctl禁用ipv6模块
  9. 大咖云集!畅谈人工智能应用创新方法论
  10. Component和PureComponent的区别