什么是HIVE

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive参考手册

什么是pig

pig是在HDFS和MapReduce之上的数据流处理语言(脚本语言),它将数据流处理翻译成多个MapReduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来。pig参考手册

不同的方式做同样的事情(Two ways of doing same thing)

1、都是使用高层次的语言生成MapReduce任务

2、都使Users不用了解MapReduce与HDFS的细节

基本信息对比


 

HIVE

Pig

开发者

Facebook

Yahoo!

语言

HiveQL

Pig Latin

语言类型

类似SQL查询语言

Select * from mytable


数据流处理语言,由一系列的operation和transformation组成。

每个操作或变换对输入进行数据处理,然后产生输出结果

A = LOAD ‘mydata’ AS (Col1:chararray, Col2:int)

B = GROUP A BY (Col2)

Dump B


用户

在Analysts中更流行

在Programmer与Researcher中更流行

使用模式

Analysts:生成日常报表

Programmer:写复杂的数据管道

Researcher:特设分析(ad-hoc),例如机器学习


发展方向

Hive朝着数据仓库的方向发展,

使用者要求与其他系统更好的结合(O/JDBC)


Pig朝着语言的方向发展,使用者要求有更好的开发环境

例如调试器,编辑器

细节对比


特性

HIVE

Pig

模式/类型(Schemas/Types)

支持(显示的)

支持(隐式的)

分区(partitions)

支持

不支持

用户自定义函数(UDF)

支持(Java)

支持(Java)

自定义序列化(Serializer/Deserializer)

支持

支持

直接访问DFS

支持(隐式的)

支持(显式的)

Join/Order/Sort操作

支持

支持

Shell命令

支持

支持

网络接口

支持

不支持

JDBC/ODBC

支持(有限的)

不支持

1、两者均不支持事物与索引,全盘扫描是常态

2、两者均不支持随机读与实时查询

总结

直接使用Hadoop的Java APIs实现MapReduce任务是乏味和容易出错的,同时也限制了编程的灵活性。于是Hadoop提供了两个解决方案使得编程变得更加容易,即Hive与Pig。

Hive主要用于静态的结构以及需要经常分析的工作,并且Hive与SQL相似促使其成为Hadoop与其他BI(商业智能)工具结合的理想交集。

Pig相比Hive相对轻量,Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。

HIVE与PIG对比相关推荐

  1. 数据分析:Hive、Pig和Impala

    本文主要分享Hadoop三大分析工具:Hive.Pig和Impala. Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源 ...

  2. hive与pig比较

    什么是HIVE hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.hive参考手 ...

  3. Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

    Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我 ...

  4. 大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)...

    大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据.近似实时数据和实时数据.按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性: 计 ...

  5. 【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

    本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spar ...

  6. Hive、Pig、HBase的关系与区别,值得收藏!

    本文首发于微信空中好「对白的算法屋」 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来 ...

  7. 数仓工具—Hive实战之对比分析(15)

    对比分析 对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性,当然最终的目的 .它可以非常直观地看出事物某方面的变化或差距,并且可以准确.量 ...

  8. Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】

    (一)hadoop 相关安装部署 (二)hive (三)pig (四)hadoop原理与编码 (五)数据仓库与挖掘 (六)Oozie工作流 (七)HBase (八)flume (九)sqoop (十) ...

  9. 【转自oschina网站】Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

    目录[-] (一)hadoop 相关安装部署 (二)hive (三)pig (四)hadoop原理与编码 (五)数据仓库与挖掘 (六)Oozie工作流 (七)HBase (八)flume (九)sqo ...

最新文章

  1. 科研赢家比其他人多了哪一个特点?
  2. ACE_Task::putq(转)
  3. kibana 5.5 源码编译踩坑记录
  4. oracle怎么关闭约束,Oracle约束enable/disablenovalidate
  5. Core官方DI解析(2)-ServiceProvider
  6. CLion 生成CMakeList文件和include文件不存在问题
  7. Java—Map集合详解(HashMap/Hashtable/LinkedHashMap/Properties/TreeMap/WeakHashMap/IdentityHashMap/EnumMap)
  8. (227)FPGA学习基础
  9. activiti(7.0)排他网关
  10. 康德的道德观与哲学观
  11. jQueryEasyUI应用 – datagrid之CRUD应用
  12. html登录注册页面验证代码,登录注册页面验证码问题
  13. SONY图像传感器列表
  14. 直角三角形斜边用计算机怎么算,直角三角形斜边怎么算 计算方法有哪些
  15. 云端系统服务器是什么,云端服务器是什么-云端服务器介绍
  16. 手机地理位置共享引发的不安全因素
  17. saas自媒体运营管理系统
  18. Sql Server服务远程过程调用失败
  19. win10误删除efi引导文件
  20. im4java 水印_app后端设计(13)--IM4JAVA+GraphicsMagick实现中文水印

热门文章

  1. Anaconda clean清理命令大全
  2. Bitlocker加密,与解除加密
  3. ERP系统-采购子系统-采购订单
  4. tomcat 400错误跳转自定义页面
  5. 计算机暴力英语作文,以校园暴力为话题的英语作文
  6. 电脑长时间不关机 会对电脑有伤害么???
  7. 服务器性能测试方法,服务器性能测试方法
  8. mysql练习题-燕十八老师
  9. DAC解码芯片ES9023特性评测简介
  10. Google Earth Engine(GEE)——利用MODIS 的叶面积指数影像掩膜dem批量下载