作者:禅与计算机程序设计艺术

1.简介

Apache Hive 是 Hadoop 的一个子项目,它是一个基于 HQL(Hadoop Query Language)语言的查询引擎,可以将结构化的数据文件存储在HDFS上并提供分布式计算功能。Hive 有着良好的扩展性、稳定性、高效执行速度、完备的SQL支持等优点。Hive 适用于互联网行业、金融、广告、搜索引擎、在线推荐系统、日志分析等各种场景下的数据分析处理。
在企业中,数据仓库建设始终是数据领域的一项重要工作,是对公司最核心、最关键的数据资产之一。数据仓库的建立需要对数据的整体情况、质量、完整性、时效性、关联性、规范性等方面作出可靠而详尽的定义,然后通过设计合理的数据模型、ETL(Extract Transform Load)流程以及有效的权限控制,最终达到数据集成、清洗、计算和报表的目的。Hive在阿里巴巴数据仓库的实践及其不同角度的应用将围绕这些需求进行展开。本文首先会介绍一下Apache Hive的概念和特点,之后会结合一些实际案例,介绍数据仓库的建设过程,包括需求分析、需求调研、选型阶段、ETL设计、性能优化、监控管理、数据安全保障等方面,最后会提出作者对Hive在阿里巴巴数据仓库中的实践建议。

2.基本概念、术语说明

2.1 数据仓库(Data Warehouse)

数据仓库(Data Warehouse,DW),是一个独立于应用程序数据库之外的数据集合,一般用于支持企业决策,是面向主题的集成的、截断的、非规范化的数据集合,并按时间顺序记录更新。数据仓库一般包含多个主题区域,每个主题区域具有自己的维度、指标、事实表、维度表以及相

Hive在阿里巴巴数据仓库中的实践与应用相关推荐

  1. 数据增量更新定义_TiDB 在 OPPO 准实时数据仓库中的实践

    作者介绍 OPPO 数据分析与解决方案团队主要负责 OPPO 全集团的大数据分析和解决方案提供,团队成员多来自一线互联网公司及著名高校,在 OPPO 众多场景的大数据应用方面有很深经验,极大的支撑了业 ...

  2. 数据增量更新定义_技术资讯 | TiDB在准实时数据仓库中的实践

    " OPPO大数据中心在2019年初承接了接入某业务线核心数据的重要任务:一期目标是建立一个能提供准实时大数据查询服务的数据仓库. 我们选用了之前从未在公司大规模正式使用过的TiDB作为核心 ...

  3. Hive数据仓库中历史拉链表实践

    数据准备 在mysql中创建测试表orders CREATE TABLE `orders` (`orderid` int(11) NOT NULL AUTO_INCREMENT,`status` va ...

  4. 深入浅出数据仓库中SQL性能优化之Hive篇

    摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为 ...

  5. 阿里巴巴 Kubernetes 应用管理实践中的经验与教训

    作者 | 孙健波(阿里巴巴技术专家).赵钰莹 导读:云原生时代,Kubernetes 的重要性日益凸显.然而,大多数互联网公司在 Kubernetes 上的探索并非想象中顺利,Kubernetes 自 ...

  6. 数据仓库中的SQL性能优化 - Hive篇

    一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针 ...

  7. Golang在阿里巴巴调度系统Sigma中的实践

    作者简介 李 雨 前  花名叫鹰缘 系统软件事业部调度系统. 关键词 Golang 调度系统 Sigma,阿里巴巴自有的内容 实践交流 工程 1.取材 资源调度领域Sigma 主要思路是说资源调度领域 ...

  8. 《Saas模式云原生数据仓库应用场景实践》激活数据生产力,让分析产生价值

    在数据成为生产要素的今天,拥有充沛的算力是全面发掘和释放数据价值的先决条件.本书基于阿里巴巴自研SaaS模式云数仓MaxCompute,重点介绍搜索.用户增长.业务增长.人群圈选.实时数据处理.半结构 ...

  9. 搜狐智能媒体数据仓库体系建设实践

    分享嘉宾:翟东波 搜狐媒体 编辑整理:王洪达 出品平台:DataFunTalk.AI启蒙者 导读:本次分享的主题为搜狐智能媒体数据仓库体系建设实践,会对数据仓库中的基本概念进行简单梳理,明确数据仓库体 ...

  10. 领域驱动设计在互联网业务开发中的实践

    前言 至少30年以前,一些软件设计人员就已经意识到领域建模和设计的重要性,并形成一种思潮,Eric Evans将其定义为领域驱动设计(Domain-Driven Design,简称DDD).在互联网开 ...

最新文章

  1. [Korean]发音
  2. 备忘录 | 当我每晚闲暇时我在干什么(2)
  3. 使用Java Servlet,JSP标签和Stormpath快速构建Java Web App
  4. 使用多线程拷贝文件夹
  5. mysql注册成功为啥启动不了mysql_mysql启动不成功的解决方法
  6. 织梦直接往数据库写入数据
  7. 条款01:视C++为一个语言联邦
  8. 7-56 互评成绩 (25 分) (排序题)
  9. 前端路由和后端路由(浅聊)
  10. 数字信号处理设计与仿真分析
  11. 英文之妙语连珠超级94句
  12. js获取当前时间(标准时间)
  13. 1.1微信支付之现金红包 - Java 开发
  14. ngx_shmtx_lock 分析
  15. java:io的基本实例
  16. Excel 快速跳到表格最后一行/第一行
  17. 【HTML——粒子 特效】
  18. 大脑小胶质细胞“隐藏技能”被发现
  19. 【MySQL】联合索引的使用
  20. sql--sqlsever--时间相关SQL语句--查询当前时间至前N天的数据

热门文章

  1. 贝叶斯算法、正向概率、逆向概率、先验概率、后验概率、单词拼写纠错实例
  2. CF935E Fafa and Ancient Mathematics
  3. vue使用xlsx包解析xlsx表格文件成json格式
  4. 蓝桥杯 复数幂 (2+3i)^123456
  5. 文本分析HMM(2)
  6. 大自然的搬运工(js/css)
  7. 第3关 Numpy数组的切片与索引 (educoder
  8. 域控制器失去信任关系问题处理
  9. Android手机保持屏幕常亮
  10. 设计模式翻译白话转载