How to Use it?

CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,
其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。

 Follow the steps in CarbonData-Quick Start.

  • Put the *.csv file into HDFS, like:
cd carbondata
$ Create a sample.csv file using the following commands
$ put into hdfs, like: 'hdfs://presto00:9000/carbon/sample.csv'
  • Start spark, like:
$ ./sbin/start-master.sh
$ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://presto00:7077
  • Start spark-shell, like:
$ ./bin/spark-shell --jars ../carbondata-1.2.0/carbondata_2.11-1.2.0-SNAPSHOT-shade-hadoop2.7.3.jar --executor-memory 6G

Note: --executor-memory 6G setted for the java eap space, if the load data is not big, you can ignore it.

  • execute by scala, like:
$ import org.apache.spark.sql.SparkSession
$ import org.apache.spark.sql.CarbonSession._
$ val carbon = SparkSession.builder().config(sc.getConf).config(sc.getConf).getOrCreateCarbonSession("hdfs://presto00:9000//carbon/db")
$ carbon.sql("CREATE TABLE IF NOT EXISTS test(id string, name string, city string, age Int) STORED BY 'carbondata'")
$ carbon.sql("LOAD DATA INPATH 'hdfs://presto00:9000/carbon/sample.csv' INTO TABLE test options('DELIMITER'=',', 'FILEHEADER'='id,name,city,age')")

Note:
1. /carbon/db is the hdfs store path that tables stored.
2. CREATE TABLE defines the column and the type
3. 'DELIMITER'=',' or 'DELIMITER'='\t', to explain the separator of the data in the *.csv
4. LOAD DATA options rely on the header of the csv, like:

id,name,city,age
1,david,shenzhen,31
2,eason,shenzhen,27
3,jarry,wuhan,35

run:

$ carbon.sql("LOAD DATA INPATH 'hdfs://presto00:9000/carbon/sample.csv' INTO TABLE test")

1,david,shenzhen,31
2,eason,shenzhen,27
3,jarry,wuhan,35

run:

$ carbon.sql("LOAD DATA INPATH 'hdfs://presto00:9000/carbon/sample.csv' INTO TABLE test options('FILEHEADER'='id,name,city,age')")

More Usage

  • file like split by '\t':

    1 david shenzhen 31
    2 eason shenzhen 27
    3 jarry wuhan 35

  • must run:

$ carbon.sql("CREATE TABLE IF NOT EXISTS test(id string, name string, age Int) STORED BY 'carbondata'")
$ carbon.sql("LOAD DATA INPATH 'hdfs://presto00:9000/carbon/sample.csv' INTO TABLE test options('DELIMITER'='\t','FILEHEADER'='id,name,city,age')")

Note: CREATE TABLE do not need to contain all the column, but when LOAD DATA you must give all the header info, more to see in Programming Guide.

For any question, you can make comments followed.

Apache CarbonData快速入门指南相关推荐

  1. Apache Flink 集成 Apache Hudi 快速入门指南

    摘要:本文由阿里巴巴的陈玉兆分享,主要介绍 Flink 集成 Hudi 的最新版本功能以及快速上手实践指南.内容包括: 背景 环境准备 Batch 模式的读写 Streaming 读 总结 一.背景 ...

  2. Spark快速入门指南 – Spark安装与基础使用

    本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...

  3. Gradle核心思想(三)Groovy快速入门指南

    本文首发于微信公众号「刘望舒」 关联文章 Gradle核心思想(一)为什么现在要用Gradle? Gradle核心思想(二)Gradle入门前奏 Gradle核心思想(三)Groovy快速入门指南 G ...

  4. Apache Kafka开发入门指南

    Apache Kafka开发入门指南 作者:chszs,转载需注明.博客主页: http://blog.csdn.net/chszs Apache Kafka可以帮助你解决在发布/订阅架构中遇到消费数 ...

  5. Apache Kylin新手入门指南

    Apache Kylin新手入门指南 文章目录 Apache Kylin新手入门指南 1 Apache Kylin是什么 2 为什么使用Apache Kylin 3 Apache Kylin的易用性如 ...

  6. Apache Hive 快速入门 (CentOS 7.3 + Hadoop-2.8 + Hive-2.1.1)

    2019独角兽企业重金招聘Python工程师标准>>> 本文节选自<Netkiller Database 手札> 第 63 章 Apache Hive 目录 63.1. ...

  7. BERT模型超酷炫,上手又太难?请查收这份BERT快速入门指南!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自 | GitHub    作者 | Jay Alammar 转自 | 机器之心 如 ...

  8. BERT模型超酷炫,上手又太难?请查收这份BERT快速入门指南

    2019-12-31 10:50:59 选自GitHub 作者:Jay Alammar 参与:王子嘉.Geek AI 如果你是一名自然语言处理从业者,那你一定听说过最近大火的 BERT 模型.本文是一 ...

  9. RMAN快速入门指南

    RMAN快速入门指南   1. What is RMAN? 什么是RMAN?    4 2. Terminology 专业词汇解释    4 2.1. Backup sets 备份集合    4 2. ...

最新文章

  1. MongoDB的查询整理
  2. Android之对Volley网络框架的一些理解
  3. Android 是移动世界的鸭嘴兽
  4. php判断表单提交是否为空,JS判断提交表单不能为空代码 多种方案
  5. 消息队列RabbitMQ入门与5种模式详解
  6. 最近和前字节跳动大佬聊了聊今年春招面试的变化
  7. ASP.NET几种安全验证方法(一)
  8. sqlite和java_Java和SQLite
  9. Windows一些操作
  10. IDEA使用Build Artifacts进行项目打包时,发现没有可供打包的项目
  11. stm32 串口通信数据移位寄存器_STM32串口接RS485丢码问题已解决*_*
  12. iview使用之怎样通过render函数在table组件表头添加图标及判断多个状态
  13. Linux命令解释之df
  14. FPGA核心板内部各类型资源总结(xilinx)
  15. SharePoint 备忘录(一)
  16. 【高并发】高并发环境下如何防止 Tomcat 内存溢出?一文让你看懂!!
  17. 鸡兔同笼问题c语言编程,鸡兔同笼问题C语言程序编写
  18. Ubuntu18.04登陆界面美化--Mac主题
  19. kindle DXG 安装多看
  20. Android地图轨迹抽稀、动态绘制

热门文章

  1. 台达触摸屏和电脑连接通讯时出现no reponse from HMI报警的解决办法
  2. LoRa模块网络组成和架构原理是怎样的?
  3. matlab学习笔记(十五)---综合实例
  4. ‘一体化管理系统’加速集团企业信息化进程
  5. 真正解决iframe高度自适应问题
  6. 如何用Django实现简易电子文档管理系统
  7. Linux下PureFTPd配置安装(完整版)
  8. win Qt qextserialport 编写串口通信程序全程图文讲解
  9. 使用xom实现xml文件数据的查找,删除,修改(转载)
  10. Java中码点和代码单元