maxcompute数据下载的三种方式

maxcoumpute下载数据有三种方式:
1、直接通过dataworks云端下载,但是这个只能下载小于1万行的数据;
2、通过odpscmd客户端下载,有两种方式:分区下载只能下一天数据;或者先运行dataworks(可以下多天数据),然后在odpscmd下载数据;
3、通过python下载,使用odps连接,然后下载数据,可以下载任意天数的数据,但是代码里面限制了字段,这个需要自己输入字段。


1、dataworks云端直接下载


2、odpscmd客户端下载数据

前面我们已经讲过odpscmd客户端怎么安装,如果忘记可以看下面

https://blog.csdn.net/Tanghaohao0/article/details/124867303

1、使用Tunnel下载和上传,详细的在阿里云在线文档里面都有,该方法限制只能下一个分区的数据:

https://help.aliyun.com/document_detail/27833.html

这里示范下我自己的下载命令:

tunnel download -h True  -c "gbk"  <项目名字>.<表名>/partition=<分区信息>  D:\data\001-data\1.csv;

2、先运行dataworks(可以下多天数据),然后在odpscmd下载数据:
dataworks里面是这样的:数据太多无法下载,但是我们可以通过odpscmd的命令下载。

这里示范下我自己的下载命令:

tunnel download -h True  -c "gbk" instance://<项目名字>/<id> <项目名字>.<表名>/partition=<分区信息>  D:\data\001-data\1.csv;

其中id通过下面方式获取


3、python连接odps下载数据

该方法可以下载任意天的数据,注意设置order limit超过1万行也执行,遇到设置order的时候就不会被限制。
示例代码如下:

from odps import ODPS
import csv
from email.mime.multipart import MIMEMultipart
from email.mime.application import MIMEApplication
import smtplib
import os
import os.path
from odps import options
# --设置order limit超过10000行也执行
options.sql.settings = {'odps.sql.validate.orderby.limit': False}
dirs = "D:/data/001-data/2.csv"#将表查询数据写入到当前文件中
o = ODPS(access_id=" ",secret_access_key=" ",project="  ",endpoint=" ")
head=['s','s2']#这里是具体的想要的字段,之后通过该字段遍历数据写入到csv里面
data=[]
string_sql='''
<sql语句>
'''reader=o.execute_sql(string_sql).open_reader(tunnel=True, limit=False)
for record in reader:tmp_value=[]for name in head:tmp_value.append(record[name])data.append(tmp_value)with open(dirs,"w+",encoding="utf-8-sig",newline='') as f:csvf = csv.writer(f)csvf.writerow(head)csvf.writerows(data)print(csvf)
print('finish')

maxcompute-入门-数据下载相关推荐

  1. tcga数据下载_好东西丨零基础入门TCGA

    GCBI学院-零基础入门TCGA_腾讯视频​v.qq.com 课程大纲: TCGA简介 1.带你熟悉新版TCGA界面 2.TCGA包含哪些数据,哪些是公开可用的?作为新手,下载什么水平的数据最易上手 ...

  2. python--从入门到实践--chapter 15 16 17 生成数据/下载数据/web API

    1.随机漫步 random_walk.py from random import choice class RandomWalk():def __init__(self, num_points=500 ...

  3. 大数据全攻略:10年老兵带你看尽MaxCompute大数据运算挑战与实践

    大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决 ...

  4. AOD实践,modis数据下载,modis数据处理

    modis数据下载-数据读取-重投影-拼接-均值 一.数据下载 1.Cygwin安装 Cygwin安装教程:https://blog.csdn.net/u010356768/article/detai ...

  5. tcga数据下载_TCGA数据库免疫相关文件下载大全

    本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ 2018年4月Immunity杂志上发表了文章The Imm ...

  6. 使用MaxCompute进行数据质量核查

    2019独角兽企业重金招聘Python工程师标准>>> Apsara Clouder大数据专项技能认证:使用MaxCompute进行数据质量核查 数据质量问题一直是大数据分析系统关注 ...

  7. linux ftp下载geo,高通量数据下载还能这样操作?

    本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html)第2部分内容,以一篇Nature文章为例,详细解读如 ...

  8. 国外14亿泄露数据下载及还原

    国外14亿泄露数据下载及还原 simeon 2018年6月10日freebuf发布了篇文章<14亿邮箱泄露密码明文信息查询网站惊现网络>(链接地址:http://www.freebuf.c ...

  9. BigData:MaxCompute大数据计算服务(阿里巴巴开发/原ODPS/云计算分布式)的简介(基本概念/功能/流程图)、使用方法之详细攻略

    BigData:MaxCompute大数据计算服务(阿里巴巴开发/原ODPS/云计算分布式)的简介(基本概念/功能/流程图).使用方法之详细攻略 目录 背景-传统分布式计算的弊端 MaxCompute ...

最新文章

  1. python在线课程价格-杭州python课程价格
  2. java8 CompletableFuture异步编程
  3. Javascript模块化编程require.js的用法
  4. c语言实战1200例 pdf6,C语言程序设计6.6.2.pdf
  5. 如何解决AIX的文件系统故障
  6. jQuery 常用的方法
  7. [Unity脚本运行时更新]C#7.1新特性
  8. neo4j 增 create
  9. python生成.exe文件
  10. 前端 HTML 获取自定义标签tag 的值方法
  11. cmake错误:Could not find a package configuration file provided by 的一种解决方法
  12. altera 公司的EP3C5E144C8N的引脚资料如何查找
  13. 一、爬虫 - 新浪爱问共享资源全下载之解决方案
  14. 线性代数学习笔记3-4:描述线性变换的空间压缩情况(列空间、秩)
  15. unity 画球面_unity3d第一个例子--制作一个简单的球体碰撞墙面
  16. execl筛选去重_Excel去除重复项的三种常用技巧
  17. 好记性不如烂笔头-linux学习笔记4apache相关知识
  18. 献给我曾经的偶像—特雷西·麦克格雷迪
  19. Redis相关命令及使用场景介绍
  20. 笔记本电脑外接显示器时,WPS office软件的文字显示不清晰,不管是文档本身还是软件界面的字

热门文章

  1. ffmpeg锐化算法
  2. 一个基于 LKM 的 Linux 内核级 rootkit 的实现
  3. 无法写入最后一个_香港影史无法超越的25个惊艳瞬间,最后一个还是双黄蛋
  4. 什么是子网掩码,如何判断两个IP是不是同一网段
  5. 华为公司如何开好经营分析会(战略落地的核心抓手)?
  6. 577. 员工奖金(简单)
  7. Android手机连接到Tomcat服务器
  8. ios禁止背景弹性滑动
  9. 年轻人频繁辞职的主要原因是什么呢?
  10. 零基础学习笔记 - ADF4159