点击查看全文

大美柚与MaxCompute数据同步架构说明

            2017/8/10   九戒

本文涉及到的重要概念:

  • MaxCompute:简单可以理解为开源的hadoop集群,可提供我们常用的MapReduce和SQL计算模型和数据存储.
  • 数加:基于MaxCompute之上封装的便于我们使用和管理MaxCompute的一个壳
  • ECS:阿里的云服务器
  • tunnelServer:用于和MaxCompute上传下载的数据通道
  • Datax:是一个异构数据源离线同步工具,Datax的odps插件底层基于tunnel SDK实现.
  • 默认资源:数加提供的用于运行Datax的服务器资源(常用于和MaxCompute之间的数据同步),目前只有在华东2区(上海)有机器
  • 自定义资源:我们提供的用于运行Datax的服务器资源,目前我们只有华北2区(北京)2台ECS
  • 专线:目前北京机房和北京ECS(华北2区)通专线,简单理解就是北京机房和北京ECS同属一个局域网,让两个机房间的通讯更稳定,快速.
  • 端口转发:简单的理解,一个网络端口,转发到另一个网络端口上(我们常用的是:从外网的某个端口转发到内网的某台机器的某个端口,这里是指从ECS的外网端口,转发到北京机房的某台机器的某个端口).
  • MaxCompute上传收费:上传不收费
  • MaxCompute下载收费:通过公网下载收费,是指MaxCompute到datax这个过程,我们在使用自定义资源的时候需在odps那端(reader)要使用"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",这个配置才能走MaxCompute专线,且不收费,默认是走公网需要收费,这点大家要特别注意一下

敲黑板

在使用自定义资源与MaxCompute做数据同步任务,务必在odps端加上"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",配置.免费且能提升同步速度

网络拓扑图

既然数加提供了默认资源为什么我们还要使用自定义资源?

目前默认资源只在华东2区有,而我们大部分的数据和机器在北京,只能通过公网进行数据同步,网络延迟比较大(33ms),且不稳定,经常出现time out情况.且默认资源会限速,而我们需要上传的日志量比较大,数据延迟会比较大,不能很好的满足业务需求.

为什么自定义资源放在华北2区?

因为我们北京机房和华北2区有专线连接,方便与北京机房的机器做数据同步

使用自定义资源给我们带来了什么好处?

  1. 华北2区的自定义资源可以通过MaxCompute专线(**需要在任务里配置tunnelServer**)连接MaxCompute服务,比通过公网连接更稳定,更快.
  2. 另一端,自定义资源和北京机房或北京ECS是通过专线或内网连接,网络也比公网更有保障.

总结一下怎么选择资源组

  1. 如果MaxCompute和华东区的ECS的数据同步,请选用默认资源
  2. 如果MaxCompute和(华北ECS或者北京机房)的数据同步有两种方式:
    • 通过自定义资源(如果操作见下文)
    • 通过华北ECS做端口转发:只需将北京机房对应机器的端口(一般是22端口),转发到ECS出口的某个端口(例如21222),然后使用默认资源,使用ECS的外网ip和端口就可以了.

什么时候用自定义资源?什么时候用端口转发?

点击查看全文

美柚与MaxCompute数据同步架构说明相关推荐

  1. 异地多活场景下的数据同步之道 | 珍藏版

    在当今互联网行业,大多数互联网从业者对"单元化"."异地多活"这些词汇已经耳熟能详.而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库.缓存.MQ ...

  2. clickhouse hbase性能对比_QQ音乐PB级ClickHouse实时数据平台架构演进之路

    OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...

  3. 大数据开发平台-数据同步服务

    什么是数据同步服务?顾名思义,就是在不同的系统之间同步数据.根据具体业务目的和应用场景的不同,各种数据同步服务框架的功能侧重点往往不尽相同,因而大家也会用各种大同小异的名称来称呼这类服务,比如数据传输 ...

  4. 异地多活场景下的数据同步之道

    在当今互联网行业,大多数人互联网从业者对"单元化"."异地多活"这些词汇已经耳熟能详.而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库.缓存.M ...

  5. QQ音乐PB级ClickHouse实时数据平台架构演进之路

    导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过Q ...

  6. 数据同步:MySQL到Elasticsearch

    目录 背景 1.基于应用程序多写 2.基于binlog订阅 2.1:canal 简介 工作原理 2.2.Databus 2.3.Maxwell 2.4.Flink CDC 2.5.DTS(阿里云) 2 ...

  7. Redis 高可用篇:你管这叫主从架构数据同步原理?

    高可用有两个含义:一是数据尽量不丢失,二是服务尽可能提供服务. AOF 和 RDB 保证了数据持久化尽量不丢失,而主从复制就是增加副本,一份数据保存到多个实例上.即使有一个实例宕机,其他实例依然可以提 ...

  8. 离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSer ...

  9. DB 数据同步到数据仓库的架构与实践

    背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据( ...

最新文章

  1. “另一个程序正在使用此文件,进程无法访问”的解决方法
  2. memcache 基础原理
  3. idea源码注释乱码_idea中文注释出现乱码,我靠自己解决了
  4. How to publish in an open world?
  5. Unknown opcode
  6. java friendly 子包,黑馬程序員 java 修飾符類型(public,protected,private,friendly)
  7. 【ROI 2019 Day2】课桌【贪心】【决策单调性】【分治】
  8. aws消息服务器,经验分享:我们如何使用AWS构建无服务器架构 - hypertrack
  9. jemeter python接口自动化测试平台_python接口自动化测试之request
  10. 拆解嘀嗒出行赴港IPO招股书:顺风车市占率近七成 2019年起实现盈利
  11. python 修改列名_请教一个 Python 技巧(批量对 pandas.DataFrame()统一修改列名)
  12. oracle数据库存储管理总结,oracle数据库存储管理
  13. Linux ssh 配置
  14. ssh集群服务器免密登录
  15. git 生成多个patch_git生成Patch和打Patch
  16. 初级计算机课,教学ppt课件计算机初级培训.ppt
  17. 远程控制,从个人便捷走向企业安全
  18. 北航2017级软件学院算法第一次上机题解
  19. handler机制,成功跳槽百度工资从15K涨到28K,挥泪整理面经
  20. 五大靠谱的婚恋相亲APP详细特点缺点分析!

热门文章

  1. 高速公路智能化维护,多点布局智慧交通“车路协同”
  2. Oracle exists 用法
  3. Sql Server 查询性能查看
  4. js php 实现日历签到_js实现每日签到功能
  5. vue百度地图三级缩放,实现地图找房功能,vue-baidu-map
  6. 苹果手机壳_苹果8plus手机保护神lifeproof四防手机壳开箱
  7. java我的世界极限生存_我的世界极限生存攻略 教你前十天怎么生存
  8. mysql json数据格式的查询性能测试
  9. 爸爸,我不想做你的女儿
  10. 应对衰退就是裁员?硅谷学学微软刷新吧