美柚与MaxCompute数据同步架构说明
点击查看全文
大美柚与MaxCompute数据同步架构说明
2017/8/10 九戒
本文涉及到的重要概念:
- MaxCompute:简单可以理解为开源的hadoop集群,可提供我们常用的MapReduce和SQL计算模型和数据存储.
- 数加:基于MaxCompute之上封装的便于我们使用和管理MaxCompute的一个壳
- ECS:阿里的云服务器
- tunnelServer:用于和MaxCompute上传下载的数据通道
- Datax:是一个异构数据源离线同步工具,Datax的odps插件底层基于tunnel SDK实现.
- 默认资源:数加提供的用于运行Datax的服务器资源(常用于和MaxCompute之间的数据同步),目前只有在华东2区(上海)有机器
- 自定义资源:我们提供的用于运行Datax的服务器资源,目前我们只有华北2区(北京)2台ECS
- 专线:目前北京机房和北京ECS(华北2区)通专线,简单理解就是北京机房和北京ECS同属一个局域网,让两个机房间的通讯更稳定,快速.
- 端口转发:简单的理解,一个网络端口,转发到另一个网络端口上(我们常用的是:从外网的某个端口转发到内网的某台机器的某个端口,这里是指从ECS的外网端口,转发到北京机房的某台机器的某个端口).
- MaxCompute上传收费:上传不收费
- MaxCompute下载收费:通过公网下载收费,是指MaxCompute到datax这个过程,我们在使用自定义资源的时候需在odps那端(reader)要使用
"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",
这个配置才能走MaxCompute专线,且不收费,默认是走公网需要收费,这点大家要特别注意一下
敲黑板
在使用自定义资源与MaxCompute做数据同步任务,务必在odps端加上"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",
配置.免费且能提升同步速度
网络拓扑图
既然数加提供了默认资源为什么我们还要使用自定义资源?
目前默认资源只在华东2区有,而我们大部分的数据和机器在北京,只能通过公网进行数据同步,网络延迟比较大(33ms),且不稳定,经常出现time out情况.且默认资源会限速,而我们需要上传的日志量比较大,数据延迟会比较大,不能很好的满足业务需求.
为什么自定义资源放在华北2区?
因为我们北京机房和华北2区有专线连接,方便与北京机房的机器做数据同步
使用自定义资源给我们带来了什么好处?
- 华北2区的自定义资源可以通过MaxCompute专线(**需要在任务里配置tunnelServer**)连接MaxCompute服务,比通过公网连接更稳定,更快.
- 另一端,自定义资源和北京机房或北京ECS是通过专线或内网连接,网络也比公网更有保障.
总结一下怎么选择资源组
- 如果MaxCompute和华东区的ECS的数据同步,请选用默认资源
- 如果MaxCompute和(华北ECS或者北京机房)的数据同步有两种方式:
- 通过自定义资源(如果操作见下文)
- 通过华北ECS做端口转发:只需将北京机房对应机器的端口(一般是22端口),转发到ECS出口的某个端口(例如21222),然后使用默认资源,使用ECS的外网ip和端口就可以了.
什么时候用自定义资源?什么时候用端口转发?
点击查看全文
美柚与MaxCompute数据同步架构说明相关推荐
- 异地多活场景下的数据同步之道 | 珍藏版
在当今互联网行业,大多数互联网从业者对"单元化"."异地多活"这些词汇已经耳熟能详.而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库.缓存.MQ ...
- clickhouse hbase性能对比_QQ音乐PB级ClickHouse实时数据平台架构演进之路
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...
- 大数据开发平台-数据同步服务
什么是数据同步服务?顾名思义,就是在不同的系统之间同步数据.根据具体业务目的和应用场景的不同,各种数据同步服务框架的功能侧重点往往不尽相同,因而大家也会用各种大同小异的名称来称呼这类服务,比如数据传输 ...
- 异地多活场景下的数据同步之道
在当今互联网行业,大多数人互联网从业者对"单元化"."异地多活"这些词汇已经耳熟能详.而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库.缓存.M ...
- QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过Q ...
- 数据同步:MySQL到Elasticsearch
目录 背景 1.基于应用程序多写 2.基于binlog订阅 2.1:canal 简介 工作原理 2.2.Databus 2.3.Maxwell 2.4.Flink CDC 2.5.DTS(阿里云) 2 ...
- Redis 高可用篇:你管这叫主从架构数据同步原理?
高可用有两个含义:一是数据尽量不丢失,二是服务尽可能提供服务. AOF 和 RDB 保证了数据持久化尽量不丢失,而主从复制就是增加副本,一份数据保存到多个实例上.即使有一个实例宕机,其他实例依然可以提 ...
- 离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSer ...
- DB 数据同步到数据仓库的架构与实践
背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据( ...
最新文章
- “另一个程序正在使用此文件,进程无法访问”的解决方法
- memcache 基础原理
- idea源码注释乱码_idea中文注释出现乱码,我靠自己解决了
- How to publish in an open world?
- Unknown opcode
- java friendly 子包,黑馬程序員 java 修飾符類型(public,protected,private,friendly)
- 【ROI 2019 Day2】课桌【贪心】【决策单调性】【分治】
- aws消息服务器,经验分享:我们如何使用AWS构建无服务器架构 - hypertrack
- jemeter python接口自动化测试平台_python接口自动化测试之request
- 拆解嘀嗒出行赴港IPO招股书:顺风车市占率近七成 2019年起实现盈利
- python 修改列名_请教一个 Python 技巧(批量对 pandas.DataFrame()统一修改列名)
- oracle数据库存储管理总结,oracle数据库存储管理
- Linux ssh 配置
- ssh集群服务器免密登录
- git 生成多个patch_git生成Patch和打Patch
- 初级计算机课,教学ppt课件计算机初级培训.ppt
- 远程控制,从个人便捷走向企业安全
- 北航2017级软件学院算法第一次上机题解
- handler机制,成功跳槽百度工资从15K涨到28K,挥泪整理面经
- 五大靠谱的婚恋相亲APP详细特点缺点分析!