大数据架构师之路-大数据框架大全
服务器脚本系列:
1.shell
2.python
3.perl
4.ruby
数据仓库系列:
1.hive
2.spark sql
3.Cloudera Impala
4.kylin
介绍 : http://www.csdn.net/article/2014-10-25/2822286
数据分析/建模工具系列:
1.sas
2.spss
3.r / r on hadoop / r on spark
机器学习系列:
1.mahout
2.spark MLLib
离线处理系列:
1.hadoop
2.spark
3.tez
流处理系列:
1.storm
2.spark streaming
消息队列
1.Kafka
Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,而Jafka是在Kafka之上孵化而来的,即Kafka的一个升级版。具有以下特性:快速持久化,可以在O(1)的系统开销下进行消息持久化;高吞吐,在一台普通的服务器上既可以达到10W/s的吞吐速率;完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,自动实现复杂均衡;支持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka通过Hadoop的并行加载机制来统一了在线和离线的消息处理。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统,除了性能非常好之外,还是一个工作良好的分布式系统。
2.RabbitMQ
RabbitMQ是使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均衡或者数据持久化都有很好的支持。
3.ActiveMQ
ActiveMQ是Apache下的一个子项目。 类似于ZeroMQ,它能够以代理人和点对点的技术实现队列。同时类似于RabbitMQ,它少量代码就可以高效地实现高级应用场景。
4.ZeroMQ
http://blog.csdn.net/lfsf802/article/details/38238007
ZeroMQ号称最快的消息队列系统,尤其针对大吞吐量的需求场景。ZMQ能够实现RabbitMQ不擅长的高级/复杂的队列,但是开发人员需要自己组合多种技术框架,技术上的复杂度是对这MQ能够应用成功的挑战。ZeroMQ具有一个独特的非中间件的模式,你不需要安装和运行一个消息服务器或中间件,因为你的应用程序将扮演了这个服务角色。你只需要简单的引用ZeroMQ程序库,可以使用NuGet安装,然后你就可以愉快的在应用程序之间发送消息了。但是ZeroMQ仅提供非持久性的队列,也就是说如果宕机,数据将会丢失。其中,Twitter的Storm 0.9.0以前的版本中默认使用ZeroMQ作为数据流的传输(Storm从0.9版本开始同时支持ZeroMQ和Netty作为传输模块)。
4.redis 发布/订阅
Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。虽然它是一个Key-Value数据库存储系统,但它本身支持MQ功能,所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作,各执行100万次,每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明:入队时,当数据比较小时Redis的性能要高于RabbitMQ,而如果数据大小超过了10K,Redis则慢的无法忍受;出队时,无论数据大小,Redis都表现出非常好的性能,而RabbitMQ的出队性能则远低于Redis。
NOSQL系列:
1.hbase
2.redis
3.mongo db
4.riak
Riak是以 Erlang 编写的一个高度可扩展的分布式数据存储,Riak的实现是基于Amazon的Dynamo论文,Riak的设计目标之一就是高可用。Riak支持多节点构建的系统,每次读写请求不需要集群内所有节点参与也能胜任。提供一个灵活的 map/reduce 引擎,一个友好的 HTTP/JSON 查询接口。
Riak 非常易于部署和扩展。可以无缝地向群集添加额外的节点。link walking 之类的特性以及对 Map/Reduce 的支持允许实现更加复杂的查询。除了 HTTP API 外,Riak 还提供了一个原生 Erlang API 以及对 Protocol Buffer 的支持。
目前有三种方式可以访问 Riak:HTTP API(RESTful 界面)、Protocol Buffers 和一个原生 Erlang 界面。提供多个界面使您能够选择如何集成应用程序。如果您使用 Erlang 编写应用程序,那么应当使用原生的 Erlang 界面,这样就可以将二者紧密地集成在一起。其他一些因素也会影响界面的选择,比如性能。例如,使用 Protocol Buffers 界面的客户端的性能要比使用 HTTP API 的客户端性能更高一些;从性能方面讲,数据通信量变小,解析所有这些 HTTP 标头的开销相对更高。然而,使用 HTTP API 的优点是,如今的大部分开发人员(特别是 Web 开发人员)非常熟悉 RESTful 界面,再加上大多数编程语言都有内置的原语,支持通过 HTTP 请求资源,例如,打开一个 URL,因此不需要额外的软件。在本文中,我们将重点介绍 HTTP API。
所有示例都将使用 curl 通过 HTTP 界面与 Riak 交互。这样做是为了更好地理解底层的 API。许多语言都提供了大量客户端库,在开发使用 Riak 作为数据存储的应用程序时,应当考虑使用这些客户端库。客户端库提供了与 Riak 连接的 API,可以轻松地与应用程序集成;您不必亲自编写代码来处理在使用 curl 时出现的响应。
图数据库系列:
1.neo4j
2.flockdb
序列化系列:
1.avro
2.protocol buffer
3.swift
监控系统系列:
1.zabbix
2.nagios
3.gangla
数据采集系列:
1.facebook scribe
2.cloudera flume
3.twitter zipkin
全文检索系列:
1.lucene
2.solr
3.ES (elasticsearch kibana logstash 整合)
深度学习系列:
1.TensorFlow:
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。
2.Warp-CTC:
Warp-CTC是百度前期为了在最新的计算机芯片上更快速运行而专门研发的一种改良版深度学习算法。 Warp-CTC所需的存储空间小,比普通CTC速度快数百倍。
1 月 25 日,微软在 GitHub 上发布了其深度学习工具包——Computational Network Toolkit(简称 CNTK)。
3.CNTK:
CNTK 是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络(CNN)和循环神经网络(RNNs/LSTMs)变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降(SGD)学习。
UI/UE/模型构建系列:
1.Axure
2.Xmind
3.StartUML
项目管理系列:
1.
大数据架构师之路-大数据框架大全相关推荐
- 大数据架构师之路-大数据解决方案大全
每秒处理10万订单乐视集团支付架构 http://geek.csdn.net/news/detail/72973 1号店交易系统架构如何向「高并发高可用」演进 http://geek.csdn.net ...
- 大数据架构师之路究竟是如何养成的?来看看技术大佬的经验之谈吧!
薪资高.市场广.机会多.缺口大,让大数据成了开发圈子里的香饽饽.麦肯锡公司报告指出,大数据.人工智能方面人才紧缺,需求量激增,企业用于大数据业务的支出将突破5000亿元.根据各招聘网站权威数据显示,资 ...
- 大数据架构师之路 | 概念术语理解
架构师,不明觉厉,也是我的追求目标,因此搜集了很多大数据架构相关的知识,理解并整理出来,一起学习. 知识拓展 大数据人工智能行业技术人员必备技能 hive入门 | 数据类型.数据存储.数据结构详解+S ...
- 8年京东大数据架构师推荐的大数据开发学习路线
一.我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二.大数据工程师的技 ...
- 架构师之路(5)---IoC框架
1 IoC理论的背景 我们都知道在面向对象的应用中,软件系统都是由N个对象组成的,它们通过彼此的合作,最终实现业务逻辑. 图1:耦合在一起的对象 如果我们打开机械式手表的后盖,就会看到与上面 ...
- 架构师之路(39)---IoC框架
1 IoC理论的背景 我们都知道,在採用面向对象方法设计的软件系统中,它的底层实现都是由N个对象组成的,全部的对象通过彼此的合作,终于实现系统的业务逻辑. 图1:软件系统中耦合的对象 假设我 ...
- 从0到1—JAVA大数据架构师之路
第一阶段:java基础及进阶 第二阶段:数据库VUE&SSM 第三阶段:SSM架构及后端开发项目 第四阶段:微服务之SpingCloudAlibaba 第五阶段:微服务之Spingcloud ...
- 大数据架构师之路-性能评估
系统吞吐量(TPS).用户并发量.性能测试概念和公式 http://blog.csdn.net/u010670689/article/details/50782292 kafka性能测试 http:/ ...
- 数据中台已成气候!大数据架构师如何站上风口?
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...
最新文章
- SQL DEVELOPER 打不开了
- mongodb安装_MongoDB:GridFS删除方法删除存储桶中的所有文件
- NETINT刘伟:ASIC才是未来
- 穿越火线全部服务器都显示爆满,穿越火线大区全部爆满,频道挤不进去背后的故事!...
- 宏块与宏块对(附图)
- java打印的globa类l_Spring异常集中处理和日志集中打印
- Data Lake Analytics-数据分析时代迎来新变革
- 【C++】将(数组)数据写入csv文件
- 组态软件专用短信终端
- SpringMVC原理
- c语言16进制转2进制代码
- 使用ns2仿真ping
- lstm 文本纠错_中文文本纠错算法--错别字纠正的二三事
- 中国ORC低温余热发电系统市场深度调研报告(2023版)
- (转)MAPISendMail调用系统默认的邮件客户端发邮件
- 使用百度地图时如何隐藏百度地图logo
- git操作如何提出你的第一个PR
- 向服务器写入文件失败,向远程服务器写入文件
- 去掉office2003盗版五角星的办法(组图)
- tecplot修改legend标题
热门文章
- Yii2友好处理404
- js 谷歌浏览器 关闭当前页
- Eclipse 主题(Theme) 设置之程序员大牛必备的装逼神器
- 【排序专训】练习题 士兵站队(中位数应用) 解题报告
- 服务器2003丢失系统文件,如何解决开机提示windows/system32/config/system文件丢失
- nginx配置域名访问/禁止ip访问
- prompt tuning
- rsync下行同步和inotify实时同步部署
- 洗礼灵魂,修炼python(82)--全栈项目实战篇(10)—— 信用卡+商城项目(模拟京东淘宝)...
- OllyDbg 常用快捷键与命令