什么是大数据运维工程师

                                      作者:尹正杰

版权声明:原创作品,谢绝转载!否则将追究法律责任。

  

  业内有这么一句话说:云计算可能改变了整个传统IT产业的基础架构,而大数据处理,尤其像Hadoop组件这样的技术出现,将是改变IT业务模式的一种技术。另外,很多小伙伴可能还搞不明白云和Hadoop有什么关系,事实上这是两种截然不同的技术。今天我们就来聊一聊大数据运维工程师。

一.Linux发展与学习线路 

二.大数据运维的工作职责

一.集群管理大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,Redis等大数据生态圈组建。二.故障处理1>.商用硬件使用故障是常态。2>.区分故障等级,优先处理影响实时性业务的故障。三.变更管理1>.以可控的方式,高效的完成变更工作;2>.包括配置管理和发布管理;四.容量管理1>.存储空间,允许链接数等都是容量概念;2>.在多租户环境下,容量管理尤其重要;
五.性能调优1>.不同组建的性能概念不一样,如kafka注重吞吐量,Hbase注重实用性可用性;2>.需要对组建有深刻的理解
六.架构优化1>.优化大数据平台架构,支持平台能力和产品的不断迭代;2>.类似架构师的工作;

三.大数据运维所需的能力

一.DevOpsDevOps(英文Development和Operations的组合)是一组过程,方法和系统的统称,用于促进开发(应用程序/软件工程),技术运营和质量保障(QA)部门之间的沟通,写作与整合。
二.硬件,OS,网络,安全的基础知识大数据平台和组建设计范围广,各种都需要懂一点,这些知识出问题的时候不可能问人,因为别人也有自己的工作要做。三.脚本语言能力Shell,SQL(DDL),Python.Java(加分)四.大数据各个组件知识设计思想。使用范围,底层架构,常用命令,常用配置或参数,常见问题处理方法。五.工具能力Zabbix,Open Falcon,Ganglia,ELK等,企业自研工具。我推荐使用集群自带的工具。六.Trouble shooting能力搜索能力(搜索引擎,stackoverflow等),java能力(异常堆栈要看得懂,最好能看懂源码),英文阅读能力。七.意识,流程良好的意识,什么能做什么不能做。同用的流程如ITIL,各企业也有自己的流程。

四.大数据运维的主要工作

一.运维三板斧三板斧可以解决90%以上的故障处理工作。
1>.重启重启有问题的机器或经常,使其正常工作。
2>.切换主备切换或主主切换,链接正常工作的节点。
3>.查杀查杀有问题的进程,链接等。
4>.三板斧的问题第一:只能处理故障处理问题,不能解决性能调优,架构优化等问题;第二:只能治标,不能治本;
5>..大数据运维和传统运维的不同第一:传统运维面对的底层软硬件基本稳固,大数据运维面对的是商用硬件和复杂linux版本;第二:传统运维面对的是单机架构为主,大数据运维面对复杂的分布式架构;第三:传统运维大多维护闭源商业版系统,大数据运维通常面对开源系统,文档手册匮乏,对阅读源码要求高。第四:大数据运维对自动化工具的依赖大大增加;二.Iaas层(基础设置及服务)运维工作一般中大型企业有自己的基础设施维护团队,这部分工作不会交给大数据运维来做。小公司可能需要大数据运维键值这部分工作,主要关注三个方面:
1>.硬件大数据系统大多使用廉价PC Server或虚拟机,硬件故障是常态,通过告警,日志,维护命令等识别故障,并支持硬件更换。
2>.存储大多使用PC Server挂本磁盘的存储方式,极少情况会使用SAN(存储区域网络)或NAS(网络附属存储),熟悉分区,格式化,巡检等基本操作。
3>.网络网络的配置变更更需要比较专业的知识,如有需要可学习CCNA,CCNP等认证课程,但网络硬件和配置出问题概率很低,主要关注丢包,延时。三.HDFS运维工作
1>.容量管理第一:HDFS空间我使用超过80%要警惕,如果是多租户环境,租户的配额空间也能用完;第二:熟悉hdfs,fsck,distcp等常用命令,会使用DataNode均衡器;2>.进程管理第一:NameNode的进程是重点第二:熟悉dfsadmin等Ingles。怎么做NameNode高可用。
3>.故障管理Hadoop最常见的故障就是硬盘损坏。
4>.配置管理hdfs-site.xml中的参数设置。四.MapReduce运维工作
1>.进程管理第一:jobtracker进程故障概率比较低,有问题可以通过重启解决;第二:了解一下HA的做法;
2>.配置管理mapred-site.xml中的参数设置。五.Yarn运维工作
1>.故障管理主要是当任务异常这中止时看日志排查,通茶故障原因会集中在资源问题,权限问题中的一种。
2>.进程管理ResourceManager主要是学会配置HANodeManager进程挂掉不重要,重启即可。
3>.配置管理yarn-site.xml中的参数设置,主要分三块配置,scheduler的,ResourceManager的,NodeManager的。六.Hive/Impala运维工作
1>.SQL问题排查第一:结果不对,主要原因可能是SQL错误,数据不存在,UDF错误等,需要靠经验排查第二:慢SQL,这类问题开发经常会找运维排查,有可能是劣势SQL,数据量大,也有可能是集群资源紧张;
2>.元数据管理Hive和Impala公用的元数据,存在关系型数据库中。
七.其它组件根据组件用途,特性,关注点的不用,运维工作也各不相同,如:
1>.HBase关注读写性能,服务的可用性
2>.Kafka关注吞吐量,负载均衡,消息不丢机制
3>.Flume关注屯度量,故障后的快速恢复

五.大数据运维技能概览

六.大数据运维职业素养

1>.人品
2>.严谨
3>.细心
4>.心态
5>.熟悉操作系统
6>.熟悉业务(开发)
7>.熟悉行业
8>.喜欢大数据生态圈

转载于:https://www.cnblogs.com/yinzhengjie/p/10587721.html

什么是大数据运维工程师相关推荐

  1. python大数据运维工程师待遇_大数据运维工程师的工作职责

    大数据需要负责公司产品的技术支持.安装调试.客户使用培训及相关硬件的安装调试.下面是学习啦小编为您精心整理的大数据运维工程师的工作职责. 大数据运维工程师的工作职责1 职责: 1.负责和参与公司大数据 ...

  2. python大数据运维工程师待遇_大数据运维工程师岗位的主要职责

    大数据运维工程师需要及时反馈技术处理过程中的异常情况,及时向上级反馈告警,同时主动协调资源推动问题解决.以下是学习啦小编整理的大数据运维工程师岗位的主要职责. 大数据运维工程师岗位的主要职责1 1) ...

  3. python大数据运维工程师待遇_大数据开发、运维、数据分析分别是干什么的?哪个薪资最高?...

    玩转大数据首先要明确自己将要学习的方向,没有人能一下子吃透大数据里面所有的东西. 在大数据的世界里面主要有三个学习方向,大数据开发师.大数据运维师.大数据架构师. 哪个好?我不知道你所说的哪个好?指的 ...

  4. python大数据运维工程师待遇_什么是大数据运维工程师

    一.运维三板斧 三板斧可以解决90%以上的故障处理工作.1>.重启 重启有问题的机器或经常,使其正常工作.2>.切换 主备切换或主主切换,链接正常工作的节点.3>.查杀 查杀有问题的 ...

  5. 【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  6. python大数据运维工程师待遇_大数据运维工程师具体是做什么的?

    大数据运维的工作职责 一.集群管理 大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,Redis等大数据生态圈组建. 二.故障处理 1>.商用硬件使用故障是常态 ...

  7. python大数据运维工程师_【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  8. python大数据运维工程师_运维工程师转型大数据怎么样

    运维工作没意思,运维没有前途,运维会被取代--让很多的运维工程师感受到前途无"亮",随着资本寒冬的来临,以及各种新技术的不断出现,很多运维工程师开始走向了转型的道路.那么在如今的数 ...

  9. 大数据运维工程师面试题目

    当前你们公司使用的Hadoop版本是什么 HDFS常见的数据压缩格式有哪些,介绍其中一种详细的实现方式 HDFS垃圾回收的时间模式是多久,如何修改该时间 HDFS如何生效机架感知,取消机架感知有什么问 ...

最新文章

  1. Gitlab CI更多内容学习(二)
  2. not exists 跟not in 纪念一下
  3. c#中如何跨线程调用windows窗体控件?
  4. python能做出什么样的网站_我能用Python做什么?
  5. Python list, dict, set, tuple
  6. C++中基类的析构函数为什么要用virtual虚析构函数
  7. android 构造xml,android 中生成xml文件
  8. 垃圾收集器准则和提示
  9. 如何解决亚稳态?(FPGA面试题)
  10. 数据库系统原理选择题
  11. FX Composer 2 中文版快速教程
  12. oracle如何删除物理表空间,oracle 如何删除被误删物理文件的表空间
  13. Linux下patch打补丁命令
  14. 以太坊虚拟机 EVM(3)交易流(FISCO BCOS为例)
  15. [Redis]Redis的数据类型
  16. 二本天坑,一战成硕,上岸北邮
  17. 什么是地面站空间分集技术?以及卫星通信中的Ka-波段介绍
  18. 将CSDN文章下载为markdown文档
  19. 高质量C++/C编程指南(第11章 其它编程经验)
  20. 对于幸福不是悖论的证明,在现代对于幸福探寻

热门文章

  1. 追女生攻略:吸引女生的几个技巧点是什么?
  2. 解决vivo手机安装测试包失败的bug
  3. c语言中等于号和大于号的优先级,数学优先级
  4. 《啊哈!算法》 关于快速排序法为什么一定要哨兵j 先出动的原因?
  5. Virtualbox打开Mac下面的PD虚拟机
  6. 微信网页开发--简单的排号页面(c#、vue)
  7. 活动回顾丨欧米区块链——数字资产服务商沙龙
  8. win10扬声器红叉_win10小喇叭显示红叉怎么解决
  9. noVNC压缩包下载
  10. EXcel中查找,替换,定位