阿法狗把李昌镐都干掉了,不管是图形图片处理集群还是文字文本处理集群都将成为IT公司新一代的基础设施。公司准备先建立文字文本处理集群,即选择阿里E-MapReduce产品,快速搭建文本大数据处理系统,谋划公司新一代大数据处理架构,但是,初级阶段,不想为Hadoop的底层维护花费时间,集群维护一个工程师少说也要5K以上吧(四级城市),还有硬件和电费等等,公司决定先跑一个样本集群,再做下步谋划,以上也是很多公司对集群的态度吧。

创业阶段钱是精打细算了,阿里集群可以按时付费,最低每小时3.88元,就当每小时3.88元的学习费用吧,因此,学习速度要快呀,集群一开,每小时3.88元的学费不断花费哦。今天就和同学分享,我是如何用三天,一百元以内的学费,高效率地搭建集群,且让简单的英文,中文分词程序在自己的控制下在集群中跑起来的。

1.钱袋子准备好:阿里需要你账号资金100元以上,不然,就不让你学习了。

2.理解阿里E-MapReduce体系

1)整个阿里云我们常见到的是ECS,就是在庞大的硬件设施上,根据用户需要虚拟出来的一台台计算机,他们是建立在实体CPU,硬盘,内存等之上的,可以随时释放,也可以临时组合。

2)集群就是跑在这些ECS之上,因此,同学想租几台ECS自己搭建Hadoop估计也是没有问题,显然,我是没有这个兴趣,阿里的同学也是把在ECS上搭建集群的过程自动化了。

3)当然,若是仅仅依靠ECS集群,有个问题,即运行的记录和数据都放在集群上,随着集群的释放,运算数据也丢失了,在商业环境中,可以让集群开几个小时,再释放,不是一直要启动一个集群,若全天候启动,每小时3.88,每天24*3.88=93.12,每月93.12*30=2793元,心疼呀,当然,包月省电,但是很多时候还是不一定要全天候运行,还有,扩大集群后,也要释放。不过,阿里倒是很厚道,就是有了对象存储OSS,这个就相当于存储空间,你采购阿里云上的OSS,集群就可以把输入和输出数据,放在OSS这个大硬盘上,这个大硬盘是很便宜啦,1TB每月144元,白菜价格啦,因此,建立集群前一定要买个大硬盘,便于把自己集群运算的结果放在这个大硬盘上。

4)创建集群后,你就是主人了。当然,要理解Hadoop集群结构了。集群至少有两个“孩子”,一个是老大你可以通过公网访问它,比如,把代码用SSH等放在相关目录,当然,你也可以把程序放在大硬盘OSS上,设置后让集群来取,当然,要深入理解集群,还是要踏入自己孩子在房间看看为好。在创建集群后,可以看到Master机器的公网地址,你就当一台ECS的主机就好,登录可以做相关操作,当然,另外一个孩子是不要我们控制的,集群自己管理,是内部地址。所以,需要安装一个常见的SSH登录工具。

5)集群的大致规划:先规划OSS,在上面建立文件夹,放置自己集群计算内容,我们还是以分析一篇英文小说中的词汇状态,即英文切词为例吧,这个在阿里的手册中有代码,这也算是集群的“hello world”程序,比如,在OSS上建立Input文件夹,当然,还有集群的输出文件夹Output(注意:输入文件夹可以反复使用,输出文件夹不能是已经存在的目录,即阿里认为,输出的东西是花钱的很宝贵呀,每次输出,都要是全新的文件夹,保证客户花钱的结果不能被弄乱,因此,每次集群运行的时候,我们都要给集群指定输出的文件夹,我一般采用Output/2014-4-25-2模式建立输出文件夹);有了语料,程序,有了输出文件夹,集群就可以开始工作了,并把输出结果放置在相关OSS硬盘中;这样,我们就可以省钱了,比如,创建一个集群,并打开相关作业,再一定时间后关闭,安心下班睡觉,钱不会漏呀!

6)集群运行机制的大致理解:相关Hadoop资料,多如牛毛,我也没有过多时间理解,但是,我们应该对集群的运行有个大致理解。

—集群购买启动等待你的配置

—配置作业:一个作业(任务)至少,要给集群OSS设置,包括运行的JAVA程序包的位置,输出的文件的位置,等等参数吧

—启动作业(任务),集群开始运行

—集群运行,Master机器,肯定先看看运行的OSS配置变量,从OSS下载JAR包,还有计算的数据,比如,英文小说的数据文件,这些文件再根据一定规律分配给子节点,在启动集群程序运行

—集群运行过程中,若有什么情况,肯定报告给控制台,我们点击获得集群的运作状态

—集群作业结束,并返回运作数据到OSS

—我们可以在Output的相关目录下看到结果

 3.我的第一个E-MapReduce程序:2009年后,本人就没有编写JAVA代码了,离开码农岗位了,这次也不想过分打扰工程师,主要想让自己重新体验下JAVA工程,再为下步集群规划做准备。因此,在此过程中,自己动手,花了点时间。

1)本地打包程序出错:在本地安装了多年不见的Eclipse(还是很熟悉的界面),从阿里E-MapReduce文档中下载代码,开始编译Word Count,兴冲冲地把JAR包上传到OSS,并启动集群,结果是类没有打包好,汗呀,确实不会打包了,关键是阿里文档中有打包命令行,我就是按照这个模式打包的呀。

2)问了阿里同学,说是要在Hadoop集群环境中打包。晕倒,我能够在本地安装,配置好Hadoop集群,我还到阿里来购买吗?显然,这个应该是把代码直接上传到集群主机(用SSH),并在集群上打包呀。具体打包的过程,还是阿里文档中的打包过程。这边折腾我几个小时。(第一天就这样过去了,我是周六下午4点开始的,晚上11点下班,除了启动集群,看到我的JAR类没有打包好外,当然,还花费了块30元集群费用呀,好像就没有其它收获了,当然,阿里同学很给力,说第二天给我在集群上打包,并给我过程截图,汗呀,JAR包不会打了)

3)(周日,阿里同学传来打包截图),重新创建集群,根据阿里同学的截图,我在集群主机上打包好Word Count,再下载下来,再传递到OSS上,再启动集群,成功啦!可以看到分词的结果(这个过程当然是一个小时内了,有关集群打包的过程截图在附件中)

4.我的第一个E-MapReduce控制程序:由于公司现在计算量不大,准备定时开集群,定时释放,这样每天的工作,不该都由人工操作呀,阿里还是不错的,允许你写个JAVA程序,运行在公司办公室或者其它服务器上,定时给阿里云发指令,让其自动创建集群,定时释放等等,实现全自动化的作业,这个当然是重要的控制程序了,阿里手册中都有代码。在和阿里团队互动中,我就提出,用户更加需要工程文件,而不是代码,代码我们一眼就看懂,但是,用这些代码建立工程就痛苦了,即代码和工程之间还是有距离的,用户需要高效率工作,基于工程快速实现目标,因此,这些自动化程序都是阿里同学给工程代码了,很快完成了。(周日,第二天就这样过去了,顺利运行集群,并创建了集群自动化控制程序,还是花费30元呀)

4.我的第一个中文分词程序:阿里给的是英文分词程序,但是,公司需要中文分词,就寻找了一个开源的中文分词程序,这个就是第三天的任务,开始脱落阿里的案例代码,运作自己的程序。

1)第三天任务,不仅有自己的JAR包,此JAR包还有一个外接的JAR包,这个配置有点问题,开始时候,把外部JAR包放在Master的root目录,结果,Hadoop权限不够,运行不了。

2)后来把JAR包放在Home的目录表,Hadoop就可以取到这个外部JAR包了,程序是运行起来了。

3)为了测试集群的能耐,我下载了100多M的中文语料,但是,一直失败,后来,我想还是放小目标,用集群去分析《红楼梦》吧,终于成功了。(完成第三天的任务)

经验之谈:1)要对阿里云,集群有比较清晰的认知,之前,我们就用了ECS几年了,还有OSS都在用,因此,没有用的同学,要把他们弄清;2)要对集群的运作机理搞清楚,包括OSS和集群的关系,集群的运作过程,不然,在配置中会遇到问题;3)代码层面就是像阿里同学要工程,而不是代码;4)加入他们的互动群,有问题提交工单,不要一个人孤军奋战,这个也是商业购买的优点,若让自己一个人去整个Hadoop集群,是以周为代价的时间。

其实,自己体验后,公司的集群规划,研发计划都很清楚了,如何省钱,如何提高效率都知道了。

三天100元从零开始搭建Hadoop集群相关推荐

  1. 从零开始搭建hadoop集群01

    从零开始搭建Hadoop集群,因为我实在走过太多坑了,所以想写出来自己的搭建过程,让大家少走点弯路. 我用的是vm15.5和centos8(以下所有教程都是我用centos8做的,不一样的系统可能有极 ...

  2. 利用云服务器搭建hadoop集群

    利用云服务器搭建hadoop集群 测试连接 一. Linux配置 二. 3台服务器免密码登录 1. 三台机器生成公钥与私钥: 2. 拷贝公钥到同一台机器 3. 复制第一台机器的认证到其他机器 4. 通 ...

  3. 三台Ubuntu虚拟机搭建 Hadoop集群 (第一次搭)

    最近因为要搭Hadoop集群,确实花了好大的心血在里面,因为我的Linux也是前两天速成的,好多东西都还是边查资料边搭.但我最终确实成功了,留了一点点小问题在里面.(当Hadoop集群start-al ...

  4. 大数据导论实验一:搭建Hadoop集群

    一.实验要求(10%) 搭建Hadoop集群,要求至少是3个节点的真分布式集群系统,包含1个NameNode,两个DataNode. 集群的安装配置大致为如下流程: 1)准备3台客户机(关闭防火墙.静 ...

  5. 华为云 和 阿里云 跨服务器搭建Hadoop集群

    目录 华为云 和 阿里云 跨服务器搭建Hadoop集群 说明 期间遇到的问题 CentOS6 7 8更换阿里yum源 修改服务器名称 安装JDK 安装Hadoop 编写集群分发脚本 xsync scp ...

  6. 容器编排技术 -- Kubernetes从零开始搭建自定义集群

    容器编排技术 -- Kubernetes从零开始搭建自定义集群 1 设计和准备 1.1 学习 1.2 Cloud Provider 1.3 节点 1.4 网络 1.4.1 网络连接 1.4.2 网络策 ...

  7. Docker学习七:使用docker搭建Hadoop集群

    本博客简单分享了如何在Docker上搭建Hadoop集群,我的电脑是Ubuntu20,听同学说wsl2有些命令不对,所以建议在虚拟机里按照Ubuntu或者直接安装双系统吧 Docker学习一:Dock ...

  8. Hadoop(二)搭建Hadoop集群

    在了解Hadoo基础之后,借助于docker快速实现虚拟化,搭建Hadoop集群,进一步了解Hadoop,实地测试,实地操作,更进一步的了解Hadoop. 首先需要了解Hadoop的各个模块概念已经功 ...

  9. 微信棋牌源码虚拟机搭建Hadoop集群

    虚拟机搭建Hadoop集群 安装包准备 操作系统:ubuntu-16.04.3-desktop-amd64.iso 软件包:VirtualBox 安装包:hadoop-3.0.0.tar.gz,jdk ...

最新文章

  1. print、println的区别
  2. 8GB内存的树莓派4来啦!国内售价589元,官方还推出配套64位系统
  3. Web常用函数介绍(LoadRunner相关)
  4. Atitit.工作流 与 规则引擎
  5. Python实现鸢尾花数据集分类问题——基于skearn的SVM(有详细注释的)
  6. Websphere的类加载器以及策略的简单介绍
  7. BZOJ1895Pku3580 supermemo——非旋转treap
  8. bch编码matlab,BCH码的编码方法.doc
  9. python控制电机转动_Micropython TurnipBit 旋转按钮控制直流电机转速(儿时记忆中的吊扇)...
  10. matlab dcm文件,CT的原始图像.dcm文件的读取
  11. checkio Ascending List
  12. springBoot项目中yml文件${REDIS_HOST:127.0.0.1}写法解析
  13. iphoneX适配-客户端H5页面
  14. android 画图一
  15. 读书感受 之 《学会提问》
  16. JAVA程序设计实用教程 第三章 习题3(2)
  17. A. Good Pairs
  18. CISCO学习笔记(四)Trunk功能及端口模式
  19. 纯HTML代码绘制表格--初入HTML1
  20. 【图像重建】基于正交匹配追踪(OMP)算法结合小波变换是图像重建含Matlab源码

热门文章

  1. MySql的存储过程介绍及语法实例操作
  2. 数据结构与算法:企业级链表实现(超详细)
  3. BZOJ 3884 上帝与集合的正确用法
  4. 一淘网挑战百度意在造势 人才储备成最大障碍
  5. 华为的数字化转型与数据治理
  6. 搜索引擎的竞价排名是怎样实现的?
  7. 25,000,000 行的代码就问你敢不敢动?!
  8. 春招快到了,送你一份数据分析常见面试题
  9. JimuReport积木报表——分组报表怎么做
  10. Apache Jmeter 压测入门