Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境
一,安装jdk1.8.0.144
下载地址:www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html
Ubuntu配置jdk运行环境
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ mkdir /usr/lib/jvm #创建jvm文件夹
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解压到/usr/lib/jvm目录下
$ cd /usr/lib/jvm #进入该目录
$ mv jdk1.7.0_80 java #重命名为java
$ sudo apt-get install vim
$ vim ~/.bashrc #给JDK配置环境变量
~/.bashrc文件末尾添加以下内容
export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
$ source ~/.bashrc #使新配置的环境变量生效
$ java -version #检测是否安装成功,查看java版本
二,配置ssh免密登录
$ sudo apt-get install openssh-server #安装SSH server
$ ssh localhost #登陆SSH,第一次登陆输入yes
$ exit #退出登录的ssh localhost
$ sudo su
$ cd ~/.ssh/ #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa
输入完 $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车
$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案
三,安装hadoop-2.6.5
下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv hadoop-2.6.5 hadoop #重命名为hadoop
$ sudo chown -R hadoop ./hadoop #修改文件权限
~/.bashrc文件末尾添加以下内容
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
同样,执行source ~./bashrc使设置生效,并输入“hadoop version”查看hadoop是否安装成功
往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入
export JAVA_HOME=/usr/lib/jvm/java
往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入
<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>
在Hadoop的目录下执行
$ ./bin/hdfs namenode -format
$ ./sbin/start-dfs.sh
$ jps
此时也有可能出现要求输入localhost密码的情况 ,如果此时明明输入的是正确的密码却仍无法登入,其原因是由于如果不输入用户名的时候默认的是root用户,但是安全期间ssh服务默认没有开root用户的ssh权限
输入代码:
$vim /etc/ssh/sshd_config
检查PermitRootLogin 后面是否为yes,如果不是,则将该行代码 中PermitRootLogin 后面的内容删除,改为yes,保存。之后输入下列代码重启SSH服务:
$ /etc/init.d/sshd restart
成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件
后续每次重新启动Hadoop只需以下命令即可
sudo su
ssh localhost #连接免密的root
cd /usr/local/hadoop #打开Hadoop目录
./sbin/start-dfs.sh #启动namenode和datanode进程
四,安装Scala
sudo apt-get install scala
~/.bashrc文件末尾添加以下内容,执行source ~./bashrc使设置生效
export SCALA_HOME=/usr/share/scala-2.11
五,安装Spark
下载地址:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz
tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark
在>>>后输入
lines = sc.textFile("/usr/local/spark/README.md")lines.count() #字数统计lines.first()
如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功
Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境相关推荐
- 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!
2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华 条码书号:9787111591979 出版日期 ...
- 《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计
<Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述 本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...
- java1.8+pydev_Ubuntu 18.04.4 中使用 Eclipse+PyDev 配置 Python 开发环境
先学习一下深度学习必备的编程语言 Python.工欲善其事,必先利其器.一个好用的 IDE 将会使你的学习事半功倍,下面就是我本人在 Ubuntu 18.04.4 中使用 Eclipse+PyDev ...
- 程序好思路分享 计算机毕业设计Hadoop+Spark交通大数据 地铁客流量分析大数据 数据仓库 大数据毕业设计 大数据毕设
简介 该项目主要分析深圳通刷卡数据,通过大数据技术来研究深圳地铁客运能力及探索优化服务的方向 主要讲解Flink流处理实时分析部分,离线部分较简单,暂时略过 项目流程 采用python请求深圳地铁数据 ...
- python安装在什么系统下最好-python开发环境哪个好用?如何搭建?
现在大量的应用将基于paython3进行开发,因为对于python的环境要求也和以往不同,现在就针对这部分内容,教大家设置好python的开发平台. Python的安装 学习Python编程,首先就得 ...
- 在ubuntu16.04安装hadoop集群时ssh不成功
背景信息: root@ubuntu4:~/.ssh# cat /etc/issue Ubuntu 16.04.1 LTS \n \l 官方指导: 如果不输入口令就无法用ssh登陆localhost,执 ...
- 大数据高级开发工程师——Spark学习笔记(9)
文章目录 Spark内存计算框架 Spark Streaming Spark Streaming简介 Spark Streaming架构流程 什么是DStream DStream算子操作 1. Tra ...
- 大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用
包含sparksql的完整使用案例,请务必耐心看完 专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...
- 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...
最新文章
- python 把元组转为列表
- 精彩回顾 | Dapr闪电说系列
- 距离大厂的安全体系建设,你还有三个“不够”
- python中类的属性一般来说_python中实例属性和类属性之间的关系
- 安装ceston8出现timeout_瓦罗兰特Valorant:显示逾时怎么办 瓦罗兰特time out解决
- 乐观锁 VS 悲观锁(简述)
- SVNQuery–如何创建更新索引并查询
- Javascript--cookie创建与查看
- 2017c语言考核册答案,2017年计算机二级C语言考前练习试题及答案2
- 文本转语音(TTS)工具Balabolka
- 英汉汉英词典,牛津高级词典,电子词典,离线英汉,汉英词典的使用方法
- ESP32 EC11 制作电脑音量调节旋钮
- DaVinci:自定义常用剪辑快捷键
- mysql安装依赖perl(Data::Dumper)
- confluence搭建
- Python pandas.DataFrame.combine_first函数方法的使用
- 新建 FrameMaker API 时引用目录的设置
- 架构文摘:LSV负载均衡技术笔记
- SIM 卡的IMSI号含义
- [史上最全]笔记本更换内存条和固态硬盘重装系统教程