Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

一，安装jdk1.8.0.144

下载地址：www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

Ubuntu配置jdk运行环境

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

$ mkdir /usr/lib/jvm                           #创建jvm文件夹
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz  -C /usr/lib #/ 解压到/usr/lib/jvm目录下
$ cd /usr/lib/jvm                                 #进入该目录
$ mv  jdk1.7.0_80 java                         #重命名为java
$ sudo apt-get install vim
$ vim ~/.bashrc                                 #给JDK配置环境变量

~/.bashrc文件末尾添加以下内容

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

$ source ~/.bashrc                       #使新配置的环境变量生效
$ java -version                          #检测是否安装成功，查看java版本

二，配置ssh免密登录

$ sudo apt-get install openssh-server   #安装SSH server
$ ssh localhost                         #登陆SSH，第一次登陆输入yes
$ exit                                  #退出登录的ssh localhost
$ sudo su
$ cd ~/.ssh/                            #如果没法进入该目录，执行一次ssh localhost
$ ssh-keygen -t rsa

输入完 $ ssh-keygen -t rsa　语句以后，需要连续敲击三次回车

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost                         #此时已不需密码即可登录localhost，并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三，安装hadoop-2.6.5

下载地址：http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

$ sudo tar -zxvf  hadoop-2.6.5.tar.gz -C /usr/local    #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv  hadoop-2.6.5    hadoop                      #重命名为hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件权限

~/.bashrc文件末尾添加以下内容

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样，执行source ~./bashrc使设置生效，并输入“hadoop version”查看hadoop是否安装成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

在Hadoop的目录下执行

$ ./bin/hdfs namenode -format
$ ./sbin/start-dfs.sh
$ jps

此时也有可能出现要求输入localhost密码的情况，如果此时明明输入的是正确的密码却仍无法登入，其原因是由于如果不输入用户名的时候默认的是root用户，但是安全期间ssh服务默认没有开root用户的ssh权限

输入代码：

$vim /etc/ssh/sshd_config

检查PermitRootLogin 后面是否为yes，如果不是，则将该行代码中PermitRootLogin 后面的内容删除，改为yes，保存。之后输入下列代码重启SSH服务：

$ /etc/init.d/sshd restart

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件

后续每次重新启动Hadoop只需以下命令即可

sudo su
ssh localhost #连接免密的root
cd /usr/local/hadoop #打开Hadoop目录
./sbin/start-dfs.sh  #启动namenode和datanode进程

四，安装Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下内容，执行source ~./bashrc使设置生效

export SCALA_HOME=/usr/share/scala-2.11

五，安装Spark

下载地址：https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后输入

lines = sc.textFile("/usr/local/spark/README.md")lines.count()   #字数统计lines.first()

如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境相关推荐

2018年又传喜报！热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》畅销书籍出版上市!
2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍出版上市! 作者: 王家林段智华条码书号:9787111591979 出版日期 ...
《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计
<Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...
java1.8+pydev_Ubuntu 18.04.4 中使用 Eclipse+PyDev 配置 Python 开发环境
先学习一下深度学习必备的编程语言 Python.工欲善其事,必先利其器.一个好用的 IDE 将会使你的学习事半功倍,下面就是我本人在 Ubuntu 18.04.4 中使用 Eclipse+PyDev ...
程序好思路分享计算机毕业设计Hadoop+Spark交通大数据地铁客流量分析大数据数据仓库大数据毕业设计大数据毕设
简介该项目主要分析深圳通刷卡数据,通过大数据技术来研究深圳地铁客运能力及探索优化服务的方向主要讲解Flink流处理实时分析部分,离线部分较简单,暂时略过项目流程采用python请求深圳地铁数据 ...
python安装在什么系统下最好-python开发环境哪个好用？如何搭建？
现在大量的应用将基于paython3进行开发,因为对于python的环境要求也和以往不同,现在就针对这部分内容,教大家设置好python的开发平台. Python的安装学习Python编程,首先就得 ...
在ubuntu16.04安装hadoop集群时ssh不成功
背景信息: root@ubuntu4:~/.ssh# cat /etc/issue Ubuntu 16.04.1 LTS \n \l 官方指导: 如果不输入口令就无法用ssh登陆localhost,执 ...
大数据高级开发工程师——Spark学习笔记（9）
文章目录 Spark内存计算框架 Spark Streaming Spark Streaming简介 Spark Streaming架构流程什么是DStream DStream算子操作 1. Tra ...
大数据单机学习环境搭建(9)Spark单节点安装与pyspark使用
包含sparksql的完整使用案例,请务必耐心看完专题:大数据单机学习环境搭建和使用 1.Spark安装 2.Spark配置 2.1配置环境变量 2.2spark客户端 3.Spark使用 3.1环 ...
《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境相关推荐

最新文章

热门文章