Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

阅读量：329 次

发布时间：2019-03-04

本文共 2245 字，大约阅读时间需要 7 分钟。

Ubuntu环境下大数据开发全指南

安装JDK

安装Java Development Kit（JDK）是大数据开发的基础。以下是手动安装步骤：

使用包管理器安装JDK：

sudo apt-get install java-dev

配置JDK环境变量：

打开~/.bashrc文件，添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java  export JRE_HOME=${JAVA_HOME}/jre  export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  export PATH=${JAVA_HOME}/bin:$PATH

保存后执行：

source ~/.bashrc

验证安装：

输入命令查看Java版本：

java -version

配置SSH免密登录

SSH免密登录是开发过程中的常用需求。以下是配置步骤：

安装SSH服务器：

sudo apt-get install openssh-server

生成SSH公钥：

输入命令并连续敲击回车：

ssh-keygen -t rsa

将公钥添加到授权列表：

cat ./id_rsa.pub >> ./authorized_keys

测试免密登录：

ssh localhost

安装Hadoop

Hadoop是大数据处理的核心框架。以下是手动安装步骤：

解压Hadoop：

sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local

配置Hadoop环境：

打开~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop  export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH  export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

启动Hadoop：

source ~/.bashrc  ./bin/hdfs namenode -format  ./sbin/start-dfs.sh  jps

配置Hadoop相关文件：

hadoop-env.sh：

export JAVA_HOME=/usr/lib/jvm/java

core-site.xml：


        
           
      
       hadoop.tmp.dir
            
      
       file:/usr/local/hadoop/tmp
          
         
           
      
       fs.defaultFS
            
      
       hdfs://localhost:9000

hdfs-site.xml：


        
           
      
       dfs.replication
            
      
       1
          
         
           
      
       dfs.namenode.name.dir
            
      
       file:/usr/local/hadoop/tmp/dfs/name
          
         
           
      
       dfs.datanode.data.dir
            
      
       file:/usr/local/hadoop/tmp/dfs/data

安装Scala

Scala是大数据处理的高级语言。以下是手动安装步骤：

使用包管理器安装Scala：

sudo apt-get install scala

配置Scala环境变量：

打开~/.bashrc文件，添加以下内容：

export SCALA_HOME=/usr/share/scala-2.11

验证安装：

scala -version

安装Spark

Spark是大数据处理的通用框架。以下是手动安装步骤：

解压Spark：

tar zxvf spark-2.3.1-bin-hadoop2.7.tgz

配置Spark环境：

打开~/.bashrc文件，添加以下内容：

export SPARK_HOME=/usr/local/spark

验证安装：

cd /usr/local/spark/bin  ./pyspark

测试Spark+Python：

from pyspark import SparkContext  sc = SparkContext()  lines = sc.textFile("/usr/local/spark/README.md")  lines.count()  lines.first()

以上就是Ubuntu环境下大数据开发的完整安装指南。从JDK到Hadoop、Scala、Spark，每一步都详细指导，帮助您快速搭建开发环境。

转载地址：http://uzwh.baihongyu.com/

你可能感兴趣的文章

Objective-C实现最大的非常大的数字算法(附完整源码)

查看>>

Objective-C实现最大类间方差法OTSU算法(附完整源码)

查看>>

Objective-C实现最大非相邻和算法（附完整源码）

查看>>

Objective-C实现最小二乘多项式曲线拟合(附完整源码)

查看>>

Objective-C实现最小二乘法(附完整源码)

查看>>

Objective-C实现最小值滤波(附完整源码)

查看>>

Objective-C实现最小公倍数LCM算法（附完整源码）

查看>>

Objective-C实现最小生成树 boruvka算法(附完整源码)

查看>>

Objective-C实现最小编辑距离问题算法（附完整源码）

查看>>

Objective-C实现最小路径和算法(附完整源码)

查看>>

Objective-C实现最快的归并排序算法(附完整源码)

查看>>

Objective-C实现最短路径Dijsktra算法(附完整源码)

查看>>

Objective-C实现最短路径Dijsktra算法(附完整源码)

查看>>

Objective-C实现最短路径广度优先搜索算法(附完整源码)

查看>>

Objective-C实现最近点对问题(附完整源码)

查看>>

Objective-C实现最长公共子序列算法(附完整源码)

查看>>

Objective-C实现最长回文子串算法(附完整源码)

查看>>

Objective-C实现最长回文子序列算法（附完整源码）

查看>>

Objective-C实现最长子数组算法(附完整源码)

查看>>

Objective-C实现最长字符串链(附完整源码)

查看>>