Spark学习记录(七):Spark安装
2022-09-16 16:22:59

本来以为这个系列应该就不更新了。其实主要是学到Spark那里时忘记做记录了,装好了之后也不知道有啥要记录的了。

不过想不到最近又要安装Spark系统了,但是也懒得一张张截图记录步骤了,就直接贴个自己看的教程,也顺便做个备份。

因为之前装了Hadoop,即Spark是安装在之前Hadoop的基础上的,所以在下载安装包时要选择Pre-build with user-provided Hadoop,也就是像spark-3.2.1-bin-without-hadoop.tgz这种。

下面是Local模式(单机模式)的 Spark安装流程。(默认用户为hadoop)。

1
2
3
4
sudo tar -zxf ~/Download/spark-3.2.1-bin-without-hadoop.tgz -C /usr/local
cd /usr/local
sudo mv ./spark-3.2.1-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark

然后修改配置文件。

1
2
3
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

添加如下配置,使Spark可以读取HDFS数据:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

当然这种安装方法是需要先启动Hadoop服务再启动Spark的。

可以通过自带示例检查安装是否成功:

1
2
cd /usr/local/spark
bin/run-example SparkPi

Spark可以通过spark-shell命令启动,或是使用pyspark。可在~/.bashrc文件中加入SPARK_HOME和PATH变量,使得相关命令可直接在终端中运行。