Spark学习记录（七）：Spark安装

2022-09-16 16:22:59 #spark #大数据

本来以为这个系列应该就不更新了。其实主要是学到Spark那里时忘记做记录了，装好了之后也不知道有啥要记录的了。

不过想不到最近又要安装Spark系统了，但是也懒得一张张截图记录步骤了，就直接贴个自己看的教程，也顺便做个备份。

因为之前装了Hadoop，即Spark是安装在之前Hadoop的基础上的，所以在下载安装包时要选择Pre-build with user-provided Hadoop，也就是像spark-3.2.1-bin-without-hadoop.tgz这种。

下面是Local模式（单机模式）的 Spark安装流程。（默认用户为hadoop）。

sudo tar -zxf ~/Download/spark-3.2.1-bin-without-hadoop.tgz -C /usr/local
cd /usr/local
sudo mv ./spark-3.2.1-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark

然后修改配置文件。

1
2
3

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

添加如下配置，使Spark可以读取HDFS数据：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

当然这种安装方法是需要先启动Hadoop服务再启动Spark的。

可以通过自带示例检查安装是否成功：

1 2	cd /usr/local/spark bin/run-example SparkPi

Spark可以通过spark-shell命令启动，或是使用pyspark。可在~/.bashrc文件中加入SPARK_HOME和PATH变量，使得相关命令可直接在终端中运行。

2022-09-16 16:22:59 #spark #大数据