Spark学习记录(七):Spark安装
2022-09-16 16:22:59
本来以为这个系列应该就不更新了。其实主要是学到Spark那里时忘记做记录了,装好了之后也不知道有啥要记录的了。
不过想不到最近又要安装Spark系统了,但是也懒得一张张截图记录步骤了,就直接贴个自己看的教程,也顺便做个备份。
因为之前装了Hadoop,即Spark是安装在之前Hadoop的基础上的,所以在下载安装包时要选择Pre-build with user-provided Hadoop,也就是像spark-3.2.1-bin-without-hadoop.tgz这种。
下面是Local模式(单机模式)的 Spark安装流程。(默认用户为hadoop)。
1 | sudo tar -zxf ~/Download/spark-3.2.1-bin-without-hadoop.tgz -C /usr/local |
然后修改配置文件。
1 | cd /usr/local/spark |
添加如下配置,使Spark可以读取HDFS数据:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
当然这种安装方法是需要先启动Hadoop服务再启动Spark的。
可以通过自带示例检查安装是否成功:
1 | cd /usr/local/spark |
Spark可以通过spark-shell命令启动,或是使用pyspark。可在~/.bashrc文件中加入SPARK_HOME和PATH变量,使得相关命令可直接在终端中运行。