环境windows下安装pyspark"/>
PyCharm搭建Spark开发环境windows下安装pyspark
目录
- windows下安装pyspark
- PyCharm搭建Spark开发环境
windows下安装pyspark
spark和hadoop版本版本之间有对应关系
- 安装jdk
- 安装hadoop
-
下载
hadoop-2.7.7.tar.gz -
配置环境变量
不再演示
-
下载winutils.exe
选择对应的hadoop版本下载
- 复制winutils.exe到安装好的hadoop的bin目录下
- 安装spark
下载spark-2.4.6-bin-hadoop2.7.tgz
- 配置环境变量
- 安装Anaconda3.7
国内下载和安装配置
- 配置环境变量
- 复制py4j和pyspark
将D:\spark-2.4.6-bin-hadoop2.7\python\lib下两个包(pyspark.zip,py4j.zip)解压缩后拷贝到D:\Anaconda\libsite-packages目录下,然后全部替换
- 测试
- 打开cmd输入pyspark
- 输入语句
sc.parallelize(["b", "a", "c"]).collect()
PyCharm搭建Spark开发环境
上一标题是前提
- 在pycharm中随便建一个python文件
- 配置
PYSPARK_PYTHON:python路径
SPARK_HOME:spark路径
- 测试程序
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("myapp")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 2, 3]).collect())
更多推荐
PyCharm搭建Spark开发环境windows下安装pyspark
发布评论