前言
此前搭建成功分布式Spark环境,此文介绍使用Pycharm运行Python语言的Spark程序。
操作步骤
安装Pycharm
- 点击下载。 
- 过程与安装Intellij IDEA类似,在此不在赘述。 
- 进入到安装目录下执行 - ./bin pycharm-sh 
配置运行环境
- 创建新项目 
- 新建一个Python文件,这里命名为 - main.py- from pyspark import SparkContext,SparkConf 
 conf=SparkConf().setAppName("sparkDemo").setMaster("local")
 sc=SparkContext(conf=conf)
 logFile='/data/input/README.txt'
 logData=sc.textFile(logFile).cache()
 numAs = logData.filter(lambda s: 'a' in s).count()
 numBs = logData.filter(lambda s: 'b' in s).count()
 print("Lines with a: %i, lines with b: %i" % (numAs, numBs))- logFile='/data/input/README.txt'- 此路径是之前运行Hadoop例程在HDFS中创建的 - /data/input文件夹以及上传到此文件夹的- README.txt文件。
- 将Spark中的pyspark模块添加到Python环境变量中去 - sudo vim /etc/profile - 添加以下代码 - export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH 
- 更新配置 - source /etc/profile 
- 将 - /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip解压。- tar -zxvf /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip - 将解压后的文件夹复制到 - /usr/spark-2.2.1-bin-without-hadoop/Python文件夹下。- sudo mv /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j /usr/spark-2.2.1-bin-without-hadoop/Python - 【注】 - /usr/spark-2.2.1-bin-without-hadoop是spark安装目录。
- py4j-0.10-4-src.zip根据版本号不同,文件名称也有差异
 
- 点击 - Run-Edit Configurations- 点击左上角绿色 - +,选择- Python - 填写配置 - Name:任起一个名字即可
- Script path:执行的Python文件的路径。可以点右侧的下图中红框选择文件路径。 
- Environment variables:添加- PYTHONPATH和- SPARK_HOME变量。- PYTHONPATH:- spark安装目录/python- SPARK_HOME:- spark安装目录
 
- 点击 - File-Settings-Project-Project Structure- 点击右侧 - Add Content Root- 添加 - /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip和- /usr/spark-2.2.1-bin-without-hadoop/Python/lib/pyspark.zip 
- 运行即可 
【注】若from pyspark import SparkContext,SparkConf下还有红线,则添加以下代码即可
| import sys |