前言
此前搭建成功分布式Spark环境,此文介绍使用Pycharm运行Python语言的Spark程序。
操作步骤
安装Pycharm
点击下载。
过程与安装Intellij IDEA类似,在此不在赘述。
进入到安装目录下执行
./bin pycharm-sh
配置运行环境
创建新项目
新建一个Python文件,这里命名为
main.py
from pyspark import SparkContext,SparkConf
conf=SparkConf().setAppName("sparkDemo").setMaster("local")
sc=SparkContext(conf=conf)
logFile='/data/input/README.txt'
logData=sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))logFile='/data/input/README.txt'
此路径是之前运行Hadoop例程在HDFS中创建的
/data/input
文件夹以及上传到此文件夹的README.txt
文件。将Spark中的pyspark模块添加到Python环境变量中去
sudo vim /etc/profile
添加以下代码
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
更新配置
source /etc/profile
将
/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip
解压。tar -zxvf /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip
将解压后的文件夹复制到
/usr/spark-2.2.1-bin-without-hadoop/Python
文件夹下。sudo mv /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j /usr/spark-2.2.1-bin-without-hadoop/Python
【注】
/usr/spark-2.2.1-bin-without-hadoop
是spark安装目录。py4j-0.10-4-src.zip
根据版本号不同,文件名称也有差异
点击
Run-Edit Configurations
点击左上角绿色
+
,选择Python
填写配置
Name
:任起一个名字即可Script path
:执行的Python文件的路径。可以点右侧的下图中红框选择文件路径。Environment variables
:添加PYTHONPATH
和SPARK_HOME
变量。PYTHONPATH
:spark安装目录/python
SPARK_HOME
:spark安装目录
点击
File-Settings-Project-Project Structure
点击右侧
Add Content Root
添加
/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip
和/usr/spark-2.2.1-bin-without-hadoop/Python/lib/pyspark.zip
运行即可
【注】若from pyspark import SparkContext,SparkConf
下还有红线,则添加以下代码即可
import sys |