此前配置好分布式Hadoop环境,此篇主要讲解通过Intellij IDEA编写分布式MapReduce程序以及利用Hadoop实现词频统计
系统环境
创建Hadoop工程
创建新工程
- 打开Intellij IDEA,创建一个新工程  
- 选择Java项目,并添加JDK路径  
添加依赖包
点击File-Project Structure
打开后点击左侧Modules,然后点击Dependencies

点击右侧+,选择JARs or directories,将下图所有依赖包的目录导入

【注】/usr/hadoop-2.7.5是Hadoop安装目录
编写代码
新建一个类名为WordCount,代码如下
| import org.apache.hadoop.conf.Configuration; | 
配置编译环境
点击Run-Edit Configuration
点击左上角+,然后点击Application


- Name,即该运行配置的名字,这里命名为- RunHadoop
- Main Class,即需要运行的主类,这里使用的默认包,所以填写- WordCount
- Program arguments,即运行时需要输入的参数,此处填写参数为- hdfs://master:9000/data/input/README.txt hdfs://master:9000/output/- 此处,第一个参数为输入文件路径,第二个参数为输出文件路径。 - master:9000为分布式Hadoop环境中- core-site.xml配置文件中- fs.default.name的值- /data/input/README.txt为分布式Hadoop环境中利用- hdfs dfs -mkdir -p /data/input 
 hdfs dfs -put README.txt /data/input- 创建并上传到HDFS系统中的文件路径。 
【注】若hdfs://master:9000/output已经存在,需要手动删除
| hdfs dfs -rm -r /output | 
查看运行结果
web界面查看
通过http://localhost:50070查看各个结点运行状况
