此前配置好分布式Hadoop环境,此篇主要讲解通过Intellij IDEA编写分布式MapReduce程序以及利用Hadoop实现词频统计
系统环境
创建Hadoop工程
创建新工程
打开Intellij IDEA,创建一个新工程
选择Java项目,并添加JDK路径
添加依赖包
点击File-Project Structure
打开后点击左侧Modules
,然后点击Dependencies
点击右侧+
,选择JARs or directories
,将下图所有依赖包的目录导入
【注】/usr/hadoop-2.7.5
是Hadoop安装目录
编写代码
新建一个类名为WordCount
,代码如下
import org.apache.hadoop.conf.Configuration; |
配置编译环境
点击Run-Edit Configuration
点击左上角+
,然后点击Application
Name
,即该运行配置的名字,这里命名为RunHadoop
Main Class
,即需要运行的主类,这里使用的默认包,所以填写WordCount
Program arguments
,即运行时需要输入的参数,此处填写参数为hdfs://master:9000/data/input/README.txt hdfs://master:9000/output/
此处,第一个参数为输入文件路径,第二个参数为输出文件路径。
master:9000
为分布式Hadoop环境中core-site.xml
配置文件中fs.default.name
的值/data/input/README.txt
为分布式Hadoop环境中利用hdfs dfs -mkdir -p /data/input
hdfs dfs -put README.txt /data/input创建并上传到HDFS系统中的文件路径。
【注】若hdfs://master:9000/output
已经存在,需要手动删除
hdfs dfs -rm -r /output |
查看运行结果
web界面查看
通过http://localhost:50070
查看各个结点运行状况