使用Eclipse基于Maven使用Java开发WordCount程序项目

zhangym195

浏览: 121555 次
性别:
来自: 黑龙江

最近访客更多访客>>

Vinvens

hecore

atom32

li564299616

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据
Hadoop
Spark
WordCount

大数据 Spark WordCount hadoop java

1.前提条件

下载JavaEE Eclipse ，自带Maven

安装好JDK1.8

下载并配置了Hadoop 2.6.x

2.创建Maven Project

选择 Maven-archetype-quickstart 选项

将项目的 JRE换成 JDK1.8，点击编辑选择系统的1.8版本

配置POM文件，为了以后写程序方便，pom.xml使用以下内容替换对应内容：

Ctrl+s保存后

Eclipse会下载相关的Jar文件

关于pom.xml文件的配置，可以通过以下网站（Maven中央仓库信息速查 http://maven.outofmemory.cn/org.apache.spark/）搜索并对照修改，如要查找 spark-streaming_2.10 的依赖包的话，可以点击并对应找到。

如果下载更新时出现错误，可以点击右键，然后选择“Quck Fix”

查看包已经正确下载了

3.开发程序

在src下面建立一个WordCount类，然后编写如下代码

/**
 * 
 */
package com.dt.spark.tempStatisticsApp.cores;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**
 * @author yuming
 * ail: ymzhang@foxmail.com
 * weibo: http://www.weibo.com/yumzhang
 */
public class WordCount {

	public static void main(String[] args) {
		
		//设置应用程序的名称和运行模式(本地)
		SparkConf conf = new SparkConf()
				.setAppName("Spark WordCount by Java.").setMaster("local");
		
		//创建Java SparkContext,
		//通往天堂之门（去集群的唯一通道）
		JavaSparkContext sc = new JavaSparkContext(conf);
		
		//使用本地数据源来创建JavaRDD
		JavaRDD<String> lines = sc.textFile("H://ScalaTraining//shell//README.md");
		
		//对初始的JavaRDD进行Transformation级别的处理，例如Map、Filter高阶函数的编程 
		//对每行进行拆分，
		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			@Override
			public Iterable<String> call(String line) throws Exception { //
				return Arrays.asList(line.split(" "));
			}
		});
		
		//对单词实例进行计数为1
		JavaPairRDD<String,Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
			@Override
			public Tuple2<String, Integer> call(String word) throws Exception {
				return new Tuple2<String,Integer>(word,1) ;
			}
		});
		
		// 统计每个单词在文件中出现的总次数
		JavaPairRDD<String,Integer> wordsCount = 
				pairs.reduceByKey(new Function2<Integer, Integer, Integer>() { 
				// 对相同的key，对value进行累加，可以local和reducer级别同时reduce，提高网络带宽利用率
			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
		});
		
		wordsCount.foreach(new VoidFunction<Tuple2<String,Integer>>() {
			@Override
			public void call(Tuple2<String, Integer> pairs) throws Exception {
				System.out.println(pairs._1 + ":" + pairs._2);
			}
		}); 
		//关闭sc上下文
		sc.close();
	}
}

Run As Java Application