博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark wordcont Spark: sortBy和sortByKey函数详解
阅读量:5041 次
发布时间:2019-06-12

本文共 955 字,大约阅读时间需要 3 分钟。

//统计单词top10 def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("tst").setMaster("local[3]") val sc = new SparkContext(conf) //wc val res = sc.textFile("D:\\test\\spark\\urlCount").flatMap(_.split("\\s")) .map((_,1)).reduceByKey(_+_).map(t=>(t._2,t._1)).sortByKey().take(10) //不能用top函数,要用 print(res.toBuffer) println() // val sr = Source.From val lines = Source.fromFile("D:\\test\\spark\\urlCount\\itcast.log").getLines(); val res1 = lines.flatMap(_.split("\\s")).toList. map((_,1L)).groupBy(_._1).map(t=>(t._1,t._2.size)).toList.sortBy(-_._2).take(10) print(res1.toList.toBuffer) }

在很多应用场景都需要对结果数据进行排序,中有时也不例外。在中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说明。

当组成keyval对之后只能用sortBykey实现了

 

转载于:https://www.cnblogs.com/rocky-AGE-24/p/7554304.html

你可能感兴趣的文章
大数据学习系列(8)-- WordCount+Block+Split+Shuffle+Map+Reduce技术详解
查看>>
dvwa网络渗透测试环境的搭建
查看>>
Win8 安装VS2012 和 Sql Server失败问题
查看>>
过点(2,4)作一直线在第一象限与两轴围成三角形,问三角形面积的最小值?...
查看>>
java aes CBC的填充方式发现
查看>>
使用ionic cordova build android --release --prod命令打包报有如下错误及解决方法
查看>>
BZOJ 2338 HNOI2011 数矩形 计算几何
查看>>
关于页面<!DOCTYPE>声明
查看>>
【AS3代码】播放FLV视频流的三步骤!
查看>>
C++标准库vector使用(更新中...)
查看>>
cocos2d-x 2.2.6 之 .xml文件数据读取
查看>>
枚举的使用
查看>>
BZOJ 1531 二进制优化多重背包
查看>>
BZOJ 2324 (有上下界的)费用流
查看>>
python3基础06(随机数的使用)
查看>>
在ASP.NET中操作EXCEL文件
查看>>
BP神经网络的直观推导与Java实现
查看>>
python学习之路,基础知识-列表(list)
查看>>
动态加载多国语言 ---- cookie + 浏览器
查看>>
《Java大学教程》—第9章 软件质量
查看>>