优众联杰建站品牌

13518219792
  • 首页
  • 关于我们
    • 如何选择
    • 选择理由
  • 案例作品
    • 网站建设
    • 优化推广
    • 微信开发
    • 电商托管
  • 服务项目
    • 网站建设
    • 移动端/APP
    • 微信/小程序
    • 技术支持
    • 其它服务
  • 建站知识
    • 广汉网站建设
    • 广汉网站优化推广
    • 广汉小程序开发
  • 网站售后
    • 广汉网站运营
    • 广汉网站维护
    • 广汉app开发
  • 客服中心
  • 全国分站

spark-shell实现WordCount&按word排序&按count排序

spark-shell实现WordCount&按word排序&按count排序,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

创新互联专注于网站建设,为客户提供成都网站设计、成都网站建设、网页设计开发服务,多年建网站服务经验,各类网站都可以开发,高端网站设计,公司官网,公司展示网站,网站设计,建网站费用,建网站多少钱,价格优惠,收费合理。

输入:

hello tom
hello jerry
hello kitty
hello world
hello tom

读取 HDFS 中位于 hdfs://node1:9000/wc/input 目录下的文本文件, 读取结果赋值给 textRdd

val textRdd = sc.textFile("hdfs://node1:9000/wc/input")
textRdd.collect

res1: Array[String] = Array(hello,tom, hello,jerry, hello,kitty, hello,world, hello,tom)

实现普通的 WordCount, 但结果不会像 MapReduce 那样按 Key(word) 排序

val wcRdd = textRdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
wcRdd.collect

res2: Array[(String, Int)] = Array((tom,2), (hello,5), (jerry,1), (kitty,1), (world,1))

实现按 Key(word) 排序(字典顺序)的 WordCount

思路: 在 wcRdd 的基础上对 Key(word) 排序

val sortByWordRdd = wcRdd.sortByKey(true)    // 在 wcRdd 的基础上对 Key(word) 排序
sortByWordRdd.collect

res3: Array[(String, Int)] = Array((hello,5), (jerry,1), (kitty,1), (tom,2), (world,1))

在 Spark 1.3 中, 可以使用这样一个 RDD 的 transform 操作:

使用 sortBy() 操作

// _._1 : 元组的第1项, 就是 word; true : 按升序排序
val sortByWordRdd = wcRdd.sortBy(_._1, true)
sortByWordRdd.collect

res3: Array[(String, Int)] = Array((hello,5), (jerry,1), (kitty,1), (tom,2), (world,1))

实现按 Value(count) 排序(降序)的 WordCount

思路1: 在 wcRdd 的基础上, 先把K(word), V(count)反转, 此时对Key(count)进行排序, 最后再反转回去

// 在wcRdd的基础上, 先把K(word), V(count)反转, 此时对Key(count)进行排序, 最后再反转回去
val sortByCountRdd = wcRdd.map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1))
sortByCountRdd.collect

res4: Array[(String, Int)] = Array((hello,5), (tom,2), (jerry,1), (kitty,1), (world,1))

思路2: 直接使用 sortBy() 操作

// _._2 : 元组的第2项, 就是 count; false : 按降序排序
val sortByCountRdd = wcRdd.sortBy(_._2, false)
sortByCountRdd.collect

res4: Array[(String, Int)] = Array((hello,5), (tom,2), (jerry,1), (kitty,1), (world,1))

关于spark-shell实现WordCount&按word排序&按count排序问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注创新互联行业资讯频道了解更多相关知识。


名称栏目:spark-shell实现WordCount&按word排序&按count排序
URL标题:http://www.gyruijie.cn/article/joeoje.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

其他资讯

  • 怎么设置目标,我要怎么去把自己的目标设定呢
  • 建站的软件有什么区别,独立站和自建站有什么区别?
  • 商业网站推广技巧有哪些
  • 网站备案难吗?以实际备案经验说下备案流程
  • 如何把psd变成矢量图,如何将PSD文件转化为矢量图

行业动态

企业网站建设的重要性!

现在虽然是移动互联网时代,但企业网站依然重要,包含PC站点,移动站。可以说企业网站关系企业的未来发展和前途,尤其对中小企业更是如此,一些中小企业老板,对自己的名片很在乎,因为这是个门面。...

服务项目

  • 网站建设

    查看详情
  • 移动端/APP

    查看详情
  • 微信/小程序

    查看详情
  • 技术支持

    查看详情
  • 其它服务

    查看详情
  • 更多服务项目

    用我们的专业和诚信赢得您的信赖,从PC到移动互联网均有您想要的服务!

    获取更多

联系吧 在百度地图上找到我们

电话:13518219792

如遇占线或暂未接听请拨:136xxx98888

业务咨询 技术咨询 售后服务
网站设计
成都网站设计
企业网站设计
成都网站设计
成都网站设计
网站制作
成都网站制作
wap网站制作
移动手机网站制作
重庆网站制作
联系我们
电话:13518219792
邮箱:631063699@qq.com
地址:成都青羊区锦天国际1002号
网址:www.gyruijie.cn
网站建设
上市集团网站建设
营销网站建设
成都网站建设
内江网站建设

微信二维码

  • 友情链接
  • 仁寿柴油发电机
  • 成都LED亮化工程
  • 成都精神堡垒设计
  • 微信开发
  • 四川雅安服务器托管
  • 德阳发电机
  • 医药医疗网站建设方案
  • 重庆水土双线托管
  • 手机网站建设套餐
  • 成都导视牌设计

Copyright © 2002-2024 www.gyruijie.cn 成都优众联杰科技有限公司建站品牌 QQ:244261566 版权所有 备案号:蜀ICP备2024116266号-2

  • 在线咨询
  • 13518219792
  • 微信二维码

  • 移动版官网