5.RDD操作综合实例

发布时间:2022-06-23 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了5.RDD操作综合实例脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

一、词频统计

A. 分步骤实现 

  1、准备文件

    1、下载小说或长篇新闻稿

5.RDD操作综合实例

 

 

    2、上传到hdfs上

5.RDD操作综合实例

 

 

  2、读文件创建RDD

 

  3、分词

 

  4、排除大小写lower(),map()  标点符号re.split(pattern,str),flatMap(),  停用词,可网盘下载stopwords.txt,filter(),  长度小于2的词filter()

 

  5、统计词频

 

  6、按词频排序

 

  7、输出到文件

 

  8、查看结果

 

B. 一句话实现:文件入文件出

C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

 

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。

  1. 丢弃不合规范的行:
    • 空行
    • 少数据项
    • 缺失数据
  2. 按支付金额排序
  3. 取出Top3

 

三、学生课程分数

网盘下载sc.txt文件,通过RDD操作实现以下数据分析:

  • 总共有多少学生?map(), distinct(), count()
  • 开设了多少门课程?
  • 每个学生选修了多少门课?map(), countByKey()
  • 每门课程有多少个学生选?map(), countByValue() 
  • Tom选修了几门课?每门课多少分?filter(), map() RDD
  • Tom选修了几门课?每门课多少分?map(),lookup()  list
  • Tom的成绩按分数大小排序。filter(), map(), sortBy()
  • Tom的平均分。map(),lookup(),mean()

 

    • 生成(课程,分数)RDD,观察keys(),values()
    • 每个分数+5分。mapValues(func)
    • 求每门课的选修人数及所有人的总分。combineByKey()
    • 求每门课的选修人数及平均分,精确到2位小数。map(),round()
    • 求每门课的选修人数及平均分。用reduceByKey()实现,并比较与combineByKey()的异同。
    • 结果可视化。 pyecharts.charts,Bar()

脚本宝典总结

以上是脚本宝典为你收集整理的5.RDD操作综合实例全部内容,希望文章能够帮你解决5.RDD操作综合实例所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: