脚本宝典收集整理的这篇文章主要介绍了5.RDD操作综合实例,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
一、词频统计
A. 分步骤实现
1、准备文件
1、下载小说或长篇新闻稿
2、上传到hdfs上
2、读文件创建RDD
3、分词
4、排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
5、统计词频
6、按词频排序
7、输出到文件
8、查看结果
B. 一句话实现:文件入文件出
C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
三、学生课程分数
网盘下载sc.txt文件,通过RDD操作实现以下数据分析:
以上是脚本宝典为你收集整理的5.RDD操作综合实例全部内容,希望文章能够帮你解决5.RDD操作综合实例所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。