脚本宝典收集整理的这篇文章主要介绍了RDD操作综合实例,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
一、词频统计
A. 分步骤实现
1.准备文件
2.读文件创建RDD
3.分词
4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
5.统计词频
6.按词频排序
7.输出到文件
8.查看结果
B. 一句话实现:文件入文件出
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
一、词频统计
A. 分步骤实现
1.准备文件
2.读文件创建RDD
3.分词
4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
5.统计词频
6.按词频排序
7.输出到文件
8.查看结果
B. 一句话实现:文件入文件出
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
以上是脚本宝典为你收集整理的RDD操作综合实例全部内容,希望文章能够帮你解决RDD操作综合实例所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。