脚本宝典收集整理的这篇文章主要介绍了4.RDD操作,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
启动hdfs
上传文件
查看文件
加载
停止hdfs
输入列表
字符串
numpy生成数组
若没有装numpy库,需先执行以下命令再继续操作
sudo apt install python3-pip pip install numpy pip install nose
1、filter(func)
显式定义函数
lambda函数
2、map(func)
显式定义函数
lambda函数
a、字符串分词
b、数字加100
c、字符串加固定前缀
3、flatMap(func)
a、分词
b、单词映射成键值对
4、reduceByKey()
a、统计词频,累加
b、乘法规则
5、groupByKey()
a、单词分组
b、查看分组的内容
c、分组之后做累加 map
6、sortByKey()
词频统计按单词排序
7、sortBy()
词频统计按词频排序
1、foreach(print)
foreach(lambda a:print(a.upper())
2、collect()
3、count()
4、first()
5、taken(n)
6、reduce()
数值型的rdd元素做累加与reduceByKey区别
reduceByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。
groupByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的函数,将相同key的值聚合到一起,与reduceByKey的区别是只生成一个sequence。
以上是脚本宝典为你收集整理的4.RDD操作全部内容,希望文章能够帮你解决4.RDD操作所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。