4.RDD操作

发布时间:2022-06-23 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了4.RDD操作脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

一、 RDD创建

1、从本地文件系统中加载数据创建RDD

4.RDD操作

 

2、从HDFS加载数据创建RDD

  启动hdfs

4.RDD操作

 

  上传文件

4.RDD操作

 

  查看文件

4.RDD操作

  

  加载

4.RDD操作

 

  停止hdfs

4.RDD操作

 

3、通过并行集合(列表)创建RDD

  输入列表

4.RDD操作

       

4.RDD操作

  

  字符串

4.RDD操作

  

  numpy生成数组

  若没有装numpy库,需先执行以下命令再继续操作

sudo apt install python3-pip
pip install numpy
pip install nose

 

4.RDD操作

 

二、 RDD操作

  转换操作

  1、filter(func)

  显式定义函数

  lambda函数

4.RDD操作

 

  2、map(func)

  显式定义函数

  lambda函数

4.RDD操作

 

   a字符串分词

4.RDD操作

 

  b、数字加100

4.RDD操作

 

  c、字符串加固定前缀

4.RDD操作

 

 

  3、flatMap(func)

  a、分词

4.RDD操作

 

  b、单词映射成键值对

4.RDD操作

 

 

  4、reduceByKey()

  a、统计词频,累加

4.RDD操作

 

  b、乘法规则

4.RDD操作

 

 

  5、groupByKey()

  a、单词分组

4.RDD操作

 

  b、查看分组的内容

4.RDD操作

 

  c、分组之后做累加 map

4.RDD操作

 

 

  6、sortByKey()

  词频统计按单词排序

4.RDD操作

4.RDD操作

 

 

  7、sortBy()

  词频统计按词频排序

4.RDD操作

 

 

行动操作

  1、foreach(print)

    foreach(lambda a:print(a.upper())

4.RDD操作

 

  2、collect()

4.RDD操作

 

  3、count()

4.RDD操作

 

 

  4、first()

4.RDD操作

 

 

 

  5、taken(n)

4.RDD操作

 

 

  6、reduce() 

4.RDD操作

 

 

 

  数值型的rdd元素做累加与reduceByKey区别

  

reduceByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。

groupByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的函数,将相同key的值聚合到一起,与reduceByKey的区别是只生成一个sequence。

 

脚本宝典总结

以上是脚本宝典为你收集整理的4.RDD操作全部内容,希望文章能够帮你解决4.RDD操作所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: