全国服务热线:400-6263-721

位置:南宁达内java培训学校 > 学校动态 > 大数据技术 Action算子学习

大数据技术 Action算子学习

来源:南宁达内java培训学校时间:2021/6/3 11:22:29

  一般来说,每个转换的RDD在执行action操作时都会重新计算。即使两个action操作会使用同一个转换的RDD,该RDD也会重新计算。除非使用persist方法或cache方法将RDD缓存到内存,这样在下次使用这个RDD时将会提高计算效率,也支持将RDD持久化到硬盘上,或在多个节点上复制。

海口达内IT培训学校

  1、reduce算子

  使用函数func聚集数据集中的元素,这个函数func输入为两个元素,返回为一个元素。这个函数应该符合结合律和交换了,这样才能增加数据集中各个元素计算的正确性。

  2、collect算子

  在驱动程序中,以数组的形式返回数据集的所有元素。通常用于filter或其它产生了大量小数据集的情况。

  3、count算子

  返回数据集中元素的个数。

  4、first算子

  返回数据集中的个元素(类似于take(1))。

  5、take(n)算子

  返回数据集中的前n个元素。

  6、takeOrdered(n, [ordering])算子

  返回RDD按自然顺序或自定义顺序排序后的前n个元素。

  7、saveAsTextFile算子

  将数据集中的元素以文本文件的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。Spark将在每个元素上调用toString方法,将数据元素转换为文本文件中的一行记录。

  8、saveAsSequenceFile(path) 算子

  将数据集中的元素以Hadoop Sequence文件的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。该操作只支持对实现了Hadoop的Writable接口的键值对RDD进行操作。

  9、saveAsObjectFile(path) 算子

  将数据集中的元素以简单的Java序列化的格式写入指定的路径。这些保存该数据的文件,可以使用SparkContext.objectFile()进行加载。

  10、countByKey算子

  仅支持对(K,V)格式的键值对类型的RDD进行操作。返回(K,Int)格式的Hashmap,(K,Int)为每个key值对应的记录数目。

  11、foreach算子

  对数据集中每个元素使用函数func进行处理。该操作通常用于更新一个累加器(Accumulator)或与外部数据源进行交互。注意:在foreach()之外修改累加器变量可能引起不确定的后果。

领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/1715/news/365713/违者必究! 以上就是南宁达内java培训学校 小编为您整理 大数据技术 Action算子学习的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6263-721