5.spark core之RDD编程

发布时间:2020-08-10 13:33:21 作者:菲立思教育
来源:网络 阅读:499

  spark提供了对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个分布式的数据集合,数据可以跨越集群中的多个机器节点,被分区并行执行。
  在spark中,对数据的所有操作不外乎创建RDD、转化已有RDD及调用RDD操作进行求值。spark会自动地将RDD中的数据分发到集群中并行执行。

五大特性

RDD操作

  RDD支持两种操作:转化操作和行动操作。
5.spark core之RDD编程

转化操作

  RDD的转化操作会返回一个新的RDD。转化操作是惰性求值的,只有行动操作用到转化操作生成的RDD时,才会真正进行转化。
5.spark core之RDD编程
  spark使用lineage(血统)来记录转化操作生成的不同RDD之间的依赖关系。依赖分为窄依赖(narrow dependencies)和宽依赖(wide dependencies)。


忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。

5.spark core之RDD编程

推荐阅读:
  1. 交换机基本配置明细解读
  2. 搭建hadoop伪分布

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

spark rdd transformation

上一篇:oracle分区表的常规操作导致对索引的影响

下一篇:多币种钱包系统开发搭建方案解析

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》