spark基础-rdd特性

发布时间:2020-07-11 19:31:44 作者:xiao酒窝
来源:网络 阅读:346

RDD特性:

1.RDD是spark提供的核心抽象,全称:Resillient Distributed Dataset,即弹性分布式数据集。

2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以并行操作(分布式数据集)

3.RDD通常通过Hadoop上的文件来创建。有时也可以通过应用程序中的集合赖床见。

4.RDD最重要的特性就是提供了容错性,可以从节点失败中恢复过来。即:如果某个节点的RDD partition因为节点故障导致数据丢失,那么RDD会自动通过自己的数据来源重新计算该partitin。

5.RDD的每个partition在spark节点上,默认都是放在内存中,但是如果内存中放不下这么多数据,多出来的数据,就会把partition中的部分数据写在磁盘上,进而保存。对于用户来说,并不知道RDD内存数据存储在哪里。RDD的这种自动进行内存和词牌之间的切换机制,就是RDD的弹性特点所在。

一个RDD在逻辑上抽象地代表了一个HDFS文件。但是实际上是呗分区的,氛围多个分区,多个分区散落在spark集群中,不同的节点上。

Spark核心编程是什么:

首先,定义初始的RDD,就是说,要定义订一个数据从哪里来。

第二:定义对RDD的计算操作,这个在spark里称为算子

第三:就是循环往复的过程第一次计算完成后,数据就会到了新的一批节点上,变成了新的RDD,然后再次反复,针对新的RDD定义算子操作。

第四:获得最终的数据,将数据保存起来。


推荐阅读:
  1. spark基础--rdd的生成
  2. Spark Core 的RDD

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

rdd spar %d

上一篇:SPARK standlone安装配置

下一篇:ubuntu 1604搭建hdp2.4 Hadoop

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》