Spark2.1.0怎么用

发布时间:2022-01-14 17:06:47 作者:iii
来源:亿速云 阅读:91

本篇内容介绍了“Spark2.1.0怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

运行spark-shell

    在《Spark2.1.0之运行环境准备》一文曾经简单运行了spark-shell,并用下图进行了展示(此处再次展示此图)。

Spark2.1.0怎么用

图1    执行spark-shell进入Scala命令行

图1中显示了很多信息,这里进行一些说明:

    由于Spark core的默认日志级别是WARN,所以看到的信息不是很多。现在我们将Spark安装目录的conf文件夹下的log4j.properties.template以如下命令复制出一份:

  1. cp log4j.properties.template log4j.properties  

cp log4j.properties.template log4j.properties

并将log4j.properties中的log4j.logger.org.apache.spark.repl.Main=WARN修改为log4j.logger.org.apache.spark.repl.Main=INFO,然后我们再次运行spark-shell,将打印出更丰富的信息,如图2所示。

Spark2.1.0怎么用

图2  Spark启动过程打印的部分信息

从图2展示的启动日志中我们可以看到SecurityManager、SparkEnv、BlockManagerMasterEndpoint、DiskBlockManager、MemoryStore、SparkUI、Executor、NettyBlockTransferService、BlockManager、BlockManagerMaster等信息。它们是做什么的?刚刚接触Spark的读者只需要知道这些信息即可,具体内容将在后边的博文给出。

执行word count

      这一节,我们通过word count这个耳熟能详的例子来感受下Spark任务的执行过程。启动spark-shell后,会打开Scala命令行,然后按照以下步骤输入脚本:

步骤1    

      输入val lines =sc.textFile("../README.md", 2),以Spark安装目录下的README.md文件的内容作为word count例子的数据源,执行结果如图3所示。

图3   步骤1执行结果

图3告诉我们lines的实际类型是MapPartitionsRDD。

步骤2

       textFile方法对文本文件是逐行读取的,我们需要输入val words =lines.flatMap(line => line.split(" ")),将每行文本按照空格分隔以得到每个单词,执行结果如图4所示。

Spark2.1.0怎么用

图4   步骤2执行结果

图4告诉我们lines在经过flatMap方法的转换后得到的words的实际类型也是MapPartitionsRDD。

步骤3

     对于得到的每个单词,通过输入val ones = words.map(w => (w,1)),将每个单词的计数初始化为1,执行结果如图5所示。

图5   步骤3执行结果

图5告诉我们words在经过map方法的转换后得到的ones的实际类型也是MapPartitionsRDD。

步骤4

    输入val counts = ones.reduceByKey(_ + _),对单词进行计数值的聚合,执行结果如图6所示。

Spark2.1.0怎么用

图6   步骤4执行结果

图6告诉我们ones在经过reduceByKey方法的转换后得到的counts的实际类型是ShuffledRDD。

步骤5

       输入counts.foreach(println),将每个单词的计数值打印出来,作业的执行过程如图7和图8所示。作业的输出结果如图9所示。

Spark2.1.0怎么用

图7   步骤5执行过程第一部分

Spark2.1.0怎么用

图8  步骤5执行过程第二部分

图7和图8展示了很多作业提交、执行的信息,这里挑选关键的内容进行介绍:

Spark2.1.0怎么用

图9  步骤5输出结果

图9展示了单词计数的输出结果和最后打印的任务结束的日志信息。

“Spark2.1.0怎么用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. WITH语句怎么用
  2. 怎么用vuex

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

spark

上一篇:mysql中count( *)、count( 1)、count( 主键)、count( 字段)的区别说什么

下一篇:springboot整合quartz定时任务框架的方法是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》