您好,登录后才能下订单哦!
密码登录
登录注册
点击 登录注册 即表示同意《亿速云用户服务条款》
本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
1、指定列名添加Schema
2、通过StrucType指定Schema
3、编写样例类,利用反射机制推断Schema
//导包 import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession //代码 // 1.创建SparkSession val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate() // 2.使用spark 获取sparkContext 上下文对象 val sc = spark.sparkContext // 3.使用SparkContext 读取文件并按照空格切分 返回RDD val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt)) // 4.导入隐式类 import spark.implicits._ //5.将RDD 转换为DataFrame 指定元数据信息 val dataFrame = rowRDD.toDF("id","name","age") //6.数据展示 dataFrame.show()
//导包 import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} //编写代码 //1.实例SparkSession val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate() //2.根据SparkSession获取SparkContext 上下文对象 val sc = spark.sparkContext // 3.使用SparkContext读取文件并按照空开切分并返回元组 val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt)) // 4.导入隐式类 import spark.implicits._ //5.使用StructType 添加元数据信息 val schema = StructType(List( StructField("id", IntegerType, true), StructField("name", StringType, true), StructField("age", IntegerType, true) )) //6.将数据与元数据进行拼接 返回一个DataFrame val dataDF = spark.createDataFrame(rowRDD,schema) //7.数据展示 dataDF.show()
//导包 import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession //定义单例对象 case class Person(Id:Int,name:String,age:Int) //编写代码 //1.实例sparkSession val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate() //2.通过sparkSession获取sparkContext 上下文对象 val sc = spark.sparkContext //3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中 val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt)) // 4.导入隐式类 import spark.implicits._ //5.将rowRDD转换为dataFrame val dataFrame = rowRDD.toDF() //6.数据展示 dataFrame.show()
以上就是SparkSQL中DataFrame与DataSet如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。