一 DataSet
DataSet 是具有强类型的数据集合,需要提供对应的类型信息。
1. 创建 DataSet
使用样例类序列创建 DataSet
scala> case class Person(name: String, age: Long)defined class Personscala> val caseClassDS = Seq(Person("zhangsan",2)).toDS()caseClassDS: org.apache.spark.sql.Dataset[Person] = [name: string, age: Long]scala> caseClassDS.show+---------+---+| name|age|+---------+---+| zhangsan| 2|+---------+---+
使用基本类型的序列创建 DataSet
scala> val ds = Seq(1,2,3,4,5).toDSds: org.apache.spark.sql.Dataset[Int] = [value: int]scala> ds.show+-----+|value|+-----+| 1|| 2|| 3|| 4|| 5|+-----+
注意:在实际使用的时候,很少用到把序列转换成DataSet,更多的是通过RDD 来得到DataSet
