【SparkSQL】DataSet、DataFrame 介绍

阅读量：332 次

发布时间：2019-03-04

本文共 2200 字，大约阅读时间需要 7 分钟。

SparkSQL DataSet 和 DataFrame 介绍

一、DataSet 介绍

1. DataSet 是什么？

DataSet 是一个强类型，并且类型安全的数据容器，提供了结构化查询API和类似 RDD 一样命令式API。它能够在编译时确保操作的类型安全性，适用于需要强类型操作的场景。

2. DataSet 查询方式

DataSet 提供了三种查询方式：

RDD 相似的强类型 API：支持通过对象字段直接操作。

弱类型 API：支持通过字段名或 SQL 表达式查询。

SQL 查询：直接通过 SQL 表达式进行查询。

3. DataSet 的底层实现

DataSet 的底层实际上是基于 InternalRow（Catalyst Row）的 RDD。无论 DataSet 中存储的是什么类型的对象，最终都会通过 Encoder 和 Decoder 转换为 InternalRow 格式进行处理。

4. DataSet 转为 RDD

通过 dataset.rdd 可以将 DataSet 转换为 RDD。此时，RDD 中的元素类型为 InternalRow。以下是示例代码：

val sourceRDD = spark.sparkContext.parallelize(Seq(person("a", 18, 98.0), person("b", 20, 97.0), person("c", 18, 100.0)))val dataset = sourceRDD.toDS()val typeRDD: RDD[person] = dataset.rdd

二、DataFrame 介绍

1. DataFrame 是什么？

DataFrame 是 SparkSQL 中一个表示关系型数据库表的函数式抽抽象，专为处理大规模结构化数据设计。DataFrame 具有以下特点：

支持强类型和弱类型操作。

具有结构化的 Schema 信息。

具有类似表的操作方式。

2. DataFrame 的创建方式

DataFrame 可以通过以下方式创建：

toDF()：将集合转换为 DataFrame。

createDataFrame()：直接读取数据源创建 DataFrame。

DataFrameReader：通过 SparkSQL 读取框架读取数据。

3. DataFrame 的数据操作案例

以下是查看北京 PM 数据的统计案例：

val spark = SparkSession.builder().master("local[6]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._val df = spark.read  .option("header", true)  .csv("dataset/BeijingPM20100101_20151231.csv")df.show()// 统计每年每月的 PM 值val aggregatedDF = df  .select("year", "month", "PM_Dongsi")  .where("PM_Dongsi != 'NA'")  .groupBy("year", "month")  .agg(count("month") as "count")  .sort("count", "desc")  .show()

三、DataFrame 与 DataSet 的区别

表达含义：DataFrame 表示一个支持函数式操作的表，DataSet 表示一个类似 RDD 的对象。

存储类型：DataFrame 存储的是 Row 对象，而 DataSet 可以存储任何类型的对象。

操作方式：DataFrame 和 DataSet 的操作方式相似，但 DataSet 的操作更安全，因为它基于强类型。

类型安全：DataSet 的操作在编译时确保类型安全，而 DataFrame 的操作在运行时才能确保类型安全。

四、Row 对象

Row 对象表示 DataFrame 中的每一行数据。它支持以下操作：

数据获取：通过字段位置或字段名获取数据。

样例类匹配：用于匹配 Row 对象。

转换为具体对象：通过 as 方法将 Row 转换为特定类对象。

以下是示例代码：

case class Person(name: String, age: Int)val row: Row = Row("Tom", 18)row match {  case Row(name, age) => println(s"姓名: $name，年龄: $age")}

DataFrame 和 DataSet 是 SparkSQL 中的两大核心组件，分别适用于强类型和弱类型数据的处理。理解它们的区别是掌握 SparkSQL 的关键。

转载地址：http://lweq.baihongyu.com/

你可能感兴趣的文章

Vmware系列&虚拟机系列【仅供参考】：使用vCenter Auto Deploy制作ESXI系统封装（适合高版本vSphere）