Spark SQL 数据源


DataFrame 接口允许不同的 DataSource 在 Spark SQL 上工作。它是一个临时表,可以作为普通的 RDD 操作。将 DataFrame 注册为表允许你对其数据运行 SQL 查询。

在本章中,我们将描述使用不同 Spark 数据源加载和保存数据的一般方法。此后,我们将详细讨论可用于内置数据源的特定选项。

SparkSQL 中有不同类型的数据源可用,下面列出了其中的一些:

Sr. No 数据源
1 JSON 数据集

Spark SQL 可以自动捕获 JSON 数据集的模式并将其作为 DataFrame 加载。

2 蜂巢表

Hive 作为 HiveContext 与 Spark 库捆绑在一起,它继承自 SQLContext。

3 镶木地板文件

Parquet 是一种列格式,被许多数据处理系统支持。