在线学习平台

QQ登录

微信登录

没有账号？扫码注册

在线学习平台

QQ注册

微信注册

« 返回已有账号？去登录

在线学习平台

微信扫码登录

Spark 快速入门 Spark 编程指南引入 Spark 初始化 Spark Spark 共享变量

Spark 快速上手

Spark 独立应用程序 Spark Shell Spark 运行程序 Spark RDDs Spark 并行集合 Spark 外部数据集 Spark RDD 操作 Spark RDD持久化 Spark Streaming Spark Streaming示例

Spark 基本概念

Spark Streaming关联初始化StreamingContext Spark Streaming离散流 Spark 输入DStreams Spark DStream中的转换 Spark DStream的输出操作 Spark DStreams缓存或持久化 Spark Streaming Checkpointing Spark Streaming部署应用程序 Spark Streaming监控应用程序 Spark Streaming性能调优 Spark Streaming优化执行时间 Spark Streaming批容量 Spark Streaming内存调优 Spark Streaming容错语义 Spark SQL Spark SQL开始 Spark SQL性能调优 Spark SQL其他接口编写语言集成相关查询 Spark SQL数据类型 Spark SQL数据源 Spark SQL RDDs Spark SQL parquet文件 Spark SQL JSON数据集 Spark SQL Hive表 Spark GraphX编程指南 Spark GraphX开始 Spark GraphX图算法 Spark GraphX例子 Spark GraphX提交应用程序 Spark 独立运行 Spark 在yarn上运行 Spark GraphX属性图 Spark 配置 Spark GraphX图操作符 Spark GraphX Pregel API Spark GraphX图构造者 Spark GraphX顶点和边RDDs

< Spark SQL RDDs

Spark SQL JSON数据集 >

Spark SQL parquet文件

Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。

加载数据

// sqlContext from the previous example is used in this example.
// createSchemaRDD is used to implicitly convert an RDD to a SchemaRDD.
import sqlContext.createSchemaRDD

val people: RDD[Person] = ... // An RDD of case class objects, from the previous example.

// The RDD is implicitly converted to a SchemaRDD by createSchemaRDD, allowing it to be stored using Parquet.
people.saveAsParquetFile("people.parquet")

// Read in the parquet file created above.  Parquet files are self-describing so the schema is preserved.
// The result of loading a Parquet file is also a SchemaRDD.
val parquetFile = sqlContext.parquetFile("people.parquet")

//Parquet files can also be registered as tables and then used in SQL statements.
parquetFile.registerTempTable("parquetFile")
val teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

配置

可以在SQLContext上使用setConf方法配置Parquet或者在用SQL时运行SET key=value命令来配置Parquet。

Property Name	Default	Meaning
spark.sql.parquet.binaryAsString	false	一些其它的Parquet-producing系统，特别是Impala和其它版本的Spark SQL，当写出Parquet模式的时候，二进制数据和字符串之间无法区分。这个标记告诉Spark SQL将二进制数据解释为字符串来提供这些系统的兼容性。
spark.sql.parquet.cacheMetadata	true	打开parquet元数据的缓存，可以提高静态数据的查询速度
spark.sql.parquet.compression.codec	gzip	设置写parquet文件时的压缩算法，可以接受的值包括：uncompressed, snappy, gzip, lzo
spark.sql.parquet.filterPushdown	false	打开Parquet过滤器的pushdown优化。因为已知的Paruet错误，这个特征默认是关闭的。如果你的表不包含任何空的字符串或者二进制列，打开这个特征仍是安全的
spark.sql.hive.convertMetastoreParquet	true	当设置为false时，Spark SQL将使用Hive SerDe代替内置的支持

< Spark SQL RDDs

Spark SQL JSON数据集 >

分类导航

关注微信下载离线手册

bootwiki移动版

bootwiki

(群号：472910771)

jQuery教程 | Photoshop教程 | Word教程 | PPT教程 | Sketch草图大师 | Maya教程 | 易语言教程 | CorelDraw教程 | ASP.NET | Redis数据库 | IntelliJ IDEA教程 | PyCharm | Linux自学 | Matlab教程 | 菜鸟教程