在线学习平台

QQ登录

微信登录

没有账号？扫码注册

在线学习平台

QQ注册

微信注册

« 返回已有账号？去登录

在线学习平台

微信扫码登录

Spark 快速入门 Spark 编程指南引入 Spark 初始化 Spark Spark 共享变量

Spark 快速上手

Spark 独立应用程序 Spark Shell Spark 运行程序 Spark RDDs Spark 并行集合 Spark 外部数据集 Spark RDD 操作 Spark RDD持久化 Spark Streaming Spark Streaming示例

Spark 基本概念

Spark Streaming关联初始化StreamingContext Spark Streaming离散流 Spark 输入DStreams Spark DStream中的转换 Spark DStream的输出操作 Spark DStreams缓存或持久化 Spark Streaming Checkpointing Spark Streaming部署应用程序 Spark Streaming监控应用程序 Spark Streaming性能调优 Spark Streaming优化执行时间 Spark Streaming批容量 Spark Streaming内存调优 Spark Streaming容错语义 Spark SQL Spark SQL开始 Spark SQL性能调优 Spark SQL其他接口编写语言集成相关查询 Spark SQL数据类型 Spark SQL数据源 Spark SQL RDDs Spark SQL parquet文件 Spark SQL JSON数据集 Spark SQL Hive表 Spark GraphX编程指南 Spark GraphX开始 Spark GraphX图算法 Spark GraphX例子 Spark GraphX提交应用程序 Spark 独立运行 Spark 在yarn上运行 Spark GraphX属性图 Spark 配置 Spark GraphX图操作符 Spark GraphX Pregel API Spark GraphX图构造者 Spark GraphX顶点和边RDDs

< Spark Streaming批容量

Spark Streaming容错语义 >

Spark Streaming内存调优

在这一节，我们重点介绍几个强烈推荐的自定义选项，它们可以减少Spark Streaming应用程序垃圾回收的相关暂停，获得更稳定的批处理时间。

Default persistence level of DStreams：和RDDs不同的是，默认的持久化级别是序列化数据到内存中（DStream是StorageLevel.MEMORY_ONLY_SER，RDD是StorageLevel.MEMORY_ONLY）。即使保存数据为序列化形态会增加序列化/反序列化的开销，但是可以明显的减少垃圾回收的暂停。
Clearing persistent RDDs：默认情况下，通过Spark内置策略（LUR），Spark Streaming生成的持久化RDD将会从内存中清理掉。如果spark.cleaner.ttl已经设置了，比这个时间存在更老的持久化RDD将会被定时的清理掉。正如前面提到的那样，这个值需要根据Spark Streaming应用程序的操作小心设置。然而，可以设置配置选项spark.streaming.unpersist为true来更智能的去持久化（unpersist）RDD。这个配置使系统找出那些不需要经常保有的RDD，然后去持久化它们。这可以减少Spark RDD的内存使用，也可能改善垃圾回收的行为。
Concurrent garbage collector：使用并发的标记-清除垃圾回收可以进一步减少垃圾回收的暂停时间。尽管并发的垃圾回收会减少系统的整体吞吐量，但是仍然推荐使用它以获得更稳定的批处理时间。

< Spark Streaming批容量

Spark Streaming容错语义 >

分类导航

关注微信下载离线手册

bootwiki移动版

bootwiki

(群号：472910771)

jQuery教程 | Photoshop教程 | Word教程 | PPT教程 | Sketch草图大师 | Maya教程 | 易语言教程 | CorelDraw教程 | ASP.NET | Redis数据库 | IntelliJ IDEA教程 | PyCharm | Linux自学 | Matlab教程 | 菜鸟教程