在线学习平台

QQ登录

微信登录

没有账号？扫码注册

在线学习平台

QQ注册

微信注册

« 返回已有账号？去登录

在线学习平台

微信扫码登录

Spark 快速入门 Spark 编程指南引入 Spark 初始化 Spark Spark 共享变量

Spark 快速上手

Spark 独立应用程序 Spark Shell Spark 运行程序 Spark RDDs Spark 并行集合 Spark 外部数据集 Spark RDD 操作 Spark RDD持久化 Spark Streaming Spark Streaming示例

Spark 基本概念

Spark Streaming关联初始化StreamingContext Spark Streaming离散流 Spark 输入DStreams Spark DStream中的转换 Spark DStream的输出操作 Spark DStreams缓存或持久化 Spark Streaming Checkpointing Spark Streaming部署应用程序 Spark Streaming监控应用程序 Spark Streaming性能调优 Spark Streaming优化执行时间 Spark Streaming批容量 Spark Streaming内存调优 Spark Streaming容错语义 Spark SQL Spark SQL开始 Spark SQL性能调优 Spark SQL其他接口编写语言集成相关查询 Spark SQL数据类型 Spark SQL数据源 Spark SQL RDDs Spark SQL parquet文件 Spark SQL JSON数据集 Spark SQL Hive表 Spark GraphX编程指南 Spark GraphX开始 Spark GraphX图算法 Spark GraphX例子 Spark GraphX提交应用程序 Spark 独立运行 Spark 在yarn上运行 Spark GraphX属性图 Spark 配置 Spark GraphX图操作符 Spark GraphX Pregel API Spark GraphX图构造者 Spark GraphX顶点和边RDDs

Spark 外部数据集 >

Spark 并行集合

Spark 并行集合

并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如，这里演示了如何在一个包含 1 到 5 的数组中创建并行集合：

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

一旦创建完成，这个分布式数据集(distData)就可以被并行操作。例如，我们可以调用 distData.reduce((a, b) => a + b) 将这个数组中的元素相加。我们以后再描述在分布式上的一些操作。

并行集合一个很重要的参数是切片数(slices)，表示一个数据集切分的份数。Spark 会在集群上为每一个切片运行一个任务。你可以在集群上为每个 CPU 设置 2-4 个切片(slices)。正常情况下，Spark 会试着基于你的集群状况自动地设置切片的数目。然而，你也可以通过 parallelize 的第二个参数手动地设置(例如：sc.parallelize(data, 10))。

Spark 外部数据集 >

分类导航

关注微信下载离线手册

bootwiki移动版

bootwiki

(群号：472910771)

jQuery教程 | Photoshop教程 | Word教程 | PPT教程 | Sketch草图大师 | Maya教程 | 易语言教程 | CorelDraw教程 | ASP.NET | Redis数据库 | IntelliJ IDEA教程 | PyCharm | Linux自学 | Matlab教程 | 菜鸟教程