×

Samza 入门

Samza 你好Samza 下载Samza 功能预览

Samza 详细介绍

Samza 背景Samza 概念Samza 结构

Samza 与其他流处理项目比较

Samza 比较介绍Samza MUPD8Samza 与 StormSamza 与 Spark Streaming

Samza API

Samza API概述

Samza 核心

Samza ContainerSamza 流Samza 序列化Samza 定期检查Samza 状态管理Samza 窗口功能Samza 协调器流Samza 事件循环Samza 指标Samza JMX

Samza 作业部署

Samza JobRunnerSamza 配置Samza 打包Samza YARN工作Samza 记录Samza 再处理Samza Web UI和REST APISamza 分离框架和作业部署

Samza YARN

Samza Application MasterSamza YARN执行隔离Samza 主机关联和 YARNSamza YARN资源本地化Samza YARN安全Samza 写入HDFSSamza 从HDFS文件读取

Samza 相关操作

Samza 安全Samza Kafka自动创建主题

Samza REST服务

Samza REST服务概观Samza REST服务资源Samza REST服务监视器

Samza 附录

附录一 工作资源附录二 任务资源附录三 远程调试附录四 从HDFS部署Samza工作附录五 部署Samza Job到CDH附录六 在多节点YARN中运行附录七 在没有联网的情况下运行附录八 Samza REST入门附录九 Async API和多线程指南附录十 代码附录十一 Samza配置参考

Samza YARN资源本地化


在 YARN 群集上运行 Samza 作业时,您可能需要在启动前下载一些资源(例如,下载作业二进制文件,获取证书文件等)。此步骤称为资源本地化。

资源本地化过程

对于在 YARN 上运行的 Samza 工作,资源本地化利用了 YARN 节点管理器的本地化服务。这是一个关于如何本地化在 YARN 中的工作的深入研究。

根据资源的来源与方式,获取资源与路径相关的的方案(如http,https,hdfs,ftp,file等)。该方案映射到 FileSystem 处理本地化的相应实现。

FileSystem 在 Hadoop 和 Samza 中有一些预定义的实现,如果您在 YARN 上运行 Samza 工作,则会提供它们:

  • org.apache.samza.util.hadoop.HttpFileSystem:用于在没有客户端认证的情况下基于 http 或 https 获取资源。
  • org.apache.hadoop.hdfs.DistributedFileSystem:用于从 Hadoop 上的 DFS 系统中获取资源。
  • org.apache.hadoop.fs.LocalFileSystem:用于将资源从本地文件系统复制到作业目录。
  • org.apache.hadoop.fs.ftp.FTPFileSystem用于基于 ftp 获取资源。

您可以创建自己的文件系统实现,方法是创建一个扩展的类 org.apache.hadoop.fs.FileSystem。

资源配置

您可以通过以下配置指定要本地化的资源。

必需配置

  1. yarn.resources..path 用于获取本地化资源的路径,例如 http://hostname.com/packages/myResource

可选配置

  1. yarn.resources..local.name 用于本地化资源的本地名称。如果没有设置,默认值将被 指定 yarn.resources..path
  2. yarn.resources..local.type 该类型与有效值的资源来自:ARCHIVE,FILE,PATTERN。存档:本地化资源将是存档目录;文件:本地化的资源将是一个文件;模式:本地化的资源将是从存档模式中提取的条目。如果未设置,默认值为 FILE。
  3. yarn.resources..local.visibility 能见度与来自有效值的资源 PUBLIC,PRIVATE,APPLICATIONPUBLIC:所有人都可以看到 PRIVATE:只能运行该作业的帐户可见应用程序:仅对具有资源配置的特定应用程序作业可见如果未设置,默认值为 APPLICATION

YARN 配置

确保 yarn.resources..path 在 YARN core-site.xml 中配置了相应的 FileSystem 实现。



    
      fs.http.impl
      org.apache.samza.util.hadoop.HttpFileSystem
    

如果您正在使用自己的方案(例如 yarn.resources.myResource.path = myScheme://host.com/test),则可以如下链接FileSystem实现。



    
      fs.myScheme.impl
      com.myCompany.MySchemeFileSystem
    

分类导航

关注微信下载离线手册

bootwiki移动版 bootwiki
(群号:472910771)