×

Samza 入门

Samza 你好Samza 下载Samza 功能预览

Samza 详细介绍

Samza 背景Samza 概念Samza 结构

Samza 与其他流处理项目比较

Samza 比较介绍Samza MUPD8Samza 与 StormSamza 与 Spark Streaming

Samza API

Samza API概述

Samza 核心

Samza ContainerSamza 流Samza 序列化Samza 定期检查Samza 状态管理Samza 窗口功能Samza 协调器流Samza 事件循环Samza 指标Samza JMX

Samza 作业部署

Samza JobRunnerSamza 配置Samza 打包Samza YARN工作Samza 记录Samza 再处理Samza Web UI和REST APISamza 分离框架和作业部署

Samza YARN

Samza Application MasterSamza YARN执行隔离Samza 主机关联和 YARNSamza YARN资源本地化Samza YARN安全Samza 写入HDFSSamza 从HDFS文件读取

Samza 相关操作

Samza 安全Samza Kafka自动创建主题

Samza REST服务

Samza REST服务概观Samza REST服务资源Samza REST服务监视器

Samza 附录

附录一 工作资源附录二 任务资源附录三 远程调试附录四 从HDFS部署Samza工作附录五 部署Samza Job到CDH附录六 在多节点YARN中运行附录七 在没有联网的情况下运行附录八 Samza REST入门附录九 Async API和多线程指南附录十 代码附录十一 Samza配置参考

在没有联网的情况下运行Samza


本教程将帮助您运行 Hello Samza,如果您无法连接到互联网。

测试您的连接

Ping irc.wikimedia.org,有时公司的防火墙会阻止这项服务。

telnet irc.wikimedia.org 6667

你应该看到这样的东西:

Trying 208.80.152.178...
Connected to ekrem.wikimedia.org.
Escape character is '^]'.
NOTICE AUTH :*** Processing connection to irc.pmtpa.wikimedia.org
NOTICE AUTH :*** Looking up your hostname...
NOTICE AUTH :*** Checking Ident
NOTICE AUTH :*** Found your hostname

否则,您可能有连接问题。

使用本地数据运行 Hello Samza

我们提供了一个选择, 以获取维基百科提供的数据,而不是运行:

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

你会运行:

bin/produce-wikipedia-raw-data.sh

该脚本将从本地文件读取维基百科提供的数据,并将其产生到 Kafka 代理。默认情况下,它生成本地主机:9092作为 Kafka 代理,并使用 localhost:2181 作为 zookeeper。您可以覆盖它们:

bin/produce-wikipedia-raw-data.sh -b yourKafkaBrokerAddress -z yourZookeeperAddress

现在您可以回到 Hello Samza中的 Generate Wikipedia Statistics 部分,并按照剩余的步骤进行。

一点解释

下述代码的目标:

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

要部署一个听 Wi-Fi API 的 Samza 工作,可以实时获取 Feed,并生成 Kafka 主题维基百科的源文件。本教程中的替代方法是在无限循环中阅读本地维基百科 Feed,并将数据生成给 Kafka维基百科。后续工作,维基百科解析器正在从 Kafka 主题维基百科原始获取数据,所以只要我们在 Kafka 主题维基百科原始中有正确的数据,就可以。所有 Samza 的工作由 Kafka 连接,不依赖于彼此。


分类导航

关注微信下载离线手册

bootwiki移动版 bootwiki
(群号:472910771)