“apache-kafka-connect”的相关标签问题

0 投票

1 回答

176 浏览

apache-kafka - 使用 Samza 时在单独的集群中创建检查点、协调器和变更日志 kafka 主题

当使用带有 samza 的 kafka 时，samza 会使用属性文件中的名称自动创建某些主题，例如检查点、co-oridnator 和更改日志。但是这些主题是在同一个集群中创建的。

但是出于维护目的，我想在单独的集群中创建它们，可以吗？

2016-10-24T23:03:03.757

0 投票

1 回答

2949 浏览

apache-kafka - 如何杀死 Kafka 集群中的分布式工作人员？

我正在使用 Apache Kafka 并使用分布式工作器。我可以按如下方式启动我的工人：

这是来自官方文档。在此之后，我们可以创建连接器和任务。这很好用。

但是当我更改我的连接器或任务逻辑时，我应该将新的添加jar到 kafka 的类路径中。在此之后我应该重新启动工人。

我不知道应该如何正确我认为我们应该停止并运行工人。

但是当我想停止工人时，我不知道如何正确地做到这一点。当然，我可以找到我的进程ps aux | grep worker，杀死它并杀死我也应该找到的其余服务器ps。但我认为这是一个奇怪的案例。杀死两个进程不是一个好主意，但我找不到任何信息我们可以如何以另一种方式做到这一点。

如果你知道正确的方法，请帮助我:)

谢谢你的时间。

apache-kafka apache-kafka-connect

2016-10-26T09:55:19.597

0 投票

1 回答

2355 浏览

hadoop - 【HDFS connector + Kafka】如何在单机模式下编写多个topic？

我正在使用Confluent'sHDFS Connector将流式数据写入HDFS. 我按照用户手册快速入门并设置了我的连接器。当我只使用一个主题时，它可以正常工作。我的属性文件看起来像这样

当我添加多个主题时，我看到它不断提交偏移量并且我没有看到它写入提交的消息。

我尝试使用 tasks.max 和 1 和 2。我不断Committing offsets记录如下

当我优雅地停止服务 (Ctrl+C) 时，我看到它正在删除tmp文件。我究竟做错了什么？正确的方法是什么？感谢您对此的任何建议。

hadoop apache-kafka hdfs apache-kafka-connect confluent-platform

2016-10-26T13:36:48.223

0 投票

1 回答

205 浏览

apache-kafka - 如何配置 Kafka 以在禁用复制时让消费者和生产者从故障中恢复？

我们有一个可以接受数据丢失的用例（认为 30-50% 的丢失是可以接受的）。为了降低成本，我们想知道是否可以将 Kafka 配置为复制因子为 1，以便消费者和生产者可以通过简单地从可用分区消费和生产来从代理故障中恢复。

如果可以，需要设置哪些配置？

还有其他一些代理技术本身就是这样运行的，但是，我们希望避免引入另一种技术，因为 kafka 已经是我们生态系统的一部分。

apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-connect

2016-10-28T21:56:43.670

0 投票

0 回答

647 浏览

json - 以 AVRO 格式将 JSON 格式的消息从 kafka 主题复制到另一个主题

我有一个 Kafka 连接设置正在运行，其中源连接器从文本文件中读取结构化记录并以 JSON 格式（带有模式）存储到主题中。有一个接收器连接器正在运行，它将这些消息插入到 Cassandra 表中。虽然此设置运行良好，但我需要引入另一个接收器连接器来将这些消息也传输到 HDFS。所以我尝试实现 HDFSSinkConnector (CP 3.0)。但是这个连接器希望消息是 AVRO 格式的，因此会抛出诸如“无法将数据反序列化到 Avro”之类的错误。

有没有办法让我可以将 JSON 消息从源主题复制并转换为 Avro 格式的另一个主题，并将 HDFS 接收器连接器指向要读取的新主题？可以使用 Kafka Streams 完成吗？

我的分布式连接配置文件包含——

我在主题中的信息如下 -

谁可以帮我这个事？提前感谢...

json avro apache-kafka-connect

2016-10-30T06:17:59.223

0 投票

1 回答

1578 浏览

elasticsearch - Kafka 到 Elasticsearch、带有 Logstash 的 HDFS 或 Kafka Streams/Connect

我使用 Kafka 进行消息队列/处理。我的问题是关于性能/最佳实践。我会做自己的性能测试，但也许有人已经有了结果/经验。

数据是 Kafka (0.10) 主题中的原始数据，我想将其结构化传输到 ES 和 HDFS。

现在我看到了两种可能性：

Logstash（Kafka 输入插件、grok 过滤器（解析）、ES/webhdfs 输出插件）
Kafka Streams（解析）、Kafka Connect（ES sink、HDFS sink）

如果没有任何测试，我会说第二种选择更好/更清洁，更可靠？

elasticsearch apache-kafka logstash apache-kafka-streams apache-kafka-connect

2016-11-02T12:21:08.303

0 投票

0 回答

531 浏览

java - 在集群 kafka 服务器上发布主题消息时出错

Kafka 以集群模式在 3 个服务器上运行。

testdemo我通过下面的命令行创建了主题（），

我正在通过以下生产者财产发布数据，

在主题中发布数据时出现以下错误，

java stream apache-kafka kafka-producer-api apache-kafka-connect

2016-11-03T05:31:35.107

0 投票

1 回答

6699 浏览

apache-kafka - 有 Kafka Connect Python 客户端吗？

我有一个从 Kafka 主题读取的应用程序。现在，我需要使用 Kafka 连接器将这些发送到 HDFS：http: //docs.confluent.io/2.0.0/connect/connect-hdfs/docs/index.html

有相同的命令。我想知道如何在 Python 脚本中做到这一点。提前致谢！

apache-kafka apache-kafka-connect

2016-11-03T23:03:15.427

0 投票

1 回答

1100 浏览

apache-kafka - Kafka Mirror Maker：消费者与消费者线程数和生产者数

我想清楚地指出镜像制造商的 Kafka Parallelism 模型。

对于我在消费者方面的理解：

CONSUMER GROUP 是一组消费者。该组的每个消费者都可以阅读一个或多个主题。
该组的一个 CONSUMER 可以有多个流，即从主题中读取的线程数，最佳实践是使用一个线程进行分区。

我的疑问是：我们是用单线程实现多个消费者距离还是一个消费者用多个线程？一个消费者组是指一组消费者还是一个多线程消费者？

我发现很难从文档中指出这些问题，我想知道我是否错了。

即使在生产者方面，这些考虑是否也适用于双重方式？

apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-connect

2016-11-04T15:34:40.923

0 投票

1 回答

136 浏览

hdfs - Kafka Connect HDFS - 如何使其工作？

这不是一个非常具体的问题。但是，我还没有找到一个文档来解释你如何实际使用 kafka - hdfs 连接器。

基本上，我有一个包含 json 编码字符串的 kafka 主题。我想将数据作为 avro 格式的数据发送到 HDFS。

任何帮助都将受到欢迎！

hdfs apache-kafka apache-kafka-connect

2016-11-08T20:38:52.480

问题标签 [apache-kafka-connect]

Reference