问题标签 [apache-kafka-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - 如何在 Kafka Connect 中动态更新 SinkConnector 的主题?
我已经写了一个 Kafka Connect 到消费者主题,但是我的主题会在运行时改变,所以我需要重新配置主题。
我知道使用 RESTful API 可以更新主题还有其他方法可以实现吗?
apache-kafka - 在标准的 Kafka Connect JDBCConnector 中,为什么对象 JDBCSourceConnector 和 JDBCSourceTask 都建立数据库连接?
在名为Kafka Connect JDBC Connector的开源项目中,我试图了解两个类JDBCSourceConnector和JDBCSourceTask的关系。
我可以理解为什么任务对象会建立数据库连接,因为我们可能有 1 个或多个任务作为线程工作,所有线程都并行轮询数据库。我不明白的是,如果我们只想使用一个线程,我们可以使用一个任务来做到这一点,为什么在 Connector 类中有相同的连接逻辑?
这与我有关,因为我正在编写一个修改连接逻辑的分叉版本。我想了解是否应该考虑出于某种我尚未确定的原因维护连接器数据库连接。我已经在修改任务连接逻辑。
做出这个选择是否有设计原因?
hadoop - Kafka 主题与 Kafka Connect 合并到 HDFS
是否可以配置 Kafka Connect 的 HDFS 连接器以将多个单独的主题写入/组合到一个文件中?
这些主题将包含具有相同 avro 模式的消息,我希望 KafkaConnect 充当这些 Kafka 主题和 HDFS 之间的中介。在最坏的情况下,主题内容可以在写入 HDFS 后进行组合,但我觉得 HDFS 连接器应该可以实现更简洁、更快捷的方式。
installation - 如何在 Windows 7 上使用 Kafka Connect,因为我在 kafka 2.10.0.1 的 /bin/Windows 文件夹下看不到 connect-standalone 或 Distributed.bat?
我尝试将 Apache Kafka 与 postgresql 一起使用,两者都在 Windows 7 机器上运行。现在,我想在 Windows 上使用 Kafka-Connect。有什么可能的方法吗?
hadoop - Kafka Streams 在 HDFS 上查找数据
我正在使用 Kafka Streams (v0.10.0.1) 编写一个应用程序,并希望使用查找数据来丰富我正在处理的记录。该数据(带时间戳的文件)每天(或每天 2-3 次)写入 HDFS 目录。
如何在Kafka Streams
应用程序中加载它并加入实际KStream
?
当新文件到达那里时,从 HDFS 重新读取数据的最佳做法是什么?
还是将Kafka Connect
RDBMS 表内容切换到所有 Kafka Streams 应用程序实例都可以使用的 Kafka 主题并将其写入会更好?
更新:
正如建议的Kafka Connect将是要走的路。因为查找数据每天都会在 RDBMS 中更新,所以我考虑将 Kafka Connect 作为计划的一次性作业运行,而不是保持连接始终打开。是的,因为语义和保持连接始终打开并确保它不会被中断的开销......等等。对我来说,在这种情况下进行预定提取看起来更安全。
查找数据不大,可能会删除/添加/修改记录。我也不知道如何始终将完整转储到 Kafka 主题并截断以前的记录。启用日志压缩并为已删除的键发送空值可能不起作用,因为我不知道源系统中已删除什么。另外 AFAIK 当压缩发生时我没有控制权。
apache-kafka - Kafka HDFS 连接器 - 没有完全融合
我有一个正在运行的 Kafka 0.10 实例,我目前正在使用 Gobblin 将数据存储到 HDFS 中。我想切换到 Kafka Connect,当我研究时发现 Confluent 提供了一个连接器。
但是,有没有办法在不使用整个 Confluent 平台的情况下使用这个连接器?意思是我可以从 Confluent 源复制相关脚本并以某种方式让我的 Kafka 实例使用它吗?我基本上还在学习这些东西,所以我还不是很精通这个领域。
谢谢。
streaming - 卡夫卡连接不适用于文件流
我一直在使用以下指南将 Kafka connect 用于融合平台
但是它不再更新 sink 文件,源文件中的任何更改都不会写入 kafka 主题中。
我已经删除了所有 tmp 文件,但没有任何变化。
提前致谢
apache-kafka - Kafka 独立连接 - 无法找到或加载主类 org.apache.kafka.connect.cli.ConnectStandalone
无法找到或加载主类 org.apache.kafka.connect.cli.ConnectStandalone 当我尝试在 kafka 中运行 connect-standalone 时出现此错误。
首先我意识到这个文件所在的 libexec 中没有连接文件夹,我下载了它。还是同样的错误。
所以我尝试单独编译 ConnectStandalone.java 文件,发现我的 kafka 文件夹中缺少很多包。org/apache/kafka 中应该有一些包含一些包的 connect 和 common 文件夹,但没有。org.slf4j 包也丢失了。
我尝试手动下载一些,但如果有人能告诉我在哪里可以获得正确的文件夹。
我要做的就是创建一个简单的 kafka 生产者,它读取 csv 并将其逐行发送给消费者。
请告诉我我是否至少朝着正确的方向前进。
编辑:如果相关的话,我使用 brew 下载 kafka。
apache-kafka - Kafka Connect 不输出 JSON
我正在使用 JDBC Kafka 连接器将数据从数据库读取到 Kafka。这行得通,但它总是以 Avro 格式输出数据,即使我已经指定它应该使用 JSON。我知道这样做是因为当我在 python 中使用来自该主题的消息时,我会在每条消息的顶部看到架构。
我像这样运行连接器:
connect-json-standalone.properties 文件的内容是:
/etc/kafka-connect-jdbc/view.properties 的内容是:
apache-spark - 如何创建在与另一个 Spark 集群不同的集群中运行的 Kafka 主题?
我有两个集群分别运行 Kafka 和 spark。我想从 spark 集群创建一个 kafka-topic。我注意到创建一个我们需要调用 Kafka-topics.sh 的主题,该主题在 spark 集群中不可用。命令应通过 shell 调用。
例如:/kafka_topics.sh --zookeeper :2181 --create --topic test_topic
该脚本应从 spark 集群调用,并应在 Kafka 集群上执行。谁能帮我?