问题标签 [apache-flink]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
730 浏览

scala - 将数据集与自定义对象数组一起使用时,Flink 中的 NoSuchMethod 异常

我有 Flink 的问题

有问题的线是这个

FlinkRegionType我有一个Array自定义对象

我在 IDE 中使用 maven 插件开发了该应用程序,一切正常,但是当我移至从网站下载的版本时,出现上述错误

我正在使用 Flink 0.9

我在想可能缺少一些库,但我正在使用 Maven 来处理所有内容。此外,运行ObjectArrayTypeInfo.java的代码似乎不是问题

0 投票
1 回答
738 浏览

scala - flink reduceGroup 中的迭代器行为

我正在创建一个应该处理大量数据的系统,我需要了解 reduce 组运算符的工作原理

我有一个数据集,我在其中应用了一个 groupby,然后应用了一个 reduceGroup 传递给 reduceGroup 函数的迭代器如何表现?它是在请求数据时加载数据的惰性迭代器,还是在创建时准备内存中所有数据的急切迭代器?

我在 flink 0.9 里程碑1中使用 scala api

0 投票
1 回答
88 浏览

java - Apache Flink Channel 在完成当前部分记录之前收到了一个事件

我用 flink(java,maven 8.1 版)从磁盘读取了一个 csv 文件(http://data.gdeltproject.org/events/index.html)并得到以下异常:

我的代码:

也许有人有解决方案?

最好的问候保罗

0 投票
1 回答
1088 浏览

apache-flink - 在 Flink 中,流窗口化似乎不起作用?

我试图增强显示流使用的 Flink 示例。我的目标是使用窗口功能(请参阅window函数调用)。我假设下面的代码输出流的最后 3 个数字的总和。(由于nc -lk 9999在 ubuntu 上打开了流)实际上,输出总结了所有输入的数字。切换到时间窗口产生相同的结果,即不产生窗口。

那是一个错误吗?(使用的版本:github 上的最新版主)

0 投票
1 回答
1339 浏览

apache-flink - Flink 在 distinct() 中使用了什么魔法?代理键是如何生成的?

关于生成代理键,第一步是获取不同的,然后为每个元组构建一个增量键。

所以我使用 Java Set 来获取不同的元素,它的堆空间不足。然后,我使用了 Flink 的 distinct(),它完全可以工作。

我能问一下有什么不同吗?

另一个相关的问题是,Flink 可以在 mapper 中生成代理键吗?

0 投票
3 回答
5803 浏览

java - 在本地执行示例 Flink 程序

我正在尝试以本地模式在 Apache Flink 中执行示例程序。

它给了我例外:

我究竟做错了什么?

我也使用了正确的罐子。 flink-java-0.9.0-milestone-1.jar flink-clients-0.9.0-milestone-1.jar flink-core-0.9.0-milestone-1.jar

0 投票
2 回答
447 浏览

scala - Apache Flink 上的 zipWithIndex

我想为输入的每一行分配一个id- 应该是一个从0to的数字N - 1,其中N是输入中的行数。

粗略地说,我希望能够执行以下操作:

但是在 Apache Flink 中。可能吗?

0 投票
3 回答
2822 浏览

scala - 从 Apache Flink 中的输入文件创建对象

我有一个由文件夹和文件构成的数据集。文件夹/文件结构本身对于数据分析很重要。

数据集的结构:

每个文件都包含描述一个对象的数据。文件的格式是一致的。它基本上是一个包含两列的 csv 文件。这两列应表示为结果对象中的元组序列。

文件的大小非常小。最多只有 20 kb。每个文件夹包含大约 200 个文件。

所需的输出对象应该是:

如何处理在 Scala 中读取此数据集?

0 投票
1 回答
441 浏览

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用 cloudera live vm,我有一个 hadoop 和 spral 独立集群。现在我想用 spark submit 和 flink run 脚本提交我的工作。这也有效。但我的应用程序可以在 hdfs 中找到输入和输出文件的路径。我将路径设置为: hdfs://127.0.0.1:50010/user/cloudera/outputs 来自我从中获得的端口的信息: 在此处输入图像描述

如何在java中设置hdfs的路径?

最好的问候,保罗

0 投票
4 回答
56027 浏览

apache-storm - Flink 和 Storm 之间的主要区别是什么?

Flink与 Spark 进行了比较,在我看来,这是错误的比较,因为它将窗口事件处理系统与微批处理进行了比较;同样,将 Flink 与 Samza 进行比较对我来说没有多大意义。在这两种情况下,它都会比较实时和批处理事件处理策略,即使在 Samza 的情况下“规模”较小。但我想知道 Flink 与 Storm 相比如何,后者在概念上似乎更相似。

我发现这个(幻灯片#4)记录了 Flink 的“可调节延迟”的主要区别。另一个提示似乎是Slicon Angle的一篇文章,该文章建议 Flink 更好地集成到 Spark 或 HadoopMR 世界中,但没有提及或引用实际细节。最后,Fabian Hueske 本人在接受采访时指出,“与 Apache Storm 相比,Flink 的流分析功能提供了高级 API,并使用更轻量级的容错策略来提供恰好一次处理的保证。”

所有这些对我来说有点稀疏,我不太明白这一点。有人能解释一下 Flink 完全解决了 Storm 中流处理的哪些问题吗?Hueske 所指的 API 问题及其“更轻量级的容错策略”指的是什么?