问题标签 [apache-arrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
232 浏览

apache-arrow - Arrow Streaming 是端到端无拷贝的吗

我对 Arrow Streaming 感到困惑。许多描述箭头的来源只是解释 以下内容

Arrow 内存格式支持零拷贝读取

并说 Arrow 是零拷贝工具。

但是,据我了解这些段落

列格式序列化数据的原始单位是“记录批”。从语义上讲,记录批次是数组的有序集合,称为字段,每个字段的长度相同,但数据类型可能不同。记录批次的字段名称和类型共同构成批次的架构。

在本节中,我们定义了一个协议,用于将记录批次序列化为二进制有效负载流,并从这些有效负载重构记录批次,而无需内存复制。

IPC Streaming Format的描述,以及我有限的理解,源,数据是序列化的,只有反序列化是零拷贝。

换句话说 - 使用 Arrow Streaming 的系统实际上是在途中复制数据。

那是对的吗?

0 投票
1 回答
446 浏览

apache-arrow - 我们如何在 Apache Arrow 中存储哈希表?

我对 Apache Arrow 很陌生,所以这个问题可能是无知的。Apache Arrow 提供了以标准化内存格式存储原始类型/结构/数组等数据结构的能力,我想知道是否可以使用 Apache Arrow 存储更复杂的数据结构,如哈希表(或平衡搜索树)?

很多算法都依赖这些数据结构来工作,在这种情况下,Apache Arrow 用户是否需要将箭头数据转换为特定语言的数据结构?

0 投票
1 回答
1410 浏览

apache-kafka - apache-arrow-flight 和 apache-kafka 之间的区别(通过网络访问大型数据集)

据我所知,这两个平台都支持大数据摄取(流式传输)。

每个平台的优缺点是什么?

0 投票
1 回答
902 浏览

c++ - 在现有的 C++ 可执行项目 CMAKE 中构建 Apache Arrow

我正在开发一个使用 Apache Arrow 作为依赖项的 C++ CMake 项目。我的目标是能够包含和使用arrow/api.h. 但是,我找不到任何文档或教程来解释我可以做些什么来实现这一点,所以我的第一个想法是使用 CMake 将它添加为第三个库FetchContent,因此,我将以下代码添加到我的CMakeLists.txt:

我现在可以在我的项目中找到代码 - 虽然仍然无法使用 include arrow/api.h - 但是每当我尝试构建它时,我都会从CMakeLists.txtApache Arrow cpp src 目录中收到错误!这是包含错误的 CMake 构建日志:

我在这里错过了什么吗?这是在现有项目中包含 Apache Arrow 的正确方法吗?知道如何解决此错误吗?

我正在使用 Windows 10,但最终想在 Linux 上运行该项目!

0 投票
2 回答
819 浏览

c++ - 通过 CMake 添加子项目

Apache Arrow子模块存储在thirdparty/apache_arrow/cpp,所以我的主要 CMakeLists.txt 看起来像

thirdparty/apache_arrow存储的整个Apache Arrow项目中。

当我尝试构建项目时,最后的输出行如下:

Apache Arrow 可以通过文件夹中的 CMakeLists.txt 轻松构建/cpp,但是如果我尝试将其包含在 中,为什么会出现错误add_subdirectory

0 投票
1 回答
443 浏览

apache-arrow - 如何在 Apache Arrow 中对数据进行排序

我找不到任何使用 apache 箭头对数据进行排序的示例。我发现的关闭是用户空间中的数据进行排序的。

更具体地说,我对 JS 版本感兴趣。

0 投票
1 回答
3836 浏览

pandas - TypeError:字段客户:无法合并类型

我的 Df 在上面

代码

只有加载df_repay有问题,其他数据框加载成功。当我将上面的代码转换为下面的代码时,它成功地工作了

df4 = (spark.read.format("csv").options(header="true") .load("Repayment.csv"))

  • spark.createDataFrame(pdf3)为什么在成功加载类似数据帧时未加载 df_repay
0 投票
1 回答
744 浏览

apache-spark - 在 pandas_udf spark 中返回一个 Pandas 系列

在 Apache Spark 上,我有一个 pandas_udf 函数,它应该返回一个 pd.Series 如何存档?

我试过了:

这给出了例外:

0 投票
1 回答
3270 浏览

python - 将 Parquet 文件分区列存储在不同的文件中

我想以镶木地板格式存储表格数据集,对不同的列组使用不同的文件。是否可以按列对镶木地板文件进行分区?如果是这样,是否可以使用python(pyarrow)来做到这一点?

我有一个大型数据集,它收集许多对象(行)的属性/特征(列)。这些行大约为 100k-1M(行会随着时间的推移而增长)。相反,列在逻辑上分为 200 个组,每组有 200-1000 列。列的总数是固定的,但是它们的数据是从 col group 1, col group 2, ... 开始顺序获取的。但是,在接收到第一个数据批对该列组进行排序之前,事先不知道列名、类型和编号。

这些数据将随着时间的推移而收集。当数据到达时,我想将这组不断增长的列存储在镶木地板中。最终,所有列组都将填充数据。随着时间的推移,新对象(行)将到达,它们的数据将始终从 col 组 1 开始,并逐渐填充其他组。

是否可以(或建议)将这些数据存储在一个逻辑 parquet 文件中,该文件拆分为文件系统上的多个文件,其中每个文件包含一个列组(200-1000 列)?有人可以提供一个使用 python/pandas/pyarrow 存储此类文件的示例吗?

或者,每个 col 组可以存储为不同的逻辑 parquet 文件。在这种情况下,所有文件都有一个object_id索引列,但每个 parquet 文件(对于 col 组)将包含不同的对象子集。任何虽然或建议表示赞赏。

0 投票
1 回答
36 浏览

python - 对箭头结构的属性进行连接操作

假设我有一个名为“my_data.json”的 json 文件,如下所示。

如果我需要基于属性 d 进行连接操作,我可以直接从箭头结构中进行吗?(或者是否有任何有效的替代方案?)还有 json 格式的嵌套属性在以箭头格式转换后如何映射到缓冲区?