问题标签 [apache-arrow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

332 问题

0 投票

1 回答

232 浏览

apache-arrow - Arrow Streaming 是端到端无拷贝的吗

我对 Arrow Streaming 感到困惑。许多描述箭头的来源只是解释以下内容

Arrow 内存格式支持零拷贝读取

并说 Arrow 是零拷贝工具。

但是，据我了解这些段落：

列格式序列化数据的原始单位是“记录批”。从语义上讲，记录批次是数组的有序集合，称为字段，每个字段的长度相同，但数据类型可能不同。记录批次的字段名称和类型共同构成批次的架构。

在本节中，我们定义了一个协议，用于将记录批次序列化为二进制有效负载流，并从这些有效负载重构记录批次，而无需内存复制。

IPC Streaming Format的描述，以及我有限的理解，源，数据是序列化的，只有反序列化是零拷贝。

换句话说 - 使用 Arrow Streaming 的系统实际上是在途中复制数据。

那是对的吗？

apache-arrow

2019-12-13T13:54:36.643

0 投票

1 回答

446 浏览

apache-arrow - 我们如何在 Apache Arrow 中存储哈希表？

我对 Apache Arrow 很陌生，所以这个问题可能是无知的。Apache Arrow 提供了以标准化内存格式存储原始类型/结构/数组等数据结构的能力，我想知道是否可以使用 Apache Arrow 存储更复杂的数据结构，如哈希表（或平衡搜索树）？

很多算法都依赖这些数据结构来工作，在这种情况下，Apache Arrow 用户是否需要将箭头数据转换为特定语言的数据结构？

apache-arrow

2019-12-16T02:09:06.170

0 投票

1 回答

1410 浏览

apache-kafka - apache-arrow-flight 和 apache-kafka 之间的区别（通过网络访问大型数据集）

据我所知，这两个平台都支持大数据摄取（流式传输）。

每个平台的优缺点是什么？

2020-01-10T10:01:29.050

0 投票

1 回答

902 浏览

c++ - 在现有的 C++ 可执行项目 CMAKE 中构建 Apache Arrow

我正在开发一个使用 Apache Arrow 作为依赖项的 C++ CMake 项目。我的目标是能够包含和使用arrow/api.h. 但是，我找不到任何文档或教程来解释我可以做些什么来实现这一点，所以我的第一个想法是使用 CMake 将它添加为第三个库FetchContent，因此，我将以下代码添加到我的CMakeLists.txt:

我现在可以在我的项目中找到代码 - 虽然仍然无法使用 include arrow/api.h - 但是每当我尝试构建它时，我都会从CMakeLists.txtApache Arrow cpp src 目录中收到错误！这是包含错误的 CMake 构建日志：

我在这里错过了什么吗？这是在现有项目中包含 Apache Arrow 的正确方法吗？知道如何解决此错误吗？

我正在使用 Windows 10，但最终想在 Linux 上运行该项目！

c++cmake apache-arrow

2020-01-15T22:10:01.350

0 投票

2 回答

819 浏览

c++ - 通过 CMake 添加子项目

Apache Arrow子模块存储在thirdparty/apache_arrow/cpp，所以我的主要 CMakeLists.txt 看起来像

在thirdparty/apache_arrow存储的整个Apache Arrow项目中。

当我尝试构建项目时，最后的输出行如下：

Apache Arrow 可以通过文件夹中的 CMakeLists.txt 轻松构建/cpp，但是如果我尝试将其包含在中，为什么会出现错误add_subdirectory？

c++cmake apache-arrow

2020-01-25T23:43:47.077

0 投票

1 回答

443 浏览

apache-arrow - 如何在 Apache Arrow 中对数据进行排序

我找不到任何使用 apache 箭头对数据进行排序的示例。我发现的关闭是对用户空间中的数据进行排序的。

更具体地说，我对 JS 版本感兴趣。

apache-arrow

2020-01-31T13:00:13.280

0 投票

1 回答

3836 浏览

pandas - TypeError：字段客户：无法合并类型和

我的 Df 在上面

代码

只有加载df_repay有问题，其他数据框加载成功。当我将上面的代码转换为下面的代码时，它成功地工作了

df4 = (spark.read.format("csv").options(header="true") .load("Repayment.csv"))

spark.createDataFrame(pdf3)为什么在成功加载类似数据帧时未加载 df_repay

pandas apache-spark pyspark apache-arrow

user6882757

2020-02-02T01:46:25.657

0 投票

1 回答

744 浏览

apache-spark - 在 pandas_udf spark 中返回一个 Pandas 系列

在 Apache Spark 上，我有一个 pandas_udf 函数，它应该返回一个 pd.Series 如何存档？

我试过了：

这给出了例外：

apache-spark pyspark apache-arrow

2020-02-27T10:56:01.430

0 投票

1 回答

3270 浏览

python - 将 Parquet 文件分区列存储在不同的文件中

我想以镶木地板格式存储表格数据集，对不同的列组使用不同的文件。是否可以按列对镶木地板文件进行分区？如果是这样，是否可以使用python（pyarrow）来做到这一点？

我有一个大型数据集，它收集许多对象（行）的属性/特征（列）。这些行大约为 100k-1M（行会随着时间的推移而增长）。相反，列在逻辑上分为 200 个组，每组有 200-1000 列。列的总数是固定的，但是它们的数据是从 col group 1, col group 2, ... 开始顺序获取的。但是，在接收到第一个数据批对该列组进行排序之前，事先不知道列名、类型和编号。

这些数据将随着时间的推移而收集。当数据到达时，我想将这组不断增长的列存储在镶木地板中。最终，所有列组都将填充数据。随着时间的推移，新对象（行）将到达，它们的数据将始终从 col 组 1 开始，并逐渐填充其他组。

是否可以（或建议）将这些数据存储在一个逻辑 parquet 文件中，该文件拆分为文件系统上的多个文件，其中每个文件包含一个列组（200-1000 列）？有人可以提供一个使用 python/pandas/pyarrow 存储此类文件的示例吗？

或者，每个 col 组可以存储为不同的逻辑 parquet 文件。在这种情况下，所有文件都有一个object_id索引列，但每个 parquet 文件（对于 col 组）将包含不同的对象子集。任何虽然或建议表示赞赏。

python pandas parquet pyarrow apache-arrow

2020-03-05T11:55:03.627

0 投票

1 回答

36 浏览

python - 对箭头结构的属性进行连接操作

假设我有一个名为“my_data.json”的 json 文件，如下所示。

如果我需要基于属性 d 进行连接操作，我可以直接从箭头结构中进行吗？（或者是否有任何有效的替代方案？）还有 json 格式的嵌套属性在以箭头格式转换后如何映射到缓冲区？

python database apache-arrow

2020-03-23T03:47:38.807

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-arrow]

Reference