问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

1 回答

1660 浏览

scala - foreach 循环内的 Spark NullPointerException

我有 RDD，我想遍历它。我喜欢这样：

但是，正在发生 NullPointerException：

pointsMap和都xCoordinatesWithDistance在 foreach 之前初始化并包含元素。不在 foreach 循环内leftOuterJoin也可以。有关我的代码的完整版本，请参阅https://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scala

scala foreach nullpointerexception apache-spark rdd

2014-10-27T07:12:37.770

0 投票

1 回答

947 浏览

java - 结合两个 JavaPairRDD

我正在使用java中的Spark。我有一个名为Out1的JavaPairRDD

输出1：

我想创建一个名为Out2的新JavaPairRDD ，它与Out1相同，但没有第一行：

输出2：

之后，我想像这样组合这两个JavaPairRDD：

输出3：

注意：我们不能使用groupByKey，因为我们可以在多行中拥有相同的键。

java apache-spark rdd

2014-10-28T14:47:44.943

0 投票

1 回答

3044 浏览

java - 带分组的 Spark 数据处理

我需要按某个列对一组 csv 行进行分组，并对每个组进行一些处理。

pairRDD.lookup 非常慢.. 有没有更好的方法来用 spark 做到这一点。

java apache-spark rdd

2014-10-28T14:55:40.533

0 投票

2 回答

345 浏览

apache-spark - 使 Spark 在专有分布式数据库上工作的最佳方法是什么？（RDD 或 FileInputFormat）

我们有某种分布式数据存储。我们了解所有内部结构，可以直接访问磁盘上的数据。

我正在研究直接在其上部署 Apache Spark 的选项。

最好/推荐的方法是什么？

编写自定义 RDD（从 RDD 派生）
或者，通过扩展 FileInputFormat？

（一个比另一个更容易？更好的性能？等等）

谢谢你的帮助

apache-spark rdd

2014-10-28T18:23:30.587

0 投票

1 回答

1136 浏览

apache-spark - 持久化 Spark RDD 在另一个 Spark shell 中不可用

我们有一个 Spark-1.1.0 独立的 2 节点集群，在该集群上使用 Spark shell 创建了 Spark RDD。RDD 已被持久化（MEMORY_ONLY）。我无法使用 sc.getPersistentRDDs() 从另一个 Spark shell 检索此 RDD。我错过了什么吗？

apache-spark persist rdd

2014-10-29T13:17:18.177

0 投票

1 回答

3830 浏览

scala - 将 scala 字符串转换为 RDD[seq[string]]

在上面的代码片段中，我想提取collectedResult以将其重用于hashingTF.transform，如何在tokenize函数的签名处实现

scala apache-spark rdd

2014-11-04T08:46:51.927

0 投票

2 回答

76 浏览

scala - Scala Sparc RDD 是否允许具有引用成员的对象

我正处于使用 Sparc RDD 设计应用程序的早期阶段（我还不明白）。RDD 将包含大量对象，这些对象又包含对少量（100）个较大（0.5MB）不可变对象的引用。

映射到 RDD 上的操作将调用对象上的成员函数，然后再调用引用上的成员函数。

这原则上可行吗？

scala sparc rdd

2014-11-04T18:30:04.627

0 投票

4 回答

15786 浏览

scala - 从 hive 表中获取数据到 spark 并在 RDD 上执行连接

我在蜂巢/黑斑羚中有两张桌子。我想将表中的数据作为 rdds 提取到 spark 中并执行连接操作。

我不想在我的配置单元上下文中直接传递连接查询。这只是一个例子。我有更多标准 HiveQL 无法实现的用例。如何获取所有行、访问列并执行转换。

假设我有两个 rdds：

我想在名为“account_id”的列上对 rdds 执行连接

理想情况下，我想使用 rdds 使用 spark shell 来做这样的事情。

scala apache-spark rdd apache-spark-sql

2014-11-06T17:29:28.887

0 投票

1 回答

48 浏览

scala - 火花贴图变换中的加法

我有一个这样的文本文件：

这给了我：

使用+连接到第一列，但我想添加到第一列，给出：

scala apache-spark rdd

2014-11-07T16:23:55.240

0 投票

1 回答

272 浏览

apache-spark - 有没有办法检查 Spark 中的变量是否可并行化？

所以我groupByKey在 spark 中使用函数，但它没有被并行化，因为我可以看到在它的执行过程中，只使用了 1 个内核。我正在使用的数据似乎不允许并行化。spark有没有办法知道输入数据是否适合并行化，或者它是否不是正确的RDD？

apache-spark rdd

2014-11-08T12:43:17.203

1 2 3 4 5 6 7 8 9 10