问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1660 浏览

scala - foreach 循环内的 Spark NullPointerException

我有 RDD,我想遍历它。我喜欢这样:

但是,正在发生 NullPointerException:

pointsMap和都xCoordinatesWithDistance在 foreach 之前初始化并包含元素。不在 foreach 循环内leftOuterJoin也可以。有关我的代码的完整版本,请参阅https://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scala

0 投票
1 回答
947 浏览

java - 结合两个 JavaPairRDD

我正在使用java中的Spark。我有一个名为Out1的JavaPairRDD

输出1:

我想创建一个名为Out2的新JavaPairRDD ,它与Out1相同,但没有第一行:

输出2:

之后,我想像这样组合这两个JavaPairRDD

输出3:

注意:我们不能使用groupByKey,因为我们可以在多行中拥有相同的键。

0 投票
1 回答
3044 浏览

java - 带分组的 Spark 数据处理

我需要按某个列对一组 csv 行进行分组,并对每个组进行一些处理。

pairRDD.lookup 非常慢.. 有没有更好的方法来用 spark 做到这一点。

0 投票
2 回答
345 浏览

apache-spark - 使 Spark 在专有分布式数据库上工作的最佳方法是什么?(RDD 或 FileInputFormat)

我们有某种分布式数据存储。我们了解所有内部结构,可以直接访问磁盘上的数据。

我正在研究直接在其上部署 Apache Spark 的选项。

最好/推荐的方法是什么?

  • 编写自定义 RDD(从 RDD 派生)
  • 或者,通过扩展 FileInputFormat

(一个比另一个更容易?更好的性能?等等)

谢谢你的帮助

0 投票
1 回答
1136 浏览

apache-spark - 持久化 Spark RDD 在另一个 Spark shell 中不可用

我们有一个 Spark-1.1.0 独立的 2 节点集群,在该集群上使用 Spark shell 创建了 Spark RDD。RDD 已被持久化(MEMORY_ONLY)。我无法使用 sc.getPersistentRDDs() 从另一个 Spark shell 检索此 RDD。我错过了什么吗?

0 投票
1 回答
3830 浏览

scala - 将 scala 字符串转换为 RDD[seq[string]]

在上面的代码片段中,我想提取collectedResult以将其重用于hashingTF.transform,如何在tokenize函数的签名处实现

0 投票
2 回答
76 浏览

scala - Scala Sparc RDD 是否允许具有引用成员的对象

我正处于使用 Sparc RDD 设计应用程序的早期阶段(我还不明白)。RDD 将包含大量对象,这些对象又包含对少量(100)个较大(0.5MB)不可变对象的引用。

映射到 RDD 上的操作将调用对象上的成员函数,然后再调用引用上的成员函数。

这原则上可行吗?

0 投票
4 回答
15786 浏览

scala - 从 hive 表中获取数据到 spark 并在 RDD 上执行连接

我在蜂巢/黑斑羚中有两张桌子。我想将表中的数据作为 rdds 提取到 spark 中并执行连接操作。

我不想在我的配置单元上下文中直接传递连接查询。这只是一个例子。我有更多标准 HiveQL 无法实现的用例。如何获取所有行、访问列并执行转换。

假设我有两个 rdds:

我想在名为“account_id”的列上对 rdds 执行连接

理想情况下,我想使用 rdds 使用 spark shell 来做这样的事情。

0 投票
1 回答
48 浏览

scala - 火花贴图变换中的加法

我有一个这样的文本文件:

这给了我:

使用+连接到第一列,但我想添加到第一列,给出:

0 投票
1 回答
272 浏览

apache-spark - 有没有办法检查 Spark 中的变量是否可并行化?

所以我groupByKey在 spark 中使用函数,但它没有被并行化,因为我可以看到在它的执行过程中,只使用了 1 个内核。我正在使用的数据似乎不允许并行化。spark有没有办法知道输入数据是否适合并行化,或者它是否不是正确的RDD?