问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - foreach 循环内的 Spark NullPointerException
我有 RDD,我想遍历它。我喜欢这样:
但是,正在发生 NullPointerException:
pointsMap
和都xCoordinatesWithDistance
在 foreach 之前初始化并包含元素。不在 foreach 循环内leftOuterJoin
也可以。有关我的代码的完整版本,请参阅https://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scala
java - 结合两个 JavaPairRDD
我正在使用java中的Spark。我有一个名为Out1的JavaPairRDD
输出1:
我想创建一个名为Out2的新JavaPairRDD ,它与Out1相同,但没有第一行:
输出2:
之后,我想像这样组合这两个JavaPairRDD:
输出3:
注意:我们不能使用groupByKey
,因为我们可以在多行中拥有相同的键。
java - 带分组的 Spark 数据处理
我需要按某个列对一组 csv 行进行分组,并对每个组进行一些处理。
pairRDD.lookup 非常慢.. 有没有更好的方法来用 spark 做到这一点。
apache-spark - 使 Spark 在专有分布式数据库上工作的最佳方法是什么?(RDD 或 FileInputFormat)
我们有某种分布式数据存储。我们了解所有内部结构,可以直接访问磁盘上的数据。
我正在研究直接在其上部署 Apache Spark 的选项。
最好/推荐的方法是什么?
- 编写自定义 RDD(从 RDD 派生)
- 或者,通过扩展 FileInputFormat?
(一个比另一个更容易?更好的性能?等等)
谢谢你的帮助
apache-spark - 持久化 Spark RDD 在另一个 Spark shell 中不可用
我们有一个 Spark-1.1.0 独立的 2 节点集群,在该集群上使用 Spark shell 创建了 Spark RDD。RDD 已被持久化(MEMORY_ONLY)。我无法使用 sc.getPersistentRDDs() 从另一个 Spark shell 检索此 RDD。我错过了什么吗?
scala - 将 scala 字符串转换为 RDD[seq[string]]
在上面的代码片段中,我想提取collectedResult以将其重用于hashingTF.transform,如何在tokenize函数的签名处实现
scala - Scala Sparc RDD 是否允许具有引用成员的对象
我正处于使用 Sparc RDD 设计应用程序的早期阶段(我还不明白)。RDD 将包含大量对象,这些对象又包含对少量(100)个较大(0.5MB)不可变对象的引用。
映射到 RDD 上的操作将调用对象上的成员函数,然后再调用引用上的成员函数。
这原则上可行吗?
scala - 从 hive 表中获取数据到 spark 并在 RDD 上执行连接
我在蜂巢/黑斑羚中有两张桌子。我想将表中的数据作为 rdds 提取到 spark 中并执行连接操作。
我不想在我的配置单元上下文中直接传递连接查询。这只是一个例子。我有更多标准 HiveQL 无法实现的用例。如何获取所有行、访问列并执行转换。
假设我有两个 rdds:
我想在名为“account_id”的列上对 rdds 执行连接
理想情况下,我想使用 rdds 使用 spark shell 来做这样的事情。
scala - 火花贴图变换中的加法
我有一个这样的文本文件:
这给了我:
使用+
连接到第一列,但我想添加到第一列,给出:
apache-spark - 有没有办法检查 Spark 中的变量是否可并行化?
所以我groupByKey
在 spark 中使用函数,但它没有被并行化,因为我可以看到在它的执行过程中,只使用了 1 个内核。我正在使用的数据似乎不允许并行化。spark有没有办法知道输入数据是否适合并行化,或者它是否不是正确的RDD?