问题标签 [apache-spark-1.4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
157 浏览

spark-streaming - 调用 updateStateByKey 时编译错误

编译错误:

在一个简单的字数统计示例中,将单词映射为 1

然后updateStateByKey申请wordCounts

updateFunction定义如下:

updateStateByKey 具有以下推荐的可用签名:

在此处输入图像描述

0 投票
2 回答
3210 浏览

apache-spark - Spark 分组和自定义聚合

我有如下数据,

我想得到如下输出

i,e 在第 1、第 2 和第 3 列上进行分组,对于第 4 列,请遵循以下公式, 第 4 列 = 在组内,(mt1+mt2)/mt4

我正在尝试对 Spark DF 做同样的事情,假设数据在数据帧 a 中,列名为 n,d,un,mt,r 我正在尝试这个。

0 投票
1 回答
207 浏览

maven - Databricks - 如何使用更新的 Maven 工件创建库

我们最初使用 maven 工件在 databricks 中创建了一个库。我们看到所有的 jars 都存在于库中,请注意这个 maven 工件是我们的。

我们发现该工件几乎没有问题。修复它并在 Maven 中央存储库中更新。

然后我们使用来自 maven 存储库的工件在 databricks 中创建了一个库。在这个库中,我们看不到更新的工件中存在的更改。

Maven 工件存在于文件夹 /FileStore/jars/maven/ 中。在此文件夹中存在我的工件的旧版本。我刚刚尝试删除 /FileStore/jars/maven/ 中存在的所有文件夹并重新创建了库。但我的图书馆仍然不包含新的工件。

databricks 是否有本地存储库?如果是,我们如何强制更新它?

0 投票
2 回答
472 浏览

apache-spark - Spark SQL + 流问题

我们正在尝试使用Spark StreamingSpark SQL实现一个用例,它允许我们针对某些数据运行用户定义的规则(有关如何捕获和使用数据,请参见下文)。这个想法是使用 SQL 来指定规则并将结果作为警报返回给用户。基于每个传入事件批次执行查询似乎非常慢。如果有人能提出更好的方法来实现这个用例,我将不胜感激。另外,想知道 Spark 是在驱动程序还是工作程序上执行 sql?提前致谢。以下是我们为实现这一目标而执行的步骤 -

1) 从外部数据库加载初始数据集作为 JDBCRDD

2)创建一个传入的 DStream(捕获对初始化数据的更新)

3) 使用传入的 DStream 创建一个 Pair DStream

4)使用初始化的RDD作为基础状态从pair DStream创建一个Stateful DStream

5) 根据传入流中的值对更新状态运行用户驱动的查询

0 投票
1 回答
430 浏览

cluster-analysis - Spark 1.4 Mllib LDA topicDistributions() 返回错误数量的文档

我有一个 LDA 模型在 12,054 个文档的语料库大小上运行,词汇大小为 9,681 个单词和 60 个集群。我试图通过调用 .topicDistributions() 或 .javaTopicDistributions() 来获取文档的主题分布。这两种方法都返回文档上的主题分布 rdd。据我了解,行数应该是文档数,列数应该是主题数。但是,当我在调用 topicDistributions() 后计算 rdd 时,我得到的计数是 11,665(少于传递给模型的文档数)?每个文档都有正确数量的主题 (60)。为什么是这样?

这是演示: http ://spark.apache.org/docs/latest/mllib-clustering.html

和文档:https ://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/clustering/DistributedLDAModel.html

这是代码:

0 投票
1 回答
2861 浏览

scala - 无法使用 saveAsTextFile 将 RDD[String] 保存为文本文件

当我尝试将我的 RDD 写入 HDFS 上的文本文件时,如下所示,出现错误。

错误:

引起:java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到类 org.apache.hadoop.mapred.DirectFileOutputCommitter

我在spark-shell中运行上述所有内容,我的 spark版本1.4.0

这是我用来启动 shell 的命令 $SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0 --jars /home/hadoop/lib/native/hadoop-lzo-0.4.14.jar

我试过用谷歌搜索找到这个类“<code>DirectFileOutputCommitter”在哪里可用,但看起来这个类在这个世界上根本不存在。

痕迹:

谁能帮我解决这个问题?

0 投票
3 回答
7347 浏览

scala - 从 apache spark 中的文本文件中查找存储在 rdd 中的数据大小

我是 Apache Spark(版本 1.4.1)的新手。我编写了一个小代码来读取文本文件并将其数据存储在 Rdd 中。

有没有办法可以获取 rdd 中数据的大小。

这是我的代码:

我想在过滤器转换(peopleRdd)之前和之后(newRdd)获取数据大小。

0 投票
1 回答
1632 浏览

apache-spark - 在 Apache Spark SQL 中,如何从 HiveContext 关闭元存储连接

我的项目对不同的 HiveContext 配置进行了单元测试(有时它们在一个文件中,因为它们按功能分组。)

升级到 Spark 1.4 后,我遇到很多“java.sql.SQLException:另一个 Derby 实例可能已经启动数据库”的问题,因为补丁使这些上下文无法共享同一个元存储。由于每次测试都恢复单例状态并不干净。我唯一的选择归结为通过终止先前的 Derby Metastore 连接来“回收”每个上下文。有没有办法做到这一点?

0 投票
6 回答
89216 浏览

apache-spark - DataFrame 连接优化 - 广播哈希连接

我正在尝试有效地加入两个 DataFrame,其中一个较大,第二个较小。

有没有办法避免所有这些洗牌?我无法设置autoBroadCastJoinThreshold,因为它仅支持整数-并且我尝试广播的表略大于整数字节数。

有没有办法强制广播忽略这个变量?

0 投票
1 回答
151 浏览

hadoop - Spark Scala如何执行

我编写了以下代码,它返回“找不到类”异常。我不确定将 csv 文件中的数据加载到 SparkSQL 中需要做什么。