问题标签 [apache-spark-1.4]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

31 问题

0 投票

1 回答

157 浏览

spark-streaming - 调用 updateStateByKey 时编译错误

编译错误：

在一个简单的字数统计示例中，将单词映射为 1

然后updateStateByKey申请wordCounts

updateFunction定义如下：

updateStateByKey 具有以下推荐的可用签名：

spark-streaming apache-spark-1.4

2015-08-03T05:07:47.173

0 投票

2 回答

3210 浏览

apache-spark - Spark 分组和自定义聚合

我有如下数据，

我想得到如下输出

i,e 在第 1、第 2 和第 3 列上进行分组，对于第 4 列，请遵循以下公式， 第 4 列 = 在组内，(mt1+mt2)/mt4

我正在尝试对 Spark DF 做同样的事情，假设数据在数据帧 a 中，列名为 n,d,un,mt,r 我正在尝试这个。

2015-08-04T18:59:50.753

0 投票

1 回答

207 浏览

maven - Databricks - 如何使用更新的 Maven 工件创建库

我们最初使用 maven 工件在 databricks 中创建了一个库。我们看到所有的 jars 都存在于库中，请注意这个 maven 工件是我们的。

我们发现该工件几乎没有问题。修复它并在 Maven 中央存储库中更新。

然后我们使用来自 maven 存储库的工件在 databricks 中创建了一个库。在这个库中，我们看不到更新的工件中存在的更改。

Maven 工件存在于文件夹 /FileStore/jars/maven/ 中。在此文件夹中存在我的工件的旧版本。我刚刚尝试删除 /FileStore/jars/maven/ 中存在的所有文件夹并重新创建了库。但我的图书馆仍然不包含新的工件。

databricks 是否有本地存储库？如果是，我们如何强制更新它？

maven apache-spark apache-spark-1.4

2015-08-07T09:57:54.467

0 投票

2 回答

472 浏览

apache-spark - Spark SQL + 流问题

我们正在尝试使用Spark Streaming和Spark SQL实现一个用例，它允许我们针对某些数据运行用户定义的规则（有关如何捕获和使用数据，请参见下文）。这个想法是使用 SQL 来指定规则并将结果作为警报返回给用户。基于每个传入事件批次执行查询似乎非常慢。如果有人能提出更好的方法来实现这个用例，我将不胜感激。另外，想知道 Spark 是在驱动程序还是工作程序上执行 sql？提前致谢。以下是我们为实现这一目标而执行的步骤 -

1) 从外部数据库加载初始数据集作为 JDBCRDD

2）创建一个传入的 DStream（捕获对初始化数据的更新）

3) 使用传入的 DStream 创建一个 Pair DStream

4）使用初始化的RDD作为基础状态从pair DStream创建一个Stateful DStream

5) 根据传入流中的值对更新状态运行用户驱动的查询

apache-spark spark-streaming apache-spark-sql apache-spark-1.4

2015-08-10T17:36:05.900

0 投票

1 回答

430 浏览

cluster-analysis - Spark 1.4 Mllib LDA topicDistributions() 返回错误数量的文档

我有一个 LDA 模型在 12,054 个文档的语料库大小上运行，词汇大小为 9,681 个单词和 60 个集群。我试图通过调用 .topicDistributions() 或 .javaTopicDistributions() 来获取文档的主题分布。这两种方法都返回文档上的主题分布 rdd。据我了解，行数应该是文档数，列数应该是主题数。但是，当我在调用 topicDistributions() 后计算 rdd 时，我得到的计数是 11,665（少于传递给模型的文档数）？每个文档都有正确数量的主题 (60)。为什么是这样？

这是演示： http ://spark.apache.org/docs/latest/mllib-clustering.html

和文档：https ://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/clustering/DistributedLDAModel.html

这是代码：

cluster-analysis apache-spark-mllib lda apache-spark-1.4

2015-08-14T21:57:22.637

0 投票

1 回答

2861 浏览

scala - 无法使用 saveAsTextFile 将 RDD[String] 保存为文本文件

当我尝试将我的 RDD 写入 HDFS 上的文本文件时，如下所示，出现错误。

错误：

引起：java.lang.RuntimeException：java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.mapred.DirectFileOutputCommitter

我在spark-shell中运行上述所有内容，我的 spark版本是1.4.0

这是我用来启动 shell 的命令 $SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0 --jars /home/hadoop/lib/native/hadoop-lzo-0.4.14.jar

我试过用谷歌搜索找到这个类“<code>DirectFileOutputCommitter”在哪里可用，但看起来这个类在这个世界上根本不存在。

痕迹：

谁能帮我解决这个问题？

scala classnotfoundexception apache-spark-1.4

2015-08-18T07:05:31.533

0 投票

3 回答

7347 浏览

scala - 从 apache spark 中的文本文件中查找存储在 rdd 中的数据大小

我是 Apache Spark（版本 1.4.1）的新手。我编写了一个小代码来读取文本文件并将其数据存储在 Rdd 中。

有没有办法可以获取 rdd 中数据的大小。

这是我的代码：

我想在过滤器转换（peopleRdd）之前和之后（newRdd）获取数据大小。

scala apache-spark apache-spark-1.4

2015-08-24T09:52:17.937

0 投票

1 回答

1632 浏览

apache-spark - 在 Apache Spark SQL 中，如何从 HiveContext 关闭元存储连接

我的项目对不同的 HiveContext 配置进行了单元测试（有时它们在一个文件中，因为它们按功能分组。）

升级到 Spark 1.4 后，我遇到很多“java.sql.SQLException：另一个 Derby 实例可能已经启动数据库”的问题，因为补丁使这些上下文无法共享同一个元存储。由于每次测试都恢复单例状态并不干净。我唯一的选择归结为通过终止先前的 Derby Metastore 连接来“回收”每个上下文。有没有办法做到这一点？

apache-spark thrift apache-spark-sql apache-spark-1.4

2015-08-24T23:49:46.127

0 投票

6 回答

89216 浏览

apache-spark - DataFrame 连接优化 - 广播哈希连接

我正在尝试有效地加入两个 DataFrame，其中一个较大，第二个较小。

有没有办法避免所有这些洗牌？我无法设置autoBroadCastJoinThreshold，因为它仅支持整数-并且我尝试广播的表略大于整数字节数。

有没有办法强制广播忽略这个变量？

apache-spark dataframe apache-spark-sql apache-spark-1.4

2015-09-07T09:26:28.873

0 投票

1 回答

151 浏览

hadoop - Spark Scala如何执行

我编写了以下代码，它返回“找不到类”异常。我不确定将 csv 文件中的数据加载到 SparkSQL 中需要做什么。

hadoop apache-spark cloudera apache-spark-sql apache-spark-1.4

2015-09-08T05:36:19.240

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-1.4]

Reference