问题标签 [apache-spark-1.4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark 分组和自定义聚合
我有如下数据,
我想得到如下输出
i,e 在第 1、第 2 和第 3 列上进行分组,对于第 4 列,请遵循以下公式, 第 4 列 = 在组内,(mt1+mt2)/mt4
我正在尝试对 Spark DF 做同样的事情,假设数据在数据帧 a 中,列名为 n,d,un,mt,r 我正在尝试这个。
maven - Databricks - 如何使用更新的 Maven 工件创建库
我们最初使用 maven 工件在 databricks 中创建了一个库。我们看到所有的 jars 都存在于库中,请注意这个 maven 工件是我们的。
我们发现该工件几乎没有问题。修复它并在 Maven 中央存储库中更新。
然后我们使用来自 maven 存储库的工件在 databricks 中创建了一个库。在这个库中,我们看不到更新的工件中存在的更改。
Maven 工件存在于文件夹 /FileStore/jars/maven/ 中。在此文件夹中存在我的工件的旧版本。我刚刚尝试删除 /FileStore/jars/maven/ 中存在的所有文件夹并重新创建了库。但我的图书馆仍然不包含新的工件。
databricks 是否有本地存储库?如果是,我们如何强制更新它?
apache-spark - Spark SQL + 流问题
我们正在尝试使用Spark Streaming和Spark SQL实现一个用例,它允许我们针对某些数据运行用户定义的规则(有关如何捕获和使用数据,请参见下文)。这个想法是使用 SQL 来指定规则并将结果作为警报返回给用户。基于每个传入事件批次执行查询似乎非常慢。如果有人能提出更好的方法来实现这个用例,我将不胜感激。另外,想知道 Spark 是在驱动程序还是工作程序上执行 sql?提前致谢。以下是我们为实现这一目标而执行的步骤 -
1) 从外部数据库加载初始数据集作为 JDBCRDD
2)创建一个传入的 DStream(捕获对初始化数据的更新)
3) 使用传入的 DStream 创建一个 Pair DStream
4)使用初始化的RDD作为基础状态从pair DStream创建一个Stateful DStream
5) 根据传入流中的值对更新状态运行用户驱动的查询
cluster-analysis - Spark 1.4 Mllib LDA topicDistributions() 返回错误数量的文档
我有一个 LDA 模型在 12,054 个文档的语料库大小上运行,词汇大小为 9,681 个单词和 60 个集群。我试图通过调用 .topicDistributions() 或 .javaTopicDistributions() 来获取文档的主题分布。这两种方法都返回文档上的主题分布 rdd。据我了解,行数应该是文档数,列数应该是主题数。但是,当我在调用 topicDistributions() 后计算 rdd 时,我得到的计数是 11,665(少于传递给模型的文档数)?每个文档都有正确数量的主题 (60)。为什么是这样?
这是演示: http ://spark.apache.org/docs/latest/mllib-clustering.html
这是代码:
scala - 无法使用 saveAsTextFile 将 RDD[String] 保存为文本文件
当我尝试将我的 RDD 写入 HDFS 上的文本文件时,如下所示,出现错误。
错误:
引起:java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到类 org.apache.hadoop.mapred.DirectFileOutputCommitter
我在spark-shell中运行上述所有内容,我的 spark版本是1.4.0
这是我用来启动 shell 的命令
$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0 --jars /home/hadoop/lib/native/hadoop-lzo-0.4.14.jar
我试过用谷歌搜索找到这个类“<code>DirectFileOutputCommitter”在哪里可用,但看起来这个类在这个世界上根本不存在。
痕迹:
谁能帮我解决这个问题?
scala - 从 apache spark 中的文本文件中查找存储在 rdd 中的数据大小
我是 Apache Spark(版本 1.4.1)的新手。我编写了一个小代码来读取文本文件并将其数据存储在 Rdd 中。
有没有办法可以获取 rdd 中数据的大小。
这是我的代码:
我想在过滤器转换(peopleRdd)之前和之后(newRdd)获取数据大小。
apache-spark - 在 Apache Spark SQL 中,如何从 HiveContext 关闭元存储连接
我的项目对不同的 HiveContext 配置进行了单元测试(有时它们在一个文件中,因为它们按功能分组。)
升级到 Spark 1.4 后,我遇到很多“java.sql.SQLException:另一个 Derby 实例可能已经启动数据库”的问题,因为补丁使这些上下文无法共享同一个元存储。由于每次测试都恢复单例状态并不干净。我唯一的选择归结为通过终止先前的 Derby Metastore 连接来“回收”每个上下文。有没有办法做到这一点?
apache-spark - DataFrame 连接优化 - 广播哈希连接
我正在尝试有效地加入两个 DataFrame,其中一个较大,第二个较小。
有没有办法避免所有这些洗牌?我无法设置autoBroadCastJoinThreshold
,因为它仅支持整数-并且我尝试广播的表略大于整数字节数。
有没有办法强制广播忽略这个变量?
hadoop - Spark Scala如何执行
我编写了以下代码,它返回“找不到类”异常。我不确定将 csv 文件中的数据加载到 SparkSQL 中需要做什么。