问题标签 [apache-spark-2.0]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

451 问题

0 投票

3 回答

44662 浏览

scala - 在 Spark SQL 中动态绑定变量/参数？

如何在 Apache Spark SQL 中绑定变量？例如：

2014-11-05T10:44:25.077

0 投票

1 回答

6839 浏览

scala - Scala案例类忽略Spark shell中的导入

我希望这个问题有一个明显的答案！

我刚刚升级到 Spark v2.0，并且对spark-shell（Scala 2.11 构建）有一个奇怪的问题。

如果我输入以下最小 Scala，

我收到以下错误，

如果我在其他地方使用 Java Timestamp类，例如在函数中，则不会生成错误（正如您所期望的那样，因为导入）。

如果我完全符合条件并在案例类中使用java.sql.Timestamp就可以了！

我错过了一些明显的东西吗？

scala apache-spark apache-spark-2.0

2016-08-02T16:44:01.170

0 投票

1 回答

305 浏览

apache-spark - 使用 Spark 1.6.2 与 Spark 2.0.0 的 KMeans

我Kmeans()在我无法控制的环境中使用，我将在 <1 个月内放弃。火花 1.6.2。已安装。

我应该为在我离开之前敦促“他们”升级到 Spark 2.0.0 而付出代价吗？换句话说，Spark 2.0.0在Spark Mllib KMeans()方面是否引入了任何重大改进？

就我而言，质量是比速度更重要的因素。

apache-spark machine-learning k-means apache-spark-1.6 apache-spark-2.0

2016-08-25T19:28:05.757

0 投票

1 回答

14970 浏览

java - 如何为自定义 Java 对象创建编码器？

我正在使用以下类从 Spark 编码器创建 bean

我收到以下错误

如何在 Java 中为 Spark 实现这种类型的用例？如果我删除内部类，这工作得很好。但是我需要为我的用例创建一个内部类。

java apache-spark apache-spark-2.0

2016-08-28T06:15:11.383

0 投票

2 回答

2847 浏览

scala - 如何使用 Spark2 的 SparkSession 查询 Hive 表中存储的数据？

我正在尝试从 Spark2 查询存储在 Hive 表中的数据。环境：1.cloudera-quickstart-vm-5.7.0-0-vmware 2.带有Scala2.11.8插件的Eclipse 3.Spark2和Maven下

我没有更改 spark 默认配置。我需要在 Spark 或 Hive 中配置什么吗？

代码

得到错误

任何建议表示赞赏

谢谢罗宾
_

scala maven hive apache-spark-sql apache-spark-2.0

2016-08-29T08:09:31.447

0 投票

2 回答

694 浏览

apache-spark - 数据集上的地图功能是否针对一列的操作进行了优化？

因为，使用withDataFrame很容易通过一些操作生成一个新列。要做这样的事情，我想我会使用这个函数：udfdf.withColumn("newCol", myUDF("someCol"))Datasetmap

您必须将整个案例类T作为输入传递给函数。如果Dataset[T]有很多字段/列，如果您只想通过对T. 我的问题是，Catalyst 是否足够聪明，能够对此进行优化？

apache-spark apache-spark-dataset apache-spark-2.0

2016-08-29T22:17:11.517

0 投票

1 回答

1246 浏览

apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date`错误

我们正在维护一个 Hive 数据仓库并使用 sparkSQL 对 hive 数据库进行查询并生成报告。我们在 AWS EMR 环境中使用 Spark 1.6，并且运行良好。我想将我们的环境升级到 spark 2.0，但我在日期字段中遇到了一个非常奇怪的转换错误。java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date在 spark 2.0 中查询时，任何包含 DATE 类型列的现有表都会引发错误。

这是您可以在我们的 Hive 数据库中找到的表的简化示例：

CREATE TABLE IF NOT EXISTS test.test_table ( column_1 STRING, column_2 STRING, ) PARTITIONED BY (column_3 DATE) STORED AS PARQUETFILE ;

查询SELECT * FROM test.test_table limit 5在 spark 2.0 中因上述错误而失败，但在 spark 1.6 中工作正常。

这些表使用INSERT INTO语法填充了 spark 1.6 HiveContext。

有没有人看到这个问题？是否需要设置一个配置值才能让 spark 2.0 使用镶木地板格式的日期字段？

apache-spark hive apache-spark-sql apache-spark-2.0

2016-09-01T00:18:47.433

0 投票

0 回答

391 浏览

hadoop - YARN 不会抢占 spark 2.0 任务

我有一个由 YARN 管理的集群。我在和中启用了公平调度（详见下文）。yarn-site.xmlfair-scheduler.xml

根据Cloudera 关于公平调度的博客文章，我希望如果我将一些任务安排到q1队列中（动态创建，使用默认值，例如weigth=1），然后将一些其他任务安排到test_queue（weight=2），来自的任务q1将被抢占（1 秒后）平衡test_queue的公平份额，但它不会发生。

而是q1使用 70% 的集群资源（公平份额为 33%）并test_queue获得 5% 的资源公平份额为 67%。

我错过了什么吗？

以下是我的 YARN 配置：

和

我从 spark 示例提交 Pi 计算作业：

hadoop hadoop-yarn apache-spark-2.0

2016-09-01T14:58:44.190

0 投票

3 回答

5685 浏览

scala - 如何从下载 Spark 页面的源代码构建 Spark？

我尝试使用 Ubuntu 16.04 在 Ubuntu VM 上安装和构建 Spark 2.0.0，如下所示：

安装 Java
/li>
安装 Scala

转到他们网站上的下载选项卡：scala-lang.org/download/all.html

我使用了 Scala 2.11.8。

修改.bashrc文件并包含 scala 的路径：

然后输入：
/li>
安装 git
/li>
下载并构建火花

转至：http ://spark.apache.org/downloads.html

下载 Spark 2.0.0（从源代码构建 - 用于独立模式）。

现在输入：

完成安装后，我收到消息：

[成功] 总时间：1940秒，完成...

其次是日期和时间...
运行 Spark 外壳
/li>

就在那时，所有的地狱都崩溃了，我开始得到错误。我进入程序集文件夹以查找名为 target 的文件夹。但是那里没有这样的文件夹。汇编中唯一可见的内容是：pom.xml、README 和 src。

我在网上查了很长时间，但我一直无法找到一个可以帮助解决错误的具体解决方案。有人可以就如何解决这个问题提供明确的分步说明吗？！？现在快把我逼疯了……（TT）

错误截图：

scala ubuntu sbt apache-spark-2.0

2016-09-01T23:51:08.070

0 投票

0 回答

100 浏览

java - spark2中的排队流

在 spark 1.6.1 中感谢这种方法如何在 JAVA 中将 RDD 转换为 DStream？我能够从这样的文本文件创建排队流：

像这样我得到了流，但每批只有一个文件。文件包含 JSON 数据。有没有办法在 spark2 中使用 SparkSession 和 Datasets 而不使用镶木地板文件来制作排队流（类似于上面的方法）？

sc()是java spark上下文
jsc()是java流式上下文

java apache-spark-2.0

2016-09-07T05:29:14.060

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-2.0]

Reference