问题标签 [apache-spark-2.0]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
44662 浏览

scala - 在 Spark SQL 中动态绑定变量/参数?

如何在 Apache Spark SQL 中绑定变量?例如:

0 投票
1 回答
6839 浏览

scala - Scala案例类忽略Spark shell中的导入

我希望这个问题有一个明显的答案!

我刚刚升级到 Spark v2.0,并且对spark-shell(Scala 2.11 构建)有一个奇怪的问题。

如果我输入以下最小 Scala,

我收到以下错误,

如果我在其他地方使用 Java Timestamp类,例如在函数中,则不会生成错误(正如您所期望的那样,因为导入)。

如果我完全符合条件并在案例类中使用java.sql.Timestamp就可以了!

我错过了一些明显的东西吗?

0 投票
1 回答
305 浏览

apache-spark - 使用 Spark 1.6.2 与 Spark 2.0.0 的 KMeans

Kmeans()在我无法控制的环境中使用,我将在 <1 个月内放弃。火花 1.6.2。已安装。

我应该为在我离开之前敦促“他们”升级到 Spark 2.0.0 而付出代价吗?换句话说,Spark 2.0.0在Spark Mllib KMeans()方面是否引入了任何重大改进

就我而言,质量是比速度更重要的因素。

0 投票
1 回答
14970 浏览

java - 如何为自定义 Java 对象创建编码器?

我正在使用以下类从 Spark 编码器创建 bean

我收到以下错误

如何在 Java 中为 Spark 实现这种类型的用例?如果我删除内部类,这工作得很好。但是我需要为我的用例创建一个内部类。

0 投票
2 回答
2847 浏览

scala - 如何使用 Spark2 的 SparkSession 查询 Hive 表中存储的数据?

我正在尝试从 Spark2 查询存储在 Hive 表中的数据。环境:1.cloudera-quickstart-vm-5.7.0-0-vmware 2.带有Scala2.11.8插件的Eclipse 3.Spark2和Maven下

我没有更改 spark 默认配置。我需要在 Spark 或 Hive 中配置什么吗?

代码

得到错误

任何建议表示赞赏

谢谢罗宾
_

0 投票
2 回答
694 浏览

apache-spark - 数据集上的地图功能是否针对一列的操作进行了优化?

因为,使用withDataFrame很容易通过一些操作生成一个新列。要做这样的事情,我想我会使用这个函数:udfdf.withColumn("newCol", myUDF("someCol"))Datasetmap

您必须将整个案例类T作为输入传递给函数。如果Dataset[T]有很多字段/列,如果您只想通过对T. 我的问题是,Catalyst 是否足够聪明,能够对此进行优化?

0 投票
1 回答
1246 浏览

apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date`错误

我们正在维护一个 Hive 数据仓库并使用 sparkSQL 对 hive 数据库进行查询并生成报告。我们在 AWS EMR 环境中使用 Spark 1.6,并且运行良好。我想将我们的环境升级到 spark 2.0,但我在日期字段中遇到了一个非常奇怪的转换错误。java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date在 spark 2.0 中查询时,任何包含 DATE 类型列的现有表都会引发错误。

这是您可以在我们的 Hive 数据库中找到的表的简化示例:

CREATE TABLE IF NOT EXISTS test.test_table ( column_1 STRING, column_2 STRING, ) PARTITIONED BY (column_3 DATE) STORED AS PARQUETFILE ;

查询SELECT * FROM test.test_table limit 5在 spark 2.0 中因上述错误而失败,但在 spark 1.6 中工作正常。

这些表使用INSERT INTO语法填充了 spark 1.6 HiveContext。

有没有人看到这个问题?是否需要设置一个配置值才能让 spark 2.0 使用镶木地板格式的日期字段?

0 投票
0 回答
391 浏览

hadoop - YARN 不会抢占 spark 2.0 任务

我有一个由 YARN 管理的集群。我在和中启用了公平调度(详见下文)。yarn-site.xmlfair-scheduler.xml

根据Cloudera 关于公平调度的博客文章,我希望如果我将一些任务安排到q1队列中(动态创建,使用默认值,例如weigth=1),然后将一些其他任务安排到test_queueweight=2),来自的任务q1将被抢占(1 秒后)平衡test_queue公平份额,但它不会发生。

而是q1使用 70% 的集群资源(公平份额为 33%)并test_queue获得 5% 的资源公平份额为 67%。

我错过了什么吗?

在此处输入图像描述

以下是我的 YARN 配置:

我从 spark 示例提交 Pi 计算作业:

0 投票
3 回答
5685 浏览

scala - 如何从下载 Spark 页面的源代码构建 Spark?

我尝试使用 Ubuntu 16.04 在 Ubuntu VM 上安装和构建 Spark 2.0.0,如下所示:

  1. 安装 Java

    /li>
  2. 安装 Scala

    转到他们网站上的下载选项卡:scala-lang.org/download/all.html

    我使用了 Scala 2.11.8。

    修改.bashrc文件并包含 scala 的路径:

    然后输入:

    /li>
  3. 安装 git

    /li>
  4. 下载并构建火花

    转至:http ://spark.apache.org/downloads.html

    下载 Spark 2.0.0(从源代码构建 - 用于独立模式)。

    现在输入:

    完成安装后,我收到消息:

    [成功] 总时间:1940秒,完成...

    其次是日期和时间...

  5. 运行 Spark 外壳

    /li>

就在那时,所有的地狱都崩溃了,我开始得到错误。我进入程序集文件夹以查找名为 target 的文件夹。但是那里没有这样的文件夹。汇编中唯一可见的内容是:pom.xml、README 和 src。

我在网上查了很长时间,但我一直无法找到一个可以帮助解决错误的具体解决方案。有人可以就如何解决这个问题提供明确的分步说明吗?!?现在快把我逼疯了……(TT)

错误截图:

在此处输入图像描述

0 投票
0 回答
100 浏览

java - spark2中的排队流

在 spark 1.6.1 中感谢这种方法 如何在 JAVA 中将 RDD 转换为 DStream?我能够从这样的文本文件创建排队流:

像这样我得到了流,但每批只有一个文件。文件包含 JSON 数据。有没有办法在 spark2 中使用 SparkSession 和 Datasets 而不使用镶木地板文件来制作排队流(类似于上面的方法)?

  • sc()是java spark上下文
  • jsc()是java流式上下文