问题标签 [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 Spark SQL 中动态绑定变量/参数?
如何在 Apache Spark SQL 中绑定变量?例如:
scala - Scala案例类忽略Spark shell中的导入
我希望这个问题有一个明显的答案!
我刚刚升级到 Spark v2.0,并且对spark-shell(Scala 2.11 构建)有一个奇怪的问题。
如果我输入以下最小 Scala,
我收到以下错误,
如果我在其他地方使用 Java Timestamp类,例如在函数中,则不会生成错误(正如您所期望的那样,因为导入)。
如果我完全符合条件并在案例类中使用java.sql.Timestamp就可以了!
我错过了一些明显的东西吗?
apache-spark - 使用 Spark 1.6.2 与 Spark 2.0.0 的 KMeans
我Kmeans()
在我无法控制的环境中使用,我将在 <1 个月内放弃。火花 1.6.2。已安装。
我应该为在我离开之前敦促“他们”升级到 Spark 2.0.0 而付出代价吗?换句话说,Spark 2.0.0在Spark Mllib KMeans()方面是否引入了任何重大改进?
就我而言,质量是比速度更重要的因素。
java - 如何为自定义 Java 对象创建编码器?
我正在使用以下类从 Spark 编码器创建 bean
我收到以下错误
如何在 Java 中为 Spark 实现这种类型的用例?如果我删除内部类,这工作得很好。但是我需要为我的用例创建一个内部类。
scala - 如何使用 Spark2 的 SparkSession 查询 Hive 表中存储的数据?
我正在尝试从 Spark2 查询存储在 Hive 表中的数据。环境:1.cloudera-quickstart-vm-5.7.0-0-vmware 2.带有Scala2.11.8插件的Eclipse 3.Spark2和Maven下
我没有更改 spark 默认配置。我需要在 Spark 或 Hive 中配置什么吗?
代码
得到错误
任何建议表示赞赏
谢谢罗宾
_
apache-spark - 数据集上的地图功能是否针对一列的操作进行了优化?
因为,使用withDataFrame
很容易通过一些操作生成一个新列。要做这样的事情,我想我会使用这个函数:udf
df.withColumn("newCol", myUDF("someCol"))
Dataset
map
您必须将整个案例类T
作为输入传递给函数。如果Dataset[T]
有很多字段/列,如果您只想通过对T
. 我的问题是,Catalyst 是否足够聪明,能够对此进行优化?
apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date`错误
我们正在维护一个 Hive 数据仓库并使用 sparkSQL 对 hive 数据库进行查询并生成报告。我们在 AWS EMR 环境中使用 Spark 1.6,并且运行良好。我想将我们的环境升级到 spark 2.0,但我在日期字段中遇到了一个非常奇怪的转换错误。java.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date
在 spark 2.0 中查询时,任何包含 DATE 类型列的现有表都会引发错误。
这是您可以在我们的 Hive 数据库中找到的表的简化示例:
CREATE TABLE IF NOT EXISTS test.test_table
(
column_1 STRING,
column_2 STRING,
)
PARTITIONED BY (column_3 DATE)
STORED AS PARQUETFILE ;
查询SELECT * FROM test.test_table limit 5
在 spark 2.0 中因上述错误而失败,但在 spark 1.6 中工作正常。
这些表使用INSERT INTO
语法填充了 spark 1.6 HiveContext。
有没有人看到这个问题?是否需要设置一个配置值才能让 spark 2.0 使用镶木地板格式的日期字段?
hadoop - YARN 不会抢占 spark 2.0 任务
我有一个由 YARN 管理的集群。我在和中启用了公平调度(详见下文)。yarn-site.xml
fair-scheduler.xml
根据Cloudera 关于公平调度的博客文章,我希望如果我将一些任务安排到q1
队列中(动态创建,使用默认值,例如weigth=1
),然后将一些其他任务安排到test_queue
(weight=2
),来自的任务q1
将被抢占(1 秒后)平衡test_queue
的公平份额,但它不会发生。
而是q1
使用 70% 的集群资源(公平份额为 33%)并test_queue
获得 5% 的资源公平份额为 67%。
我错过了什么吗?
以下是我的 YARN 配置:
和
我从 spark 示例提交 Pi 计算作业:
scala - 如何从下载 Spark 页面的源代码构建 Spark?
我尝试使用 Ubuntu 16.04 在 Ubuntu VM 上安装和构建 Spark 2.0.0,如下所示:
安装 Java
/li>安装 Scala
转到他们网站上的下载选项卡:scala-lang.org/download/all.html
我使用了 Scala 2.11.8。
修改
.bashrc
文件并包含 scala 的路径:然后输入:
/li>安装 git
/li>下载并构建火花
转至:http ://spark.apache.org/downloads.html
下载 Spark 2.0.0(从源代码构建 - 用于独立模式)。
现在输入:
完成安装后,我收到消息:
[成功] 总时间:1940秒,完成...
其次是日期和时间...
运行 Spark 外壳
/li>
就在那时,所有的地狱都崩溃了,我开始得到错误。我进入程序集文件夹以查找名为 target 的文件夹。但是那里没有这样的文件夹。汇编中唯一可见的内容是:pom.xml、README 和 src。
我在网上查了很长时间,但我一直无法找到一个可以帮助解决错误的具体解决方案。有人可以就如何解决这个问题提供明确的分步说明吗?!?现在快把我逼疯了……(TT)
错误截图:
java - spark2中的排队流
在 spark 1.6.1 中感谢这种方法 如何在 JAVA 中将 RDD 转换为 DStream?我能够从这样的文本文件创建排队流:
像这样我得到了流,但每批只有一个文件。文件包含 JSON 数据。有没有办法在 spark2 中使用 SparkSession 和 Datasets 而不使用镶木地板文件来制作排队流(类似于上面的方法)?
sc()
是java spark上下文jsc()
是java流式上下文