问题标签 [apache-spark-2.0]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1351 浏览

apache-spark - 由于 InvalidClassException,Spark Kafka Streaming 作业失败

我正在使用 Kafka 客户端 0.8 在 Spark 2、CDH 5.9 中运行流式传输作业。简单的目标是将信息保存在 Impala 中,逐条记录。

我无法摆脱这个错误,因为我不知道它来自哪里:

Direct Kafka Stream 是由

并由以下人员处理:

0 投票
1 回答
672 浏览

cassandra-2.0 - Cassandra select query multiple params

Using casssandra 2.28, java-connector3, sparks2.0.

我正在尝试使用多个选择参数编写一个简单的查询 - 无法获得正确的语法。 单参数工作

我该如何做多个参数,尝试了多种方式都失败了:

尝试构建语句,给出错误 - 不喜欢“ eq ”:

看起来像一个基本的 101 查询,但根本找不到任何合适的示例代码。

0 投票
1 回答
674 浏览

unit-testing - 火花单元测试

我的整个 build.sbt 是:

我有一个简单的测试。显然,这只是一个起点,我想测试更多:

我运行sbt clean test并失败:

对于我的开发环境,我使用的是 spark-2.0.2-bin-hadoop2.7.ta​​r.gz

我必须以任何方式配置此环境吗?显然 HiveConf 是一个传递的 Spark 依赖

0 投票
0 回答
3134 浏览

apache-spark-2.0 - 阿帕奇火花 | java.lang.AssertionError:断言失败

我正在使用 Apache Spark 2.0.2 并在 Spark Streaming 模块中使用笛卡尔积时遇到以下问题。

我正在使用压缩编解码器作为 snappy,但在使用默认编解码器(LZ4)时面临同样的问题,也使用 kryo 进行序列化。

我还在执行程序部分看到了充足的内存。此外,在运行后续批次时会发生此异常。第一批运行良好。

请在下面找到堆栈跟踪:-

0 投票
3 回答
4768 浏览

scala - Spark 2.0 ALS Recommendation 如何向用户推荐

我已按照链接 http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html中给出的指南进行操作

但这已经过时了,因为它使用 spark Mlib RDD 方法。新 Spark 2.0 具有 DataFrame 方法。现在我的问题是我有更新的代码

现在问题来了,在旧代码中,获得的模型是 MatrixFactorizationModel,现在它有自己的模型(ALSModel)

在 MatrixFactorizationModel 你可以直接做

这将给出用户喜欢它们的概率最高的产品列表。

但是现在没有 .predict 方法。任何想法如何在给定用户 ID 的情况下推荐产品列表

0 投票
1 回答
1272 浏览

pyspark-sql - createOrReplaceTempView 不适用于 pyspark2.0.0 中的空数据框

我正在尝试在 pyspark 数据框(2.0.0)上定义一个 sql 视图,并出现“找不到表或视图”之类的错误。我在做什么: 1. 创建一个空数据框 2. 将来自不同位置的数据加载到临时数据框 3. 将临时数据框附加到主数据框(空的) 4. 在数据框上定义一个 sql 视图(这是之前为空)。

0 投票
1 回答
4258 浏览

apache-spark - Spark Streaming 的动态分配

我有一个 Spark Streaming 作业在我们的集群上与其他作业(Spark 核心作业)一起运行。我想对这些作业使用动态资源分配,包括 Spark Streaming。根据下面的 JIRA 问题,Spark Streaming(在 1.6.1 版本中)不支持动态分配。但在 2.0.0 中已修复

JIRA 链接

根据这个问题的PDF,它说应该有一个名为 spark.streaming.dynamicAllocation.enabled=true 但我在文档中没有看到这个配置的配置字段。

任何人都可以请确认,

  1. 我不能在 1.6.1 版本中为 Spark Streaming 启用动态资源分配。
  2. 它在 Spark 2.0.0 中可用吗?如果是,应该设置什么配置(spark.streaming.dynamicAllocation.enabled=truespark.dynamicAllocation.enabled=true
0 投票
1 回答
2665 浏览

apache-spark - 如何将 DataFrame 持久化到 Hive 表?

我在 Cloudera QuickStart VM 上使用 CentOS。我在另一个问题How to save DataFrame directly to Hive? .

构建.sbt

我想使用 DataFrame 作为 Hive 表,如下所示:

我注意到我收到了错误:

根暂存目录:/tmp/hive 应该是可写的。当前权限为:rwx------

我关注了其他问题并chmod 777/tmp/hiveHDFS 设置。

我突然想到 spark 使用本地文件系统 /tmp/hive。

我为本地文件系统做了一个 chmod。

现在我收到错误

org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:file:/user/hive/warehouse/productstore 不是目录或无法创建目录)

我想在 HDFS 配置单元仓库中存储一个 DataFrame。

0 投票
2 回答
8770 浏览

apache-spark - python - 如何将密集向量的RDD转换为pyspark中的DataFrame?

我有一个DenseVector RDD这样的

我想将其转换为Dataframe. 我试过这样

它给出了这样的错误

旧解决方案

编辑 1 - 代码可重现

0 投票
1 回答
3982 浏览

apache-spark - spark Dataframe 中的 reducebykey 和 aggregatebykey

我正在使用 spark 2.0 从 parquet 文件中读取数据。

为了获得总余额值,这是在数据帧上使用操作 first() 获得它的最佳方法吗?

在 spark 2.0 中使用 groupby key 是否可以,它是否具有与 rdd 上的 groupbykey 相同的性能问题,是否需要通过网络对整个数据进行洗牌,然后执行聚合,或者聚合在本地执行,如早期版本的 reducebykey火花

谢谢