问题标签 [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 由于 InvalidClassException,Spark Kafka Streaming 作业失败
我正在使用 Kafka 客户端 0.8 在 Spark 2、CDH 5.9 中运行流式传输作业。简单的目标是将信息保存在 Impala 中,逐条记录。
我无法摆脱这个错误,因为我不知道它来自哪里:
Direct Kafka Stream 是由
并由以下人员处理:
cassandra-2.0 - Cassandra select query multiple params
Using casssandra 2.28, java-connector3, sparks2.0.
我正在尝试使用多个选择参数编写一个简单的查询 - 无法获得正确的语法。 单参数工作
我该如何做多个参数,尝试了多种方式都失败了:
尝试构建语句,给出错误 - 不喜欢“ eq ”:
看起来像一个基本的 101 查询,但根本找不到任何合适的示例代码。
unit-testing - 火花单元测试
我的整个 build.sbt 是:
我有一个简单的测试。显然,这只是一个起点,我想测试更多:
我运行sbt clean test
并失败:
对于我的开发环境,我使用的是 spark-2.0.2-bin-hadoop2.7.tar.gz
我必须以任何方式配置此环境吗?显然 HiveConf 是一个传递的 Spark 依赖
apache-spark-2.0 - 阿帕奇火花 | java.lang.AssertionError:断言失败
我正在使用 Apache Spark 2.0.2 并在 Spark Streaming 模块中使用笛卡尔积时遇到以下问题。
我正在使用压缩编解码器作为 snappy,但在使用默认编解码器(LZ4)时面临同样的问题,也使用 kryo 进行序列化。
我还在执行程序部分看到了充足的内存。此外,在运行后续批次时会发生此异常。第一批运行良好。
请在下面找到堆栈跟踪:-
scala - Spark 2.0 ALS Recommendation 如何向用户推荐
我已按照链接 http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html中给出的指南进行操作
但这已经过时了,因为它使用 spark Mlib RDD 方法。新 Spark 2.0 具有 DataFrame 方法。现在我的问题是我有更新的代码
现在问题来了,在旧代码中,获得的模型是 MatrixFactorizationModel,现在它有自己的模型(ALSModel)
在 MatrixFactorizationModel 你可以直接做
这将给出用户喜欢它们的概率最高的产品列表。
但是现在没有 .predict 方法。任何想法如何在给定用户 ID 的情况下推荐产品列表
pyspark-sql - createOrReplaceTempView 不适用于 pyspark2.0.0 中的空数据框
我正在尝试在 pyspark 数据框(2.0.0)上定义一个 sql 视图,并出现“找不到表或视图”之类的错误。我在做什么: 1. 创建一个空数据框 2. 将来自不同位置的数据加载到临时数据框 3. 将临时数据框附加到主数据框(空的) 4. 在数据框上定义一个 sql 视图(这是之前为空)。
apache-spark - Spark Streaming 的动态分配
我有一个 Spark Streaming 作业在我们的集群上与其他作业(Spark 核心作业)一起运行。我想对这些作业使用动态资源分配,包括 Spark Streaming。根据下面的 JIRA 问题,Spark Streaming(在 1.6.1 版本中)不支持动态分配。但在 2.0.0 中已修复
根据这个问题的PDF,它说应该有一个名为
spark.streaming.dynamicAllocation.enabled=true
但我在文档中没有看到这个配置的配置字段。
任何人都可以请确认,
- 我不能在 1.6.1 版本中为 Spark Streaming 启用动态资源分配。
- 它在 Spark 2.0.0 中可用吗?如果是,应该设置什么配置(
spark.streaming.dynamicAllocation.enabled=true
或spark.dynamicAllocation.enabled=true
)
apache-spark - 如何将 DataFrame 持久化到 Hive 表?
我在 Cloudera QuickStart VM 上使用 CentOS。我在另一个问题How to save DataFrame directly to Hive? .
构建.sbt
我想使用 DataFrame 作为 Hive 表,如下所示:
我注意到我收到了错误:
根暂存目录:/tmp/hive 应该是可写的。当前权限为:rwx------
我关注了其他问题并chmod 777
为/tmp/hive
HDFS 设置。
我突然想到 spark 使用本地文件系统 /tmp/hive。
我为本地文件系统做了一个 chmod。
现在我收到错误
org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:file:/user/hive/warehouse/productstore 不是目录或无法创建目录)
我想在 HDFS 配置单元仓库中存储一个 DataFrame。
apache-spark - python - 如何将密集向量的RDD转换为pyspark中的DataFrame?
我有一个DenseVector
RDD
这样的
我想将其转换为Dataframe
. 我试过这样
它给出了这样的错误
旧解决方案
编辑 1 - 代码可重现
apache-spark - spark Dataframe 中的 reducebykey 和 aggregatebykey
我正在使用 spark 2.0 从 parquet 文件中读取数据。
为了获得总余额值,这是在数据帧上使用操作 first() 获得它的最佳方法吗?
在 spark 2.0 中使用 groupby key 是否可以,它是否具有与 rdd 上的 groupbykey 相同的性能问题,是否需要通过网络对整个数据进行洗牌,然后执行聚合,或者聚合在本地执行,如早期版本的 reducebykey火花
谢谢