“apache-spark-2.0”的相关标签问题

0 投票

1 回答

363 浏览

apache-spark - 结构化流式作业不使用所有工作人员

我有一个 Spark 2.0.2 结构化流作业连接到 Apache Kafka 数据流作为源。这项工作从 Kafka 中获取 Twitter 数据 (JSON)，并使用 CoreNLP 对数据进行注释，例如情绪、词性标记等。它与local[*]master 配合得很好。但是，当我设置一个独立的 Spark 集群时，只有一个工作人员习惯于处理数据。我有两个具有相同能力的工人。

提交我缺少的工作时是否需要设置一些东西。我试过--num-executors在我的spark-submit命令中设置，但我没有运气。

提前感谢您指向正确方向的指针。

2016-12-05T16:44:09.743

0 投票

2 回答

1048 浏览

java-8 - Spark Cassandra NoClassDefFoundError guava/cache/CacheLoader

在 CP 中运行 Cassandra 2.2.8、Win7、JDK8、Spark2、HAve thse：Cassandra core 3.12、spark-cassandra-2.11、Spark-cassandra-java-2.11、Spark2.11、spark-network-common_2.11、Guava- 16.0.jar、sacala2.11.jar 等尝试运行基本示例 -编译正常，但是当我尝试运行时 - 在第一行本身出现错误： SparkConf conf = new SparkConf(); java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader

缺少spark-network-common应该会导致此错误 - 但我确实有。有冲突的罐子吗？谢谢

java-8 spark-cassandra-connector cassandra-2.1 apache-spark-2.0

2016-12-05T21:47:56.537

0 投票

2 回答

582 浏览

apache-spark - 读取 CSV 时如何指定 Hadoop 配置

我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时，如何textinputformat.record.delimiter为类指定 Hadoop 配置项？TextInputFormat

在 Java 中我可以编写代码：spark.read().csv(<path>); 但是，似乎没有办法提供特定于读取的 Hadoop 配置。

可以使用spark.sparkContext().hadoopConfiguration()全局设置项目。

谢谢，

apache-spark apache-spark-sql apache-spark-2.0

2016-12-07T03:18:06.003

0 投票

1 回答

5906 浏览

java - 用于 Cassandra 的 Spark2 会话，sql 查询

在 Spark-2.0 中，创建 Spark 会话的最佳方式是什么。因为在 Spark-2.0 和 Cassandra 中，API 都进行了重新设计，基本上弃用了 SqlContext（以及 CassandraSqlContext）。因此，为了执行 SQL，我创建了一个 Cassandra Session (com.datastax.driver.core.Session) and use execute( " ")。或者我必须创建一个SparkSession (org.apache.spark.sql.SparkSession) and execute sql(String sqlText)方法。

我不知道两者的 SQL 限制 - 有人可以解释一下。

此外，如果我必须创建 SparkSession - 我该怎么做 - 找不到任何合适的示例。随着 API 的重新设计，旧的示例不起作用。我正在通过这个代码示例——DataFrames——不清楚这里使用的是什么 sql 上下文（这是正确的方法。）（由于某种原因，不推荐使用的 API 甚至没有编译——需要检查我的 eclipse 设置）

谢谢

java apache-spark apache-spark-sql spark-cassandra-connector apache-spark-2.0

2016-12-07T17:40:48.803

0 投票

1 回答

146 浏览

java - Spark2 Java 数据集 Sql

尝试在 Spark2 中运行 JavaSparkSQLExample。使用 spark-core_2.11-2.0.2 和 spark-sql_2.11-2.0.2。有一个错误：The method createGlobalTempView(String) is undefined for the type Dataset<Row>.

实际上最新的 API 文档没有定义这个方法。编程指南也有这个。任何人都对此有所了解。

此外，我们如何建立会话 - 因为你不能'运行：.config("spark.some.config.option", "some-value").

java apache-spark-sql spark-dataframe apache-spark-2.0

2016-12-07T20:22:52.730

0 投票

2 回答

530 浏览

amazon-web-services - 在没有 spark UI 的情况下在 AWS EMR 中监控 spark 集群

我在 AWS EMR 上运行一个 spark 集群。如何在不使用 spark UI 的情况下获取在 AWS EMR 上运行的作业和执行程序的所有详细信息。我将使用它进行监控和优化。

amazon-web-services pyspark emr apache-spark-2.0

2016-12-08T07:32:58.490

0 投票

2 回答

569 浏览

apache-spark - Spark 中转换和动作的行为是什么？

我们正在执行一些测试来评估使用 Spark SQL 在 Spark 中的转换和操作的行为。在我们的测试中，首先我们设想一个简单的数据流，其中包含 2 个转换和 1 个操作：

第一个数据流的执行时间为 10 秒。接下来，我们向数据流添加了另一个操作：

分析数据流的第二个版本，由于所有转换都是惰性的，并且每个操作都重新执行（根据文档），因此在执行第二个计数时，它应该需要执行之前的两个转换（LOAD 和 SELECT ALL）。因此，我们预计在执行数据流的第二个版本时，时间约为 20 秒。但是，执行时间为 11 秒。显然，第一次计数所需的转换结果被 Spark 缓存用于第二次计数。

请问各位大佬知道怎么回事吗？

apache-spark apache-spark-sql apache-spark-2.0

2016-12-09T11:27:08.927

0 投票

1 回答

824 浏览

dataframe - 如何一次将不同位置的多个文件加载到pyspark数据帧中

有没有一种方法可以一次将多个文件加载到 pyspark 数据框（2.0.0）中。这些文件存在于不同的目录中。或者我可以这样说，我有一个文件存储在 S3 中，分区为天序列数字（20161109），我想加载特定日期的数据（不是文件夹内的所有文件）。一个一个地加载并做 unionAll 效率不高（我相信）。有没有更好的办法？

dataframe pyspark apache-spark-2.0

2016-12-12T13:13:37.410

0 投票

0 回答

203 浏览

java - spark2 数据帧中的 reduceByKeyAndWindow

在 Spark 1.6 中StreamingContext我可以使用函数reduceByKeyAndWindow

现在我试图用 spark 2.0.2 和 Dataframes 重现这个逻辑。我能够重现丢失的功能 reduceByKey 但没有窗口

我能够用groupBy

当我使用 groupBy 时，我只得到了 15 列中的两列，所以我试图通过 join 将它们取回，但后来我得到了 excpetion：join between two streaming DataFrames/Datasets is not supported;

我有什么办法可以重现reduceByKeyAndWindowspark 2 中的逻辑吗？

java scala apache-spark spark-dataframe apache-spark-2.0

2016-12-12T14:08:43.883

0 投票

3 回答

3083 浏览

json - Livy Server：以 JSON 格式返回数据帧？

我正在使用 HTTP POST 调用在 Livy Server 中执行一条语句，localhost:8998/sessions/0/statements正文如下

我想要以下格式的答案

但我得到的是

这是数据框的toString()版本。

有没有办法使用 Livy 服务器将数据帧作为 JSON 返回？

编辑

发现了一个解决问题的 JIRA 问题：https ://issues.cloudera.org/browse/LIVY-72

通过评论可以说 Livy 不支持也不会支持这样的功能？

json apache-spark cloudera apache-spark-2.0 livy

2016-12-13T17:23:54.350

问题标签 [apache-spark-2.0]

编辑

Reference