问题标签 [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 结构化流式作业不使用所有工作人员
我有一个 Spark 2.0.2 结构化流作业连接到 Apache Kafka 数据流作为源。这项工作从 Kafka 中获取 Twitter 数据 (JSON),并使用 CoreNLP 对数据进行注释,例如情绪、词性标记等。它与local[*]
master 配合得很好。但是,当我设置一个独立的 Spark 集群时,只有一个工作人员习惯于处理数据。我有两个具有相同能力的工人。
提交我缺少的工作时是否需要设置一些东西。我试过--num-executors
在我的spark-submit
命令中设置,但我没有运气。
提前感谢您指向正确方向的指针。
java-8 - Spark Cassandra NoClassDefFoundError guava/cache/CacheLoader
在 CP 中运行 Cassandra 2.2.8、Win7、JDK8、Spark2、HAve thse:Cassandra core 3.12、spark-cassandra-2.11、Spark-cassandra-java-2.11、Spark2.11、spark-network-common_2.11、Guava- 16.0.jar、sacala2.11.jar 等尝试运行基本示例 -编译正常,但是当我尝试运行时 - 在第一行本身出现错误:
SparkConf conf = new SparkConf();
java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader
缺少spark-network-common应该会导致此错误 - 但我确实有。有冲突的罐子吗?谢谢
apache-spark - 读取 CSV 时如何指定 Hadoop 配置
我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时,如何textinputformat.record.delimiter
为类指定 Hadoop 配置项?TextInputFormat
在 Java 中我可以编写代码:spark.read().csv(<path>);
但是,似乎没有办法提供特定于读取的 Hadoop 配置。
可以使用spark.sparkContext().hadoopConfiguration()
全局设置项目。
谢谢,
java - 用于 Cassandra 的 Spark2 会话,sql 查询
在 Spark-2.0 中,创建 Spark 会话的最佳方式是什么。因为在 Spark-2.0 和 Cassandra 中,API 都进行了重新设计,基本上弃用了 SqlContext(以及 CassandraSqlContext)。因此,为了执行 SQL,我创建了一个 Cassandra Session (com.datastax.driver.core.Session) and use execute( " ")
。或者我必须创建一个SparkSession (org.apache.spark.sql.SparkSession) and execute sql(String sqlText)
方法。
我不知道两者的 SQL 限制 - 有人可以解释一下。
此外,如果我必须创建 SparkSession - 我该怎么做 - 找不到任何合适的示例。随着 API 的重新设计,旧的示例不起作用。我正在通过这个代码示例——DataFrames——不清楚这里使用的是什么 sql 上下文(这是正确的方法。)(由于某种原因,不推荐使用的 API 甚至没有编译——需要检查我的 eclipse 设置)
谢谢
java - Spark2 Java 数据集 Sql
尝试在 Spark2 中运行 JavaSparkSQLExample。使用 spark-core_2.11-2.0.2 和 spark-sql_2.11-2.0.2。有一个错误:The method createGlobalTempView(String) is undefined for the type Dataset<Row>.
实际上最新的 API 文档没有定义这个方法。编程指南也有这个。任何人都对此有所了解。
此外,我们如何建立会话 - 因为你不能'运行:.config("spark.some.config.option", "some-value")
.
amazon-web-services - 在没有 spark UI 的情况下在 AWS EMR 中监控 spark 集群
我在 AWS EMR 上运行一个 spark 集群。如何在不使用 spark UI 的情况下获取在 AWS EMR 上运行的作业和执行程序的所有详细信息。我将使用它进行监控和优化。
apache-spark - Spark 中转换和动作的行为是什么?
我们正在执行一些测试来评估使用 Spark SQL 在 Spark 中的转换和操作的行为。在我们的测试中,首先我们设想一个简单的数据流,其中包含 2 个转换和 1 个操作:
第一个数据流的执行时间为 10 秒。接下来,我们向数据流添加了另一个操作:
分析数据流的第二个版本,由于所有转换都是惰性的,并且每个操作都重新执行(根据文档),因此在执行第二个计数时,它应该需要执行之前的两个转换(LOAD 和 SELECT ALL)。因此,我们预计在执行数据流的第二个版本时,时间约为 20 秒。但是,执行时间为 11 秒。显然,第一次计数所需的转换结果被 Spark 缓存用于第二次计数。
请问各位大佬知道怎么回事吗?
dataframe - 如何一次将不同位置的多个文件加载到pyspark数据帧中
有没有一种方法可以一次将多个文件加载到 pyspark 数据框(2.0.0)中。这些文件存在于不同的目录中。或者我可以这样说,我有一个文件存储在 S3 中,分区为天序列数字(20161109),我想加载特定日期的数据(不是文件夹内的所有文件)。一个一个地加载并做 unionAll 效率不高(我相信)。有没有更好的办法?
java - spark2 数据帧中的 reduceByKeyAndWindow
在 Spark 1.6 中StreamingContext
我可以使用函数reduceByKeyAndWindow
现在我试图用 spark 2.0.2 和 Dataframes 重现这个逻辑。我能够重现丢失的功能 reduceByKey 但没有窗口
我能够用groupBy
当我使用 groupBy 时,我只得到了 15 列中的两列,所以我试图通过 join 将它们取回,但后来我得到了 excpetion:join between two streaming DataFrames/Datasets is not supported;
我有什么办法可以重现reduceByKeyAndWindow
spark 2 中的逻辑吗?
json - Livy Server:以 JSON 格式返回数据帧?
我正在使用 HTTP POST 调用在 Livy Server 中执行一条语句,localhost:8998/sessions/0/statements
正文如下
我想要以下格式的答案
但我得到的是
这是数据框的toString()
版本。
有没有办法使用 Livy 服务器将数据帧作为 JSON 返回?
编辑
发现了一个解决问题的 JIRA 问题:https ://issues.cloudera.org/browse/LIVY-72
通过评论可以说 Livy 不支持也不会支持这样的功能?