问题标签 [apache-spark-1.4]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

31 问题

0 投票

1 回答

3463 浏览

apache-spark - 为什么启用动态分配时YARN无法获取任何执行器？

在不启用动态分配功能的情况下使用 YARN 时作业可以顺利运行。我正在使用 Spark 1.4.0。

这就是我想要做的：

这是我在日志中得到的：

这是集群 UI 的屏幕截图：

谁能给我一个解决方案？即使是领先也将不胜感激。

2015-09-08T08:49:46.113

0 投票

1 回答

939 浏览

amazon-s3 - 从 EMR Spark 到 S3 的 saveAsParquetFile 缓慢或不完整

我有一段代码可以创建 aDataFrame并将其保存到 S3。下面创建DataFrame1000 行和 100 列，由填充math.Random。我在一个有 4 个r3.8xlarge工作节点的集群上运行它，并配置了大量的内存。我尝试了最大数量的执行器，每个节点一个执行器。

我的问题是我可以创建DataFrame比保存到 S3 更大的内存。

比如可以构造和查询10亿行1000列，但是我用这种方式写S3的时候1亿行100列就失败了。我没有从 Spark 上下文中得到很好的消息，但是由于太多的任务失败了，所以作业会失败。

是否有一些配置可以更有效地保存文件？我应该以不同的方式配置 SparksaveAsParquetFile吗？

这是来自执行程序的堆栈跟踪：

amazon-s3 apache-spark amazon-emr parquet apache-spark-1.4

2015-09-09T07:11:30.587

0 投票

0 回答

2340 浏览

python - 带有交叉验证的 PySpark 管道中的自定义转换器

我写了一个自定义转换器，就像这里描述的那样。

在使用我的转换器创建管道作为第一步时，我能够训练一个（逻辑回归）模型进行分类。

但是，当我想像这样使用此管道执行交叉验证时：

我收到以下错误：

和 Python 堆栈跟踪：

我通过预先转换我的数据框来解决这个错误，即将我的变压器移出管道。但我真的很想将所有步骤都保留在处理管道中，这样我就可以在对看不见的数据进行分类时使用它，而无需任何前面的步骤，并且还能够调整特征提取参数。所以任何帮助表示赞赏。

python apache-spark pyspark apache-spark-1.4 apache-spark-ml

2015-09-22T10:44:13.183

0 投票

1 回答

864 浏览

scala - 从数据框列中选择值

我想计算同一列中两个值之间的差异。现在我只想要最后一个值和第一个值之间的差异，但是使用 last(column) 返回一个空结果。last() 有没有返回值的原因？有没有办法将我想要的值的位置作为变量传递；例如：第 10 次和第 1 次，还是第 7 次和第 6 次？

Current code 使用 Spark 1.4.0 和 Scala 2.11.6

myDF =一些具有 n 行 x m 列的数据框

def difference(col: Column): Column = { last(col)-first(col) }

def diffCalcs(dataFrame: DataFrame): DataFrame = { import hiveContext.implicits._ dataFrame.agg( difference($"Column1"), difference($"Column2"), difference($"Column3"), difference($"Column4") ) }

当我运行diffCalcs(myDF)它时，它会返回一个null结果。如果我修改difference为 only first(col)，它会返回四列的第一个值。但是，如果我将其更改为last(col)，它会返回null。如果我调用myDF.show()，我可以看到所有列Double的每一行都有值，任何列中都没有null值。

scala apache-spark apache-spark-sql apache-spark-1.4

2015-09-28T16:11:16.643

0 投票

1 回答

931 浏览

scala - Spark + Kafka 集成 - 将 Kafka 分区映射到 RDD 分区

我有几个与 Spark Streaming 相关的基本问题

[请让我知道这些问题是否已在其他帖子中得到回答 - 我找不到任何]：

(i) 在 Spark Streaming 中，RDD 中的分区数是否默认等于 worker 数？

(ii) 在 Spark-Kafka 集成的直接方法中，创建的 RDD 分区数等于 Kafka 分区数。假设每个 RDD 分区在每个批次中都i映射到同一个工作节点是否正确？即，分区到工作节点的映射是否仅基于分区的索引？例如，分区 2 是否可以在一批中分配给工人 1，而在另一批中分配给工人 3？jDStream

提前致谢

scala apache-spark apache-kafka spark-streaming apache-spark-1.4

2015-09-30T18:37:22.160

0 投票

3 回答

8063 浏览

apache-spark - 无法启动火花壳

我正在使用 Spark 1.4.1。我可以毫无问题地使用 spark-submit。但是当我跑~/spark/bin/spark-shell

我收到以下错误，我已配置SPARK_HOME和JAVA_HOME. 但是，Spark 1.2 没问题

apache-spark apache-spark-1.4

2015-10-08T02:45:56.237

0 投票

1 回答

776 浏览

apache-spark - Spark 工作节点已移除但未消失

我正在使用 Spark 独立与一个主人和一个工人只是为了测试。起初我使用一个工人箱，但现在我决定使用不同的工人箱。为此，我停止了正在运行的 Master，我更改了 conf/slave 文件中的 IP，然后再次运行它。然而，老工人仍在装载。当我看到大师的8080。现在，我将放置在 conf/slaves 文件中的新文件和从 conf/slaves 中删除的旧文件都视为奴隶。

我不知道该怎么做并且已经搜索过但没有结果。

apache-spark apache-spark-1.4

2015-10-13T16:35:40.597

0 投票

1 回答

1876 浏览

apache-spark - 火花：解码器异常：java.lang.OutOfMemoryError

我在具有 3 个工作节点的集群上运行 Spark 流应用程序。由于以下异常，有时作业会失败：

我以客户端模式提交作业，没有任何特殊参数。master和workers都有15g的内存。Spark 版本是 1.4.0。

这可以通过调整配置来解决吗？

apache-spark spark-streaming apache-spark-1.4

2015-10-14T00:52:52.747

0 投票

1 回答

552 浏览

json - 与 Spark 数据帧不一致的 JSON 模式猜测

尝试使用 Spark 1.4.1 数据帧读取 JSON 文件并在其中导航。似乎猜测的架构不正确。

JSON文件是：

火花代码是：

结果是：

很明显 TUPLE_CRA 是一个数组。我不明白为什么它没有被猜到。在我看来，推断的模式应该是：

有人有解释吗？如果 JSON 模式更复杂，有没有办法轻松地告诉 Spark 实际模式是什么？

json scala schema spark-dataframe apache-spark-1.4

2015-11-26T13:54:10.967

0 投票

1 回答

913 浏览

python-2.7 - 工作节点和主节点中的 Python 版本不同

在 CentOS 6.7 上运行 spark 1.4.1。使用 anaconda 安装 python 2.7 和 python 3.5.1。

确保 PYSPARK_PYTHON env var 设置为 python3.5 但是当我打开 pyspark shell 并执行简单的 rdd 转换时，它会出错并出现以下异常：

例外：worker 中的 Python 2.7 版本与驱动程序 3.5 中的版本不同，PySpark 无法使用不同的次要版本运行

只是想知道改变路径的其他地方是什么。

python-2.7 apache-spark apache-spark-1.4

2016-05-05T00:58:28.980

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-1.4]

Reference