“spark-csv”的相关标签问题

0 投票

2 回答

1073 浏览

caching - 每次操作都会从外部源读取数据帧吗？

在 spark shell 上，我使用以下代码从 csv 文件中读取

假设这显示 10 行。如果我通过编辑在 csv 中添加新行，df.show()再次调用会显示新行吗？如果是这样，这是否意味着数据框在每个操作上都从外部源（在本例中为 csv 文件）读取？

请注意，我没有缓存数据帧，也没有使用 spark 会话重新创建数据帧

2016-12-05T11:31:32.207

0 投票

1 回答

518 浏览

scala - 当我尝试使用自定义架构和 BigDecimal 类型创建镶木地板文件时出现 NumberFormatException

我需要使用自定义的 json 模式文件从 csv 文件创建一个镶木地板文件，如下所示：

请看一下名为 weight 的字段。

这是输入 csv 文件的外观：

这就是我使用其 DataFrame 加载模式 json 文件的方式：

}

当执行到最后一行 .parquet(pathParquet) 时，会发生异常：

看起来当 spark-csv 尝试将“权重”字段呈现为小数（25,5）时，库崩溃了。任何人都可以帮助我吗？

谢谢你。

scala parquet spark-csv

2016-12-05T12:01:25.577

0 投票

1 回答

1627 浏览

scala - 如何在 ftp url 中转义字符

我正在使用 spark 使用以下代码从 ftp 服务器获取文件

但我面临转义字符的问题，如“^”、“！”、“@”或“#”等。我尝试使用 HEX ASCII 值作为特殊字符，并尝试通过包围用户名/密码来转义它们例如在转义引号中

但这也不起作用。谁能向我解释如何在我的 ftp url 中转义这些字符？

PS，当密码不包含任何特殊字符时，此代码确实有效。

scala apache-spark ftp spark-csv

2016-12-14T18:57:55.937

0 投票

1 回答

487 浏览

scala - 使用 spark csv 包读取非常大的文件时出错

我们正在尝试使用 spark-csv 和 univocity 1.5.0 解析器读取一个 3 gb 文件，该文件在其一列中有多个换行符，但该文件在换行符的基础上被拆分为某行中的多个列。这种情况发生在大文件的情况下。

我们正在使用 spark 1.6.1 和 scala 2.10

以下代码我用于读取文件：

java.lang.exception：2015 年 1 月 20 日失败。

示例文件： “A AAAAAAAA”、“AA999”、“AA999”、“AA999”、“9999-99-99-99.99.99.999999”、“AAAAAA99”、“Aaaaa Aaaaaaaaa

99/99/9999 - AAA 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 AAA aaaaaa - aaaaaaa aaaaaaaaa

99/99/9999 AAA 啊啊啊。啊啊啊啊啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊。

99/99/9999 - 啊啊啊啊啊啊啊。

99/99/9999 - AAA

99/99/9999 AAA aaaaaa aaaaa aa Aaa 9999 aaaa aaaaaaaaa aaaaaaaaaaa - aa A&Aa。啊啊啊啊啊啊啊啊啊。

99/99/9999 AAA 啊啊啊啊啊——啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 - 啊啊啊啊啊啊啊啊。啊啊啊啊啊啊啊 99/99/9999 - 99/99/9999

99/99/9999 - 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊！

99/99/9999 啊啊啊啊啊啊啊啊啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊。

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 AAA 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 AAA 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 AAA aaaaaa aaaaaaa aaaaa aaaaaa aa Aaa 9. A&Aa aaaaaaa aa aaaaa aaaaa aaaaa aaaaaaaaa，aaaaaaaaaa aaaaa aaaaaaaaa aaa aaaaa aaaaa aaaaaaaaa aaaaaaa。

99/99/9999 AAA - 啊啊啊啊啊啊啊啊啊啊。

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 AAA 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊 Aaa aaaaaaaaaaaa aaaa aa 99/99/9999 aaa aaa aaaaaaaaaaa aaaaaaaaaaaaa aaaaa 99/99/9999 aaaa aaa aaaaaaa aa aaaaaaaaa aaaaaaaa, aaaaaa AAA aa aaaaa aaaaaaaaa aa aa 99. Aa aaa aaaaaaa aa aaaaaaaaa aaaaaaaa, aaa aaaaaaaaaa aaaaaaaa aaaaa aaaa aaaaaaaaaaa aaaa aaaa啊啊啊啊啊啊啊啊啊啊啊。

99/99/9999 AAA aaaa aaaaa - AAA aaaaaaa aaaa A&Aa aaaaaaaaaaa aa aaa aaaaaaaaaaaaa aaaaa aaaaa aaaaa aaaaaaa aa Aaaaa 9999。

啊啊啊啊啊啊啊啊啊啊啊啊啊啊9999啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 - a/a aaaa aa aaaaaaaaaaaa

99/99/9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

99/99/9999 - 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊……

99/99/9999 - 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊！啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊。

99/99/9999 - 啊啊啊啊啊啊啊啊啊啊啊啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊！啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊9999 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊！啊啊啊 9999，啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊9999啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊。啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊 "

scala apache-spark spark-dataframe spark-csv univocity

2016-12-17T06:19:50.540

0 投票

1 回答

526 浏览

python-3.x - 无法在 pyspark 应用程序中获取 broadcast_1 的 broadcast_1_piece0

我正在使用 Python 3.4 在 Apache Spark 2.00 上构建一个应用程序，并尝试从 HDFS (Hadoop 2.7) 加载一些 CSV 文件并从这些 CSV 数据中处理一些 KPI。

我曾经在我的应用程序中随机遇到“无法获得broadcast_1_piece0 of broadcast_1”错误并且它停止了。

在搜索了很多 google 和 stakeoverflow 之后，我发现只有如何通过从 /tmp 目录中手动删除 spark 应用程序创建的文件来摆脱它。它通常发生在应用程序长时间运行并且没有正确响应但相关文件位于 /tmp 目录中时。

虽然我没有为广播声明任何变量，但可能是 spark 自己做的。

在我的情况下，当它试图从 hdfs 加载 csv 时会发生错误。

我已经为我的应用程序获取了低级别日志，并附上以获得支持和建议/最佳实践，以便我可以解决问题。

样品（详情附在此处）：

回溯（最后一次调用）：文件“/home/hadoop/development/kpiengine.py”，第 258 行，在 df_ho_raw = sqlContext.read.format('com.databricks.spark.csv').options(header=' true').load(HDFS_BASE_URL + HDFS_WORK_DIR + 文件名) 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第 147 行，在加载文件“/usr/local/ spark/python/lib/py4j-0.10.1-src.zip/py4j/java_gateway.py”，第 933 行，通话中 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第 63 行，在 deco 文件“/usr/local/spark/python/lib/py4j-0.10.1- src.zip/py4j/protocol.py”，第 312 行，在 get_return_value py4j.protocol.Py4JJavaError：调用 o44.load 时出错。：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 0.0 中的任务 0 失败 4 次，最近一次失败：阶段 0.0 中丢失任务 0.3（TID 3，172.26.7.192）：java.io.IOException： org.apache.spark.SparkException: 无法获取 broadcast_1 的 broadcast_1_piece0

python-3.x apache-spark pyspark hadoop2 spark-csv

2016-12-20T07:08:10.377

0 投票

2 回答

3115 浏览

apache-spark-sql - 无法从本地文件路径读取文本文件 - Spark CSV 阅读器

我们正在使用 Spark CSV 阅读器读取要转换为 DataFrame 的 csv 文件，并且我们正在运行该作业yarn-client，它在本地模式下工作正常。

我们正在提交 spark 作业edge node。

但是当我们将文件放在本地文件路径而不是 HDFS 中时，我们会收到文件未找到异常。

代码：

我们也尝试过file:///，但仍然遇到同样的错误。

错误日志：

apache-spark-sql spark-csv databricks

2016-12-24T08:54:45.487

0 投票

1 回答

112 浏览

apache-spark - spark如何读取文本格式文件

我在 S3 中有一个文本格式（.gz）的数据集，我正在使用 spark.read.csv 将文件读入 spark。

这是大约 100GB 的数据，但它包含 150 列。我只使用 5 列（所以我减少了数据的广度）并且我只选择了 5 列。

对于这种情况，spark 是扫描完整的 100GB 数据还是仅智能过滤这 5 列而不扫描所有列（如列格式）？

对此的任何帮助将不胜感激。

apache-spark pyspark spark-dataframe spark-csv

2017-01-05T09:44:35.160

0 投票

1 回答

14652 浏览

java - Parquet 模式和 Spark

我正在尝试将 CSV 文件转换为镶木地板，并且我正在使用 Spark 来完成此操作。

现在的问题是我没有定义模式并且列看起来像这样（在 spark 中使用 printSchema() 显示的输出）

csv 在第一行有名称，但我猜它们被忽略了，问题是只有几列是字符串，我也有整数和日期。

我只使用 Spark，基本上没有使用 avro 或其他任何东西（从未使用过 avro）。

我有哪些选择来定义架构以及如何定义？如果我需要以另一种方式编写镶木地板文件，那么只要它是一个快速简单的解决方案就没有问题。

（我使用 spark 独立测试/不知道 scala）

java scala apache-spark parquet spark-csv

2017-01-19T11:18:01.140

0 投票

1 回答

8942 浏览

apache-spark - 以编程方式为 Apache Spark 中的数据框生成模式和数据

我想动态生成一个包含报告标题记录的数据框，因此从以下字符串的值创建一个数据框：

但是现在我想对数据做同样的事情（实际上是相同的数据，即元数据）。

我创建了一个 RDD ：

然后我打算使用 createDataFrame 来创建它：

但是失败了，因为createDataframe期待 a RDD[Row]，但是我的 RDD 是一个字符串数组 - 我找不到将我的 RDD 转换为 Row RDD 然后动态映射字段的方法。我见过的示例假设您事先知道列数，但是我希望最终能够在不更改代码的情况下更改列 - 例如，将列放在文件中。

基于第一个答案的代码摘录：

执行此结果：

apache-spark dataframe spark-dataframe rdd spark-csv

2017-01-19T15:15:45.810

0 投票

2 回答

428 浏览

apache-spark - Amazon EMR 集群上的 spark-csv 错误

我正在尝试通过简单的 Spark 步骤执行来运行 EMR 集群，但遇到了无法解决的错误。该程序在我在 Eclipse 中本地运行时有效，但在 EMR 集群上运行时无效。该程序只是尝试将 S3 上的 CSV 文件转换为 Parquet 格式。

在 EMR 中运行时，出现以下错误：

原因：com.univocity.parsers.common.TextParsingException：解析输入的长度 (1000001) 超过了解析器设置中定义的最大字符数 (1000000)。 已解析内容中已识别的行分隔符。这可能是错误的原因。解析器设置中的行分隔符设置为“\n”。解析内容：

我没有任何超过 1000000 限制的字段。我尝试从 s3、s3n 和 s3a 位置读取数据。

apache-spark amazon-emr spark-csv

2017-01-24T19:41:49.460

问题标签 [spark-csv]

Reference