48

我正在阅读 Pyspark 中的 csv 文件,如下所示:

df_raw=spark.read.option("header","true").csv(csv_path)

但是,数据文件中包含嵌入逗号的引用字段,不应将其视为逗号。我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题,但 Spark 可以吗?我使用的版本是 Spark 2.0.0。

这是一个在 Pandas 中工作但使用 Spark 失败的示例:

In [1]: import pandas as pd

In [2]: pdf = pd.read_csv('malformed_data.csv')

In [3]: sdf=spark.read.format("org.apache.spark.csv").csv('malformed_data.csv',header=True)

In [4]: pdf[['col12','col13','col14']]
Out[4]:
                    col12                                             col13  \
0  32 XIY "W"   JK, RE LK  SOMETHINGLIKEAPHENOMENON#YOUGOTSOUL~BRINGDANOISE
1                     NaN                     OUTKAST#THROOTS~WUTANG#RUNDMC

   col14
0   23.0
1    0.0

In [5]: sdf.select("col12","col13",'col14').show()
+------------------+--------------------+--------------------+
|             col12|               col13|               col14|
+------------------+--------------------+--------------------+
|"32 XIY ""W""   JK|              RE LK"|SOMETHINGLIKEAPHE...|
|              null|OUTKAST#THROOTS~W...|                 0.0|
+------------------+--------------------+--------------------+

文件内容:

    col1,col2,col3,col4,col5,col6,col7,col8,col9,col10,col11,col12,col13,col14,col15,col16,col17,col18,col19
80015360210876000,11.22,X,4076710258,,,sxsw,,"32 YIU ""A""",S5,,"32 XIY ""W""   JK, RE LK",SOMETHINGLIKEAPHENOMENON#YOUGOTSOUL~BRINGDANOISE,23.0,cyclingstats,2012-25-19,432,2023-05-17,CODERED
61670000229561918,137.12,U,8234971771,,,woodstock,,,T4,,,OUTKAST#THROOTS~WUTANG#RUNDMC,0.0,runstats,2013-21-22,1333,2019-11-23,CODEBLUE
4

4 回答 4

83

我注意到您有问题的行本身使用双引号进行转义:

“32 XIY”“W”“JK,RE LK”

应该是解释器

32 XIY "W" JK, RE LK

RFC-4180中所述,第 2 页 -

  1. 如果使用双引号将字段括起来,则出现在字段内的双引号必须通过在其前面加上另一个双引号来进行转义

例如,默认情况下 Excel 就是这样做的。

尽管在 Spark 中(从 Spark 2.1 开始),默认情况下转义是通过非 RFC 方式完成的,使用反斜杠 (\)。要解决此问题,您必须明确告诉 Spark 使用双引号作为转义字符:

.option("quote", "\"")
.option("escape", "\"")

这可以解释逗号字符在引用列中的解释不正确。

Spark csv 格式的选项在 Apache Spark 站点上没有很好地记录,但这里有一些旧文档,我仍然经常发现它们很有用:

https://github.com/databricks/spark-csv

2018 年 8 月更新:Spark 3.0 可能会将此行为更改为符合 RFC。有关详细信息,请参阅SPARK-22236

于 2017-07-17T07:45:01.460 回答
40

对于在 Scala 中执行此操作的任何人:Tagar 的回答几乎对我有用(谢谢!);我所要做的就是在设置选项参数时转义双引号:

.option("quote", "\"")
.option("escape", "\"")

我使用的是 Spark 2.3,所以我可以确认 Tagar 的解决方案在新版本下似乎仍然有效。

于 2018-03-19T02:07:05.873 回答
4

对于在使用 Tagar 的解决方案后仍然想知道他们的解析是否仍然无法正常工作的任何人。

Pyspark 3.1.2 .option("quote", "\"") 是默认设置,因此这不是必需的,但是在我的情况下,我有多行数据,因此 spark 无法\n在单个数据点和每一行的末尾自动检测,因此使用.option("multiline", True)解决了我的问题.option('escape', "\"")So通常最好默认使用多行选项

于 2021-09-10T01:38:24.277 回答
2

默认情况下,内部指定的Delimiter( comma)quotes将被忽略。Spark SQL 在 Spark 2.0 中确实有内置的 CSV 阅读器。

df = session.read
  .option("header", "true")
  .csv("csv/file/path")

更多关于 CSV 阅读器的信息在这里 -

于 2016-11-04T03:03:27.550 回答