我正在将逗号分隔的文件导入到 dataprep 中,以加载到 BigQuery 中,不幸的是,其中一列中有一个逗号,在文件被拆分为列之前我似乎无法将其删除。我已将原始格式的数据导入 dataprep,但似乎仍然无法正常工作。
1599 次
1 回答
0
一种可能性是在将 csv 文件加载到 Dataprep 之前执行此操作。如果您在 Google 表格中有这样的文件:
并将其保存为 csv 文件包含逗号的字段用双引号括起来:
a,b,c,d
12,quick,test,"field with, comma"
23,just,testing,"includes, comma"
4,dummy,data,"this, field"
这将在 Dataprep 中很好地阅读。您可以使用自己喜欢的语言以编程方式转义这些字段。如果您仍想在 Dataprep 中这样做并使用这样的 csv:
a,b,c,d
12,quick,test,field with, comma
23,just,testing,includes, comma
4,dummy,data,this, field
您可以导入数据集,取消选择 Autodetect Structure 选项(原始格式,就像您已经做过的那样)。当您将其转换为新流程时,您将在右侧看到导入步骤。在这种情况下,单击第二步的铅笔图标进行编辑:
并选择要将函数应用于哪些列:
在这种情况下,我将匹配数减少到 3,但您可以根据用例使用忽略大小写。输出是:
于 2018-03-20T12:15:43.880 回答