当我们的数据源中缺少某些类型为 Option[Seq[String]] 的列时,我在编码数据时遇到了一些问题。理想情况下,我希望用None
.
设想:
我们有一些正在读取的镶木地板文件,其中包含column1但没有column2。
我们将这些 parquet 文件中的数据加载到 aDataset
中,并将其转换为MyType
.
case class MyType(column1: Option[String], column2: Option[Seq[String]])
sqlContext.read.parquet("dataSource.parquet").as[MyType]
org.apache.spark.sql.AnalysisException:无法解析“
column2
”给定的输入列:[column1];
有没有办法使用 column2 数据创建数据集None
?