文件名不以结尾,.gz我无法将它们改回来,因为它们与其他程序共享。
file1.log.gz.processed只是一个csv文件。但我如何阅读它pyspark,最好是pyspark.sql?
我试图指定格式和压缩,但找不到正确的键/值。例如,
sqlContext.load(fn, format='gz')
没用。虽然 Spark 可以处理gz文件,但它似乎是根据文件名确定编解码器。例如,
sc.textFile(fn)
如果文件以.gz但不是我的情况结束,则可以使用。
如何指示 Spark 使用正确的编解码器?谢谢!