0

我正在尝试根据 Huggingface提供的说明此处加载“wiki40b”数据集。因为文件可能很大,所以我试图只加载一小部分数据。在下面,我尝试加载丹麦语子集:

from datasets import load_dataset
dataset = load_dataset('wiki40b', 'da')

当我运行它时,我得到以下信息:

MissingBeamOptions:尝试使用 Apache Beam 生成数据集,但load_dataset在构建器参数中或构建器参数中未提供 Beam Runner 或 PipelineOptions()。对于大型数据集,它必须在 Dataflow、Spark 等大型数据处理工具上运行。有关 Apache Beam 运行器的更多信息,请访问https://beam.apache.org/documentation/runners/capability-matrix/ 如果你真的想要要在本地运行它,因为您觉得 Dataset 足够小,您可以使用称为的本地光束DirectRunner运行器(您可能会用完内存)。使用示例: load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

鉴于丹麦数据集很小,我希望在本地加载数据 - 因此我用 DirectRunner 重新运行了脚本......

然而,这会导致以下结果:

AttributeError: 'NoneType' 对象没有属性 'projectNumber' dataset = load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

我对此相当缺乏经验,我不确定下一步该转向哪里。

4

0 回答 0