python - 加载 Huggingface 数据集

翻译自：https://stackoverflow.com/questions/70668577 2022-01-11T14:36:15.650

75 次

我正在尝试根据 Huggingface提供的说明在此处加载“wiki40b”数据集。因为文件可能很大，所以我试图只加载一小部分数据。在下面，我尝试加载丹麦语子集：

from datasets import load_dataset
dataset = load_dataset('wiki40b', 'da')

当我运行它时，我得到以下信息：

MissingBeamOptions：尝试使用 Apache Beam 生成数据集，但load_dataset在构建器参数中或构建器参数中未提供 Beam Runner 或 PipelineOptions()。对于大型数据集，它必须在 Dataflow、Spark 等大型数据处理工具上运行。有关 Apache Beam 运行器的更多信息，请访问https://beam.apache.org/documentation/runners/capability-matrix/ 如果你真的想要要在本地运行它，因为您觉得 Dataset 足够小，您可以使用称为的本地光束DirectRunner运行器（您可能会用完内存）。使用示例： load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

鉴于丹麦数据集很小，我希望在本地加载数据 - 因此我用 DirectRunner 重新运行了脚本......

然而，这会导致以下结果：

AttributeError: 'NoneType' 对象没有属性 'projectNumber' dataset = load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

我对此相当缺乏经验，我不确定下一步该转向哪里。

python - 加载 Huggingface 数据集

0 回答 0

Related

Reference