以 XML 格式下载维基百科的转储文件很容易。然而,文章的内容是用维基文本编写的,它有一个模板系统。要从这些转储中提取干净的全文,有必要扩展这些模板。Wikipedia提供了一个 API来执行此操作,但它不适合扩展整个转储。可以找到几个脚本来处理 wikitext,例如这个用 python 编写的脚本,但它们似乎都已过时或根本不处理模板。解决此问题的另一种方法是在计算机上运行 Wikimedia 并使用 API:Expandtemplates,但这似乎是一个相当麻烦的解决方案。最后,HTML 转储也存在,但我更喜欢使用扩展的 wikitexts,因为它可以更轻松地处理 wikilinks、表格、部分等。
我的目标是提取干净的文本,同时保留维基链接并丢弃复杂的模板,例如信息框。你知道如何解决这个模板扩展问题吗?