7

我正在用 ruby​​ 开发一个解析器,它解析一些不统一的文本数据。谁能告诉我,我在哪里可以获得大量的明文数据?

4

2 回答 2

6

在这里,您将获得许多列表:

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

我最喜欢的是:

http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/

于 2011-04-26T03:54:16.280 回答
5

你可以刮掉维基百科(或者只是通过它运行一堆lynx -dump)。这也将为您提供大量非英语文本。Project Gutenberg将是另一个很好的大量纯文本来源。

于 2011-04-26T04:01:35.730 回答