我正在用 ruby 开发一个解析器,它解析一些不统一的文本数据。谁能告诉我,我在哪里可以获得大量的明文数据?
7260 次
2 回答
6
在这里,您将获得许多列表:
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
我最喜欢的是:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/
于 2011-04-26T03:54:16.280 回答
5
你可以刮掉维基百科(或者只是通过它运行一堆lynx -dump
)。这也将为您提供大量非英语文本。Project Gutenberg将是另一个很好的大量纯文本来源。
于 2011-04-26T04:01:35.730 回答