2

我们想测试一些合作者开发的一些模糊聚类算法的性能。我们的兴趣在于包含大量数据的 2D 数据集,我们可以在其中对这些算法进行基准测试。你知道在哪里可以找到这样的数据集吗?

4

3 回答 3

2

一个优秀的数据集是本网站提供的数据集。StackExchange 提供了在其网站上找到的所有公开可用数据的匿名转储:https ://archive.org/details/stackexchange

您可以在此处阅读有关数据架构的信息:https ://meta.stackexchange.com/questions/2677/database-schema-documentation-for-the-public-data-dump-and-sede

我有一份一年前的数据副本,仅此站点 (StackOverflow.com) 就有超过 1600 万条记录,并且转储包含他们的所有站点。

于 2014-05-30T03:33:21.783 回答
0

您可以从http://www.mockaroo.com/生成数据集。这很好,你可以有很多选择。

于 2014-06-02T11:35:45.670 回答
0

网络上有许多包含科学数据的大型“开放数据”集合。容我们说,有些数据集的大小远远超过 TB。因此,根据您需要的大小,查看诸如Proteomecommons之类的基因组站点或斯坦福大学自然语言处理小组的数据集。

在像这样的地质学家的项目中可以找到较小的垃圾场。

于 2014-06-02T14:12:34.520 回答