23

I'm aware of some of the test data generators out there, but most seem to just fill name and address style databases [feel free to correct me].

We have a large integrated and normalised application - e.g. invoices have part numbers linked to stocking tables, customer numbers linked to customer tables, change logs linked to audit information, etc which are obviously difficult to fill randomly. Currently we obfuscate real life data to get test data (but not very well).

What tools\methods do you use to create large volumes of data to test with?

4

6 回答 6

8

Where I work we use RedGate Data Generator to generate test data.

Since we work in the banking domain. When we have to work with nominative data (Credit card numbers, personnal ID, phone numbers) we developed an application that can mask these database fields so we can work with them as real data.

I can say with Redgate you can get close to what your real data can look like on a production server since you can customize every field of every table in your BD.

于 2008-08-19T14:54:23.703 回答
3

您可以使用 VSTS Database Edition(使用最新的 2008 Power 工具)生成数据计划。

它包括一个数据生成向导,它允许通过指向现有数据库来自动生成数据,这样您就可以获得真实但包含完全不同数据的东西

于 2008-08-19T19:13:41.793 回答
3

我推出了自己的数据生成器,可以生成符合正则表达式的随机数据。基本思想是两次使用验证规则。首先,您使用它们来生成有效的随机数据,然后使用它们来验证生产中的新输入。我已经声明了该实用程序的重写,因为它似乎是一个不错的学习项目。它可以在googlecode 上找到。

于 2008-10-25T06:16:28.343 回答
2

我刚刚完成了一个创建 3,500,000 多个健康保险理赔线的项目。由于 HIPPA 和 PHI 的限制,即使使用经过清理的真实数据也是 PITA。为此,我使用了一个名为 Datatect 的工具(http://www.datatect.com/)。

我喜欢这个工具的一些事情:

  1. 使用 ODBC,因此您可以将数据生成到任何 ODBC 数据源中。我已经将它用于 Oracle、SQL 和 MS Access 数据库、平面文件和 Excel 电子表格。
  2. 可通过 VBScript 扩展。您可以在数据生成工作流程的各个部分编写挂钩以扩展该工具的功能。我使用此功能“同步”数据库中的相关列,并控制值的频率分布以与现实世界观察到的频率保持一致。
  3. 有参考意义。填充外键列时,从父表中提取有效键。
于 2008-10-01T14:26:45.253 回答
1

Red Gate 产品很好……但并不完美。

我发现当我编写自己的工具来生成数据时,我做得更好。当我想生成说客户时,我会使用它...但是如果您想模拟客户可能参与的随机性(例如创建订单),这并不是很好...有些带有一个项目,有些带有多个项目。

本土工具将提供我认为最“真实”的数据。

于 2008-08-19T17:06:30.943 回答
0

Joel also mentioned RedGate in podcast #11

于 2008-08-19T15:03:26.620 回答