2

假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据以便在 ML 中进一步使用。另一方面,我们得到了 DVC,它可以处理 csv 文件。

我想使用日期时间参数组织存储的 SELECT 到该数据库的计划运行(并且还支持手动运行),以制作新的 csv 文件,并将它们发送到 DVC。

在我发现的 DVC 文档和示例中,csv 文件已经存在。

我可以通过 DVC 本身与数据库进行交互吗,或者我出了点问题,并且有一个单独的 csv 转储工具?

4

1 回答 1

4

这个过程有3个步骤:

  1. 创建 CSV 转储。许多数据库都有这些工具,但 DVC 本身并不支持这些工具。
  2. 版本化 CSV 转储并将其移动到某个存储。DVC 完成这项工作。
  3. 安排定期转储。您可以在 GitHub Actions / GitLab CI/CD中使用 Cron(简单)、AirFlow(不容易)或定期作业。DVC 团队的另一个项目可以帮助 CI/CD 选项:https ://cml.dev 。
于 2021-04-22T08:56:43.750 回答