0

背景:在我的项目中,我使用 GIT 和DVC来跟踪版本:

  • GIT - 仅适用于源代码
  • DVC - 用于数据集、模型对象和输出

我在不同的分支中测试不同的方法,即:

  • 随机森林
  • 神经网络_1
  • ...

通常作为输出,我将预测保存在具有标准化名称的 csv 文件中(即:pred_test.csv)。因此,在不同的分支中,我有不同的 pred_test.csv 文件。该文件的结构非常简单,它包含两列:

  • ID
  • 预言

问题:将这些预测文件合并为单个大文件的最佳方法是什么?

我想获得一个具有以下结构的文件:

  • ID
  • 预测随机森林
  • Prediction_neural_network_1
  • 预言_...

我的主要问题是如何访问具有不同分支中的预测的文件?

4

1 回答 1

2

我会尝试dvc get在这种情况下使用:

dvc get -o random_forest_pred.csv --rev random_forest . pred_test.csv

它应该pred_test.csvrandom_forest分支带来。

请注意.之前pred_test.csv,它是必需的,这意味着“使用当前 repo”,因为dvc get也可以在其他 repo 上使用(例如 GitHub URL)

然后我认为您可以使用一些 CLI 或编写脚本来加入文件:

https://unix.stackexchange.com/questions/293775/merging-contents-of-multiple-csv-files-into-single-csv-file

于 2022-02-17T15:51:31.963 回答