问题标签 [dvc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dvc - 无法从 SSH DVC Remote 中提取现有文件
运行后dvc push data.csv
(到 ssh-remote),当我尝试从同一个遥控器对另一台机器上的同一个文件进行 dvc 拉取时,它不会被拉取。以下是日志和错误:
但是,该文件存在于遥控器上:
我仔细检查了我是从同一个遥控器拉出并推到同一个遥控器。我正在使用 DVC v1.11.11。
你能给我一些关于什么可能是错的提示吗?
干杯, Hlib
data-management - 从其他项目更新 dvc 注册表中的数据
我有几个项目正在使用和更新相同的数据源。我最近了解了dvc 的数据注册表,这听起来像是跨这些不同项目(例如刮板、计算管道)对数据进行版本控制的好方法。
我已将所有相关数据放入data-registry
其中,然后将相关文件导入到刮板项目中:
whereraw
是存储抓取数据的目录。这似乎工作正常,但是当我去构建一个 dvc 管道,将数据输出到一个已经被 dvc 跟踪的文件中时,我得到了一个错误:
有人可以帮我理解这里发生了什么吗?使用数据注册表跨项目共享和更新数据的最佳方式是什么?
理想情况下,我希望使用来自刮板项目的新数据更新数据注册表,然后允许其他相关项目在准备好时更新其数据。
google-client - 使用 Google Drive Remote 进行数据版本控制:“googleapiclient.errors.UnknownApiNameOrVersion: name: drive version: v2”
我正在尝试使用 Google Drive 存储设置 DVC,如此处所示。到目前为止,我在将数据推送到远程方面一直没有成功。我尝试了使用和不使用 Google App 设置。
运行 a 后dvc push -v
,显示以下异常:
DVC 是通过pip install dvc[gdrive]
. 相关的pip freeze
包是:
非常感谢任何帮助。
google-sheets - 来自谷歌电子表格导出的 dvc import-url 问题
我正在将基于 Makefile 的数据工作流转换为 dvc。我有一个 Google 电子表格,我在数据工作流程中使用它可以轻松更新临时数据库中的一些内容。目前这适用于这样的事情:
当然,我可以使用 直接将相同的步骤合并到我的 dvc 管道中dvc run
,但我的理解是类似的东西dvc import-url
会更合适,但我收到了一个错误:
我的猜测是,这是因为来自 Google 电子表格导出 url 的响应数据没有与之关联的文件名后缀。有没有办法解决这个问题?有没有更好的方法将数据从谷歌电子表格中提取到 dvc 工作流程中?
python - 如何从 Oracle 访问 DVC 控制的文件?
我一直将我的大文件存储在 Oracle 中的 CLOB 中,但我正在考虑将我的大文件存储在共享驱动器中,然后在 Oracle 中有一列包含指向这些文件的指针。这将使用 DVC。
当我这样做时,
(a) Oracle 路径中的路径是否指向我的共享驱动器中的文件,例如实际文件本身?
(b) 还是 Oracle 中的路径以某种方式指向 DVC 元文件?
任何见解都会帮助我!
谢谢 :) 贾斯汀
编辑以提供更多清晰度:
我在这里检查(https://dvc.org/doc/api-reference/open),它有所帮助,但我还没有完全到那里......
我想使用 python(我已连接到 Oracle 数据库)从远程 dvc 存储库中提取文件。所以,如果我们能做到这一点,我想我会很好。但是,我很困惑。如果我在下面指定'remote',那么当远程文件全部编码时,我如何命名文件(例如,'activity.log')?
(注意:出于测试目的,我的“远程”DVC 目录只是我 MacBook 上的另一个文件夹。)
我觉得我错过了一个关于获取远程文件的关键概念......
我希望这会增加更多的清晰度。任何帮助确定远程文件访问的帮助表示赞赏!:)
贾斯汀
编辑以获取有关“rev”参数的见解:
在我提出问题之前,一些背景/我的设置:(a)我的 MacBook 上有一个名为“basics”的存储库。(b) 我将包含 501 个文件(称为“surface_files”)的目录复制到“basics”中,随后将其推送到名为“gss”的远程存储文件夹中。推送后,'gss' 包含 220 个哈希目录。
我用来到达这里的步骤如下:
接下来,我运行以下 Python 代码来获取我的一个名为 的表面文件,surface_100141.dat
并用于dvc.api.get_url()
获取相应的远程存储文件名。然后我将这个远程存储文件复制到我的桌面,使用文件的原始名称,即surface_100141.dat
.
完成这一切的代码如下,但首先,我的问题 --- 当我运行如下所示的代码时,没有问题;但是当我取消注释'rev ='行时,它失败了。我不确定为什么会这样。我使用git log
并cat .git/refs/heads/master
确保我得到了正确的哈希值。为什么会失败?那是我的问题。
(完全公开,我的 git 知识还不是太强。我到了那里,但它仍在进行中!:))
git - “dvc add -external S3://mybucket/data.csv”即使在提供正确的远程缓存配置后也因访问错误而失败
我正在使用 dvc 并连接到远程 S3 进行数据跟踪,并在同一个远程 S3 中设置远程 dvc 缓存。以下是配置文件,
我可以使用 s3remote 从远程存储库推送和拉取本地存储库。
但是当我尝试通过配置缓存(s3cache)来添加外部数据时,出现错误。
s3cache、s3remote 都具有相同的凭据,那么为什么在 dvc 中添加外部数据时会失败?
git - DVC 文件不完整
我在一个团队中使用 dvc 和 git 来版本控制数据文件。我们使用的是 dvc 1.3.1,带有一个 S3 存储桶遥控器。在执行dvc fetch
或dvc pull
在同事的分支上时出现此错误:
当我检查 dvc 文件中是否存在我没有问题的缓存文件时,我看到:
但有问题的文件只有这个:
在所有情况下,文件都使用命令添加到 dvc dvc add %dirname%
。这是我第二次在同事的分支机构(2 个不同的人)上看到这个。
自发布以来,我意识到我的同事 dvc'd 了一个目录。我尝试先创建目录,然后调用dvc fetch
,但得到相同的错误。
export-to-csv - DVC - 进行预定的 csv 转储
假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据以便在 ML 中进一步使用。另一方面,我们得到了 DVC,它可以处理 csv 文件。
我想使用日期时间参数组织存储的 SELECT 到该数据库的计划运行(并且还支持手动运行),以制作新的 csv 文件,并将它们发送到 DVC。
在我发现的 DVC 文档和示例中,csv 文件已经存在。
我可以通过 DVC 本身与数据库进行交互吗,或者我出了点问题,并且有一个单独的 csv 转储工具?
python - 在 dvc 2.0 中使用其他配置中的参数
使用 dvc 版本 2.0.18 和 python 3.9.2 在配置dvc.yaml
. 但是,它并没有像我预期的那样工作。
MWE:Git 存储库 + dvc 初始化:
dvc.yaml:
preproc.yaml:
运行dvc repro
导致如下错误:
创建一个没有内容的虚拟 params.yaml 给出:
我错过了什么?模板功能完全可以做到这一点吗?
dvc - dvc push,更改远程存储上的文件名
我正在使用 DVC(数据版本控制)开发一个项目,当我在远程存储中推送文件时,文件的名称会更改。如何保存名称?