问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
176 浏览

kedro - 在 Kedro 中,如何为 parameters.yml 指定层?

目前,我正在使用 kedro 和 kedro-viz。

我可以从 catalog.yml 中指定一层数据集。

但我不知道如何使用 parameters.yml

如果它不能在parameters.yml 中而是在run.py 中完成,我想查看示例代码。

0 投票
1 回答
57 浏览

kedro - 如何通过 Kedro 连接 Impala?

如何通过 Kedro 连接 Impala?与它有任何整合吗?我正在使用Window机器。我尝试了 Impyla 和 ibis,但两者都不起作用。

0 投票
1 回答
199 浏览

kedro - 在 Kedro 中,如何在管道中获取中间数据集?

我正在研究我的管道并在 jupyter notebook 上手动测试它。

这是我的情况。

我想从中吸取教训example_trainexample_valid所以我这样写。

context.pipeline.to_outputs("example_train", "example_valid")

并将另一个管道传递给 SequencialRunner,我得到了它们。

管道示例

我也想要total_steps,所以我像这样改变了这条线。

context.pipeline.to_outputs("example_train", "example_valid", "total_steps")

但是,结果不包含exampe_train. 是的,我知道example_train不是这个修改管道的输出,所以它不包含。

在此处输入图像描述

有没有办法像这种情况一样获取中间数据集?

0 投票
3 回答
756 浏览

kedro - kedro nodes input accept kwargs?

https://kedro.readthedocs.io/en/stable/kedro.pipeline.node.Node.html#kedro.pipeline.node.Node.inputs

I have a function

def function(**kwargs): return

How can I pass variable to it as a node inputs?

0 投票
2 回答
86 浏览

python - Kedro 可以创建圆形图层吗

我正在尝试将图层属性添加到我的目录中。我有一个常见的模式是获取一些数据(raw),清理它,然后输出一个部件列表(pri)。然后,我需要那些部分的元数据,我从中获取部分列表pri并传递给获取数据的函数 ( raw)。管道本身不是圆形的,但是当我创建圆形图层时,kedro 似乎不喜欢。

对于这个用例,我是否缺少一个常见的模式?

是否可以允许图层为圆形?

例子

我试图在下面整理一个通用示例。

0 投票
1 回答
277 浏览

tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用?

我正在tf.data.Dataset准备一个用于训练 tf.kears 模型的流数据集。使用kedro,有没有办法创建一个节点并返回创建的节点tf.data.Dataset以在下一个训练节点中使用它?

MemoryDataset可能不起作用,因为tf.data.Dataset不能腌制(deepcopy不可能),另请参见这个 SO question。根据问题#91,深度复制MemoryDataset是为了避免其他节点修改数据。有人可以详细说明为什么/如何发生这种并发修改吗?

文档中,似乎有一个copy_mode = "assign". 如果数据不可提取,是否可以使用此选项?

另一个解决方案(在 issue 91 中也提到过)是只使用一个函数在训练节点内部生成流tf.data.Dataset,而不需要前面的数据集生成节点。但是,我不确定这种方法的缺点是什么(如果有的话)。如果有人可以举一些例子,那就太好了。

此外,我想避免存储流数据集的完整输出,例如使用tfrecordstf.data.experimental.save因为这些选项会使用大量磁盘存储。

有没有办法只传递创建的tf.data.Dataset对象以将其用于训练节点?

0 投票
2 回答
397 浏览

python - 作为 Kedro 节点的 Jupyter 笔记本

如何将 Jupyter Notebook 用作 Kedro 管道中的节点?这与将 Jupyter Notebooks 中的函数转换为 Kedro 节点不同。我想要做的是使用完整的笔记本作为节点。

0 投票
1 回答
284 浏览

python - Kedro - 无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext

我是 kedro 的新手,使用命令从 Kedro 打开 Jupyter Lab/Notebook 时遇到问题kedro jupyter lab。错误是:

类型错误:无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext 使用 --verbose 运行以查看完整异常错误:无法使用环境加载 Kedro 上下文None。确保它存在于项目配置中。错误:无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext

我一直按照kedro官方文档网站中的步骤进行操作,但没有成功。出于复制目的,以下是我执行的步骤:

  1. 创建新的 conda 环境:conda create --name myenv
  2. 激活环境:source activate myenv
  3. 使用 pyspark starter 创建新的 kedro 项目:kedro new --starter=pyspark
  4. 转到新创建的项目文件夹:cd my_project
  5. 安装要求:kedro install
  6. 打开 jupyter 实验室:kedro jupyter lab --no-browser

第 6 步哪里给了我错误。作为旁注,我必须两次执行第 5 点,因为第一次给了我不兼容的错误,但后来我再次执行它并且它有效。

如果我没有提供太多细节,请提前抱歉,因为这是第一次在 stackoverflow 中询问。请随时询问您需要的任何详细信息,我很乐意为您解答。

谢谢你。

0 投票
1 回答
352 浏览

docker - 在 Docker 中运行 Kedro 管道时找不到 PartitionedDataSet

我在读取和处理的 S3 存储桶中有多个文本文件。因此,我在 Kedro 数据目录中定义了 PartitionedDataSet,如下所示:

此外,我实施了这个解决方案,通过环境变量(包括 AWS 密钥)从凭证文件中获取所有秘密。

当我使用一切在本地运行时kedro run一切正常,但是当我构建 Docker 映像(使用kedro-docker)并在 Docker 环境中运行管道时,kedro docker run使用选项并通过提供所有环境变量,--docker-args我得到以下错误:

注意:管道在 Docker 环境中工作得很好,如果我将文件移动到某个本地目录,定义 PartitionedDataSet 并构建 Docker 映像并通过提供环境变量--docker-args

0 投票
1 回答
589 浏览

kedro - 如何创建目录条目列表并将它们作为输入传递到 Kedro Pipeline

我正在尝试从我创建的目录文件中获取数据集列表,并将它们作为单个节点的输入传递以组合它们并最终使用 kedro-airflow 插件在气流上运行管道

这适用于 kedro run 的 cli,但似乎在气流中失败,我不知道为什么:

我在气流上遇到的错误看起来像这样: Broken dag:给定的配置路径不存在或不是有效目录:'conf/base'

这肯定是 Kedro 配置加载程序错误,但我似乎无法弄清楚为什么在通过气流运行管道时会发生唯一错误。从我一直在阅读的内容来看,不建议在代码 API 中混合。这是传入数据集列表的正确方法吗?

编辑

我的目录基本上是一个 Sql 查询数据集的列表: