问题标签 [kedro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kedro - 在 Kedro 中,如何为 parameters.yml 指定层?
目前,我正在使用 kedro 和 kedro-viz。
我可以从 catalog.yml 中指定一层数据集。
但我不知道如何使用 parameters.yml
如果它不能在parameters.yml 中而是在run.py 中完成,我想查看示例代码。
kedro - 如何通过 Kedro 连接 Impala?
如何通过 Kedro 连接 Impala?与它有任何整合吗?我正在使用Window机器。我尝试了 Impyla 和 ibis,但两者都不起作用。
kedro - 在 Kedro 中,如何在管道中获取中间数据集?
我正在研究我的管道并在 jupyter notebook 上手动测试它。
这是我的情况。
我想从中吸取教训example_train
,example_valid
所以我这样写。
context.pipeline.to_outputs("example_train", "example_valid")
并将另一个管道传递给 SequencialRunner,我得到了它们。
我也想要total_steps
,所以我像这样改变了这条线。
context.pipeline.to_outputs("example_train", "example_valid", "total_steps")
但是,结果不包含exampe_train
. 是的,我知道example_train
不是这个修改管道的输出,所以它不包含。
有没有办法像这种情况一样获取中间数据集?
kedro - kedro nodes input accept kwargs?
https://kedro.readthedocs.io/en/stable/kedro.pipeline.node.Node.html#kedro.pipeline.node.Node.inputs
I have a function
def function(**kwargs): return
How can I pass variable to it as a node inputs?
python - Kedro 可以创建圆形图层吗
我正在尝试将图层属性添加到我的目录中。我有一个常见的模式是获取一些数据(raw
),清理它,然后输出一个部件列表(pri
)。然后,我需要那些部分的元数据,我从中获取部分列表pri
并传递给获取数据的函数 ( raw
)。管道本身不是圆形的,但是当我创建圆形图层时,kedro 似乎不喜欢。
对于这个用例,我是否缺少一个常见的模式?
是否可以允许图层为圆形?
例子
我试图在下面整理一个通用示例。
tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用?
我正在tf.data.Dataset
准备一个用于训练 tf.kears 模型的流数据集。使用kedro,有没有办法创建一个节点并返回创建的节点tf.data.Dataset
以在下一个训练节点中使用它?
这MemoryDataset
可能不起作用,因为tf.data.Dataset
不能腌制(deepcopy
不可能),另请参见这个 SO question。根据问题#91,深度复制MemoryDataset
是为了避免其他节点修改数据。有人可以详细说明为什么/如何发生这种并发修改吗?
从文档中,似乎有一个copy_mode = "assign"
. 如果数据不可提取,是否可以使用此选项?
另一个解决方案(在 issue 91 中也提到过)是只使用一个函数在训练节点内部生成流tf.data.Dataset
,而不需要前面的数据集生成节点。但是,我不确定这种方法的缺点是什么(如果有的话)。如果有人可以举一些例子,那就太好了。
此外,我想避免存储流数据集的完整输出,例如使用tfrecords
或tf.data.experimental.save
因为这些选项会使用大量磁盘存储。
有没有办法只传递创建的tf.data.Dataset
对象以将其用于训练节点?
python - 作为 Kedro 节点的 Jupyter 笔记本
如何将 Jupyter Notebook 用作 Kedro 管道中的节点?这与将 Jupyter Notebooks 中的函数转换为 Kedro 节点不同。我想要做的是使用完整的笔记本作为节点。
python - Kedro - 无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext
我是 kedro 的新手,使用命令从 Kedro 打开 Jupyter Lab/Notebook 时遇到问题kedro jupyter lab
。错误是:
类型错误:无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext 使用 --verbose 运行以查看完整异常错误:无法使用环境加载 Kedro 上下文None
。确保它存在于项目配置中。错误:无法使用抽象方法 project_name、project_version 实例化抽象类 ProjectContext
我一直按照kedro官方文档网站中的步骤进行操作,但没有成功。出于复制目的,以下是我执行的步骤:
- 创建新的 conda 环境:
conda create --name myenv
- 激活环境:
source activate myenv
- 使用 pyspark starter 创建新的 kedro 项目:
kedro new --starter=pyspark
- 转到新创建的项目文件夹:
cd my_project
- 安装要求:
kedro install
- 打开 jupyter 实验室:
kedro jupyter lab --no-browser
第 6 步哪里给了我错误。作为旁注,我必须两次执行第 5 点,因为第一次给了我不兼容的错误,但后来我再次执行它并且它有效。
如果我没有提供太多细节,请提前抱歉,因为这是第一次在 stackoverflow 中询问。请随时询问您需要的任何详细信息,我很乐意为您解答。
谢谢你。
docker - 在 Docker 中运行 Kedro 管道时找不到 PartitionedDataSet
我在读取和处理的 S3 存储桶中有多个文本文件。因此,我在 Kedro 数据目录中定义了 PartitionedDataSet,如下所示:
此外,我实施了这个解决方案,通过环境变量(包括 AWS 密钥)从凭证文件中获取所有秘密。
当我使用一切在本地运行时kedro run
一切正常,但是当我构建 Docker 映像(使用kedro-docker)并在 Docker 环境中运行管道时,kedro docker run
使用选项并通过提供所有环境变量,--docker-args
我得到以下错误:
注意:管道在 Docker 环境中工作得很好,如果我将文件移动到某个本地目录,定义 PartitionedDataSet 并构建 Docker 映像并通过提供环境变量--docker-args
kedro - 如何创建目录条目列表并将它们作为输入传递到 Kedro Pipeline
我正在尝试从我创建的目录文件中获取数据集列表,并将它们作为单个节点的输入传递以组合它们并最终使用 kedro-airflow 插件在气流上运行管道
这适用于 kedro run 的 cli,但似乎在气流中失败,我不知道为什么:
我在气流上遇到的错误看起来像这样: Broken dag:给定的配置路径不存在或不是有效目录:'conf/base'
这肯定是 Kedro 配置加载程序错误,但我似乎无法弄清楚为什么在通过气流运行管道时会发生唯一错误。从我一直在阅读的内容来看,不建议在代码 API 中混合。这是传入数据集列表的正确方法吗?
编辑
我的目录基本上是一个 Sql 查询数据集的列表: