mlops - Triton 推理服务器：显式模型控制

翻译自：https://stackoverflow.com/questions/69575308 2021-10-14T17:55:42.817

96 次

我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看，这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型，以防服务器在生产中出现故障，从而触发新实例的生成。

我能想到的唯一解决方案是让服务定期轮询服务器，不断检查我的实时模型是否真正活跃，如果没有，则加载它们。但这似乎是一个相当复杂的过程。

我想知道其他人是如何解决这个问题的。

提前致谢

0 回答 0