-
Notifications
You must be signed in to change notification settings - Fork 93
Open
Description
版本:
kuscia:0.13.0b0
描述:
在两台linux虚拟机上分别各部署了一套allinone的环境,其中一台(作为发起方)的io性能数据如下:

在画布页面提交一次PSI任务出现报错,创建容器失败:

查询后台日志,kuscia日志如下:

containerd日志如下:

个人分析:
-
当前环境磁盘IO性能较差
-
extract layer... 报错触发容器创建失败,当 containerd 在拉取/解压镜像层时遇到 context deadline exceeded 报错,说明解压或下载过程超时,导致容器创建流程异常终止。
-
失败后触发清理机制,containerd 检测到创建失败后,会尝试清理相关资源,包括临时的容器、网络、镜像层等。你日志中有 "apply failure, attempting cleanup" 这样的信息。
-
清理不彻底或延迟,由于 I/O 性能、bug、并发等原因,containerd 并未能及时/彻底地将失败任务的容器名及相关资源清理掉。
此时容器名依然被“保留”在 containerd 的管理范围内(例如元数据未及时删除)。 -
后续任务提交同名容器,新任务尝试创建同名容器时,containerd 检查到该名字仍被占用,导致 failed to reserve container name ... is reserved for ...。
问题:
该问题该如何解决及规避?个人估计这是一个bug,可能需要改代码修正此元数据一致性问题