Skip to content

异常场景下kuscia创建容器失败 #878

@MiKKiYang

Description

@MiKKiYang

版本:
kuscia:0.13.0b0

描述:

在两台linux虚拟机上分别各部署了一套allinone的环境,其中一台(作为发起方)的io性能数据如下:

Image

在画布页面提交一次PSI任务出现报错,创建容器失败:

Image

查询后台日志,kuscia日志如下:

Image

containerd日志如下:

Image

个人分析:

  1. 当前环境磁盘IO性能较差

  2. extract layer... 报错触发容器创建失败,当 containerd 在拉取/解压镜像层时遇到 context deadline exceeded 报错,说明解压或下载过程超时,导致容器创建流程异常终止。

  3. 失败后触发清理机制,containerd 检测到创建失败后,会尝试清理相关资源,包括临时的容器、网络、镜像层等。你日志中有 "apply failure, attempting cleanup" 这样的信息。

  4. 清理不彻底或延迟,由于 I/O 性能、bug、并发等原因,containerd 并未能及时/彻底地将失败任务的容器名及相关资源清理掉。
    此时容器名依然被“保留”在 containerd 的管理范围内(例如元数据未及时删除)。

  5. 后续任务提交同名容器,新任务尝试创建同名容器时,containerd 检查到该名字仍被占用,导致 failed to reserve container name ... is reserved for ...。

问题:

该问题该如何解决及规避?个人估计这是一个bug,可能需要改代码修正此元数据一致性问题

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions