Skip to content

Cambricon MLU370 一个任务多副本情况下存在调度问题 #949

Open
@DanceKiddle

Description

@DanceKiddle

背景:

一个k8s node节点上8张物理MLU370卡,都开启了smlu;cambricon-device-plugin:v2.0.17 ; Hami版本为 v2.5.0; k8s 1.23版本。

在部署了一个 deployment 设置 replicas = 4 后,发现会 4个 pod running 成功,但会同时存在两个 pod 报 UnexpectedAdmissionError ,总计 6 个pod。

Image

调度报错具体事件:

Image

问题: 预期应该只创建 4个 pod,多余的两个 pod 不应该被创建。

Metadata

Metadata

Assignees

No one assigned

    Labels

    kind/bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions