AttributeError: partially initialized module 'deepspeed' has no attribute 'init_inference'

**To Reproduce**
inference script:
`import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import deepspeed

model_name = "/home/pzl/models/Qwen2.5-3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

ds_engine = deepspeed.init_inference(model,
                                     mp_size=1,
                                     dtype=torch.half,
                                     replace_with_kernel_inject=True)

input_text = "DeepSpeed is?"
inputs = tokenizer(input_text, return_tensors="pt")

with torch.no_grad():
    outputs = ds_engine.module.generate(**inputs, max_length=10)

output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(output_text)
`
**Expected behavior**
get the correct result

**ds_report output**

![Image](https://github.com/user-attachments/assets/79d0c384-e586-4b11-84e8-4568f6df2307)

**Screenshots**

![Image](https://github.com/user-attachments/assets/60df4e74-911c-4a9c-b674-46fd4bbc2d97)

**System info (please complete the following information):**
 - OS: Ubuntu 22.04
 - GPU count and types 0
 - Python 3.10




Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AttributeError: partially initialized module 'deepspeed' has no attribute 'init_inference' #7121

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

AttributeError: partially initialized module 'deepspeed' has no attribute 'init_inference' #7121

Description

Activity

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions