Skip to content

Commit e462d37

Browse files
authored
Merge pull request #139 from Zhuzhenghao/max
更新模型中心、智能问答的相关功能
2 parents 41081ec + b419747 commit e462d37

File tree

11 files changed

+174
-135
lines changed

11 files changed

+174
-135
lines changed

docs/zh/docs/dak/features.md

Lines changed: 24 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -7,20 +7,27 @@ hide:
77

88
智能问答的功能特性参见下表:
99

10-
| 一级功能 | 二级功能 | 描述 |
11-
| ------- | ------ | ---- |
12-
| 应用中心 | 模型服务集成 | 支持 GLM、Llama 等模型服务,实现在 RAG(检索增强生成)中的高效应用 |
13-
| | 多样化配置选项 | 提供 AI 配置、关联语料库、检索策略等多样化配置选项,优化 AI 回答质量 |
14-
| | 应用密钥支持 | 支持创建应用密钥,用于 OpenAPI 对话的安全访问 |
15-
| | 应用链接分享 | 支持通过链接分享应用,并提供 H5 页面支持,便于在移动端展示和使用 |
16-
| | 对话过程查看 | 应用支持查看对话过程,提升用户体验和问题排查效率 |
17-
| | 组合应用支持 | 支持通过组合应用进行意图识别,增强复杂场景的处理能力 |
18-
| | 语言翻译支持 | 支持用户输入的翻译,提高语料相似度匹配的准确性 |
19-
| | 多语言回答选择 | 支持用户选择 AI 回答的语言,满足多语言场景需求 |
20-
| 语料库管理 | 多种导入方式 | 支持标准导入、格式化导入、手动导入和图文导入,满足多样化的语料库管理需求 |
21-
| | 智能分片技术 | 支持按分割符或分片大小自动分片,并可通过插件实现自定义分片 |
22-
| | 数据安全与隔离 | 支持设置语料库的访问级别,确保数据安全与隔离 |
23-
| | 便捷的数据导出 | 支持 CSV 和 Excel 格式导出,方便后续数据处理和分析 |
24-
| 数据分析 | 关键指标分析 | 提供问答质量、次数、分片质量、命中率等关键指标分析,优化问答服务 |
25-
| | 用户反馈处理 | 收集并处理用户反馈,持续改进问答服务,提升用户满意度 |
26-
| | 反馈追踪与优化 | 追踪用户提交的反馈信息,确保问题得到及时解决,优化整体用户体验 |
10+
| 模块 | 功能 | 描述 |
11+
| ---------- | ------------------ | ---------------------------------------------------------------------------------- |
12+
| 对话功能 | 上下文感知智能问答 | 关联应用语料库,实现具备上下文感知的智能问答功能。 |
13+
| | 用户互动优化 | 支持用户对 AI 回答进行**评价、复制、重新生成、删除对话或提交反馈**,提升用户体验。 |
14+
| 应用中心 | 应用生命周期管理 | 提供从**创建、部署、监控到维护**的全生命周期管理。 |
15+
| | 环境隔离 | 支持工作空间的绑定或解绑,实现**环境隔离**,保障应用安全。 |
16+
| | 模型服务集成 | 集成 **GLM、Llama 等模型服务**,提升 RAG(检索增强生成)应用的效率。 |
17+
| | 多样化配置选项 | 提供 AI 配置、语料库关联、检索策略等选项,优化 AI 回答质量。 |
18+
| | 应用密钥支持 | 支持生成**应用密钥**,用于 OpenAPI 对话的安全访问。 |
19+
| | 应用链接分享 | 允许通过**链接分享应用**,并支持 H5 页面展示以便于移动端使用。 |
20+
| | 对话过程查看 | 支持查看完整的**对话过程**,提升用户体验和问题排查效率。 |
21+
| | 组合应用支持 | 支持**组合应用**进行意图识别,增强复杂场景处理能力。 |
22+
| | 语言翻译支持 | 支持用户输入内容的**翻译**,提高语料匹配的准确性。 |
23+
| | 多语言回答选择 | 允许用户选择 AI 回答的**语言**,满足多语言场景的需求。 |
24+
| | 全文阅读应用支持 | 新增全文阅读应用,支持展示**图片内容**|
25+
| 语料库管理 | 多种导入方式 | 支持**标准导入、格式化导入、手动导入、图文导入**等多种方式管理语料库。 |
26+
| | 智能分片 | 支持按分割符或大小**自动分片**,并可通过插件自定义分片逻辑。 |
27+
| | 数据安全与隔离 | 支持设置语料库的访问级别,确保**数据安全与隔离**|
28+
| | 文件上传预览 | 在文件上传时,新增**分片信息预览**功能。 |
29+
| | 便捷的数据导出 | 支持 **CSV 和 Excel** 格式的语料数据导出,方便后续分析与处理。 |
30+
| 数据分析 | 关键指标分析 | 提供**问答质量、次数、分片质量、命中率**等关键指标的分析,帮助优化问答服务。 |
31+
| | 用户反馈处理 | 收集并处理用户的**反馈信息**,持续改进问答服务,提升满意度。 |
32+
| | 反馈追踪与优化 | **追踪用户反馈**,确保问题及时解决,不断优化用户体验。 |
33+
| 应用中心 | 数学与化学公式支持 | 支持**数学公式和化学方程式**的显示,提升学术与科研场景的使用体验。 |
159 KB
Loading
153 KB
Loading
109 KB
Loading

docs/zh/docs/dmc/images/image.png

296 KB
Loading

docs/zh/docs/dmc/index.md

Lines changed: 36 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -5,18 +5,42 @@ hide:
55

66
# 什么是模型中心
77

8-
d.run 模型中心是一款功能强大的模型管理和服务平台,旨在为用户提供便捷、高效的模型管理和使用体验。以下是产品的主要特点和优势:
9-
10-
- **多模型支持** :模型中心支持 GLM、Llama、百川、文心一言等系列模型,以及 Transformer 架构的模型,满足用户在不同任务和场景下的需求。
11-
- **直观图形界面** :提供直观的图形化界面,让用户轻松地进行模型推理和管理,无需复杂的操作和编程知识。
12-
- **微调支持** :用户可以对模型进行微调,并通过可视化界面进行推理,以实现更精准和个性化的模型效果。
13-
- **对话内容对比** :提供对话内容对比功能,让用户能够直观地比较不同模型推理结果的对话内容,以便评估模型效果和调整策略。
14-
- **全面的模型服务管理** :提供全面的本地和在线模型服务管理,覆盖模型服务的整个生命周期,包括部署、监控和更新。
15-
- **智能负载均衡** :实现智能负载均衡,优化模型服务的使用效率,提高用户访问模型的速度和稳定性。
16-
- **API Key 管理** :提供在线模型服务的 API Key 管理功能,保证模型服务的安全性和可控性。
17-
18-
d.run 模型中心内置了[模型仓库](./model-hub/built-in.md),可以一站式管理各类大模型,按需部署。
19-
另外通过[模型服务](./model-service/local.md),您可以从本地部署大语言模型服务和向量化模型服务,也可接入在线的大语言模型服务。
8+
**d.run 模型中心**是一款功能强大的模型管理和服务平台,旨在为用户提供便捷、高效的模型管理和使用体验。
9+
10+
## 产品的主要特点和优势
11+
12+
d.run 模型中心提供了以下六大核心功能,帮助企业实现模型管理和服务平台的建设:
13+
14+
### 1. **模型支持**
15+
16+
- **生成式 Transformer 模型支持**:全面支持主流大语言模型(如 Llama-2、ChatGLM、Qwen 等),帮助用户实现高效的文本生成与自然语言处理。
17+
- **多模态语言模型支持**:支持图像与文本联合处理的多模态模型(如 BLIP-2、GLM-4V、LLaVA 系列),为用户提供跨领域的模型服务能力。
18+
19+
### 2. **模型部署**
20+
21+
- **多样化部署方式**:支持通过镜像或文件挂载的方式部署 HuggingFace Transformers 模型,灵活适应不同的业务场景。
22+
- **Embedding 模型部署**:支持 BGE-Large-Zh-v1.5 等嵌入模型的部署,方便实现语义搜索与向量化匹配。
23+
- **Rerank 模型部署**:提供对 BGE-Reranker-Large 等模型的支持,用于优化排序结果,提高检索质量。
24+
- **多类型模型服务支持**:支持大语言模型和多模态模型的在线对话服务,满足丰富的业务需求。
25+
- **GPU 部署支持**:支持在 Nvidia 和 Ascend 系列 GPU 上进行部署,确保模型的高效运行。
26+
27+
### 3. **服务监控与自动扩展**
28+
29+
- **服务监控**:提供 GPU 使用率、Token 处理延迟和服务健康状态的多项指标监控,确保服务稳定。
30+
- **水平自动扩展(HPA)**:支持根据 GPU 负载和延迟自动扩展服务规模,保障高并发情况下的服务质量。
31+
32+
### 4. **在线服务集成与 API 管理**
33+
34+
- **API Key 管理与权限控制**:支持主流在线模型服务的 API Key 管理,并提供权限设置和使用限制。
35+
- **多平台集成支持**:支持与豆包、阿里通义千问、Azure OpenAI、百度文心千帆、智谱 ChatGLM 等多家平台的对接,拓展模型应用场景。
36+
37+
### 5. **用户价值与优势**
38+
39+
- **高效管理与多样选择**:d.run 模型中心支持广泛的模型类型与部署方式,满足不同企业的业务需求。
40+
- **智能扩展与稳定服务**:通过自动扩展与实时监控,保障模型服务的高可用性。
41+
- **灵活集成与安全控制**:多平台支持与 API 权限管理让用户能够灵活、安全地使用模型资源。
42+
43+
d.run 模型中心凭借其全面的模型支持、强大的部署能力和灵活的管理工具,为企业提供了一站式的 AI 解决方案,加速模型应用的落地与创新。
2044

2145
![model hub](./images/dmc-home.jpg)
2246

docs/zh/docs/dmc/model-hub/built-in.md

Lines changed: 10 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -11,16 +11,24 @@ hide:
1111

1212
1. 在模型卡片右下角,点击 **部署** 按钮。
1313

14-
![点击部署按钮](../images/inner02.jpg)
14+
![点击部署按钮](../images/image.png)
1515

1616
2. 填写模型服务名称、部署配置、算力类型、资源配置后点击 **确定**
1717

18-
![填写参数](../images/inner03.jpg)
18+
![填写参数](../images/image-1.png)
1919

2020
!!! info "支持国产 GPU"
2121

2222
其中算力类型支持 Nvidia GPU 和 Ascend 等国产 GPU。
2323

2424
3. 创建成功后,可以通过部署的模型提供服务。
25+
26+
![alt text](../images/image-2.png)
27+
28+
部署成功后,模型服务显示**健康**
29+
30+
4. 点击模型服务的名称,可以调试模型的对话能力。
31+
32+
![alt text](../images/image-3.png)
2533

2634
下一步:[模型服务](../model-service/local.md#_3)

docs/zh/docs/dmc/model-hub/get-model-image.md

Lines changed: 102 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -2,7 +2,7 @@
22

33
d.run 模型中心支持接入 [HuggingFace Transformers](https://huggingface.co/models) 上托管的各种生成式 Transformer 模型。
44

5-
以下是目前支持的模型架构列表
5+
以下是目前支持的模型架构列表
66

77
| 架构 | 模型 | HuggingFace 模型示例 | `LoRA <lora>` |
88
| --- | ----- | ------------------- | ------------- |
@@ -37,6 +37,30 @@ d.run 模型中心支持接入 [HuggingFace Transformers](https://huggingface.co
3737
| `Qwen2MoeForCausalLM` | Qwen2MoE | `Qwen/Qwen1.5-MoE-A2.7B`, `Qwen/Qwen1.5-MoE-A2.7B-Chat`| |
3838
| `StableLmForCausalLM` | StableLM | `stabilityai/stablelm-3b-4e1t/` , `stabilityai/stablelm-base-alpha-7b-v2`| |
3939

40+
多模态语言模型列表:
41+
42+
| 模型类型 | 架构 | 模态 | 示例 HuggingFace 模型 | LoRA 支持 |
43+
|----------|-----|------|------------------------|-----------|
44+
| `Blip2ForConditionalGeneration` | BLIP-2 | 图像生成 (ImageE) | `Salesforce/blip2-opt-2.7b`, `Salesforce/blip2-opt-6.7b`||
45+
| `ChameleonForConditionalGeneration` | Chameleon | 图像生成 (Image) | `facebook/chameleon-7b`||
46+
| `FuyuForCausalLM` | Fuyu | 图像生成 (Image) | `adept/fuyu-8b`||
47+
| `ChatGLMModel` | GLM-4V | 图像生成 (Image) | `THUDM/glm-4v-9b`||
48+
| `InternVLChatModel` | InternVL2 | 图像增强 (ImageE+) | `OpenGVLab/InternVL2-4B`, `OpenGVLab/InternVL2-8B`||
49+
| `LlavaForConditionalGeneration` | LLaVA-1.5 | 图像增强 (ImageE+) | `llava-hf/llava-1.5-7b-hf`, `llava-hf/llava-1.5-13b-hf`||
50+
| `LlavaNextForConditionalGeneration` | LLaVA-NeXT | 图像增强 (ImageE+) | `llava-hf/llava-v1.6-mistral-7b-hf`||
51+
| `LlavaNextVideoForConditionalGeneration` | LLaVA-NeXT-Video | 视频生成 (Video) | `llava-hf/LLaVA-NeXT-Video-7B-hf`||
52+
| `LlavaOnevisionForConditionalGeneration` | LLaVA-Onevision | 图像 + 视频 (Image+ / Video) | `llava-hf/llava-onevision-qwen2-7b-ov-hf`||
53+
| `MiniCPMV` | MiniCPM-V | 图像增强 (ImageE+) | `openbmb/MiniCPM-V-2`, `openbmb/MiniCPM-Llama3-V-2_5`||
54+
| `MllamaForConditionalGeneration` | Llama 3.2 | 图像 (Image) | `meta-llama/Llama-3.2-90B-Vision-Instruct`| |
55+
| `MolmoForCausalLM` | Molmo | 图像 (Image) | `allenai/Molmo-7B-D-0924`||
56+
| `NVLM_D_Model` | NVLM-D 1.0 | 图像增强 (ImageE+) | `nvidia/NVLM-D-72B`||
57+
| `PaliGemmaForConditionalGeneration` | PaliGemma | 图像增强 (ImageE) | `google/paligemma-3b-pt-224`||
58+
| `Phi3VForCausalLM` | Phi-3-Vision / Phi-3.5-Vision | 图像增强 (ImageE+) | `microsoft/Phi-3-vision-128k-instruct`||
59+
| `PixtralForConditionalGeneration` | Pixtral | 图像增强 (Image+) | `mistralai/Pixtral-12B-2409` ||
60+
| `QWenLMHeadModel` | Qwen-VL | 图像增强 (ImageE+) | `Qwen/Qwen-VL`, `Qwen/Qwen-VL-Chat` ||
61+
| `Qwen2VLForConditionalGeneration` | Qwen2-VL | 图像增强 + 视频生成 (ImageE+ / Video+) | `Qwen/Qwen2-VL-7B-Instruct`||
62+
| `UltravoxModel` | Ultravox | 音频增强 (AudioE+) | `fixie-ai/ultravox-v0_3` ||
63+
4064
## 如何为模型构建镜像
4165

4266
以下是完整的指导流程,包含拉取模型、构建 Docker 镜像、配置私有仓库,以及将镜像推送到自定义仓库的步骤。
@@ -49,9 +73,9 @@ d.run 模型中心支持接入 [HuggingFace Transformers](https://huggingface.co
4973
2. 找到目标模型,例如 "chatglm3-6b"
5074
3. 复制模型的 Git URL 以用于克隆,例如:
5175

52-
```bash
53-
https://huggingface.co/THUDM/chatglm3-6b
54-
```
76+
```bash
77+
https://huggingface.co/THUDM/chatglm3-6b
78+
```
5579

5680
#### Clone 模型
5781

@@ -107,7 +131,7 @@ ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "/
107131
docker build -t vllm-openai-tiktoken-chatglm3-6b-server:v2.0.1 -f /data/chatglm3-6b/Dockerfile /data/llms/chatglm3-6b
108132
```
109133

110-
为了减小镜像大小,确保 .dockerignore 文件在 /data/llms/chatglm3-6b 目录中,并且其中包含需要忽略的文件或目录,如:
134+
为了减小镜像大小,确保 `.dockerignore` 文件在 `/data/llms/chatglm3-6b` 目录中,并且其中包含需要忽略的文件或目录,如:
111135

112136
```plaintext
113137
.git
@@ -145,3 +169,76 @@ docker push myregistry.example.com/vllm-openai-tiktoken-chatglm3-6b-server
145169
#### 验证推送成功
146170

147171
确认推送成功后,可以在 Docker 仓库的仪表盘上查看已推送的镜像。
172+
173+
## 使用挂载模型文件的方式接入模型
174+
175+
## 步骤 1:将模型文件上传到 MinIO
176+
177+
1. **克隆模型文件到主机**
178+
将模型文件复制或克隆到任意一台可访问 MinIO 的主机上。
179+
180+
2. **下载 `mc` 客户端工具**
181+
运行以下命令下载 MinIO 客户端工具 `mc`
182+
183+
```bash
184+
curl https://dl.min.io/client/mc/release/linux-amd64/mc \
185+
--create-dirs \
186+
-o $HOME/minio-binaries/mc
187+
188+
chmod +x $HOME/minio-binaries/mc
189+
export PATH=$PATH:$HOME/minio-binaries/
190+
mc --help
191+
```
192+
193+
3. **登录 MinIO**
194+
使用以下命令配置 MinIO 连接信息:
195+
196+
```bash
197+
mc alias set ALIAS HOSTNAME ACCESS_KEY SECRET_KEY
198+
```
199+
200+
- **ALIAS**:自定义 MinIO 名称,用于后续操作
201+
- **HOSTNAME**:MinIO 服务地址(例如:http://10.33.2.23:31372)
202+
- **ACCESS_KEY**:MinIO 用户名
203+
- **SECRET_KEY**:MinIO 密码
204+
205+
**示例**
206+
207+
```bash
208+
mc alias set myminio http://10.33.2.23:31372 minio minio123456
209+
```
210+
211+
4. **推送文件到 MinIO**
212+
213+
- **创建 Bucket**
214+
215+
```bash
216+
mc mb myminio/llms
217+
```
218+
219+
> 如果 Bucket 已存在,可以通过 `mc ls myminio` 检查是否存在。
220+
221+
- **上传模型文件**
222+
223+
`chatglm3-6b` 为例:
224+
225+
```bash
226+
mc cp chatglm3-6b myminio/llms --recursive
227+
```
228+
229+
## 步骤 2:在模型中心加载模型
230+
231+
1. **进入模型中心**
232+
在 DAK 的模型中心选择“接入模型”。
233+
234+
2. **选择加载方式为“文件挂载”**
235+
236+
3. **填写模型路径**
237+
按照模型在工作节点的挂载目录填写路径。例如,`chatglm3-6b` 模型挂载后的路径为:
238+
239+
```text
240+
/root/llms/chatglm3-6b
241+
```
242+
243+
4. **提交模型路径配置**
244+
现在,模型已经成功加载,模型中心会从挂载目录中获取文件进行使用。

docs/zh/docs/dmc/model-hub/tuner.md

Lines changed: 0 additions & 38 deletions
This file was deleted.

0 commit comments

Comments
 (0)