Skip to content

Commit 52c9270

Browse files
committed
Update content
1 parent 155f700 commit 52c9270

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

57 files changed

+676
-805
lines changed

README.md

Lines changed: 4 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33

44
## 项目简介
55

6-
  随着ChatGPT的出圈,大语言模型层出不穷,并展现出非凡的能力,可以有效地解决各种问题。然而,这些模型通常需要大量的计算资源和内存,导致运行时资源消耗较高,限制了其在某些场景下的应用,让很多研究者望而却步。本项目使用通俗易懂的语言介绍模型的剪枝、量化、知识蒸馏等压缩方法,让更多的小白能更快了解到模型压缩技术。
6+
  随着ChatGPT的出圈,大语言模型层出不穷,并展现出非凡的能力,可以有效地解决各种问题。然而,这些模型通常需要大量的计算资源和内存,导致运行时资源消耗较高,限制了其在某些场景下的应用,让很多研究者望而却步。本项目使用通俗易懂的语言介绍模型的剪枝、量化、知识蒸馏、低秩分解等压缩方法,让更多的小白能更快了解到模型压缩技术。
77

88
在线阅读地址: https://datawhalechina.github.io/awesome-compression
99

@@ -55,7 +55,8 @@ docsify serve ./docs
5555
- [第4章 模型量化](https://datawhalechina.github.io/awesome-compression/#/ch04/ch04)
5656
- [第5章 神经网络架构搜索](https://datawhalechina.github.io/awesome-compression/#/ch05/ch05)
5757
- [第6章 知识蒸馏](https://datawhalechina.github.io/awesome-compression/#/ch06/ch06)
58-
- [第7章 项目实践](https://datawhalechina.github.io/awesome-compression/#/ch07/ch07)
58+
- [第7章 低秩分解](https://datawhalechina.github.io/awesome-compression/#/ch07/ch07)
59+
- [第8章 项目实践](https://datawhalechina.github.io/awesome-compression/#/ch08/ch08)
5960

6061
> 若对大模型压缩感兴趣,欢迎关注Datawhale开源项目[llm-deploy](https://datawhalechina.github.io/llm-deploy)
6162
@@ -76,6 +77,7 @@ docsify serve ./docs
7677
| [孙韩玉](https://github.com/sunhanyu714) | 模型部署工程师 |
7778
| [张艺杰](https://github.com/Wings236) | 暨南大学研究生 |
7879
| [魏育康](https://github.com/JinYu1998) | 河北科技大学研究生 |
80+
| [母鈺川](https://github.com/mYcc-one) | 北京邮电大学研究生 |
7981
| [宁致远](https://github.com/telegraph-pole-head)| 上海交通大学本科生 |
8082

8183
## 致谢

docs/README.md

Lines changed: 4 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33

44
## 项目简介
55

6-
  随着ChatGPT的出圈,大语言模型层出不穷,并展现出非凡的能力,可以有效地解决各种问题。然而,这些模型通常需要大量的计算资源和内存,导致运行时资源消耗较高,限制了其在某些场景下的应用,让很多研究者望而却步。本项目使用通俗易懂的语言介绍模型的剪枝、量化、知识蒸馏等压缩方法,让更多的小白能更快了解到模型压缩技术。
6+
  随着ChatGPT的出圈,大语言模型层出不穷,并展现出非凡的能力,可以有效地解决各种问题。然而,这些模型通常需要大量的计算资源和内存,导致运行时资源消耗较高,限制了其在某些场景下的应用,让很多研究者望而却步。本项目使用通俗易懂的语言介绍模型的剪枝、量化、知识蒸馏、低秩分解等压缩方法,让更多的小白能更快了解到模型压缩技术。
77

88
在线阅读地址: https://datawhalechina.github.io/awesome-compression
99

@@ -34,7 +34,8 @@
3434
- [第4章 模型量化](https://datawhalechina.github.io/awesome-compression/#/ch04/ch04)
3535
- [第5章 神经网络架构搜索](https://datawhalechina.github.io/awesome-compression/#/ch05/ch05)
3636
- [第6章 知识蒸馏](https://datawhalechina.github.io/awesome-compression/#/ch06/ch06)
37-
- [第7章 项目实践](https://datawhalechina.github.io/awesome-compression/#/ch07/ch07)
37+
- [第7章 低秩分解](https://datawhalechina.github.io/awesome-compression/#/ch07/ch07)
38+
- [第8章 项目实践](https://datawhalechina.github.io/awesome-compression/#/ch08/ch08)
3839

3940
> 若对大模型压缩感兴趣,欢迎关注Datawhale开源项目[llm-deploy](https://datawhalechina.github.io/llm-deploy)
4041
@@ -59,6 +60,7 @@
5960
| [孙韩玉](https://github.com/sunhanyu714) | 模型部署工程师 |
6061
| [张艺杰](https://github.com/Wings236) | 暨南大学研究生 |
6162
| [魏育康](https://github.com/JinYu1998) | 河北科技大学研究生 |
63+
| [母鈺川](https://github.com/mYcc-one) | 北京邮电大学研究生 |
6264
| [宁致远](https://github.com/telegraph-pole-head)| 上海交通大学本科生 |
6365

6466
## 致谢

docs/_sidebar.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -5,4 +5,5 @@
55
* [第4章 模型量化](ch04/ch04.md)
66
* [第5章 神经网络架构搜索](ch05/ch05.md)
77
* [第6章 知识蒸馏](ch06/ch06.md)
8-
* [第7章 项目实践](ch07/ch07.md)
8+
* [第7章 低秩分解](ch07/ch07.md)
9+
* [第8章 项目实践](ch08/ch08.md)

docs/ch01/ch01.md

Lines changed: 13 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -22,24 +22,27 @@
2222

2323
## 1.3 神经网络架构搜索
2424

25-
  神经网络架构搜索是一种使用机器学习的方法,可以在不需要大量人力的情况下,自动搜索最优网络架构的技术。通过给定搜索空间,如给定模型架构,范围,长度,将模型网络设计转换为搜索问题,通过设计搜索策略和自动化的模型评估方法,自动化快速搜索到给定搜索空间中符合目标的神经网络架构。
25+
  神经网络架构搜索是一种使用机器学习的方法,可以在不需要大量人力的情况下,自动搜索最优网络架构的技术。通过给定搜索空间,如给定模型架构,范围,长度,将模型网络设计转换为搜索问题,通过设计搜索策略和自动化的模型评估方法,自动化快速搜索到给定搜索空间中符合目标的神经网络架构。尽管神经网络架构搜索本质上是一种用于自动设计神经网络结构的技术,但它在许多应用中,尤其是移动端、嵌入式设备等场景中的主要目标之一,是搜索出在保证精度的前提下计算开销更小、结构更简洁的模型架构。这与模型压缩的核心目标是一致的:在不显著牺牲性能的情况下降低模型复杂度。因此,我们将其视为模型压缩的一种形式。
2626

2727
## 1.4 知识蒸馏
2828

2929
  知识蒸馏是一种用于将知识从大型复杂模型(通常称为教师模型)转移到较小的简化模型(称为学生模型)的技术。教师模型包含在大型数据集训练过程中学到的大量信息。蒸馏旨在将这些知识提炼成更紧凑、更高效的形式,可以轻松部署在资源受限的设备上或计算能力有限的场景中。
3030

31+
## 1.5 低秩分解
32+
  低秩分解是一种通过将神经网络中的权重矩阵近似为低秩矩阵乘积的方式,来压缩模型参数并提升推理效率的技术。该方法的核心思想是利用矩阵的冗余性,将原始高维矩阵分解为两个或多个低秩矩阵的乘积,从而显著减少参数数量和计算开销。在实践中,低秩分解常应用于线性层或卷积层,并可结合其他压缩手段如剪枝和量化,进一步提升压缩效果。通过适当的分解策略,可以在保持模型性能的前提下,实现显著的模型压缩和加速。
3133

3234

33-
## 1.5 总结
35+
## 1.6 总结
3436

35-
剪枝、量化、神经架构搜索与蒸馏等模型压缩方法为去除模型冗余提供了有效的解决方案。不同的模型压缩方法的特点如下:
37+
剪枝、量化、神经架构搜索、知识蒸馏与低秩分解等模型压缩方法为去除模型冗余提供了有效的解决方案。不同的模型压缩方法的特点如下:
3638

3739
| 方法 | 描述 | 适用对象 | 是否要预训练 | 优点 | 缺点 |
3840
|:---:|-----|:---:|:-----------------:|-----|-----|
39-
| 模型剪枝 | 判断参数、通道、滤波、卷积层的显著性,并剪除不重要的部分。|卷积层、全连接层 ||显著减少参数数量,便于在硬件上实现加速。<br> 结构化剪枝使模型变窄,从而减少存储与提高运算速度。| 非结构化剪枝会造成网络结构不规整,难以有效加速。<br> 结构化剪枝可能会造成与硬件平台不兼容,灵活性差。|
40-
| 模型量化 | 基于权值共享、矩阵近似,减少参数及激活值的存储位数,降低内存开销。|卷积层、全连接层 || 有不错的压缩量和模型性能,训练时间短,可以获得存储量小、计算量低和模型性能好的小型模型。 | 量化后的权重和激活降低了模型的容量和特征图的质量,量化到特殊位置时,容易造成预测精度下降,另外会向梯度信息中引入噪声,导致基于梯度下降法的训练过程收敛难度增加。 |
41-
| 神经网络架构搜索 | 通过搜索算法来探索不同的网络结构,以找到最优的模型配置。|所有层 || 能够自动化地发现高性能、资源高效的深度学习模型架构。 | 通常需要大量的计算资源和时间,且结果可能受限于搜索空间的定义和搜索算法的选择。 |
42-
| 知识蒸馏 | 将softmax分类器输出作为软知识,作为训练学生模型的先验知识。|卷积层、整个模型 || 训练简单,可以显著减少参数数量,容易与其他压缩方法组合使用实现更大程度压缩。 | 模型训练时间长,需要训练教师和学生模型;特殊结构很难与卷积核和较小方向的模型结合使用,泛化性差。 |
41+
| **模型剪枝** | 判断参数、通道、滤波、卷积层的显著性,并剪除不重要的部分。|卷积层、全连接层 ||显著减少参数数量,便于在硬件上实现加速。<br> 结构化剪枝使模型变窄,从而减少存储与提高运算速度。| 非结构化剪枝会造成网络结构不规整,难以有效加速。<br> 结构化剪枝可能会造成与硬件平台不兼容,灵活性差。|
42+
| **模型量化** | 基于权值共享、矩阵近似,减少参数及激活值的存储位数,降低内存开销。|卷积层、全连接层 || 有不错的压缩量和模型性能,训练时间短,可以获得存储量小、计算量低和模型性能好的小型模型。 | 量化后的权重和激活降低了模型的容量和特征图的质量,量化到特殊位置时,容易造成预测精度下降,另外会向梯度信息中引入噪声,导致基于梯度下降法的训练过程收敛难度增加。 |
43+
| **神经网络架构搜索** | 通过搜索算法来探索不同的网络结构,以找到最优的模型配置。|所有层 || 能够自动化地发现高性能、资源高效的深度学习模型架构。 | 通常需要大量的计算资源和时间,且结果可能受限于搜索空间的定义和搜索算法的选择。 |
44+
| **知识蒸馏** | 将softmax分类器输出作为软知识,作为训练学生模型的先验知识。|卷积层、整个模型 || 训练简单,可以显著减少参数数量,容易与其他压缩方法组合使用实现更大程度压缩。 | 模型训练时间长,需要训练教师和学生模型;特殊结构很难与卷积核和较小方向的模型结合使用,泛化性差。 |
45+
| **低秩分解** | 将权重矩阵近似为若干低秩因子矩阵的乘积,以减少参数和计算量。|卷积层、线性层|| 显著减少参数量和FLOPs,带来真实的推理加速。保持较高的精度,对现有硬件友好,可与剪枝、量化等方法结合。 | 分解引入逼近误差,需要额外微调才能恢复性能。秩的选择和分解方式对效果敏感,调参成本较高。 |
4346

4447
## 2.常见评估指标
4548

@@ -76,15 +79,15 @@ $$FLOPS=\frac{FLOPs}{\text { second }}$$
7679

7780
$$OPS=\frac{OPs}{\text { second }}$$
7881

79-
### 2.6 压缩比(Compression Ratio)
82+
### 2.7 压缩比(Compression Ratio)
8083

8184
&emsp;&emsp;压缩比是原始模型大小与压缩后模型大小的比值。比率越高意味着大小减少得越多,显示压缩在节省存储和内存方面的有效性。更高的压缩比意味着更小的模型大小,但也可能伴随性能损失。
8285

83-
### 2.7 推理时间(Inference Time)
86+
### 2.8 推理时间(Inference Time)
8487

8588
&emsp;&emsp;推理时间是指模型在推理过程中处理输入数据并生成响应所花费的时间。模型压缩通常会提高推理速度,因为它减少了计算量和模型大小。推理时间对于LLM需要响应用户查询或实时处理大量数据的实际应用程序尤其重要。
8689

87-
### 2.8 吞吐量(Throughput)
90+
### 2.9 吞吐量(Throughput)
8891

8992
&emsp;&emsp;吞吐量(Throughput)是指模型在单位时间内能够处理的数据量,通常用于衡量压缩后模型的效率。Throughput 通常是与其他性能指标(如准确率、延迟)一同考量,以平衡模型精度和推理速度之间的关系。在剪枝或量化时,如果模型的 Throughput 提升显著而精度损失较小,则该压缩方法是有效的。
9093

0 commit comments

Comments
 (0)