Skip to content

Commit 0d500ae

Browse files
authored
[WeeklyReport] zeroRains 2025.1.10~2025.2.16 (#436)
1 parent c1bc851 commit 0d500ae

File tree

1 file changed

+54
-0
lines changed

1 file changed

+54
-0
lines changed
Lines changed: 54 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,54 @@
1+
### 姓名
2+
3+
卢林军
4+
5+
### 实习项目
6+
7+
大语言模型推理&服务化易用性提升专项
8+
9+
### 本周工作
10+
11+
本项目的主要工作是优化当前PaddleNLP大模型推理服务调用,本周主要工作如下:
12+
13+
1. 大模型相关旧代码清理
14+
15+
当前PaddleNLP中已经实现了效率更高的`Block Attention``Append Attention`,需要清理当前默认使用的基本Attention方式,将Block Attention作为默认Attention进行大模型推理工作。
16+
17+
删除了当前`xxxInferenceModel``xxxForCausalLMInferenceModel`的定义,全面使用`xxxBlockInferenceModel``xxxForCausalLMBlockInferenceModel`
18+
19+
移除当前`FusedMultiTransformerBase`的使用,全面使用`FusedBlockMultiTransformer`
20+
21+
修改`Predictor`默认参数,默认开启`block attention`的使用
22+
23+
当前直接使用`block attention`仍然有部分BUG
24+
25+
ps: 此项工作与其他工作冲突较大,后续处理差不多后再进行推进
26+
27+
相关 PR:
28+
29+
- https://github.com/PaddlePaddle/PaddleNLP/pull/9770
30+
- https://github.com/PaddlePaddle/Paddle/pull/70763
31+
32+
2. 自定义算子二次封装与自动编译
33+
34+
收集PaddleNLP中使用的自定义算子(csrc文件夹中),构建二次封装接口
35+
36+
在setup.py中集成自定义算子编译
37+
38+
CI已过
39+
40+
相关 PR:
41+
42+
- https://github.com/PaddlePaddle/PaddleNLP/pull/9794
43+
44+
45+
46+
### 下周工作
47+
48+
1. 完善自定义算子分类
49+
2. 分析Append Attention使用的Kernel结构,尝试解耦其实例化方式
50+
51+
### 导师点评
52+
53+
54+

0 commit comments

Comments
 (0)