Skip to content

Commit 661184b

Browse files
authored
[WeeklyReport] zeroRains 2025.02.17~2025.03.02 (#445)
1 parent 343d543 commit 661184b

File tree

1 file changed

+45
-0
lines changed

1 file changed

+45
-0
lines changed
Lines changed: 45 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,45 @@
1+
### 姓名
2+
3+
卢林军
4+
5+
### 实习项目
6+
7+
大语言模型推理&服务化易用性提升专项
8+
9+
### 本周工作
10+
11+
本项目的主要工作是优化当前PaddleNLP大模型推理服务调用,本周主要工作如下:
12+
13+
14+
1. 自定义算子二次封装与自动编译
15+
16+
收集PaddleNLP中使用的自定义算子(csrc文件夹中),构建二次封装接口
17+
18+
继续更新自定义算子的调用参数,添加新增算子的二次封装。
19+
20+
CI已过
21+
22+
相关 PR:
23+
24+
- https://github.com/PaddlePaddle/PaddleNLP/pull/9794
25+
26+
2. 分析Append Attention使用的Kernel结构,尝试解耦其实例化方式
27+
28+
编译失败:指符号链接超出能够索引的范围
29+
30+
尝试将现有Dispatch宏展开替换成递归模板调用的形式,但本质上仍然要对Append Attention Kernel进行很多的实例化。编译时间仍然很长,最后也会编译失败。
31+
32+
通过编写脚本,将Append Attention的CascadeAppendAttentionKernel的实例化过程写在不同的文件,最后大概生成了9000多个实例化函数,最后仍然编译失败。
33+
34+
最后远乐老师从代码结构分析,将适配MLA所需要的head_dim与原本的GQA所需要的head_dim分成两个不同的宏定义进行Dispatch,解决了编译失败的问题。
35+
36+
37+
### 下周工作
38+
39+
1. 推进当前自定义算子PR合入
40+
2. 讨论自定义算子的多设备适配和自定义算子的默认参数设置问题
41+
42+
### 导师点评
43+
44+
45+

0 commit comments

Comments
 (0)