File tree Expand file tree Collapse file tree 1 file changed +54
-0
lines changed
WeeklyReports/Hackathon_8th/07_zeroRains Expand file tree Collapse file tree 1 file changed +54
-0
lines changed Original file line number Diff line number Diff line change 1+ ### 姓名
2+
3+ 卢林军
4+
5+ ### 实习项目
6+
7+ 大语言模型推理&服务化易用性提升专项
8+
9+ ### 本周工作
10+
11+ 本项目的主要工作是优化当前PaddleNLP大模型推理服务调用,本周主要工作如下:
12+
13+ 1 . 大模型相关旧代码清理
14+
15+ 当前PaddleNLP中已经实现了效率更高的` Block Attention ` 和` Append Attention ` ,需要清理当前默认使用的基本Attention方式,将Block Attention作为默认Attention进行大模型推理工作。
16+
17+ 删除了当前` xxxInferenceModel ` 和` xxxForCausalLMInferenceModel ` 的定义,全面使用` xxxBlockInferenceModel ` 和` xxxForCausalLMBlockInferenceModel ` 。
18+
19+ 移除当前` FusedMultiTransformerBase ` 的使用,全面使用` FusedBlockMultiTransformer ` 。
20+
21+ 修改` Predictor ` 默认参数,默认开启` block attention ` 的使用
22+
23+ 当前直接使用` block attention ` 仍然有部分BUG
24+
25+ ps: 此项工作与其他工作冲突较大,后续处理差不多后再进行推进
26+
27+ 相关 PR:
28+
29+ - https://github.com/PaddlePaddle/PaddleNLP/pull/9770
30+ - https://github.com/PaddlePaddle/Paddle/pull/70763
31+
32+ 2 . 自定义算子二次封装与自动编译
33+
34+ 收集PaddleNLP中使用的自定义算子(csrc文件夹中),构建二次封装接口
35+
36+ 在setup.py中集成自定义算子编译
37+
38+ CI已过
39+
40+ 相关 PR:
41+
42+ - https://github.com/PaddlePaddle/PaddleNLP/pull/9794
43+
44+
45+
46+ ### 下周工作
47+
48+ 1 . 完善自定义算子分类
49+ 2 . 分析Append Attention使用的Kernel结构,尝试解耦其实例化方式
50+
51+ ### 导师点评
52+
53+
54+
You can’t perform that action at this time.
0 commit comments