We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent 322a495 commit c6785e1Copy full SHA for c6785e1
WeeklyReports/Hackathon_10th/ArcaLunar/[WeeklyReport]2026.2.23~2026.3.8.md
@@ -0,0 +1,28 @@
1
+### 姓名
2
+
3
+徐启越
4
5
+### 实习项目
6
7
+FlashAttention 低精度训练算法研究与 Kernel 开发
8
9
+### 本周工作
10
11
+1. 完善 kernel benchmark
12
+ - 补齐输入构造,benchmark 计时等,支持 causal/mask/scale 等 benchmarking 重要参数
13
+ - 新增多项测评指标并接入自动注册体系
14
+2. 继续实现 SageAttention + FlashMask
15
+ - 新增 cuda/c++ 侧测试,检测精度、性能与显存占用
16
+ - 目前编译可通过,小测试可通过
17
18
+### 下周计划
19
20
+1. 继续完善 sage attention+flashmask
21
+ - 检查不同输入下的边界处理并添加相关测试
22
+ - 完善测试数据
23
+ - 将算子接入 kernel-bench 框架
24
+2. 尝试利用已有实现而绕过编译的 cuda kernel 集成到 kernel-bench 的流程
25
+3. 基于后续 benchmark 结果,对 kernel 进行 profiling 并分析 bottleneck
26
27
+### 导师点评
28
0 commit comments