[CausalLM] optimize gpt-oss-20b performance

see also : #3444 

- In #3444, we implemented CausalLM for gpt-oss-20b.
- It runs with `Q4_0-FP32`.
- We aims to optimize its speed and reduce its memory on Android.
- last update : `2025-09-15 11:00 KST` by ejyang

# WTD

- [x] [Feature] Activate `Q4_0-FP16` support in nntrainer. (08cc7ba38aa334a25158b4fc40cde5011e641f59)
- [x] [Feature] Support `Q4_0` type in embedding layer. (b2faa4d561969a066cfc5e72bfec55e63f2176c7, #3476 )
- [x] [Op] FP16 compute functions
  - (done) FP16 frequency values : 000eb2e2195e5c9509ba22f651ba722e079d1fb2
  - (done) FP16 RMS norm : 6ed672e8778358fa415c170520f4122e90f61a7d
  - (done) FP16 ggml GEMMs : e9b667d64a29ebde0c14b3123d6d9fb9894026bf
    - Further optimization suggestion : use internal fp16 / int16 values in ggml kernel 
  - (nyi) FP16 clamp
- [ ] [Feature] Create Q4_0-FP16 weight bin file for gpt-oss-20b
- [ ] [code_clean] Update `moe-cached.cpp` to inherit `moe.cpp` 
- [ ] [Test] Q4_0-FP16 for qwen3-30b / gpt-oss-20b
- [ ] [Improvement] moe-cached layer profiling
- [x] [Test] Apply KV-cache loading #3490 
- [x] [Improvement] update gpt-moe to process expert with MM for prefill #3478 

# Log

- (2025-09-10) `Q4_0` embedding layer is not valid (accuracy drop is significant)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[CausalLM] optimize gpt-oss-20b performance #3466

WTD

Log

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[CausalLM] optimize gpt-oss-20b performance #3466

Description

WTD

Log

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions