Qwen3.5 models perplexity with LM_scoring (with wiki2) #349

vince62s · 2026-03-18T07:00:23Z

vince62s
Mar 18, 2026
Maintainer

27B and 35B-A3B are very similar in terms of perplexity.
With new cuda kernels A35B-A3B is faster but some benchmarks put i behind 27B in terms of quality.

27B
int4 (intel): [2026-03-13 18:23:35,940 INFO] Loss: 759459.50 Tokens: 588928 Corpus PPL: 3.63

35B-A3B
int4 (intel):[2026-03-17 21:51:21,542 INFO] Loss: 764480.25 Tokens: 588928 Corpus PPL: 3.66

9B
Baseline: [2026-03-13 17:51:48,984 INFO] Loss: 823541.44 Tokens: 588928 Corpus PPL: 4.05
int4 (intel): [2026-03-13 17:55:14,353 INFO] Loss: 832173.25 Tokens: 588928 Corpus PPL: 4.11
Q4 (unsloth Q4_K_M): [2026-03-13 18:08:31,346 INFO] Loss: 829306.31 Tokens: 588928 Corpus PPL: 4.09

4B
Baseline: [2026-03-13 18:10:18,946 INFO] Loss: 879973.62 Tokens: 588928 Corpus PPL: 4.46

2B
Baseline: [2026-03-13 18:12:43,550 INFO] Loss: 945499.00 Tokens: 588928 Corpus PPL: 4.98

0.8B
Baseline: [2026-03-13 18:14:06,000 INFO] Loss: 1044547.12 Tokens: 588928 Corpus PPL: 5.89

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Qwen3.5 models perplexity with LM_scoring (with wiki2) #349

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Uh oh!

Qwen3.5 models perplexity with LM_scoring (with wiki2) #349

Uh oh!

vince62s Mar 18, 2026 Maintainer

Replies: 0 comments

vince62s
Mar 18, 2026
Maintainer