ik_llama.cpp vs ZenDNN #1028

ikawrakow · 2025-12-02T15:57:06Z

ikawrakow
Dec 2, 2025
Maintainer

I haven't been contributing to llama.cpp since I left the project in March of 2024, but apparently I'm still one of the top contributors there 20 months later, so got pinged in an RFC and subsequent PR that integrates ZenDNN into llama.cpp. ZenDNN is a matrix multiplication library specifically optimized for AMD CPUs. It supports bf16 and f32 GEMM. I haven't put a lot of effort into optimizing inference with floating point models (for me "Inference at the Edge" basically means using quantized models), so I decided to check if this could be something for ik_llama.cpp to handle bf16 and f32 models.

The RFC and PR provide benchmark results for a big-iron, 96-core Zen4 CPU. I don't have that, but I do have a 16-core Ryzen-7950X, which is also Zen4, so ZenDNN should be optimized for it.

So, pulled and built the PR (it required a minor modification in the CMakeLists.txt file) and here is what we get with llama-bench on the 7950X for bf16 LlaMA-3-8B

model	size	params	backend	threads	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	ZenDNN	16	pp512	218.88 ± 1.06
llama 8B BF16	14.96 GiB	8.03 B	ZenDNN	2	tg128	2.02 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	ZenDNN	4	tg128	2.08 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	ZenDNN	8	tg128	2.19 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	ZenDNN	16	tg128	2.57 ± 0.01

I used as recommended ZENDNNL_MATMUL_ALGO=2. The default (whatever it is), gives a PP performance of 163 t/s.

In comparison, here is what we get with the llama.cpp CPU backend:

model	size	params	backend	threads	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	pp512	113.34 ± 0.07
llama 8B BF16	14.96 GiB	8.03 B	CPU	1	tg128	3.07 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	2	tg128	3.78 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	4	tg128	4.03 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	8	tg128	3.95 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	tg128	3.94 ± 0.00

Aha. ZenDNN nearly doubles llama.cpp PP performance, but that's not really hard. TG, on the other hand, is almost 2X lower.

How does ik_llama.cpp compare? Here is what we get:

model	size	params	backend	threads	rtr	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	1	pp512	276.45 ± 0.34
llama 8B BF16	14.96 GiB	8.03 B	CPU	1	1	tg128	3.44 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	2	1	tg128	3.95 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	4	1	tg128	3.93 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	8	1	tg128	3.87 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	1	tg128	3.92 ± 0.00

So, 1.27X ZenDNN and 2.44X llama.cpp for PP. TG is faster than llama.cpp for 1 and 2 threads, almost fully saturating BW with just 2 threads. llama.cpp somehow manages to saturate at a slight higher TG speed at 4 threads. Both are faster than ZenDNN with 16 threads with just a single thread (so more than 16X better energy efficiency when generating tokens)!

Djip007 · 2025-12-04T23:26:05Z

Djip007
Dec 4, 2025

I think you have wrong "config":

on My "small" Ryzen 7940HS (~@45w) 128Go RAM@5600 (8xzen4) and with this bench

OMP_NUM_THREADS=8 GOMP_CPU_AFFINITY="1,3,5,7,9,11,13,15" \
ZENDNNL_MATMUL_ALGO=2 \
 .//llama-bench -ctk bf16 -ctv bf16 -ub 4096 -b 8192 \
  -r 3 \
  -p "1,1,2,3,4,8,12,16,24,32,48,64,96,128,192,256,384,512,768,1024,1536,2048,3072,4096,8192" \
  -p "4096,3072,2048,1536,1024,768,512,384,256,192,128,96,64,48,32,24,16,12,8,4,3,2,1" \
  -n 16 \
  -pg "512,64" \
  -m Meta-Llama-3.1-8B-Instruct/BF16.gguf

I get:

model	size	params	test	CPU t/s	ZenDNN t/s	IK_CPU t/s
llama 8B BF16	14.96 GiB	8.03 B	pp1	3.78 ± 0.02	3.71 ± 0.01	3.59 ± 0.03
llama 8B BF16	14.96 GiB	8.03 B	pp2	7.36 ± 0.08	7.48 ± 0.05	7.11 ± 0.02
llama 8B BF16	14.96 GiB	8.03 B	pp3	11.00 ± 0.07	10.87 ± 0.02	10.75 ± 0.14
llama 8B BF16	14.96 GiB	8.03 B	pp4	14.58 ± 0.09	14.54 ± 0.23	14.35 ± 0.12
llama 8B BF16	14.96 GiB	8.03 B	pp8	28.44 ± 0.12	29.09 ± 0.27	26.25 ± 0.52
llama 8B BF16	14.96 GiB	8.03 B	pp12	40.52 ± 1.40	41.51 ± 0.48	36.59 ± 0.39
llama 8B BF16	14.96 GiB	8.03 B	pp16	51.94 ± 0.39	52.27 ± 0.22	44.05 ± 0.41
llama 8B BF16	14.96 GiB	8.03 B	pp24	67.92 ± 1.38	63.76 ± 1.51	57.72 ± 0.40
llama 8B BF16	14.96 GiB	8.03 B	pp32	72.46 ± 1.71	77.65 ± 2.65	64.04 ± 1.73
llama 8B BF16	14.96 GiB	8.03 B	pp48	71.86 ± 1.06	91.02 ± 1.48	71.90 ± 1.10
llama 8B BF16	14.96 GiB	8.03 B	pp64	75.88 ± 0.08	92.18 ± 2.37	78.35 ± 0.11
llama 8B BF16	14.96 GiB	8.03 B	pp96	83.92 ± 0.24	104.34 ± 2.73	88.87 ± 0.35
llama 8B BF16	14.96 GiB	8.03 B	pp128	91.72 ± 0.58	105.27 ± 0.63	94.79 ± 0.22
llama 8B BF16	14.96 GiB	8.03 B	pp192	93.37 ± 0.20	110.45 ± 2.89	85.93 ± 2.07
llama 8B BF16	14.96 GiB	8.03 B	pp256	93.82 ± 0.72	114.97 ± 2.64	83.95 ± 0.28
llama 8B BF16	14.96 GiB	8.03 B	pp384	92.48 ± 1.20	116.75 ± 0.89	84.80 ± 0.79
llama 8B BF16	14.96 GiB	8.03 B	pp512	93.57 ± 0.30	117.16 ± 0.78	84.47 ± 1.07
llama 8B BF16	14.96 GiB	8.03 B	pp768	93.62 ± 0.11	115.36 ± 0.74	82.12 ± 1.69
llama 8B BF16	14.96 GiB	8.03 B	pp1024	91.33 ± 0.05	109.99 ± 3.29	102.99 ± 0.83
llama 8B BF16	14.96 GiB	8.03 B	pp1536	87.40 ± 1.20	103.53 ± 3.98	100.42 ± 0.03
llama 8B BF16	14.96 GiB	8.03 B	pp2048	79.66 ± 1.64	96.56 ± 0.42	93.76 ± 5.38
llama 8B BF16	14.96 GiB	8.03 B	pp3072	75.83 ± 1.79	91.61 ± 0.87	89.56 ± 2.08
llama 8B BF16	14.96 GiB	8.03 B	pp4096	68.81 ± 0.60	82.38 ± 1.29	89.34 ± 2.21
llama 8B BF16	14.96 GiB	8.03 B	pp8192	58.69 ± 0.44	70.03 ± 0.68	81.20 ± 1.21
llama 8B BF16	14.96 GiB	8.03 B	tg16	3.76 ± 0.03	3.68 ± 0.05	3.62 ± 0.03
llama 8B BF16	14.96 GiB	8.03 B	pp512+tg64	25.12 ± 0.40	26.11 ± 0.10	24.00 ± 0.43

On a Ryzen AI Max+ 395 (16xzen5) with

OMP_NUM_THREADS=16 GOMP_CPU_AFFINITY="0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15" \
 ./llama-bench -ctk bf16 -ctv bf16 -ub 4096 -b 8192 \
  -r 3 \
  -p "1,1,2,3,4,8,12,16,24,32,48,64,96,128,192,256,384,512,768,1024,1536,2048,3072,4096,8192" \
  -p "4096,3072,2048,1536,1024,768,512,384,256,192,128,96,64,48,32,24,16,12,8,4,3,2,1" \
  -n 16 \
  -pg "512,64" \
  -m Meta-Llama-3.1-8B-Instruct/BF16.gguf

model	size	params	test	CPU t/s	ZenDNN t/s	IK_CPU t/s
llama 8B BF16	14.96 GiB	8.03 B	pp1	7.62 ± 0.00	7.18 ± 0.00	7.35 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	pp2	14.19 ± 0.01	14.05 ± 0.00	14.60 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	pp3	21.10 ± 0.02	20.84 ± 0.01	21.92 ± 0.02
llama 8B BF16	14.96 GiB	8.03 B	pp4	27.79 ± 0.04	27.67 ± 0.02	28.99 ± 0.03
llama 8B BF16	14.96 GiB	8.03 B	pp8	53.75 ± 0.02	53.10 ± 0.03	53.68 ± 0.06
llama 8B BF16	14.96 GiB	8.03 B	pp12	78.03 ± 0.03	81.13 ± 0.04	76.45 ± 0.07
llama 8B BF16	14.96 GiB	8.03 B	pp16	102.05 ± 0.14	102.72 ± 0.10	100.12 ± 0.15
llama 8B BF16	14.96 GiB	8.03 B	pp24	143.54 ± 0.16	146.26 ± 0.13	139.89 ± 0.27
llama 8B BF16	14.96 GiB	8.03 B	pp32	175.47 ± 0.18	176.39 ± 0.12	172.93 ± 1.43
llama 8B BF16	14.96 GiB	8.03 B	pp48	231.75 ± 0.18	238.82 ± 0.27	222.68 ± 1.45
llama 8B BF16	14.96 GiB	8.03 B	pp64	255.89 ± 0.22	280.80 ± 0.47	255.87 ± 0.39
llama 8B BF16	14.96 GiB	8.03 B	pp96	269.43 ± 0.36	328.61 ± 0.32	286.55 ± 0.63
llama 8B BF16	14.96 GiB	8.03 B	pp128	271.33 ± 0.14	370.01 ± 0.26	305.35 ± 0.60
llama 8B BF16	14.96 GiB	8.03 B	pp192	274.50 ± 3.34	376.03 ± 0.37	314.02 ± 0.43
llama 8B BF16	14.96 GiB	8.03 B	pp256	275.62 ± 0.11	390.93 ± 7.04	319.48 ± 1.28
llama 8B BF16	14.96 GiB	8.03 B	pp384	285.08 ± 0.14	393.13 ± 0.08	321.22 ± 1.71
llama 8B BF16	14.96 GiB	8.03 B	pp512	282.78 ± 0.04	405.17 ± 0.22	323.64 ± 2.79
llama 8B BF16	14.96 GiB	8.03 B	pp768	275.96 ± 0.13	399.88 ± 0.24	324.52 ± 1.21
llama 8B BF16	14.96 GiB	8.03 B	pp1024	268.62 ± 0.07	383.23 ± 0.05	324.08 ± 4.01
llama 8B BF16	14.96 GiB	8.03 B	pp1536	258.30 ± 0.06	379.29 ± 0.07	313.78 ± 1.03
llama 8B BF16	14.96 GiB	8.03 B	pp2048	238.97 ± 0.15	346.95 ± 0.21	309.75 ± 1.07
llama 8B BF16	14.96 GiB	8.03 B	pp3072	214.74 ± 0.03	302.10 ± 0.10	305.92 ± 0.42
llama 8B BF16	14.96 GiB	8.03 B	pp4096	195.00 ± 0.06	269.62 ± 0.10	302.93 ± 10.10
llama 8B BF16	14.96 GiB	8.03 B	pp8192	160.60 ± 0.07	214.52 ± 0.02	275.45 ± 10.24
llama 8B BF16	14.96 GiB	8.03 B	tg16	7.64 ± 0.00	7.17 ± 0.00	7.35 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	pp512+tg64	56.27 ± 0.02	56.09 ± 0.01	55.77 ± 0.11

I don't know what is the topology of the 7950X but you can try the same as with the MAX

Only for me you are faster @4096pp ... did you have a fast "fa" implementation enable by default? If yes we may have even faster pp with ZenDNN+Your FA.

1 reply

Djip007 Dec 5, 2025

what did you use for build and benchmark run?
in my case:

OS: fedora 43
GCC 15

llama.cpp CPU:

cmake -B build/cpu -DCMAKE_BUILD_TYPE=Release  -DLLAMA_CURL=OFF
cmake --build build/cpu --config Release -- -j 8

llama.cpp ZenDNN

cmake -B build/zenDNN -DCMAKE_BUILD_TYPE=Release  -DLLAMA_CURL=OFF -DGGML_ZENDNN=ON
cmake --build build/zenDNN --config Release -- -j 8

ik_llama.cpp:

cmake -B build/ik_cpu -DCMAKE_BUILD_TYPE=Release  -DLLAMA_CURL=OFF
cmake --build build/ik_cpu --config Release -- -j 8

ikawrakow · 2025-12-05T09:51:46Z

ikawrakow
Dec 5, 2025
Maintainer Author

I'm on Ubuntu 22.04 and use the stock compiler (GCC 11.4.0).

I had to fix the CMakeLists.txt file like this

diff --git a/ggml/src/ggml-zendnn/CMakeLists.txt b/ggml/src/ggml-zendnn/CMakeLists.txt
index 0b55e9d6..a644463a 100644
--- a/ggml/src/ggml-zendnn/CMakeLists.txt
+++ b/ggml/src/ggml-zendnn/CMakeLists.txt
@@ -77,7 +77,7 @@ target_link_libraries(ggml-zendnn PRIVATE
     xsmm               # libxsmm small matrix math
     xsmmext
     xsmmnoblas
-    xsmmf
+    xsmm
     m                  # System math
     pthread            # Threading support
 )

Then simply cmake -DGGML_ZENDNN=ON and then, just like you,

ZENDNNL_MATMUL_ALGO=2 ./bin/llama-bench -t 16 -p 512 -n 0 -m $model

or

ZENDNNL_MATMUL_ALGO=2 ./bin/llama-bench -t 16 -p 0 -n 128 -t 2,4,8,16 -m $model

I never had to fool around with thread affinity on that box (and it seems strange one needs to, as it would be very strange if kernel developers wouldn't think of not putting two high utilization threads on the same core).

What kind of performance do you get with ik_llama.cpp on your AI Max 395+ ?

For bf16 models, it is useful to add -rtr to the command line (-rtr 1 for llama-bench), this gives a 10-15% boost in PP performance and a few percent better TG. Also, with ik_llama.cpp you get a slightly better performance by using Q8_0 K-cache and f16 V-cache.

0 replies

ikawrakow · 2025-12-05T10:05:39Z

ikawrakow
Dec 5, 2025
Maintainer Author

Oh, I see you had an ik_llama.cpp column. So

With ik_llama.cpp it makes no sense to use ubatch = 4096. Try -ub 512 or -ub 1024.
Add -rtr 1 to the ik_llama.cpp command line
Try using -ctk q8_0 instead of -ctk bf16 -ctv bf16

0 replies

ikawrakow · 2025-12-05T10:25:04Z

ikawrakow
Dec 5, 2025
Maintainer Author

But, to be more comprehensive, here is what I get with ZenDNN using your exact command:

backend	threads	n_batch	n_ubatch	type_k	type_v	test	t/s
ZenDNN	16	8192	4096	bf16	bf16	pp1	0.81 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp1	0.81 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp2	2.04 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp3	3.04 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp4	4.06 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp8	7.89 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp12	11.65 ± 0.06
ZenDNN	16	8192	4096	bf16	bf16	pp16	15.53 ± 0.06
ZenDNN	16	8192	4096	bf16	bf16	pp24	23.01 ± 0.09
ZenDNN	16	8192	4096	bf16	bf16	pp32	30.57 ± 0.19
ZenDNN	16	8192	4096	bf16	bf16	pp48	44.09 ± 0.20
ZenDNN	16	8192	4096	bf16	bf16	pp64	56.75 ± 0.35
ZenDNN	16	8192	4096	bf16	bf16	pp96	78.37 ± 0.10
ZenDNN	16	8192	4096	bf16	bf16	pp128	96.90 ± 0.40
ZenDNN	16	8192	4096	bf16	bf16	pp192	124.05 ± 0.69
ZenDNN	16	8192	4096	bf16	bf16	pp256	144.53 ± 0.21
ZenDNN	16	8192	4096	bf16	bf16	pp384	167.96 ± 0.09
ZenDNN	16	8192	4096	bf16	bf16	pp512	184.34 ± 0.14
ZenDNN	16	8192	4096	bf16	bf16	pp768	200.06 ± 0.16
ZenDNN	16	8192	4096	bf16	bf16	pp1024	210.07 ± 0.07
ZenDNN	16	8192	4096	bf16	bf16	pp1536	206.71 ± 0.19
ZenDNN	16	8192	4096	bf16	bf16	pp2048	197.46 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp3072	178.88 ± 0.03
ZenDNN	16	8192	4096	bf16	bf16	pp4096	158.27 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp8192	125.09 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp4096	158.32 ± 0.01
ZenDNN	16	8192	4096	bf16	bf16	pp3072	179.17 ± 0.05
ZenDNN	16	8192	4096	bf16	bf16	pp2048	197.35 ± 0.04
ZenDNN	16	8192	4096	bf16	bf16	pp1536	207.02 ± 0.08
ZenDNN	16	8192	4096	bf16	bf16	pp1024	209.34 ± 0.07
ZenDNN	16	8192	4096	bf16	bf16	pp768	209.51 ± 0.04
ZenDNN	16	8192	4096	bf16	bf16	pp512	196.13 ± 0.16
ZenDNN	16	8192	4096	bf16	bf16	pp384	180.60 ± 0.08
ZenDNN	16	8192	4096	bf16	bf16	pp256	161.79 ± 0.04
ZenDNN	16	8192	4096	bf16	bf16	pp192	139.37 ± 0.16
ZenDNN	16	8192	4096	bf16	bf16	pp128	113.48 ± 0.06
ZenDNN	16	8192	4096	bf16	bf16	pp96	93.18 ± 0.16
ZenDNN	16	8192	4096	bf16	bf16	pp64	67.66 ± 0.14
ZenDNN	16	8192	4096	bf16	bf16	pp48	52.85 ± 0.04
ZenDNN	16	8192	4096	bf16	bf16	pp32	35.98 ± 0.03
ZenDNN	16	8192	4096	bf16	bf16	pp24	28.18 ± 0.02
ZenDNN	16	8192	4096	bf16	bf16	pp16	19.11 ± 0.02
ZenDNN	16	8192	4096	bf16	bf16	pp12	14.61 ± 0.02
ZenDNN	16	8192	4096	bf16	bf16	pp8	9.83 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp4	4.97 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp3	3.74 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp2	2.49 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	pp1	1.02 ± 0.00
ZenDNN	16	8192	4096	bf16	bf16	tg16	1.02 ± 0.00

And here is what I get with ik_llama.cpp with the same command except for adding -rtr 1 and changing to -ub 1024

backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
CPU	16	8192	1024	bf16	bf16	1	pp1	3.93 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp1	3.93 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp2	7.84 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp3	11.72 ± 0.01
CPU	16	8192	1024	bf16	bf16	1	pp4	15.59 ± 0.01
CPU	16	8192	1024	bf16	bf16	1	pp8	30.88 ± 0.04
CPU	16	8192	1024	bf16	bf16	1	pp12	43.79 ± 0.19
CPU	16	8192	1024	bf16	bf16	1	pp16	57.65 ± 0.28
CPU	16	8192	1024	bf16	bf16	1	pp24	83.38 ± 0.06
CPU	16	8192	1024	bf16	bf16	1	pp32	106.69 ± 0.24
CPU	16	8192	1024	bf16	bf16	1	pp48	145.78 ± 0.22
CPU	16	8192	1024	bf16	bf16	1	pp64	175.79 ± 0.33
CPU	16	8192	1024	bf16	bf16	1	pp96	211.86 ± 0.79
CPU	16	8192	1024	bf16	bf16	1	pp128	232.97 ± 0.54
CPU	16	8192	1024	bf16	bf16	1	pp192	253.54 ± 0.28
CPU	16	8192	1024	bf16	bf16	1	pp256	264.66 ± 0.06
CPU	16	8192	1024	bf16	bf16	1	pp384	273.50 ± 0.06
CPU	16	8192	1024	bf16	bf16	1	pp512	276.25 ± 0.25
CPU	16	8192	1024	bf16	bf16	1	pp768	277.69 ± 0.41
CPU	16	8192	1024	bf16	bf16	1	pp1024	273.70 ± 0.47
CPU	16	8192	1024	bf16	bf16	1	pp1536	270.04 ± 0.33
CPU	16	8192	1024	bf16	bf16	1	pp2048	267.84 ± 0.28
CPU	16	8192	1024	bf16	bf16	1	pp3072	258.01 ± 0.17
CPU	16	8192	1024	bf16	bf16	1	pp4096	251.56 ± 0.30
CPU	16	8192	1024	bf16	bf16	1	pp8192	227.10 ± 0.08
CPU	16	8192	1024	bf16	bf16	1	pp4096	250.93 ± 0.51
CPU	16	8192	1024	bf16	bf16	1	pp3072	257.72 ± 0.49
CPU	16	8192	1024	bf16	bf16	1	pp2048	266.34 ± 0.66
CPU	16	8192	1024	bf16	bf16	1	pp1536	268.73 ± 0.64
CPU	16	8192	1024	bf16	bf16	1	pp1024	274.90 ± 0.47
CPU	16	8192	1024	bf16	bf16	1	pp768	276.85 ± 0.50
CPU	16	8192	1024	bf16	bf16	1	pp512	276.32 ± 0.27
CPU	16	8192	1024	bf16	bf16	1	pp384	272.98 ± 0.51
CPU	16	8192	1024	bf16	bf16	1	pp256	263.28 ± 0.50
CPU	16	8192	1024	bf16	bf16	1	pp192	253.69 ± 0.61
CPU	16	8192	1024	bf16	bf16	1	pp128	232.56 ± 0.27
CPU	16	8192	1024	bf16	bf16	1	pp96	211.44 ± 0.43
CPU	16	8192	1024	bf16	bf16	1	pp64	175.27 ± 0.61
CPU	16	8192	1024	bf16	bf16	1	pp48	145.45 ± 0.24
CPU	16	8192	1024	bf16	bf16	1	pp32	106.51 ± 0.24
CPU	16	8192	1024	bf16	bf16	1	pp24	83.25 ± 0.22
CPU	16	8192	1024	bf16	bf16	1	pp16	57.76 ± 0.19
CPU	16	8192	1024	bf16	bf16	1	pp12	43.82 ± 0.16
CPU	16	8192	1024	bf16	bf16	1	pp8	30.88 ± 0.03
CPU	16	8192	1024	bf16	bf16	1	pp4	15.57 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp3	11.72 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp2	7.84 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp1	3.93 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	tg16	3.93 ± 0.00
CPU	16	8192	1024	bf16	bf16	1	pp512+tg64	31.62 ± 0.01

Btw, when you run the ik_llama.cpp benchmark do you see

======================================= HAVE_FANCY_SIMD is defined

?

7 replies

ikawrakow Dec 5, 2025
Maintainer Author

-rtr stands for run-time-repack. In the case of bf16, it repacks model weights into 16-rows interleaved format while loading the model.

Djip007 Dec 5, 2025

| model                          |       size |     params | backend    | threads | n_batch | n_ubatch | type_k | type_v |          test |              t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | ------: | -------: | -----: | -----: | ------------: | ---------------: |
======================================= HAVE_FANCY_SIMD is defined
| llama 13B BF16                 |  43.91 GiB |    23.57 B | CPU        |      16 |    8192 |     4096 |   bf16 |   bf16 |           pp1 |      2.42 ± 0.00 |

Yes all bench is with it ;)

Djip007 Dec 5, 2025

============ Repacked 225 tensors
======================================= HAVE_FANCY_SIMD is defined

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1	7.58 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1	7.59 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp2	15.14 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp3	22.70 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp4	30.27 ± 0.02
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp8	56.07 ± 0.07
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp12	82.10 ± 0.04
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp16	101.91 ± 0.05
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp24	139.33 ± 0.45
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp32	171.44 ± 1.77
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp48	216.94 ± 1.58
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp64	251.44 ± 0.51
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp96	283.94 ± 0.27
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp128	307.56 ± 0.70
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp192	330.32 ± 0.94
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp256	328.81 ± 3.54
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp384	325.96 ± 0.88
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp512	330.93 ± 0.53
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp768	334.98 ± 0.36
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1024	346.78 ± 0.42
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1536	337.39 ± 0.35
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp2048	334.49 ± 0.83
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp3072	325.35 ± 0.47
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp4096	324.96 ± 0.15
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp8192	294.25 ± 0.04

Yes a better with -rtr . good point!
But not as fast a with ZenDNN for me.
Did you have some quantized element in you llama 13B BF16 model?

ikawrakow Dec 5, 2025
Maintainer Author

Did you have some quantized element in you llama 13B BF16 model?

No, that's the original model as downloaded from HF.

Not sure what, but something is not quite right. There is only a 25% difference between my 7950X and your AI Max. Most of the time is being spent doing 512-bit bf16 fused multiply-adds, which on the Zen4 core take twice as long as on Zen5 as they are being executed as 2 256-bit instructions. From other people's benchmark results I know that ik_llama.cpp runs ~50% faster on a 9950X compared to my 7950X, which makes more sense.

My best guess is that it is somehow related to the compiler. They have fine-tuned with GCC 15 on a Zen5, I do all my development with GCC 11 on Zen4 (or Zen3). ik_llama.cpp runs 27% faster that ZenDNN on my Zen4 setup, ZenDNN runs 15% faster (but only in a quite narrow prompt length interval) on your Zen5 setup. There is some register spillage in my implementation which, in my setup, still leads to better performance than not fully utilizing all vector registers. I remember a newer GCC version not handling this very well for another quantization type.

Djip007 Dec 5, 2025

I did some bench with aocl aocl_gemm_bf16bf16f32of32 OP
on a 8192x8192x8192 size I get

8571.92GFlop/s without repacking
8676.35GFlop/s with repacking
it run with a clock @4400 => so very close to the max we can have...

But yes there si something strange...

You use ubuntu 22 with gcc 11... I may have a try with it if I find a container with it ;)

ikawrakow · 2025-12-05T11:00:09Z

ikawrakow
Dec 5, 2025
Maintainer Author

@Djip007

One final thing: if you want to see really fast CPU prompt processing, do the following:

./bin/llama-quantize --output-tensor-type q8_0 --token-embedding-type q8_0 $model $output_file q8_K_R8

The run your benchmark with the just created 8-bit quantized model. On my CPU I get 57% higher PP peak performance than bf16. Here the full result with your benchmark on my Ryzen-7950X:

model	backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1	7.58 ± 0.12
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1	7.63 ± 0.15
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp2	15.40 ± 0.03
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp3	23.27 ± 0.01
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp4	31.28 ± 0.02
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp8	62.69 ± 0.04
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp12	88.93 ± 0.12
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp16	115.39 ± 0.28
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp24	163.02 ± 0.68
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp32	203.20 ± 0.57
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp48	260.38 ± 0.45
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp64	297.61 ± 0.82
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp96	344.48 ± 0.38
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp128	372.65 ± 0.40
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp192	402.65 ± 0.14
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp256	417.81 ± 0.38
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp384	429.89 ± 0.13
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp512	434.06 ± 0.29
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp768	432.89 ± 0.40
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1024	427.97 ± 0.16
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1536	413.15 ± 0.21
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp2048	399.94 ± 0.49
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp3072	377.09 ± 0.85
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp4096	365.98 ± 0.66
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp8192	315.31 ± 0.04
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp4096	364.15 ± 0.75
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp3072	375.03 ± 0.51
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp2048	395.47 ± 0.89
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1536	408.65 ± 0.65
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1024	420.41 ± 0.66
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp768	425.52 ± 0.57
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp512	426.83 ± 0.53
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp384	422.24 ± 1.09
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp256	410.71 ± 0.57
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp192	395.86 ± 0.83
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp128	368.57 ± 0.35
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp96	342.86 ± 0.64
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp64	295.48 ± 0.59
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp48	259.09 ± 0.63
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp32	201.58 ± 0.62
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp24	164.56 ± 0.49
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp16	116.14 ± 0.10
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp12	88.70 ± 0.18
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp8	62.76 ± 0.04
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp4	31.26 ± 0.00
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp3	23.31 ± 0.00
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp2	15.43 ± 0.01
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp1	7.72 ± 0.00
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	tg16	7.72 ± 0.00
llama 8B Q8_K_R8	CPU	16	8192	4096	bf16	bf16	1	pp512+tg64	60.26 ± 0.03

12 replies

Djip007 Dec 5, 2025

your bench on Q8_0 is done with bf16 on KV, mine is with Q8_0

and if power have some limit it can make sens, Q8_0 use int AVX512 OP? it need less power than bf16op to be done. so it may be possible that CPU freq are different scaling.

I did a bench with full Q8_0 I get:

Die	L3	Core	CPU	Avg_MHz	Busy%	Bzy_MHz	TSC_MHz	IPC	IRQ	NMI	SMI	POLL%	C1%	C2%	C3%	CorWatt	PkgWatt
-	-	-	-	2141	50.72	4221	2994	3.23	66147	6	0	0.03	49.54	0.00	0.00	135.21	139.92
0	0	0	0	4301	100.00	4301	2994	3.22	3918	1	0	0.00	0.00	0.00	0.00	8.66	139.92
[...]
1	1	8	8	4140	100.00	4140	2994	3.33	3934	1	0	0.00	0.00	0.00	0.00	8.03

with Q8_0:

Die	L3	Core	CPU	Avg_MHz	Busy%	Bzy_MHz	TSC_MHz	IPC	IRQ	NMI	SMI	POLL%	C1%	C2%	C3%	CorWatt	PkgWatt
-	-	-	-	2114	51.38	4114	2994	2.92	61704	5	0	0.06	49.20	0.00	0.00	122.87	139.94
0	0	0	0	4197	100.00	4197	2994	2.93	3686	1	0	0.00	0.00	0.00	0.00	7.91	139.94
[...]
1	1	8	8	4031	100.00	4031	2994	3.05	3644	0	0	0.00	0.00	0.00	0.00	7.18

so The 2 cliplet have different speed.
in case of Q8_0 => 4301 / 4140
in case of BF16 => 4197 / 4031
=> -100 / - 160 MHz ...

OK only 4% diff... not that much in my case... and full 140W limited.

Djip007 Dec 5, 2025

OK some result with a toolbox ubuntu 22.04 / gcc11:

gcc11 / ubuntu / ik_llama.cpp

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp1	7.35 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp1	7.35 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp2	14.56 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp3	21.86 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp4	28.94 ± 0.02
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp8	53.47 ± 0.11
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp12	77.27 ± 0.05
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp16	100.24 ± 0.10
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp24	139.99 ± 0.10
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp32	173.38 ± 1.31
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp48	222.44 ± 1.63
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp64	258.11 ± 1.18
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp96	281.05 ± 0.89
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp128	296.51 ± 0.78
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp192	299.45 ± 0.57
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp256	302.75 ± 4.06
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp384	302.97 ± 1.20
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp512	304.19 ± 1.40
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp768	306.65 ± 0.31
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp1024	308.38 ± 0.52
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp1536	305.76 ± 0.37
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp2048	306.12 ± 0.61
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp3072	297.32 ± 0.06
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp4096	294.69 ± 0.18
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	pp8192	270.48 ± 0.10

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	test	t/s
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp1	14.66 ± 0.00
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp1	14.65 ± 0.01
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp2	28.76 ± 0.02
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp3	41.36 ± 0.06
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp4	54.01 ± 0.02
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp8	92.55 ± 0.28
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp12	102.28 ± 0.27
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp16	120.83 ± 0.01
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp24	132.08 ± 0.09
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp32	270.22 ± 0.86
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp48	332.57 ± 0.45
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp64	363.43 ± 0.78
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp96	410.91 ± 0.28
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp128	444.62 ± 1.29
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp192	476.21 ± 0.22
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp256	494.73 ± 0.32
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp384	511.25 ± 2.31
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp512	507.76 ± 0.89
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp768	513.69 ± 0.64
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp1024	513.74 ± 0.26
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp1536	509.93 ± 0.21
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp2048	501.79 ± 0.25
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp3072	485.60 ± 0.55
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp4096	470.84 ± 0.12
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	pp8192	421.98 ± 0.10

so gcc11 bf16 is 10% slower...
but Q8_0 is a faster

Djip007 Dec 5, 2025

I mis the -rtr 1.... it is mush better for bf16 and a little with Q8_0...

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
============ Repacked 225 tensors
======================================= HAVE_FANCY_SIMD is defined
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp1	14.72 ± 0.08
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp1	14.77 ± 0.01
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp2	28.17 ± 0.01
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp3	42.00 ± 0.04
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp4	55.38 ± 0.05
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp8	108.31 ± 0.21
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp12	148.61 ± 0.82
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp16	193.67 ± 0.05
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp24	251.58 ± 1.59
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp32	297.32 ± 3.50
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp48	359.37 ± 0.72
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp64	390.10 ± 0.65
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp96	434.49 ± 0.72
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp128	462.73 ± 0.57
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp192	491.19 ± 0.68
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp256	504.86 ± 0.33
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp384	519.52 ± 0.38
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp512	515.79 ± 7.00
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp768	516.27 ± 0.74
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp1024	516.68 ± 0.62
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp1536	509.96 ± 0.40
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp2048	503.15 ± 0.38
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp3072	487.67 ± 0.28
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp4096	472.14 ± 0.29
llama 8B Q8_0	7.95 GiB	8.03 B	CPU	16	8192	4096	q8_0	q8_0	1	pp8192	410.73 ± 21.71

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1	7.58 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1	7.59 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp2	15.22 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp3	22.88 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp4	30.31 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp8	60.11 ± 0.12
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp12	81.92 ± 0.14
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp16	109.02 ± 0.13
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp24	152.46 ± 0.48
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp32	191.84 ± 0.72
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp48	247.24 ± 2.32
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp64	288.75 ± 0.55
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp96	335.31 ± 0.42
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp128	361.56 ± 0.33
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp192	402.66 ± 0.74
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp256	424.09 ± 0.45
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp384	437.41 ± 4.93
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp512	443.02 ± 1.42
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp768	447.19 ± 0.62
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1024	445.11 ± 0.55
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp1536	439.72 ± 0.20
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp2048	432.24 ± 0.18
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp3072	412.19 ± 0.24
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp4096	405.46 ± 0.18
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	4096	bf16	bf16	1	pp8192	361.09 ± 0.10

So the diff for bf16 with llama.cpp may be a gcc diff too...

ikawrakow Dec 5, 2025
Maintainer Author

OK, so this looks much better and as expected. Which means that I need to work around GCC-15 (and possibly other GCC versions between 11 and 15). I'll try to do that when I get time.

If llama.cpp is using the llamafile sgemm, this is about what I would expect as performance. For stock llama.cpp implementation (without llamafile sgemm or another external BLAS) performance is much lower than what you reported (at least 2X lower compared to ik_llama.cpp).

Djip007 Dec 5, 2025

Yes I build llama.cpp with default llamafile/sgemm this is the default for a longtime now ;) I think I was the last to work on the BF16-sgemm on llama.cpp ;)

I made so much bench that it is rely unreadable ... I will try to make more repetable one with more config:

llama.cpp (with sgemm..)
ik_llama.cpp
zenDNN
gcc 11
gcc 15
fa on / off (ik-llama)
repacking (ik-llama)

for BF16 at first ...

If you think as something else that can help ... ask ;)

Djip007 · 2025-12-05T13:06:07Z

Djip007
Dec 5, 2025

Thank you for all this information!

Now

for the ubatch = 4096 I know it is not the best, it is more to evaluate the good one. So yes use 1024 at the end may be better..
for the kv : I know ik_llama is faster with Q8, but I'll juste whan to compare your MULMAT with the on from ZenDNN

My point is to know if it have some interest to add ZenDNN (I think it is better to direcly use the AOCL_gemm!)

Note: I'll have a try with -rtr,
and AOCL_gemm have the possibility to have repacked weight too.

For the GOMP_CPU_AFFINITY="1,3,5,7,9,11,13,15", this prevents migration between core, It is use on most HPC, and allow better caching managment, the L1/L2 cache did not need to migrate with the process, so can add some perf.

0 replies

Djip007 · 2025-12-05T22:15:44Z

Djip007
Dec 5, 2025

So more analysis with a more "professional" procedure 🤞

OS: fedora silverblue.

GCC11 => toolbox ubuntu 22.04 + GCC-11
GCC15 => toolbox fedora 43 + GCC-15
Model: Meta-Llama-3.1-8B-Instruct-BF16.gguf
Runtime env: OMP_NUM_THREADS=16 GOMP_CPU_AFFINITY="0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15"
Runtime option: -ctk bf16 -ctv bf16 -ub 8192 -b 8192
ZENDNNL_MATMUL_ALGO=2

test	t/s	t/s	t/s	t/s	t/s	t/s	t/s	t/s	t/s	t/s	t/s	t/s
runtime	CPU	CPU	ZenDNN	ZenDNN	IK-CPU	IK-CPU	IK-CPU	IK-CPU	IK-CPU	IK-CPU	IK-CPU	IK-CPU
compiler	GCC-11	GCC-15	GCC-11	GCC-15	GCC-11	GCC-15	GCC-11	GCC-15	GCC-11	GCC-15	GCC-11	GCC-15
repacking	OFF	OFF	OFF	OFF	OFF	OFF	OFF	OFF	ON	ON	ON	ON
FA	OFF	OFF	OFF	OFF	OFF	OFF	ON	ON	OFF	OFF	ON	ON

pp1024	163.79	272.27	-	392.89	280.46	281.39	316.88	317.56	384.52	308.49	453.56	354.11
pp1	7.69	7.66	-	7.18	7.34	7.33	7.34	7.34	7.57	7.57	7.58	7.59
pp2	13.84	14.22	-	14.15	14.50	14.56	14.50	14.59	15.20	15.13	15.22	15.16
pp3	20.45	21.14	-	21.05	21.85	21.85	21.84	21.88	22.85	22.67	22.86	22.73
pp4	26.65	27.94	-	27.93	28.89	28.80	28.87	28.88	30.27	30.23	30.31	30.33
pp8	51.38	53.68	-	53.71	53.39	53.27	53.45	53.41	59.87	56.22	60.01	56.14
pp12	74.77	78.11	-	81.40	77.36	77.13	77.13	76.77	82.36	82.43	81.92	82.13
pp16	95.23	101.87	-	103.42	99.95	99.58	100.00	99.93	108.86	101.93	109.16	102.29
pp24	122.06	144.31	-	146.76	138.73	138.64	139.58	139.53	152.01	138.47	152.85	140.33
pp32	138.38	176.91	-	177.64	172.27	172.27	172.76	172.30	191.72	169.21	193.09	172.09
pp48	153.85	231.70	-	240.91	219.20	219.22	221.95	221.26	244.50	214.78	247.12	219.88
pp64	153.15	257.58	-	279.96	252.43	252.23	257.66	256.01	284.38	247.05	289.08	246.98
pp96	160.48	272.30	-	327.68	270.59	281.38	276.65	285.21	328.92	277.67	335.71	281.33
pp128	159.57	263.19	-	363.86	283.55	293.47	293.06	304.50	351.57	298.69	361.26	308.72
pp192	164.55	272.41	-	355.71	284.50	292.43	297.37	295.37	387.45	312.50	403.67	323.17
pp256	165.68	275.61	-	383.51	287.32	297.46	299.67	298.81	395.49	320.17	417.64	333.97
pp384	166.96	283.84	-	390.50	290.38	294.17	305.14	304.50	405.46	325.62	431.86	341.58
pp512	167.47	282.83	-	400.70	290.86	291.31	308.40	305.49	406.42	321.23	439.32	343.46
pp768	165.95	276.07	-	396.37	284.38	285.05	309.97	308.73	400.94	318.13	443.92	347.19
pp1024	162.86	269.14	-	381.73	275.42	277.67	310.47	308.82	380.29	302.35	443.44	344.03
pp1536	158.19	258.22	-	377.30	264.42	263.50	305.04	307.01	358.08	285.56	436.31	340.59
pp2048	150.11	239.18	-	347.16	245.35	244.77	304.82	303.23	318.27	264.69	430.25	334.58
pp3072	139.14	214.78	-	303.06	221.23	219.90	294.05	298.54	278.62	233.92	410.31	324.67
pp4096	129.09	195.24	-	272.14	205.46	208.59	292.10	297.53	257.15	221.63	407.05	323.24
pp8192	95.53	136.25	-	184.56	153.87	156.72	267.65	270.94	183.73	163.90	360.19	295.21
tg16	7.63	7.67	-	7.18	7.35	7.33	7.35	7.34	7.59	7.59	7.58	7.59

cmake is not good for build with ZenDNN on ubuntu (and not fluent with ubuntu...) so no res with it.

so...
there is something wrong with gcc-11 + llamafile (I may be faultly with that...)
there is something wrong with gcc-15 + ik-llama with repacking.
you did rely good job with FlashAttention.

I will be currous to look what we can have with AOCL gemm (with repacking) + your FA...

1 reply

Djip007 Dec 6, 2025

OK I add some #pragma omp unroll full

#ifdef __AVX512BF16__
template <int nrc_y>
static void mul_mat_bf16_r16_bf16(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
    GGML_ASSERT(nrc_x%16 == 0);
    const ggml_bf16_t * y[nrc_y];
    for (int iy = 0; iy < nrc_y; ++iy) y[iy] = (const ggml_bf16_t *)info.src1_row(iy);
    for (int ix = 0; ix < nrc_x/32; ++ix) {
        __m512  acc[2*nrc_y] = {};
        __m512bh qx[8];
        const ggml_bf16_t * b8_1 = (const ggml_bf16_t *)((const char *)vx + (32*ix+ 0)*bx);
        const ggml_bf16_t * b8_2 = (const ggml_bf16_t *)((const char *)vx + (32*ix+16)*bx);
        for (int ib = 0; ib < n/8; ++ib) {
            qx[0] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_1+4*ib+0);
            qx[1] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_1+4*ib+1);
            qx[2] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_1+4*ib+2);
            qx[3] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_1+4*ib+3);
            qx[4] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_2+4*ib+0);
            qx[5] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_2+4*ib+1);
            qx[6] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_2+4*ib+2);
            qx[7] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8_2+4*ib+3);
            #pragma omp unroll full
            for (int iy = 0; iy < nrc_y; ++iy) {
                auto y128 = _mm_loadu_si128((const __m128i*)y[iy]+ib);
                //auto y = _mm512_broadcast_i32x4(y128);
                auto y256 = MM256_SET_M128I(y128, y128);
                auto y = _mm512_inserti32x8(_mm512_castsi256_si512(y256), y256, 1);
                //  (__m512bh) _mm512_set1_epi32(*(int32_t*)&B);
                acc[2*iy+0] = _mm512_dpbf16_ps(acc[2*iy+0], qx[0], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x00)));
                acc[2*iy+0] = _mm512_dpbf16_ps(acc[2*iy+0], qx[1], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x55)));
                acc[2*iy+0] = _mm512_dpbf16_ps(acc[2*iy+0], qx[2], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xaa)));
                acc[2*iy+0] = _mm512_dpbf16_ps(acc[2*iy+0], qx[3], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xff)));
                acc[2*iy+1] = _mm512_dpbf16_ps(acc[2*iy+1], qx[4], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x00)));
                acc[2*iy+1] = _mm512_dpbf16_ps(acc[2*iy+1], qx[5], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x55)));
                acc[2*iy+1] = _mm512_dpbf16_ps(acc[2*iy+1], qx[6], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xaa)));
                acc[2*iy+1] = _mm512_dpbf16_ps(acc[2*iy+1], qx[7], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xff)));
            }
        }
        #pragma omp unroll full
        for (int iy = 0; iy < nrc_y; ++iy) {
            info.store(32*ix+ 0, iy, acc[2*iy+0]);
            info.store(32*ix+16, iy, acc[2*iy+1]);
        }
    }
    for (int ix = 32*(nrc_x/32); ix < nrc_x; ix += 16) {
        __m512  acc[nrc_y] = {};
        __m512bh qx[4];
        const ggml_bf16_t * b8 = (const ggml_bf16_t *)((const char *)vx + (ix+0)*bx);
        for (int ib = 0; ib < n/8; ++ib) {
            qx[0] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8+4*ib+0);
            qx[1] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8+4*ib+1);
            qx[2] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8+4*ib+2);
            qx[3] = (__m512bh)_mm512_loadu_si512((const __m512i *)b8+4*ib+3);
            #pragma omp unroll full
            for (int iy = 0; iy < nrc_y; ++iy) {
                auto y128 = _mm_loadu_si128((const __m128i*)y[iy]+ib);
                auto y256 = MM256_SET_M128I(y128, y128);
                auto y = _mm512_inserti32x8(_mm512_castsi256_si512(y256), y256, 1);
                acc[iy] = _mm512_dpbf16_ps(acc[iy], qx[0], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x00)));
                acc[iy] = _mm512_dpbf16_ps(acc[iy], qx[1], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0x55)));
                acc[iy] = _mm512_dpbf16_ps(acc[iy], qx[2], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xaa)));
                acc[iy] = _mm512_dpbf16_ps(acc[iy], qx[3], (__m512bh)_mm512_shuffle_epi32(y, _MM_PERM_ENUM(0xff)));
            }
        }
        #pragma omp unroll full
        for (int iy = 0; iy < nrc_y; ++iy) {
            info.store(ix, iy, acc[iy]);
        }
    }
}

and I get that with GCC-15:

============ Repacked 225 tensors
======================================= HAVE_FANCY_SIMD is defined

model	size	params	backend	threads	n_batch	n_ubatch	type_k	type_v	rtr	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp1024	455.43 ± 0.29
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp1	7.57 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp2	15.14 ± 0.00
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp3	22.71 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp4	30.27 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp8	59.91 ± 0.01
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp12	82.01 ± 0.08
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp16	109.09 ± 0.04
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp24	152.64 ± 0.42
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp32	192.69 ± 0.68
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp48	246.77 ± 2.04
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp64	288.92 ± 0.71
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp96	337.51 ± 0.41
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp128	364.34 ± 0.99
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp192	405.91 ± 0.85
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp256	416.99 ± 3.15
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp384	432.20 ± 2.54
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp512	440.21 ± 1.53
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp768	444.72 ± 0.98
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp1024	444.67 ± 0.89
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp1536	440.33 ± 0.93
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp2048	429.25 ± 0.59
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp3072	408.40 ± 0.31
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp4096	406.51 ± 0.12
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	pp8192	362.75 ± 0.16
llama 8B BF16	14.96 GiB	8.03 B	CPU	16	8192	8192	bf16	bf16	1	tg16	7.59 ± 0.00

Look good with it on repacked bf16. Look like unroll spec have change from gcc-11 to gcc-15... It may be "need" on other place ;)

ikawrakow · 2025-12-06T15:17:42Z

ikawrakow
Dec 6, 2025
Maintainer Author

Wow! Thanks!

GCC-15 doesn't unroll a loop with compile-time known number of iterations?

You can submit a PR if you want. I guess, one needs to make it a compiler specific macro, and add to all loops over nrc_y.

14 replies

ikawrakow Dec 8, 2025
Maintainer Author

For Q8_0 there is regression too... but for now look more complicated than simple unrool.

Regression with GCC-15? Or with clang?

Djip007 Dec 8, 2025

With GCC-15 ... don't bench with clang. But I need more bench.

ikawrakow Dec 8, 2025
Maintainer Author

And the following does not solve the regression?

diff --git a/ggml/src/iqk/iqk_gemm_legacy_quants.cpp b/ggml/src/iqk/iqk_gemm_legacy_quants.cpp
index ca90f748a..6c55bd9d5 100644
--- a/ggml/src/iqk/iqk_gemm_legacy_quants.cpp
+++ b/ggml/src/iqk/iqk_gemm_legacy_quants.cpp
@@ -1618,12 +1618,12 @@ static void mul_mat_q8_0_r8_q8_2(int n, const void * vx, size_t bx, const DataIn
                                                                           _mm256_loadu_si256((const __m256i *)q8h[4*ib4+k].qs+j), 1);
                         qx[j] = _mm512_add_epi8(qx[j], _mm512_set1_epi8(127));
                     }
-                    for (int iy = 0; iy < nrc_y; ++iy) {
+                    static_for<nrc_y>([&](const int iy) {
                         auto sumi = qx_r8_q8_dot_product(qx, q8.y[iy][ib4].qs+32*k);
                         auto dy = _mm512_set1_ps(d8[8*iy+k]);
                         acc[2*iy+0] = _mm512_fmadd_ps(_mm512_mul_ps(scales, dy), _mm512_cvtepi32_ps(sumi), acc[2*iy+0]);
                         acc[2*iy+1] = _mm512_fmadd_ps(scales, _mm512_set1_ps(d8[8*iy+k+4]), acc[2*iy+1]);
-                    }
+                    });
                 }
             }
             for (int ib = 4*(nb/4); ib < nb; ++ib) {
@@ -1635,20 +1635,20 @@ static void mul_mat_q8_0_r8_q8_2(int n, const void * vx, size_t bx, const DataIn
                                                                       _mm256_loadu_si256((const __m256i *)q8h[ib].qs+j), 1);
                     qx[j] = _mm512_add_epi8(qx[j], _mm512_set1_epi8(127));
                 }
-                for (int iy = 0; iy < nrc_y; ++iy) {
+                static_for<nrc_y>([&](const int iy) {
                     auto qy = (const block_q8_2 *)q8.y[iy];
                     auto sumi = qx_r8_q8_dot_product(qx, qy[ib].qs);
                     auto [d8, m8] = ScaleHelperQ8_2::prepare1(qy + ib);
                     auto dy = _mm512_set1_ps(d8);
                     acc[2*iy+0] = _mm512_fmadd_ps(_mm512_mul_ps(scales, dy), _mm512_cvtepi32_ps(sumi), acc[2*iy+0]);
                     acc[2*iy+1] = _mm512_fmadd_ps(scales, _mm512_set1_ps(m8), acc[2*iy+1]);
-                }
+                });
             }
-            for (int iy = 0; iy < nrc_y; ++iy) {
+            static_for<nrc_y>([&](const int iy) {
                 auto sum512 = _mm512_fmadd_ps(_mm512_set1_ps(-127.f), acc[2*iy+1], acc[2*iy+0]);
                 info.store(ix, iy, sum512);
                 acc[2*iy+0] = acc[2*iy+1] = _mm512_setzero_ps();
-            }
+            });
         }
     }
 }

ikawrakow Dec 8, 2025
Maintainer Author

Or is it so that GCC-15 decides to not inline qx_r8_q8_dot_product ?
In that case one needs to change the definition of qx_r8_q8_dot_product to

static IQK_ALWAYS_INLINE inline __m512i qx_r8_q8_dot_product(const __m512i * qx, const int8_t * y) {

Djip007 Dec 8, 2025

Q8_0 (for Model and KV cache) zen5*16. (IA MAX+)
Current ik_llama.cpp source code (no patch)

test	GCC-12 t/s	GCC-13 t/s	GCC-14 t/s	GCC-15 t/s
pp2048	492.57 ± 6.93	474.11 ± 6.42	475.74 ± 6.46	487.26 ± 6.64
pp1	14.79 ± 0.00	14.79 ± 0.01	14.80 ± 0.00	14.80 ± 0.00
pp2	28.11 ± 0.04	28.07 ± 0.02	27.30 ± 1.81	28.10 ± 0.03
pp3	42.13 ± 0.01	42.06 ± 0.04	42.03 ± 0.02	42.09 ± 0.05
pp4	56.17 ± 0.02	56.05 ± 0.02	55.95 ± 0.14	56.11 ± 0.01
pp8	108.24 ± 0.19	104.39 ± 0.03	107.95 ± 0.10	108.86 ± 0.08
pp12	142.75 ± 0.59	149.02 ± 0.60	150.92 ± 0.80	150.08 ± 0.72
pp16	193.30 ± 0.11	188.76 ± 0.17	192.45 ± 0.59	194.14 ± 0.15
pp24	250.14 ± 1.01	246.76 ± 1.06	251.11 ± 1.43	250.39 ± 0.50
pp32	289.09 ± 0.99	286.97 ± 0.78	292.53 ± 0.73	288.26 ± 0.89
pp48	350.31 ± 0.19	345.05 ± 0.52	350.36 ± 0.46	345.16 ± 0.51
pp64	380.19 ± 0.48	375.22 ± 0.71	376.67 ± 0.37	380.70 ± 0.97
pp96	418.82 ± 4.09	409.84 ± 3.68	410.43 ± 4.08	415.05 ± 4.07
pp128	439.33 ± 2.64	428.67 ± 2.57	429.43 ± 2.56	436.69 ± 2.51
pp192	464.17 ± 2.21	450.63 ± 1.96	451.31 ± 2.10	461.38 ± 2.14
pp256	476.91 ± 2.01	463.11 ± 1.77	462.81 ± 1.69	474.56 ± 1.85
pp384	489.84 ± 1.17	470.75 ± 1.33	473.97 ± 1.20	485.57 ± 1.24
pp512	493.95 ± 0.89	476.77 ± 0.80	478.43 ± 0.82	489.84 ± 0.87
pp768	497.35 ± 0.57	480.62 ± 0.49	480.98 ± 0.47	493.69 ± 0.48
pp1024	497.47 ± 0.52	479.97 ± 0.46	480.90 ± 0.51	493.13 ± 0.52
pp1536	491.91 ± 0.50	474.63 ± 0.52	475.79 ± 0.42	487.88 ± 0.50
pp2048	484.92 ± 0.55	468.72 ± 0.46	469.20 ± 0.66	481.33 ± 0.47
pp3072	471.33 ± 0.35	455.07 ± 0.28	456.09 ± 0.34	468.13 ± 0.34
pp4096	456.91 ± 0.19	441.51 ± 0.21	443.23 ± 0.17	453.17 ± 0.29
pp8192	408.09 ± 0.06	395.12 ± 0.09	391.93 ± 9.13	405.20 ± 0.06
tg16	14.79 ± 0.00	14.79 ± 0.01	14.73 ± 0.02	14.79 ± 0.00

I remember ~510 for ubuntu gcc11 ... so not that bad.

compare to the ~450 t/s it look we can do better... but may be hard.

ik_llama.cpp vs ZenDNN #1028

Uh oh!

ikawrakow Dec 2, 2025 Maintainer

Replies: 8 comments · 35 replies

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ikawrakow Dec 5, 2025 Maintainer Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ikawrakow Dec 6, 2025 Maintainer Author

Uh oh!

ikawrakow Dec 8, 2025 Maintainer Author

Uh oh!

Uh oh!

ikawrakow Dec 8, 2025 Maintainer Author

Uh oh!

ikawrakow Dec 8, 2025 Maintainer Author

Uh oh!

Uh oh!

ikawrakow
Dec 2, 2025
Maintainer

Replies: 8 comments 35 replies

ikawrakow
Dec 5, 2025
Maintainer Author

ikawrakow
Dec 5, 2025
Maintainer Author

ikawrakow
Dec 5, 2025
Maintainer Author

ikawrakow Dec 5, 2025
Maintainer Author

ikawrakow Dec 5, 2025
Maintainer Author

ikawrakow
Dec 5, 2025
Maintainer Author

ikawrakow Dec 5, 2025
Maintainer Author

ikawrakow
Dec 6, 2025
Maintainer Author

ikawrakow Dec 8, 2025
Maintainer Author

ikawrakow Dec 8, 2025
Maintainer Author

ikawrakow Dec 8, 2025
Maintainer Author