[GPU] Enable multi head size support for KV cache #29936

clee30 · 2025-04-04T07:24:04Z

In continue batching, head size for key and value will be different. Add support for it for sdpa.

Tickets:

CVS-162339 and CVS-161089

p-durandin · 2025-04-04T07:45:52Z

build_jenkins

p-durandin · 2025-04-04T09:09:27Z

build_jenkins

p-durandin · 2025-04-07T08:58:13Z

build_jenkins

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp

src/plugins/intel_gpu/src/graph/paged_attention.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/pa_sdpa_kernel_opt.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl

p-durandin · 2025-04-08T12:56:12Z

build_jenkins

clee30 · 2025-04-09T04:05:52Z

Found regression issue when running qwen2-7b with paged_attention. Need to check on it.

p-durandin · 2025-04-09T08:33:48Z

build_jenkins

yeonbok · 2025-04-10T19:53:42Z

Is the regression issue resolved? If not, please add a label of "Do not merge" or "Under perf check"

...ugins/intel_gpu/tests/functional/single_layer_tests/dynamic/scaled_dot_product_attention.cpp

src/plugins/intel_gpu/tests/unit/test_cases/paged_attention_gpu_test.cpp

src/plugins/intel_gpu/include/intel_gpu/primitives/paged_attention.hpp

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/pa_sdpa_kernel_opt.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_opt.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_ref.cpp

src/plugins/intel_gpu/src/plugin/transformations/op/sdpa.cpp

src/plugins/intel_gpu/src/plugin/transformations_pipeline.cpp

p-durandin · 2025-04-25T11:27:20Z

build_jenkins

p-durandin · 2025-04-25T15:07:33Z

build_jenkins

p-durandin · 2025-04-28T05:58:23Z

build_jenkins

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/pa_sdpa_kernel_opt.cpp

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_opt.cpp

src/plugins/intel_gpu/src/plugin/transformations/op/sdpa.cpp

p-durandin · 2025-04-29T13:46:06Z

build_jenkins

p-durandin · 2025-04-30T10:53:45Z

build_jenkins

p-durandin · 2025-04-30T14:40:49Z

build_jenkins

...ugins/intel_gpu/tests/functional/single_layer_tests/dynamic/scaled_dot_product_attention.cpp

sshlyapn

Overall, it looks good to me

In continue batching, head size for key and value will be different. Add support for it for sdpa and paged attention. sdpa_opt has updated to work correctly for SDPA. Besides, force multi head for dGPU to use sdpa_opt as sdpa_micro doesn't work yet

p-durandin · 2025-05-01T07:57:28Z

build_jenkins

clee30 requested review from a team as code owners April 4, 2025 07:24

github-actions bot added the category: GPU OpenVINO GPU plugin label Apr 4, 2025

sys-openvino-ci added the ExternalIntelPR External contributor from Intel label Apr 4, 2025

sshlyapn added this to the 2025.2 milestone Apr 4, 2025

clee30 force-pushed the kv_multiheadsize branch from 4ed2f07 to 9e5f1a8 Compare April 4, 2025 08:41

clee30 force-pushed the kv_multiheadsize branch from 9e5f1a8 to 0960ea1 Compare April 7, 2025 02:08

p-durandin reviewed Apr 7, 2025

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_base.cpp Outdated Show resolved Hide resolved

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp Outdated Show resolved Hide resolved

Lyamin-Roman reviewed Apr 7, 2025

View reviewed changes

e-ddykim reviewed Apr 7, 2025

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/kernels/sdpa/sdpa_kernel_micro.cpp Outdated Show resolved Hide resolved

yeonbok reviewed Apr 7, 2025

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl Outdated Show resolved Hide resolved

yeonbok reviewed Apr 7, 2025

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/pa_kv_cache_update_ref.cl Show resolved Hide resolved

yeonbok reviewed Apr 7, 2025

View reviewed changes

src/plugins/intel_gpu/src/kernel_selector/cl_kernels/sdpa_opt.cl Outdated Show resolved Hide resolved

clee30 closed this Apr 8, 2025

clee30 force-pushed the kv_multiheadsize branch from 3c5d405 to d119656 Compare April 8, 2025 10:02

clee30 reopened this Apr 8, 2025

clee30 requested review from e-ddykim, Lyamin-Roman, yeonbok and p-durandin April 8, 2025 11:42

Lyamin-Roman approved these changes Apr 8, 2025

View reviewed changes

clee30 force-pushed the kv_multiheadsize branch from d44fd0a to dd777a0 Compare April 9, 2025 08:29

e-ddykim approved these changes Apr 10, 2025

View reviewed changes

clee30 closed this Apr 23, 2025

clee30 force-pushed the kv_multiheadsize branch from 2e6968e to ec7d46f Compare April 23, 2025 14:11

clee30 reopened this Apr 24, 2025

sshlyapn reviewed Apr 24, 2025

View reviewed changes

clee30 force-pushed the kv_multiheadsize branch from 7e73669 to 3d82d72 Compare April 25, 2025 08:58

clee30 force-pushed the kv_multiheadsize branch from 3d82d72 to ba58dbe Compare April 25, 2025 14:35

clee30 force-pushed the kv_multiheadsize branch 2 times, most recently from b9153fc to d2a58d5 Compare April 28, 2025 02:15

sshlyapn reviewed Apr 28, 2025

View reviewed changes

clee30 force-pushed the kv_multiheadsize branch from d2a58d5 to 553897f Compare April 29, 2025 13:18

clee30 closed this Apr 30, 2025

clee30 force-pushed the kv_multiheadsize branch from 553897f to e2d33bb Compare April 30, 2025 10:33

clee30 reopened this Apr 30, 2025

clee30 force-pushed the kv_multiheadsize branch from a7bf0f7 to f6d4cf7 Compare April 30, 2025 14:35

sshlyapn reviewed May 1, 2025

View reviewed changes

...ugins/intel_gpu/tests/functional/single_layer_tests/dynamic/scaled_dot_product_attention.cpp Outdated Show resolved Hide resolved

sshlyapn approved these changes May 1, 2025

View reviewed changes

clee30 force-pushed the kv_multiheadsize branch from f6d4cf7 to b231031 Compare May 1, 2025 07:54

p-durandin enabled auto-merge May 1, 2025 08:11

p-durandin approved these changes May 1, 2025

View reviewed changes

p-durandin added this pull request to the merge queue May 1, 2025

Merged via the queue into openvinotoolkit:master with commit 307f4ed May 1, 2025
170 checks passed

[GPU] Enable multi head size support for KV cache #29936

[GPU] Enable multi head size support for KV cache #29936

Uh oh!

Conversation

clee30 commented Apr 4, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Tickets:

Uh oh!

p-durandin commented Apr 4, 2025

Uh oh!

p-durandin commented Apr 4, 2025

Uh oh!

p-durandin commented Apr 7, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

p-durandin commented Apr 8, 2025

Uh oh!

clee30 commented Apr 9, 2025

Uh oh!

p-durandin commented Apr 9, 2025

Uh oh!

yeonbok commented Apr 10, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

p-durandin commented Apr 25, 2025

Uh oh!

p-durandin commented Apr 25, 2025

Uh oh!

p-durandin commented Apr 28, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

p-durandin commented Apr 29, 2025

Uh oh!

p-durandin commented Apr 30, 2025

Uh oh!

p-durandin commented Apr 30, 2025

Uh oh!

Uh oh!

sshlyapn left a comment

Choose a reason for hiding this comment

Uh oh!

p-durandin commented May 1, 2025

Uh oh!

Uh oh!

Uh oh!

clee30 commented Apr 4, 2025 •

edited

Loading