Aanuf/sdpa v fp8 #3485

andreyanufr · 2025-05-08T10:24:57Z

Changes

FakeConverr for V tensor for SDPA layer in the case of FP8 quantization for NPU performance.

Reason for changes

Related tickets

CVS-166427

Tests

In process.

alexsu52 · 2025-05-08T14:23:15Z

nncf/common/quantization/quantizer_propagation/solver.py

@@ -333,6 +333,7 @@ def __init__(
        post_processing_marker_metatypes: Optional[list[type[OperatorMetatype]]] = None,
        metatypes_to_ignore: Optional[list[type[OperatorMetatype]]] = None,
        scales_unification_map: Optional[dict[type[OperatorMetatype], list[type[OperatorMetatype]]]] = None,
+        is_fp8: bool = False,


@andreyanufr, @AlexanderDokuchaev, please provide suggestion how to avoid passing is_fp8 parameter in the solver.

alexsu52

As we discussed offline, please add support for attention subgraph without sdpa via disabling ignored patterns. cc' @xiao1228

alexsu52 and others added 20 commits September 2, 2024 13:22

Support scale estimation inside GPTQ

488cacc

fix for INT4_ASYM

ee64877

Merge remote-tracking branch 'upstream/develop' into develop

f22e411

Merge remote-tracking branch 'upstream/develop' into develop

51b4d7b

Merge remote-tracking branch 'upstream/develop' into develop

f66cd1e

Merge remote-tracking branch 'upstream/develop' into develop

7ce5a53

Merge remote-tracking branch 'upstream/develop' into develop

f74d156

Merge remote-tracking branch 'upstream/develop' into develop

5288c79

Merge remote-tracking branch 'upstream/develop' into develop

1becf15

Merge remote-tracking branch 'upstream/develop' into develop

047d7d9

Merge remote-tracking branch 'upstream/develop' into develop

c0c7e57

Merge remote-tracking branch 'upstream/develop' into develop

b74dea1

Merge remote-tracking branch 'upstream/develop' into develop

26a9a77

Merge remote-tracking branch 'upstream/develop' into develop

25fcc2c

Merge remote-tracking branch 'upstream/develop' into develop

26d4887

Merge remote-tracking branch 'upstream/develop' into develop

7748233

Merge remote-tracking branch 'upstream/develop' into develop

df251b3

Merge remote-tracking branch 'upstream/develop' into develop

4c134c4

Merge remote-tracking branch 'upstream/develop' into develop

6147097

Merge remote-tracking branch 'upstream/develop' into develop

2b94d28

github-actions bot added NNCF PT Pull requests that updates NNCF PyTorch NNCF Common Pull request that updates NNCF Common NNCF OpenVINO Pull requests that updates NNCF OpenVINO NNCF PTQ Pull requests that updates NNCF PTQ labels May 8, 2025

Enabled quantization of V in SDPA for FP8 type.

b77d1d6

andreyanufr marked this pull request as ready for review May 8, 2025 14:01

andreyanufr requested a review from a team as a code owner May 8, 2025 14:01

Fix.

e04c939

alexsu52 requested a review from AlexanderDokuchaev May 8, 2025 14:19

alexsu52 reviewed May 8, 2025

View reviewed changes

alexsu52 reviewed May 13, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Aanuf/sdpa v fp8 #3485

Aanuf/sdpa v fp8 #3485

andreyanufr commented May 8, 2025 •

edited

Loading

alexsu52 May 8, 2025

alexsu52 left a comment •

edited

Loading

Aanuf/sdpa v fp8 #3485

Are you sure you want to change the base?

Aanuf/sdpa v fp8 #3485

Conversation

andreyanufr commented May 8, 2025 • edited Loading

Changes

Reason for changes

Related tickets

Tests

alexsu52 May 8, 2025

Choose a reason for hiding this comment

alexsu52 left a comment • edited Loading

Choose a reason for hiding this comment

andreyanufr commented May 8, 2025 •

edited

Loading

alexsu52 left a comment •

edited

Loading