HIGGS-X — виртуальный ускоритель вычислений для сверхбольших нейронных моделей (50+ млрд параметров), обеспечивающий:
- Быструю загрузку и инференс
- Адаптивное смешанное квантование (INT8 / BF16 / FP16)
- Значительное сжатие модели без потери качества
- Интеграцию с Hugging Face и популярными архитектурами
- Оптимизацию под средние GPU (RTX 30xx/40xx)
| Возможность | Описание |
|---|---|
| Ускоренная загрузка | Формат .hgs с адаптивным квантованием и сжатием весов |
| ALMPQ — адаптивное квантование | Динамическое управление точностью слоёв с учётом чувствительности и градиентов |
| Поддержка обучения и инференса | Использование смешанной точности через PyTorch AMP и динамическое квантование INT8 |
| Интеграция с Hugging Face | Поддержка моделей GPT-2, LLaMA 2, GPT-J и других, с возможностью генерации текста |
| Экономия памяти и ресурсов | Сжатие модели до 3–4 раз и ускорение загрузки в 3–4 раза на средних GPU |
| Ограниченная точность квантования | Сложность адаптивного управления точностью | Зависимость от аппаратной поддержки | Ограничения формата .hgs (он пока чтто - прототип)