Google TurboQuant komprimuje paměť AI modelů. Výkon roste až 8x
i Zdroj: Google
Novinka Google TurboQuant komprimuje paměť AI modelů. Výkon roste až 8x

Google TurboQuant komprimuje paměť AI modelů. Výkon roste až 8x

Ondřej Lyko

Ondřej Lyko

Google představil kompresní algoritmus TurboQuant pro jazykové modely. Snižuje nároky na paměť KV cache minimálně šestinásobně bez jakékoliv ztráty přesnosti modelu.

Poslechni si audioverzi
00:00:00
00:00:00
Reklama

Společnost Google Research vydala nový kompresní algoritmus s názvem TurboQuant. Jeho hlavním úkolem je komprese takzvané KV (Key-Value) cache u velkých jazykových modelů (LLM) až na úroveň 3 bitů. Vše přitom probíhá bez nutnosti dalšího trénování a podle výzkumníků nedochází k žádné ztrátě přesnosti samotného modelu.

Při testování na akcelerátorech Nvidia H100 přinesla 4bitová verze TurboQuantu až osminásobné zrychlení výpočtů v porovnání s nekomprimovanými 32bitovými daty. Celkové nároky na kapacitu paměti se snížily minimálně šestinásobně. KV cache běžně uchovává dříve vypočítaná data, aby je modely nemusely při generování každého tokenu počítat znovu. S rostoucí velikostí kontextového okna se však tyto vyrovnávací paměti stávají hardwarovým úzkým hrdlem. Tradiční kompresní metody sice velikost snižují, ale přidávají drobnou paměťovou režii navíc.

TurboQuant tento problém řeší dvoufázově. První krok, zvaný PolarQuant, převádí datové vektory z kartézských do polárních souřadnic, čímž zcela odpadá náročná normalizace. Druhá fáze pak využívá jednobitovou vrstvu pro opravu chyb (QJL), která odstraňuje systematické odchylky ve výpočtech.

Algoritmus byl úspěšně testován na open-source modelech Gemma a Mistral v rámci několika benchmarků (např. LongBench či Needle In A Haystack). V úlohách zaměřených na přesné vyhledávání informací dosáhl bezchybných výsledků a vyrovnal se zavedeným metodám. Nástroj je plně připravený pro nasazení v produkčním prostředí a podrobněji bude prezentován na konferenci ICLR 2026.


Reklama
Reklama

Komentáře

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

Rychlé přihlášení přes:

Reklama
Reklama
Reklama