04 Jul, 2024

ExLlamaV2: Det hurtigste bibliotek til at køre LLM’er

Kvantiser og kør EXL2-modeller Billede af forfatter Quantizing Large Language Models (LLM’er) er den mest populære tilgang til at reducere størrelsen af ​​disse modeller og fremskynde inferens. Blandt disse teknikker leverer GPTQ fantastisk ydeevne på GPU’er. Sammenlignet med ikke-kvantiserede modeller bruger denne metode næsten 3 gange mindre VRAM, mens den giver et tilsvarende niveau af […]

9 mins read