LLMer
ExLlamaV2: Det hurtigste bibliotek til at køre LLM’er
Kvantiser og kør EXL2-modeller Billede af forfatter Quantizing Large Language Models (LLM’er) er den mest populære tilgang til at reducere størrelsen af disse modeller og fremskynde inferens. Blandt disse teknikker leverer GPTQ fantastisk ydeevne på GPU’er. Sammenlignet med ikke-kvantiserede modeller bruger denne metode næsten 3 gange mindre VRAM, mens den giver et tilsvarende niveau af […]