LLMer Archives - typemi.me

Skriftbibliotek

ExLlamaV2: Det hurtigste bibliotek til at køre LLM’er

November 19, 2023 chaouki0Tagged bibliotek, Det, ExLlamaV2, hurtigste, køre, LLMer, til

Kvantiser og kør EXL2-modeller Billede af forfatter Quantizing Large Language Models (LLM’er) er den mest populære tilgang til at reducere størrelsen af disse modeller og fremskynde inferens. Blandt disse teknikker leverer GPTQ fantastisk ydeevne på GPU’er. Sammenlignet med ikke-kvantiserede modeller bruger denne metode næsten 3 gange mindre VRAM, mens den giver et tilsvarende niveau af […]

9 mins read