26 May, 2024

ExLlamaV2: Det hurtigste bibliotek til at køre LLM’er

Kvantiser og kør EXL2-modeller Billede af forfatter Quantizing Large Language Models (LLM’er) er den mest populære tilgang til at reducere størrelsen af ​​disse modeller og fremskynde inferens. Blandt disse teknikker leverer GPTQ fantastisk ydeevne på GPU’er. Sammenlignet med ikke-kvantiserede modeller bruger denne metode næsten 3 gange mindre VRAM, mens den giver et tilsvarende niveau af […]

9 mins read

Sådan sender du et script til os

Hvad er Open Call-muligheden for manuskriptindsendelser? I stedet for at acceptere scripts året rundt, har vi særskilte indsendelsesvinduer for scripts, som annonceres på BBC Writers Opportunities-siden i løbet af året. Hvert åbent opkald har en deadline, hvorefter de modtagne manuskripter vurderes intensivt af vores manuskriptlæsere og BBC Writers-teamet, og der udarbejdes en shortliste. Vi tilbyder […]

12 mins read