Tillbaka till bloggen

Liten AI-modell besegrar jättarna med ny teknik

Baserad på forskning av Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Stora språkmodeller blir allt större, men det behöver de inte vara. Forskare har presenterat en metod för att krympa massiva AI-modeller baserade på diffusion till lätta versioner utan att offra kärnintelligensen. Detta genombrott utmanar antagandet att mindre modeller måste vara mindre kapabla och erbjuder en väg mot snabbare, billigare AI som kan köras på vanlig hårdvara.

Studien fokuserar på diffusionsbaserade stora språkmodeller, eller dLLM, som genererar text parallellt snarare än ord för ord. Även om dessa modeller är kraftfulla kräver de vanligtvis miljarder parametrar för att prestera väl. Forskarteamet utvecklade TIDE, det första ramverket för distillation över olika arkitekturer hos dLLM. Det består av tre modulära komponenter: TIDAL, som justerar distilleringsstyrkan parallellt med träningsprocessen och diffusionssteget; CompDemo, som berikar lärarens kontext genom kompletterande maskindelning; samt Reverse CALM, ett mål över olika tokeniserare som inverterar sannolikhetsmatchning på blocknivå. Det är liknande att lära en nybörjarmålare att måla som en mästare med helt olika penslar och dukar.

Det riktiga överraskande ligger i hur systemet hanterar denna arkitektoniska klyfta. Standardmetoder misslyckas här eftersom läraren och eleven talar olika tekniska språk. TIDE löser detta genom dynamiskt att justera hur mycket den litar på lärarens brusiga förutsägelser samt genom att förfina hur kontexten maskeras under träningen. Resultatet är en liten modell med 0,6 miljarder parametrar som slår baslinjen med i genomsnitt 1,53 poäng över åtta benchmark-test. Den visar särskild skicklighet i kodningsuppgifter, där den uppnår ett HumanEval-betyg på 48,78 jämfört med 32,3 för AR-baslinjen.

Slutsatsen är tydlig: vi behöver inte längre använda rå kraft för att bygga kapabla AI-system. Genom att bemästra distillation över olika arkitekturer har forskarna visat att effektivitet och prestanda kan existera sida vid sida. Denna metod öppnar vägen för högkvalitativa dLLM som är tillgängliga, prisvärda och redo för bred utbredning bortom datacenter.

Källa: arXiv:2604.26951

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.