Tillbaka till bloggen

Diffusion-modeller blir plötsligare än du tror utan ett enda träningspass

Baserad på forskning av Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava

Blockdiffusionsmodeller kombinerar traditionell textgenerering med parallell processning för att skrapa tiden, men metoder för att avgöra vilka ord som är säkra har ofta varit osäkra. Om trösklarna sätts för högt blir svaren långsamma, och lägger de för låga tappar systemet i kvalitet. De befintliga lösningarna kräver antingen extra träning eller kraftigt beräkningsarbete under körning för att fixa problemet.

Den nya metoden kallas S2D2 och fungerar genom att låta modellens egen struktur spela både rollen som föreslagare och verifierare. Genom att minska blockstorleken till ett blir modellen autoregressiv inom varje steg, vilket tillåter samma upplärda viktningar att bedöma sannolikheter lokalt. Systemet använder lätta routeringsregler för att bestämma när det är värt att verifiera en rad parallellt genererade tecken innan de accepteras.

Testerna visar att teknikens effektivitet är exceptionellt god över olika modeller och uppdrag. På SDAR ökar hastigheten upp till 4,7 gånger jämfört med traditionella metoder medan noggrannheten förbättras med fyra och en halv procent. Även på mindre modeller som LLaDA2.1-Mini klarar systemet av att vara flera gånger snabbare än statiska alternativ utan att offra kvalitet. Tekniken bekräftar att det är möjligt att bryta hinder mellan hastighet och precision helt utan yttre optimering.

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation, Ligong Han et al., https://arxiv.org/abs/2603.25702

Källa: arXiv:2603.25702

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.