Tillbaka till bloggen

Snyggare bilder: Enkel kalibrering löser Diffusion Transformers

Baserad på forskning av Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev

Generativa AI-modeller har blivit kungar inom skapande, men de döljer ofta en enorm potential som ligger osynlig. Forskare från Moskva har nu grävt fram denna gömda styrka och funnit ett enkelt medel för att väcka den till liv utan att bygga om hela systemet.

De vanligaste modellerna för att skapa bilder från text kallas Diffusion Transformers, eller DiT. Dessa fungerar genom att gradvis rensa bort slumpmässigt brus från en tom bildfil, tills en tydlig bild framstår. Problemet är att denna process ofta kräver många steg och stora mängder beräkningssnabbhet, vilket gör dem långsamma. Nytt forskningsarbete visar att tillförseln av endast ett enda lärt parameter för varje del i modellen kan höja kvaliteten markant.

Konflikten ligger i skillnaden mellan komplexa, tunga modeller och en mycket enkel lösning som tar minimal plats. Traditionellt anses det vara nödvändigt att träna upp alla miljontals parametrar för att få bättre resultat. Detta nya arbetssätt kallas Calibri och behandlar justeringen av modellen som ett optimeringsproblem. Genom att använda en evolutionär algoritm finner systemet den bästa justeringen genom att endast ändra cirka 100 parametrar istället för miljontals.

Resultaten visar på en tydlig överraskning: med denna lättsamma metod får man inte bara bättre bilder, utan också färre steg i tillvaratagande-processen vilket ökar hastigheten. Det bekräftas genom tester på olika text-till-bild-modeller som alla visar högre prestanda trots den extrema enkelheten. Tekniken kan alltså göra generativa AI-modeller både snabbare och mer effektiva med mycket liten ansträngning.

Källa: arXiv:2603.24800

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.