Tänk dig att generera högkvalitativa bilder på bara några steg, utan de suddiga artefakter som ofta plågar snabba AI-modeller. Forskare har knäckt en nyckelbottleneck i diffusionstekniken, vilket gör snabb bildgenerering både snabb och skarp.

Diffusionsmodeller skapar bilder genom att långsamt ta bort brus, men denna process är beryktad för att vara långsam. För att påskynda processen använder forskare distillationstekniker som lär en mindre modell att efterlikna en större. Nuvarande metoder som Distribution Matching Distillation (DMD) förlitar sig på att styra bilden vid specifika, fasta ögonblick. Denna styva approach leder ofta till överutjämnade visuella resultat och konstiga artefakter, vilket tvingar utvecklare att lägga till komplexa, tunga verktyg för att åtgärda kvalitetsproblemen.

Den nya metoden, Continuous-Time Distribution Matching (CDM), bryter denna styvhet. Istället för att styra bilden vid fasta punkter optimerar den processen kontinuerligt längs hela vägen. Den använder ett dynamiskt schema som anpassar sig under samplingsresan och aktivt justerar detaljer med hjälp av modellens egna förutsägelser. Detta gör att modellen kan bevara fina texturer och detaljer som traditionella metoder missar, samtidigt som behovet av komplicerade hjälpmoduler som GAN:s undviks.

Extensiva experiment på arkitekturer inklusive SD3-Medium och Longcat-Image visar att CDM ger mycket konkurrenskraftig visuell trohet för bildgenerering med få steg. Genom att gå från diskreta kontroller till kontinuerlig optimering bevisar denna approach att hastighet och kvalitet inte längre behöver utesluta varandra. Den erbjuder en renare och mer effektiv väg för framtida AI-bildgenerering.