Stora språkmodeller är kraftfulla men plågsamt långsamma; de genererar ofta bara ett ord i taget. Forskare har hittat en smart lösning: använd en lättviktig hjälpmodell för att gissa flera framtida ord samtidigt, vilket huvudmodellen sedan snabbt verifierar. Denna teknik, känd som spekulativ avkodning, lovade att accelerera AI-generering utan att offra kvalitet.

Den senaste genombrottet kommer från en metod kallad DFlash, som använder blockdiffusion för att generera hela textblock i ett enda steg. Även om detta överträffar äldre metoder som EAGLE-3, kämpar det fortfarande med begränsningen att bara validera en specifik gissningsväg per omgång. Detta innebär att systemet ofta stoppar för tidigt och lämnar potentiella hastighetsvinster på bordet.

För att lösa detta presenterade forskare DDTree (Diffusion Draft Tree), en ny struktur som bygger ett grenande träd direkt från diffusionsmodellens förutsägelser. Istället för att kontrollera bara en linje använder algoritmen en enkel best-first heap-algoritm för att välja de mest lovande grenarna och verifierar dem alla samtidigt. Detta möjliggör att systemet accepterar längre sekvenser av genererad text innan något behöver regenereras.

Resultatet är ett betydande framsteg för spekulativ avkodning. Genom att omvandla en enskild vägs begränsning till ett parallellt verifieringsträd står DDTree nu bland de bästa metoderna idag. Det bevisar att smartare strukturell design kan låsa upp mycket högre hastigheter för AI-modellerna som driver vår digitala värld.