Din AI-assistent är nu 1,7 gånger snabbare
Baserad på forskning av Ziqi Jin, Lei Wang, Ziwei Luo, Aixin Sun
Autoregressiva språkmodeller genererar vanligtvis text ett token i taget, även när nästa token är uppenbart. Denna tvekan bromsar samtal och slöser med beräkningskraft. Forskare har nu löst denna flaskhals med MARS, en ny teknik som lär befintliga modeller att förutsäga flera token på ett enda steg utan att ändra deras arkitektur eller lägga till extra parametrar. Till skillnad från andra metoder som kräver separata utkastmodeller eller ytterligare huvuden, omtränar MARS helt enkelt modellen på standardinstruktionsdata. Resultaten är imponerande: när systemet får generera flera token per pass bibehåller det baslinjens noggrannhet samtidigt som genomströmningen ökar med 1,5 till 1,7 gånger. Genom att kombinera detta med en blocknivå-cache-strategi nådde teamet upp till 1,71 gånger snabbare prestanda jämfört med standardautoregressiv generation på Qwen2.5-7B. Kanske mest imponerande är att metoden tillåter systemen att justera hastighet i realtid baserat på begäranbelastning genom att finjustera trolighetsgränsvärden, vilket erbjuder en praktisk väg att balansera latens och prestanda utan att byta ut modeller eller starta om tjänster. Källa: MARS: Enabling Autoregressive Models Multi-Token Generation av Ziqi Jin, Lei Wang, Ziwei Luo, Aixin Sun, https://arxiv.org/abs/2604.07023