Självkörande bilar fastnar i en paradox: för att köra säkert måste de tänka djupt, men tänkande tar tid. Dagens system förlitar sig på steg-för-steg-resonemang som är för långsamma för verkliga hastigheter, vilket skapar ett farligt glapp mellan uppfattning och handling. Forskare har nu löst detta med OneVL, ett system som tänker lika snabbt som det reagerar.

Problemet ligger i hur AI-modeller bearbetar information. Traditionella metoder genererar textliknande tankekedjor token för token, vilket introducerar oacceptabel latens. Tidigare försök att påskynda detta genom att komprimera resonemanget till dolda tillstånd misslyckades eftersom de endast fångade lingvistiska abstraktioner, inte den fysiska verkligheten i körning. OneVL ändrar spelreglerna genom att tvinga modellen att internalisera kausala dynamiker via dubbel övervakning. Den använder en språkavkodare för att rekonstruera resonemanget och en visuell världmodell för att förutsäga framtida ramar, vilket säkerställer att det dolda utrymmet förstår väggeometri och aktörers rörelser, inte bara ord.

Resultatet är en slående vändning av den konventionella visan. Genom att träna i tre steg för att alignera dessa latenta representationer med banor, språk och visuella mål uppnår systemet state-of-the-art-precision samtidigt som det kastar bort den tunga resonemangsoverhead vid inferens. Det matchar hastigheten hos enkel svarsbaserad prediktion men levererar långt överlägsen prestanda. Detta bevisar att tätare kompression, när den styrs av både lingvistisk och visuell övervakning, skapar mer generaliserbara representationer än utförligt, token-för-token-resonemang.

OneVL visar att framtiden för självkörande bilar inte handlar om att tänka längre, utan smartare. Genom att slå ihop bild-språk-förklaringar med världsmodellering har forskare skapat ett ramverk som är både snabbare och mer korrekt än befintliga metoder, vilket erbjuder en tydlig väg mot säkra, realtidsautonoma system.