De nuvarande testerna för hur väl AI-modeller förstår tredimensionellt rum är grundläggande trasiga. De bygger på föråldrad data som ignorerar hur moderna vision-språkmodeller faktiskt bearbetar video, vilket leder till vilseledande betyg som döljer verkliga misslyckanden i praktiken. Det betyder att vi har överskattat den rumsliga intelligensen hos våra mest avancerade AI-system.

Kärnan till problemet ligger i ett avstånd mellan utvärderingsstandarder och modellernas faktiska förmågor. Tidigare studier använde ofta 3D-annotationer som ursprungligen var designade för statisk perception, och behandlade dem som sanning för videanalys. Denna metodik introducerar allvarliga artefakter: objekt som är tydligt synliga i video missas, identiteter felaktigt märks och geometriska detaljer som storlek korrumperas. Dessutom antar dessa tester att AI:n ser varje bildruta i en scen. I verkligheten arbetar modellerna vanligtvis med sparsamma stickprov, vilket gör många frågeställningar i benchmarken omöjliga att besvara korrekt oavsett modellens egentliga förmåga.

Forskare har mött detta genom att introducera ReVSI, ett nytt utvärderingsprotokoll designat för att spegla hur VLM:s faktiskt fungerar. De har annoterat om objekt och geometri över 381 scener från fem olika dataset med professionella 3D-verktyg. Varje fråga-svars-par har genererats om med strikt bias-mitigering och mänsklig verifiering för att säkerställa noggrannhet. Benchmarken tillhandahåller även varianter baserade på olika antal bildrutor, vilket möjliggör precis diagnostisk analys av hur synlighet påverkar prestandan.

Resultaten avslöjar systematiska misslyckandemönster som tidigare benchmarkar har dolt. Genom att anpassa utvärderingsvillkoren till modellernas faktiska indata, exponerar ReVSI de sanna gränserna för nuvarande förmåga till rumsligt resonemang. Detta erbjuder en mer pålitlig och diagnostisk bedömning, vilket tvingar utvecklare att konfrontera klyftan mellan teoretisk potential och praktisk prestation inom 3D-förståelse.