När nya modeller försöker navigera i virtuella världar lyckas de ofta missa detaljer som människor snabbt uppfattar. Forskningsprojektet GameplayQA påvisar ett stort gap mellan hur AI:n uppfattar en spelsituation och hur en människa gör det.

Studien undersöker hur artificiell intelligens förstår komplexa 3D-spel genom att analysera videor från första personperspektiv. Istället för bara att känna igen objekt måste systemet kunna tilldela handlingar rätt agenter, hantera snabba tillståndsförändringar och resonera om flera aktörer samtidigt. Forskarna har tagit fram ett ramverk där hundratals videosekunder är märkta med detaljerade beskrivningar av vad som händer för spelaren själv, andra karaktärer samt i omgivningen.

En avgörande överraskning från testet av moderna multimodala stora språkmodeller är att de ofta drabbas av hallucinationer eller helt enkelt missar att placera händelser rätt i tiden. Modellerna klarar inte av att hålla koll på tidssekvensen över flera videor eller förstå komplexa spelbeslut, precis som en människa gör. Detta visar att dagens AI fortfarande har svårt att få tag på verklighetens dynamik och agenters roller.

För att nå mänskligt nivå krävs nya metoder som tränar systemen på att hantera dessa specifika utmaningar. Utan sådana förbättringar riskerar autonoma agenter i framtida virtuella miljöer att fatta felaktiga beslut baserade på missuppfattningar av omgivningen. Framtida forskning inom kroppsbunden AI måste därför rikta in sig på att stärka förmågan att modellera världen från en enskild agents perspektiv.

Källa: GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents av Yunzhe Wang m fl, https://arxiv.org/abs/2603.24329