Modeller misslyckas att lära sig långa spelsekvenser eftersom de ser pixelförändringar istället för dolda tillstånd.

Forskningslaget bakom WildWorld presenterar en massiv dataset på över 108 miljoner bildrutor från Monster Hunter: Wilds, där mer än 450 specifika handlingar är kopplade till explicita tillståndsdata. Till skillnad från tidigare uppsättningar, som låter handlingar smälta ihop med visuella detaljer, separerar denna dataset aktiviteten i rörelse och kamp från en underliggande strukturell modell av skelett, djupinformation och kamerapositioner. Genom att analysera hur latent state (det dolda tillståndet) förändras vid varje steg kan modeller lära sig att bevara logisk konsistens över långa tidsperioder istället för att bara simulera nästa bildruta.

Testerna på den nya benchmarksättningen, WildBench, visar att befintliga system struggle med semantiskt rika handlingar när de saknar denna explicita tillståndsinformation. Detta markerar ett skifte från ren bildgenerering mot dynamisk världssimulering där AI:n förstår varför saker händer, inte bara hur de ser ut. För utvecklare innebär detta att nästa generations generativa spel och simuleringar kräver tillståndsmedierad träning för att fungera på allvarlig skala.

Källa: "WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG" av Zhen Li m.fl. på arXiv (https://arxiv.org/abs/2603.23497).