Stora språkmodeller är på väg att bli kraftfulla användarsimulatorer, men de klarar ännu inte av att efterlikna det kaotiska i den mänskliga vardagen. Nuvarande tester fångar AI:n i isolerade bubblor som ignorerar hur våra beslut rullar ut över olika situationer och tid.

För att lösa detta har forskare byggt OmniBehavior, ett nytt benchmark skapat helt av data från verkliga livssituationer. Det utmanar modellerna med långsiktiga mål som sträcker sig över flera scenarier och mångfaldiga beteendemönster, långt bortom de snäva, syntetiska datamängder som använts tidigare. Resultaten är tydliga: dagens AI kämpar för att hålla jämna steg, med prestanda som träffar ett tak även när modellen ges enorma mängder kontext.

En närmare titt avslöjar en oroande bias där simulerade människor blir hyperaktiva och överdrivet positiva. Istället för att spegla individuella drag eller ovanliga beteenden konvergerar dessa modeller mot en idealiserad "genomsnittsperson". Denna utopiska filter tar bort de unika skillnader som gör mänskligt beteende autentiskt, vilket lämnar långsiktiga handlingar helt utan representation.

Slutsatsen är enkel: högkvalitativ simulering kräver mer än bara större kontextfönster. Framtida forskning måste adressera dessa strukturella bias för att fånga hela spektrumet av hur människor faktiskt tänker och agerar.