Stora språkmodeller har gett agenta system förmågan att resonera och planera, men frågan om de kan hantera resurser under osäkerhet är fortfarande obekant. Forskning visar nu att även de mest avancerade AI-systemen sviker när det kommer till långsiktiga ekonomiska beslut i företagssimuleringar.

Studien introducerar EnterpriseArena, ett verktyg som testerar AI-agenter på 132 månaders företagsliknande scenarier. Systemet tvingar AI:n att balansera motstridiga mål, hantera brist på information och bevara flexibilitet för framtida behov. I miljön görs tillstånd endast synligt genom budgeterade verktyg, vilket skapar ett ständigt pressade scenario där agenten måste välja mellan att inhämta data eller spara pengar.

Experiment med elva olika stora språkmodeller gav överraskande resultat: bara 16% av försöken klarade sig hela vägen genom simuleringsperioden. Det var inte de största modellerna som vann, utan mindre modeller visade ibland bättre prestationer. Denna skillnad visar att långsiktig allokering av resurser under osäkerhet är en unik färdighet som nuvarande AI ännu inte besitter fullt ut.

Framtida AI-agenter måste därför utveckla nya strategier för att lyckas i komplexa ekonomiska miljöer innan de kan betraktas som pålitliga ekonomisörer.

Han, Yi et al., "Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments", arXiv: 2603.23638