Att AI kan skriva kod verkar idag nästan magiskt. Men vad händer när koden måste utvecklas över tid? En ny studie visar att agenterna snabbt glömmer vägen till en hållbar lösning när de tvingas byta ut designen steg för steg.

De flesta tester idag granskar bara om AI lyckas lösa ett uppgift på ett skott. Men i verklig mjukvaruutveckling måste kod ändras många gånger under långa perioder. Forskarna bakom SlopCodeBench har skapat en ny metod för att titta på hur agenter hänger ihop när de själva utvidgar sina egna lösningar under löpande förändrade krav. De mäter inte bara om koden funkar, utan också hur den blir redundant och strukturellt svårare att hantera ju längre processen drar ut i tiden.

Resultaten är chockerande. Ingen av de tolv stora modellerna lyckades någonsin lösa alla problem från start till mål i dessa långa iterativa testserier. Högsta lösningsgraden hamnade på mindre än 18 procent. Istället för att bli bättre fick koden sämre och sämre. I nästan 90 av fallen ökade mängden onödigt repetitiv kod, medan strukturell nedbrytning skedde i 80 av fallen. När man jämförde agenter med människor visade det sig att AI:s kod blev mer klumpig och svårare att underhålla. Även om man försökte förbjuda de värsta felstegen genom nya instruktioner kunde inte den gradvisa försämringsprocessen stoppas helt.

Nu finns en ny verklighet i mjukvaruworlden där agenter snabbt förlorar sin arkitektona discipline när utvecklingen drar ut i tiden, och passande testresultat inte längre speglar hur robust lösningar faktiskt är för framtida anpassning.

Orlanski G, Roy D, Yun A, Shin C, Gu A, SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks, https://arxiv.org/abs/2603.24755