Kodd som blir sämre med varje steg: Våra nya testresultat bekräftar det.
Baserad på forskning av Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu
Det moderna mjukvarulivet bygger på iteration, men en ny studie visar att kodgenererare faktiskt blir sämre med varje steg de gör. Forskare har upptäckt att så kallade AI-agenter förlorar kvalitet när de måste utveckla lösningar över längre tid snarare än att bara lösa ett enda problem från början till slut.
I den nya studien SlopCodeBench analyseras hur artificiell intelligens hanterar komplexa utvecklingsuppgifter genom att iterativt förbättra sina egna tidigare lösningar. Resultaten är överraskande tydliga: inget av de tjugotalet tester som provades klarades fullständigt av några av de trettio modeller som testades, varken hos kommersiella alternativ eller öppna källkodsprojekt. Det högsta uppnådda resultatet för en komplett lösning låg vid sju procent och sjönk ytterligare över tid.
Två huvudproblemer identifierades: koden blev allt mer verös med onödig repetition och strukturellt eroderad, där komplexitet hamnade i allt svårare funktioner. Mänskligt skriven kod behöll sin kvalitet under samma period, medan AI-koden försämrades markant vid varje ny iteration. Även om vissa metoder lyckades höja kvaliteten initialt kunde ingen stoppa den nedåtgående trenden. Studien bekräftar att dagens maskiner saknar den disciplin som krävs för långsiktig mjukvaruutveckling och att traditionella testmetoder undermåligt bedömer hur väl kod klarar av att expandera i framtiden.