Att låta stora språkmodeller bygga upp sina egna lösningar lyder som en dröm, men i praktiken är det ett minnesmärke. Trots stor potential fastnar tekniken ofta i felaktiga val av vilken data den ska lära sig av, vilket gör hela systemet instabilt.

Forskning visar att framgång eller fiasko avgörs av tre dolda designbeslut: vad den startande koden ser ut som, hur lång tid man tittar bakåt i felanalys och hur man hanterar misstag. I experiment med kodgenerering och datorspel hittade man att vissa startpunkter helt enkelt blockerar vägen till bättre lösningar, medan för korta minnen om misslyckanden hindrar systemet från att lära sig av tidigare experimentering. Även om mer data ofta verkar logiskt, fungerar inte det alltid monotont bättre och kan istället försämrera resultatet på nya problem.

Utmaningen är att ingen universell mall finns för hur dessa val ska göras, vilket bromsar tillämpningen i verkliga miljöer. Utan tydliga riktlinjer för dessa dolda mekanismer kommer självförbättrande AI att fortsätta vara en experimentlaboratoriekuriositet snarare än en produktionsklar lösning.

Understanding the Challenges in Iterative Generative Optimization with LLMs av Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri: https://arxiv.org/abs/2603.23994