Tillbaka till bloggen

AI lär sig bättre kod från sina egna misstag

Baserad på forskning av Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert

Kan en artificiell intelligens lära sig skriva bättre kod genom att studera sina egna misstag? Ny forskning tyder på att svaret är ja, och det sker utan behov av komplexa externa verktyg eller dyra system för förstärkt inlärning. En forskargrupp har utvecklat en metod kallad enkel självdestillation som tillåter stora språkmodeller att förbättra sina färdigheter med endast sina egna rådata.

Processen innebär att generera kodsolutioner med specifika inställningar, därefter träna modellen på dessa exempel med standardmetoder. Denna metodik ökade prestandan markant på LiveCodeBench v6, där andelen lyckade lösningar för Qwen3-30B-Instruct steg från 42,4 % till 55,3 %. Vinsterna var särskilt stora vid svåra problem, vilket bekräftar att metoden fungerar där det räknas som mest. Dessutom generaliserades tekniken framgångsrikt över olika modeller och storlekar, inklusive både instruktionssökande och tänkande varianter i skala från 4 miljarder till 30 miljarder parametrar.

Studien avslöjar en dold konflikt inom hur dessa modeller genererar text: de har svårt att balansera precision med utforskning. Forskarna fann att deras metod omformar modellens interna val för att undertrycka fel där noggrannhet är avgörande, samtidigt som den behåller kreativ mångfald där det hjälper till att lösa nya problem. Denna enkla justering löser effektivt spänningen mellan att vara för stel och att vara för slumpmässig.

I slutändan erbjuder denna upptäckt en praktisk väg framåt för träning av kodgenererare. Genom att utnyttja en modellens egna data på ett rakt sätt kan utvecklare uppnå betydande förbättringar utan att lita på externa verifieringsverktyg eller komplexa lärarmodeller.

Källa: Embarrassingly Simple Self-Distillation Improves Code Generation av Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert et al., https://arxiv.org/abs/2604.01193

Källa: arXiv:2604.01193

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.