Modellerna dömer sig själva: Så uppnås nya höjder utan mänsklig träning
Baserad på forskning av Zhengxian Wu, Kai Shi, Chuanrui Zhang, Zirui Liao, Jun Yang
Forskare har hittat ett sätt för AI-modeller att bli skarpare i matematiska utmaningar helt utan att människor behöver ge dem rätt svar. Metoden bryter med den etablerade regeln där kostsamma, handanpassade data krävs för att höja prestandan hos stora multimodella system.
Istället gör AI-modellen sig själv en tjänst genom att bedöma egna tänkande processar. När modellen möter ett problem skapar den flera olika lösningssvägar och väger sedan dessa mot varandra baserat på sin egen inre logik. Genom att jämföra sina egna resultat kan modellen identifiera vilken tankegång som är bäst och anpassa sin strategi för nästa gång, helt autonomt.
Konflikten ligger i den stora industrin där tid och pengar spreds för att manuellt märka data. Denna nya teknik visar att man istället kan låta AI:et optimera sig själv kontinuerligt på omarbetad data. Det eliminerar behovet av externa lärare eller mänskliga bedömare, vilket gör tekniken skalbar och billigare att implementera.
Slutsatsen är att framtidens smarta system inte behöver läras av människor för att bli smartare i logiska problem utan kan utvecklas själva genom en intern process av självkritik och jämförelse. Detta öppnar för snabbare innovation och breddning av AI:s förmågor inom matematik och andra komplexa områden utan de traditionella flaskhalsarna kring datapreparation.
When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning Zhengxian Wu, Kai Shi, Chuanrui Zhang, Zirui Liao, Jun Yang https://arxiv.org/abs/2603.21289