Forskare från OPPO har hittat ett sätt att få stora multimodella modeller att bli smartare utan att de behöver lära av människor eller andra AI-system. Metoden låter modellerna själva utvärdera och rangordna sina egna svarsnit, vilket gör träningen billigare och mer skalbar.

I stället för att använda dyra, handkorrigerade rätt svar, så genererar modellen flera olika tankebanor för varje uppgift. Därefter låter ett inbyggt system bedöma vilka av dessa banor som är bäst. Genom att konvertera absoluta poäng till relativa fördelar inom grupper gör de även modellens bedömningar mer robusta och mindre känsliga för slumpmässiga fel.

Denna teknik, kallad unsupervised self-evolution, har testats på fem olika benchmarks för matematiskt resonemang där den konsekvent höjer prestandan. Resultatet visar att det är möjligt att skapa starkare modeller som lär sig av sin egen aktivitet snarare än genom att bli tränade på omfattande datamängder med mänskligt inblandning.