När stora modeller glömmer alternativ svar lär vi dem att hantera osäkerhet
Baserad på forskning av Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas
Stora språkmodeller fungerar ofta genom att förutsäga ett enda mest sannolikt svar, vilket är effektivt men ineffektivt i situationer där flera lösningar finns. Metoden kolliderar denna vana genom att tvinga modellen att generera flera rimliga hypoteser under en enskild beräkning utan att utföra upprepade provtagningar.
I praktiken innebär detta att AI:n lär sig hantera osäkerhet snarare än att bara gissa bäst. Detta är avgörande för komplexa uppdrag som medicinsk diagnostik, där läget kan vara oklart, eller kodgenerering, där flera korrigerbara alternativ existerar. Genom en särskild träningsmetod utvecklad av forskare vid Stockholms Teknik lär sig modellerna att internalisera sökprocessen direkt i sin generativa process. Resultaten visar på ökad mångfald och bättre träffsäkerhet jämfört med traditionella metoder som kräver mer beräkningstyrka för samma resultat.
Tekniken markerar ett skiftpåstället från att helt bortskriva oklara svar till att aktivt inkludera dem, vilket gör systemen både snabbare och mer tillförlitliga i verkliga scenarier.