Ett enkelt trick som låser upp dolda AI-färdigheter
Baserad på forskning av Rishab Balasubramanian, Pin-Jie Lin, Rituraj Sharma, Anjie Fang, Fardin Abdi
Forskare har nu presenterat en metod som kan ge små språkmodeller logiken hos massiva modeller utan att behöva genomföra dyra omställningsprocesser. Enligt den så kallade "Master Key Hypothesis" finns specifika färdigheter, såsom matematik och logiskt resonemang, gömda i inre riktningar inom modellens datamapp. Genom att identifiera dessa riktningar i en modellvariant och använda enkel linjär algebra för att justera dem mot en annan, kan man omedelbart låsa upp kraftfulla förmågor. Metoden kräver inget nytt träningsdata eller kostsam finetuning.
Resultaten är överraskande effektiva. När forskare överförde resonemangsförmågor från en modell med 14 miljarder parametrar till en version med bara 7 miljarder, ökade noggrannheten på svåra matematikproblem med mer än 12 procent. Ännu imponerande var att injicera denna färdighet i en större modell med 14 miljarder parametrar drev dess prestanda över den hos en fullt tränad konkurrent. Tekniken skärper i grunden AI:s fokus mot problemlösningsvägar som den redan visste hur hantera men inte använde.
Genombrottet visar att avancerade förmågor inte är låsta av modellstorlek. Istället kan de överföras fritt mellan olika modeller genom att justera deras inre strukturer. Detta öppnar dörrarna till smartare och mer effektiva AI-system som kan utveckla nya färdigheter på begäran utan den vanliga tunga arbetsbördan.