AI ser bättre men glömmer hur det ska prata
Baserad på forskning av Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva
Att omvandla en standardiserad språkmodell till ett system som kan se bilder bryter ofta dess förmåga att skriva eller resonera med text. Detta sker eftersom den nya visuella träningen tvingar modellens interna logik att skifta, vilket skapar störningar som även extra finjustering har svårt att åtgärda. Tidigare försök att lösa detta bestod av att lägga till komplexa nya lager för att separera vision från text, men dessa metoder gör systemet tungt och långsamt. Forskare har nu hittat en enklare väg med LinguDistill, en teknik utan adapter som återställer förlorade språkfärdigheter utan att ändra modellens arkitektur. Teamet övervann svårigheten att träna modellen genom dess ursprungliga, frysta version genom att dela interna minneskachel mellan lager, vilket tillät den rena textexperten att guida den multimodala eleven direkt. Genom selektiv träning på data som är tungt i språk medan visuella uppgifter lämnas oförändrade, återvinner metoden cirka 10 % av prestandan som förlorats på språk- och kunskapstester. Avgörande är att den behåller jämförbar prestanda på visionstunga uppgifter där den ursprungliga modellen redan utmärkte sig. Denna metod bevisar att åtgärd av modality-specifik nedgång inte kräver extra modul, och erbjuder en effektiv och praktisk lösning för att bygga bättre multimodalt AI. Källa: LinguDistill: Recovering Linguistic Ability in Vision-Language Models via Selective Cross-Modal Distillation av Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji och Yova Kementchedjhieva, https://arxiv.org/abs/2604.00829