Den lätta grunden som gör att allt från ljud till
Baserad på forskning av Matan Ben-Yosef, Tavi Halperin, Naomi Ken Korem, Mohammad Salama, Harel Cain
Existerande metoder för att styra video- och ljudgenerering ställs inför ett stort dilemma. Forskare har traditionellt tvingats välja mellan att träna ett enda tungt, monolitiskt modellobjekt för en fast uppsättning styrparametrar eller introducera dyra arkitektoniska ändringar varje gång man vill lägga till en ny funktionalitet. Detta skapar ineffektivitet vad gäller både beräkningsresurser och dataanvändning när nya krav uppstår inom den växande världen av multimodal AI.
Det löner sig dock att bryta denna tradition med AVControl, ett lättviktsramverk byggt på LTX-2 som löser problemet på ett radikalt annat sätt. Istället för att ändra modellens kärna eller behöva träna helt om, utvecklas varje kontrollsätt – såsom djupdata, kroppshållning eller ljudtransformationer – oberoende av varandra som separata LoRA-moduler. Nyckeln ligger i en parallell canvas-struktur där referenssignalerna matas in direkt i uppmärksamhetsskikten utan några ytterligare arkitektoniska ingrepp bortom själva adapterna.
Metoden bekräftar att försök att ta befintliga bildbaserade metoder och applicera dem direkt på video oftast misslyckas när det gäller strukturell kontroll, medan AVControl hanterar detta fläckfritt. I tester visar sig ramverket överträffa alla jämförbara alternativ vad gäller djup- och hållningsstyrd generering samt fyllnad och utvidgning av videosekvenser. Dessutom lyckas metoden erbjuda konkurrenskraftiga resultat för kamerastyrning och ljudrelaterade uppgifter, vilket är unikt eftersom AVControl presenterar här den första modulen som stöder både ljud- och visuell styrning för ett gemensamt genereringsmodell.
Detta framgår inte bara av bättre prestanda utan också av hur resurseffektivt arbetssättet är. Varje kontrollsätt kräver endast en liten datamängd och konvergerar inom några hundratals till tusentals träningssteg, vilket representerar en bråkdel av kostnaden jämfört med monolitiska alternativ. Genom att släppa koden och träna checkpoint öppet bidrar forskarna till att demokratisera tillgången till avancerad multimodal kontroll för framtida tillämpningar inom både underhållning och industriella användningsfall.