Tänk dig att hantera miljontals specialiserade AI-personligheter utan att duplicera den enorma beräkningskraft som krävs för att bygga dem. Forskare har nu presenterat MinT, ett system som gör det möjligt att träna och driva oändligt många anpassade modeller genom att hålla en enda stor basmodell i minnet och snabbt växla ut och in lätta ”adapterfiler”. Det är som att ha en motor som omedelbart kan förvandlas till en miljon olika fordon, var och en optimerad för en specifik uppgift, utan att motorn någonsin behöver byggas om.

Kärnan i innovationen ligger i hur MinT hanterar Low-Rank Adaptation, eller LoRA. Istället för att slå ihop varje ny variant i en stor, separat fil behåller systemet den ursprungliga basmodellen i minnet och flyttar endast de små LoRA-adapterfilerna. Dessa adapterfiler är minimala, ofta mindre än en procent av originalmodellens storlek. Denna metod gör att systemet kan hantera rullning, uppdateringar och leverans via ett enkelt tjänstegränssnitt, vilket döljer den komplexa distribuerade modellberäkningen och datahanteringen bakom kulisserna.

Resultaten är slående. Genom att endast flytta adaptern minskade systemet tiden för modellöverlämningar med upp till 18 gånger på mindre modeller och med nästan tre gånger på större. Det påskyndade även parallella träningsprocesser med över fyrtio procent utan att öka minnesanvändningen. Kanske mest imponerande kan MinT hantera kataloger med en miljon adresserbara policyer, där laddning av nya adapterfiler behandlas som schemalagd service. Denna packade tensorladdning förbättrade prestandan i den levande instansen med nästan nio gånger, vilket bevisar att man kan skala till enorma kataloger utan de vanliga infrastrukturhalsen.

Slutsatsen är tydlig: AI-deploymentens framtid handlar inte om att bygga större modeller för varje användningsfall, utan om att hantera smartare lager ovanpå delade grundvalar. MinT visar att vi nu kan träna och driva miljontals specialiserade policyer över en enda, massiv basmodell. Detta flyttar branschens fokus från att hugga rå beräkningskraft till effektiv, skalbar hantering av AI-varianter, vilket gör personifierad, storskalig AI-deployment betydligt mer praktisk och tillgänglig.