När man tidigare behövde timmars data för att skapa en perfekt digital röst, räcker det nu med långa tre sekunder för AI att generera ett naturligt och uttrycksfullt språk. Nyckeln till denna revolution ligger i en ny modell som kallas Voxtral TTS, utvecklad av forskare vid Stockholms Teknik och AI Konsult.

Systemet använder en blandad arkitektur där semantiska taltecken genereras sekvensvis samtidigt som akustiska tecken matchas med hjälp av så kallad flödesmatchning. Alla dessa tecken kodsas sedan i Voxtral Codec, ett verktyg som tränats helt nyligen med en specifik kvantiseringsteknik för att exakt fånga de mänskliga röstens nyanser.

En stor konflikt inom rösttekniken har funnits mellan snabbhet och naturlighet, men denna lösning visar att man kan ha bäst av båda världar utan att offra kvalitet för effektivitet. I oberoende tester med utvärderare överträffade modellen konkurrenten ElevenLabs Flash v2.5 markant genom att vinna 68,4 procent av röstningarna på grund av dess överlägsna naturlighet och uttryckskraft. Detta bryter med den gängse myten om att hög kvalitet kräver enorma datamängder, vilket öppnar för en framtid där vem som helst kan få sin egen höga kvalitetsröst skapad på sekunder från ett litet ljudklipp.

Källa: Voxtral TTS av Alexander H. Liu och medarbetare, https://arxiv.org/abs/2603.25551