Stora språkmodeller blir snabbare tack vare spekulativ avkodning, men hur vet vi verkligen om de är tillräckligt snabba? Nuvarande testmetoder målar ofta en för optimistisk bild som inte håller i verkligheten.

Forskare har byggt SPEED-Bench för att ta itu med detta problem genom att skapa ett enhetligt standardverktyg för att mäta dessa tekniker. Till skillnad från tidigare tester som förlitade sig på begränsade uppgifter eller högnivåsimuleringar täcker denna nya suite ett brett spektrum av semantiska ämnen och realistiska serverbelastningar. Den inkluderar specifika datadelar designade för att testa prestanda från låg-latens-scenarier till höggenomströmsmiljöer där många begäran anländer samtidigt.

Resultaten avslöjar en skarp verklighet: syntetiska indata överdriver ofta de faktiska hastighetsvinster som finns i produktionsystem. Studien exponerar också dolda bias som uppstår vid användning av data med låg mångfald och visar hur ordförkortning kan skada state-of-the-art drafters. Dessutom beror den optimala längden för att generera gissningar tungt på den specifika batchstorlek som används.

För att gå vidare behöver branschen ett enda, tillförlitligt benchmark som speglar faktiskt produktionsbeteende snarare än idealiserade förhållanden. Genom att adoptera detta nya standard kan utvecklare göra praktiska jämförelser mellan algoritmer och undvika dyra överraskningar när de drar igång modeller i stor skala.