Tillbaka till bloggen

MSA: En modell som minns allt du sägt

Baserad på forskning av Yu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li

Människan har ett minne som täcker hela livet, men AI har hittills straffats av tekniska begränsningar som håller tillbaka den effektiva kontextlängden till maximalt en miljon ord. Forskningsresultatet Memory Sparse Attention (MSA) bryter nu denna gyllene gräns och låter stora språkmodeller hantera uppgifter motsvarande hundra miljoner tokens utan att tappa förmågan att resonera logiskt eller förlora precision vid läsning.

Detta genomförande löser en långtgående strid inom artificiell intelligens där traditionella metoder som RAG eller fixerade minnesstaten oftast lider av försämrad noggrannhet och ökad fördröjning när textmassan växer. MSA gör detta genom att använda sällsynt uppmärksamhetsmekanismer och en nyckelinnovation kallad dokumentvis RoPE som separerar minneskapacitet från det faktiska resonemanget. Istället för att tvinga modellen att bearbeta varje enda ord med full kapacitet, fungerar systemet så att det snabbt identifierar vad som är relevant i historiken och ignorerar resten, vilket gör att beräkningarna sker lika effektivt oavsett om det rör sig om ett kort mejl eller en heltidsbok. Resultatet är framför allt stannig: när kontexten växer från 16 000 till 100 miljoner tokens uppstår mindre än nio procent förlust av prestanda, något som aldrig tidigare uppnåtts på samma sätt.

Slutsatsen blir att den nya tekniken inte bara gör AI snabbare utan också ger modeller intrinsikt minne över en livstids skala, vilket öppnar dörrar till områden som digitala tvillingar och komplicerad agentlogik. Genom att kombinera komprimering av cache parallellt hantering av data blir det möjligt att köra inferens på moderna grafikkort med extrem stabilitet. Detta innebär att framtidens AI slutligen kan komma till rätta med den omfattande kunskap som människor har åtnjutit i århundraden, och tar steget bort från de nuvarande kompromisser som begränsar utvecklingen av allmänna modeller.

Chen Y et al., MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens, https://arxiv.org/abs/2603.23516

Källa: arXiv:2603.23516

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.