Från språklig till fysisk intelligens

Under de senaste två åren har branschen varit besatt av debatten om den "stokastiska papegojan" – frågan om språkmodeller faktiskt förstår språk eller om de bara förutsäger nästa token. Den debatten är nu förlegad. Frontlinjen har flyttats från språklig sannolikhet till Generative Spatial Intelligence (GSI).

Vi ser ett fundamentalt skifte där AI går från att beskriva världen till att rekonstruera den. System som HY-World 2.0 visar att vi nu kan generera fullt navigerbara 3D-miljöer från en enda bild eller textprompt med hjälp av Gaussian Splatting. Detta är inte bara ett visuellt trick, utan födelsen av "världsmodeller". När en AI kan simulera ett 3D-rum med realistiskt ljus och fysik, bearbetar den inte längre bara text – den utvecklar en rumslig förståelse för verkligheten.

Det finns dock fortfarande en kritisk lucka. Studier av 3D-spatial resonemang visar på en farlig diskrepans mellan en AI:s förmåga att beskriva en scen och dess förmåga att lyda scenens fysiska lagar. Nuvarande benchmarks brister eftersom de testar statiska spatiala relationer snarare än aktiv fysisk koherens. Vi ser samma problem vid generering av användargränssnitt (GUI): modeller kan skriva syntaktiskt perfekt kod som kompileras, men gränssnittet kraschar så fort man interagerar med det. AI:n förstår kodens "grammatik", men inte användarupplevelsens "fysik".

Att stänga latensgapet: Från perception till handling

Om GSI utgör kartan, är realtidsintegration av multimodala data motorn. AI:s "tänkande" har historiskt sett varit en flaskhals – en lyx av latens som autonoma system inte har råd med.

Introduktionen av OneVL markerar ett avgörande ögonblick för förkroppsligad AI (embodied AI). Genom att eliminera den stegvisa "chain of thought"-processen som saktar ner traditionella språkmodeller, gör OneVL det möjligt för autonoma system att överbrygga gapet mellan perception och handling omedelbart. Kombineras detta med LLaDA2.0-Uni – som slår ihop förståelse och kreativitet i en enda diskret diffusionsmodell – får man ett system som kan se, resonera och agera i en enhetlig loop.

Vi rör oss mot en värld där AI:n inte först "bearbetar" en visuell input, för att sedan "besluta" om en textoutput, för att slutligen "utlösa" en fysisk rörelse. Istället blir perception och handling en enda flytande operation. Detta är förutsättningen för verklig robotik och autonom mobilitet: övergången från en chatbot som kan beskriva en bil, till en intelligens som kan köra en i realtid.

Compliance-kollapsen: Digital Omnibus

Samtidigt som AI:s tekniska förmåga accelererar mot fysisk gestaltning, monteras det juridiska ramverket som ska begränsa den ner inifrån.

Det läckta förslaget "Digital Omnibus" från EU-kommissionen är ett vattendelare. Under täckmanteln "förenkling" försöker EU i praktiken omdefiniera vad som utgör personuppgifter. Detta är inte bara byråkratiskt pappersflyttande, utan ett strategiskt pivot. För att driva nästa generation av världsmodeller och personliga agenter (som PersonaVLM) behöver AI-jättarna obegränsad tillgång till massiva mängder högupplöst data om mänskligt beteende och fysiska miljöer.

Digital Omnibus antyder en förflyttning mot "subjektiv dataidentifiering", vilket i praktiken skulle ge företag som OpenAI, Google och Meta ett blankocheck att använda europeisk data för träning. EU signalerar att man är villig att offra kärnvärdena i GDPR för att säkerställa att det inhemska AI-ekosystemet (eller de leverantörer man förlitar sig på) förblir konkurrenskraftigt.

Det transatlantiska datatomrummet

För en svensk CTO skapar denna regulatoriska volatilitet en osäker driftsmiljö. Vi bevittnar just nu en strukturell kollaps av dataöverföringen mellan EU och USA. Eftersom de juridiska grunderna för transatlantiska avtal har blivit sköra till följd av ändrade amerikanska presidentorder och domstolsbeslut, är den "compliance" som många företag hävdar att de har i själva verket en illusion.

Ironin är total: i takt med att AI-modellerna blir mer "fysiska" och integrerade i vår verkliga infrastruktur, blir den juridiska marken de står på alltmer eterisk. Om du förlitar dig på amerikansk API-infrastruktur för att driva din spatiala intelligens eller dina autonoma agenter, opererar du i en högriskszon. Din compliance-status kan försvinna, inte för att din tekniska implementering ändrats, utan för att en juridisk bro har rasat.

Benchmark-krisen

Slutligen måste vi adressera "benchmark-lögnen". Oavsett om det gäller Deep Research-agenter eller GUI-generatorer, är våra nuvarande metoder för att mäta AI-framgång fundamentalt bristfälliga.

Forskningen kring DR³-Eval bevisar att agenter som ser briljanta ut i statiska benchmarks misslyckas kapitalt när de möter det faktiska internetets kaos. Vi testar syntax och informationshämtning, inte funktionalitet och resiliens. För beslutsfattare innebär detta att påståenden om "State of the Art" (SOTA) i leverantörernas presentationsbilder sannolikt är uppblåsta. En modell som klarar ett kodtest är inte samma sak som en modell som kan bygga en funktionell applikation utan krascher.

Praktiska råd för CTOs och CISOs

1. Granska din "compliance-illusion": Utgå inte från att ett standardavtal om personuppgiftsbehandling (DPA) med en amerikansk leverantör skyddar dig. Med tanke på instabiliteten i dataflödena mellan EU och USA bör du prioritera undersökningar av suveräna molnlösningar eller lokala GPU-kluster för behandling av känslig telemetridata.

2. Skifta från syntax- till interaktionstester: Sluta lita blint på leverantörernas benchmarks. Om du implementerar AI för GUI-generering eller autonoma agenter, inför stresstester med "Human-in-the-Loop" (HITL) som mäter funktionell interaktion snarare än kodkorrekthet.

3. Förbered dig på "datakapplöpningen": Digital Omnibus tyder på ett skifte i hur data förvaltas. Det är nu du bör strama upp din interna datastyrning och klassificering. Om definitionen av "personuppgifter" ändras måste du veta exakt vad du har och vem som har tillgång till det innan de regulatoriska slussarna öppnas.

4. Utvärdera beredskapen för "världsmodeller": Om din roadmap inkluderar robotik, drönare eller komplexa spatiala gränssnitt, bör du flytta dina utvärderingskriterier från LLM-resonemang till GSI (Generative Spatial Intelligence). Värdet ligger inte längre i chatten, utan i 3D-rekonstruktion och realtidsloopar mellan perception och handling.