Föreställ er en robot som inte bara ser världen utan förstår den djupt – den förutser hur föremål rör sig och planerar komplexa handlingar i realtid. Nya grundmodeller bryter nu barriären mellan generisk bildigenkänning och de specifika kraven på fysiska agenter som verkar i vårt oordnade, dynamiska vardagsliv.

Forskare har utvecklat HY-Embodied-0.5 för att lösa detta genom att förstärka rumslig perception och avancerad resonans för förutsägelse och planering. Systemet använder en specialiserad Mixture-of-Transformers (MoT)-arkitektur som låter olika delar av modellen hantera specifika visuella uppgifter effektivt, samtidigt som latent tokens integreras för att skärpa perceptuella detaljer. För att öka intelligensen utan att inflatera storleken tillämpade de en iterativ, självutvecklande post-training-paradigm.

Resultaten visar en överraskande kapacitetsökning hos kompakta system. En mindre version med bara 2 miljarder aktiva parametrar slår liknande konkurrenter på sexton benchmark, medan den större varianten med 32 miljarder parametrar matchar prestandan hos toppmodeller som Gemini 3.0 Pro. Denna effektivitet innebär att kraftfull AI nu kan köras på edge-enheter istället för att kräva massiva molnserver.

I praktiska tester där de styrde verkliga robotar lyckades modellerna översätta sin visuella förståelse till fysiska handlingar med imponerande noggrannhet. Genom att publicera koden och vikter öppnar forskarna vägen för en ny generation av embodied agents som kan navigera och interagera med den fysiska världen säkrare och effektivare än någonsin tidigare.