Forskare upptäckte att nuvarande säkerhetstester missar en kritisk svaghet hos autonoma AI-system som använder verktyg. Istället för att bara kontrollera om svaret skadar, attackerar nya metoder själva processen genom att tvinga agenter att köra farliga program eller utföra skadliga handlingar via verktygslänkar.

Tidigare försök har fokuserat på att få fram oönskade texter från kolumnerna. Det nya arbetet, som presenteras i artikeln T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search, visar att detta inte räcker för moderna system. Genom att analysera varje steg en AI-agent tar, kan man skapa attacker som lyckas navigera runt skyddsmekanismer och fullborda farliga uppgifter i verklig tid. Testerna visade att denna teknik är effektiv även mot de mest avancerade modeller från Microsoft, Google, ByteDance och Zhipu.

Slutsatsen är allvarlig: de senaste generationernas AI-agenter har dolda sårbarheter som endast framträder när de får använda verktyg, vilket kräver helt nya sätt att säkra dem innan de släpps till allmänheten.

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search, Hyomin Lee m.fl., https://arxiv.org/abs/2603.22341