Det nya systemet T-MAP har lyckats identifiera dolda svagheter hos avancerade AI-agenter som kan skada användare genom verktygsanvändning. Tidigare metoder för att testa AI:s säkerhet har främst fokuserat på att generera farlig text, men har missat de specifika risker som uppstår när agenter utför flera steg med hjälp av externa program och API:er.

T-MAP använder en avancerad teknik som analyserar hur agenter planerar sina åtgärder för att utforma attacker som lyckas både omgå skyddsnätet och faktiskt genomföra farliga handlingar. Detta har visat sig vara mycket effektivt i test av den nyligen lanserade Model Context Protocol, där metoden överraskande klargör grundläggande försvarsstrategier på flera modeller. Resultaten visar att tillvägagångssättet fungerar mot de senaste modellerna från stora teknikföretag och avslöjar således nya sårbarheter i autonoma AI-system som ännu inte har upptäckts eller åtgärdats.

Forskningen bakom detta framsteg presenteras i artikeln "T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search" av Hyomin Lee, Sangwoo Park och medarbetare, tillgänglig på arxiv.org.