Question 1

Stöder ni full OpenAI tool calling-spec?

Accepted Answer

Ja. Vi forwardar tools och tool_choice rakt till våra modeller utan att bryta något. Multi-turn med assistant.tool_calls fungerar, parallel tool calls fungerar, och vi översätter responsen tillbaka till OpenAI-format så er befintliga agent-loop fungerar oförändrad. Streaming av tool_calls i delta-fältet är också implementerat enligt OpenAI-spec.

Question 2

Hur stort kontextfönster får jag?

Accepted Answer

Qwen3.5 35B och Gemma 4 31B har 262 144 tokens (262k) kontextfönster — default för agenter som processar stora dokument. Qwen3.5 9B har 32 768 tokens (32k) — snabbare och bra för kortare resonemang eller chat-liknande agenter. Du väljer modell per request i model-fältet.

Question 3

Vad händer om GPU:n går ner mitt i en konversation?

Accepted Answer

Vi har en circuit breaker per GPU och en MODEL_FALLBACK-konfig: om primärmodellen är nere routar vi automatiskt till en frisk GPU/modell. Ni får en X-Fallback-Model-header så agenten vet att den fick en alternativ modell. Detta gör att tool-loopar inte avbryts av enstaka GPU-fel.

Question 4

Hur funkar prioritering på Agent-planen?

Accepted Answer

Agent-planen får sin egen FIFO-kö (separat från Hobby/PAYG), så er request hamnar inte bakom någon annans. Köodjupet rapporteras i X-Queue-Position-headern så ni kan beta in retry-logik. Standardgräns: 1 miljon tokens/timme (rullande 60-minutersfönster), 20 i kö, 120 sekunders timeout — men vi höjer gärna gränser om ni meddelar i förväg.

Question 5

Kan jag använda LangChain / LlamaIndex / Mastra?

Accepted Answer

Ja. Allt som pratar OpenAI-API fungerar — sätt bara base_url till https://api.staik.se/v1 och api_key till er staik-nyckel. LangChain ChatOpenAI, LlamaIndex OpenAI, Mastra openaiCompletions, Vercel AI SDK openai — testat och fungerar.

Question 6

Vad med streaming?

Accepted Answer

Fullt SSE-stöd. Tool calls streamas i delta-fältet enligt OpenAI-spec, content-tokens kommer i realtid. Typisk first-token-latens 300–700 ms och throughput ~40 tok/s för 35B-modellen. För agent-UX där användaren ser svaret växa fram funkar det out-of-the-box.

Bygg AI-agenter
på fast pris

Tool calling som bara fungerar

Varför fast pris för agenter?

1M tokens/timme

Prioriterad FIFO-kö

Circuit breaker + fallback

Agent

Tekniska frågor

Bygg agenten utan att räkna tokens

Bygg AI-agenterpå fast pris