Tool calling · streaming · prioriterad kö

Bygg AI-agenter
på fast pris

Full OpenAI tool calling-spec på open source-modeller. 1 miljon tokens/timme, prioriterad kö, 262k kontextfönster. Inga $0.10/1k-överraskningar när er agent börjar producera.

100 000 gratistokens · Inget kreditkort · Agent-plan från 175 kr första månaden

Tool calling som bara fungerar

Samma tools-format som OpenAI. Multi-turn, parallel tool calls, streaming i delta-fältet — allt enligt spec.

Python · agent med tool calling
from openai import OpenAI

client = OpenAI(
    base_url="https://api.staik.se/v1",
    api_key="sk-st-..."
)

tools = [{
    "type": "function",
    "function": {
        "name": "lookup_order",
        "description": "Hämta orderstatus från CRM",
        "parameters": {
            "type": "object",
            "properties": {
                "order_id": {"type": "string"}
            },
            "required": ["order_id"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.6:35b-a3b",
    messages=[{"role": "user", "content": "Var är min order #4711?"}],
    tools=tools,
    tool_choice="auto",
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name)       # → lookup_order
print(tool_call.function.arguments)   # → {"order_id": "4711"}

Varför fast pris för agenter?

Agenter förbrukar mycket tokens — varje tool call är 3–5 round-trips med växande kontext. Token-baserat pris är inte din vän.

1M tokens/timme

Rullande 60-minutersfönster, inte daglig cap. Agent-loopar kan burst:a fritt utan att slå i midnatts-reset — ni återfår kapacitet kontinuerligt.

Prioriterad FIFO-kö

Agent-planens requests körs i separat kö, inte tillsammans med Hobby. Köposition rapporteras i X-Queue-Position-headern så er retry-logik kan vara smart.

Circuit breaker + fallback

Om GPU:n får problem failover:ar vi automatiskt till en annan modell på en annan GPU. Er agent-loop avbryts inte av enstaka hårdvarufel.

Agent

För agenter

Allt-inkluderat för produktionsagenter

175 kr/ första månaden

Sedan 349 kr/mån

  • ✓ 1 000 000 tokens / timme (rullande fönster)
  • ✓ Prioriterad FIFO-kö
  • ✓ Full tool calling (multi-turn, parallel, streaming)
  • ✓ 262K kontextfönster
  • ✓ Circuit breaker + automatisk fallback
  • ✓ X-Queue-Position-header för smart retry
  • ✓ Svensk hårdvara, GDPR-vänlig
Starta Agent

Tekniska frågor

Stöder ni full OpenAI tool calling-spec?

Ja. Vi forwardar tools och tool_choice rakt till våra modeller utan att bryta något. Multi-turn med assistant.tool_calls fungerar, parallel tool calls fungerar, och vi översätter responsen tillbaka till OpenAI-format så er befintliga agent-loop fungerar oförändrad. Streaming av tool_calls i delta-fältet är också implementerat enligt OpenAI-spec.

Hur stort kontextfönster får jag?

Qwen3.5 35B och Gemma 4 31B har 262 144 tokens (262k) kontextfönster — default för agenter som processar stora dokument. Qwen3.5 9B har 32 768 tokens (32k) — snabbare och bra för kortare resonemang eller chat-liknande agenter. Du väljer modell per request i model-fältet.

Vad händer om GPU:n går ner mitt i en konversation?

Vi har en circuit breaker per GPU och en MODEL_FALLBACK-konfig: om primärmodellen är nere routar vi automatiskt till en frisk GPU/modell. Ni får en X-Fallback-Model-header så agenten vet att den fick en alternativ modell. Detta gör att tool-loopar inte avbryts av enstaka GPU-fel.

Hur funkar prioritering på Agent-planen?

Agent-planen får sin egen FIFO-kö (separat från Hobby/PAYG), så er request hamnar inte bakom någon annans. Köodjupet rapporteras i X-Queue-Position-headern så ni kan beta in retry-logik. Standardgräns: 1 miljon tokens/timme (rullande 60-minutersfönster), 20 i kö, 120 sekunders timeout — men vi höjer gärna gränser om ni meddelar i förväg.

Kan jag använda LangChain / LlamaIndex / Mastra?

Ja. Allt som pratar OpenAI-API fungerar — sätt bara base_url till https://api.staik.se/v1 och api_key till er staik-nyckel. LangChain ChatOpenAI, LlamaIndex OpenAI, Mastra openaiCompletions, Vercel AI SDK openai — testat och fungerar.

Vad med streaming?

Fullt SSE-stöd. Tool calls streamas i delta-fältet enligt OpenAI-spec, content-tokens kommer i realtid. Typisk first-token-latens 300–700 ms och throughput ~40 tok/s för 35B-modellen. För agent-UX där användaren ser svaret växa fram funkar det out-of-the-box.

Bygg agenten utan att räkna tokens

100 000 gratistokens att börja med. Ingen kortregistrering förrän ni vet att det funkar.

Skapa gratis konto