Question 1

Vilka modeller kan jag använda?

Accepted Answer

Kontextfönster per modell: Qwen3.5 35B (a3b-variant) 262k, Gemma 4 31B 96k, Qwen3.5 9B 32k. Qwen3.5 35B körs på dedikerad multi-GPU-hårdvara. Qwen3.5 9B på en separat GPU-nod. Gemma 4 31B för variation. Du väljer per request via model-fältet — samma OpenAI-kompatibla API.

Question 2

Vad kostar det jämfört med att hosta själv?

Accepted Answer

En dedikerad GPU-server för en 30B-modell kostar lätt 30 000 kr i hårdvara plus ström, kylning, hosting, ops-tid och nattetid-jourer. Om du värdesätter din ops-tid till 1000 kr/h så är staiks Hobby-plan (79 kr/mån) billigare än 5 minuters underhåll i månaden. Du köper hosting, vi sköter Ollama-uppdateringar, GPU-drivers, modellhämtning, monitoring och brandväggsregler.

Question 3

Kan jag finetuna en modell?

Accepted Answer

Inte just nu. Vi kör vanilla open-weights-modeller utan custom-träning. Om du behöver finetuning rekommenderar vi att börja med en bra systemprompt + few-shot-exempel — det räcker längre än de flesta tror. Vill du diskutera dedikerad hosting med custom modeller, mejla jens@staik.se.

Question 4

Vad är latensen?

Accepted Answer

Typisk first-token-latens 300–700 ms från svensk klient (Tailscale-hop till GPU-noden tar ~10 ms). Token-throughput ~40 tok/s för 35B, ~80 tok/s för 9B. Streaming-stöd är fullt implementerat så du börjar se svar direkt.

Question 5

Vad händer om jag når daggränsen?

Accepted Answer

Två alternativ: (1) köp ett tokenpaket från 9 kr (100k tokens, giltiga 1 år) som automatiskt aktiveras när daggränsen är nådd. (2) Uppgradera till nästa plan. Vi skickar ett mail när du når 90% så du inte blir tagen på sängen. Inga "surprise overage charges".

Question 6

Har ni SLA?

Accepted Answer

Inte ett kontrakterat SLA idag — vi är ett bootstrap-bolag och vill inte lova mer än vi kan hålla. I praktiken har vi haft >99.5% uptime senaste kvartalet med automatisk failover mellan GPU:er. Behöver ni formellt SLA för enterprise-användning, mejla jens@staik.se så pratar vi.

Qwen som hosted API
utan GPU-drift

Self-host vs. staik

Vad du faktiskt får tillgång till

Vanliga frågor

Sluta drifta GPU:er. Börja anropa.

Qwen som hosted APIutan GPU-drift

Self-host vs. staik

Vad du faktiskt får tillgång till

Vanliga frågor

Sluta drifta GPU:er. Börja anropa.

Qwen som hosted API
utan GPU-drift