Qwen som hosted API
utan GPU-drift
Open-weights-modeller (Qwen3.5 35B, Qwen3.5 9B, Qwen3-VL 8B och Gemma 4 26B) på dedikerad hårdvara i Sverige. OpenAI-kompatibelt API. Vi sköter Ollama, GPU-drivers, modellhämtning och monitoring — du anropar.
Self-host vs. staik
Self-hosting är frestande tills du räknar på faktisk total kostnad inklusive ops-tid och kapitalkostnad.
- ✗~30 000 kr i GPU-hårdvara (eller 800 kr/mån i molnGPU)
- ✗Du installerar och uppdaterar Ollama, CUDA-drivers, modellfiler
- ✗Du bygger eget rate limiting, queue, monitoring, fallback
- ✗Du är oncall när GPU:n hängar mitt i natten
- ✗Ström, kylning, fysisk plats, internetuppkoppling
- ✓79 kr/mån för Hobby. 0 kr för PAYG.
- ✓Vi sköter Ollama-uppdateringar, drivers, modellhämtning
- ✓Inbyggd rate limiting, kö, circuit breaker, fallback
- ✓Vi är oncall, du sover
- ✓Allt körs i Sverige — samma data residency som self-host
Vad du faktiskt får tillgång till
Du väljer modell per request via model-fältet i samma OpenAI-kompatibla API.
Vanliga frågor
Vilka modeller kan jag använda?▾
Alla modeller har 262k kontextfönster. Qwen3.5 35B (a3b-variant) körs på dedikerad multi-GPU-hårdvara. Qwen3.5 9B på en separat GPU-nod. Gemma 4 31B för variation. Du väljer per request via model-fältet — samma OpenAI-kompatibla API.
Vad kostar det jämfört med att hosta själv?▾
En dedikerad GPU-server för en 30B-modell kostar lätt 30 000 kr i hårdvara plus ström, kylning, hosting, ops-tid och nattetid-jourer. Om du värdesätter din ops-tid till 1000 kr/h så är staiks Hobby-plan (79 kr/mån) billigare än 5 minuters underhåll i månaden. Du köper hosting, vi sköter Ollama-uppdateringar, GPU-drivers, modellhämtning, monitoring och brandväggsregler.
Kan jag finetuna en modell?▾
Inte just nu. Vi kör vanilla open-weights-modeller utan custom-träning. Om du behöver finetuning rekommenderar vi att börja med en bra systemprompt + few-shot-exempel — det räcker längre än de flesta tror. Vill du diskutera dedikerad hosting med custom modeller, mejla jens@staik.se.
Vad är latensen?▾
Typisk first-token-latens 300–700 ms från svensk klient (Tailscale-hop till GPU-noden tar ~10 ms). Token-throughput ~40 tok/s för 35B, ~80 tok/s för 9B. Streaming-stöd är fullt implementerat så du börjar se svar direkt.
Vad händer om jag når daggränsen?▾
Två alternativ: (1) köp ett tokenpaket från 9 kr (100k tokens, giltiga 1 år) som automatiskt aktiveras när daggränsen är nådd. (2) Uppgradera till nästa plan. Vi skickar ett mail när du når 90% så du inte blir tagen på sängen. Inga "surprise overage charges".
Har ni SLA?▾
Inte ett kontrakterat SLA idag — vi är ett bootstrap-bolag och vill inte lova mer än vi kan hålla. I praktiken har vi haft >99.5% uptime senaste kvartalet med automatisk failover mellan GPU:er. Behöver ni formellt SLA för enterprise-användning, mejla jens@staik.se så pratar vi.
Sluta drifta GPU:er. Börja anropa.
100 000 gratistokens. Inget kreditkort. Färdig att anropa på 60 sekunder.
Skapa gratis konto