netzstrategen AI Operations.
Tools & Regulierung

Self-hosted AI

Auch bekannt als: Self-Hosting, lokale LLMs, On-Premise AI

Self-hosted AI bedeutet: Sprachmodelle laufen auf eigener Infrastruktur statt in der Cloud eines Anbieters. Anfragen und Daten verlassen das Unternehmen nicht. Basis sind in der Regel Open Source LLMs.

Technische Voraussetzungen

Entscheidend ist der Grafikspeicher (VRAM). Kleine Modelle mit 7–8 Milliarden Parametern laufen komprimiert ab rund 8 GB VRAM — also auf einer guten Consumer-GPU. Die 70B-Klasse braucht komprimiert etwa 40–48 GB, zum Beispiel zwei 24-GB-Karten. Unkomprimiert sind es rund 140 GB — Rechenzentrums-Hardware.

Gängige Tools

Drei Open-Source-Werkzeuge dominieren: Ollama für den einfachen Einstieg auf einzelnen Rechnern, vLLM für den performanten Produktionsbetrieb und Open WebUI als Chat-Oberfläche im Browser. Alle drei werden aktiv weiterentwickelt.

Vorteile und Nachteile

Die Vorteile: volle Datensouveränität, keine Token-API-Kosten (LLM-Inferenz) und Anpassbarkeit bis zum Fine-Tuning. Die Nachteile: Hardware-Investition, Betriebsverantwortung — Updates, Sicherheit, Monitoring — und Modellwechsel in Eigenregie.

Für wen es sinnvoll ist

Self-Hosting lohnt sich bei sensiblen Daten, hohem Anfragevolumen oder strengen Compliance-Vorgaben — etwa Data Residency in der EU. Bei geringem Volumen ist Cloud-Inferenz meist günstiger und schneller startklar.

Standortbestimmung

Den nächsten Schritt im kostenlosen Diagnose-Call besprechen. Termin buchen →

Stand: Juni 2026