Self-hosted AI
Auch bekannt als: Self-Hosting, lokale LLMs, On-Premise AI
Self-hosted AI bedeutet: Sprachmodelle laufen auf eigener Infrastruktur statt in der Cloud eines Anbieters. Anfragen und Daten verlassen das Unternehmen nicht. Basis sind in der Regel Open Source LLMs.
Technische Voraussetzungen
Entscheidend ist der Grafikspeicher (VRAM). Kleine Modelle mit 7–8 Milliarden Parametern laufen komprimiert ab rund 8 GB VRAM — also auf einer guten Consumer-GPU. Die 70B-Klasse braucht komprimiert etwa 40–48 GB, zum Beispiel zwei 24-GB-Karten. Unkomprimiert sind es rund 140 GB — Rechenzentrums-Hardware.
Gängige Tools
Drei Open-Source-Werkzeuge dominieren: Ollama für den einfachen Einstieg auf einzelnen Rechnern, vLLM für den performanten Produktionsbetrieb und Open WebUI als Chat-Oberfläche im Browser. Alle drei werden aktiv weiterentwickelt.
Vorteile und Nachteile
Die Vorteile: volle Datensouveränität, keine Token-API-Kosten (LLM-Inferenz) und Anpassbarkeit bis zum Fine-Tuning. Die Nachteile: Hardware-Investition, Betriebsverantwortung — Updates, Sicherheit, Monitoring — und Modellwechsel in Eigenregie.
Für wen es sinnvoll ist
Self-Hosting lohnt sich bei sensiblen Daten, hohem Anfragevolumen oder strengen Compliance-Vorgaben — etwa Data Residency in der EU. Bei geringem Volumen ist Cloud-Inferenz meist günstiger und schneller startklar.
Den nächsten Schritt im kostenlosen Diagnose-Call besprechen. Termin buchen →
Stand: Juni 2026