Tools & Regulierung

LLM-Inferenz

Auch bekannt als: Inferenz, Inference, Model Serving

LLM-Inferenz bezeichnet den Moment, in dem ein trainiertes Sprachmodell tatsächlich arbeitet: Es erhält eine Anfrage und erzeugt eine Antwort, Token für Token. Jede Chat-Antwort ist Inferenz.

Training vs. Inferenz

Training ist das Studium, Inferenz der Berufsalltag. Das Training passiert einmal und kostet Millionen. Inferenz passiert bei jeder einzelnen Anfrage — millionenfach am Tag. Deshalb bestimmt die Inferenz die laufenden Kosten im AI-Betrieb.

Wie Kosten gemessen werden

Anbieter rechnen pro Token ab — getrennt nach Input (die Anfrage) und Output (die Antwort). Output-Token kosten meist deutlich mehr. Wer Kosten plant, schätzt beides: Lange Antworten wiegen schwerer als lange Prompts.

Was die Geschwindigkeit bestimmt

Drei Faktoren entscheiden. Erstens die Modellgröße: Mehr Parameter bedeuten mehr Rechenarbeit pro Token. Zweitens die Hardware: GPUs sind Standard, Spezialchips wie LPUs beschleunigen deutlich. Drittens das Batching: Viele Anfragen parallel erhöhen den Durchsatz, können einzelne Antworten aber verzögern.

Cloud oder selbst betreiben

Hyperscaler wie AWS Bedrock, Azure AI Foundry und Google Vertex AI hosten viele Modelle. Spezialisten wie Groq, Cerebras, Together AI und Fireworks AI konkurrieren über Tempo und Preis. Die Alternative: Self-hosted AI auf eigener Hardware — ohne Token-Abrechnung, dafür mit Betriebsaufwand.

Standortbestimmung

Den nächsten Schritt im kostenlosen Diagnose-Call besprechen. Termin buchen →

Stand: Juni 2026