Thema

Infrastruktur

3 Beiträge mit diesem Tag

Groq (Inferenz-Plattform)

Groq liefert LLM-Inferenz auf eigenen LPU-Chips – mit hunderten Token pro Sekunde. Modelle, Geschwindigkeit und Einsatzzwecke im Überblick.

LLM-Inferenz ist der laufende Betrieb eines Sprachmodells. Wie Token-Kosten entstehen, was Geschwindigkeit bestimmt und welche Anbieter zählen.

Self-hosted AI heißt: Sprachmodelle laufen auf eigener Hardware. Voraussetzungen, Tools wie Ollama und vLLM, Vorteile und Grenzen im Überblick.