Tools & Regulierung
Groq (Inferenz-Plattform)
Groq liefert LLM-Inferenz auf eigenen LPU-Chips – mit hunderten Token pro Sekunde. Modelle, Geschwindigkeit und Einsatzzwecke im Überblick.
3 Beiträge mit diesem Tag
Groq liefert LLM-Inferenz auf eigenen LPU-Chips – mit hunderten Token pro Sekunde. Modelle, Geschwindigkeit und Einsatzzwecke im Überblick.
LLM-Inferenz ist der laufende Betrieb eines Sprachmodells. Wie Token-Kosten entstehen, was Geschwindigkeit bestimmt und welche Anbieter zählen.
Self-hosted AI heißt: Sprachmodelle laufen auf eigener Hardware. Voraussetzungen, Tools wie Ollama und vLLM, Vorteile und Grenzen im Überblick.