netzstrategen AI Operations.
Tools & Regulierung

Groq (Inferenz-Plattform)

Auch bekannt als: GroqCloud, LPU, Language Processing Unit

Groq ist ein US-Anbieter für besonders schnelle LLM-Inferenz. Statt Grafikkarten nutzt das Unternehmen eigens entwickelte Chips: Language Processing Units (LPUs). Sie sind allein dafür gebaut, Sprachmodelle auszuführen — nicht, sie zu trainieren.

Nicht zu verwechseln mit Grok — dem AI-Modell von xAI. Groq ist eine Infrastruktur-Plattform, Grok ist ein Sprachmodell.

Was die Plattform bietet

GroqCloud stellt offene Modelle per API bereit — darunter Llama von Meta, OpenAIs GPT-OSS sowie Qwen- und DeepSeek-Varianten. Geschlossene Modelle wie ChatGPT oder Claude fehlen bewusst. Ende 2025 lizenzierte Nvidia die LPU-Technologie für rund 20 Milliarden US-Dollar. GroqCloud läuft seitdem als eigenständiger Dienst weiter.

Besonderheit: Geschwindigkeit

LPUs liefern Antworten deutlich schneller als übliche GPU-Inferenz. Llama 3.3 70B erreicht auf GroqCloud rund 300–400 Token pro Sekunde. Kleinere Modelle schaffen bis zu 1.000. Das entspricht mehreren Seiten Text pro Sekunde.

Typische Einsatzzwecke

Geschwindigkeit zählt überall dort, wo Menschen auf Antworten warten: Chatbots, Sprachassistenten und AI Agents, die viele Schritte nacheinander ausführen. Je schneller jede einzelne Antwort, desto flüssiger der gesamte Workflow.

Standortbestimmung

Den nächsten Schritt im kostenlosen Diagnose-Call besprechen. Termin buchen →

Stand: Juni 2026