Am 11. Februar 2026 veröffentlichte das chinesische KI-Labor Zhipu AI (jetzt als Z.ai umbenannt) GLM-5, ein neues Open-Source Large Language Model, das direkt mit Claude Opus 4.5, GPT-5.2 und Gemini 3 Pro bei Coding-, Reasoning- und agentischen Benchmarks konkurriert.
Der Markt reagierte stark. Zhipus Hongkonger Aktien stiegen am Tag der Veröffentlichung um 28,7 %. Interessanterweise hatte vor der offiziellen Ankündigung ein mysteriöses Modell namens "Pony Alpha" bereits Spitzenwerte auf OpenRouter erzielt. Es stellte sich heraus, dass es GLM-5 unter einem anderen Namen war.
Hier ist der Inhalt und der Vergleich.
Was ist GLM-5?
GLM-5 ist das Large Language Model der fünften Generation von Zhipu AI, einem Unternehmen, das 2019 aus der Tsinghua-Universität ausgegründet wurde und im Januar 2026 einen Börsengang in Hongkong absolvierte, bei dem etwa 558 Millionen Dollar eingesammelt wurden.
Das Modell basiert auf einer Mixture-of-Experts (MoE)-Architektur mit 744 Milliarden Gesamtparametern, von denen nur 40 Milliarden pro Inferenz aktiv sind. Das ist fast doppelt so groß wie sein Vorgänger GLM-4.5 mit 355 Milliarden Parametern. Die Vortrainings-Daten stiegen ebenfalls von 23 Billionen auf 28,5 Billionen Token.
GLM-5 integriert DeepSeek Sparse Attention (DSA), eine ursprünglich von DeepSeek entwickelte Technik, um Bereitstellungskosten zu senken und gleichzeitig die Langkontext-Kapazität von bis zu 200K Token zu erhalten.
GLM-5 auf einen Blick
| Spezifikation | Details |
|---|---|
| Gesamtparameter | 744 Mrd. |
| Aktive Parameter (pro Token) | 40 Mrd. |
| Architektur | Mixture-of-Experts (MoE), 256 Experten, 8 aktiv pro Token |
| Vortrainings-Daten | 28,5 Billionen Token |
| Kontextfenster | 200K Token |
| Aufmerksamkeitsmechanismus | DeepSeek Sparse Attention (DSA) |
| Lizenz | MIT |
| Trainingshardware | Huawei Ascend Chips (vollständig inländisch) |
| Verfügbarkeit | HuggingFace, Z.ai API, OpenRouter |
GLM-5 wurde vollständig auf Huawei Ascend Chips mit dem MindSpore-Framework trainiert und erreicht damit vollständige Unabhängigkeit von US-hergestellter Hardware. Angesichts der aktuellen US-Exportbeschränkungen für fortschrittliche KI-Chips ist dies ein bedeutender strategischer Meilenstein für Chinas KI-Ökosystem.
Benchmark-Leistung: Wie schneidet GLM-5 ab?
Zhipu AI positioniert GLM-5 als das leistungsfähigste verfügbare Open-Source-Modell, und die Benchmark-Zahlen stützen das weitgehend. Hier der Vergleich mit den aktuellen Frontier-Modellen.
Coding & Engineering
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 77,8 % | 80,9 % | 80,0 % | 76,2 % | 73,1 % | 76,8 % |
| SWE-bench Multilingual | 73,3 % | 77,5 % | 72,0 % | 65,0 % | 70,2 % | 73,0 % |
| Terminal-Bench 2.0 | 56,2 | 59,3 | 54,0 | 54,2 | 39,3 | 50,8 |
Claude Opus 4.5 führt weiterhin beim Coding, aber GLM-5 liegt nicht weit dahinter, und es ist Open Source und kostenlos.
Reasoning
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| HLE (Humanity's Last Exam) | 30,5 | 28,4 | 35,4 | 37,2 | 25,1 | 31,5 |
| HLE mit Tools | 50,4 | 43,4 | 45,5 | 45,8 | 40,8 | 51,8 |
| AIME 2026 I | 92,7 | 93,3 | - | 90,6 | 92,7 | 92,5 |
| GPQA-Diamond | 86,0 | 87,0 | 92,4 | 91,9 | 82,4 | 87,6 |
GLM-5 übertrifft Claude Opus 4.5 bei Humanity's Last Exam (sowohl nur Text als auch mit Tools) und hält sich bei matheintensiven Benchmarks gegen GPT-5.2 und Gemini 3 Pro.
Agentische Aufgaben
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| BrowseComp (mit Kontext) | 75,9 | 67,8 | 65,8 | 59,2 | 67,6 | 74,9 |
| τ²-Bench | 89,7 | 91,6 | 85,5 | 90,7 | 85,3 | 80,2 |
| MCP-Atlas | 67,8 | 65,2 | 68,0 | 66,6 | 62,2 | 63,8 |
| Vending Bench 2 | $4.432 | $4.967 | $3.591 | $5.478 | $1.034 | $1.198 |
Die agentischen Benchmarks verdienen einen genaueren Blick. Bei BrowseComp (agentbasierte Websuche und Kontextverwaltung) übertrifft GLM-5 jedes Modell im Vergleich, einschließlich der proprietären.
Halluzination: Eine rekordniedrige Rate
GLM-5 erzielte -1 auf dem Artificial Analysis AA-Omniscience Index, was eine Verbesserung um 35 Punkte gegenüber seinem Vorgänger darstellt. Es führt alle getesteten Modelle von OpenAI, Anthropic und Google in dieser Kategorie an.
Für Enterprise-Anwendungsfälle, bei denen Genauigkeit wichtiger ist als Kreativität, ist das ein bedeutender Vorteil.
Preise: 6-mal günstiger als Claude Opus
GLM-5 ist auf OpenRouter und der Z.ai-API zu wettbewerbsfähigen Preisen verfügbar:
| Modell | Eingabe (pro 1M Token) | Ausgabe (pro 1M Token) |
|---|---|---|
| GLM-5 | ~0,80 $ | ~2,56 $ |
| GPT-5.2 | 2,50 $ | 10,00 $ |
| Claude Opus 4.6 | 5,00 $ | 25,00 $ |
Das ist ungefähr 6-mal günstiger bei der Eingabe und fast 10-mal günstiger bei der Ausgabe im Vergleich zu Claude Opus 4.6. Für Teams mit hohem Inferenzvolumen summieren sich die Kosteneinsparungen schnell.
Dokumentengenerierung: Über Chat hinaus
GLM-5 führt native "Agent Mode"-Fähigkeiten ein, die über traditionellen Chat hinausgehen. Statt nur Text zurückzugeben, kann das Modell einen Prompt nehmen und eine fertige .docx-, .pdf- oder .xlsx-Datei direkt erstellen.
Das Modell ist auch mit beliebten Coding-Agenten wie Claude Code, OpenCode und Roo Code sowie OpenClaw kompatibel.
GLM-5 lokal bereitstellen
Einer der größten Vorteile eines MIT-lizenzierten Modells: Sie können es selbst betreiben. GLM-5 unterstützt Bereitstellung über vLLM, SGLang und xLLM.
Mit vLLM (Docker)
docker pull vllm/vllm-openai:nightly
Bereitstellen
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.95
Die FP8-quantisierte Version wird für Produktionsbereitstellungen empfohlen.
Modellgewichte sind auf HuggingFace verfügbar: zai-org/GLM-5
Chinas Open-Source-KI-Welle
GLM-5 steht nicht allein. Es ist Teil einer beschleunigten Welle chinesischer Open-Source-KI-Veröffentlichungen. Laut einer Stanford-Studie lagen chinesische KI-Modelle historisch etwa sieben Monate hinter ihren US-Gegenstücken. GLM-5 kam nur etwa drei Monate nach den neuesten Veröffentlichungen von Anthropic, Google und OpenAI, was diese Verzögerung effektiv halbiert.
Für Entwickler und Unternehmen bedeutet das mehr Optionen, niedrigere Preise und wachsenden Druck auf proprietäre Modelle, ihre Premiumpreise zu rechtfertigen.
Sollten Sie GLM-5 ausprobieren?
GLM-5 ergibt am meisten Sinn, wenn Sie ein leistungsfähiges Modell brauchen, aber nicht auf proprietäre APIs angewiesen sein können oder wollen. Einige Szenarien, in denen es heraussticht:
- Selbst gehostete Inferenz mit Datensouveränität. Wenn Sie unter DSGVO oder ähnlichen Vorschriften arbeiten und volle Kontrolle über den Verbleib Ihrer Daten brauchen, ist GLM-5 mit MIT-Lizenz und lokaler Bereitstellung eine der stärksten verfügbaren Optionen.
- Hochvolumen-Workloads mit Budget. Bei ~0,80 $/1M Eingabetoken können Teams mit Tausenden täglicher Anfragen die Kosten im Vergleich zu Claude oder GPT erheblich senken, ohne einen großen Qualitätsverlust.
- Coding und agentische Aufgaben. GLM-5s Benchmark-Werte bei SWE-bench und BrowseComp ordnen es in dieselbe Liga wie proprietäre Modelle ein.
Die üblichen Vorbehalte gelten: Benchmark-Werte übersetzen sich nicht immer in reale Nutzbarkeit. Aber die Lücke verengt sich, und GLM-5 hebt die Messlatte für das, was als kostenloses, offenes Modell verfügbar ist.
Testen Sie es unter chat.z.ai oder laden Sie die Gewichte von HuggingFace.
Quellen:


