GLM-5: Chinas Open-Source-Gigant, der mit Claude und GPT konkurriert

Zhipu AIs GLM-5 kommt mit 744 Milliarden Parametern, wird unter der MIT-Lizenz veröffentlicht und liegt in Benchmarks in Schlagdistanz zu Claude Opus 4.5 und GPT-5.2. Vollständig auf Huawei-Chips trainiert und ungefähr 6-mal günstiger als seine proprietären Rivalen, ist es eines der stärksten Open-Source-Modelle heute.

Am 11. Februar 2026 veröffentlichte das chinesische KI-Labor Zhipu AI (jetzt als Z.ai umbenannt) GLM-5, ein neues Open-Source Large Language Model, das direkt mit Claude Opus 4.5, GPT-5.2 und Gemini 3 Pro bei Coding-, Reasoning- und agentischen Benchmarks konkurriert.

Der Markt reagierte stark. Zhipus Hongkonger Aktien stiegen am Tag der Veröffentlichung um 28,7 %. Interessanterweise hatte vor der offiziellen Ankündigung ein mysteriöses Modell namens "Pony Alpha" bereits Spitzenwerte auf OpenRouter erzielt. Es stellte sich heraus, dass es GLM-5 unter einem anderen Namen war.

Hier ist der Inhalt und der Vergleich.

Was ist GLM-5?

GLM-5 ist das Large Language Model der fünften Generation von Zhipu AI, einem Unternehmen, das 2019 aus der Tsinghua-Universität ausgegründet wurde und im Januar 2026 einen Börsengang in Hongkong absolvierte, bei dem etwa 558 Millionen Dollar eingesammelt wurden.

Das Modell basiert auf einer Mixture-of-Experts (MoE)-Architektur mit 744 Milliarden Gesamtparametern, von denen nur 40 Milliarden pro Inferenz aktiv sind. Das ist fast doppelt so groß wie sein Vorgänger GLM-4.5 mit 355 Milliarden Parametern. Die Vortrainings-Daten stiegen ebenfalls von 23 Billionen auf 28,5 Billionen Token.

GLM-5 integriert DeepSeek Sparse Attention (DSA), eine ursprünglich von DeepSeek entwickelte Technik, um Bereitstellungskosten zu senken und gleichzeitig die Langkontext-Kapazität von bis zu 200K Token zu erhalten.

GLM-5 auf einen Blick

Spezifikation	Details
Gesamtparameter	744 Mrd.
Aktive Parameter (pro Token)	40 Mrd.
Architektur	Mixture-of-Experts (MoE), 256 Experten, 8 aktiv pro Token
Vortrainings-Daten	28,5 Billionen Token
Kontextfenster	200K Token
Aufmerksamkeitsmechanismus	DeepSeek Sparse Attention (DSA)
Lizenz	MIT
Trainingshardware	Huawei Ascend Chips (vollständig inländisch)
Verfügbarkeit	HuggingFace, Z.ai API, OpenRouter

GLM-5 wurde vollständig auf Huawei Ascend Chips mit dem MindSpore-Framework trainiert und erreicht damit vollständige Unabhängigkeit von US-hergestellter Hardware. Angesichts der aktuellen US-Exportbeschränkungen für fortschrittliche KI-Chips ist dies ein bedeutender strategischer Meilenstein für Chinas KI-Ökosystem.

Benchmark-Leistung: Wie schneidet GLM-5 ab?

Zhipu AI positioniert GLM-5 als das leistungsfähigste verfügbare Open-Source-Modell, und die Benchmark-Zahlen stützen das weitgehend. Hier der Vergleich mit den aktuellen Frontier-Modellen.

Coding & Engineering

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
SWE-bench Verified	77,8 %	80,9 %	80,0 %	76,2 %	73,1 %	76,8 %
SWE-bench Multilingual	73,3 %	77,5 %	72,0 %	65,0 %	70,2 %	73,0 %
Terminal-Bench 2.0	56,2	59,3	54,0	54,2	39,3	50,8

Claude Opus 4.5 führt weiterhin beim Coding, aber GLM-5 liegt nicht weit dahinter, und es ist Open Source und kostenlos.

Reasoning

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
HLE (Humanity's Last Exam)	30,5	28,4	35,4	37,2	25,1	31,5
HLE mit Tools	50,4	43,4	45,5	45,8	40,8	51,8
AIME 2026 I	92,7	93,3	-	90,6	92,7	92,5
GPQA-Diamond	86,0	87,0	92,4	91,9	82,4	87,6

GLM-5 übertrifft Claude Opus 4.5 bei Humanity's Last Exam (sowohl nur Text als auch mit Tools) und hält sich bei matheintensiven Benchmarks gegen GPT-5.2 und Gemini 3 Pro.

Agentische Aufgaben

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
BrowseComp (mit Kontext)	75,9	67,8	65,8	59,2	67,6	74,9
τ²-Bench	89,7	91,6	85,5	90,7	85,3	80,2
MCP-Atlas	67,8	65,2	68,0	66,6	62,2	63,8
Vending Bench 2	$4.432	$4.967	$3.591	$5.478	$1.034	$1.198

Die agentischen Benchmarks verdienen einen genaueren Blick. Bei BrowseComp (agentbasierte Websuche und Kontextverwaltung) übertrifft GLM-5 jedes Modell im Vergleich, einschließlich der proprietären.

Halluzination: Eine rekordniedrige Rate

GLM-5 erzielte -1 auf dem Artificial Analysis AA-Omniscience Index, was eine Verbesserung um 35 Punkte gegenüber seinem Vorgänger darstellt. Es führt alle getesteten Modelle von OpenAI, Anthropic und Google in dieser Kategorie an.

Für Enterprise-Anwendungsfälle, bei denen Genauigkeit wichtiger ist als Kreativität, ist das ein bedeutender Vorteil.

Preise: 6-mal günstiger als Claude Opus

GLM-5 ist auf OpenRouter und der Z.ai-API zu wettbewerbsfähigen Preisen verfügbar:

Modell	Eingabe (pro 1M Token)	Ausgabe (pro 1M Token)
GLM-5	~0,80 $	~2,56 $
GPT-5.2	2,50 $	10,00 $
Claude Opus 4.6	5,00 $	25,00 $

Das ist ungefähr 6-mal günstiger bei der Eingabe und fast 10-mal günstiger bei der Ausgabe im Vergleich zu Claude Opus 4.6. Für Teams mit hohem Inferenzvolumen summieren sich die Kosteneinsparungen schnell.

Dokumentengenerierung: Über Chat hinaus

GLM-5 führt native "Agent Mode"-Fähigkeiten ein, die über traditionellen Chat hinausgehen. Statt nur Text zurückzugeben, kann das Modell einen Prompt nehmen und eine fertige .docx-, .pdf- oder .xlsx-Datei direkt erstellen.

Das Modell ist auch mit beliebten Coding-Agenten wie Claude Code, OpenCode und Roo Code sowie OpenClaw kompatibel.

GLM-5 lokal bereitstellen

Einer der größten Vorteile eines MIT-lizenzierten Modells: Sie können es selbst betreiben. GLM-5 unterstützt Bereitstellung über vLLM, SGLang und xLLM.

Mit vLLM (Docker)

bash

docker pull vllm/vllm-openai:nightly

Bereitstellen

bash

vllm serve zai-org/GLM-5-FP8 \
     --tensor-parallel-size 8 \
     --gpu-memory-utilization 0.95

Die FP8-quantisierte Version wird für Produktionsbereitstellungen empfohlen.

Modellgewichte sind auf HuggingFace verfügbar: zai-org/GLM-5

Chinas Open-Source-KI-Welle

GLM-5 steht nicht allein. Es ist Teil einer beschleunigten Welle chinesischer Open-Source-KI-Veröffentlichungen. Laut einer Stanford-Studie lagen chinesische KI-Modelle historisch etwa sieben Monate hinter ihren US-Gegenstücken. GLM-5 kam nur etwa drei Monate nach den neuesten Veröffentlichungen von Anthropic, Google und OpenAI, was diese Verzögerung effektiv halbiert.

Für Entwickler und Unternehmen bedeutet das mehr Optionen, niedrigere Preise und wachsenden Druck auf proprietäre Modelle, ihre Premiumpreise zu rechtfertigen.

Sollten Sie GLM-5 ausprobieren?

GLM-5 ergibt am meisten Sinn, wenn Sie ein leistungsfähiges Modell brauchen, aber nicht auf proprietäre APIs angewiesen sein können oder wollen. Einige Szenarien, in denen es heraussticht:

Selbst gehostete Inferenz mit Datensouveränität. Wenn Sie unter DSGVO oder ähnlichen Vorschriften arbeiten und volle Kontrolle über den Verbleib Ihrer Daten brauchen, ist GLM-5 mit MIT-Lizenz und lokaler Bereitstellung eine der stärksten verfügbaren Optionen.
Hochvolumen-Workloads mit Budget. Bei ~0,80 $/1M Eingabetoken können Teams mit Tausenden täglicher Anfragen die Kosten im Vergleich zu Claude oder GPT erheblich senken, ohne einen großen Qualitätsverlust.
Coding und agentische Aufgaben. GLM-5s Benchmark-Werte bei SWE-bench und BrowseComp ordnen es in dieselbe Liga wie proprietäre Modelle ein.

Die üblichen Vorbehalte gelten: Benchmark-Werte übersetzen sich nicht immer in reale Nutzbarkeit. Aber die Lücke verengt sich, und GLM-5 hebt die Messlatte für das, was als kostenloses, offenes Modell verfügbar ist.

Testen Sie es unter chat.z.ai oder laden Sie die Gewichte von HuggingFace.

Quellen: