GLM-5 : Le géant open-source chinois qui rivalise avec Claude et GPT

Le GLM-5 de Zhipu AI compte 744 milliards de paramètres, est distribué sous licence MIT et ses benchmarks sont à portée de Claude Opus 4.5 et GPT-5.2. Entraîné entièrement sur des puces Huawei et environ 6 fois moins cher que ses rivaux propriétaires, c'est l'un des modèles open-source les plus puissants disponibles aujourd'hui.

Le 11 février 2026, le laboratoire chinois d'IA Zhipu AI (désormais rebaptisé Z.ai) a lancé GLM-5, un nouveau modèle de langage open-source qui concurrence directement Claude Opus 4.5, GPT-5.2 et Gemini 3 Pro sur les benchmarks de codage, de raisonnement et de tâches agentiques.

Le marché a fortement réagi. Les actions de Zhipu à Hong Kong ont bondi de 28,7% le jour du lancement. Fait intéressant, avant l'annonce officielle, un modèle mystérieux appelé "Pony Alpha" affichait déjà les meilleurs scores sur OpenRouter. Il s'est avéré que c'était GLM-5 sous un autre nom.

Voici ce qu'il contient et comment il se compare.

Qu'est-ce que GLM-5 ?

GLM-5 est le modèle de langage de cinquième génération de Zhipu AI, une entreprise issue de l'Université Tsinghua en 2019 qui a réalisé son introduction en bourse à Hong Kong en janvier 2026, levant environ 558 millions de dollars.

Le modèle repose sur une architecture Mixture-of-Experts (MoE) avec 744 milliards de paramètres au total, dont seulement 40 milliards sont actifs par inférence. C'est presque le double de son prédécesseur GLM-4.5 (355 milliards de paramètres). Les données de pré-entraînement sont passées de 23 trillions à 28,5 trillions de tokens.

GLM-5 intègre DeepSeek Sparse Attention (DSA) pour réduire les coûts de déploiement tout en préservant la capacité de contexte long jusqu'à 200K tokens.

GLM-5 en un coup d'oeil

Spécification	Détails
Paramètres totaux	744B
Paramètres actifs (par token)	40B
Architecture	Mixture-of-Experts (MoE), 256 experts, 8 actifs par token
Données de pré-entraînement	28,5 trillions de tokens
Fenêtre de contexte	200K tokens
Mécanisme d'attention	DeepSeek Sparse Attention (DSA)
Licence	MIT
Matériel d'entraînement	Puces Huawei Ascend (entièrement domestique)
Disponibilité	HuggingFace, API Z.ai, OpenRouter

GLM-5 a été entraîné entièrement sur des puces Huawei Ascend avec le framework MindSpore, atteignant une indépendance totale vis-à-vis du matériel fabriqué aux États-Unis.

Performance des benchmarks

Codage & Ingénierie

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
SWE-bench Verified	77,8%	80,9%	80,0%	76,2%	73,1%	76,8%
SWE-bench Multilingual	73,3%	77,5%	72,0%	65,0%	70,2%	73,0%
Terminal-Bench 2.0	56,2	59,3	54,0	54,2	39,3	50,8

Raisonnement

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
HLE (Humanity's Last Exam)	30,5	28,4	35,4	37,2	25,1	31,5
HLE avec outils	50,4	43,4	45,5	45,8	40,8	51,8
AIME 2026 I	92,7	93,3	-	90,6	92,7	92,5
GPQA-Diamond	86,0	87,0	92,4	91,9	82,4	87,6

GLM-5 surpasse Claude Opus 4.5 sur Humanity's Last Exam et tient tête à GPT-5.2 et Gemini 3 Pro.

Tâches agentiques

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
BrowseComp (avec contexte)	75,9	67,8	65,8	59,2	67,6	74,9
t2-Bench	89,7	91,6	85,5	90,7	85,3	80,2
MCP-Atlas	67,8	65,2	68,0	66,6	62,2	63,8
Vending Bench 2	$4.432	$4.967	$3.591	$5.478	$1.034	$1.198

Sur BrowseComp, GLM-5 surpasse tous les modèles de la comparaison, y compris les propriétaires.

Hallucination : Un taux record

GLM-5 a obtenu -1 sur l'indice AA-Omniscience d'Artificial Analysis, soit une amélioration de 35 points. Il mène tous les modèles testés d'OpenAI, Anthropic et Google dans cette catégorie.

Tarification : 6 fois moins cher que Claude Opus

Modèle	Entrée (par 1M tokens)	Sortie (par 1M tokens)
GLM-5	~$0,80	~$2,56
GPT-5.2	$2,50	$10,00
Claude Opus 4.6	$5,00	$25,00

Génération de documents

GLM-5 introduit un "Mode Agent" natif. Le modèle peut produire des fichiers .docx, .pdf ou .xlsx directement. Compatible avec Claude Code, OpenCode, Roo Code et OpenClaw.

Exécuter GLM-5 localement

bash

docker pull vllm/vllm-openai:nightly
vllm serve zai-org/GLM-5-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.95

Poids du modèle sur HuggingFace : zai-org/GLM-5

La vague open-source chinoise

GLM-5 fait partie d'une vague accélérée de publications IA open-source chinoises. L'écart historique de sept mois avec les modèles américains a été réduit à environ trois mois.

Faut-il essayer GLM-5 ?

Inférence auto-hébergée avec souveraineté des données sous GDPR.
Charges de travail à haut volume à ~$0,80/1M tokens d'entrée.
Codage et tâches agentiques au niveau des modèles propriétaires.

Essayez-le sur chat.z.ai ou téléchargez les poids depuis HuggingFace.

Sources :