Le 11 février 2026, le laboratoire chinois d'IA Zhipu AI (désormais rebaptisé Z.ai) a lancé GLM-5, un nouveau modèle de langage open-source qui concurrence directement Claude Opus 4.5, GPT-5.2 et Gemini 3 Pro sur les benchmarks de codage, de raisonnement et de tâches agentiques.
Le marché a fortement réagi. Les actions de Zhipu à Hong Kong ont bondi de 28,7% le jour du lancement. Fait intéressant, avant l'annonce officielle, un modèle mystérieux appelé "Pony Alpha" affichait déjà les meilleurs scores sur OpenRouter. Il s'est avéré que c'était GLM-5 sous un autre nom.
Voici ce qu'il contient et comment il se compare.
Qu'est-ce que GLM-5 ?
GLM-5 est le modèle de langage de cinquième génération de Zhipu AI, une entreprise issue de l'Université Tsinghua en 2019 qui a réalisé son introduction en bourse à Hong Kong en janvier 2026, levant environ 558 millions de dollars.
Le modèle repose sur une architecture Mixture-of-Experts (MoE) avec 744 milliards de paramètres au total, dont seulement 40 milliards sont actifs par inférence. C'est presque le double de son prédécesseur GLM-4.5 (355 milliards de paramètres). Les données de pré-entraînement sont passées de 23 trillions à 28,5 trillions de tokens.
GLM-5 intègre DeepSeek Sparse Attention (DSA) pour réduire les coûts de déploiement tout en préservant la capacité de contexte long jusqu'à 200K tokens.
GLM-5 en un coup d'oeil
| Spécification | Détails |
|---|---|
| Paramètres totaux | 744B |
| Paramètres actifs (par token) | 40B |
| Architecture | Mixture-of-Experts (MoE), 256 experts, 8 actifs par token |
| Données de pré-entraînement | 28,5 trillions de tokens |
| Fenêtre de contexte | 200K tokens |
| Mécanisme d'attention | DeepSeek Sparse Attention (DSA) |
| Licence | MIT |
| Matériel d'entraînement | Puces Huawei Ascend (entièrement domestique) |
| Disponibilité | HuggingFace, API Z.ai, OpenRouter |
GLM-5 a été entraîné entièrement sur des puces Huawei Ascend avec le framework MindSpore, atteignant une indépendance totale vis-à-vis du matériel fabriqué aux États-Unis.
Performance des benchmarks
Codage & Ingénierie
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 80,9% | 80,0% | 76,2% | 73,1% | 76,8% |
| SWE-bench Multilingual | 73,3% | 77,5% | 72,0% | 65,0% | 70,2% | 73,0% |
| Terminal-Bench 2.0 | 56,2 | 59,3 | 54,0 | 54,2 | 39,3 | 50,8 |
Raisonnement
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| HLE (Humanity's Last Exam) | 30,5 | 28,4 | 35,4 | 37,2 | 25,1 | 31,5 |
| HLE avec outils | 50,4 | 43,4 | 45,5 | 45,8 | 40,8 | 51,8 |
| AIME 2026 I | 92,7 | 93,3 | - | 90,6 | 92,7 | 92,5 |
| GPQA-Diamond | 86,0 | 87,0 | 92,4 | 91,9 | 82,4 | 87,6 |
GLM-5 surpasse Claude Opus 4.5 sur Humanity's Last Exam et tient tête à GPT-5.2 et Gemini 3 Pro.
Tâches agentiques
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| BrowseComp (avec contexte) | 75,9 | 67,8 | 65,8 | 59,2 | 67,6 | 74,9 |
| t2-Bench | 89,7 | 91,6 | 85,5 | 90,7 | 85,3 | 80,2 |
| MCP-Atlas | 67,8 | 65,2 | 68,0 | 66,6 | 62,2 | 63,8 |
| Vending Bench 2 | $4.432 | $4.967 | $3.591 | $5.478 | $1.034 | $1.198 |
Sur BrowseComp, GLM-5 surpasse tous les modèles de la comparaison, y compris les propriétaires.
Hallucination : Un taux record
GLM-5 a obtenu -1 sur l'indice AA-Omniscience d'Artificial Analysis, soit une amélioration de 35 points. Il mène tous les modèles testés d'OpenAI, Anthropic et Google dans cette catégorie.
Tarification : 6 fois moins cher que Claude Opus
| Modèle | Entrée (par 1M tokens) | Sortie (par 1M tokens) |
|---|---|---|
| GLM-5 | ~$0,80 | ~$2,56 |
| GPT-5.2 | $2,50 | $10,00 |
| Claude Opus 4.6 | $5,00 | $25,00 |
Génération de documents
GLM-5 introduit un "Mode Agent" natif. Le modèle peut produire des fichiers .docx, .pdf ou .xlsx directement. Compatible avec Claude Code, OpenCode, Roo Code et OpenClaw.
Exécuter GLM-5 localement
docker pull vllm/vllm-openai:nightly
vllm serve zai-org/GLM-5-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.95
Poids du modèle sur HuggingFace : zai-org/GLM-5
La vague open-source chinoise
GLM-5 fait partie d'une vague accélérée de publications IA open-source chinoises. L'écart historique de sept mois avec les modèles américains a été réduit à environ trois mois.
Faut-il essayer GLM-5 ?
- Inférence auto-hébergée avec souveraineté des données sous GDPR.
- Charges de travail à haut volume à ~$0,80/1M tokens d'entrée.
- Codage et tâches agentiques au niveau des modèles propriétaires.
Essayez-le sur chat.z.ai ou téléchargez les poids depuis HuggingFace.
Sources :


