11 lutego 2026 roku chińskie laboratorium AI Zhipu AI (obecnie przemianowane na Z.ai) wydało GLM-5, nowy model językowy open-source, który bezpośrednio konkuruje z Claude Opus 4.5, GPT-5.2 i Gemini 3 Pro w benchmarkach kodowania, rozumowania i zadań agentowych.
Rynek zareagował silnie. Akcje Zhipu w Hongkongu wzrosły o 28,7% w dniu wydania. Co ciekawe, przed oficjalnym ogłoszeniem tajemniczy model o nazwie "Pony Alpha" już osiągał najwyższe wyniki na OpenRouter. Okazało się, że to GLM-5 działający pod inną nazwą.
Oto co jest w środku i jak się porównuje.
Czym jest GLM-5?
GLM-5 to piąta generacja dużego modelu językowego od Zhipu AI, firmy, która powstała z Uniwersytetu Tsinghua w 2019 roku i przeprowadziła IPO w Hongkongu w styczniu 2026, pozyskując około 558 milionów dolarów.
Model oparty jest na architekturze Mixture-of-Experts (MoE) z 744 miliardami łącznych parametrów, z których tylko 40 miliardów jest aktywnych na inferencję. To prawie dwukrotnie więcej niż jego poprzednik GLM-4.5, który miał 355 miliardów parametrów. Dane treningowe wzrosły z 23 bilionów do 28,5 biliona tokenów.
GLM-5 integruje DeepSeek Sparse Attention (DSA), technikę pierwotnie opracowaną przez DeepSeek, aby zmniejszyć koszty wdrożenia przy zachowaniu pojemności długiego kontekstu do 200K tokenów.
GLM-5 w skrócie
| Specyfikacja | Szczegóły |
|---|---|
| Łączne parametry | 744 mld |
| Aktywne parametry (na token) | 40 mld |
| Architektura | Mixture-of-Experts (MoE), 256 ekspertów, 8 aktywnych na token |
| Dane treningowe | 28,5 biliona tokenów |
| Okno kontekstu | 200K tokenów |
| Mechanizm uwagi | DeepSeek Sparse Attention (DSA) |
| Licencja | MIT |
| Sprzęt treningowy | Chipy Huawei Ascend (w pełni krajowe) |
| Dostępność | HuggingFace, Z.ai API, OpenRouter |
GLM-5 został wytrenowany w całości na chipach Huawei Ascend z użyciem frameworka MindSpore, osiągając pełną niezależność od sprzętu wyprodukowanego w USA.
Wyniki benchmarków
Kodowanie i inżynieria
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 80,9% | 80,0% | 76,2% | 73,1% | 76,8% |
| SWE-bench Multilingual | 73,3% | 77,5% | 72,0% | 65,0% | 70,2% | 73,0% |
| Terminal-Bench 2.0 | 56,2 | 59,3 | 54,0 | 54,2 | 39,3 | 50,8 |
Rozumowanie
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| HLE (Humanity's Last Exam) | 30,5 | 28,4 | 35,4 | 37,2 | 25,1 | 31,5 |
| HLE z narzędziami | 50,4 | 43,4 | 45,5 | 45,8 | 40,8 | 51,8 |
| AIME 2026 I | 92,7 | 93,3 | - | 90,6 | 92,7 | 92,5 |
| GPQA-Diamond | 86,0 | 87,0 | 92,4 | 91,9 | 82,4 | 87,6 |
GLM-5 przewyższa Claude Opus 4.5 w Humanity's Last Exam (zarówno samym tekstem, jak i z narzędziami).
Zadania agentowe
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| BrowseComp (z kontekstem) | 75,9 | 67,8 | 65,8 | 59,2 | 67,6 | 74,9 |
| τ²-Bench | 89,7 | 91,6 | 85,5 | 90,7 | 85,3 | 80,2 |
W BrowseComp GLM-5 przewyższa każdy model w porównaniu, włącznie z własnościowymi.
Halucynacja: Rekordowo niski poziom
GLM-5 uzyskał -1 w indeksie AA-Omniscience od Artificial Analysis, co oznacza poprawę o 35 punktów w porównaniu z poprzednikiem. Aktualnie prowadzi wśród wszystkich testowanych modeli od OpenAI, Anthropic i Google w tej kategorii.
Ceny: 6 razy tańszy niż Claude Opus
| Model | Wejście (za 1M tokenów) | Wyjście (za 1M tokenów) |
|---|---|---|
| GLM-5 | ~0,80 $ | ~2,56 $ |
| GPT-5.2 | 2,50 $ | 10,00 $ |
| Claude Opus 4.6 | 5,00 $ | 25,00 $ |
To około 6 razy taniej na wejściu i prawie 10 razy taniej na wyjściu w porównaniu z Claude Opus 4.6.
Czy warto wypróbować GLM-5?
GLM-5 ma największy sens, gdy potrzebujesz wydajnego modelu, ale nie możesz lub nie chcesz polegać na własnościowych API:
- Samodzielnie hostowana inferencja z suwerennością danych. Jeśli działasz pod RODO i potrzebujesz pełnej kontroli nad tym, dokąd trafiają Twoje dane, GLM-5 z licencją MIT i lokalnym wdrożeniem jest jedną z najsilniejszych dostępnych opcji.
- Duże wolumeny przy ograniczonym budżecie. Przy ~0,80 $/1M tokenów wejściowych zespoły z tysiącami dziennych zapytań mogą znacząco obniżyć koszty.
- Kodowanie i zadania agentowe. Wyniki GLM-5 w SWE-bench i BrowseComp plasują go w tej samej lidze co modele własnościowe.
Wypróbuj na chat.z.ai lub pobierz wagi z HuggingFace.
Źródła:


