2026년 2월 11일, 중국 AI 연구소 Zhipu AI(현재 Z.ai로 리브랜딩)가 GLM-5를 출시했습니다. Claude Opus 4.5, GPT-5.2, Gemini 3 Pro와 코딩, 추론, 에이전트 벤치마크에서 직접 경쟁하는 새로운 오픈소스 대규모 언어 모델입니다.
시장은 강하게 반응했고, Zhipu의 홍콩 주식은 출시일에 28.7% 급등했습니다. 흥미롭게도, 공식 발표 전에 "Pony Alpha"라는 신비로운 모델이 이미 OpenRouter에서 최고 점수를 기록하고 있었습니다. 이것은 다른 이름으로 작동 중인 GLM-5였습니다.
GLM-5란?
GLM-5는 2019년 칭화대학교에서 분사하여 2026년 1월 홍콩 IPO로 약 5억 5800만 달러를 조달한 Zhipu AI의 5세대 대규모 언어 모델입니다.
Mixture-of-Experts (MoE) 아키텍처로 총 7440억 개의 매개변수 중 추론당 400억 개만 활성화됩니다. **DeepSeek Sparse Attention (DSA)**를 통합하여 최대 200K 토큰의 긴 컨텍스트를 지원합니다.
GLM-5 개요
| 사양 | 세부 사항 |
|---|---|
| 총 매개변수 | 744B |
| 활성 매개변수 | 40B |
| 아키텍처 | MoE, 256 전문가, 토큰당 8 활성 |
| 사전 훈련 데이터 | 28.5조 토큰 |
| 컨텍스트 윈도우 | 200K 토큰 |
| 라이선스 | MIT |
| 훈련 하드웨어 | Huawei Ascend 칩 |
Huawei Ascend 칩만으로 MindSpore 프레임워크를 사용하여 훈련되었습니다.
벤치마크 성능
코딩
| 벤치마크 | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 77.8% | 80.9% | 80.0% | 76.2% | 73.1% | 76.8% |
| SWE-bench Multilingual | 73.3% | 77.5% | 72.0% | 65.0% | 70.2% | 73.0% |
추론
| 벤치마크 | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro | DeepSeek-V3.2 | Kimi K2.5 |
|---|---|---|---|---|---|---|
| HLE | 30.5 | 28.4 | 35.4 | 37.2 | 25.1 | 31.5 |
| HLE(도구 사용) | 50.4 | 43.4 | 45.5 | 45.8 | 40.8 | 51.8 |
GLM-5는 Humanity's Last Exam에서 Claude Opus 4.5를 능가했습니다. BrowseComp에서는 모든 비교 모델을 능가했습니다(75.9).
환각: 기록적으로 낮은 비율
AA-Omniscience 지수에서 -1 기록, 이전 세대 대비 35포인트 개선. OpenAI, Anthropic, Google의 모든 테스트 모델을 선도합니다.
가격: Claude Opus보다 6배 저렴
| 모델 | 입력(100만 토큰당) | 출력(100만 토큰당) |
|---|---|---|
| GLM-5 | ~$0.80 | ~$2.56 |
| GPT-5.2 | $2.50 | $10.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
문서 생성
네이티브 **"에이전트 모드"**로 .docx, .pdf, .xlsx 파일 직접 생성. Claude Code, OpenCode, Roo Code, OpenClaw과 호환됩니다.
GLM-5 로컬 실행
docker pull vllm/vllm-openai:nightly
vllm serve zai-org/GLM-5-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.95
모델 가중치: zai-org/GLM-5
중국의 오픈소스 AI 물결
역사적으로 중국 AI 모델은 미국보다 약 7개월 뒤처져 있었지만, GLM-5는 그 격차를 약 3개월로 절반으로 줄였습니다.
GLM-5를 사용해 봐야 할까?
- GDPR 하에서 데이터 주권이 필요한 자체 호스팅 추론
- 대량 워크로드 비용 절감 (~$0.80/100만 입력 토큰)
- 코딩 및 에이전트 작업에서 독점 모델에 필적하는 성능
chat.z.ai에서 시도하거나 HuggingFace에서 가중치를 다운로드하세요.


