GLM-5: Claude와 GPT에 필적하는 중국의 오픈소스 거대 모델

Zhipu AI의 GLM-5는 7440억 개의 매개변수를 보유하고, MIT 라이선스로 제공되며, 벤치마크에서 Claude Opus 4.5 및 GPT-5.2에 근접한 성능을 보입니다. 전적으로 화웨이 칩으로 훈련되었고 독점 경쟁 모델보다 약 6배 저렴하여, 현재 이용 가능한 가장 강력한 오픈소스 모델 중 하나입니다.

2026년 2월 11일, 중국 AI 연구소 Zhipu AI(현재 Z.ai로 리브랜딩)가 GLM-5를 출시했습니다. Claude Opus 4.5, GPT-5.2, Gemini 3 Pro와 코딩, 추론, 에이전트 벤치마크에서 직접 경쟁하는 새로운 오픈소스 대규모 언어 모델입니다.

시장은 강하게 반응했고, Zhipu의 홍콩 주식은 출시일에 28.7% 급등했습니다. 흥미롭게도, 공식 발표 전에 "Pony Alpha"라는 신비로운 모델이 이미 OpenRouter에서 최고 점수를 기록하고 있었습니다. 이것은 다른 이름으로 작동 중인 GLM-5였습니다.

GLM-5란?

GLM-5는 2019년 칭화대학교에서 분사하여 2026년 1월 홍콩 IPO로 약 5억 5800만 달러를 조달한 Zhipu AI의 5세대 대규모 언어 모델입니다.

Mixture-of-Experts (MoE) 아키텍처로 총 7440억 개의 매개변수 중 추론당 400억 개만 활성화됩니다. **DeepSeek Sparse Attention (DSA)**를 통합하여 최대 200K 토큰의 긴 컨텍스트를 지원합니다.

GLM-5 개요

사양	세부 사항
총 매개변수	744B
활성 매개변수	40B
아키텍처	MoE, 256 전문가, 토큰당 8 활성
사전 훈련 데이터	28.5조 토큰
컨텍스트 윈도우	200K 토큰
라이선스	MIT
훈련 하드웨어	Huawei Ascend 칩

Huawei Ascend 칩만으로 MindSpore 프레임워크를 사용하여 훈련되었습니다.

벤치마크 성능

코딩

벤치마크	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
SWE-bench Verified	77.8%	80.9%	80.0%	76.2%	73.1%	76.8%
SWE-bench Multilingual	73.3%	77.5%	72.0%	65.0%	70.2%	73.0%

추론

벤치마크	GLM-5	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro	DeepSeek-V3.2	Kimi K2.5
HLE	30.5	28.4	35.4	37.2	25.1	31.5
HLE(도구 사용)	50.4	43.4	45.5	45.8	40.8	51.8

GLM-5는 Humanity's Last Exam에서 Claude Opus 4.5를 능가했습니다. BrowseComp에서는 모든 비교 모델을 능가했습니다(75.9).

환각: 기록적으로 낮은 비율

AA-Omniscience 지수에서 -1 기록, 이전 세대 대비 35포인트 개선. OpenAI, Anthropic, Google의 모든 테스트 모델을 선도합니다.

가격: Claude Opus보다 6배 저렴

모델	입력(100만 토큰당)	출력(100만 토큰당)
GLM-5	~$0.80	~$2.56
GPT-5.2	$2.50	$10.00
Claude Opus 4.6	$5.00	$25.00

문서 생성

네이티브 **"에이전트 모드"**로 .docx, .pdf, .xlsx 파일 직접 생성. Claude Code, OpenCode, Roo Code, OpenClaw과 호환됩니다.

GLM-5 로컬 실행

bash

docker pull vllm/vllm-openai:nightly
vllm serve zai-org/GLM-5-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.95

모델 가중치: zai-org/GLM-5

중국의 오픈소스 AI 물결

역사적으로 중국 AI 모델은 미국보다 약 7개월 뒤처져 있었지만, GLM-5는 그 격차를 약 3개월로 절반으로 줄였습니다.

GLM-5를 사용해 봐야 할까?

GDPR 하에서 데이터 주권이 필요한 자체 호스팅 추론
대량 워크로드 비용 절감 (~$0.80/100만 입력 토큰)
코딩 및 에이전트 작업에서 독점 모델에 필적하는 성능

chat.z.ai에서 시도하거나 HuggingFace에서 가중치를 다운로드하세요.