GPT-5.2 dosahuje 100% úspěšnosti v soutěžní matematice, 80% v reálných programátorských úlohách a poprvé poráží lidské experty v profesionální znalostní práci.

OpenAI vydává GPT-5.2: První AI, která překonává profesionály z oboru

OpenAI právě představilo GPT-5.2 a výsledky benchmarků jsou naprosto šílené. Nejedná se jen o další postupnou aktualizaci. Poprvé v historii model AI konzistentně poráží profesionály z oboru v reálné znalostní práci.

Benchmarky mluví samy za sebe

Benchmark	GPT-5.2 Thinking	GPT-5.1 Thinking
GDPval (Znalostní práce)	70,9 %	38,8 %
SWE-Bench Pro (Softwarové inženýrství)	55,6 %	50,8 %
SWE-Bench Verified (Softwarové inženýrství)	80,0 %	76,3 %
GPQA Diamond (Vědecké otázky)	92,4 %	88,1 %
CharXiv Reasoning (Vědecké grafy)	88,7 %	80,3 %
AIME 2025 (Soutěžní matematika)	100,0 %	94,0 %
FrontierMath Tier 1-3 (Pokročilá matematika)	40,3 %	31,0 %
FrontierMath Tier 4 (Pokročilá matematika)	14,6 %	12,5 %
ARC-AGI-1 (Abstraktní uvažování)	86,2 %	72,8 %
ARC-AGI-2 (Abstraktní uvažování)	52,9 %	17,6 %

Podívejte se na ten skok u ARC-AGI-2. Z 17,6 % na 52,9 %. To je trojnásobné zlepšení v opravdové schopnosti abstraktního uvažování za jednu generaci.

Číslo, na kterém záleží nejvíc

V benchmarku GDPval, který měří skutečné profesionální úkoly napříč 44 profesemi, GPT-5.2 Thinking poráží nebo vyrovnává špičkové profesionály z oboru v 70,9 % případů. Mluvíme o vytváření prezentací, tabulek, psaní zpráv, věcí, za které lidé dostávají šestimístné platy.

Jeden z hodnotitelů výstupů řekl, že to "vypadá, jako by to udělala profesionální firma s celým týmem zaměstnanců." To není překlep. Výstup AI je zaměňován za práci celého týmu.

A tady je ta hlavní pointa: GPT-5.2 vytvořilo tyto výstupy 11krát rychleji a za méně než 1 % nákladů ve srovnání s odbornými profesionály.

100% v soutěžní matematice

GPT-5.2 Thinking dosáhlo 100% úspěšnosti v AIME 2025, prestižní matematické soutěži, která mate většinu lidí. Ne 99 %. Ne 98 %. Perfektní skóre.

V FrontierMath, který testuje expertní matematiku, se kterou mají potíže i matematici s doktorátem, dosáhlo 40,3 %, což je nárůst z 31 % u GPT-5.1.

Programování se právě stalo vážnou záležitostí

80% úspěšnost v SWE-Bench Verified znamená, že GPT-5.2 dokáže spolehlivě debugovat produkční kód, implementovat funkce a refaktorovat velké kódové báze s minimálním vedením. SWE-Bench Pro testuje reálné softwarové inženýrství napříč čtyřmi programovacími jazyky, nejen Pythonem.

První testeři z Windsurf, JetBrains a Warp to označují za "největší skok pro GPT modely v agentním programování od GPT-5."

O 30 % méně halucinací

Toto je důležité pro každého, kdo používá AI profesionálně. GPT-5.2 Thinking produkuje o 30 % méně odpovědí s chybami ve srovnání s GPT-5.1. Pro výzkum, analýzu a rozhodování je to obrovské zvýšení spolehlivosti.

Průlom v dlouhém kontextu

GPT-5.2 je první model, který dosahuje téměř 100% přesnosti v úlohách s dlouhým kontextem až do 256 tisíc tokenů. To znamená, že mu můžete nahrát celé kódové báze, smlouvy, výzkumné práce nebo přepisy a skutečně si udrží koherenci v celém rozsahu.

Předchozí modely by ztratily nить v polovině. GPT-5.2 ne.

Vidění, které skutečně funguje

Chybovost v uvažování nad grafy a porozumění softwarovým rozhraním byla snížena zhruba na polovinu. Model nyní dokáže přesně interpretovat dashboardy, technické diagramy a screenshoty, což z něj dělá skutečně užitečný nástroj pro úlohy vizuální analýzy.

Co to pro vás znamená

Pokud už platíte za ChatGPT Plus nebo Pro, GPT-5.2 se právě zavádí. Cena API je 1,75 $ za milion vstupních tokenů a 14 $ za milion výstupních tokenů, s 90% slevou na cachované vstupy.

Průměrný uživatel ChatGPT Enterprise už hlásí úsporu 40-60 minut denně. Intenzivní uživatelé tvrdí, že přes 10 hodin týdně. S GPT-5.2 tato čísla jen porostou.

Závěr

GPT-5.2 není jen lepší. Překračuje prahy, o kterých jsme si mysleli, že jsou vzdálené roky. Perfektní skóre v matematických soutěžích. Porážení profesionálů v jejich vlastní práci. Téměř dokonalé porozumění dlouhému kontextu.

V reálném čase sledujeme, jak se propast mezi asistencí AI a schopnostmi AI uzavírá.