GPT-5.2 dosahuje 100% v súťažnej matematike, 80% v reálnych programátorských úlohách a po prvýkrát poráža ľudských expertov v profesionálnej znalostnej práci.

OpenAI vydáva GPT-5.2: Prvú AI, ktorá prekonáva odborníkov z praxe

OpenAI práve predstavilo GPT-5.2 a výsledky benchmarkov sú absolútne šialené. Toto nie je len ďalšia postupná aktualizácia. Po prvýkrát v histórii AI model konzistentne poráža ľudských odborníkov z praxe v reálnej znalostnej práci.

Benchmarky hovoria za všetko

Benchmark	GPT-5.2 Thinking	GPT-5.1 Thinking
GDPval (Znalostná práca)	70,9%	38,8%
SWE-Bench Pro (Softvérové inžinierstvo)	55,6%	50,8%
SWE-Bench Verified (Softvérové inžinierstvo)	80,0%	76,3%
GPQA Diamond (Vedecké otázky)	92,4%	88,1%
CharXiv Reasoning (Vedecké grafy)	88,7%	80,3%
AIME 2025 (Súťažná matematika)	100,0%	94,0%
FrontierMath Tier 1-3 (Pokročilá matematika)	40,3%	31,0%
FrontierMath Tier 4 (Pokročilá matematika)	14,6%	12,5%
ARC-AGI-1 (Abstraktné uvažovanie)	86,2%	72,8%
ARC-AGI-2 (Abstraktné uvažovanie)	52,9%	17,6%

Pozrite sa na ten skok v ARC-AGI-2. Z 17,6% na 52,9%. To je 3-násobné zlepšenie v skutočnej schopnosti abstraktného uvažovania za jednu generáciu.

Číslo, ktoré má najväčší význam

V benchmarku GDPval, ktorý meria skutočné profesionálne úlohy naprieč 44 povolaniami, GPT-5.2 Thinking poráža alebo sa vyrovná najlepším odborníkom z praxe v 70,9% prípadov. Hovoríme o vytváraní prezentácií, tvorbe tabuľkových výpočtov, písaní správ, o veciach, za ktoré ľudia dostávajú šesťciferné platy.

Jeden posudzovateľ výstupov povedal, že to "vyzerá, akoby to urobila profesionálna spoločnosť s celým tímom zamestnancov." To nie je preklep. Výstup AI je zamieňaný za prácu celého tímu.

A tu je ten hlavný trik: GPT-5.2 vytvorilo tieto výstupy 11-krát rýchlejšie a za menej ako 1% nákladov v porovnaní s expertmi.

100% v súťažnej matematike

GPT-5.2 Thinking dosiahlo 100% v AIME 2025, prestížnej matematickej súťaži, ktorá väčšinu ľudí dostane do úzkych. Nie 99%. Nie 98%. Perfektné skóre.

V FrontierMath, ktorý testuje matematiku na expertnej úrovni, s ktorou majú problémy aj PhD matematici, dosiahlo 40,3%, čo je nárast z 31% pri GPT-5.1.

Programovanie sa práve stalo vážnou vecou

80% skóre v SWE-Bench Verified znamená, že GPT-5.2 dokáže spoľahlivo debugovať produkčný kód, implementovať funkcie a refaktorovať veľké kódové bázy s minimálnym vedením. SWE-Bench Pro testuje reálne softvérové inžinierstvo naprieč štyrmi programovacími jazykmi, nielen Python.

Raní testujúci z Windsurf, JetBrains a Warp to nazývajú "najväčším skokom pre GPT modely v agentnom programovaní od GPT-5."

O 30% menej halucinácií

Toto je dôležité pre každého, kto používa AI profesionálne. GPT-5.2 Thinking produkuje o 30% menej odpovedí s chybami v porovnaní s GPT-5.1. Pre výskum, analýzu a rozhodovanie je to masívne zvýšenie spoľahlivosti.

Prelom v dlhom kontexte

GPT-5.2 je prvý model, ktorý dosahuje takmer 100% presnosť pri úlohách s dlhým kontextom až do 256k tokenov. To znamená, že mu môžete vložiť celé kódové bázy, zmluvy, výskumné práce alebo prepisy a skutočne si zachová koherenciu naprieč celým obsahom.

Predchádzajúce modely stratili niť v polovici. GPT-5.2 nie.

Videnie, ktoré skutočne funguje

Miera chybovosti pri uvažovaní nad grafmi a porozumení softvérovým rozhraniam bola znížená približne na polovicu. Model teraz dokáže presne interpretovať dashboardy, technické diagramy a screenshoty, čo ho robí skutočne užitočným pre úlohy vizuálnej analýzy.

Čo to pre vás znamená

Ak už platíte za ChatGPT Plus alebo Pro, GPT-5.2 sa práve zavádza. Ceny API sú 1,75 USD za milión vstupných tokenov a 14 USD za milión výstupných tokenov, so 90% zľavou na cachované vstupy.

Priemerný používateľ ChatGPT Enterprise už hlási úsporu 40 až 60 minút denne. Intenzívni používatelia tvrdia, že šetria viac ako 10 hodín týždenne. S GPT-5.2 tieto čísla len porastú.

Záver

GPT-5.2 nie je len lepšie. Prekračuje hranice, o ktorých sme si mysleli, že sú roky vzdialené. Perfektné skóre v matematických súťažiach. Porážanie profesionálov v ich vlastnej práci. Takmer dokonalé porozumenie dlhému kontextu.

V reálnom čase sledujeme, ako sa zmenšuje priepasť medzi AI asistenciou a AI schopnosťami.