GPT-5.2 raggiunge il 100% nella matematica competitiva, l'80% nelle attività di programmazione reali e batte gli esperti umani nel lavoro professionale per la prima volta.

OpenAI Rilascia GPT-5.2: La Prima IA Che Supera i Professionisti del Settore

OpenAI ha appena lanciato GPT-5.2 e i benchmark sono assolutamente straordinari. Non si tratta solo di un altro aggiornamento incrementale. Per la prima volta in assoluto, un modello di IA batte costantemente i professionisti del settore nel lavoro intellettuale del mondo reale.

I Benchmark Parlano da Soli

Benchmark	GPT-5.2 Thinking	GPT-5.1 Thinking
GDPval (Lavoro intellettuale)	70,9%	38,8%
SWE-Bench Pro (Ingegneria del software)	55,6%	50,8%
SWE-Bench Verified (Ingegneria del software)	80,0%	76,3%
GPQA Diamond (Domande scientifiche)	92,4%	88,1%
CharXiv Reasoning (Figure scientifiche)	88,7%	80,3%
AIME 2025 (Matematica competitiva)	100,0%	94,0%
FrontierMath Tier 1-3 (Matematica avanzata)	40,3%	31,0%
FrontierMath Tier 4 (Matematica avanzata)	14,6%	12,5%
ARC-AGI-1 (Ragionamento astratto)	86,2%	72,8%
ARC-AGI-2 (Ragionamento astratto)	52,9%	17,6%

Guardate quel salto su ARC-AGI-2. Dal 17,6% al 52,9%. Si tratta di un miglioramento di 3 volte nella capacità di ragionamento astratto genuino in una sola generazione.

Il Numero Che Conta di Più

Su GDPval, un benchmark che misura compiti professionali reali in 44 occupazioni, GPT-5.2 Thinking batte o pareggia i migliori professionisti del settore il 70,9% delle volte. Parliamo di creare presentazioni, costruire fogli di calcolo, scrivere report, le cose per cui le persone vengono pagate sei cifre.

Un giudice che ha esaminato i risultati ha detto che "sembra essere stato fatto da un'azienda professionale con personale dedicato". Non è un errore di battitura. Un output di IA viene scambiato per il lavoro di un intero team.

E questo è il punto cruciale: GPT-5.2 ha prodotto questi risultati a 11 volte la velocità e meno dell'1% del costo dei professionisti esperti.

100% nella Matematica Competitiva

GPT-5.2 Thinking ha ottenuto il 100% su AIME 2025, una prestigiosa competizione di matematica che mette in difficoltà la maggior parte degli esseri umani. Non il 99%. Non il 98%. Punteggio perfetto.

Su FrontierMath, che testa la matematica a livello esperto con cui anche i matematici con dottorato faticano, ha raggiunto il 40,3%, rispetto al 31% con GPT-5.1.

La Programmazione È Diventata Seria

Un punteggio dell'80% su SWE-Bench Verified significa che GPT-5.2 può fare debug affidabile del codice di produzione, implementare funzionalità e rifattorizzare grandi codebase con un supporto minimo. SWE-Bench Pro testa l'ingegneria del software nel mondo reale su quattro linguaggi di programmazione, non solo Python.

I primi tester di Windsurf, JetBrains e Warp lo definiscono "il più grande salto per i modelli GPT nella programmazione agentica da GPT-5."

30% in Meno di Allucinazioni

Questo aspetto è importante per chiunque utilizzi l'IA professionalmente. GPT-5.2 Thinking produce il 30% in meno di risposte con errori rispetto a GPT-5.1. Per la ricerca, l'analisi e il processo decisionale, si tratta di un enorme aumento dell'affidabilità.

La Svolta del Contesto Lungo

GPT-5.2 è il primo modello a raggiungere un'accuratezza quasi del 100% su attività con contesto lungo fino a 256k token. Ciò significa che puoi fornirgli intere codebase, contratti, articoli di ricerca o trascrizioni, e mantiene effettivamente la coerenza su tutto.

I modelli precedenti perdevano il filo a metà strada. GPT-5.2 no.

Una Visione Che Funziona Davvero

I tassi di errore sul ragionamento dei grafici e sulla comprensione delle interfacce software sono stati ridotti circa della metà. Il modello ora può interpretare accuratamente dashboard, diagrammi tecnici e screenshot, rendendolo genuinamente utile per compiti di analisi visiva.

Cosa Significa per Te

Se stai già pagando per ChatGPT Plus o Pro, GPT-5.2 è in fase di distribuzione ora. Il prezzo dell'API è di 1,75 dollari per milione di token in input e 14 dollari per milione di token in output, con uno sconto del 90% sugli input memorizzati nella cache.

L'utente medio di ChatGPT Enterprise riporta già un risparmio di 40-60 minuti al giorno. Gli utenti intensivi dichiarano oltre 10 ore a settimana. Con GPT-5.2, questi numeri sono destinati solo ad aumentare.

La Conclusione

GPT-5.2 non è solo migliore. Sta superando soglie che pensavamo fossero lontane anni. Punteggi perfetti nelle competizioni di matematica. Battere i professionisti nel loro stesso lavoro. Comprensione del contesto lungo quasi perfetta.

Stiamo assistendo al divario tra assistenza IA e capacità IA che si chiude in tempo reale.