Il 5 marzo 2026 OpenAI ha rilasciato GPT-5.4, disponibile in tre varianti: base, GPT-5.4 Thinking e GPT-5.4 Pro. Secondo quanto riportato da TechCrunch, questo è il primo modello principale di OpenAI che unifica le capacità di ragionamento di frontiera con quelle di codifica di GPT-5.3-Codex in un’unica architettura. OpenAI lo descrive come il modello di frontiera più capace ed efficiente per il lavoro professionale. Le migliorie chiave rispetto a GPT-5.2 includono un consumo di token ridotto del 70% per prompt simili, una finestra contestuale di 1 milione di token via API, migliori capacità di ricerca e ritenzione del contesto per task complessi e multi-step. Nella variante Thinking, per query lunghe, il modello inizia delineando il suo lavoro con un preambolo. I benchmark mostrano performance significative: OSWorld-Verified per il controllo agentico del desktop via screenshot raggiunge il 75%, superando il riferimento umano al 72.4% e Claude Opus 4.6. BrowseComp vede GPT-5.4 al 82.7% e la versione Pro all’89.3%. GDPval, per task di knowledge work, segna un record dell’83%. Nella modellazione di fogli di calcolo per task di investment banking junior, il punteggio è dell’87.3% contro il 68.4% di GPT-5.2. SWE-bench Verified per il coding arriva all’83%, in aumento dall’80% della versione precedente. In ChatGPT, GPT-5.4 Thinking è disponibile per utenti Plus, Team e Pro, sostituendo GPT-5.2 Thinking. GPT-5.4 Pro è esclusiva per piani Pro ed Enterprise. L’API è disponibile per tutti gli sviluppatori con la finestra contestuale da 1 milione di token.
L’impatto pratico di GPT-5.4 si concentra su scenari professionali che richiedono ragionamento complesso e manipolazione di strumenti digitali. La capacità di controllare applicazioni desktop tramite screenshot, dimostrata nel benchmark OSWorld, abilita flussi di lavoro agentici automatizzati su fogli di calcolo, presentazioni e documenti. Questo rende il modello particolarmente rilevante per ruoli come analisti finanziari, consulenti e sviluppatori software che operano su task ripetitivi e multi-step. Il record nel benchmark GDPval suggerisce una forte applicabilità nel knowledge work generico. La versione Pro, con il suo punteggio del 89.3% in BrowseComp, si posiziona come strumento competitivo per la ricerca e l’analisi di informazioni complesse. L’unificazione di ragionamento e codifica in un singolo modello semplifica lo stack tecnologico per gli sviluppatori, che non devono più fare affidamento su modelli specializzati separati. L’aumento di efficienza del 70% nel consumo di token può tradursi in una riduzione significativa dei costi operativi per le aziende che implementano questi modelli su larga scala.
La notizia originale non menziona esplicitamente limiti o rischi. Tuttavia, dalla natura della tecnologia è possibile inferire alcune criticità. La capacità di controllo agentico del desktop tramite screenshot solleva questioni di sicurezza e governance. Un modello con accesso a tali interfacce richiede controlli rigorosi per prevenire azioni non autorizzate o errori costosi in ambienti di produzione. L’alta performance in benchmark specifici non garantisce un comportamento affidabile in tutti i contesti del mondo reale, dove i dati possono essere ambigui o incompleti. L’uso in settori regolamentati, come la finanza o la sanità, necessita di validazioni aggiuntive e di meccanismi di audit trail. La dipendenza da un singolo modello per ragionamento e codifica introduce un punto di potenziale fallimento singolo, sebbene semplifici l’architettura. La finestra contestuale da 1 milione di token, sebbene ampia, pone sfide computazionali e di latenza che potrebbero limitarne l’uso in applicazioni in tempo reale. La disponibilità a livelli diversi per diversi piani di abbonamento potrebbe creare un divario di accesso alle capacità più avanzate.
Il rilascio di GPT-5.4 segna un passo verso la creazione di modelli di intelligenza artificiale generalisti più integrati, capaci di operare sia nel dominio del linguaggio naturale che in quello del codice e dell’interfaccia utente. L’unificazione di ragionamento e codifica in un’unica architettura segue il trend di ridurre la specializzazione eccessiva dei modelli, spostandosi verso agenti più autonomi e versatili. Il miglioramento nell’efficienza dei token risponde alla pressante esigenza del settore di controllare i costi di inferenza su larga scala. La capacità di interagire con interfacce grafiche via screenshot apre la strada a una nuova classe di automazione del lavoro d’ufficio, andando oltre la semplice generazione di testo. Lo sviluppo futuro plausibile vedrà un’ulteriore integrazione con strumenti esterni e API, rendendo questi agenti ancora più capaci di eseguire flussi di lavoro end-to-end. Resta aperta la questione di come bilanciare questa crescente autonomia con la necessità di supervisione umana e controllo deterministico. Per i professionisti, la domanda non è se questi strumenti verranno adottati, ma come ridisegnare i propri processi per integrarli in modo sicuro e produttivo, sfruttandone le capacità senza cedere il controllo critico.
Alessio Baronti
Consulente Strategico AI & Sviluppatore Web


