OpenAI dégaine son nouveau modèle GPT-5.5 et lance un défie à Anthropic

OpenAI a présenté son nouveau modèle d’intelligence artificielle, GPT-5.5, avec l’objectif de s’imposer face à son principal rival, Anthropic. Selon les résultats publiés par l’entreprise, ce modèle affiche des performances supérieures à Claude Opus 4.7 dans plusieurs tests de référence consacrés au raisonnement, à la cybersécurité ou encore à l’utilisation d’environnements terminal.

Sur le benchmark GDPval, qui mesure les capacités cognitives générales, GPT-5.5 atteint 84,9 %, contre 80,3 % pour Claude Opus 4.7. Même constat sur Terminal-Bench 2.0, dédié aux tâches en environnement terminal. Le modèle d’OpenAI grimpe à 82,7 %, soit plus de dix points devant son concurrent (69,4 %).

Le nouvel outil se démarque également dans le domaine de la cybersécurité. Lors du test CyberZim, GPT-5.5 a enregistré un score de 81,8 %, surpassant une nouvelle fois Claude Opus 4.7, crédité de 73,1 %.

Anthropic garde l’avantage en programmation

Malgré ces résultats solides, OpenAI reconnaît un point faible majeur : le codage.

Dans SWE-Bench Pro, benchmark réputé pour évaluer la résolution de problèmes logiciels réels, GPT-5.5 n’a obtenu que 58,6 %, contre 64,3 % pour Claude Opus 4.7.

OpenAI nuance toutefois cette comparaison. Dans une note accompagnant les résultats, l’entreprise indique avoir observé « des signes de mémorisation des données lors de l’évaluation », laissant entendre que certains scores pourraient être influencés par des phénomènes d’overfitting ou de fuite de données.

Un modèle plus efficace et moins gourmand

Au-delà des performances brutes, OpenAI insiste sur l’efficacité de GPT-5.5. Le groupe affirme que son nouveau modèle est capable de traiter les mêmes tâches avec moins de jetons, tout en conservant une latence similaire à celle de GPT-5.4.

Les progrès se retrouvent aussi dans OSWorld Verified, un benchmark centré sur la manipulation informatique, où GPT-5.5 atteint 78,7 %, contre 75 % pour la génération précédente. Des améliorations ont également été constatées dans GeneBench, un test d’analyse scientifique multi-étapes lié à la génétique et à la biologie quantitative.

Sécurité renforcée et accès progressif

OpenAI indique avoir durci les critères de rejet concernant les requêtes à haut risque liées à la cybersécurité. L’entreprise met aussi en avant son programme « Trusted Access for Cyber » (TAC), destiné aux utilisateurs disposant de compétences vérifiées dans la cybersécurité afin d’accéder à certaines fonctions avancées.

Le déploiement de GPT 5.5 commence dès aujourd’hui pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que pour les utilisateurs de Codex. La disponibilité générale de l’API interviendra dans un second temps.

Source:

www.zdnet.fr

OpenAI dégaine son nouveau modèle GPT-5.5 et lance un défie à Anthropic

Anthropic garde l’avantage en programmation

Un modèle plus efficace et moins gourmand

Sécurité renforcée et accès progressif

Nice : deux CRS hors service poursuivis pour violences volontaires en état d’ivresse et vol

Sébastien Lecornu annonce « la troisième génération » de renouvellement urbain

Plan d’électrification : le gouvernement présente 22 mesures pour « ne plus importer les crises du monde dans le portefeuille des Français »

Passoires énergétiques : Sébastien Lecornu souhaite réautoriser leur location, sous conditions

إيران.. مسارات بديلة لضمان الإمدادات أهمها عبر روسيا

Les bibliothèques et médiathèque de France, plus de 100 millions d’entrées, mais un succès fragilisé

Rhône : un mineur de 15 ans mis en examen pour avoir projeté une « action violente » visant les communautés juive ou homosexuelle

Nigeria : pénurie de traitements VIH à l’est après le gel de l’aide américaine

Catégories

إيران.. مسارات بديلة لضمان الإمدادات أهمها عبر روسيا

Les bibliothèques et médiathèque de France, plus de 100 millions d’entrées, mais un succès fragilisé

Rhône : un mineur de 15 ans mis en examen pour avoir projeté une « action violente » visant les communautés juive ou homosexuelle