AccueilTechnologieOpenAI dégaine son...

OpenAI dégaine son nouveau modèle GPT-5.5 et lance un défie à Anthropic

OpenAI a présenté son nouveau modèle d’intelligence artificielle, GPT-5.5, avec l’objectif de s’imposer face à son principal rival, Anthropic. Selon les résultats publiés par l’entreprise, ce modèle affiche des performances supérieures à Claude Opus 4.7 dans plusieurs tests de référence consacrés au raisonnement, à la cybersécurité ou encore à l’utilisation d’environnements terminal.

Sur le benchmark GDPval, qui mesure les capacités cognitives générales, GPT-5.5 atteint 84,9 %, contre 80,3 % pour Claude Opus 4.7. Même constat sur Terminal-Bench 2.0, dédié aux tâches en environnement terminal. Le modèle d’OpenAI grimpe à 82,7 %, soit plus de dix points devant son concurrent (69,4 %).

Le nouvel outil se démarque également dans le domaine de la cybersécurité. Lors du test CyberZim, GPT-5.5 a enregistré un score de 81,8 %, surpassant une nouvelle fois Claude Opus 4.7, crédité de 73,1 %.

Anthropic garde l’avantage en programmation

Malgré ces résultats solides, OpenAI reconnaît un point faible majeur : le codage.

Dans SWE-Bench Pro, benchmark réputé pour évaluer la résolution de problèmes logiciels réels, GPT-5.5 n’a obtenu que 58,6 %, contre 64,3 % pour Claude Opus 4.7.

OpenAI nuance toutefois cette comparaison. Dans une note accompagnant les résultats, l’entreprise indique avoir observé « des signes de mémorisation des données lors de l’évaluation », laissant entendre que certains scores pourraient être influencés par des phénomènes d’overfitting ou de fuite de données.

© OpenAI

Un modèle plus efficace et moins gourmand

Au-delà des performances brutes, OpenAI insiste sur l’efficacité de GPT-5.5. Le groupe affirme que son nouveau modèle est capable de traiter les mêmes tâches avec moins de jetons, tout en conservant une latence similaire à celle de GPT-5.4.

Les progrès se retrouvent aussi dans OSWorld Verified, un benchmark centré sur la manipulation informatique, où GPT-5.5 atteint 78,7 %, contre 75 % pour la génération précédente. Des améliorations ont également été constatées dans GeneBench, un test d’analyse scientifique multi-étapes lié à la génétique et à la biologie quantitative.

Sécurité renforcée et accès progressif

OpenAI indique avoir durci les critères de rejet concernant les requêtes à haut risque liées à la cybersécurité. L’entreprise met aussi en avant son programme « Trusted Access for Cyber » (TAC), destiné aux utilisateurs disposant de compétences vérifiées dans la cybersécurité afin d’accéder à certaines fonctions avancées.

Le déploiement de GPT 5.5 commence dès aujourd’hui pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que pour les utilisateurs de Codex. La disponibilité générale de l’API interviendra dans un second temps.


Source:

www.zdnet.fr

Annonce publicitairespot_img

Catégories

إيران.. مسارات بديلة لضمان الإمدادات أهمها عبر روسيا

وأكد المسؤولون الإيرانيون أن التجارة الخارجية للبلاد لم تشهد تراجعا كبيرا خلال النصف الأول من العام الإيراني المنتهي في 20 مارس رغم الظروف الاستثنائية، حيث استمر التبادل التجاري بشكل مقبول، مدعوما...

Rhône : un mineur de 15 ans mis en examen pour avoir projeté une « action violente » visant les communautés juive ou homosexuelle

Un adolescent âgé de 15 ans, qui projetait de commettre une « action violente » visant les communautés juive ou homosexuelle, a été mis en examen et placé en détention provisoire, a appris l’AFP vendredi auprès du parquet national...
Annonce publicitairespot_img