AccueilTechnologieOpenAI dégaine son...

OpenAI dégaine son nouveau modèle GPT-5.5 et lance un défie à Anthropic

OpenAI a présenté son nouveau modèle d’intelligence artificielle, GPT-5.5, avec l’objectif de s’imposer face à son principal rival, Anthropic. Selon les résultats publiés par l’entreprise, ce modèle affiche des performances supérieures à Claude Opus 4.7 dans plusieurs tests de référence consacrés au raisonnement, à la cybersécurité ou encore à l’utilisation d’environnements terminal.

Sur le benchmark GDPval, qui mesure les capacités cognitives générales, GPT-5.5 atteint 84,9 %, contre 80,3 % pour Claude Opus 4.7. Même constat sur Terminal-Bench 2.0, dédié aux tâches en environnement terminal. Le modèle d’OpenAI grimpe à 82,7 %, soit plus de dix points devant son concurrent (69,4 %).

Le nouvel outil se démarque également dans le domaine de la cybersécurité. Lors du test CyberZim, GPT-5.5 a enregistré un score de 81,8 %, surpassant une nouvelle fois Claude Opus 4.7, crédité de 73,1 %.

Anthropic garde l’avantage en programmation

Malgré ces résultats solides, OpenAI reconnaît un point faible majeur : le codage.

Dans SWE-Bench Pro, benchmark réputé pour évaluer la résolution de problèmes logiciels réels, GPT-5.5 n’a obtenu que 58,6 %, contre 64,3 % pour Claude Opus 4.7.

OpenAI nuance toutefois cette comparaison. Dans une note accompagnant les résultats, l’entreprise indique avoir observé « des signes de mémorisation des données lors de l’évaluation », laissant entendre que certains scores pourraient être influencés par des phénomènes d’overfitting ou de fuite de données.

© OpenAI

Un modèle plus efficace et moins gourmand

Au-delà des performances brutes, OpenAI insiste sur l’efficacité de GPT-5.5. Le groupe affirme que son nouveau modèle est capable de traiter les mêmes tâches avec moins de jetons, tout en conservant une latence similaire à celle de GPT-5.4.

Les progrès se retrouvent aussi dans OSWorld Verified, un benchmark centré sur la manipulation informatique, où GPT-5.5 atteint 78,7 %, contre 75 % pour la génération précédente. Des améliorations ont également été constatées dans GeneBench, un test d’analyse scientifique multi-étapes lié à la génétique et à la biologie quantitative.

Sécurité renforcée et accès progressif

OpenAI indique avoir durci les critères de rejet concernant les requêtes à haut risque liées à la cybersécurité. L’entreprise met aussi en avant son programme « Trusted Access for Cyber » (TAC), destiné aux utilisateurs disposant de compétences vérifiées dans la cybersécurité afin d’accéder à certaines fonctions avancées.

Le déploiement de GPT 5.5 commence dès aujourd’hui pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que pour les utilisateurs de Codex. La disponibilité générale de l’API interviendra dans un second temps.


Source:

www.zdnet.fr

Annonce publicitairespot_img

Catégories

Rhône : un mineur de 15 ans mis en examen pour avoir projeté une « action violente » visant les communautés juive ou homosexuelle

Un adolescent âgé de 15 ans, qui projetait de commettre une « action violente » visant les communautés juive ou homosexuelle, a été mis en examen et placé en détention provisoire, a appris l’AFP vendredi auprès du parquet national...

Nigeria : pénurie de traitements VIH à l’est après le gel de l’aide américaine

L'accès aux soins est de plus en plus difficile pour les patients atteints du VIH dans l’est du Nigeria. Le gel d’une partie de l’aide américaine a brutalement fragilisé l’accès aux traitements antirétroviraux, pourtant essentiels pour des millions de...
Annonce publicitairespot_img