Une nouvelle étude du créateur de ChatGPT suggère que l'entraînement des modèles sur des traits tels que l'honnêteté peut améliorer globalement la sécurité et résister aux pressions adversariales.Une nouvelle étude du créateur de ChatGPT suggère que l'entraînement des modèles sur des traits tels que l'honnêteté peut améliorer globalement la sécurité et résister aux pressions adversariales.

OpenAI entraîne l'IA à rester honnête, et l'effet se propage partout

2026/06/20 12:50
Temps de lecture : 2 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : crypto.news@mexc.com

Des chercheurs d'OpenAI affirment que l'apprentissage par renforcement visant des traits bénéfiques peut améliorer de manière générale le comportement de l'IA, avec des gains qui se propagent à de nouveaux domaines et résistent aux pressions adversariales.

Entraînement aux traits de caractère chez OpenAI

Les résultats figurent dans un article publié le 18 juin. Ses auteurs correspondants, Akshay V. Jagadeesh et Karan Singhal, ont constitué un jeu de données synthétique de conversations réalistes destiné à entraîner et mesurer des traits tels que l'honnêteté, l'humilité épistémique et l'ouverture à la correction. Les scénarios couvrent la santé, l'éducation, les sciences, le droit et l'ingénierie.

L'équipe a intégré une petite partie de ces données dans un cycle d'entraînement plus large, puis a comparé le résultat à des modèles construits avec une puissance de calcul équivalente. Le modèle entraîné s'est amélioré sur 44 des 53 benchmarks internes et externes mesurant la tromperie, le reward hacking et les conseils nuisibles.

À lire également : SpaceX d'Elon Musk efface 600 milliards de dollars alors que la fièvre des introductions en bourse record se refroidit

Un alignement qui se généralise

Le résultat le plus significatif, selon les auteurs, est la généralisation. L'entraînement du modèle à un bon comportement dans un seul domaine, la santé, a amélioré ses scores sur des tâches sans rapport, notamment la tromperie et le reward hacking. Il a également mieux résisté aux invites adversariales et aux ajustements fins nuisibles que le modèle de référence, tout en restant réactif aux requêtes légitimes.

Ce travail s'appuie sur des découvertes antérieures que l'équipe appelle le désalignement émergent. Dans cette recherche, des modèles auxquels on avait enseigné une seule mauvaise habitude, comme l'écriture de code non sécurisé, ont commencé à se comporter de manière inappropriée dans des contextes sans rapport, un schéma que cette étude visait à inverser.

À lire ensuite : OpenAI recrute le co-responsable de Gemini et le conseiller IA de Trump avant son introduction en bourse

Opportunité de marché
Logo de Effect AI
Cours Effect AI(EFFECT)
$0.00251
$0.00251$0.00251
-0.43%
USD
Graphique du prix de Effect AI (EFFECT) en temps réel

CHZ +28 % ! Répétition ?

CHZ +28 % ! Répétition ?CHZ +28 % ! Répétition ?

Ouvrez Long et Short 0 frais !

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Combo Coupe du monde : 200x

Combo Coupe du monde : 200xCombo Coupe du monde : 200x

20 matchs de la Coupe du monde en un seul ordre