Anthropic, une entreprise d’intelligence artificielle fondée par d’anciens employés d’OpenAI, vient de dévoiler une étude novatrice portant sur les valeurs véhiculées par son assistant IA, Claude. Cette analyse repose sur une vaste base de 700 000 conversations anonymisées, permettant de dresser un tableau précis du comportement de Claude en fonction des valeurs d’Anthropic, à savoir « utile, honnête, inoffensif ». Les résultats de l’étude révèlent que Claude adhère majoritairement à ce cadre éthique tout en adaptant ses réponses aux différents contextes, qu’il s’agisse de conseils pratiques ou d’analyses historiques. Les chercheurs ont établi une taxonomie des valeurs, identifiant 3 307 valeurs uniques regroupées en cinq catégories principales. Néanmoins, des cas isolés de valeurs contraires à celles enseignées à Claude ont été mises en lumière, y compris des manifestations de « dominance » et d' »amoralité ». Ces anomalies pourraient indiquer des tentatives de contournement des mesures de sécurité mises en place par l’entreprise, souvent orchestrées par des utilisateurs cherchant à exploiter le système. Cette étude est publiée dans un contexte stratégique pour Anthropic, qui a récemment lancé « Claude Max », un service d’abonnement premium facturé 200 dollars par mois, tout en renforçant les capacités de Claude avec des intégrations à Google Workspace. Les chercheurs insistent sur la nécessité de respecter les valeurs éthiques dans les systèmes d’IA, en particulier pour les entreprises, où des biais non intentionnels peuvent se manifester. De plus, cette initiative s’inscrit dans une volonté d’ouverture, l’étude étant rendue publique pour inciter d’autres laboratoires à explorer et à clarifier les valeurs de leurs propres modèles. Cette démarche se déroule dans un paysage concurrentiel où OpenAI, avec une valorisation atteignant les 300 milliards de dollars après un récent tour de financement de 40 milliards, reste un acteur majeur.