OpenAI lance une nouvelle initiative pour diversifier les données utilisées pour entraîner son IA. La société s’en est expliquée dans un post sur son blog officiel. Pour se faire, OpenAI veut collaborer avec des organisations externes pour créer de nouveaux ensembles de données d’entraînement pour l’IA, afin de remédier aux lacunes et biais présents dans les ensembles de données actuels, souvent centrés sur les États-Unis et l’Occident. Dans le cadre de son programme « Data Partnerships« , OpenAI vise à collecter des ensembles de données à grande échelle qui reflètent mieux la « société humaine » et ne sont pas facilement accessibles en ligne, en se concentrant notamment sur les données exprimant l’« intention humaine dans diverses langues, sujets et formats« . OpenAI propose de travailler avec les organisations pour numériser les données nécessaires, tout en éliminant les informations sensibles ou personnelles. Deux types d’ensembles de données sont envisagés : un ensemble de données open source accessible à tous pour l’entraînement des modèles d’IA, et des ensembles de données privés pour les modèles propriétaires d’IA, comme illustré par des collaborations précédentes avec le gouvernement islandais et le Free Law Project. Bien qu’OpenAI souhaite rendre l’IA « plus utile et accessible à tous« .