IA et biais linguistique : le poids invisible de l’anglais

Si vous avez suivi ma formation, vous connaissez déjà les biais de l’IA. Mais en voilà un qu’on oublie souvent : le biais linguistique.

Les IA génératives se nourrissent de données. Le problème ? Ces données ne sont jamais neutres.

Prenez Common Crawl, ce gigantesque jeu de données utilisé pour entraîner la plupart des modèles actuels. Il contient près de 46 % de documents en anglais, alors que moins de 20 % de la population mondiale parle cette langue.

Résultat : GPT-3 d’OpenAI ou Llama 2 de Meta sont entraînés à plus de 90 % sur du contenu anglophone. Leur façon de raisonner, d’expliquer, même leur humour (les fameuses « blagues de papa ») portent la marque d’une seule culture : celle des sociétés occidentales industrialisées.

C’est aussi pour ça que ces modèles peinent à saisir le second degré. Le sarcasme, l’ironie, les nuances culturelles ne sont tout simplement pas assez présents dans Common Crawl.

L’avenir de l’IA ne peut pas être une monoculture dominée par quelques géants et quelques langues.

Bonne nouvelle : les humoristes ne risquent pas d’être remplacés de sitôt. Et pour ceux qui comptent sur l’IA pour affiner leur sens de l’humour… ça ne sera que de peu d’aide.

A suivre…

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *