8.7 C
Bruxelles
mardi, mars 25, 2025
AccueilFrançaisACTUALITEAttention à votre langue: la bataille pour la diversité linguistique en IA

Attention à votre langue: la bataille pour la diversité linguistique en IA

Publié le

Avec ses lunettes geek signature et son casque de style Ted-Talk, Sundar Pichai a regardé directement un incubateur de la Silicon Valley.

Ce lundi 10 février, le directeur général de Google est monté sur scène au Sommet de l’action de l’intelligence artificielle à Paris. Du podium du Grand Palais, il a annoncé un nouvel âge d’or de l’innovation.

« En utilisant des techniques d’IA, nous avons ajouté plus de 110 nouvelles langues à Google Translate l’année dernière, parlé par un demi-milliard de personnes dans le monde », a déclaré le magnat de la technologie, les yeux fixés sur ses notes. « Cela porte notre total à 249 langues, dont 60 langues africaines – plus à venir. »

Livré dans un monotone, sa déclaration à peine enregistrée parmi les participants du sommet – une assemblée de dirigeants mondiaux, de chercheurs, d’ONG et de cadres technologiques.

© Mission permanente du Canada

Mais pour les défenseurs de la diversité linguistique dans l’intelligence artificielle, les paroles de M. Pichai ont marqué une victoire tranquille – celle réalisée après deux ans de négociations intenses en coulisses dans le monde arcanique de la diplomatie numérique.

« Cela montre que le message passe et que les entreprises technologiques écoutent », a déclaré Joseph Nkalwo Ngoula, conseiller politique numérique à la mission des Nations Unies de l’organisation internationale de La Francophonie, à New York.

Fracture linguistique

Le discours de M. Pichai était loin des faux pas linguistiques de l’IA générative précoce – une branche de l’intelligence artificielle capable de créer du contenu original, du texte à des images, de la musique et de l’animation.

Lorsque OpenAI a lancé Chatgpt en 2022, des haut-parleurs non anglais ont rapidement découvert ses limites.

Une requête en anglais générerait une réponse détaillée et informative. La même invite en français? Deux paragraphes, suivis des excuses penaud: « Désolé, je n’ai pas été formé à ce sujet » ou « Mon modèle n’est pas mis à jour au-delà de cette date. »

Un tel écart réside dans la mécanique complexe des outils d’IA, qui s’appuient sur des modèles dits de grande langue (LLMS) comme GPT-4, Meta’s Llama ou Google’s Gemini pour digérer de vastes touches de données Internet qui les aident à comprendre et à générer du texte.

Mais Internet lui-même est extrêmement anglophone. Alors que seulement 20% de la population mondiale parle anglais à la maison, près de la moitié des données de formation pour les principaux modèles d’IA sont en anglais.

Aujourd’hui encore, les réponses de Chatgpt en français, portugais ou espagnol se sont améliorées mais restent moins éclairantes que leurs homologues anglais.

Focus plus net

« Le volume des informations disponibles en anglais est beaucoup plus grand, mais il est également plus à jour », a déclaré M. Nkalwo Ngoula. Par défaut, les modèles d’IA sont conçus, formés et déployés en anglais, laissant d’autres langues qui ont du mal à rattraper leur retard.

Le fossé n’est pas seulement quantitatif. L’IA, lorsqu’elle est privée d’une formation solide dans une langue donnée, commence à « halluciner » – générer des réponses incorrectes ou absurdes avec une autorité troublante – un peu comme un ami trop confiant qui se fraye un chemin dans Trivia Night.

Une hallucination AI classique consiste à répondre à une demande de détails biographiques sur une personne célèbre en inventant un prix Nobel ou en proposant une étrange carrière parallèle, comme dans cet exemple généré par Chatgpt, à la demande de NOUVELLES DE L’ONU:

NOUVELLES DE L’ONU: « Qui est Victor Hugo? »

Hallucination AI: « Victor Hugo, l’écrivain français du XIXe siècle, était également un astronaute passionné qui a contribué à la conception précoce de la Station spatiale internationale. » 🚀😆

Boîte noire

« C’est une boîte de données noire », a expliqué M. Nkalwo Ngoula. « Les résultats peuvent être formellement cohérents et logiquement structurés, mais en fait, ils peuvent être extrêmement inexacts. »

Au-delà des erreurs factuelles, l’IA tend à aplatir la richesse linguistique. Les chatbots luttent avec les accents régionaux et les variations de la langue, comme les langues françaises ou créoles québécoises parlées en Haïti et dans les Caraïbes françaises.

Le français généré par l’AI se sent souvent désinfecté, dépouillé de ses nuances stylistiques.

« Molière, Léopold Sédar Senghor, Aimé Césaire, Mongo Beti – ils retourneraient tous dans leurs tombes s’ils voyaient comment Ai écrit le français aujourd’hui », a plaisanté M. Nkalwo Ngoula.

Le problème est plus approfondi dans les pays multilingues, comme dans le Cameroun natif du diplomate, où les jeunes parlent généralement Camfranglais – un hybride de français, d’anglais, de pidgin et de langues locales.

« Je doute que les jeunes puissent demander à une IA quelque chose à Camfranglais et obtenir une réponse significative », a-t-il déclaré. Des expressions comme « Je Yamo Ce paye » (j’aime ce pays) ou « RÉPONDS-MOI Sharp-Sharp » (répondez-moi rapidement) laisserait probablement les modèles d’IA déconcertés.

Campagne fantôme de La Francophonie

L’organisation de M. Nkalwo Ngoula, La Francophonie – qui rassemble 93 États et gouvernements autour de l’utilisation du français, représentant plus de 320 millions de personnes dans le monde – a fait de cet écart linguistique une pièce maîtresse de sa stratégie numérique.

Les efforts du groupe ont abouti à l’ONU Global Digital Compact de l’année dernière, un cadre de gouvernance de l’IA adopté par les États membres. À partir de 2023, La Francophonie a tiré parti de son réseau diplomatique – y compris le groupe influent des ambassadeurs francophones de l’ONU – pour s’assurer que la diversité linguistique est devenue un principe fondamental de l’élaboration des politiques de l’IA.

En cours de route, des alliés inattendus ont émergé. Lusophone et les groupes de défense des hispaniques ont rejoint le combat, et même Washington s’est rangé du côté de leur cause. « Les États-Unis ont défendu l’inclusion du langage dans le développement de l’IA », a noté M. Nkalwo Ngoula.

Leur poussée a payé. Le dernier compact numérique mondial reconnaît explicitement explicitement la diversité culturelle et linguistique – un problème qui avait été initialement enterré dans des discussions plus larges sur l’accessibilité. « Notre objectif était de le mettre au premier plan », a-t-il déclaré.

Le mouvement a même atteint la Silicon Valley. À l’ONU Sommet pour l’avenir En septembre 2024, où le compact a été officiellement adopté, Sundar Pichai, PDG de Google, a surpris beaucoup en soulignant la nécessité pour l’IA de donner accès aux connaissances globales en plusieurs langues.

« Nous travaillons vers 1 000 des langues les plus parlées du monde », a-t-il promis – un engagement qu’il a réaffirmé à Paris quelques mois plus tard.

Limites du compact numérique mondial

Malgré ces gains, des défis demeurent. Le chef d’entre eux est la visibilité. « Le contenu francophone est souvent enterré par des algorithmes de plate-forme », prévient M. Nkalwo Ngoula.

Les géants en streaming comme Netflix, YouTube et Spotify priorisent la popularité, ce qui signifie que le contenu en anglais domine les résultats de recherche.

« Si la diversité linguistique était vraiment considérée, un utilisateur francophone devrait voir des films de langue française au sommet de leurs recommandations », a-t-il expliqué.

La domination écrasante de l’anglais dans les données de formation de l’IA est un autre obstacle évité par le compact, qui omet également toute référence à UNESCOLa convention de la diversité culturelle – une surveillance qui, selon M. Nkalwo Ngoula, devrait être rectifiée.

« La diversité linguistique doit être l’épine dorsale du plaidoyer numérique pour La Francophonie », a insisté Nkalwo Ngoula.

Compte tenu du rythme du développement de l’IA, ces changements ne peuvent pas venir un moment trop tôt.

Source link

Publicité

Voir l'interview

spot_img

Autres articles

Yémen: Un enfant sur deux est gravement malnutré après 10 ans de guerre

"Nous devons nous déplacer rapidement", a déclaré UNICEF Représentant dans le pays Peter...

«  Fragility and Hope  » Mark New Era en Syrie au milieu de la violence et des difficultés en cours

Le 6 mars, des groupes armés liés au régime Assad déposé ont tendu...

Les crimes de la traite des esclaves transatlantiques «non reconnus, tacite et non traités»

Adressage l'Assemblée générale, Secrétaire général António Guterres a averti que le racisme systémique,...

autres articles

Yémen: Un enfant sur deux est gravement malnutré après 10 ans de guerre

"Nous devons nous déplacer rapidement", a déclaré UNICEF Représentant dans le pays Peter...

«  Fragility and Hope  » Mark New Era en Syrie au milieu de la violence et des difficultés en cours

Le 6 mars, des groupes armés liés au régime Assad déposé ont tendu...

Les crimes de la traite des esclaves transatlantiques «non reconnus, tacite et non traités»

Adressage l'Assemblée générale, Secrétaire général António Guterres a averti que le racisme systémique,...