La société de télécommunications Veon, l'opérateur de téléphonie mobile Beeline Kazakhstan, le Barcelona Supercomputing Center et le groupe de pression GSMA ont déclaré mercredi qu'ils collaboreraient pour combler un "fossé linguistique en matière d'IA" pour les langues sous-représentées.

Les grands modèles linguistiques qui alimentent les "bots" tels que chatGPT s'appuient souvent sur des masses de données en ligne, telles que des livres numériques, des sites web, des articles et des blogs, pour apprendre à générer des réponses semblables à celles d'un être humain. Mais les données et les ressources dans certaines langues sont limitées.

"Sur près de 7 000 langues parlées dans le monde, seules sept sont considérées comme des langues à hautes ressources dans le monde numérique : L'anglais, l'espagnol, le français, le mandarin, l'arabe, l'allemand et le japonais", ont déclaré les groupes dans un communiqué commun.

Ils collaboreront à l'élaboration d'outils et de modèles linguistiques dans les langues sous-représentées, notamment celles parlées dans les pays où Veon est présent : Pakistan, Ukraine, Bangladesh, Kazakhstan, Ouzbékistan et Kirghizstan.

Une autre langue est le catalan, qui est parlé par environ 10 millions de personnes, selon le communiqué.

"Le manque de ressources dans d'autres langues entraîne un fossé linguistique en matière d'IA qui conduit à une expérience utilisateur sous-optimale dans les applications d'IA, accentue les préjugés dans les modèles d'IA et risque d'aggraver la fracture numérique dans les technologies d'IA", ont-ils ajouté. (Reportage d'Olivier Sorgho ; Rédaction d'Alexander Smith)