Les langues minoritaires et menacées sur le web

Par Marie Lebert, 3 juillet 2019.

[Version anglaise]
[Version espagnole]


Voir aussi:
* La saga du web multilingue
* Le web multilingue — chronologie


L’Ethnologue, catalogue des langues vivantes

«Ethnologue: Languages of the World» (Ethnologue: les langues du monde) est un catalogue encyclopédique de toutes les langues vivantes qui crée sa version web gratuite en 1996, avec présentation des langues selon divers critères (nom de la langue, famille linguistique, pays dans lequel la langue est parlée, identifiant de trois lettres, etc.) ainsi que des index et des cartes géographiques. La version en ligne devient payante en 2015 pour financer le travail en amont.

Publié par SIL International depuis 1951, l’Ethnologue est d’abord un catalogue de langues minoritaires avant de s’élargir à toutes les langues vivantes en 1971. Basée à Dallas (États-Unis), l’équipe de chercheurs de SIL International rassemble et organise la masse d’informations glanées et vérifiées une à une sur le terrain par des milliers de linguistes regroupés dans des équipes nationales et/ou linguistiques présentes sur tous les continents.

Barbara Grimes, directrice de publication de l’Ethnologue entre 1971 et 2000, relate en janvier 2000 dans un entretien par courriel: «L’Ethnologue est un catalogue des langues dans le monde, avec des informations sur les pays où ces langues sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, diverses informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues [Ethnologue Name Index], un index des familles linguistiques [Ethnologue Language Family Index] et enfin des cartes géographiques pour les langues.»

Mais qu’est-ce exactement qu’une langue? Selon le site de l’Ethnologue: «La manière dont chacun choisit de définir une langue dépend des motifs qu’on a d’identifier cette langue comme étant distincte d’une autre. Certains basent la définition d’une langue sur des raisons purement linguistiques. D’autres reconnaissent la nécessité de prendre également en compte des facteurs sociaux, culturels ou politiques. En outre, les locuteurs d’une langue ont souvent leurs propres critères sur l’appropriation d’une langue comme étant la leur. Ces critères sont souvent bien davantage liés à des questions de patrimoine et d’identité qu’aux traits linguistiques de la langue ou des langues en question.»

La 17e édition (2013) de l’Ethnologue recense 7.105 langues vivantes, et publie pour la première fois son édition en ligne gratuite avant son édition imprimée payante. L’Ethnologue annonce aussi une actualisation chaque année et non plus tous les quatre ans, pour être en phase avec le monde rapide dans lequel nous vivons.

Cette 17e édition nous apprend que la langue anglaise reste prédominante dans le monde puisqu’elle est répertoriée dans 125 pays, soit comme langue officielle soit comme langue parlée par un groupe significatif d’immigrants. Sur les 136 familles linguistiques existantes, la plus importante est l’indo-européen, qui regroupe 3 milliards de locuteurs. La Papouasie-Nouvelle-Guinée est le pays qui recense le plus de langues vivantes, avec 836 langues. Suivent l’Indonésie avec 706 langues et le Nigéria avec 522 langues.

Une caractéristique de la base de données de l’Ethnologue depuis 1971 est un identifiant de trois lettres pour chaque langue (par exemple «fra» pour le français), avec inclusion des identifiants dans la version imprimée à partir de la 10e édition (1984).

En 2002, à l’invitation de l’Organisation internationale de normalisation (ISO), SIL International met en chantier une nouvelle norme ISO destinée à remplacer la norme ISO 639-2, publiée en 1998 pour identifier 400 langues (et succéder à la norme ISO 639-1 de 1988). L’identification de 400 langues n’est plus suffisante avec la mondialisation du réseau. SIL International harmonise donc les identifiants utilisés dans l’Ethnologue avec ceux de la norme ISO 639-2, en intégrant aussi les identifiants des langues mortes et artificielles utilisés par la Linguist List, grande liste de diffusion à destination des linguistes.

Publiée en 2007, la norme ISO 639-3 attribue un identifiant de trois lettres à près de 7.500 langues vivantes, mortes et artificielles, y compris les langues des signes. SIL International est également désigné comme l’organisme responsable de la gestion du cycle annuel des modifications et des mises à jour.


Les langues minoritaires sur le web

Guy Antoine, un informaticien né à Haïti et installé à New York, crée le site Windows on Haiti en avril 1998 afin de promouvoir le créole haïtien, parlé non seulement à Haïti mais aussi en République dominicaine, aux États-Unis et au Canada.

Il raconte en juin 2001 dans un entretien par courriel: «Que sont les Haïtiens sans le kreyôl (créole pour les non-initiés), une langue qui s’est développée et qui a permis de souder entre elles diverses tribus africaines transplantées à Haïti pendant la période de l’esclavage? Cette langue représente de manière la plus palpable l’unité de notre peuple. Cependant elle est surtout une langue parlée et non écrite. À mon avis, le web va changer cet état de fait plus qu’aucun autre moyen traditionnel de diffusion d’une langue. Mon site souhaite d’une part être une source d’information majeure sur la culture haïtienne, d’autre part contrer les images continuellement négatives que les médias traditionnels donnent d’Haïti. Je voulais aussi montrer la diversité de la culture haïtienne dans des domaines tels que l’art, l’histoire, la cuisine, la musique, la littérature et la vie traditionnelle.»

Quelles sont les langues du site? «La langue principale est l’anglais, mais le kreyôl est bien présent dans les forums de discussion. On trouve aussi des documents sur Haïti en français et dans l’ancien créole colonial, et je suis prêt à publier d’autres documents en espagnol et dans diverses langues. Je ne propose pas de traductions, mais le multilinguisme est effectif sur ce site, et je pense qu’il deviendra de plus en plus la norme sur le web. Le premier forum regroupe des discussions générales sur toutes sortes de sujets, mais en fait ces discussions concernent principalement les problèmes socio-politiques qui agitent Haïti. Le deuxième forum est uniquement réservé aux débats sur les normes d’écriture du kreyôl. Ces débats sont assez animés, et un certain nombre d’experts linguistiques y participent. Le caractère exceptionnel de ces forums est qu’ils ne sont pas académiques.»

Le site Indigenous Tweets (Tweets autochtones) est créé en mars 2011 par Kevin Scannell, informaticien et professeur à l’Université Saint-Louis (États-Unis). Ce projet mené sur son temps libre consiste à recenser les tweets dans les langues minoritaires et autochtones, dans le but de renforcer la présence en ligne des communautés parlant ses langues. Pour trouver ces langues sur Twitter, Kevin Scannell conçoit et paramètre An Crúbadán, un logiciel statistique crawlant le web. Indigenous Tweets débute avec 35 langues en mars 2011 et compte 71 langues trois semaines plus tard, 144 langues en mars 2013 et 184 langues en octobre 2017.

La page d’accueil est une liste des langues minoritaires actives sur Twitter. L’usager cherche la langue qui l’intéresse et clique sur la ligne correspondante, ce qui l’amène vers une nouvelle page recensant les usagers de Twitter dans cette langue (500 usagers au maximum) et les statistiques correspondantes pour chaque usager, entre autres le nombre de tweets, le nombre d’abonnés, le pourcentage de tweets dans la langue donnée (certains tweetent à la fois dans une langue minoritaire et dans une langue globale) et la date du tweet le plus récent. De nombreux projets ont débuté par un premier contact entre deux personnes sur Twitter.

Kevin Scannell explique en mars 2011 sur son blog que le but premier d’Indigenous Tweets est d’aider à créer des communautés de langues par le biais de Twitter, et de permettre aux gens parlant une langue minoritaire ou autochtone de se rencontrer plus facilement dans la vaste mer de l’anglais, du français, de l’espagnol ou d’autres langues globales dominant Twitter. Les principales langues minoritaires sur Twitter sont le créole haïtien, le basque et l’irlandais. Mais, d’après Kevin Scannell, même les locuteurs des langues basque et irlandaise, qui ont des communautés en ligne très actives, ont été surpris de voir le nombre de gens qui tweetaient dans ces langues.

Kevin Scannell créé un deuxième site, Indigenous Blogs (Blogs autochtones), en septembre 2011, cette fois pour recenser les blogs rédigés dans des langues minoritaires et autochtones. Il recense d’abord les blogs hébergés par Blogspot (qui héberge aussi son propre blog), WordPress et Tumblr. La présentation d’Indigenous Blogs est semblable à celle d’Indigenous Tweets, à savoir une liste de toutes les langues sur la page d’accueil puis une page par langue. Indigenous Blogs recense des blogs dans 50 langues en septembre 2011, 74 langues en mars 2013 et 85 langues en octobre 2017.


Les langues menacées sur le web

L’UNESCO (Organisation des Nations Unies pour l’éducation, la science et la culture) lance en 2010 son «Atlas interactif des langues en danger dans le monde» en trois langues (anglais, français, espagnol). La version en ligne gratuite est complémentaire de la 3e édition imprimée (2010) sous la direction de Christopher Moseley. Les deux premières éditions imprimées dataient respectivement de 1996 et 2001 et n’avaient pas de version en ligne.

L’atlas comprend 2.473 langues en juin 2011 et 2.464 langues en juillet 2017, avec recherche possible selon divers critères (pays ou région, nom de langue, nombre de locuteurs, niveau de vitalité d’une langue, code ISO 639-3). Les noms des langues sont transcrits en français, en anglais et en espagnol sans oublier leurs noms alternatifs (variantes orthographiques, dialectes ou noms en caractères non latins).

Le «Rapport de l’UNESCO sur la vitalité et le danger de disparition des langues» établit six niveaux de vitalité pour une langue: sûre, vulnérable, en danger, sérieusement en danger, en situation critique, éteinte. (1) «Sûre» signifie que la langue est parlée par toutes les générations et que la transmission intergénérationnelle est ininterrompue. Les langues concernées ne sont donc pas incluses dans l’atlas. (2) «Vulnérable» signifie que la plupart des enfants parlent la langue, mais qu’elle est restreinte à certains lieux, par exemple le domicile. (3) «En danger» signifie que les enfants n’apprennent plus la langue comme langue maternelle chez eux. (4) «Sérieusement en danger» signifie que la langue est parlée par les grands-parents. Si la génération des parents peut la comprendre, les parents ne la parlent pas entre eux ou avec leurs enfants. (5) «En situation critique» signifie que les locuteurs les plus jeunes sont les grands-parents et leurs ascendants, et qu’ils ne parlent la langue que partiellement et peu fréquemment. (6) «Éteinte» signifie qu’il n’y a plus de locuteurs. L’atlas inclut les langues éteintes depuis les années 1950.

À quel moment une langue est-elle considérée comme en péril? Comme expliqué sur le site de l’atlas: «Une langue est en péril lorsque ses locuteurs cessent de l’utiliser, réservent son usage à des domaines de plus en plus restreints, emploient un moins grand nombre de registres ou de styles de parole, et/ou arrêtent de la transmettre à la génération suivante. Aucun facteur ne détermine à lui seul si une langue est en danger.»

Selon les experts de l’UNESCO, il importe de considérer les neuf critères suivants: (1) la transmission de la langue d’une génération à l’autre, (2) le nombre absolu de locuteurs, (3) le taux de locuteurs par rapport à l’ensemble de la population, (4) l’utilisation de la langue dans les différents lieux publics et privés, (5) la réactivité d’une langue face aux nouveaux sujets et médias, (6) l’existence de matériel d’apprentissage et d’enseignement de la langue, (7) les attitudes et politiques linguistiques du gouvernement et des institutions, y compris l’usage officiel et le statut officiel de la langue, (8) les attitudes des membres de la communauté concernée vis-à-vis de leur propre langue, (9) le type et la qualité de la documentation disponible dans cette langue.

Quels sont les facteurs de disparition d’une langue? Selon les mêmes experts: «Une langue disparaît lorsqu’elle n’a plus de locuteurs ou que ceux-ci se mettent à parler une autre langue — en général une langue de plus grande importance utilisée par un groupe plus puissant. Les langues sont menacées par des forces externes telles qu’une domination militaire, économique, religieuse, culturelle ou éducative, ou par des forces internes comme l’attitude négative d’une population à l’égard de sa propre langue. Aujourd’hui, les migrations accrues et l’urbanisation rapide s’accompagnent souvent de la perte des modes de vie traditionnels et d’une forte pression en faveur de l’utilisation d’une langue dominante qui est nécessaire — ou perçue comme telle — à une vraie participation à la vie civique et au progrès économique.»

L’atlas de l’UNESCO considère par exemple le gaélique écossais comme une langue «sérieusement en danger». D’après le recensement de 2011, moins de 60.000 personnes parlent le gaélique, soit un peu plus de 1% de la population de l’Écosse, et 92.000 personnes comprennent la langue. Ces chiffres sont très inférieurs à ceux du recensement de 1901, qui comptaient 200.000 personnes parlant le gaélique, soit 4,5% de la population.

La situation était très différente par le passé. Pendant de nombreux siècles, tout le monde parle le gaélique en Écosse et en Irlande et les universitaires diffusent leurs écrits en gaélique dans toute l’Europe. Au fil des siècles, l’anglais devient peu à peu la langue dominante, y compris sur les îles occidentales écossaises, malgré la présence du gaélique écossais en tant que première langue communautaire. La culture gaélique renaît au début du 19e siècle, sous forme de poésie, de prose et de musique. Entre les deux guerres mondiales, la radio diffuse les actualités en gaélique et on apprend la langue à l’école. De nos jours, nombre de romans sont publiés en gaélique. Radio nan Gàidheal émet en gaélique depuis les années 1980 et la chaîne de télévision ALBA diffuse ses émissions en gaélique depuis le début des années 2000. Toutes deux sont présentes sur le web, ce qui a boosté leur audience.

Qu’en est-il du gaélique sur le web? Opera est le premier navigateur web offrant une interface en gaélique, en 2001, suivi de Firefox (Mozilla) et de Google Chrome, grâce au patient travail de Michael Bauer, traducteur indépendant, sur son temps libre, avec l’aide de sa collègue GunChleoc (pseudonyme qui signifie «une femme» en gaélique écossais). Michael Bauer et GunChleoc sont aussi les auteurs des versions gaéliques de Thunderbird (messagerie de Mozilla), Lightning (calendrier de Mozilla), OpenOffice, LibreOffice, auxquels s’ajoutent les versions gaéliques du VLC media player, du jeu Freeciv (version open source du jeu Civilisation) et de Accentuate.us (logiciel permettant d’insérer automatiquement les accents). Michael Bauer est également l’auteur (avec Kevin Scannell) du correcteur d’orthographe An Dearbhair Beag.

Wikipédia a sa version gaélique, Uicipeid. Le gaélique écossais dispose de trois dictionnaires en ligne. Le premier dictionnaire est Stòr-dàta, une liste de mots gérée par l’Institut Sabhal Mòr Ostaig (situé sur l’île de Skye, en Écosse), dont tous les cours sont dispensés en gaélique écossais. Le deuxième dictionnaire est le Dwelly, le fameux dictionnaire gaélique datant de 1911, qui est au gaélique ce que l’Oxford English Dictionary est à l’anglais. Cette version numérisée a demandé dix ans de travail à Michel Bauer, avec l’aide de son collègue Will Robertson. Le troisième dictionnaire est Am Faclair Beag, qui signifie «petit dictionnaire» mais qui est en fait un vaste dictionnaire regroupant le Dwelly de 1911 et des données plus modernes, toujours grâce au patient travail de Michael Bauer et Will Robertson.

Et les projets ne manquent pas. D’après Michael Bauer, interviewé en octobre 2015, une archive en ligne serait très utile pour les projets de localisation, avec une mémoire de traduction commune, ce qui éviterait de devoir retraduire indéfiniment les mêmes termes et segments de phrase. Si on avait la possibilité de traduire les logiciels à partir d’une archive en ligne commune, par exemple un genre de méta-Pootle (serveur pour les projets communs de localisation), tout le monde en serait bénéficiaire, non seulement pour le gaélique mais pour l’ensemble des langues minoritaires.

De nombreuses langues minoritaires, autochtones et menacées ont encore besoin de dictionnaires, de grammaires et de glossaires. Certaines langues ont même besoin de technologies de base telles que configuration de clavier et correcteur d’orthographe. La tâche est à la fois passionnante et titanesque.

Nombre de locuteurs de ces langues se battent pour garder leur langue et leur culture en vie. De plus en plus de groupes linguistiques se tournent vers le web, devenu un outil majeur pour la revitalisation d’une langue. Des milliers de gens bloguent dans leur langue natale et ils utilisent les réseaux sociaux tels que Facebook et Twitter dans ces langues.

Les réseaux sociaux ont permis à des communautés parfois éparpillées de nouer des liens et d’utiliser leur langue de manière naturelle. Ils ont permis aussi de toucher les jeunes, un groupe démographique essentiel pour la revitalisation d’une langue, puisqu’une langue menacée est presque toujours une langue parlée seulement par les anciens. Plus les jeunes parlent et écrivent une langue menacée, moins elle risque de disparaître.


Copyright © 2017-19 Marie Lebert
Licence CC BY-NC-SA version 4.0

Written by marielebert

2017-10-24 at 17:18

Posted in Uncategorized