Archive for October 2017

Les langues minoritaires sur le web

Par Marie Lebert, version du 21 décembre 2017.

«Je ne pense pas que le web va contribuer à la perte de l’identité des langues et j’ai même le sentiment que, à long terme, il va renforcer cette identité. Le web est un outil accessible d’expression culturelle.» (Robert Beard, cofondateur de yourDictionary.com)


[Version anglaise]
[Version espagnole]


* L’Ethnologue, catalogue de toutes les langues vivantes
* Un atlas des langues en danger dans le monde
* Premier exemple: le créole haïtien
* Deuxième exemple: le gaélique écossais
* Troisième exemple: Indigenous Tweets
* Il reste beaucoup à faire


L’Ethnologue, catalogue de toutes les langues vivantes

L’Ethnologue est un catalogue encyclopédique de langues vivantes qui dispose d’une version imprimée payante disponible tous les quatre ans depuis les années 1950 et d’une version web gratuite depuis 1996. La 20e édition (2017) de l’Ethnologue recense 7.099 langues vivantes.

Publiée par SIL International, cette oeuvre de référence, dont le titre complet est «The Ethnologue: Languages of the World» (L’Ethnologue: les langues du monde), répertorie les langues selon divers critères (nom de la langue, famille linguistique, pays dans lequel la langue est parlée, identifiant de trois lettres, etc.) tout en offrant aussi des index et des cartes géographiques.

Débuté en 1951 pour offrir un catalogue des langues minoritaires avant de s’élargir à toutes les langues vivantes en 1971, ce travail est mené sous l’égide d’une petite équipe de chercheurs basée à Dallas, aux États-Unis. Cette équipe rassemble et organise la masse d’informations glanées et vérifiées une à une sur le terrain par des milliers de linguistes regroupés en équipes nationales et/ou linguistiques présentes sur tous les continents.

Barbara Grimes, directrice de publication de l’Ethnologue entre 1971 et 2000 (8e-14e éditions), relate en janvier 2000 lors d’un entretien par courriel: «L’Ethnologue est un catalogue des langues dans le monde, avec des informations sur les pays où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, diverses informations sociolinguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues [Ethnologue Name Index], un index des familles linguistiques [Ethnologue Language Family Index] et enfin des cartes géographiques pour les langues.»

Mais qu’est-ce exactement qu’une langue? Selon le site de l’Ethnologue, «la manière dont chacun choisit de définir une langue dépend des motifs qu’on a d’identifier cette langue comme étant distincte d’une autre. Certains basent la définition d’une langue sur des raisons purement linguistiques. D’autres reconnaissent la nécessité de prendre également en compte des facteurs sociaux, culturels ou politiques. En outre, les locuteurs d’une langue ont souvent leurs propres critères sur l’appropriation d’une langue comme étant la leur. Ces critères sont souvent bien davantage liés à des questions de patrimoine et d’identité qu’aux traits linguistiques de la langue ou des langues en question.»

Une caractéristique de la base de données de l’Ethnologue depuis 1971 est un identifiant de trois lettres pour chaque langue (par exemple «fra» pour le français), avec inclusion des identifiants dans la version imprimée à partir de la 10e édition (1984). En 2002, à l’invitation de l’Organisation internationale de normalisation (ISO), SIL International met en chantier une nouvelle norme ISO destinée à remplacer la norme ISO 639-2, publiée en 1998 pour identifier 400 langues sur trois lettres, ce qui n’est plus suffisant avec la mondialisation du réseau. SIL International harmonise donc les identifiants utilisés dans l’Ethnologue avec ceux de la norme ISO 639-2, en intégrant aussi les identifiants des langues mortes et artificielles utilisés par la Linguist List, grande liste de diffusion à destination des linguistes. Publiée en 2007, la norme ISO 639-3 attribue un identifiant de trois lettres à près de 7.500 langues (vivantes, mortes, artificielles), y compris les langues des signes. SIL International est également désigné comme l’organisme responsable de la gestion du cycle annuel des modifications et des mises à jour.

La 17e édition (2013) de l’Ethnologue recense 7.105 langues vivantes, et publie pour la première fois son édition en ligne gratuite avant son édition imprimée payante. L’Ethnologue annonce aussi une actualisation chaque année et non plus tous les quatre ans, pour être en phase avec le monde rapide dans lequel nous vivons. Cette 17e édition nous apprend que la langue anglaise reste prédominante puisqu’elle est répertoriée dans 125 pays, soit comme langue officielle soit comme langue parlée par un groupe significatif d’immigrants. Sur les 136 familles linguistiques existantes, la plus importante est l’indo-européen, qui regroupe 3 milliards de locuteurs. La Papouasie-Nouvelle-Guinée est le pays qui recense le plus de langues vivantes, avec 836 langues. Suivent l’Indonésie avec 706 langues et le Nigéria avec 522 langues.


Un atlas des langues en danger dans le monde

En 2010, dans le cadre de son programme de préservation des langues menacées, l’UNESCO (Organisation des Nations Unies pour l’éducation, la science et la culture) lance son Atlas interactif des langues en danger dans le monde. L’édition en ligne gratuite est complémentaire de la 3e édition imprimée (2010), une édition trilingue (français, anglais, espagnol) payante réalisée sous la direction de Christopher Moseley. Les deux premières éditions imprimées dataient respectivement de 1996 et 2001.

L’atlas comprend 2.473 langues en juin 2011 et 2.464 langues en juillet 2017, avec recherche possible selon divers critères (pays ou région, nom de langue, nombre de locuteurs, niveau de vitalité, code ISO 639-3). Les noms des langues sont indiqués dans leurs transcriptions en français, en anglais et en espagnol. Les noms alternatifs (variantes orthographiques, dialectes ou noms en caractères non latins) sont également fournis dans de nombreux cas.

Le Rapport de l’UNESCO sur la vitalité et le danger de disparition des langues établit six niveaux de vitalité pour une langue: sûre, vulnérable, en danger, sérieusement en danger, en situation critique, éteinte. (1) «Sûre» signifie que la langue est parlée par toutes les générations et que la transmission intergénérationnelle est ininterrompue. Les langues concernées ne sont donc pas incluses dans l’atlas. (2) «Vulnérable» signifie que la plupart des enfants parlent la langue, mais qu’elle est restreinte à certains lieux, par exemple la maison. (3) «En danger» signifie que les enfants n’apprennent plus la langue comme langue maternelle à la maison. (4) «Sérieusement en danger» signifie que la langue est parlée par les grands-parents. Si la génération des parents peut la comprendre, les parents ne la parlent pas entre eux ou avec leurs enfants. (5) «En situation critique» signifie que les locuteurs les plus jeunes sont les grands-parents et leurs ascendants, et qu’ils ne parlent la langue que partiellement et peu fréquemment. (6) «Éteinte» signifie qu’il n’y a plus de locuteurs. L’atlas inclut les langues éteintes depuis les années 1950.

À quel moment une langue est-elle considérée comme en péril? Comme expliqué sur le site de l’atlas, «une langue est en péril lorsque ses locuteurs cessent de l’utiliser, réservent son usage à des domaines de plus en plus restreints, emploient un moins grand nombre de registres ou de styles de parole, et/ou arrêtent de la transmettre à la génération suivante. Aucun facteur ne détermine à lui seul si une langue est en danger.»

Selon les experts de l’UNESCO, il importe de considérer les neuf critères suivants: (1) la transmission de la langue d’une génération à l’autre, (2) le nombre absolu de locuteurs, (3) le taux de locuteurs par rapport à l’ensemble de la population, (4) l’utilisation de la langue dans les différents lieux publics et privés, (5) la réactivité d’une langue face aux nouveaux sujets et médias, (6) l’existence de matériel d’apprentissage et d’enseignement de la langue, (7) les attitudes et politiques linguistiques du gouvernement et des institutions, y compris l’usage officiel et le statut officiel de la langue, (8) les attitudes des membres de la communauté concernée vis-à-vis de leur propre langue, (9) le type et la qualité de la documentation disponible dans cette langue.

Quels sont les facteurs de disparition d’une langue? Selon les mêmes experts, «une langue disparaît lorsqu’elle n’a plus de locuteurs ou que ceux-ci se mettent à parler une autre langue — en général, une langue de plus grande importance utilisée par un groupe plus puissant. Les langues sont menacées par des forces externes telles qu’une domination militaire, économique, religieuse, culturelle ou éducative, ou par des forces internes comme l’attitude négative d’une population à l’égard de sa propre langue. Aujourd’hui, les migrations accrues et l’urbanisation rapide s’accompagnent souvent de la perte des modes de vie traditionnels et d’une forte pression en faveur de l’utilisation d’une langue dominante qui est nécessaire — ou perçue comme telle — à une vraie participation totale à la vie civique et au progrès économique.»


Premier exemple: le créole haïtien

Guy Antoine, né à Haïti et installé à New York, crée le site Windows on Haiti en avril 1998 afin de promouvoir le créole haïtien, parlé non seulement à Haïti mais aussi en République dominicaine, au Canada, aux États-Unis et dans d’autres pays.

Guy Antoine explique en juin 2001 lors d’un entretien par courriel: «Que sont les Haïtiens sans le kreyôl (créole pour les non-initiés), une langue qui s’est développée et qui a permis de souder entre elles diverses tribus africaines transplantées à Haïti pendant la période de l’esclavage? Cette langue représente de manière la plus palpable l’unité de notre peuple. Cependant elle est surtout une langue parlée et non écrite. À mon avis, le web va changer cet état de fait plus qu’aucun autre moyen traditionnel de diffusion d’une langue.»

Quel est le but de Windows on Haiti? «D’une part être une source d’information majeure sur la culture haïtienne, d’autre part contrer les images continuellement négatives que les médias traditionnels donnent d’Haïti. Je voulais aussi montrer la diversité de la culture haïtienne dans des domaines tels que l’art, l’histoire, la cuisine, la musique, la littérature et la vie traditionnelle. (…) J’espère également m’associer avec les bonnes personnes pour, au-delà de Haïti, avancer vers un idéal de fraternité dans notre monde.»

Quelles sont les langues utilisées? «Dans Windows on Haiti, la langue principale est l’anglais, mais on y trouve tout aussi bien un forum de discussion animé conduit en kreyôl. On y trouve aussi des documents sur Haïti en français et dans l’ancien créole colonial, et je suis prêt à publier d’autres documents en espagnol et dans diverses langues. Je ne propose pas de traductions, mais le multilinguisme est effectif sur ce site, et je pense qu’il deviendra de plus en plus la norme sur le web.»

Windows on Haiti propose deux forums de discussion exclusivement en kreyôl. «Le premier forum regroupe des discussions générales sur toutes sortes de sujets, mais en fait ces discussions concernent principalement les problèmes socio-politiques qui agitent Haïti. Le deuxième forum est uniquement réservé aux débats sur les normes d’écriture du kreyôl. Ces débats sont assez animés, et un certain nombre d’experts linguistiques y participent. Le caractère exceptionnel de ces forums est qu’ils ne sont pas académiques.»


Deuxième exemple: le gaélique écossais

Le gaélique écossais est la langue celte traditionnellement parlée en Écosse. D’après le recensement de 2011, moins de 60.000 personnes parlent le gaélique, soit un peu plus de 1% de la population de l’Écosse, et 92.000 personnes comprennent la langue. Ces chiffres sont très inférieurs à ceux du recensement de 1901, qui comptabilisaient 200.000 personnes parlant le gaélique, soit 4,5% de la population.

Si l’Atlas de l’UNESCO des langues en danger dans le monde classe le gaélique dans les langues «sérieusement en danger», cela n’a pas toujours été le cas. Pendant de nombreux siècles, tout le monde parle le gaélique en Écosse et en Irlande. Les deux contrées sont à la proue du monde académique en Europe et les universitaires diffusent leurs écrits en gaélique. Au fil des siècles, l’anglais devient peu à peu la langue dominante, y compris sur les îles occidentales écossaises, malgré la présence du gaélique écossais en tant que première langue communautaire. La culture gaélique renaît au début du 19e siècle, sous forme de poésie, de prose et de musique. Entre les deux guerres mondiales, la radio diffuse les informations en gaélique et on apprend la langue à l’école. De nos jours, davantage de romans sont publiés en gaélique qu’à toute autre époque. Radio nan Gàidheal émet en gaélique depuis les années 1980 et la chaîne de télévision ALBA depuis le début des années 2000. Toutes deux sont présentes sur le web, ce qui a boosté leur audience.

Qu’en est-il du gaélique sur le web? Opera est le premier navigateur offrant une interface en gaélique, en 2001, suivi de Firefox et Google Chrome, grâce au patient travail de Michael Bauer, traducteur indépendant, sur son temps libre, avec l’aide d’une de ses collègues connue sous le nom GunChleoc («une femme» en gaélique écossais). Ils sont aussi les auteurs des versions gaéliques de Firefox, Thunderbird (messagerie de Mozilla), Lightning (calendrier de Mozilla), OpenOffice, LibreOffice, auxquels s’ajoutent les versions gaéliques du VLC media player, du jeu Freeciv (version open source du jeu Civilisation) et de Accentuate.us (logiciel permettant d’insérer automatiquement les accents). L’application de Firefox permettant de changer l’interface de l’anglais au gaélique est utilisée quotidiennement par 500 usagers depuis 2011. Michael Bauer est également l’auteur (avec Kevin Scannell) du correcteur d’orthographe An Dearbhair Beag. Wikipédia a sa version gaélique, Uicipeid.

Qu’en est-il des dictionnaires? Le gaélique écossais dispose de trois dictionnaires en ligne. Le premier dictionnaire est Stòr-dàta, un dictionnaire géré par l’Institut Sabhal Mòr Ostaig (situé sur l’île de Skye, en Écosse), qui est surtout une liste de mots. Le deuxième dictionnaire est le Dwelly, le fameux dictionnaire gaélique datant de 1911, qui est au gaélique ce que l’Oxford English Dictionary est à l’anglais. Cette version numérisée a demandé dix ans de travail à Michel Bauer, avec l’aide de son collègue Will Robertson. Le troisième dictionnaire est Am Faclair Beag, qui signifie «petit dictionnaire» mais qui est en fait un grand dictionnaire regroupant le Dwelly de 1911 et des données plus modernes, toujours grâce au patient travail de Michael Bauer et Will Robertson.

Le web est un vecteur majeur pour la revitalisation d’une langue. Et les projets ne manquent pas. D’après Michael Bauer, une archive en ligne serait très utile pour tous les projets de localisation, avec une mémoire de traduction commune, ce qui éviterait de devoir retraduire indéfiniment les mêmes termes et segments de phrase. Si les traductions de logiciels pouvaient être faites à partir d’une archive en ligne commune, par exemple un genre de méta-Pootle (serveur pour les projets communs de localisation), tout le monde en serait bénéficiaire, non seulement pour le gaélique mais pour l’ensemble des langues minoritaires.


Troisième exemple: Indigenous Tweets

Le site Indigenous Tweets est lancé en mars 2011 par Kevin Scannell, informaticien et professeur à l’Université Saint-Louis, dans le Missouri, aux États-Unis. Ce projet mené sur son temps libre consiste à recenser les tweets dans les langues minoritaires, dans le but de renforcer la présence en ligne des communautés linguistiques autochtones. Indigenous Tweets débute avec 35 langues et compte 71 langues trois semaines plus tard, 144 langues en mars 2013 et 184 langues en octobre 2017.

Pour trouver ces langues sur Twitter, Kevin Scannell conçoit et paramètre un logiciel statistique crawlant le web, qu’il baptise An Crúbadán. La page d’accueil de Indigenous Tweets liste les langues minoritaires actives sur Twitter. Un usager cherche la langue qui l’intéresse et clique sur la ligne correspondante, ce qui l’amène vers une nouvelle page recensant les usagers de Twitter dans cette langue (500 usagers au maximum) et les statistiques correspondantes, entre autres le nombre de tweets, le nombre d’abonnés, le pourcentage de tweets dans la langue donnée (certains tweetent à la fois dans une langue minoritaire et dans une langue globale) et la date du dernier tweet. De nombreux projets dans des langues minoritaires ont débuté par un premier contact sur Twitter.

Kevin Scannell explique en mars 2011 sur son blog que le but premier de Indigenous Tweets est d’aider à créer des communautés de langues par le biais de Twitter, et de permettre aux gens parlant une langue minoritaire de se rencontrer plus facilement dans la vaste mer de l’anglais, du français, de l’espagnol ou d’autres langues globales dominant Twitter. 500 langues globales ou minoritaires sont présentes sur Twitter à cette date. Les principales langues minoritaires sont le créole haïtien, le basque et l’irlandais. Mais, d’après Kevin Scannell, même les locuteurs des langues basque et irlandaise, qui ont des communautés en ligne très actives, ont été surpris de voir le nombre de gens qui tweetaient dans ces langues.

Quel est l’idée derrière ce projet? En deux mots, rassembler et promouvoir. Nombre de locuteurs des langues autochtones et minoritaires se battent pour garder leur langue et leur culture en vie. De plus en plus de groupes linguistiques se tournent vers le web, devenu un outil majeur pour la revitalisation d’une langue. Des milliers de gens bloguent dans leur langue natale et utilisent les réseaux sociaux tels que Facebook et Twitter dans ces langues. Les réseaux sociaux ont permis à des communautés parfois éparpillées de nouer des liens et d’utiliser leur langue de manière naturelle. Ils ont permis aussi de toucher les jeunes, un groupe démographique essentiel pour la revitalisation d’une langue, puisqu’une langue menacée est presque toujours une langue parlée seulement par les anciens. Plus les jeunes parlent ou écrivent une langue menacée, moins elle risque de disparaître.

En septembre 2011, Kevin Scannell lance aussi Indigenous Blogs, cette fois pour recenser les blogs rédigés dans 50 langues minoritaires, toujours dans le but d’avoir une plateforme pour que les gens utilisant la même langue se connaissent et communiquent entre eux. Il recense d’abord les blogs hébergés par Blogspot (qui héberge aussi son propre blog), puis ceux hébergés par d’autres plateformes populaires telles que WordPress ou Tumblr. La présentation de Indigenous Blogs est semblable à celle de Indigenous Tweets, avec une page principale listant toutes les langues présentes. Indigenous Blogs recense 74 langues en mars 2013 et 85 langues en octobre 2017.


Il reste beaucoup à faire

Robert Beard, cofondateur de yourDictionary.com, l’un des premiers sites à créer une section pour les langues menacées, écrit en janvier 2000: «Les langues menacées sont essentiellement des langues non écrites. Un tiers seulement des quelque 6.000 langues existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte de l’identité des langues et j’ai même le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de plus en plus d’Indiens d’Amérique contactent des linguistes pour leur demander d’écrire la grammaire de leur langue et les aider à élaborer des dictionnaires. Pour eux, le web est un instrument accessible d’expression culturelle.»

Les technologies sont un outil efficace pour la revitalisation des langues. Certaines langues minoritaires ont encore besoin de technologies de base telles que configuration de clavier ou correcteur d’orthographe. D’autres langues minoritaires disposent de ces technologies de base, mais elles ont besoin de dictionnaires, grammaires et glossaires.

Un exemple parmi d’autres: l’International Dictionary Day (Jour international du dictionnaire) du 16 octobre 2015 marque le début de la publication de quinze dictionnaires sud-africains dans des langues minoritaires, nouveaux ou révisés, avec treize dictionnaires disponibles le 30 novembre 2015 et deux dictionnaires supplémentaires disponibles début 2016.

Au lieu de compiler des statistiques parfois peu fiables, pourquoi ne pas demander directement aux communautés concernées quels sont leurs besoins? Pourquoi ne pas se baser sur ce qu’elles ont à dire et leur donner la parole, au lieu de se baser sur des chiffres? Leur langue est la porte vers leur culture. Utiliser leur langue au lieu d’une langue globale, ou en complément d’une langue globale, contribue à la renaissance de leur culture et — tout aussi important — à l’estime de soi.


Copyright © 2017 Marie Lebert
Licence CC BY-NC-SA version 4.0

Written by marielebert

2017/10/24 at 17:18

Posted in Uncategorized