ANR « Accroître la vitalité et la visibilité numérique des langues de France : descriptions linguistiques et corpus annotés – DIVITAL »

Financeur : Agence Nationale de la Recherche

Responsable scientifique (UMR CNRS 6240 LISA) : Stella Retali-Medori

Porteur du projet : LiLPa - Linguistique, Langues, Parole (EA 1339 - UR 1339, Université de Strasbourg) ; Coordination : Madame Delphine BERNHARD

Partenaires :
FoReLLIS - Formes et Représentations en Linguistique, Littérature et arts de l'Image et de la Scène (Unité de Recherche 3816, Université de Poitiers)
Laboratoire Cognition, Langues, Langage, Ergonomie (CLLE) UMR 5263 (Université Toulouse Jean Jaurès, Université Bordeaux Montaigne)

Début et durée du projet scientifique : décembre 2021 - 48 Mois

Résumé du projet :
Les ressources numériques, telles que les lexiques, les dictionnaires et les corpus de textes, (bruts ou enrichis d'annotations linguistiques), sont essentielles pour une meilleure inclusion des langues régionales et minoritaires dans le monde numérique. Pourtant, le fossé entre les langues bien dotées en ressources (moins de dix langues) et les langues "peu dotées" reste important. Cet écart est également documenté en France, où l'on constate que les langues régionales sont très peu pourvues en ressources et outils numériques, par rapport au français. Dans ce projet, nous nous focaliserons sur quatre langues peu dotées de France : l'alsacien, le corse, l'occitan et le poitevin-saintongeais.
D'un point de vue théorique, le projet intégrera et réévaluera les connaissances linguistiques sur ces langues, en comparaison avec d'autres langues proches. L'objectif sera de produire des descriptions complètes et actualisées, qui pourront être reprises dans des guides d’annotation.
Il s’agira également de sensibiliser les chercheurs et chercheuses en linguistique et en traitement automatique des langues aux problématiques des langues régionales de France, en augmentant le volume de ressources annotées et non-annotées disponibles. Les corpus intégreront des genres qui s’approchent de ou transcrivent la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, ainsi que des documents parallèles traduits. Les données étiquetées prendront la forme de corpus « Universal Dependencies » (UD). L'utilisation du système UD est motivée par sa large adoption par la communauté du traitement automatique des langues et par les nombreux outils et recommandations déjà disponibles.
Enfin, le projet étudiera comment partager et transférer les expériences et outils issus du projet entre langues. Cela devrait permettre aux langues les moins avancées de progresser et de bénéficier ainsi de l'expérience des autres pour accélérer leur développement. Au-delà des réalisations concrètes et immédiates pour les langues représentées dans ce projet, l'objectif est également de construire des méthodologies qui peuvent être utilisées et appliquées à d'autres langues moins dotées. C'est aussi un moyen de construire une communauté de chercheuses et chercheurs qui travaillent sur les langues moins dotées de France et des régions voisines.