Journée d'étude à Grenoble coorganisée par l'Université Grenoble Alpes et Roma La Sapienza - le 28 avril 2023

Cette journée d'étude, coorganisée par des jeunes chercheur.e.s et des chercheur.e.s expérimenté.e.s, s'adresse aux doctorant.e.s, jeunes chercheur.e.s et post-docs, ainsi qu'aux chercheur.e.s expérimenté.e.s.

L’influence croissante des méthodologies liées au TAL sur la linguistique de corpus oblige les chercheur.e.s à réinterroger les pratiques de gestion du bruit et son impact dans les résultats de recherche (Fuchs & Habert, 2004 ; Léon, 2018 ; Zalmout et al., 2018). Qu’il s’agisse de corpus en diachronie longue (ex. français médiéval), de corpus dialectaux aux ressources limitées (ex. textes oraux ou écrits en arabe dialectal, cf. arabizi), ou encore de corpus de textes éloignés de la norme (ex. corpus d’apprenants), l’analyse du bruit est une étape nécessaire pour apprécier correctement la qualité des données de recherche (Molinelli & Putzu, 2015 ; Scaglione, 2018 ; Litosseliti, 2018). Cette journée d'étude sera l’occasion de réfléchir sur les méthodes de gestion du bruit dans les domaines du TAL et de la linguistique de corpus outillée, et à son impact sur la qualité des données linguistiques (Kraif et Ponton, 2007 ; Goutte et al., 2012 ; Zeroual, 2018). 

bruit

Les questions sous-jacentes à toute étude linguistique concernent la définition de l'objet de recherche, la nature des données elles-mêmes, et la manière de préserver autant que possible leurs caractéristiques dans les différents traitements (lemmatisation, normalisation, etc.) (Sarrica et al., 2016). Ainsi, le choix des méthodes de gestion du bruit, de la phase de collecte à leur archivage, de la préparation des données à l'annotation, joue un rôle fondamental (Egbert & Baker, 2019). La journée d’étude stimulera une réflexion sur les pratiques des chercheurs pour réduire la portée des biais produits par le bruit et le silence, que ce soit durant la collecte, l’enregistrement ou l’annotation des données. De même, il s’agit de comprendre dans quelle mesure le bruit peut se révéler une source d’informations, notamment durant la phase d’annotation des corpus. À partir de quel seuil peut-on considérer le bruit comme acceptable ? Comment différencier bruit et biais méthodologique ? Comment estimer le bruit sans vérité de terrain ? Comment atteindre l’équilibre nécessaire pour que le bruit causé par les traitements des données ne compromette pas les résultats des recherches ? Pour tenter de répondre à ces questions, les personnes intéressées pourront soumettre une proposition de communication s’inscrivant dans l’un des trois axes ci- dessous :

  1. Le bruit pendant la collecte et l'enregistrement des données. Si l’on accepte le postulat selon lequel « la donnée linguistique est un résultat » (Benveniste, 1966), comment décoder le bruit causé par le recueil des données et leur enregistrement ? En effet, en fonction des objets de recherche, il existe des facteurs potentiels de corruption des données, comme par exemple les croyances du chercheur, ou les biais introduits par un système OCR donné (Jentsch & Porada, 2020). L’enjeu consiste alors à prédire ou à déterminer les biais potentiels induits par ces facteurs lors de la sélection des données pour optimiser les phases de recherche successives.
  2. La préparation et le prétraitement des données. Les méthodes choisies pour affiner les données brutes et les rendre disponibles pour des manipulations avancées peuvent représenter une importante source de bruit ou, au contraire, de silence : c’est notamment le cas du processus de normalisation des données (Al Sharou et al., 2021). Qu’il s’agisse de transcrire des données ou de corriger des erreurs, le chercheur fait des choix qui impactent nécessairement la nature des données, soit en les réduisant, soit en les enrichissant.
  3. Le processus d’annotation et les métadonnées. À la base, l’annotation des corpus est un processus visant l’enrichissement des données : en fonction du modèle d’analyse mis au point, le chercheur tente de catégoriser des unités à travers un processus d’étiquetage (Péry-Woodley et al., 2011). Cependant, si d’un côté ce processus peut générer du bruit, de l’autre, il peut être une cause de silence fort préjudiciable aux résultats des recherches et à leur interprétation. La notion de métadonnée peut également être mise en cause : enrichir une donnée signifie-t-il la transformer en quelque chose d’autre ?

miai

Personnes connectées : 2 Vie privée
Chargement...