Les cahiers d’idées – Formation n°10
Introduction à la « Statistique Textuelle » avec R
Les cahiers d’Idées consistent en une série de formations courtes proposées par les chercheurs de l’UMR IDEES. Ces formations ont vocation à diffuser les connaissances et compétences existantes aux différents membres de l’UMR ; mais également à ses membres extérieurs.
Ce premier atelier 2024 aura pour objectif de reprendre les fondamentaux de de la statistique textuelle (Lebart et Salem, 1994) à travers leur implémentation dans R via le package quanteda (Watanabe et Müller, 2023).
Nous avons fait le choix d'un format mixte - 1 journée de Formation (05/02) et 1/2 journée d'Atelier (06/02) - afin que les participants puissent venir tester les méthodes avec leur propre corpus.
La formation sera assuré par Etienne Toureille, Maitre de Conférence en Géographie Quantitative à Rouen, membre de l’UMR IDEES.
Cette formation s’adresse à toute personne confrontée par la manipulation de données textuelles (données d’enquête, archives, chaînes de caractères scrapées, etc.) intéressée par une analyse quantitative exploratoire du contenu. L’avantage d’une implémentation dans R, réside dans la possibilité de reproduire des analyses disponibles dans des logiciels historiques de la statistique textuelle souvent payants (Alceste, module d’analyse lexical de SPAD) ou dans les possibilités de répétabilité, d’automatisation d’opérations existantes dans d’autres logiciels d’analyse textuelle (cas de TXM).
Pour une application en sciences sociales le contenu des textes sera analysé relativement à leur contexte de production (différences lexicales entre sources, auteurs, périodes, par exemple).
Des rappels théoriques et des applications sur des corpus d’exemple seront proposées sur les méthodes suivantes :
• La transformation de textes (chaînes de caractères) en tableau (tableau lexical entier : TLE),
• Donc la modélisation du tableau de données (définition des unités de contexte et des unités lexicales, sélection des termes et autres formes de « nettoyage » des données textuelles),
• L’analyse du lexique et du concordancier,
• L’analyse du vocabulaire spécifique entre des sous-corpus (construction de tableaux lexicaux agrégés – TLA et test du chi2),
• L’analyse des correspondances (AFC) appliquée à un TLA,
• L’analyse des cooccurrences et des segments répétés,
• Selon le temps disponible : méthodes de classification de texte (CAH et/ou CDH de Reinert – méthode historiquement utilisée dans Alceste et Iramutec – via le package rainette – Barnier, 2023).
Descriptif des journées :
La première journée sera consacrée à la manipulation des fonctions de quanteda sur les corpus d’exercice à partir de données de presse et de résultats d’enquêtes (réponses à des questions ouvertes dans un questionnaire d’enquête).
Le lendemain, une demi-journée sera proposée aux collègues souhaitant appliquer ces méthodes à leur propres corpus. Pour ce faire, il est préférable de consulter le didacticiel de quanteda concernant l’import des données : https://tutorials.quanteda.io/import-data/ . Un exemple de formatage de données sous la forme d’un fichier .csv est proposé via ce lien.
Cette formation sera assuré par Etienne Toureille, Maitre de Conférence en Géographie Quantitative à Rouen, membre de l’UMR IDEES.
Modalités de participation :
Cette formation est ouverte :
• Aux membres internes du laboratoire UMR, avec une prise en charge complète (nuitées, repas, déplacements)
• Aux membres externe du laboratoire UMR (ex : Etudiants de Master 1/2, Personnels d’autres laboratoires ou d’autres universités, etc.) avec une prise en charge partielle (repas uniquement)
Prérequis :
Venir avec un ordinateur portable et si possible Rstudio, R (version 4.3.2) et Quanteda (version 4) déjà installé.
Un niveau R débutant avec des notion de statistiques descriptives (bivariés, Chi2) est demandé.
Localisation :
Le Havre Université, salle Madeleine Brocard (C205 - bâtiment AI / LSH)
Modalités de participation :
Cette formation est ouverte :
• Aux membres internes du laboratoire UMR, avec une prise en charge complète (nuitées, repas, déplacements)
• Aux membres externe du laboratoire UMR (ex : Etudiants de Master 1/2, Personnels d’autres laboratoires ou d’autres universités, etc.) sans prise en charge.
Lien pour l’inscription : https://enquetes-ng.univ-rouen.fr/index.php/283154?newtest=Y&lang=fr
Date limite d’inscription : 26 janvier 2024
Date limite de prise en charge pour les déplacements, nuitées : 18 janvier 2024