Présentation du projet
• Nom de projet / Acronyme : Extraction d’informations à partir de tableaux semi-structurés manuscrits du Fichier Domiciliaire pour une histoire de la population de Strasbourg (1871-1939)
• Porteur du projet : Yoann Doignon
• Résumé du projet : Ce projet vise à construire une base de données d’envergure à partir d’une source de données inédite en France, le Fichier Domiciliaire de la ville de Strasbourg (1871-1939). La base permettra de suivre les individus dans le temps et l'espace sur une longue période et de reconstituer leurs trajectoires familiales et résidentielles. Sa richesse rendra possible des analyses innovantes sur un large éventail de sujets. Nous utiliserons pour cela des méthodes informatiques innovantes de reconnaissances automatiques de caractères manuscrits reposant sur du Deep Learning.
Les populations urbaines de cette période restent peu étudiées, alors que les villes connaissent des transformations importantes (industrialisation, urbanisation). La démographie historique s’est surtout intéressée aux petites populations des villages et a peu analysé la population des villes en raison d’un temps de collecte important. Les avancées récentes en Deep Learning permettent de surmonter ces difficultés et d'exploiter de nouvelles sources de données.
Si la source utilisée dans ce projet, quasiment inexploitée, est une opportunité unique pour mieux comprendre une population urbaine de cette époque, elle représente également des enjeux spécifiques pour l’informatique, notamment en termes d’océrisation automatique des sources historiques. Ce corpus est complexe à traiter à cause de difficultés spécifiques liées à l'écriture manuscrite et à la diversité des mises en page semi-tabulaires (nature manuscrite du texte, différents styles d'écriture cursive en latin et en allemand, variation de la disposition spatiale des lignes et des champs d'information, phrases parfois à l’étroit ou débordant sur les champs voisins).
La collaboration d’une équipe d’informaticiens spécialistes de Deep Learning pour la vision et le traitement du langage pour la lecture automatique de documents et d’une équipe pluridisciplinaire de chercheurs en SHS (démographes historiens, géographes) permettra de mener à bien ce projet.
• Financeur : ANR
• Partenaires :
o SAGE (UMR 7363)
o LITIS (UR 4108)
o IDEES (UMR 6266)
o ARCHE (UMR 3400)
o LARHRA (UMR 5190)
o Archives de la ville et de l’Eurométropole de Strasbourg
• Membres du laboratoire participant au projet : Yoann Doignon