Thèse Reconnaissance et Appariement d'Entités Ner - El Robustes à Partir de Sorties Ocr - Htr avec Humain dans la Boucle. H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Tours École doctorale : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS Laboratoire de recherche : Laboratoire d'Informatique Fondamentale et Appliquée de Tours Direction de la thèse : Cyril DE RUNZ ORCID 0000000259516859 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-15T23:59:59 Les imprimés et manuscrits de l'époque moderne présentent une orthographe instable, des mises en page complexes (telles que les paratextes et les marginalia), ainsi que du bruit issu des processus de reconnaissance, autant de facteurs qui affectent les performances des tâches de traitement automatique des langues (TAL) en aval, comme la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL).
Surmonter ces difficultés nécessite des techniques de modélisation et de prétraitement spécialisées (telles que la gestion des variations orthographiques historiques et l'entraînement sur des corpus historiques) afin d'adapter les outils de TAL aux textes de la première modernité.
Cette thèse de doctorat se concentre sur la définition d'approches pour la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL) robustes pour des sources de l'époque moderne traitées par OCR/HTR, en ciblant plus particulièrement des corpus français issus des Bibliothèques Virtuelles Humanistes (BVH, CESR-Tours), avec des études pilotes pour le latin, le grec et l'italien.
Deux approches complémentaires seront explorées :
- une chaîne de traitement robuste partant de sorties manuelles, OCR ou HTR, qui applique une normalisation non destructive et en couches, fondée sur des règles, des gazetteers et des modèles neuronaux de NER/EL ;
- un modèle conjoint de bout en bout qui infère simultanément la transcription et les entités directement à partir des images de pages.
Les résultats permettront de soutenir des réseaux prosopographiques, avec des entités liées à des bases de connaissances telles que Wikidata, GeoNames et le World Historical Gazetteer (WHG).
Une curation humanintheloop s'appuiera sur Arkindex, INCEpTION et Recogito.
Les livrables incluront des chaînes de traitement reproductibles, un jeu de données de référence pilote (CoNLL + TEI avec identifiants de bases de connaissances), des modèles entraînés ainsi qu'une interface de démonstration. Early-modern prints and manuscripts exhibit inconsistent spelling, complex layouts
(such as paratexts and marginalia), and noise in recognition, all of which
affect the performance of downstream natural language processing (NLP) tasks
like named entity recognition (NER) and entity linking (EL).
Overcoming these challenges requires specialized modeling and preprocessing
techniques (such as handling historical spelling variations and training on historical
corpora) to adapt NLP tools for early-modern texts. Within the BVH
framework, The ReNom project, where members of the BDTLN team developed
methods for NER [14, 13], will offer a named-entity-centric baseline for
research and comparison.
Research has been conducted on documents that face similar challenges. For
early-modern French, adopting historical pretraining and using automatic normalization
improve system performance [1, 17]. Additionally, layered normalization
methods have shown to enhance historical NER and geoparsing to some
extent without overwriting diplomatic texts [12].
Collaborative work in evaluation campaigns and workshops related to information
extraction (IE) and document understanding has been significant for the
field. For handwritten and complex records, the Information Extraction in Historical
Handwritten Records challenge on the Esposalles dataset established a combined HTR and IE benchmark [7]. Regarding more recent corpora facing similar
challenges, the HIPE-2020 and HIPE 2022 initiatives organized evaluation
campaigns on NER for historical newspapers from the 18th and 19th centuries
under OCR noise conditions, emphasizing domain-specific categories and linking
challenges [6, 4, 5]. The use of external information, such as knowledge graphs
and temporal data, has proven useful for disambiguating entities in these noisy
conditions [2, 8]. Large language models (LLMs) have also been employed to detect
and classify entities in historical documents [9, 10]. Results indicate that
while LLMs can recognize entities to some extent, developing specialized models
capable of managing document complexity remains essential.
Another approach is to bypass the pipeline methodology and directly predict
text and entities from images using an end-to-end method, thereby reducing
cascading errors [15]. Recent efforts expand this approach to full-page, mixed
handwritten and printed records, with publicly available datasets and baselines
[3].
Human-in-the-loop tools, such as INCEpTION (which supports active-learning
NER and EL with AI and knowledge base recommender) [11], Recogito (which
facilitates semi-automatic toponym EL) [16], and Arkindex (which allows full image annotation) enable expert-guided refinement. This is important because
it highlights the value of including expert perspectives during the development
of machine learning systems.
Research Questions
1. Are end-to-end page and paragraph models more accurate than standard
OCR/HTR, normalization, rules, gazetteers, and neural NER/EL pipelines
on early-modern materials?
2. To which grade does inconsistent orthography, intricate layouts, and recognition
noise impact NER and EL?
3. How detailed a prosopographical analysis can be performed with limited and
noisy data? This PhD focuses on reliable named-entity recognition (NER) and entity linking
(EL) for early-modern sources processed through OCR/HTR, specifically targeting
French materials from the BVH, with pilots for Latin, Greek, and Italian.
Two complementary approaches will be explored:
1. a robust pipeline starting from manual, OCR, or HTR outputs that apply
non-destructive, layered normalization, rules, gazetteers, and neural NER/EL;
2. an end-to-end joint model that infers transcription and entities directly from
page images.
Outputs will support prosopographical networks, with entities linked to knowledge
bases like Wikidata, GeoNames, and theWorld Historical Gazetteer (WHG).
Human-in-the-loop curation will use Arkindex, INCEpTION, and Recogito. Deliverables
include reproducible pipelines, a pilot gold dataset (CoNLL + TEI
with KB IDs), trained models, and a demo UI. - M1 - M12: Corpus scoping (BVH), pipeline v1, pilot gold, first NER/EL models,
baseline comparisons; DH interviews; workshop; papers (LREC/COLING).
- M13 - M24: End-to-end models; prosopography v1; demo beta; papers (ICDAR,
DH, LREC/COLING).
- M25 - M36: Consolidation; ablations (normalization, layout cues, gazetteers);
thesis writing defense
Evaluation will consider NER span F1 (micro/macro; nested if applicable), EL
Accuracy@1/MRR, and expert utility (precision/recall of nodes/edges in person/
place networks; imprint extraction accuracy), compared to strong baselines.
Le profil recherché
Personne diplômée ou étudiant en Master 2 ou ingénieur en informatique avec des connaissances en IA et en TAL, ou en Master 2 en TAL avec des compétences en informatique et en IA.