Thèse Traitement Automatisé de l'Information Juridique 2 H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Bretagne Occidentale École doctorale : École doctorale Sciences de La Mer et du Littoral Laboratoire de recherche : Laboratoire des sciences de l'environnement marin Direction de la thèse : Marie BONNIN Date limite de candidature : 2026-05-11T00:00:00 Cette thèse s'inscrit dans le cadre de l'initiative Nawras qui vise à Évaluer la protection juridique des océans à l'aide de l'Intelligence Artificielle. Problématique et objectifs : Garantir l'efficacité du droit dans la protection de l'environnement est crucial. Cependant, l'absence de méthodologies et d'outils adéquats limite notre compréhension de « où, quand et comment le droit protège les océans ». Bien que l'utilisation d'indicateurs soit courante dans l'analyse de phénomènes complexes dans diverses disciplines, elle reste émergente en droit de l'environnement. Notre méthodologie vise à opérationnaliser l'utilisation d'indicateurs pour mesurer le rôle du droit dans la protection des océans, en utilisant l'intelligence artificielle pour automatiser l'extraction des informations juridiques. Les travaux initiaux du projet AIME, notamment la thèse de Youssef Al Mouatamid, ont jeté les bases de cette approche en permettant la classification des articles et l'extraction des entités nommées des textes juridiques. Cette thèse en intelligence artificielle apportera une nouvelle dimension en cherchant à identifier dans les textes juridiques les interdictions liées à des faits environnementaux. L'objectif est de rechercher de manière automatisée les dispositions juridiques existantes à partir d'un problème donné. Actuellement, nous manquons d'informations sur l'existence et la mise en oeuvre du droit de l'environnement marin. L'identification automatisée des textes juridiques facilitera l'accès aux textes de droit pour les non-juristes. En s'appuyant sur de grands modèles de langue et sur la génération augmentée de récupération (RAG) cette thèse vise la mise en place d'un système conversationnel capable de rechercher dans les bases de données internationales les informations juridiques liées à des problèmes spécifiques, tels que la pollution par le cadmium ou les pesticides. 1 - Hypothèse et questions posées, identification des points de blocages scientifiques Cette thèse repose sur l'hypothèse que les algorithmes d'intelligence artificielle peuvent faciliter l'évaluation automatique de la protection juridique de la biodiversité marine. Nous proposons d'explorer l'utilisation de l'IA pour extraire automatiquement les informations des textes juridiques. Cette méthode sera testée sur plusieurs thématiques de pollution d'origine tellurique. Les bases de données publiques existantes, telles qu'Ecolex.org et faolex.org, seront utilisées. Pour exploiter les documents juridiques numérisés, relatifs à la pollution d'origine tellurique, qui sont fournis par les bases de données publiques, un traitement préalable sera nécessaire. En effet, plusieurs documents sont disponibles sous forme d'images dont le bruit rend l'extraction du texte difficile. En conséquence, les documents juridiques doivent être soumis à deux traitements essentiels: 1) la segmentation pour identifier les régions d'intérêt dans un document (articles, titres, figures, cartes ... ) et 2) l'extraction du texte (OCRisation). Les grands modèles de langues et la génération augmentée de récupération seront utilisés pour développer un chatbot capable de 1) comprendre les textes juridiques relatifs à la protection de l'environnement marin et de 2) répondre aux questions des utilisateurs sur l'existence et la mise en oeuvre du droit marin 2 - Approche méthodologique et technique envisagée Champ d'application de la recherche Le traitement automatique du langage naturel (NLP) est un sous-domaine de l'intelligence artificielle qui permet aux machines de traiter, comprendre et générer du langage naturel. Dans cette thèse, nous voulons utiliser les techniques du NLP pour développer un système d'extraction automatique d'informations à partir de documents non structurés. Les architectures basées sur l'apprentissage profond seront utilisées pour produire un modèle qui reconnaît les concepts et relations sémantiques, tels que les interdictions et les sanctions, dans les textes juridiques. La génération augmentée de récupération sera utilisée pour optimiser les résultats des grands modèles de langues existants dans l'objectif de produire un agent conversationnel qui soit multilingue et capable de fournir une réponse juste sur à des questions sur l'existence et la mise en oeuvre du droit de l'environnement. Les cas d'étude envisagés sont les pays africains et européens ayant une façade sur l'océan atlantique.
Ordinateur + 3 mois par an en France.
Cette thèse est particulièrement opportune. De nombreuses organisations internationales et régionales s'interrogent de plus en plus sur l'application du droit. En Afrique, cette thématique est émergente et cette thèse contribuera à son développement. Dans le domaine académique, l'évolution de la recherche juridique vers des méthodologies quantitatives et des évaluations métriques facilitera les échanges interdisciplinaires et enrichira les réflexions sur le rôle des indicateurs dans l'évaluation du droit.