Recherchez une offre d'emploi

Post Doctorante ou Post Doctorant en Apprentissage par Renforcement Basé sur un Modèle - CDD H/F - 95

Description du poste

Direction générale de l'Institut Mines-Télécom
Palaiseau - 95
CDD
Publié le 23 Octobre 2025

Qui sommes-nous ?

Télécom Paris, école de l'IMT (Institut Mines-Télécom) et membre fondateur de l'Institut Polytechnique de Paris, est une grande école du top 5 des écoles d'ingénieurs généralistes françaises.

La Raison d'Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions numériques au service d'une société et d'une économie respectueuses de l'humain et de son environnement.Nous recherchons notre futur(e) post-doctorant(e) en apprentissage par renforcement basé sur un modèle pour rejoindre le département

Informatique et Réseaux (INFRES) à Telecom Paris.

L'apprentissage par renforcement (AR) s'est imposé comme un paradigme pertinent pour entraîner des agents à réaliser des tâches complexes. L'apprentissage par renforcement basé sur un modèle (ARbM), en particulier, promet une meilleure efficacité en termes d'échantillons et des capacités de lanification sophistiquées en permettant à un agent d'apprendre un modèle prédictif de son environnement. Cependant, l'application directe des méthodes actuelles d'ARbM à des domaines critiques pour la sécurité, tels que la robotique autonome, les transports ou le contrôle industriel, est entravée par des défis non résolus.

Le défi scientifique principal : Les limites des modèles du monde actuels. Les approches standards de l'ARbM apprennent généralement un modèle du monde monolithique et de type « boîte noire », utilisant souvent un grand réseau de neurones comme approximateur de fonction. Bien que ces modèles puissent être très efficaces pour la prédiction au sein de leur distribution d'entraînement, ils souffrent de deux limitations majeures pour leur déploiement dans des systèmes sociotechniques :
- Fragilité et défaillances imprévisibles : Les modèles appris sont sujets à des défaillances imprévisibles lorsque l'agent rencontre des états ou des dynamiques jamais vus (c'est-à-dire un décalage de distribution). Ces défaillances sont difficiles à anticiper et peuvent conduire à des comportements dangereux, car les prédictions du modèle ne sont plus fiables.
- Manque de vérifiabilité : Les modèles appris sont opaques et ne sont assortis d'aucune garantie formelle. Il n'est pas possible de prouver que le modèle respectera de manière cohérente les contraintes fondamentales du monde réel ou sera aligné avec des valeurs attendues, telles que les lois physiques, les règles de sécurité ou les invariants logiques. Ce manque de correction vérifiable constitue un obstacle majeur à la construction de systèmes autonomes fiables et bien calibrés.

Axe de recherche : Modèles du monde vérifiables. La recherche se concentrera sur le développement d'une nouvelle classe de modèles du monde structurés et vérifiables qui intègrent la flexibilité de l'apprentissage profond (deep learning) à la rigueur des méthodes formelles et du raisonnement compositionnel. Les axes de recherche principaux de ce poste sont :

- Modèles structurés et neuro-symboliques : La recherche portera sur des architectures de modèles qui ne sont pas apprises à partir de zéro. Au lieu de cela, elles seront conçées pour intégrer des connaissances symboliques explicites. Ceci pourrait inclure des lois physiques connues, des règles logiques ou des contraintes de sécurité, qui sont traitées comme des composantes fixes et vérifiables du modèle. Le processus d'apprentissage se concentre alors sur la modélisation des aspects plus complexes et inconnus de l'environnement autour de ces vérités établies.

- Raisonnement compositionnel pour la sécurité : Nous explorerons comment un modèle du monde complexe peut être construit en composant des sous-modèles plus petits et plus spécialisés. Une question de recherche clé est de savoir comment vérifier formellement les propriétés du modèle composite en se basant sur les propriétés connues de ses composants individuels. Ceci offre une voie modulaire et scalable pour certifier que le modèle interne du monde de l'agent est, et reste, cohérent avec ses spécifications de sécurité.

- Adaptation de modèle : Un agent véritablement intelligent doit être capable d'adapter sa compréhension du monde à partir de l'expérience. Cette recherche développera un cadre pour l'adaptation sûre des modèles. Cela implique de créer des algorithmes d'ARbM où l'agent peut proposer des mises à jour de la structure de son propre modèle du monde, mais ces mises à jour ne sont acceptées qu'après qu'une étape de vérification formelle confirme que le nouveau modèle respecte toujours ses propriétés de sécurité fondamentales.

- Apprentissage multi-tâches : La décomposition des tâches permet aux agents d'apprendre des compétences transversales qui peuvent être utiles dans différents contextes. Les représentations partagées, les paradigmes d'AR multi-tâches et multi-objectifs améliorent la généralisation. La recherche dans ce domaine explorera comment capturer la décomposition des tâches dans les modèles du monde pour permettre des spécifications multi-tâches avec des garanties vérifiables.

Le candidat ou la candidate retenu(e) dirigera la résolution de ces problèmes ouverts à travers le développement et l'implémentation d'algorithmes d'AR. Il ou elle aura l'opportunité d'avoir un impact significatif dans le domaine de l'intelligence artificielle (IA) fiable et bien calibrée grâce à des collaborations internationales (par ex., UT Austin, MIT).

Vos principales missions seront:

- Assurer des missions de recherche dans le domaine de l'apprentissage par renforcement basé sur un modèle (ARbM).
- Assurer des missions d'encadrement et de tutorat
- Participer à la notoriété de l'Ecole, de l'Institut Mines-Télécom et de l'Institut Polytechnique de Paris