Diffuser et promouvoir la culture en mathématiques et en informatique déployée dans les sciences agronomiques à INRAE et rassembler la communauté des maths-info INRAE.

Back to top

Prédiction multivariée par méthodes d’apprentissage ensemblistes - Application à la sélection génomique

Description: 

La thèse vise à proposer plusieurs modèles à variables latentes avec structuration de dépendances existantes au sein des variables réponses (données omiques de différentes nature) et les méthodes d’apprentissage associées. L’objectif est d’identifier ou de mesurer l’effet d’un changement de l’environnement (présence de contaminants par exemple) sur un système biologique à partir de données environnementales, de données sur l’état du système (par exemple son métabolome) et de son écosystème (son métagénome). Le modèle et son inférence doivent pouvoir prendre en compte la grande dimension des données (vecteur réponse p=10³-10⁴ pour un nombre d’échantillons de l’ordre de n=500) et leurs spécificités telle que la non-normalité des données de métagénomique et une dépendance éventuellement non linéaire entre les variables latentes et la variable réponse. Dans un premier temps, le doctorant s’intéressera aux modèles du type analyse en composantes principales (ACP) probabiliste de façon à réduire la dimension des variables réponses. Des versions régularisées seront introduites afin d’obtenir une interprétabilité des résultats. Par la suite, des versions permettant de prendre en compte des dépendances entre variables latentes seront considérées. La non-gaussianité des données et la non-linéarité des relations seront abordées par des modèles du type Poisson avec excès de zéros ou par des approches du type auto-encodeur variationnel. Les méthodes seront appliquées dans le cadre de deux collaborations portées par l’unité.

Type de l'offre: 
Date limite de la candidature: 
25/04/2022
Période d'emploi: 
01/09/2022 - 01/09/2025
Email du contact: 
Unité de recherche d'affectation: 
Localisation CR INRA: