Diffuser et promouvoir la culture en mathématiques et en informatique déployée dans les sciences agronomiques à INRAE et rassembler la communauté des maths-info INRAE.

Back to top

Etude comparative de lois a priori bayésiennes pour la sélection de variables dans les modèles non linéaires à effets mixtes

Description: 

Contexte applicatif :

Les modèles à effets mixtes permettent d'analyser des observations collectées de façon répétée sur plusieurs individus, une situation typique dans des domaines comme la médecine, le marketing, les statistiques sportives ou la génétique. La variabilité intrinsèque aux données est alors attribuable à différentes sources (intra-individuelle, inter-individuelle, résiduelle) dont la prise en compte est essentielle pour caractériser sans biais les mécanismes biologiques à l'origine des observations. Dans un modèle à effets mixtes, la variabilité entre individus est décrite au moyen de covariables et d'effets aléatoires. Les covariables décrivent les différences entre individus dues à des caractéristiques observées tandis que les effets aléatoires représentent la part de la variabilité entre individus qui n'est pas attribuable aux covariables mesurées.
Un exemple d'application envisagé concerne l'amélioration des plantes de culture (maïs, blé, etc.). Dans ce cas, les modèles non linéaires à effets mixtes peuvent être utilisés pour décrire le développement des plantes en fonction de leur génotype et des conditions environnementales. Ils permettent de comprendre le rôle des interactions entre le génotype et l'environnement dans l'évolution de la plante et sont utilisés pour prédire les performances   de différentes variétés dans des conditions environnementales spécifiques. Les covariables considérées sont généralement nombreuses puisque les variétés sont caractérisées par des milliers de covariables génétiques (des marqueurs moléculaires par exemple) dont on sait que la plupart d'entre elles n'ont aucun effet sur certains traits phénotypiques. Il est donc intéressant d'envisager une sélection de variables à la fois pour identifier les régions du génome qui affectent effectivement le caractère d'intérêt et pour améliorer la capacité de prédiction du modèle. La grande dimension des données génomiques implique d'aborder la sélection de variables dans un cadre où le nombre de covariables est plus grand que le nombre d'individus. À notre connaissance, la question de la sélection de variables en grande dimension, pourtant populaire en Statistique et Machine Learning, a été peu étudiée dans le cadre spécifique des modèles non linéaires à effets mixtes.

Type de l'offre: 
Date limite de la candidature: 
01/06/2023
Période d'emploi: 
01/07/2023 - 31/12/2023
Email du contact: 
Unité de recherche d'affectation: 
Localisation CR INRA: