Diffuser et promouvoir la culture en mathématiques et en informatique déployée dans les sciences agronomiques à INRAE et rassembler la communauté des maths-info INRAE.
Analyse discriminante pour données de comptage multivariées : approche linéaire, quadratique et régularisée
Contexte
L’analyse discriminante est un outil classique de l’analyse multivariée qui permet de prédire l’appartenance à des groupes connus dans une population à l’aide d’un classifieur simple. L’avantage d’une telle approche, dite « model-based », est d’expliquer la structuration d’un jeu de données en populations et de fournir des éléments d’interprétation du phénomène d’étude, contrairement à des classifieurs issus de l’apprentissage automatique.
Ce type d’approche est donc plébiscité dans les sciences du vivant, où le besoin en explicabilité est grand. Cependant, la formulation standard de l’analyse discriminante n’est pas adaptée à l’analyse de données de comptage multivariée, couramment rencontrées en écologie, génomique ou astrophysique.
Les modèles Poisson-lognormaux fournissent un cadre générique pour la modélisation des données de comptage en s’appuyant sur une couche latente gaussienne. Une adaptation PLN de l’analyse discriminante dans sa version linéaire a été proposé dans ainsi que les méthodes d’estimation associées, s’appuyant sur des approches variationnelles. Cependant, la version linéaire de l’analyse discriminante ne permet pas de répondre à un certain nombre de questions d’intérêt pour les applications, en particulier en biologie : est-ce que la structure de dépendances entre les sous-populations peut-être considérées comme identique ? Comment intégrer une structure de groupe sur les variables d’études
dans les structures de dépendances ? Comment les comparer ?