Diffuser et promouvoir la culture en mathématiques et en informatique déployée dans les sciences agronomiques à INRAE et rassembler la communauté des maths-info INRAE.

Back to top

Séminaire Parisien de Statistique

12/04/2021
Type d'événement ou fait marquant: 
Evénement
Séance organisée par Cécile Durot et Etienne Roquain.

Séance diffusée via Zoom (lien ici).

 

14h00 - 15h15 :Yannick Baraud (Université du Luxembourg)

Titre : Comment construire un estimateur robuste pour une perte donnée ?

Résumé : Étant donné un n-échantillon de loi inconnue, un modèle de probabilités(ne contenant pas nécessairement la loi en question) et une fonction de perte, nousdécrirons une méthode générique permettant de construire un estimateur de cetteloi à valeurs dans le modèle et dont le risque, pour la perte considérée, est bornépar la somme de deux termes. Le premier est un terme de complexité du modèlecorrespondant au risque que l’on obtiendrait si la loi appartenait réellement àcelui-ci, le second un terme d’approximation de la vraie loi par le modèle, ce quiconfère à l’estimateur une certaine propriété de robustesse lorsque l’écart de la loi au modèle, mesuré selon la perte utilisée, reste modéré. Notre approche permet deconsidérer des pertes classiques telles que la variation totale, les distances de Hellinger et de Wasserstein-1, la divergence de Kullback-Leibler, les pertes L_p et,plus généralement, toutes les pertes définies par des formules variationnellesconvenables.

 

15h15 -16h30 : Guillaume Maillard (Université du Luxembourg)

Titre : First order asymptotics of (aggregated) hold-out in least-squares density estimation

Résumé : The hold-out, or simple validation, relies on the arbitrary choice of a validation subsample, which leads to a high variance in estimator selection. Cross-validation averages the hold-out criterion over several « folds » in order to achieve a more stable choice of estimator. However, in many cases, such as k-NN, Fourier series or histograms, convex combinations are known to improve over a single estimator. This suggests aggregated hold-out as an alternative to cross-validation, which may be superior if the gains of aggregation outweigh the model selection error. However, comparing the two is a difficult task in general. The classical analysis of model selection methods, based on oracle inequalities, is not suited to fine comparisons between different methods. Instead, we establish the first-order asymptotics of the hold-out and its aggregated version in least-squares density estimation with cosine series estimators. This analysis proves that aggregated hold-out can outperform the model selection oracle by up to a constant factor, if its parameters are well chosen.