
École
de
Cosmologie
- VIII
Caractérisation
statistique
d'échantillons
cosmologiques

Contexte
Scientifique
Aujourd’hui,
avec la réalisation de
nombreux grands relevés, la cosmologie est devenue une science
de précision devant exploiter une multitude de données de
natures diverses. Parmi eux on peut citer WMAP ou le futur satellite
Planck qui permettent de sonder les propriétés du fond de
rayonnement micro-onde et la nature des fluctuations de densité
dans l'univers primordial. Le SDSS qui couvre une grande fraction du
ciel et permet d'étudier les propriétés
statistiques et morphologiques de la distribution des galaxies à
grande échelle. Le très profond relevé VIRMOS qui
permet de contraindre l'histoire de l'évolution des galaxies et
de leur distribution. Le CFHTLS qui devrait donner naissance à
des mesures des propriétés statistiques des effets de
lentille gravitationnelle faible d'une qualité exceptionnelle.
Ou encore des projets ambitieux tels que l'instrument MUSE qui sera
capable de faire de la spectroscopie intégrale de champ sur des
galaxies lointaines, ainsi que le projet
d'interférométrie radio ALMA qui devrait être
à même de sonder l'univers ultra-profond et de voir la
naissance des premières galaxies. Mener à
terme ces programmes de recherche nécessite la
mise au point et l'utilisation optimale d'outils statistiques de plus
en plus sophistiqués. Ces derniers doivent tenir compte des
nombreux phénomènes physiques (souvent subtils mais
maintenant détectables) entrant en jeu à la fois dans le
système considéré et l'instrument de haute
technologie utilisé pour faire les mesures. Ces outils d'analyse
statistique peuvent arbitrairement se classer en quatre
catégories : «fréquentistes»,
«bayesiens», les outils de
«compression» et ceux de «simulation».
- Les
outils d'analyse "fréquentiste" permettent de faire des mesures
directes et une l'analyse d'échelle après un filtrage
préalable des données. Parmis ces outils, on peut compter
entre autres les fonctions de corrélation à 2 points ou
plus et leur contrepartie dans l'espace de Fourier. On a ensuite les
outils d’analyse harmonique comme le spectre de puissance, le bispectre
et les multispectres. Ceux qui sont purement statistique comme la
fonction de distribution d'une ou plusieurs mesures, ses moments et ses
cumulants. Des outils plus sophistiqués, utilisés en
cosmologie, sont ceux d'analyse morphologique, comme les fonctionnelles
de Minkowski. Toute analyse statistique, quel que soit son degré
de sophistication, s'appuiera à terme sur l'exploitation de ces
outils de base. Il est à remarquer que ces derniers sont en
général utilisés après un filtrage
préalable des données (ce qui consiste à projeter
le système dans un autre espace dans lequel la contribution du
bruit, par exemple instrumental, a été réduite).
Pour cela, il faut donc avoir la maîtrise d'outils standard de
traitement du signal, comme les ondelettes et autres outils d'analyse
temps-fréquence, le filtrage de Wiener, les
propriétés des transformées de Fourier et en
harmoniques sphériques, etc…
- La
deuxième catégorie d'outils, plus sophistiquée,
fait entrer en jeu l'approche bayesienne, qui consiste à
déduire le domaine de plus grande probabilité d'un
ensemble de paramètres du modèle physique
considéré à partir d'un a priori sur les
propriétés du système (par exemple supposer que le
spectre des fluctuations primordiales suit une certaine forme
paramétrique suggérée par les prédictions
de la théorie de l'inflation). Ces outils statistiques font donc
d'ors et déjà entrer en jeu la connaissance potentielle
que l'on a des propriétés physiques du système,
que l'on veut vérifier à travers les mesures. Ils
s'appuient, de manière générale, sur une
exploitation appropriée des outils statistiques de base
(cités précédemment) combinée avec une
modélisation physique faisant entrer un jeu un certain nombre de
paramètres à déterminer. Le problème c'est
que la mise en oeuvre de l'approche Baysienne n'est pas
forcément toujours facile, d'une part à cause de la
taille (considérable) des échantillons en jeu, et d'autre
part à cause de la complexité des
phénomènes physiques à décrire, qui ne
peuvent parfois pas être formulés de manière
analytique. Cela implique l'usage de techniques de compression de
l'information et de simulations numériques du système
physique et de l'instrument.
- Diverses
méthodes de compression peuvent être mise à
disposition par la communauté scientifique
spécialisée, faut-il encore choisir la plus
adaptée pour le problème que l’on traite. Parmi les plus
connues, qui permettent de réduire la taille de
l'échantillon de manière considérable, on peut
mentionner la projection dans l'espace des composantes principales, qui
est aujourd’hui très utilisée en cosmologie. Une
méthode novatrice et fort prometteuse est celle faisant
intervenir les ondelettes. Dans ce domaine, on espère une
contribution appréciable de la part de nos collègues
mathématiciens.
- Pour
tester et mettre en oeuvre les outils statistiques les plus
sophistiqués, il est souvent nécessaire de simuler les
observations. Pour cela, il faut faire un grand ensemble de
réalisations aléatoires de la portion de l'Univers que
l'on observe, simulant de manière la plus réaliste
possible les phénomènes physiques entrant en jeu. Ces
réalisations peuvent avoir des degrés de
complexité assez différents. Par exemple, l'étude
fondamentale des propriétés statistiques du fond de
rayonnement cosmologique requière dans un premier temps la
réalisation de champs gaussiens aléatoires sur la
sphère céleste, ce qui est assez simple. Mais pour
d'autres, il faut recourir à des simulations numériques
lourdes. Dans cette catégorie on peut citer les simulations
analysant les effets de lentille gravitationnelle faible, elles mettent
en jeu la dynamique non linéaire de la matière noire sous
les effets de la gravitation. Pour étudier la formation des
galaxies et interpréter les résultats des observations,
deux approches sont possibles : coupler de telles simulations à
N-corps à des modèles semi-analytiques faisant entrer en
jeu tous les processus physiques dans la dynamique des baryons ou
encore l'approche hydrodynamique brute, très coûteuse et
difficile à mettre en oeuvre. Pour finir, il est
nécessaire par ailleurs de simuler de la manière la plus
réaliste l'instrument utilisé pour faire les
observations. Cela permet de rendre compte de tous les biais
associés à celui-ci. Une telle simulation peut être
autant difficile (voire plus difficile) à réaliser que la
modélisation physique du système observé.
Comité
Scientifique
- P.
Antilogus (LPNHE), F.
Bernardeau
(CEA/DSM/SPhT), F.R. Bouchet (IAP),
O. Le Fèvre (LAM)
- J.-F.
Cardoso
(ENST/TSI), S. Colombi
(IAP), R. Triay (CPT)
LES GRANDS
AXES DU PROGRAMME
- Les méthodes
statistiques de traitement de l'information, du signal, et des images
- La théorie
classique de
l'inférence, de l'estimation, du test et ses
développements plus
récents (modèles non-paramétriques,
semi-paramétriques)
- Les approches
bayesiennes du traitement de l'information
- Les statistiques
"computationnelles" (simulations, Monte-Carlo, et chaîne de
Markov...)
- Les
éléments de la théorie de l'apprentissage
- L'analyse
multi-résolution, ondelettes, frames, splines etc...
Ce
programme
vise
à couvrir
autant les aspects observationnels que théoriques de cette
problématique.
