La théorie des statistiques inférentielles est une théorie mathématique qui vise à déduire certaines propriétés d’une population à partir d’un échantillon de celle-ci. Elle s’appuie sur les outils mathématiques de la théorie des probabilités et couvre un champ d’application gigantesque.
La théorie des statistiques inférentielles utilise la théorie des probabilités.
UN OUTIL DE DÉDUCTION
Le mot « statistique » recouvre aujourd’hui un tel éventail de significations que l’on a parfois du mal à s’y retrouver. Nous parlerons ici de la théorie mathématique. Par exemple, nous ne parlerons pas de la statistique descriptive, qui n’est rien d’autre qu’une méthode de description d’un certain nombre d’observations. Nous regarderons l’objet et les outils de la statistique inférentielle. La problématique de la statistique inférentielle consiste à déduire certaines propriétés d’une population à partir d’un échantillon de données provenant de cette population de loi de probabilité inconnue. Elle permet de répondre aux questions suivantes. Quelle est la loi de la population ? (c’est le problème de l’estimation). Comment prendre une décision en contrôlant au mieux le risque de se tromper ? (c’est le problème des tests). Les statistiques s’appuient sur la théorie des probabilités et notamment sur la notion de variables aléatoires (qui peuvent être quantitatives ou qualitatives).
LA NOTION D’ÉCHANTILLON
Les méthodes de statistique inférentielle se basent sur la notion essentielle d’échantillon. Un échantillon est obtenu grâce à un échantillonnage de la population (ensemble d’unités statistiques) à étudier, c’est-à-dire grâce à des tirages indépendants et équiprobables d’individus au sein de cette population. On associe alors à chaque individu une variable aléatoire dont on observe une seule réalisation. Ainsi, mathématiquement, un échantillon est un ensemble de variables aléatoires, indépendantes et identiquement distribuées (même loi). Pour simplifier, on utilise le terme d’« échantillon » aussi bien pour l’échantillon d’observations réelles que pour l’ensemble des variables aléatoires. On peut caractériser l’échantillon par des quantités telles que la moyenne, la variance, l’écart type, etc., elles-mêmes étant des variables aléatoires, fonctions des variables aléatoires de l’échantillon. Ainsi, une statistique est une variable aléatoire, en tant que fonction mesurable de variables aléatoires.
VALEUR APPROXIMATIVE OU INTERVALLE?
L’estimation statistique consiste à chercher une valeur approchée d’une caractéristique d’une population à partir d’un échantillon de cette population. Mathématiquement, une estimation statistique cherche à évaluer un paramètre d’une loi (par exemple, le p d’une loi binomiale ou la moyenne d’une variable aléatoire gaussienne). Cette estimation peut être ponctuelle si on cherche une valeur approximative de la valeur théorique inconnue de ce paramètre, ou elle peut être par intervalle de confiance si on propose une fourchette (un intervalle) à laquelle le paramètre théorique doit appar
tenir avec une certaine probabilité fixée. Dans les deux cas, on choisit une variable aléatoire qui permet de proposer ces évaluations, appelée un « estimateur ». La première qualité que l’on attend d’un estimateur est qu’il converge vers le paramètre qu’il estime, lorsque la taille de l’échantillon tend vers l’infini. On souhaite également que cet estimateur soit sans biais (qu’il n’introduise pas d’erreurs).
CONTRÔLER LE RISQUE DE SE TROMPER
Les tests statistiques permettent de répondre à la question de savoir comment prendre une décision en contrôlant le risque de se tromper. On distingue deux catégories de tests: les tests paramétriques, qui testent une certaine hypothèse relative à un ou plusieurs paramètres d’une variable aléatoire de la loi spécifiée, et les tests non paramétriques, qui portent généralement sur la fonction de répartition de la variable aléatoire. Dans le cas des tests paramétriques, on formule une hypothèse de départ, appelée « hypothèse nulle », et il s’agit alors de décider si on rejette ou non cette hypothèse par opposition à une contre-hypothèse. Cependant, on ne pourra jamais conclure avec certitude dans un test statistique; il faut donc choisir un risque d’erreur, qui est la probabilité de se tromper en prenant la décision retenue. L’erreur de première espèce est la probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie, celle de deuxième espèce est celle de l’accepter alors qu’elle est fausse.
HYPOTHÈSE NULLE ET STATISTIQUE DE RANG
Dans le cas des tests non paramétriques, on ne fait aucune hypothèse sur la loi de probabilité de la population. Même si, dans ce cas-là, nous n’avons pas le paramètre à estimer, il est toujours possible d’estimer des quantités réelles, comme les moments et les quantités de l’échantillon. Pour ce faire, on définit la statistique d’ordre associée à l’échantillon, qui contient toute l’information de l’échantillon de départ, sauf l’ordre dans lequel les observations ont été obtenues. Cet ordre est indiqué par les rangs des observations. On définit alors une statistique de rang dont la loi ne dépend pas de la loi des variables aléatoires de l’échantillon d’origine (pour les lois continues, sinon il faut des outils plus complexes). On en déduit que toute variable aléatoire qui ne s’exprime qu’à l’aide des rangs des observations a une loi de probabilité indépendante de ces observations. On pourra ainsi faire de l’estimation et des tests non paramétriques à partir des rangs des observations.
À RETENIR
• La théorie des statistiques inférentielles est une théorie mathématique qui cherche à déduire certaines propriétés d’une population à partir d’un échantillon de cette population de loi inconnue. Elle utilise la théorie des probabilités. Une fois un échantillon défini (méthode de l’échantillonnage), on peut chercher à estimer les paramètres de la loi inconnue (estimation) ou on peut chercher à savoir comment prendre une bonne décision en minimisant le risque d’erreur (tests statistiques).