Introduction
Les tests permettent de vérifier la validité de certaines hypothèses faites sur un ou plusieurs paramètres et peuvent être relatifs à une ou plusieurs populations. On peut differencier les tests suivant les hypothèses à tester :
– tests de conformité : comparer le paramètre inconnu à une valeur théorique.
– tests d’égalité : comparer entre eux les paramètres de différentes populations.
– tests d’ajustement : vérifier si la variable observée suit une loi théorique donnée.
– tests d’indépendance : contrôler l’indépendance de deux (ou plusieurs) variables issues d’une même population.
Les deux premiers sont des tests paramétriques alors que les deux derniers des tests non paramétriques.
Vocabulaire et Généralités
- Test d’hypothèses
Un test consiste à confronter deux hypothèses sur la base de l’information dont on dispose grâce à l’observation de l’échantillon. Un test est compose de 4 éléments :
-observations
-le modèle statistique d’où proviennent les données dépendant d’un paramètre inconnu
-une hypothèse principale portant sur θ, appelée hypothèse nulle
-une règle de décision : on accepte H0 si T (x1, . . . , xn) ∈ W, où W est une zone de valeurs improbable pour T (x1, . . . , xn) sous H0, appelée région de rejet.
- Hypothèses
On considère le modèle paramétrique (Ω, A{Pθ, θ ∈ Θ}) et T (x1, . . . , xn) une fonction des observations à valeurs dans E. On sélectionne deux parties de Θ : Θ0 et Θ1 disjointes, mais pas forcement complémentaires et on définit :
– H0 : θ ∈ Θ0 : hypothèse nulle
– H1 : θ ∈ Θ1 : hypothèse alternative, ie non H0.
On dit que l’on teste H0 contre H1 .
Def : On dit que l’hypothèse H0 est simple si Θ0 = {θ0}, sinon elle est dite multiple (ou composite).
En général on prendra comme hypothèse H0 une hypothèse simple.
Def : Si on teste H0 : θ = θ0 contre H1 : θ = θ0, alors on dit que le test est bilatéral. Si on teste H0 : θ = θ0 contre H1 : θ > θ0 (resp. H1 : θ < θ0) , alors on dit que le test est unilatéral droit (resp. gauche).
A partir de l’échantillon on observe une valeur de T (x1, . . . , xn) sur laquelle on basera le choix de H0 ou H1. T (x1, . . . , xn) est appelée statistique de test.
Def. : Soit W une partie de E, appelée région critique ou région de rejet.
– Si T ∈ W , alors on rejette H0 et on accepte H1.
– Si T ∈ Wc, alors on accepte H0, La partie Wc = E\W est la région d’acceptation.
- Risques associés aux hypothèses
On prend une décision qui dépend des observations, à chaque décision on prend le risque de commettre une erreur. Comme la décision est basée sur la variable aléatoire T , on caractérise chaque erreur par sa probabilité, que l’on appelle risque.
Def. :
1. On appelle risque de 1re espèce la valeur α(θ) qui est : α(θ) = Pθ(T ∈ W ) = Pθ(T ∈ W |H0)
avec θ ∈ Θ0, i.e. la probabilité de choisir H1 alors que H0 est vraie (avoir un faux positif),
2. On appelle risque de 2e espèce la valeur β(θ) qui est : β(θ) = Pθ(T ∈ W ) = Pθ(T ∈ W |H1)
avec θ ∈ Θ1, i.e. la probabilité de choisir H0 alors que H1 est vraie.
3. Soit H0 : θ ∈ Θ0 hypothèse multiple et α(θ) le risque de première espèce pour θ ∈ Θ0. On appelle niveau du test la valeur α telle que α = supθ∈Θ0.
4. On appelle puissance d’un test la probabilité de rejeter H0 alors qu’elle est effectivement fausse c’est-à-dire η(θ) = Pθ(T ∈ W |H1) = 1 − β(θ). On parle de fonction puissance dans le cas d’une hypothèse alternative multiple.
Rq. :
1. Si H0 est simple α = α(θ0).
2. α et β sont interdépendants car ils dépendent de W et Wc.
3. Plus le risque β est petit, plus le test est puissant. On considérera plus souvent la puissance que l’espérance de 2eme espèce.
4. Le niveau correspond à l’erreur maximum que l’on peut commettre en rejetant H0.
On souhaite de faibles risques d’erreur. L’idéal α=β=0 est impossible donc on trouve un compromis.
APPLICATION AU TEST DU KHI2 :
http://alea.fr.eu.org/j/pdf/khi2.pdf
-test d’adéquation à une loi de probabilité
-test d’homogénéité : comparaison d’échantillons issus de populations différentes
-test d’indépendance sur données qualitatives
Laisser un commentaire