Archives de Tag: probabilités

Modèle de régression

  • La première statistique à regarder est le test de nullité simultanée des coefficients, test de Fisher, qui permet de savoir si au moins une variable joue bien son rôle de variable explicative (rejet du test) ou si le modèle est bon à mettre à la poubelle (acceptation du test). Non disponible ici…
  • Le R² , coefficient de détermination, est une mesure de l’adéquation du modèle aux données observées, c’est la part de variance expliquée par le modèle[1]. Il est compris entre 0 et 1 lorsque le modèle possède une constante. Plus il est proche de 1, plus le modèle est bon.

L’inconvénient majeur est que le R² augmente mécaniquement avec l’augmentation du nombre de variables dans le modèle. Donc le R² est inopérant lorsque l’on veut comparer des modèles comportant un nombre différent de variables. Dans ce cas, on peut utiliser le coefficient de détermination ajusté :

2

Où est n est le nombre d’observations et p le nombre de régresseurs (variables explicatives du modèle).

  • Pour savoir quelles variables sont significativement différentes de 0 (test de Student d’égalité du paramètre associée à la variable à zéro), on compare la p-value ou p-valeur  (degré de signification ie probabilité que les différences observées dans l’échantillon n’existe pas dans la population) à α=0.05 (ie à 95%). T de Student=valeur du coefficient/ écart-type pour chaque variable et la p-value est la probabilité que sous H0 la statistique de test T de Student prenne une valeur au moins aussi extrême que celle observée.

–  Dans un test unilatéral avec W = {T > z} alors pvalue = P(T > tobs|H0)

–  Dans un test bilatéral avec W = {|T| > z} alors pvalue = 2P(T > tobs |H0), si tobs > E(T ).

=>Règle de décision :

–   Si pvalue < α : rejet de H0 donc le coefficient est significativement différent de 0.

–   Sinon on ne rejette pas H0 donc on accepte l’hypothèse nulle donc la nullité du coefficient associé à la variable, qui n’explique donc pas la variable à expliquer.

Remarque : on préfère l’erreur de 1ere espèce α car β, l’erreur de 2eme espèce est difficile à évaluer.

  • On peut écrire le modèle :

On plusieurs (p=2) régresseurs susceptibles d’expliquer la variable « y » et n observations

y1, · · · , yn pour la variable expliquée, et pour chaque observation, l’observation correspondante (x11, · · · , x1p), · · · , (xn1, · · · , xnp) des p régresseurs ; on suppose que le modèle s’écrit pour l’observation i :

3

où :

H1, les εi sont centrées ie E(εi)=0 ;

H2, les εi sont non correlées ie cov(εi εj )=0 pour i différent de j;

H3 (homoscédasticité), les εi i ont même variance (inconnue) σ².

Objectif (technique) : expliquer au mieux les yi comme combinaison linéaire des régresseurs, c’est-à-dire minimiser (méthode des Moindres au Carré Ordinaire MCO) :

45

6


[1] Il existe d’autres critères pour comparer des modèles : AIC, BIC, …


Tests d’hypothèses- Généralités

Introduction

Les tests permettent de vérifier la validité de certaines hypothèses faites sur un ou plusieurs paramètres et peuvent être relatifs à une ou plusieurs populations. On peut differencier les tests suivant les hypothèses à tester :

–  tests de conformité : comparer le paramètre inconnu à une valeur théorique.

–  tests d’égalité : comparer entre eux les paramètres de différentes populations.

–  tests d’ajustement : vérifier si la variable observée suit une loi théorique donnée.

– tests d’indépendance : contrôler l’indépendance de deux (ou plusieurs) variables issues d’une même population.

Les deux  premiers sont des tests  paramétriques alors que les deux derniers des tests  non paramétriques.

Vocabulaire et Généralités

  • Test d’hypothèses

Un test consiste à confronter deux hypothèses sur la base de l’information dont on dispose grâce à l’observation de l’échantillon. Un test est compose de 4 éléments :

-observations

-le modèle statistique d’où proviennent les données dépendant d’un paramètre inconnu

-une hypothèse principale portant sur θ, appelée hypothèse nulle

-une règle de décision : on accepte H0 si T (x1, . . . , xn) ∈ W, où W est une zone de valeurs improbable pour T (x1, . . . , xn) sous H0, appelée région de rejet.

  • Hypothèses

On considère le modèle paramétrique (Ω, A{Pθ, θ ∈ Θ}) et T (x1, . . . , xn)  une fonction des observations à valeurs dans E. On sélectionne deux parties de Θ : Θ0 et Θ1 disjointes, mais pas forcement complémentaires et on définit :

–  H0 : θ Θ0 : hypothèse nulle

–  H1 : θ ∈ Θ1 : hypothèse alternative, ie non H0.

On dit que l’on teste H0 contre H1 .

Def : On dit que l’hypothèse H0 est simple si Θ0 = {θ0}, sinon elle est dite multiple (ou composite).

En général on prendra comme hypothèse H0 une hypothèse simple.

Def : Si on teste H0 : θ = θ0 contre H1 : θ = θ0, alors on dit que le test est bilatéral. Si on teste H0 : θ = θ0 contre H1 : θ > θ0 (resp. H1 : θ < θ0) , alors on dit que le test est unilatéral droit (resp. gauche).

A partir de l’échantillon on observe une valeur de T (x1, . . . , xn)  sur laquelle on basera le choix de H0 ou H1. T (x1, . . . , xn) est appelée statistique de test.

Def. : Soit W une partie de E, appelée région critique ou région de rejet.

–  Si T ∈ W , alors on rejette H0 et on accepte H1.

–  Si T ∈ Wc, alors on accepte H0, La partie Wc = E\W est la région d’acceptation.

  • Risques associés aux hypothèses

On  prend  une  décision qui  dépend  des  observations, à  chaque  décision on  prend  le  risque de commettre une erreur. Comme la décision est basée sur la variable aléatoire T , on caractérise chaque erreur par sa probabilité, que l’on appelle risque.

Def. :

1.  On appelle risque de 1re espèce la valeur α(θ) qui est : α(θ) = Pθ(T ∈ W ) = Pθ(T ∈ W |H0)

avec θ ∈ Θ0, i.e. la probabilité de choisir H1  alors que H0  est vraie (avoir un faux positif),

2.  On appelle risque de 2e espèce la valeur β(θ) qui est : β(θ) = Pθ(T  W ) = Pθ(T  W |H1)

avec θ ∈ Θ1, i.e. la probabilité de choisir H0 alors que H1 est vraie.

3.  Soit H0 : θ ∈ Θ0 hypothèse multiple et α(θ) le risque de première espèce pour θ ∈ Θ0. On appelle niveau du test la valeur α telle que α = supθΘ0.

4.  On appelle puissance d’un test la probabilité de rejeter H0 alors qu’elle est effectivement fausse c’est-à-dire η(θ) = Pθ(T  ∈ W |H1) = 1 − β(θ). On parle de fonction puissance dans le cas d’une hypothèse alternative multiple.

rq

Rq. :

1.  Si H0 est simple α = α(θ0).

2.  α et β sont interdépendants car ils dépendent de W et Wc.

3. Plus le risque β est petit, plus le test est puissant. On considérera plus souvent la puissance que l’espérance de 2eme espèce.

4.  Le niveau correspond à l’erreur maximum que l’on peut commettre en rejetant H0.

On souhaite de faibles risques d’erreur. L’idéal α=β=0 est impossible donc on trouve un compromis.

APPLICATION AU TEST DU KHI2 :

http://alea.fr.eu.org/j/pdf/khi2.pdf

-test d’adéquation à une loi de probabilité

-test d’homogénéité : comparaison d’échantillons issus de populations différentes

-test d’indépendance sur données qualitatives


Intervalle de confiance

L’IC est une mesure du degré de précision d’une estimation, car il existe deux sources principales d’imprécision :

–          n, le nombre d’observations, est fini et souvent faible ; d’après la formule de l’IC (ci-dessous), quand n augmente, la précision de l’estimation augmente ie l’amplitude de l’IC diminue, (remarque quand n tend vers l’infini, l’estimation est exacte, il s’agit de la vraie valeur du paramètre, puisque on utilise toute l’information),

–          l’erreur de mesure, c’est pourquoi on utilise une estimation par IC, pour « relativiser » les résultats.

IC

A 95%, u α/2 = 1.96. Cette formule s’applique pour une variance (donc un écart type) connu.  L’IC s’interprète alors comme suit : il y a 95% de chances que «variable » se situe entre … et …

http://perso.univ-rennes1.fr/arthur.charpentier/cours-rappels-stats-M1.pdf