- La première statistique à regarder est le test de nullité simultanée des coefficients, test de Fisher, qui permet de savoir si au moins une variable joue bien son rôle de variable explicative (rejet du test) ou si le modèle est bon à mettre à la poubelle (acceptation du test). Non disponible ici…
- Le R² , coefficient de détermination, est une mesure de l’adéquation du modèle aux données observées, c’est la part de variance expliquée par le modèle[1]. Il est compris entre 0 et 1 lorsque le modèle possède une constante. Plus il est proche de 1, plus le modèle est bon.
L’inconvénient majeur est que le R² augmente mécaniquement avec l’augmentation du nombre de variables dans le modèle. Donc le R² est inopérant lorsque l’on veut comparer des modèles comportant un nombre différent de variables. Dans ce cas, on peut utiliser le coefficient de détermination ajusté :
Où est n est le nombre d’observations et p le nombre de régresseurs (variables explicatives du modèle).
- Pour savoir quelles variables sont significativement différentes de 0 (test de Student d’égalité du paramètre associée à la variable à zéro), on compare la p-value ou p-valeur (degré de signification ie probabilité que les différences observées dans l’échantillon n’existe pas dans la population) à α=0.05 (ie à 95%). T de Student=valeur du coefficient/ écart-type pour chaque variable et la p-value est la probabilité que sous H0 la statistique de test T de Student prenne une valeur au moins aussi extrême que celle observée.
– Dans un test unilatéral avec W = {T > z} alors pvalue = P(T > tobs|H0)
– Dans un test bilatéral avec W = {|T| > z} alors pvalue = 2P(T > tobs |H0), si tobs > E(T ).
=>Règle de décision :
– Si pvalue < α : rejet de H0 donc le coefficient est significativement différent de 0.
– Sinon on ne rejette pas H0 donc on accepte l’hypothèse nulle donc la nullité du coefficient associé à la variable, qui n’explique donc pas la variable à expliquer.
Remarque : on préfère l’erreur de 1ere espèce α car β, l’erreur de 2eme espèce est difficile à évaluer.
- On peut écrire le modèle :
On plusieurs (p=2) régresseurs susceptibles d’expliquer la variable « y » et n observations
y1, · · · , yn pour la variable expliquée, et pour chaque observation, l’observation correspondante (x11, · · · , x1p), · · · , (xn1, · · · , xnp) des p régresseurs ; on suppose que le modèle s’écrit pour l’observation i :
où :
H1, les εi sont centrées ie E(εi)=0 ;
H2, les εi sont non correlées ie cov(εi εj )=0 pour i différent de j;
H3 (homoscédasticité), les εi i ont même variance (inconnue) σ².
Objectif (technique) : expliquer au mieux les yi comme combinaison linéaire des régresseurs, c’est-à-dire minimiser (méthode des Moindres au Carré Ordinaire MCO) :
[1] Il existe d’autres critères pour comparer des modèles : AIC, BIC, …