Archives de Tag: probabilités

vendredi 5 juin 2009

Modèle de régression

La première statistique à regarder est le test de nullité simultanée des coefficients, test de Fisher, qui permet de savoir si au moins une variable joue bien son rôle de variable explicative (rejet du test) ou si le modèle est bon à mettre à la poubelle (acceptation du test). Non disponible ici…

Le R² , coefficient de détermination, est une mesure de l’adéquation du modèle aux données observées, c’est la part de variance expliquée par le modèle[1]. Il est compris entre 0 et 1 lorsque le modèle possède une constante. Plus il est proche de 1, plus le modèle est bon.

L’inconvénient majeur est que le R² augmente mécaniquement avec l’augmentation du nombre de variables dans le modèle. Donc le R² est inopérant lorsque l’on veut comparer des modèles comportant un nombre différent de variables. Dans ce cas, on peut utiliser le coefficient de détermination ajusté :

Où est n est le nombre d’observations et p le nombre de régresseurs (variables explicatives du modèle).

Pour savoir quelles variables sont significativement différentes de 0 (test de Student d’égalité du paramètre associée à la variable à zéro), on compare la p-value ou p-valeur (degré de signification ie probabilité que les différences observées dans l’échantillon n’existe pas dans la population) à α=0.05 (ie à 95%). T de Student=valeur du coefficient/ écart-type pour chaque variable et la p-value est la probabilité que sous H₀ la statistique de test T de Student prenne une valeur au moins aussi extrême que celle observée.

– Dans un test unilatéral avec W = {T > z} alors pvalue = P(T > tobs|H₀)

– Dans un test bilatéral avec W = {|T| > z} alors pvalue = 2P(T > tobs |H₀), si tobs > E(T ).

=>Règle de décision :

– Si pvalue < α : rejet de H₀donc le coefficient est significativement différent de 0.

– Sinon on ne rejette pas H₀ donc on accepte l’hypothèse nulle donc la nullité du coefficient associé à la variable, qui n’explique donc pas la variable à expliquer.

Remarque : on préfère l’erreur de 1^ereespèce α car β, l’erreur de 2^eme espèce est difficile à évaluer.

On peut écrire le modèle :

On plusieurs (p=2) régresseurs susceptibles d’expliquer la variable « y » et n observations

y₁, · · · , y_n pour la variable expliquée, et pour chaque observation, l’observation correspondante (x₁₁, · · · , x₁_p), · · · , (x_n₁, · · · , x_np) des p régresseurs ; on suppose que le modèle s’écrit pour l’observation i :

où :

H1, les ε_i sont centrées ie E(ε_i)=0 ;

H2, les ε_i sont non correlées ie cov(ε_iε_j)=0 pour i différent de j;

H3 (homoscédasticité), les ε_i i ont même variance (inconnue) σ².

Objectif (technique) : expliquer au mieux les y_i comme combinaison linéaire des régresseurs, c’est-à-dire minimiser (méthode des Moindres au Carré Ordinaire MCO) :

[1] Il existe d’autres critères pour comparer des modèles : AIC, BIC, …

Poster un commentaire | Tags: probabilités, régression, statistiques | Publié dansBoulot

vendredi 5 juin 2009

Tests d’hypothèses- Généralités

Par feenomenale

Introduction

Les tests permettent de vériﬁer la validité de certaines hypothèses faites sur un ou plusieurs paramètres et peuvent être relatifs à une ou plusieurs populations. On peut diﬀerencier les tests suivant les hypothèses à tester :

– tests de conformité : comparer le paramètre inconnu à une valeur théorique.

– tests d’égalité : comparer entre eux les paramètres de diﬀérentes populations.

– tests d’ajustement : vériﬁer si la variable observée suit une loi théorique donnée.

– tests d’indépendance : contrôler l’indépendance de deux (ou plusieurs) variables issues d’une même population.

Les deux premiers sont des tests paramétriques alors que les deux derniers des tests non paramétriques.

Vocabulaire et Généralités

Test d’hypothèses

Un test consiste à confronter deux hypothèses sur la base de l’information dont on dispose grâce à l’observation de l’échantillon. Un test est compose de 4 éléments :

-observations

-le modèle statistique d’où proviennent les données dépendant d’un paramètre inconnu

-une hypothèse principale portant sur θ, appelée hypothèse nulle

-une règle de décision : on accepte H₀ si T (x₁, . . . , x_n) ∈ W, où W est une zone de valeurs improbable pour T (x₁, . . . , x_n) sous H₀, appelée région de rejet.

Hypothèses

On considère le modèle paramétrique (Ω, A{P_θ, θ ∈ Θ}) et T (x₁, . . . , x_n) une fonction des observations à valeurs dans E. On sélectionne deux parties de Θ : Θ₀ et Θ₁ disjointes, mais pas forcement complémentaires et on déﬁnit :

– H₀ : θ ∈ Θ₀ : hypothèse nulle

– H₁ : θ ∈ Θ₁ : hypothèse alternative, ie non H₀.

On dit que l’on teste H₀ contre H₁ .

Def : On dit que l’hypothèse H₀ est simple si Θ₀ = {θ₀}, sinon elle est dite multiple (ou composite).

En général on prendra comme hypothèse H₀ une hypothèse simple.

Def : Si on teste H₀ : θ = θ₀ contre H₁ : θ = θ₀, alors on dit que le test est bilatéral. Si on teste H₀ : θ = θ₀ contre H₁ : θ > θ₀ (resp. H₁ : θ < θ₀) , alors on dit que le test est unilatéral droit (resp. gauche).

A partir de l’échantillon on observe une valeur de T (x₁, . . . , x_n) sur laquelle on basera le choix de H₀ ou H₁. T (x₁, . . . , x_n) est appelée statistique de test.

Def. : Soit W une partie de E, appelée région critique ou région de rejet.

– Si T ∈ W , alors on rejette H₀ et on accepte H1.

– Si T ∈ W_c, alors on accepte H₀, La partie W_c = E\W est la région d’acceptation.

Risques associés aux hypothèses

On prend une décision qui dépend des observations, à chaque décision on prend le risque de commettre une erreur. Comme la décision est basée sur la variable aléatoire T , on caractérise chaque erreur par sa probabilité, que l’on appelle risque.

Def. :

1. On appelle risque de 1^re espèce la valeur α(θ) qui est : α(θ) = P_θ(T ∈ W ) = P_θ(T ∈ W |H₀)

avec θ ∈ Θ0, i.e. la probabilité de choisir H1 alors que H0 est vraie (avoir un faux positif),

2. On appelle risque de 2^e espèce la valeur β(θ) qui est : β(θ) = P_θ(T ∈ W ) = P_θ(T ∈ W |H₁)

avec θ ∈ Θ₁, i.e. la probabilité de choisir H₀ alors que H₁ est vraie.

3. Soit H₀ : θ ∈ Θ₀ hypothèse multiple et α(θ) le risque de première espèce pour θ ∈ Θ₀. On appelle niveau du test la valeur α telle que α = supθ∈Θ₀.

4. On appelle puissance d’un test la probabilité de rejeter H₀ alors qu’elle est eﬀectivement fausse c’est-à-dire η(θ) = P_θ(T ∈ W |H1) = 1 − β(θ). On parle de fonction puissance dans le cas d’une hypothèse alternative multiple.

Rq. :

1. Si H₀ est simple α = α(θ₀).

2. α et β sont interdépendants car ils dépendent de W et W_c.

3. Plus le risque β est petit, plus le test est puissant. On considérera plus souvent la puissance que l’espérance de 2^eme espèce.

4. Le niveau correspond à l’erreur maximum que l’on peut commettre en rejetant H₀.

On souhaite de faibles risques d’erreur. L’idéal α=β=0 est impossible donc on trouve un compromis.

APPLICATION AU TEST DU KHI2 :

http://alea.fr.eu.org/j/pdf/khi2.pdf

-test d’adéquation à une loi de probabilité

-test d’homogénéité : comparaison d’échantillons issus de populations différentes

-test d’indépendance sur données qualitatives

Poster un commentaire | Tags: probabilités, statistiques, test | Publié dansBoulot

vendredi 5 juin 2009

Intervalle de confiance

Par feenomenale

L’IC est une mesure du degré de précision d’une estimation, car il existe deux sources principales d’imprécision :

– n, le nombre d’observations, est fini et souvent faible ; d’après la formule de l’IC (ci-dessous), quand n augmente, la précision de l’estimation augmente ie l’amplitude de l’IC diminue, (remarque quand n tend vers l’infini, l’estimation est exacte, il s’agit de la vraie valeur du paramètre, puisque on utilise toute l’information),

– l’erreur de mesure, c’est pourquoi on utilise une estimation par IC, pour « relativiser » les résultats.

A 95%, u _α/2= 1.96. Cette formule s’applique pour une variance (donc un écart type) connu. L’IC s’interprète alors comme suit : il y a 95% de chances que «variable » se situe entre … et …

http://perso.univ-rennes1.fr/arthur.charpentier/cours-rappels-stats-M1.pdf

Poster un commentaire | Tags: intervalle de confiance, probabilités, statistiques | Publié dansBoulot

Feenomenale's Weblog

Archives de Tag: probabilités

Modèle de régression

Tests d’hypothèses- Généralités

Introduction

Vocabulaire et Généralités

Intervalle de confiance

(My back) pages

(Dans les) nuages

Categories

(The Dis)connection

Articles les plus consultés

Meilleurs clics

Email Subscription