Le test T de Student

448px-William_Sealy_Gosset

William Sealy Gosset

\bullet Historique:

\begin{tabular}{|l|c|c|} \hline Bloc & 11/05/2013-V1 & 06/05/2019-V2 \\ \hline Historique &  & Cr\'eation \\ \hline Sommaire &  & Cr\'eation \\ \hline Pr\'esentation & Cr\'eation & MAJ \\ \hline Les diff... versions du test & Cr\'eation & MAJ \\ \hline Calcul de la p-valeur exacte &  & Cr\'eation \\ \hline Tendance lorsque... & Cr\'eation & MAJ \\ \hline Annexe th\'eo... & Cr\'eation & MAJ et ajout formule de calcul de la p-valeur \\ \hline Exemple & Cr\'eation & MAJ \\ \hline Appli... info... & Cr\'eation & Devient Appli... sous R \\ \hline Appli... sous SAS &  & Cr\'eation \\ \hline Bibliographie & Cr\'eation & MAJ \\ \hline \end{tabular}

\bullet Sommaire:

  • Présentation
  • Les différentes versions du test
      • Cas à un échantillon: test de conformité de la moyenne à un standard
        • Conditions pour le rejet de H_0
      • Cas à deux échantillons: comparaison des moyennes
        • Conditions pour le rejet de H_0
      • Cas pour échantillons appariés: comparaison des moyennes
        • Conditions pour le rejet de H_0
      • La table de la loi de Student
  • Calcul de la p-valeur exacte
  • Tendance lorsque n \rightarrow + \infty
  • Annexe théorique
    • Démonstration de la loi de distribution du numérateur et du dénominateur de la statistique de test T de Student
    • Démonstration de la loi de distribution de la statistique de test T de Student
    • Approximation de la fonction de répartition de la loi de Student
  • Exemples
    • Cas à un échantillon: test de conformité de la moyenne à un standard
    • Cas à deux échantillons: comparaison des moyennes
    • Cas pour échantillons appariés: comparaison des moyennes
  • Application sous R
    • Cas à un échantillon: test de conformité de la moyenne à un standard
    • Cas à deux échantillons: comparaison des moyennes
    • Cas pour échantillons appariés: comparaison des moyennes
  • Application sous SAS
    • Cas à un échantillon: test de conformité de la moyenne à un standard
    • Cas à deux échantillons: comparaison des moyennes
    • Cas pour échantillons appariés: comparaison des moyennes
  • Bibliographie

\bullet Présentation:

Publié en 1908 par William Sealy Gosset, le test T de Student (appelé également t-test) est une approche paramétrique permettant de:

– Comparer la moyenne d’une variable continue X à une constante c (portant également le nom de test de conformité de la moyenne à un standard) ;

– Tester la liaison entre une variable continue X et une variable binaire Y, en comparant les moyennes de X|_{Y = g_1} et X|_{Y = g_2} les sous-échantillons de X restreints aux groupes g_1 et g_2 de Y ;

– Comparer les moyennes de deux variables appariées (X ^{t_1}, X ^{t_2}), les mesures d’une variable X continue aux deux temps t_1 et t_2.

Le test de Student doit remplir un certain nombre d’hypothèses d’utilisation avant de pouvoir être lancé. Que l’on soit dans le cas à un échantillon (test de conformité) ou à deux échantillons (données non appariées ou appariées), X, X|_{Y = g_1}, X|_{Y = g_2}, X ^{t_1}, X ^{t_2} doivent suivre chacun une loi normale. Enfin, dans le cas de deux échantillons non appariés, X|_{Y = g_1}, X|_{Y = g_2} doivent également avoir des variances semblables.

\bullet Les différentes versions du test:

Cas à un échantillon: test de conformité de la moyenne à un standard

Hypothèses préliminaires: X continue et normalité de la distribution.

Soit X une variable aléatoire de moyenne \mu_X et d’écart-type \sigma_X. On notera n la taille de X. On cherche à vérifier que \mu_X = \mu_0, constante fixée à laquelle on veut se comparer.

La formule de la statistique de test T de Student pour un échantillon est alors:

T = \frac{\mu_X - \mu_0}{\frac{S_X}{\sqrt{n}}}

Avec,

S_X = \sigma_X si \sigma_X connu ;

S_X = \frac{n}{n - 1} \sigma_X, la variance corrigée, sinon.

La statistique de test T de Student suit une loi de Student à n - 1 degrés de liberté. L’hypothèse H_0 est:

La moyenne de X est égale au standard fixé / \mu = \mu_0

Avec T_{1 - \alpha} la valeur seuil de la distribution de la statistique de test T pour une confiance \alpha, les hypothèses alternatives sont alors,

H_1: \mu_X > \mu_0, soit T > T_{\alpha}, pour un test unilatéral à droite ;

H_1: \mu_X < \mu_0, soit T > T_{1 - \alpha}, pour un test unitaléral à gauche ;

H_1: \mu_X \neq \mu_0, soit |T| > T_{1 - \frac{\alpha}{2}}, pour un test bilatéral.

Conditions pour le rejet de H_0: 

On peut schématiser le processus du test T de conformité de la moyenne à un standard de Student de la manière suivante:

add

Le principe est donc de mesurer la distance entre \mu_X et \mu_0 en pondérant par la dispersion de X. Afin d’accepter H_0 il faut donc que,

T = \frac{\mu_X - \mu_0}{\frac{S_X}{\sqrt{n}}} \longrightarrow 0

On a alors deux cas de figure qui peuvent amener à ce résultat:

– Le premier est: que \mu_X \rightarrow \mu_0, soit que la moyenne est très proche du standard. Le numérateur va alors tendre vers 0 ;

– Le second: que la dispersion S_X soit particulièrement importante, ce qui revient à dire que l’échantillon varie tellement fortement qu’il couvre un large ensemble de valeurs. Le dénominateur tendra ainsi vers + \infty.

En réalité, le second point est probablement le plus important. Si l’échantillon X varie très peu autour de sa moyenne, alors l’écart entre \mu_X et \mu_0 n’aura pas besoin d’être particulièrement grand pour que l’on puisse rejeter H_0.

Cas à deux échantillons: comparaison des moyennes

Hypothèses préliminaires: X continue et Y binaireNormalité des distributions et égalité des variances.

Soit X|_{Y = g_1} et X|_{Y = g_2} les sous-échantillons de X restreint aux groupes g_1 et g_2 de Y. On notera \mu_1 la moyenne de X|_{Y = g_1} qui est de taille n_1. Ainsi que \mu_2 celle de X|_{Y = g_2}, de taille n_2.

La formule de la statistique de test T de Student pour deux échantillons est alors:

T= \frac{\mu_1 - \mu_2}{\sqrt{S ^2 \cdot (\frac{1}{n_1} + \frac{1}{n_2})}}

avec,

S ^2 = \frac{1}{n_1 + n_2 - 2} [\sum_{i = 1} ^{n_1} ((X|_{Y = g_1})_i - \mu_1) ^2 + \sum_{i = 1} ^{n_2} ((X|_{Y = g_2})_i - \mu_2) ^2]

, la dispersion totale.

La statistique de test T de Student suit une loi de Student à n_1 + n_2 - 2 degrés et l’hypothèse H_0 est:

Les moyennes de X|_{Y = g_1} et X|_{Y = g_2} sont égales / \mu_1 = \mu_2

Avec T_{1 - \alpha} la valeur seuil de la distribution de la statistique de test T pour une confiance \alpha, les hypothèses alternatives sont alors,

H_1: \mu_1 > \mu_2, soit T > T_{\alpha}, pour un test unilatéral à droite ;

H_1: \mu_1 < \mu_2, soit T > T_{1 - \alpha}, pour un test unitaléral à gauche ;

H_1: \mu_1 \neq \mu_2, soit |T| > T_{1 - \frac{\alpha}{2}}, pour un test bilatéral.

Conditions pour le rejet de H_0: 

On peut schématiser le processus du test T de comparaison des moyennes dans le cas non appariés de la manière suivante:

add1

Le principe est donc de mesurer la distance entre \mu_1 et \mu_2 en pondérant par la dispersion totale de X. Afin d’accepter H_0, il faut donc que,

T = \frac{\mu_1 - \mu_2}{\sqrt{S ^2 \cdot (\frac{1}{n_1} + \frac{1}{n_2})}} \longrightarrow 0

On a alors deux cas de figure qui peuvent amener à ce résultat:

– Le premier est: que \mu_1 \rightarrow \mu_2, soit que nos deux moyennes sont particulièrement proches. Le numérateur va alors tendre vers 0 ;

– Le second: que la dispersion S ^2 soit particulièrement importante, ce qui revient à dire que l’échantillon varie tellement fortement qu’il couvre un large ensemble de valeurs. Le dénominateur tendra ainsi vers + \infty.

En réalité, le second point est probablement le plus important. Si la dispersion globale  de X varie très peu autour de sa moyenne, alors l’écart entre \mu_1 et \mu_2 n’aura pas besoin d’être particulièrement grand pour que l’on puisse rejeter H_0. Cette hypothèse est d’autant plus forte que le test T de Student s’utilise sous l’hypothèse d’égalité des variances de X|_{Y = g1} et X|_{Y = g2}.

Cas pour échantillons appariés: comparaison des moyennes

Hypothèses préliminaires: Variables continues appariées et normalité des distributions.

Soit X ^{t_1} et X ^{t_2} les mesures de X aux deux temps distincts t_1, t_2. On note n la taille de l’échantillon.

La statistique de test T de Student pour données appariées est:

T = \frac{\mu_D}{\frac{S_D}{\sqrt{n}}}

D = (d_1, \cdots, d_n) le vecteur composé des d_i = X_i ^{t_1} - X_i ^{t_2}, \forall i \in [1,n] et \mu_D la moyenne de D. On notera S_D l’écart-type de D.

La statistique de test T de Student suit une loi de Student à n - 1 degrés de liberté. L’hypothèse H_0 est:

La moyenne de X au temps t_1 est la même qu’au temps t_2 / \mu_{X ^{t_1}} = \mu_{X ^{t_2}}

Avec T_{1 - \alpha} la valeur seuil de la distribution de la statistique de test T pour une confiance \alpha, les hypothèses alternatives sont alors,

H_1: \mu_{X ^{t_1}} - \mu_{X ^{t_2}} > 0, soit T > T_{1 - \alpha}, pour un test unilatéral à droite ;

H_1: \mu_{X ^{t_1}} - \mu_{X ^{t_2}} < 0, soit T > T_{\alpha}, pour un test unitaléral à gauche ;

H_1: \mu_{X ^{t_1}} - \mu_{X ^{t_2}} \neq 0, soit |T| > T_{\frac{\alpha}{2}}, pour un test bilatéral.

Conditions pour le rejet de H_0:

On peut schématiser le processus du test T de comparaison des moyennes dans le cas appariés de la manière suivante:


add2

Le principe est donc de mesurer la distance entre \mu_{X ^{t_1}} et \mu_{X ^{t_2}} et de se baser sur la moyenne de cette distance pondérée par son écart-type. Afin d’accepter H_0 il faut donc que,

T = \frac{\mu_D}{\frac{S_D}{\sqrt{n}}} \longrightarrow 0

On a alors deux cas de figure qui peuvent amener à ce résultat:

– Le premier est: que \mu_D \rightarrow 0, ce qui revient à dire que,

\mu_D = \frac{1}{n} \sum_{i = 1} ^n (X_i ^{t_1} - X_i ^{t_2}) = \frac{1}{n} \sum_{i = 1} ^n X_i ^{t_1} - \frac{1}{n} \sum_{i = 1} ^n X_i ^{t_2} = \mu_{X ^{t_1}} - \mu_{X ^{t_2}} \rightarrow 0,

En d’autres termes, que la moyenne de X au temps t_1 et celle au temps t_2 sont particulièrement proches. Le numérateur va alors tendre vers 0 ;

– Le second: que la dispersion S_D soit particulièrement importante, ce qui revient à dire que les différences entre les valeurs de X aux temps t_1,t_2 fluctuent fortement. Le dénominateur tendra ainsi vers + \infty.

La table de la loi de Student:add\bullet Calcul de la p-valeur exacte:

Quelque soit la version du test, la loi de distribution à laquelle se référer pour la statistique T est la même: celle de Student. En prenant d le nombre de degrés de liberté en fonction de la version du test et restant dépendant de n, B(z,\frac{1}{2},\frac{d}{2}) la fonction Bêta incomplète et B(\frac{1}{2},\frac{d}{2}) la fonction Bêta. Le calcul de la p-valeur associée à la statistique de test de Student est alors,

– Dans le cas bilatéral:

p = P(T_{obs} > T_{n,\frac{\alpha}{2}}) = 1 - \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

– Dans le cas unilatéral à droite:

p = P(T_{obs} > T_{n,\alpha}) = \frac{1}{2} + \frac{1}{2} \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

– Dans le cas unilatéral à gauche:

p = P(T_{obs} > T_{n,1-\alpha}) = \frac{1}{2} - \frac{1}{2} \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

Avec,

z = \frac{\frac{T_{obs} ^2}{d}}{1 + \frac{T_{obs} ^2}{d}} ;

B(\frac{1}{2},\frac{d}{2}) = \frac{\Gamma(\frac{1}{2}) \Gamma(\frac{d}{2})}{\Gamma(\frac{1}{2} + \frac{d}{2})} = \sqrt{\pi}\frac{ \Gamma(\frac{d}{2})}{\Gamma(\frac{d + 1}{2})} ;

B(z;\frac{1}{2},\frac{d}{2}) = \sqrt{z} (2 + \sum_{k = 1} ^K \frac{\prod_{j = 1} ^k (j - \frac{d}{2})}{k ! (\frac{1}{2} + k)} z ^k), qui converge assez rapidement pour K faible.

\bullet Tendance lorsque n \longrightarrow \infty:

On s’intéresse désormais à la résistance du test T de Student au fur et à mesure que la taille d’échantillon croît. Nous fixons le ratio: différence des moyennes sur variance à 0.001, soit un cas fictif correspondant à un écart particulièrement faible entre les deux moyennes (ou la moyenne et son standard) que l’on compare voire à une dispersion trop important de notre échantillon. L’on va s’intéresser à l’influence du facteur \sqrt{n} sur la statistique de test T de Student. Le résultat attendu est forcément que quelque soit la taille de l’échantillon, on ne rejettera pas l’hypothèse H_0 d’égalité des moyennes (ou de la moyenne à un standard). Le graphique ci-dessous montre l’évolution de la p-valeur p associée à la statistique de test T_{test} fixée lorsque n croît de 10 à 100 000 observations:

De manière hâtive, on reste en adéquation avec l’hypothèse de construction de la statistique de test T de Student jusqu’à n = 16 417 (p > 20 \%). Jusqu’à n = 38 409, on se forcera à rejeter H_0 avec un risque assez fort compris entre  20 \% et 5 \%. Enfin, à n = 66 344 la p-valeur passe en dessous des 1 \%.

Cette simulation montre que le test T de Student est atteint par la malédiction des grands échantillons. Cependant, et même s’il faut relativiser ce constat car ici nous prenons une statistique de test T particulièrement faible, on peut également voir qu’il offre une certaine marge et permet de travailler sur des échantillons assez importants.

\bullet Annexe théorique: 

Démonstration de la loi de distribution du numérateur et du dénominateur de la statistique de test T de Student:

Par hypothèse d’utilisation de la statistique de test, X suit une loi normale de paramètre \mu_X, \sigma_X^2. On peut alors fixer (X_n)_{n \geq 1} une suite de variables aléatoires indépendamment et identiquement distribuées et de même loi normale N(\mu,\sigma ^2).

On a alors la dispersion,

S ^2 = \frac{1}{n-1} \sum_{i = 1} ^n (x_i - \overline{x}) ^2

\Rightarrow (n - 1) S ^2 = \sum_{i = 1} ^n (x_i - \overline{x}) ^2

= \sum_{i = 1} ^n x_i ^2 - 2 \sum_{i = 1} ^n x_i \cdot \overline{x} + n \overline{x} ^2

= \sum_{i = 1} ^n x_i ^2 - \frac{2}{n} \sum_{i = 1} ^n x_i \cdot \sum_{i = 1} ^n x_i + \frac{n}{n ^2} (\sum_{i = 1} ^n x_i) ^2

= \sum_{i = 1} ^n x_i ^2 - (\sum_{i = 1} ^n x_i) ^2 [\frac{2}{n} - \frac{1}{n}]

= \sum_{i = 1} ^n x_i ^2 - \frac{1}{n} (\sum_{i = 1} ^n x_i) ^2

= \sum_{i = 1} ^n x_i ^2 - n \overline{x} ^2

On applique alors la transformation d’Helmert via le changement de variable suivant:

u_1 = \frac{x_1 - x_2}{\sqrt{2}} ;

\forall i \in \lbrace 2, \cdots, n-1 \rbrace, u_i = \frac{\sum_{j = 1} ^i x_j - i x_{i+1}}{\sqrt{i \cdot (i + 1)}} ;

u_n = \frac{x_1 + x_2 + \cdots + x_n}{\sqrt{n}} \Rightarrow u_n ^2 = \frac{\sum_{i = 1} ^n + 2 \sum_{i \neq j} x_i x_j}{n} = n \frac{1}{n ^2} (\sum_{i = 1} ^n x_i) ^2 = n \overline{x} ;

On peut alors construire la matrice \mathbf{H} de la forme:

H_{i,j} = \frac{1}{\sqrt{i(i+1)}} si j \leq i ;

H_{i,j} = - \frac{1}{\sqrt{i(i+1)}} si j = i + 1 ;

H_{i,j} = 0 si j > i + 1 ;

Cette transformation est isométrique, soit que \sum_{i = 1} ^n x_i ^2 = \sum_{i = 1} ^n u_i ^2, d’où,

(n - 1) S ^2 = \sum_{i = 1} ^n x_i ^2 - n \overline{x} ^2 = \sum_{i = 1} ^n u_i ^2 - u_n ^2 = \sum_{i = 1} ^{n-1} u_i ^2

L’autre propriété de la transformation d’Helmert est que les variables aléatoires associées aux u_i sont indépendantes et suivent des lois normales centrées-réduites. Par conséquent, la variable (n-1) S^2, qui représente le dénominateur de la statistique de test T de Student peut être vue comme suivant une loi du \chi ^2 à n-1 degrés de liberté.

Concernant la moyenne, on procède analoguement en reconnaissant que,

\mu_X = \frac{u_n}{\sqrt{n}}

, dont l’expression se base sur une variable suivant une loi normale d’où le fait que la statistique de test T de Student est en réalité le ratio entre une variable aléatoire suivant une loi normale et une autre suivant une loi du \chi ^2.

Démonstration de la loi de distribution de la statistique de test T de Student:

Soit g_d la densité de la loi du \chi ^2 à d degrés de liberté et de formule:

g_d (x) = \frac{1}{2 ^{\frac{d}{2}} \Gamma(\frac{d}{2})} x ^{\frac{d}{2}-1} e ^{-\frac{x}{2}}

, et h_d celle de la loi de Student à d degrés de liberté et de formule:

h_d(x) = \frac{1}{\sqrt{d \pi}} \frac{\Gamma(\frac{d+1}{2})}{\Gamma(\frac{d}{2})} (1 + \frac{x ^2}{d}) ^{- \frac{d+1}{2}}

Enfin, on pose: T = \frac{X}{\sqrt{\frac{Y}{d}}} la variable aléatoire à laquelle on s’intéresse. On a,

P(T \leq t) = P(X \leq t \sqrt{\frac{Y}{d}}) = E[P(X \leq t \sqrt{\frac{Y}{d}})] = E[\int_{-\infty} ^{t \sqrt{\frac{Y}{d}}} e ^{-\frac{x^2}{2}} \frac{dx}{\sqrt{2 \pi}}]

Comme,

\vert \frac{\partial}{\partial t} (\int_{-\infty} ^{t \sqrt{\frac{Y}{d}}} e ^{-\frac{x^2}{2}} \frac{dx}{\sqrt{2 \pi}}) \vert = \vert \sqrt{\frac{Y}{d}} e ^{- t ^2 \frac{Y}{2 d}} \vert \leq \vert \sqrt{\frac{Y}{n}} \vert

, avec \sqrt{\frac{Y}{d}} intégrable, on peut dériver par convergence dominée et obtenir:

f_T (t) = \frac{\partial}{\partial t}P(T \leq t)

= \frac{1}{\sqrt{2 \pi}} E[\sqrt{\frac{Y}{d}} e^{t ^2 \frac{Y}{2}}]

= \frac{1}{\sqrt{2 \pi}} \int_{\mathbb{R}} (\frac{y}{d}) ^{\frac{1}{2}} \frac{1}{2 ^{\frac{d}{2}} \Gamma(\frac{d}{2})} y ^{\frac{d}{2}-1} e ^{-\frac{y}{2}} e ^{- \frac{t ^2 y}{2 d}} dy

= \frac{1}{\sqrt{2 \pi d} 2 ^{\frac{d}{2}} \Gamma(\frac{d}{2})} \int_{\mathbb{R}} y ^{\frac{d+1}{2}-1} e ^{-\frac{1}{2}(1+\frac{t^2}{d})y} dy

= \frac{1}{\sqrt{2 \pi d} 2 ^{\frac{d}{2}} \Gamma(\frac{d}{2})} \int_{\mathbb{R}} \frac{u ^{\frac{d+1}{2}-1}}{(1+\frac{t^2}{d})^{\frac{d+1}{2}}} e ^{-\frac{u}{2}} du

On pose le changement de variable suivant:

u = (1 + \frac{t^2}{d})y \Rightarrow y = \frac{u}{1 + \frac{t ^2}{d}} \Rightarrow dy = \frac{1}{1 + \frac{t^2}{d}} du

Et en rappelant que,

\Gamma(z) = \int_0 ^{+ \infty} t ^{z-1} e ^{-t} dt, avec t = \frac{u}{2} \Rightarrow t = 2 u \Rightarrow dt = 2 du et z = \frac{d + 1}{2}

On a alors,

f_T (t) = \frac{1}{\sqrt{2 \pi d} 2^{\frac{d}{2}} \Gamma(\frac{d}{2})} \cdot \frac{2 ^{\frac{d+1}{2}} \Gamma(\frac{d+1}{2})}{(1+\frac{t^2}{d})^{\frac{d+1}{2}}} = \frac{1}{\sqrt{\pi d}} \frac{\Gamma(\frac{d+1}{2})}{\Gamma(\frac{d}{2})} (1+\frac{t^2}{d}) ^{-\frac{d+1}{2}}

, qui n’est autre que la fonction de densité de la loi de Student à d degrés de liberté.

Approximation de la fonction de répartition de la loi de Student:

Cette approximation est inspirée d’un post du forumeur Kuja sur les-mathématiques.net (http://www.les-mathematiques.net/phorum/read.php?2,133572,134589). Profitant de cet article pour le remercier pour sa contribution indirecte mais quand bien même précieuse.

Dans un premier temps, on rappel les définitions des fonctions suivantes:

– La fonction \Gamma(n) = (n - 1)! et \Gamma(\frac{1}{2}) = \sqrt{\pi};

– La fonction B(a,b) = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)} \Rightarrow \frac{1}{B(a,b)} = \frac{\Gamma(a + b)}{\Gamma(a) \Gamma(b)} ;

– La fonction Bêta incomplète: B(z;a,b) = (\frac{1}{a} + \sum_{k = 1} ^{\infty} \frac{\prod_{j = 1} ^k (j - b)}{(a + k) k!}) z ^a

On cherche à déterminer la forme de la fonction de répartition de la loi de Student afin de pouvoir calculer la p-valeur associée à la statistique de test T de Student. On a donc,

F_T (x) = \int_{-\infty} ^x \frac{1}{\sqrt{\pi d}} \frac{\Gamma(\frac{d+1}{2})}{\Gamma(\frac{d}{2})} (1+\frac{t^2}{d}) ^{-\frac{d+1}{2}}

Si on pose a = \frac{d}{2} et b = \frac{1}{2}, alors on reconnait la forme,

\frac{\Gamma(\frac{d}{2} + \frac{1}{2})}{\Gamma(\frac{d}{2}) \Gamma(\frac{1}{2})} = \frac{\Gamma(\frac{d + 1}{2})}{\Gamma(\frac{d}{2}) \sqrt{\pi}} = B(\frac{1}{2},\frac{d}{2})

D’où,

F_T (x) = \int_{- \infty} ^x \frac{1}{\sqrt{d} B(\frac{1}{2},\frac{d}{2})} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt

= \int_{- \infty} ^0 \frac{1}{\sqrt{d} B(\frac{1}{2},\frac{d}{2})} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt + \int_0 ^{+ \infty} \frac{1}{\sqrt{d} B(\frac{1}{2},\frac{d}{2})} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt

= \frac{1}{2} + \int_0 ^{+ \infty} \frac{1}{\sqrt{d} B(\frac{1}{2},\frac{d}{2})} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt, par symétrie de la loi de Student en 0

= \frac{1}{2} + \frac{1}{\sqrt{d} B(\frac{1}{2},\frac{d}{2})} \int_0 ^{+ \infty} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt

Il nous reste à déterminer l’intégrale restante,

\int_0 ^{+ \infty} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt

On pose le changement de variable suivant:

t = \sqrt{\frac{d u}{1 + u}} \Rightarrow dt = \frac{\sqrt{d}}{2} \frac{1}{\sqrt{u} (1 - u) ^{\frac{3}{2}}} du

On obtient,

\int_0 ^{+ \infty} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt = \frac{\sqrt{d}}{2} \int_0 ^u (1 + \frac{\frac{du}{1 - u}}{d}) ^{- \frac{d+1}{2}} \frac{1}{\sqrt{u} (1 - u) ^{\frac{3}{2}}} du

= \frac{\sqrt{d}}{2} \int_0 ^u (\frac{1}{1 - u}) ^{- \frac{d}{2} + 1} u ^{-\frac{1}{2}} du

= \frac{\sqrt{d}}{2} \int_0 ^u (1 - u) ^{\frac{d}{2} - 1} u ^{-\frac{1}{2}} du

On reconnait alors la forme de la fonction Bêta incomplète pour a = \frac{1}{2} et b = \frac{d}{2}. Par conséquent,

\int_0 ^{+ \infty} (1 + \frac{t ^2}{d}) ^{-\frac{d+1}{2}} dt = \frac{\sqrt{d}}{2} B(\frac{\frac{t ^2}{d}}{1 + \frac{t ^2}{d}}; \frac{1}{2}, \frac{d}{2}) \Rightarrow F(x) = \frac{1}{2} + \frac{1}{2} \frac{B(z;\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

\bullet Exemple:

Cas à un échantillon: test de conformité de la moyenne à un standard

Soit la variable aléatoire X suivante:

\begin{tabular}{|c|} \hline X \\ \hline 0.8970 \\ \hline 2.0949 \\ \hline 3.0307 \\ \hline 4.0135 \\ \hline 5.0515 \\ \hline 6.0261 \\ \hline 6.9059 \\ \hline 7.9838 \\ \hline 8.9854 \\ \hline 9.9468 \\ \hline 11.1682 \\ \hline 11.9124 \\ \hline 12.9516 \\ \hline 13.9288 \\ \hline 14.8826 \\ \hline 15.9808 \\ \hline 16.9726 \\ \hline 18.1530 \\ \hline 18.9751 \\ \hline 19.8936 \\ \hline \end{tabular}

On cherche à voir si la moyenne de X est statistiquement différente de \mu_0 = 10. Ci-dessous, le boxplot (en gris) construit à partir de X (points noirs) permet de voir que visuellement \mu_X et \mu_0 semblent coïncider.

add

On assumera ici le fait que X ne suit pas une loi normale étant donné qu’il s’agit d’un exemple d’application

Notons la valeur des paramètres:

\mu_X = 10.48771 ;

\sigma_X = 5.903883 ;

\mu_0 = 10.

La valeur de la statistique de test est alors:

T_{obs} = \frac{10.48771 - 10}{\frac{5.903883}{\sqrt{20}}} = \frac{0.48771}{1.320148} = 0.3694359

On cherche à tester bilatéralement le rejet de l’hypothèse H_0. Sous cette approche, on génère une loi de Student à 20 - 1 = 19 degrés de liberté et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à 20 \%, 10 \%, 5 \% et 1 \% dans le cadre bilatéral,

add

En se reportant aux valeurs de la table de la loi de Student ci-dessus, on constate que,

\vert T_{obs} \vert = 0.3694359 < T_{19,20 \%,\mbox{bilat\'eral}} = 1.328< T_{19,10 \%,\mbox{bilat\'eral}} = 1.729 < T_{19,5 \%,\mbox{bilat\'eral}} = 2.093 < T_{19,1 \%,\mbox{bilat\'eral}} = 2.861

Maintenant, on calcul la p-valeur exacte associée à la statistique de test T_{obs} de Student dans le cadre bilatéral et pour 20 - 1 = 19 degrés de liberté. On commence par appliquer le changement de variable,

z = \frac{\frac{0.3694359^2}{19}}{1 + \frac{0.3694359^2}{19}} = 0.007132076

On a,

p = 1 -  \frac{B(0.007132076,\frac{1}{2},\frac{19}{2})}{B(\frac{1}{2},\frac{19}{2})} = 1 - \frac{0.1655443}{0.582673} = 1 - 0.2841118 = 0.71588862 > 5 \%

On ne pourra pas rejeter H_0 au risque de 5 \% et on en conclut que \mu_X = \mu_0 = 10 au sens statistique du terme.

Cas à deux échantillons: comparaison des moyennes

Soit la variable aléatoire X distribuée selon les deux groupes \lbrace A, B \rbrace d’une variable Y:

\begin{tabular}{|c|c|} \hline Y & X \\ \hline A & 0.8970 \\ \hline A & 2.0949 \\ \hline A & 3.0307 \\ \hline A & 4.0135 \\ \hline A & 5.0515 \\ \hline A & 6.0261 \\ \hline A & 6.9059 \\ \hline A & 7.9838 \\ \hline A & 8.9854 \\ \hline A & 9.9468 \\ \hline B & 11.1682 \\ \hline B & 11.9124 \\ \hline B & 12.9516 \\ \hline B & 13.9288 \\ \hline B & 14.8826 \\ \hline B & 15.9808 \\ \hline B & 16.9726 \\ \hline B & 18.1530 \\ \hline B & 18.9751 \\ \hline B & 19.8936 \\ \hline \end{tabular}

Ci-dessous, les boxplots des distributions de X restreint au groupe « A » (en vert) et au groupe « B » (en rouge) permet de voir que visuellement les moyennes des deux échantillons sont éloignées.

add

On assumera ici le fait que X restreint au groupe A et et au groupe B ne suivent pas une loi normale étant donné qu’il s’agit d’un exemple d’application

Pour les deux sous-échantillons on obtient les moyennes et variances suivantes:

\mu_1 = 5.49356
\mu_2 = 15.48187

Alors,

S = \frac{1}{10+10-2} \times [\sum_{i = 1} ^{10} ((X|_{Y = A})_i - 5.49356) ^2 + \sum_{i = 1} ^{10} ((X|_{Y = B})_i - 15,48187) ^2]

= \frac{81.63482 + 81.79444}{18}

= 9.079403

Et,

T = \frac{5.49356 - 15.48187}{\sqrt{9.079403 \times (\frac{1}{10} + \frac{1}{10})}} = \frac{-9.98831}{1.347546} = -7.412221

On cherche à tester bilatéralement le rejet de l’hypothèse H_0. Sous cette approche, on génère une loi de Student à 10 + 10 - 2 = 18 degrés de liberté et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à 20 \%, 10 \%, 5 \% et 1 \% dans le cadre bilatéral,

add.png

En se reportant aux valeurs de la table de la loi de Student ci-dessus, on constate que,

T_{18,20 \%,\mbox{bilat\'eral}} = 1.330< T_{18,10 \%,\mbox{bilat\'eral}} = 1.734 < T_{18,5 \%,\mbox{bilat\'eral}} = 2.101 < T_{18,1 \%,\mbox{bilat\'eral}} = 2.878 < \vert T_{obs} \vert = 7.412221

Maintenant, on calcul la p-valeur exacte associée à la statistique de test \vert T_{obs} \vert de Student dans le cadre bilatéral et pour 10 + 10 - 2 = 18 degrés de liberté. On commence par appliquer le changement de variable,

z = \frac{\frac{7.412221^2}{19}}{1 + \frac{7.412221^2}{19}} = 0.7532253

On a,

p = 1 -  \frac{B(0.7532253,\frac{1}{2},\frac{18}{2})}{B(\frac{1}{2},\frac{18}{2})} = 1 - \frac{0.5990763}{0.5990767} = 1 - 0.9999993 = 0.000000713978 < 1 \%

On pourra rejeter H_0 au risque de 1 \%, soit que \mu_1 \neq \mu_2 au sens statistique du terme. On en conclut que les moyennes des deux sous-échantillons sont différentes.

Cas pour échantillons appariés: comparaison des moyennes

Soit l’échantillon apparié (X ^{t_1}, X ^{t_2}) suivant,

\begin{tabular}{|c|c|} \hline T1 & T2 \\ \hline 3.1101 & 0.8970 \\ \hline 4.1008 & 2.0949 \\ \hline 4.7876 & 3.0307 \\ \hline 7.0677 & 4.0135 \\ \hline 6.0858 & 5.0515 \\ \hline 4.9309 & 6.0261 \\ \hline 4.0449 & 6.9059 \\ \hline 3.0101 & 7.9838 \\ \hline 5.9496 & 8.9854 \\ \hline 6.8729 & 9.9468 \\ \hline 1.0898 & 11.1682 \\ \hline 1.9868 & 11.9124 \\ \hline 2.9853 & 12.9516 \\ \hline 10.0080 & 13.9288 \\ \hline 8.9052 & 14.8826 \\ \hline 8.0411 & 15.9808 \\ \hline 2.0826 & 16.9726 \\ \hline 1.0536 & 18.1530 \\ \hline 9.0649 & 18.9751 \\ \hline 10.0826 & 19.8936 \\ \hline \end{tabular}

Ci-dessous le nuage de point basé sur ces données.

add

On assumera ici le fait que les valeurs de X au temps t1 et celles au temps t2 ne suivent pas une loi normale étant donné qu’il s’agit d’un exemple d’application

On a,

d = (X_1 ^{t_1} - X_1 ^{t_2}, \cdots, X_{20} ^{t_1} - X_{20} ^{t_2}) = (2.2131, 2.0059, \cdots,- 9.8110)

On en déduit:

\overline{d} = -5.224705

S_d = 5.855147

Ce qui donne: T = \frac{-5.224705}{\frac{5.855147}{\sqrt{20}}} = -3.9906

On cherche à tester bilatéralement le rejet de l’hypothèse H_0. Sous cette approche, on génère une loi de Student à 20 - 1 = 19 degrés de liberté et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à 20 \%, 10 \%, 5 \% et 1 \% dans le cadre bilatéral,

add

En se reportant aux valeurs de la table de la loi de Student ci-dessus, on constate que,

T_{19,20 \%,\mbox{bilat\'eral}} = 1.328< T_{19,10 \%,\mbox{bilat\'eral}} = 1.729 < T_{19,5 \%,\mbox{bilat\'eral}} = 2.093 < T_{19,1 \%,\mbox{bilat\'eral}} = 2.861 < \vert T_{obs} \vert = 3.9906

Maintenant, on calcul la p-valeur exacte associée à la statistique de test \vert T_{obs} \vert de Student dans le cadre bilatéral et pour 20 - 1 = 19 degrés de liberté. On commence par appliquer le changement de variable,

z = \frac{\frac{3.9906^2}{19}}{1 + \frac{3.9906^2}{19}} = 0.4559754

On a,

p = 1 -  \frac{B(0.4559754,\frac{1}{2},\frac{19}{2})}{B(\frac{1}{2},\frac{19}{2})} = 1 - \frac{0.5822169}{0.582673} = 1 - 0.999172 = 0.00078282 < 1 \%

On pourra rejeter H_0 au risque de 1 \%, soit que \mu_{X ^{t_1}} \neq \mu_{X ^{t_2}} au sens statistique du terme. Nous en concluons qu’entre nos deux temps, la moyenne de X a varié.

\bullet Application sous R:

Cas à un échantillon: déterminer l’adéquation à une loi fixée

Soit l’exemple suivant:

X = c(0.8970,2.0949,3.0307,4.0135,5.0515,6.0261,6.9059,7.9838,8.9854,9.9468,
11.1682,11.9124,12.9516,13.9288,14.8826,15.9808,16.9726,18.1530,18.9751,19.8936)

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/t.test.html

La fonction t.test du package stats permet d’appliquer les différentes versions du test T de Student à un ou deux échantillons non appariés ou appariés. Le package se charge automatiquement lors du lancement de R.

On lance le test T de Student afin de savoir si la moyenne de X est différente de \mu_0 = 10. On procède de la manière suivante:

t.test(X,mu=10)

Parmi les éléments à insérer les plus importants il faut relever:

– L’échantillon que l’on veut tester : X ;

– Le standard auquel on veut comparer la moyenne de X: mu = 10 ;

– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.

On obtient alors les résultats suivants:


add.pngOn vérifie:

– Les données utilisées: « data:X » ;

– La statistique de test T: « t = 0.36944 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– La p-valeur: « p-value = 0.7159 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– Et le type de test effectué: « alternative hypothesis: true mean is not equal to 0 » .

Cas à deux échantillons: comparaison des moyennes

Dans un premier temps, on charge notre exemple:

X_Y1 = c(0.8970,2.0949,3.0307,4.0135,
5.0515,6.0261,6.9059,7.9838,8.9854,9.9468)

X_Y2 = c(11.1682,11.9124,12.9516,13.9288,14.8826,
15.9808,16.9726,18.1530,18.9751,19.8936)

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/t.test.html

La fonction t.test du package stats permet d’appliquer les différentes versions du test T de Student à un ou deux échantillons non appariés ou appariés. Le package se charge automatiquement lors du lancement de R.

On lance le test T de Student afin de savoir si les moyennes de X_{Y = A} et X_{Y = B} sont différentes. On procède de la manière suivante:

t.test(X_Y1,X_Y2,var.equal=TRUE)

Parmi les éléments à insérer les plus importants il faut relever:

– Les deux échantillons sur lesquels tester l’égalité des moyennes : X_Y1, X_Y2 ;

– Si les variances sont égales (test de Student) ou non (test de Welch): var.equal = TRUE ;

– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.

On obtient alors les résultats suivants:add.png

On vérifie:

– Les données utilisées: « data: X_Y1 and X_Y2 » ;

– La statistique de test T: « t = -7.4122 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple »);

– La p-valeur: « p-value = 7.139e-07 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– Et le type de test effectué: « alternative hypothesis: true mean is not equal to 0 » .

Cas pour échantillons appariés: comparaison des moyennes

Dans un premier temps, on charge notre exemple:

X_t1 = c(3.1101,4.1008,4.7876,7.0677,6.0858,4.9309,
4.0449,3.0101,5.9496,6.8729,1.0898,1.9868,2.9853,10.0080,
8.9052,8.0411,2.0826,1.0536,9.0649,10.0826)

X_t2 = c(0.8970,2.0949,3.0307,4.0135,5.0515,6.0261,
6.9059,7.9838,8.9854,9.9468,11.1682,11.9124,12.9516,
13.9288,14.8826,15.9808,16.9726,18.1530,18.9751,19.8936)

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/t.test.html

La fonction t.test du package stats permet d’appliquer les différentes versions du test T de Student à un ou deux échantillons non appariés ou appariés. Le package se charge automatiquement lors du lancement du logiciel R.

On lance le test T de Student afin de savoir si la moyenne de X au temps t_1 est la même que celle au temps t_2. On procède de la manière suivante:

t.test(X_t1,X_t2,paired=TRUE)

Parmi les éléments à insérer les plus importants il faut relever:

– Les deux échantillons sur lesquels tester l’égalité des moyennes : X_t1, X_t2 ;

– Le fait que les données sont appariées: paired = TRUE ;

– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.

On obtient alors les résultats suivants:add.png

On vérifie:

– Les données utilisées: « data: X_t1 and X_t2 » ;

– La statistique de test T : « t = -3.9906 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– La p-valeur: « p-value = 0.0007828 » , qui est la même que celle obtenue lors  des calculs manuels (cf section « Exemple ») ;

– Et le type de test effectué: « alternative hypothesis: true difference in means is not equal to 0 » .

\bullet Application sous SAS:

Cas à un échantillon: déterminer l’adéquation à une loi fixée

Soit l’exemple suivant:

data E;
input X;
cards;
0.8970
2.0949
3.0307
4.0135
5.0515
6.0261
6.9059
7.9838
8.9854
9.9468
11.1682
11.9124
12.9516
13.9288
14.8826
15.9808
16.9726
18.1530
18.9751
19.8936
;
run;

Procédure SAS : http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_ttest_sect011.htm

On lance le test T de Student afin de savoir si la moyenne de X s’écarte significativement de la référence valant 10.  On procède de la manière suivante:

proc ttest data = E h0 = 10;
var X;
ods exclude Equality Statistics ConfLimits;
run;

Parmi les éléments à insérer les plus importants il faut relever:

– La table contenant nos données: data = E ;

– Le standard auquel comparer la moyenne de notre échantillon: h0 = 10 ;

– L’échantillon sur lequel porte le test: var X ;

– On aurait pu rajouter l’instruction « side » après l’instruction « data » de la première ligne qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel SAS lance le test dans un cadre bilatéral ;

– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.

On obtient alors les résultats suivants:


add1

On vérifie:

– Dans la colonne « Valeur du test t », la statistique de test: « 0.37  » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– Dans la colonne « Pr > |t|  » , la p-valeur : « 0.7159 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple »).

Cas à deux échantillons: comparaison des moyennes

Soit l’exemple suivant:

data E;
input Y $1. X;
cards;
A 0.8970
A 2.0949
A 3.0307
A 4.0135
A 5.0515
A 6.0261
A 6.9059
A 7.9838
A 8.9854
A 9.9468
B 11.1682
B 11.9124
B 12.9516
B 13.9288
B 14.8826
B 15.9808
B 16.9726
B 18.1530
B 18.9751
B 19.8936
;
run;

Procédure SAS : http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_ttest_sect011.htm

On lance le test T de Student afin de savoir si X|_{Y = "A"} et X|_{Y = "B"} ont la même moyenne. On procède de la manière suivante:

proc ttest data = E;
var X;
class Y;
ods exclude Equality Statistics ConfLimits;
run;

Parmi les éléments à insérer les plus importants il faut relever:

– La table contenant nos données: data = E ;

– L’échantillon que l’on veut comparer à la loi fixée: var X ;

– La variable binaire permettant de scinder X en X|_{Y = "A"} et X|_{Y = "B"}: class Y ;

– On aurait pu rajouter l’instruction « side » après l’instruction « data » de la première ligne qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel SAS lance le test dans un cadre bilatéral ;

– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.

On obtient alors les résultats suivants:

add2
La ligne « Pooled » correspond au cas où X|_{Y = "A"} et X|_{Y = "B"} ont même variance tandis que la colonne « Satterthwaite » correspond à celui où les variances sont différentes (le logiciel SAS lance automatiquement la version de Welch). On vérifie:

– Dans la colonne « Valeur du test t » , la statistique de test: « T = -7.41  » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– Dans la colonne « Pr > |t|  » , la p-valeur : « <.0001 » , qui est la même celle obtenue lors des calculs manuels (cf section « Exemple »).

Cas pour échantillons appariés: comparaison des moyennes

Soit l’exemple suivant:

data E;
input X_t1 X_t2;
cards;
3.1101 0.8970
4.1008 2.0949
4.7876 3.0307
7.0677 4.0135
6.0858 5.0515
4.9309 6.0261
4.0449 6.9059
3.0101 7.9838
5.9496 8.9854
6.8729 9.9468
1.0898 11.1682
1.9868 11.9124
2.9853 12.9516
10.0080 13.9288
8.9052 14.8826
8.0411 15.9808
2.0826 16.9726
1.0536 18.1530
9.0649 18.9751
10.0826 19.8936
;
run;

Procédure SAS : http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_ttest_sect011.htm

On lance le test T de Student afin de savoir si la moyenne de X au temps t_1 est la même qu’au temps t_2. On procède de la manière suivante:

proc ttest data = E;
paired X_t1*X_t2;
ods exclude Equality Statistics ConfLimits;
run;

Parmi les éléments à insérer les plus importants il faut relever:

– La table contenant nos données: data = E ;

– L’instruction permettant de spécifier le caractère appariée de nos deux colonnes: paired X_t1*X_t2 ;

– On aurait pu rajouter l’instruction « side » après l’instruction « data » de la première ligne qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel SAS lance le test dans un cadre bilatéral ;

– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.

On obtient alors les résultats suivants:

add3
On vérifie:

– Dans la colonne « Valeur du test t » , la statistique de test: « T = -7.41  » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;

– Dans la colonne « Pr > |t| » , la p-valeur : « <.0001 » , qui est la même celle obtenue lors des calculs manuels (cf section « Exemple »).

\bullet Bibliographie: 

– The probable error of a mean de William Sealy Gosset

– Probabilités, analyse des données et Statistiques de Gilbert Saporta

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Fondements des probabilités de (\omega, F, P) aux conséquences de la LGN et du TCL de Jean-Christophe Breton

– Densite de la loi de Student de Colette Vuillet