Le test binomial

add

\bullet Présentation:

Le test binomial, également appelé test exact binomial, est une approche non paramétrique permettant de tester si la répartition des deux groupes d’une variable binaire X est aléatoire.

A l’instar du test exact de Fisher, le test binomial est connu comme une alternative au test du \chi ^2 de Pearson lorsque la configuration des effectifs ne permet pas son application.

Lorsque X a plus de deux modalités, il faut utiliser le test multinomial.

\bullet Le test:

Hypothèse préliminaire: une variable binaire.

La formule de la statistique de test binomial est,

b = f_{n,p} (n_1)

n_1 est l’effectif du premier groupe de X, p la probabilité à laquelle nous souhaitons comparer nos proportions et f(.) la densité de probabilité de la loi Binomiale de paramètres B(n,p).

Deux cas de figure sont à prendre en compte pour le calcul de la p-valeur associée à b. Si n < 25, alors elle se détermine au travers de l’algorithme de Monte-Carlo suivant,

– Calculer m = n \cdot p, la proportion attendue au sein de l’effectif.

– Si n_1 = m alors p = 1.

– Sinon, nous posons s = \sharp \lbrace i \in I; f_{n,p} (i) \leq b \rbrace et,

— si n_1 < m alors calculer s sur I = [m,n] et la p-valeur p = P_{B(n, p)} (X \leq n_1) + P_{B(n, p)} (X > n - s).

— Si n_1 > m alors calculer s sur I = [0,m] et la p-valeur p = P_{B(n,p)} (X \leq s - 1) + P_{B(n, p)} (X > n_1 - 1).

Si n \leq 25, alors la loi normale centrée-réduite peut-être utilisée comme approximation de la loi Binomiale et la statistique de test à considérer est,

Z = |\frac{b - E[b]}{\sigma_b}|

E[b] = n \cdot p et \sigma_b = \sqrt{n \cdot p \cdot (1 - p)}

L’hypothèse H_0 est: « La proportion du premier groupe est égale à la proportion attendue / \pi_1 = p« .

Ci-dessous la table de la loi normale centrée-réduite.

add

Tendance pour le rejet de H_0:

En fonction de la taille d’échantillon, deux approches sont à considérer.

Pour la plus simple, n \leq 25, alors il est trivial de voir que plus la valeur observée b s’éloigne de l’espérance, sous H_0 se traduit par une distribution aléatoire, plus nous avons de chance de rejeter H_0.

Pour celle un peu plus complexe, n< 25, soit n_1 = m et donc la distribution est aléatoire ce qui implique le rejet de H_0. Soit n_1 \neq m et alors nous rejetons H_0 si,

P_{B(n, p)} (X \leq n_1) + P_{B(n, p)} (X > n - s) \rightarrow 0

P_{B(n,p)} (X \leq s - 1) + P_{B(n, p)} (X > n_1 - 1) \rightarrow 0

Avec s le nombre de cas inférieurs à celui observé: b. La méthode consiste finalement à comparer directement la probabilité d’apparition de l’évènement sur les queues de la distribution selon la loi fixée et donc directement le rejet ou l’acceptation de H_0

\bullet Tendance lorsque n \longrightarrow \infty:

Nous cherchons ici à étudier le comportement du test binomial en fonction de la taille d’échantillon. Soit l’exemple suivant,

add

, qui traduit une répartition proportionnelle et donc l’acceptation de H_0 lorsque nous fixons le paramètre p = \frac{1}{2}.

Nous procédons au test binomial en multipliant au fur et à mesure l’échantillon par 10. Nous obtenons alors,

N \Rightarrow p = 1

10 \times N \Rightarrow p = 0.5139

100 \times N \Rightarrow p = 0.02311

1 000 \times N \Rightarrow p < 0.0001

Nous en concluons que le test binomial est influencé par la taille de l’échantillon puisqu’autour de 100 \times N nous commençons à rejeter H_0 à tort.

\bullet Annexe théorique:

Nous présentons ici la démonstration du calcul de l’espérance et de la variance de la loi Binomiale.

Dans un premier temps, il faut savoir que si X suit une loi Binomiale de paramètres (n,p) alors la variable aléatoire peut être considérée comme la somme de n variables aléatoires X_i indépendantes et suivant une loi de Bernouilli de paramètre p. Cette loi ce caractérise par les éléments suivants,

E[X_i] = p et V(X_i) = p (1 - p)

Dès lors, nous avons,

E[X] = E[\sum_{i = 1} ^n X_i] = \sum_{i = 1} ^n E[X_i] = \sum_{i = 1} ^n p = n \cdot p

Et,

V(X) = V(\sum_{i = 1} ^n X_i) = \sum_{i = 1} ^n V(X_i) = \sum_{i = 1} ^n p \cdot q = n \cdot p \cdot q

\bullet Exemple:

Soit l’échantillon suivant,

add

Nous avons donc n_1 = \sharp \lbrace X = "A" \rbrace = 7 et \sharp \lbrace X = "B" \rbrace = 13. Il semblerait que notre variable X ne soit pas distribuée proportionnellement (fixons p = \frac{1}{2}).

Nous avons donc,

b = f_{20,\frac{1}{2}} (7) = 0.07392883

Et,

m = 20 \times 0.5 = 10

Ensuite, comme n_1 < m, travaillons sur l’intervalle [10,20]. Nous avons alors,

\forall i \in[10,20], f_{20,\frac{1}{2}} (i) = (0.17619705,0.16017914,0.12013435,0.07392883

,0.03696442,0.01478577,0.004620552,0.001087189,0.0001811981,0.00001907349)

D’où,

s = \sharp \lbrace i \in [10;20]; f_{20,\frac{1}{2}} (i) \leq 0.07392883 \rbrace = 8

Enfin, il nous reste à calculer la p-valeur,

p = P_{B(20,\frac{1}{2})} (X \leq 7) + P_{B(20,\frac{1}{2})} (X > 20 - 8)

= P_{B(20,\frac{1}{2})} (X \leq 7) + P_{B(20,\frac{1}{2})} (X > 12)

= 0.131588+ 0.131588

= 0.263176

Nous en concluons que nous ne pouvons rejeter H_0 et donc que nos deux modalités ne sont pas distribuées proportionnellement (selon p = \frac{1}{2}).

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/procstat_freq_sect028.htm

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/binom.test.html

\bullet Bibliographie:

– Statistique. Dictionnaire encyclopédique de Yadolah Dodge

The use of confidence or fiducial limits illustrated in the case of the binomial de C. J. Clopper et E. S. Pearson

Goodness-of-fit statistics for discrete multivariate data de T. R. C. Read et N. A. C. Cressie