Les méthodes de rééchantillonnage

add

\bullet Introduction:

Le rééchantillonnage est une méthode empirique utilisée lorsque la distribution d’une variable aléatoire X ou d’un paramètre \theta n’est pas connue et que nous souhaitons malgré tout fournir des indicateurs statistique sur eux.

Le principe du rééchantillonnage est de tirer des sous-échantillons, selon certaines propriétés, dans l’échantillon observé et d’étudier la nouvelle variable aléatoire conçue soit directement depuis les sous-échantillons soit au travers d’une modèle ou des indicateurs statistiques que nous puissions en tirer. Cet outil permet alors de considérer des intervalles de variations pour X ou \theta et ainsi estimer la moyenne et l’écart-type dans le but de construire l’intervalle de confiance associé. Par exemple, si nous cherchons à définir l’intervalle de confiance des estimateurs qui sont produits lors d’une analyse discriminante de Fisher, nous allons construire un nombre B de sous-échantillons issues de X, appliquer notre modélisation et en déduire un vecteur de paramètres par sous-échantillon \theta = (\theta_1, \cdots, \theta_B) à partir duquel nous pourrons tirer plusieurs indicateurs de qualité pour le modèle construit.

Le rééchantillonnage reste un outil, aussi bien adapté aux variables quantitatives que qualitatives, assez intuitif en fin de compte et qui va permettre de tirer les valeurs rares de X avec une probabilité faible et les valeurs intermédiaires avec une probabilité plus importante, permettant ainsi de construire un sous-échantillon représentatif et plus harmonieux. D’une certaine manière nous pouvons voir le rééchantillonnage comme une sorte de sondage aléatoire au sein de X et prenant en compte les probabilités de distribution de ses valeurs.

La méthode la plus célèbre reste celle du bootstrap ne serait-ce que pour sa logique, sa simplicité de mise en oeuvre et le fait qu’elle couvre tous les domaines d’application. Nous pouvons citer également le Jack-knife plutôt utile lorsque les estimateurs sont suspectés d’un biais. Et enfin, la validation croisée qui se place dans une approche de type apprentissage-test.

\bullet Le bootstrap:

Le bootstrap a été inventé par Bradley Elfron en 1979. Il consiste à construire B sous-échantillons de taille n' selon un tirage aléatoire avec remise dans l’échantillon \mathbf{E} = [Y \mathbf{X}] (Y variable réponse et \mathbf{X} variables explicatives).

Les deux paramètres B et n' sont fixés par le statisticien et il n’existe pas réellement de recette pour les déterminer. En général, l’usage dépend grandement de n. Pour le paramètre n', l’idée étant de constituer des sous-échantillons suffisamment grands pour que la loi des grands nombres puisse s’appliquer et donc garantir une distribution selon une loi normale de chacun des sous-échantillons. Pour le paramètre B, il s’agit de construire suffisamment de sous-échantillons pour que les indicateurs calculés aient une variance qui soit interprétable. Dans le cas d’un estimateur \theta, la loi des grands nombres s’applique également grâce au paramètre B, ce qui offre des atouts plus qu’intéressant pour l’étude de l’intervalle de confiance par exemple.

Nous pouvons résumer le bootstrap au travers de l’algorithme suivant pour l’échantillon \mathbf{E}:

– Fixer B et n'

\forall b \in [1,B],

—— Construire le b-ème sous-échantillon depuis \mathbf{E}, et noté \mathbf{E}_b, en tirant n' observations avec remise

—— Calculer l’estimateur \theta_b depuis \mathbf{E}_b

– Etudier le vecteur \theta = (\theta_1, \cdots, \theta_B)

A noter que le sous-échantillonnage est une variante du bootstrap où nous tirons cette fois-ci avec remise un unique sous-échantillon de taille plus petite.

Plusieurs outils, pour l’élaboration de modèle prédictif, incorpore directement le bootstrap dans leur approche:

  • le bagging,
  • les forêts aléatoires,
  • le Boosting.

\bullet Le Jack-knife:

Le Jack-knife a été inventé par Maurice Quenouille en 1950 et étendu par John Wilder Tuckey en 1958. La méthode est réputée pour être moins performante que le bootstrap, cependant elle est souvent utilisée dans un cadre plus précis que cette dernière.

La technique du Jack-knife se base sur l’ensemble des sous-échantillons tirés de \mathbf{E} = \mathbf{[Y X]} (Y variable réponse et \mathbf{X} variables explicatives) privés tour à tour de l’observation i \in [1,n] et noté \mathbf{E}_{-i}. A partir de là, l’idée est de calculer les différents estimateurs d’intérêt \theta_i selon des formules adaptées.

La technique du Jack-knife peut être résumée selon l’algorithme suivant:

– Définir et calculer l’estimateur \theta d’intérêt sur l’échantillon \mathbf{E}

\forall i \in [1, n], calculer la pseudo-valeur:

\theta_i * = n \cdot \theta - (n - 1) \cdot \theta_{-i}

, avec \theta_{-i} l’estimateur d’intérêt calculé sur \mathbf{E}_{-i}

– Calculer l’estimateur Jack-knife via la formule:

\theta_J = \frac{1}{n} \sum_{i = 1} ^n \theta_i *

– Calculer la variance de l’estimateur Jack-knife via la formule:

S_J ^2 = \frac{1}{n} \sum_{i = 1} ^n \frac{(\theta_i * - \theta_J) ^2}{n - 1}

La technique du Jack-knife est souvent prisée lorsque nous disposons de statistiques biaisées et de biais complexe. Elle est notamment réputée pour arriver à le diminuer de \frac{1}{n}.

Démonstration:

Posons E[\theta] = \theta + c et E[\theta_i] = \theta + \frac{n}{n-1} \cdot c, deux estimateurs de \theta et de biais c. Le second cas est dépendant de n auquel nous retranchons 1, ce qui se justifie par la définition de la technique de  Jack-knife.

Nous avons alors,

E[\theta_J] = E[\frac{1}{n} \sum_{i = 1} ^n \theta_i *]

= E[\frac{1}{n} \cdot n \cdot \theta - (n - 1) \cdot \frac{1}{n} \sum_{i = 1} ^n (\theta_i - \theta)]

= E[\theta] - \frac{n - 1}{n} \sum_{i = 1} ^n (E[\theta_i] - E[\theta])

= \theta + c - \frac{n - 1}{n} \sum_{i = 1} ^n (\theta + \frac{n}{n - 1} \cdot c - \theta - c)

= \theta + c - \frac{n - 1}{n} \cdot n \cdot c \cdot (\frac{n}{n - 1} - 1)

= \theta + c - c \cdot (n - 1) \cdot \frac{1}{n - 1}

= \theta + c - c

= \theta = E[\theta_J]

\bullet La validation-croisée:

La validation croisée est une méthode très utilisée dans la branche data mining de l’analyse de données. Elle est notamment très prisée pour les méthodes de classification ayant tendance au sur-apprentissage et qui base toute leur robustesse sur le processus de construction d’une règle (ou  d’un modèle) sur un échantillon d’apprentissage et sa validation sur un échantillon test. Il existe trois célèbres méthodes de validation croisée:

– La plus basique: découper l’échantillon en deux , l’un pour l’apprentissage et l’autre pour le test. Le principal désavantage d’une telle approche étant lorsque nous somme en présence d’un échantillon de faible taille. Ainsi, le découpage en deux selon un tirage aléatoire n’assure pas la reproductibilité du modèle.

– La plus célèbre: qui consiste à découper l’échantillon en K segments selon un tirage aléatoire. L’un des K sous-échantillons est retenu comme candidat pour échantillon de test/validation et les K - 1 restant comme échantillon d’apprentissage. C’est alors l’erreur quadratique moyenne qui sert d’indicateur de performance. Nous répétons l’opération sur les différents sous-échantillons à tour de rôle et nous calculons la moyenne des erreurs quadratiques moyennes en guise d’indicateur de performance.

– Le cas particulier: des deux variantes ci-dessus (plus précisément de la seconde en réalité), est le leave-one-out qui consiste à découper l’échantillon en autant de sous-échantillons d’une observation seule qu’il est possible (un peu comme le Jack-knife). Nous utilisons alors les n-1 observations restantes pour estimer la règle (ou le modèle) puis nous l’appliquons sur l’observation restante. Le processus est appliqué sur l’ensemble des n observations et sied assez bien au cas où n est assez faible (en effet, si n est trop grande, une telle approche est particulièrement consommateuse en temps de calcul).

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_surveyselect_sect001.htm

Fonction R:

– pour le bootstrap: https://stat.ethz.ch/R-manual/R-devel/library/boot/html/boot.html

– pour le Jack-knife: http://www.inside-r.org/packages/cran/bootstrap/docs/jackknife

\bullet Bibliographie:

– Probabilité, analyse des données et statistique de Gilbert Saporta

– Statistique. Dictionnaire encyclopédique de Yadolah Dodge

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry

– Les techniques de sondages de Pierre Ardilly

– Bootstrap et rééchantillonnage – Partie 1 & 2 de Magalie Fromont et Myriam Vimond