L’ Imputation des données manquantes

add

\bullet Introduction:

Rare sont les bases de données parfaites et notamment, parfaitement renseignées. Il est régulièrement fort à parier que la collecte des données se fera toujours avec quelques imprévus amenant toujours sa part d’information incomplète. C’est ce que nous appelons les données manquantes ou non-réponse et parfois notée NA (Non Applicable).

La gestion de la non-réponse varie d’un statisticien à l’autre voir d’un domaine d’utilisation à l’autre. Soit elle est conservée dans le jeu de données soit elle est substituée par une estimation. C’est sur ce point précis que la divergence entre utilisateur apparaît. En effet, il peut être philosophiquement encombrant d’estimer une valeur de substitue à la non-réponse et pouvant porter directement atteinte au caractère aléatoire de la distribution.

Les données manquantes peuvent être répertoriées selon trois catégories:

– Missing completely at random (MCAR) : Une donnée est MCAR, c’est à dire manquante de façon complètement aléatoire si la probabilité d’absence est la même pour toutes les observations. Cette probabilité ne dépend que des paramètres extérieurs et indépendants à cette variable. A noter que le cas des données MCAR reste tout de même peu courant.

– Missing at random (MAR) : Il arrive souvent que la non-réponse soit lié à un facteur précis et donc qu’elle ne soit pas entièrement aléatoire. Une donnée est MAR si la probabilité d’absence est liée à une ou plusieurs autres variables observées. Il existe alors des méthodes statistiques appropriées qui permettrons d’éviter de biaiser l’analyse.

– Missing not at random (MNAR) : Une donnée est MNAR si la probabilité d’absence dépend de la variable en question. Les données MNAR induisent une perte de précision (inhérente à tout cas de données manquantes) mais aussi un biais qui nécessite le recours à une analyse de sensibilité.

Les méthodes d’imputations peuvent se diviser en trois principales familles: vulgairement, les méthodes simples basées sur la suppression de la non-réponse ou sa substitution par la moyenne, la médiane, la modalité la plus fréquente ou la création d’une modalité qui lui est propre. Les méthodes déterministes qui consiste à simuler un modèle et à prédire sa valeur à partir de ce dernier et dont le principal défaut est que deux observations aux caractéristiques explicatives identiques donneront la même valeur de substitution. Les méthodes aléatoires qui visent à simuler une valeur de substitution en partant d’une postulat que la distribution suit une structure bien particulière.

\bullet Les méthodes simples:

a. La suppression de l’observation contenant une non-réponse

La méthode est la plus radicale et régulièrement prisée. Elle se résume à supprimer l’observation si elle contient au moins une non-réponse à l’une des caractéristiques considérées dans l’analyse.

Pour la suite des analyses, deux approches sont à prendre en compte:

– soit nous estimons que les résultats doivent être standardisés pour un même effectif total et alors il convient de supprimer une observation si elle a au moins une donnée manquante dans l’une des caractéristiques retenues,

– soit supprimer les observations en fonction des caractéristiques en cours de gestion, comme par exemple pour un modèle de prédiction où nous ne considérerons que les données manquantes des variables du modèle et pas celles rejetées.

b. Transformer la variable

Il s’agit de reconsidérer l’analyse sous un angle différent. La variable se voit attribuer une nouvelle information en codant la non-réponse et en la prenant en compte dans les analyses. Ce type de manipulation est à utiliser uniquement si le taux de non-réponse est important, sinon quoi nous nous retrouvons en présence d’une modalité dont l’effectif est très faible et qui ne peut être prise en compte dans les analyses.

En fonction du format de la variable l’approche s’adapte:

– pour une variable qualitative, une nouvelle modalité qui constituera à représenter la non-réponse,

– pour une variable quantitative, coder la variable en plusieurs modalités dont une qui représente la non-réponse.

c. Imputation par la moyenne, la médiane et la valeur la plus fréquente

Il s’agit d’approches univariées, se basant uniquement sur la variable considérée sans leur interaction avec les autres variables du jeu de données.

Pour des variables quantitatives, l’approche classique est de la remplacer par la moyenne de la distribution si la taille d’échantillon est particulière importante, par la médiane sinon. Pour les variables qualitatives, il s’agit de l’imputer par la modalité la plus prisée.

De telles approches sont particulièrement gênantes étant donné qu’en fonction du taux de non-réponse elles vont modifier considérablement la distribution de la variable et donc les intervalles de confiance associé.

La manipulation peut être améliorée en procédant à une imputation conditionnelle, c’est à dire en prenant en compte une ou plusieurs informations auxiliaires pour adapter la valeur de substitution.

\bullet Les méthodes déterministes

a. Par outil décisionnel

Dans un premier temps, il faut définir un sous-ensemble de variables pour lequel la non-réponse ne coïncide pas avec celle de la variable à imputer et qui soit lié à cette même variable. De même, il ne faut pas que l’observation à imputer ait une caractéristique retenue pour laquelle elle ne soit pas renseignée.

L’idée est simplement de construire un modèle (régression linéaire, logistique, k-plus proches voisins, arbre de décision, etc) et d’en prédire la valeur de substitution à partir de ces caractéristiques renseignées pour l’information manquante à remplacer.

Cette approche présente l’avantage d’être facile à exécuter mais également s’adapte à n’importe quel format de variables.

b. Algorithme LOESS

La régrESSion LOcale consiste à construire un polynôme de degré faible par méthode des moindres carrés pondérés en fonction de la proximité entre les observations jugées semblables à celle sur laquelle nous voulons procéder à l’imputation. La façon dont est conçu l’algorithme implique que cette méthode est à réserver aux variables continues.

Pour l’imputation d’un observation, possédant n_{NR} donnée(s) manquante(s) parmi ses P caractéristiques, à partir de K (paramètre fixé au préalable) voisins, l’algorithme LOESS est,

– Etape N° 1: Chercher les K plus proches voisins.

– Etape N°2: Construire la matrice \mathbf{A} de taille K \times (P - n_{NR}) et tel qu’en ligne nous retrouvons nos K plus proches voisins décrit, en colonne, au travers des P - n_{NR} caractéristiques pour lesquelles notre observation à imputer est renseignée.

– Etape N°3: Construire la matrice \mathbf{B} de taille K \times n_{NR} et qui correspond en réalité à la contraposé de la matrice \mathbf{B}. Elle contient alors en ligne nos K plus proches voisins décrit, en colonne, au travers des n_{NR} caractéristiques pour lesquelles notre observation à imputer n’est pas renseignée.

– Etape N°4: Construire le vecteur P qui correspond aux P - n_{NR} caractéristiques renseignées de l’observation à imputer.

– Etape N°5: Le vecteur u des données manquantes pour cette observation s’écrit alors,

u = \mathbf{B} ^t \cdot (\mathbf{A} ^t) ^{-1} \cdot P,

, où l’inverse de \mathbf{A} s’obtient par pseudo-inversion (car la matrice est assez logiquement rarement carré dans cette situation).

c. L’Algorithme NIPALS

L’Algorithme NIPALS est l’acronyme de Nonlinear Iterative Partial Least Square, faisant référence à la régression PLS et basé sur l’ACP. Grosso-modo, l’idée de cet algorithme est de quadriller l’observation à imputer par les valeurs les plus probables des autres observations. L’approche reste linéaire, puisque basée sur l’ACP, est reste performante uniquement en présence de multicolinéarité entre les variables considérées. De plus, les variables considérées doivent être continues.

En fixant préalablement le nombre de composantes à calculer H, l’algorithme NIPALS se décrit de la manière suivante,

– Etape N°1: Initialiser \mathbf{X} ^0 = \mathbf{X} que nous centrons-réduisons.

– Etape N°2: \forall h \in [1,H]:

————— Initialiser t(h) = (X ^1) ^{h - 1}.

————— Initialiser p(0) = (\frac{1}{\sqrt{P}}, \cdots, \frac{1}{\sqrt{P}}) de taille 1 \times P.

————— Et jusqu’à convergence de p(h),

—————————– Calculer,

p(h) = (\frac{\sum_{i_{renseigne} \in [1,n]} (X_i ^1) ^{h-1} t_i (h)}{\sum_{i_{renseigne} \in [1,n]} t_i (h) ^2}, \cdots, \frac{\sum_{i_{renseigne} \in [1,n]} (X_i ^P) ^{h-1} t_i (h)}{\sum_{i_{renseigne} \in [1,n]} t_i (h) ^2})

, de taille 1 \times P.

—————————— Normaliser p(h) par la formule,

p (h) ^N = (\frac{p_1 (h)}{\sqrt{\sum_{j = 1} ^P p_j (h) ^2}}, \cdots, \frac{p_P (h)}{\sqrt{\sum_{j = 1} ^P p_j (h) ^2}})

—————————— Calculer,

t(h) = (\frac{\sum_{j_{renseigne} \in [1,P]} (X_1 ^j) ^{h-1} p_j(h) ^N}{\sum_{j_{renseigne} \in [1,P]} (p_j (h) ^N) ^2}, \cdots, \frac{\sum_{j_{renseigne} \in [1,P]} (X_n ^j) ^{h-1} p_j (h) ^N}{\sum_{j_{renseigne} \in [1,P]} (p_j (h) ^N) ^2})

, de taille 1 \times n.

—————————— Contrôle de la convergence de p(h) ^N par la formule,

\sum_{j = 1} ^P [p_j(h) ^N - p_j(0) ^N] ^2

—————————— Si il n’y a pas convergence alors nous relançons l’étape en conservant t(h) pour le recalcul de p(h) et l’écrasons par la nouvelle valeur obtenue en fin d’itération. Pour le contrôle de la convergence, p(0) est écrasé par p(h) ^N pour la nouvelle itération. Sinon, nous passons à la phase suivante.

————— Calcul de la matrice résiduelle, \mathbf{X} ^h = \mathbf{X} ^{h - 1} - t (h) \cdot (p (h) ^N) ^t

– Etape N°3: Le calcul des composantes t(h) et des vecteurs de valeurs propres p(h) ^N, \forall h \in [1,H] étant accompli, nous pouvons alors imputer par la valeur,

\sum_{h = 1} ^H t_i(h) p_j(h) ^N

, l’observation i \in [1,n] de la variable j \in [1,P] en n’oubliant pas de « dé-centrer-réduire » les données pour retrouver les valeurs d’origine de \mathbf{X}.

\bullet Les méthode aléatoires

a. Le hotdeck

L’idée du hotdeck est de définir un ensemble d’observations candidates (appelées « donneurs ») et d’imputer la non-réponse en fonction de celle prise par le premier « donneur » trouvé. Il s’agit de considérer un sous-ensemble de variables auxiliaires suffisamment corrélées à la variable d’intérêt pour laquelle l’imputation doit avoir lieu. Nous sélectionnons alors les individus ayant les même caractéristiques auxiliaires et imputons.

Si les variables auxiliaires sont des variables qualitatives ayant un faible nombre de modalités, il est fort probable que plusieurs candidats soient retenus et que leur valeur pour la variable à imputer diverge. Il faut alors choisir un donneur par la liste retenue, ce choix peut se faire selon critère,

– en fonction du donneur le plus proche selon une autre caractéristique (par exemple, régulièrement dans les enquêtes sociales c’est l’adresse d’habitation et sa proximité avec celle de l’observation à imputer qui sera déterminante),

– par tirage aléatoire au sein des donneurs, ce qui implique que la valeur d’imputation varie d’une simulation à l’autre.

Le hotdeck est très prisé car il a l’avantage de ne pas déformer la dispersion de la variable à imputer. De plus il reste très simple à mettre en œuvre, et peut même être étendu à l’imputation de plusieurs valeurs non-renseignées pour une même observation.

Un autre algorithme d’imputation similaire au hotdeck existe: le colddeck. Ce dernier  consiste à chercher des donneurs depuis un autre fichier de données.

b. Inférence bayésienne

Les méthodes basées sur l’inférence bayésienne se reposent sur la connaissance à priori et à postériori de la loi de distribution de X, P(X | \theta), P(\theta | X) avec \theta un échantillon distribué selon les paramètres de la distribution de X.

Globalement, la méthode consiste à,

– fixer la loi de distribution de X,

– estimer les paramètres de la loi fixée selon X,

– pour un grand nombre d’itérations, tirer un échantillon \theta selon la loi de distribution de X et mettre à jour les paramètres avant de renouveller cette étape,

– l’échantillon ainsi construit et suffisamment grand permet alors de comparer la loi théorique avec la loi observée et de fixer la valeur la plus probable par laquelle imputer afin que le modèle observé soit cohérent avec le modèle théorique.

Plusieurs variantes existent et sont basées sur l’inférence bayésienne: l’imputation par méthode de Monte-Carlo par Chaîne de Markov, l’algorithme Esperance-Maximisation (EM), l’algorithme de Gibbs, la méthode de Data Augmentation ou encore l’algorithme EM via approche bootstrap du programme AMELIAII.

\bullet Exemple:

Soit l’échantillon E ci-dessous,

add

Si nous prenons les variables indépendamment, nous obtenons les statistiques descriptives suivantes pour X ^1, X ^2,

\overline{X ^1} = 10.37671, mediane(X ^1) = 10.5575 et sd_{X ^1} = 5.672913

\sharp \lbrace X ^2 = "A" \rbrace = 9 et \sharp \lbrace X ^2 = "B" \rbrace = 9

1. Suppression de toutes les données manquantes

Procédons par la méthode la plus simple, la suppression des données manquantes relatives à notre jeu de données. Les observations N°3 et 15 ont une donnée manquante pour la variable X ^1 et les observations N°4 et 17 pour la variable X ^2.

Après suppression de ces quatre observations nous obtenons les statistiques descriptives suivantes pour les variables X ^1 et X ^2 et les 16 observations retenues,

\overline{X ^1} = 10.99134, mediane(X ^1) = 11.5403 et sd_{X ^1} = 5.70679

\sharp \lbrace X ^2 = "A" \rbrace = 8 et \sharp \lbrace X ^2 = "B" \rbrace = 8

2. Imputation par la moyenne, médiane, valeur la plus fréquente

Dans un premier temps procédons à une imputation par la moyenne et ensuite la médiane pour X ^1. Nous avons déjà ces valeurs dans la présentation de notre échantillon et pouvons rester sur un échantillon de 20 observations par conséquent.

Les nouvelles statistiques descriptives après imputation par la moyenne,

\overline{X ^1} = 10.37671, mediane(X ^1) = 10.37671 et sd_{X ^1} = 5.366039

, et après imputation par la médiane,

\overline{X ^1} = 10.39479, mediane(X ^1) = 10.39479 et sd_{X ^1} = 5.366327

Pour X^2, nous remarquons que les modalités « A » et « B » ont la même fréquence d’apparition. Aléatoirement nous optons pour une imputation par la modalité « B » et obtenons alors les statistiques descriptives suivantes,

\sharp \lbrace X ^2 = "A" \rbrace = 8 et \sharp \lbrace X ^2 = "B" \rbrace = 10

3. Par algorithme décisionnelle

Pour l’imputation des valeurs manquantes de X ^2 nous allons privilégier la régression logistique de X ^2 sur X ^1. Le modèle construit sur les 16 observations est le suivant,

P(X ^2 = "B") = \frac{e ^{-0.45690 + 0.04156 \times X ^1}}{1 + e ^{-0.45690 + 0.04156 \times X ^1}}

Imputons désormais les observations manquantes N°4 et 17. Nous avons alors,

P(X_4 ^2 = "B") = \frac{e ^{-0.45690 + 0.04156 \times X_4 ^1}}{1 + e ^{-0.45690 + 0.04156 \times X_4 ^1}}

= \frac{e ^{-0.45690 + 0.04156 \times 4.0135}}{1 + e ^{-0.45690 + 0.04156 \times 4.0135 ^1}}

= \frac{0.7481895}{1.748195}

= 0.4279783 < 0.5

\Rightarrow X_4 ^2 = "A"

P(X_{17} ^2 = "B") = \frac{e ^{-0.45690 + 0.04156 \times X_{17} ^1}}{1 + e ^{-0.45690 + 0.04156 \times X_{17} ^1}}

= \frac{e ^{-0.45690 + 0.04156 \times 6.9059}}{1 + e ^{-0.45690 + 0.04156 \times 6.9059}}

= \frac{0.843757}{1.843757}

= 0.4576292 < 0.5

\Rightarrow X_{17} ^2 = "A"

Nous obtenons alors les nouvelles statistiques descriptives pour la variable X ^2 et sur nos 18 observations,

\sharp \lbrace X ^2 = "A" \rbrace = 10 et \sharp \lbrace X ^2 = "B" \rbrace = 8

Pour l’imputation des valeurs manquantes de X ^1 nous allons privilégier la régression linéaire pour variable explicative qualitative de X ^2 sur X ^1. Le modèle construit sur les 16 observations est le suivant,

Y = 10.363 + 1.257 \times 1_{X ^2 = B}

Imputons désormais les observations manquantes N°3 et 15. Nous avons alors,

X_3 ^1 = 10.363 + 1.257 \times 1_{X ^2 = B} = 10.363 + 1.257 \times 1 = 11.62

X_{15} ^1 = 10.363 + 1.257 \times 1_{X ^2 = B} = 10.363 + 1.257 \times 0 = 10.363

Nous obtenons alors les nouvelles statistiques descriptives pour la variable X ^1 et sur nos 18 observations,

\overline{X ^1} = 10.43819, mediane(X ^1) = 10.7656 et sd_{X ^1} = 5.373245

4. Algorithme LOESS

Nous allons maintenant imputer les données manquantes pour les observations 3 et 15 pour la variable X ^1 en nous aidant de la variable X ^3. Fixons K = 2 voisins sur lesquels nous appuyer.

Les deux voisins les plus proches de l’observation 3 sont les observations 14 et 5. Nous avons alors,

A = (1.935572, 2.115756)

, qui correspond aux valeurs de la variable X ^3 pour les observations 5, 14 et seule variable continue pour laquelle l’observation à imputer est renseignée.

Et,

B = (5.0515, 13.9288)

, qui correspond aux valeurs de la variable X ^1 pour les observations 5, 14 et seule variable pour laquelle l’observation à imputer est non renseignée.

Il nous reste plus qu’à déterminer le dernier terme, et qui correspond à la valeur de l’observation à imputer pour X ^3, car seule variable continue pour laquelle elle est renseignée,

P = 0.2839578

Maintenant que nous avons nos trois éléments, il ne reste plus qu’à calculer la valeur d’imputation au travers de la formule,

u = (5.0515,13.9288) \times (\begin{pmatrix} 1.935572 \\ 2.115756 \\ \end{pmatrix}) ^{-1} \times 0.2839578

= (5.0515,13.9288) \times (\begin{pmatrix} 0.2353891 \\ 0.2573017 \\ \end{pmatrix}) \times 0.2839578

= 4.772972 \times 0.2839578

= 1.355323

Et donc,

X_3 ^1 = u = 1.355323

En procédant à un calcul similaire pour X_{15} ^2 et dont les deux plus proches voisins sont les observations 5, 14 (oui ce sont les mêmes, simple coïncidence), nous obtenons,

X_{15} ^1 = 0.7991907

Les nouvelles statistiques descriptives sur nos 20 observations sont alors \overline{X ^1} = 9.448591, mediane(X ^1) = 9.4661 et sd_{X ^1} = 6.081304.

5. L’algorithme NIPALS

Nous allons imputer les valeurs manquantes de X ^1 à l’aide de l’algorithme NIPALS. Nous travaillons donc sur le couple \mathbf{X} = (X ^1, X ^3) centré-réduit de variables continues et fixons le nombre de composantes à calculer à deux.

Commençons l’algorithme avec l’étape h = 1. Nous initialisons les différents éléments,

\mathbf{X} ^0 = \mathbf{X}, t(1) = (X ^1) ^0, p(0) = (\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}}) = (0.7071068,0.7071068)

Nous avons alors,

p(1) = (\frac{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} (X_i ^1) ^0 \times t_i (1)}{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} t_i (1) \times t_i (1)}, \frac{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} (X_i ^2) ^0 \times t_i (1)}{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} t_i (1) \times t_i (1)})

= (\frac{18.83657}{18.83657},\frac{-2.031762}{18.83657})

= (1,-0.1078627)

, que nous normalisons et obtenons ainsi,

p(1) ^N = (0.9942331,-0.1072406)

Ainsi que,

t(1) = (\frac{\sum_{i \in [1,20]} (X_i) ^0 \times p_i (1) ^N}{\sum_{i \in [1,2]} p_i (1) ^N \times p_i (1) ^N}, \cdots, \frac{\sum_{i \in [1,20]} (X_i ^2) ^0 \times p_i (1) ^N}{\sum_{i \in [1,2]} p_i (1) ^N \times p_i (1) ^N})

= (\frac{-1.852308}{1}, \cdots, \frac{1.645699}{1})

= (-1.852308, \cdots, 1.645699)

Nous vérifions si le vecteur p(1) ^N a déjà convergé,

\sum_{j \in [1,2]} [p_j(1) ^N - p_j(0)] ^2 = 0.2871263 ^2 + (-0.8143474) ^2 = 0.7456032 \neq 0

Nous relançons une seconde étape de calcul pour la même itération h = 1 avec p(0) = p(1)_N. Nous obtenons alors,

p(1) ^N = (0.9766683, -0.2147535)

, et,

t(1) = (-1.90459232, \cdots, 1.65469395)

Nous vérifions à nouveau la convergence,

\sum_{j \in [1,2]} [p_j(1) ^N) - p_j(0)] ^2 = (-0.01756481) ^2 + (-0.10751285) ^2 = 0.0118675 \neq 0

Nous n’avons toujours pas convergé, nous devons donc relancer à nouveau une nouvelle itération de calcul pour l’étape h = 1 avec p(0) = p(1) ^N et t(0) = t(1). Au bout de 42 itérations le vecteur p(1) ^N converge enfin et nous avons alors,

p(1) ^N = (0.5115357, -0.8592620)

, et,

t(1) = (-1.57778207, \cdots, 1.12650181)

Nous pouvons désormais boucler l’étape h = 1 par le calcul de la nouvelle matrice résiduelle,

\mathbf{X} ^1 = \mathbf{X} ^0 - t(1) \times p(1) ^N

= \begin{pmatrix} -1.77924460 & 0.77698647 \\ -1.55313432 & -1.19148868 \\ NA & 0.02313673 \\ -1.19098791 & -0.46961838 \\ \cdots & \cdots \\ -0.64503133 & 0.75615571 \\ 1.47792131 & -1.0698482 \\ 1.63309726 & -1.48294518 \\ 1.61771368 & -0.34795388 \end{pmatrix} - \begin{pmatrix} -0.80709182 & 1.35572824 \\ 0.11730402 & -0.1704372 \\ -0.01377375 & 0.02313673 \\ -0.10522675 & 0.7675669 \\ \cdots & \cdots \\ -0.50114763 & 0.84181252 \\ 0.85696750 & -1.43950790 \\ 1.07914897 & -1.81272155 \\ 0.57624587 & -0.96796025 \end{pmatrix}

= \begin{pmatrix} -0.9721579 & 0.5787418 \\ -1.67043834 & -0.9944450 \\ NA & -0.000000000000000003469447 \\ -1.08576115 & -0.6463751 \\ \cdots & \cdots \\ -0.14388370 & -0.08565681 \\ 0.62095381 & -0.3696661 \\ 0.55394829 & 0.3297764 \\ 1.04146781 & -0.6200064 \end{pmatrix}

Procédons maintenant à la second étape h = 2. En reprenant les éléments calculées pendant la première étape avec cette fois-ci t(2) = (X ^1) ^1. Nous avons,

p(2) = (\frac{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} (X_i ^1) ^1 \times t_i (1)}{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} t_i (1) \times t_i (1)}, \frac{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} (X_i ^2) ^1 \times t_i (1)}{\sum_{i \in [1,20] - \lbrace 3, 15 \rbrace} t_i (1) \times t_i (1)}) = (1,0.5953198)

, que nous normalisons et obtenons ainsi,

p(2) ^N = (0.8592620,0.5115357)

Ainsi que,

t(2) = (\frac{\sum_{i \in [1,20]} (X_i) ^1 \times p_i (2) ^N}{\sum_{i \in [1,2]} p_i (2) ^N \times p_i (2) ^N}, \cdots, \frac{\sum_{i \in [1,20]} (X_i ^2) ^0 \times p_i (2) ^N}{\sum_{i \in [1,2]} p_i (2) ^N \times p_i (2) ^N}) = (-1.131381, \cdots, 1.212049)

Nous vérifions la convergence de p(2) ^N,

\sum_{j \in [1,2]} [p_j (2) ^N - p_j(0)] ^2 = 0.1521553 ^2 + (-0.1955711) ^2 = 0.06139928 \neq 0

Nous devons relancer une nouvelle itération de calcul afin d’obtenir la convergence recherchée, nous fixons alors p(0) = p(2)_N et obtenons,

p(2) ^N = (0.8592620,0.5115357)

Et,

t(2) = (-1.131381, \cdots, 1.212049)

Nous vérifions la convergence de p(2)_N pour cette seconde itération,

\sum_{j \in [1,2]} (p_j (2) ^N - p_j(0)) ^2 = 0^2 + 0 ^2 = 0

, qui a donc enfin convergé.

Nous avons donc nos deux composantes p(1) ^N, p(2) ^N et nos deux vecteurs de valeurs propres t(1), t(2). Il nous reste plus qu’à estimer les valeurs à imputer pour les observations 3, 15 de X ^1,

(X_3 ^1)' = \sum_{h = 1} ^2 t_3 (h) \times p_1 (h) ^N

= -0.02692628 \times 0.5115357 + (-0.000000000000000006782414) \times 0.8592620

= -0.1377375

\Rightarrow X_3 ^1 = (X_3 ^1)' \times 5.2975872 + 10.3231839 = 9.593507 une fois « dé-centré-réduit ».

X_{15} ^1 = \sum_{h = 1} ^2 t_{15} (h) \times p_1 (h) ^N

= 0.12300570 \times 0.5115357 + 0 \times 0.8592620

= 0.06292181

\Rightarrow X_{15} ^1 = (X_{15} ^1)' \times 5.2975872 + 10.3231839 = 10.65652 une fois « dé-centré-réduit ».

Nous obtenons alors les nouvelles statistiques descriptives suivantes pour X ^1 et pour ses 20 observations: \overline{X ^1} = 10.30337, mediane(X ^1) = 10.30166, sd(X ^1) = 5.278193.

6. Le hotdeck

Maintenant procédons à une imputation par hotdeck. Commençons par la variable X ^2 en cherchant un donneur à partir de Y en ordonnant l’échantillon en fonction de X ^1.

– Pour l’observation N° 4, le donneur le plus proche et de même valeur pour Y est l’observation N° 2 de valeur X_2 ^1 = "B". Par conséquent X_4 ^2 = "B".

– Pour l’observation N° 17, qui passe alors en 6ème position, le donneur le plus proche et de même valeur pour Y est l’observation N°5 de valeur X_5 ^2 = "A". Par conséquent X_{17} ^2 = "A".

Nous obtenons alors les nouvelles statistiques descriptives pour la variable X ^2 et sur nos 20 observations,

\sharp \lbrace X ^2 = "A" \rbrace = 9 et \sharp \lbrace X ^2 = "B" \rbrace = 9

Procédons à la même manipulation pour la variable X ^1 mais en conservant l’ordre initial.

– Pour l’observation N° 3, le donneur le plus proche et de même valeur pour Y est l’observation N°2 de valeur X_2 ^1 = 2.0949. Par conséquent X_3 ^1 = 2.0949

Pour l’observation N° 15, le donneur le plus proche et de même valeur pour Y est l’observation N°14 de valeur X_{14} ^1 = 13.9288. Par conséquent X_{15} ^1 = 13.9288

Nous obtenons alors les nouvelles statistiques descriptives pour la variable X ^1 et sur nos 20 observations,

\overline{X ^1} = 10.14022, mediane(X ^1) = 10.5575 et sd_{X ^1} = 5.745388

\bullet Application informatique:

Procédure SAS:

– (pour les méthodes d’imputation) https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mi_sect004.htm

– (pour la combinaison des résultats) http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mianalyze_sect004.htm

Fonction R: http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-scenar-app-idm.pdf

\bullet Bibliographie

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry

– Les techniques de sondage de Pierre Ardilly

– Probabilité, analyse des données et statistique de Gilbert Saporta

– Le document: http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-app-idm.pdf

– Les données manquantes en bio-statistique de N. Meyer

– Données manquantes ou censurées : principes de base de Bernard Delyon

– Processus stochastique et applications de Nicolas Bouleau

– Données manquantes et prévisions: méthodes à imputation variable de Antonio Anselmi, Paola M. Chiodini et Flavio Verrecchia

– Analyse statistique des données longitudinales de Jean-Jacques Droesbeke et Gilbert Saporta

– The Calculation of Posterior Distributions by Data Augmentation de Martin A. Tanner et Wing Hung Wong