La régression linéaire

add.png

\bullet Présentation:

La régression linéaire permet de modéliser une variable réponse Y continue à partir d’une matrice de P variables explicatives \mathbf{X} = (X ^1, \cdots, X ^P) continues. Une extension de la régression linéaire permet de traiter le cas où \mathbf{X} est exclusivement formée de variables qualitatives, nous parlons alors de régression linéaire sur variables modales.

Difficile de retrouver le véritable inventeur de la régression linéaire, de plus il est compliqué de distinguer celui qui en a trouver la forme théorique générale de celui qui a inventé l’une des trois méthodes d’estimation des paramètres utilisées. Pour faire un rapide historique, la littérature semble s’accorder sur le fait que c’est à Roger Joseph Boscovich qui en est le précurseur en 1757. Ses travaux seront repris par Pierre Simon de Laplace en 1789, Carl Friedrich Gauss en 1795 et Adrien Marie Legendre qui en publiera la méthode des moindres carrés en 1805.

La régression linéaire se base sur une modélisation de type linéaire et demeure la méthode de prédiction la plus utilisée étant donné sa simplicité de mise en œuvre. Cinq conditions sont à tester au préalable pour garantir une utilisation optimale de la régression linéaire:

– l’absence de multi-colinéarité au sein de \mathbf{X},

– l’indépendance des résidus \epsilon_i, \forall i \in [1,n], entre eux,

– l’exogénéité des variables explicatives X ^p, \forall p \in [1,P] soit l’indépendance entre elles et les résidus \epsilon_i, \forall i \in [1,n],

– l’homoscédasticité des résidus \epsilon soit que leur variance est constante,

– la normalité des résidus \epsilon,

A l’exception de la première hypothèse, et dans son cas extrême, l’utilisation de la régression linéaire est possible, sauf que plus nous nous éloignons des cinq hypothèses et plus nous risquons d’obtenir des estimateurs biaisés et donc peu efficaces.

Enfin, trois principales extensions à la régression linéaire existent: la régression RIDGE, la régression LASSO et la régression ELASTIC NET visant à améliorer l’estimation des paramètres en fonction des spécificités de \mathbf{X}. Ces outils portent également le nom commun de régression pénalisée (étant donné que l’idée est de se soustraire à la grande variance des estimateurs en positionnant un paramètre de pénalisation visant à réduire cette variabilité).

\bullet La régression linéaire:

Hypothèses préliminaires: Variable réponse Y continue. Variables explicatives \mathbf{X} continues. Pas de multicolinéarité et exogénéité de \mathbf{X}; et indépendance, homoscédasticité et normalité des résidus.

Le modèle:

Le modèle associé à la régression linéaire s’exprime au travers de la formule suivante,

Y = \beta_0 + \beta_1 X ^1 + \cdots + \beta ^P X ^P + \epsilon

L’Idée est donc de reconstruire Y à partir des X ^p, p \in [1, P] par une formule ou lien linéaire.

L’estimation des coefficients:

Il existe trois principales méthodes d’estimations des coefficients: les moindres carrés partiels, le maximum de vraisemblance et l’inférence bayésienne. La plus populaire de toute demeure celle des moindres carrés qui permet de fournir des estimateurs \beta non biaisés.

L’estimation des coefficients de régression \beta = (\beta_0, \beta_1, \cdots, \beta_P) se fait alors au travers du calcul,

\beta = (\mathbf{X}_1 ^t \mathbf{X}_1) ^{-1} \mathbf{X}_1 ^t Y

, où \mathbf{X}_1 = (1, \mathbf{X}) la matrice des variables explicatives à laquelle nous rajouter en première colonne le vecteur unitaire dans le but de pouvoir estimer le coefficient constant \beta_0.

Les indicateurs de performance de la régression linéaire:

En notant,

\epsilon = (\epsilon_1, \cdots, \epsilon_n) = (Y_1 - \beta_0 - \sum_{p = 1} ^P \beta_p X_1 ^p, \cdots, Y_n - \beta_0 - \sum_{p = 1} ^P \beta_p X_n ^p)

, autrement dit la différence entre valeurs réelles de Y et valeurs prédites \hat{Y} par le modèle construit via régression linéaire, nous pouvons désigner trois principaux indicateurs régulièrement retrouvés dans la littérature: la vraisemblance, le R ^2 et le R ^2 ajusté noté [atex]R_{adj} ^2[/latex].

  • La vraisemblance,

L = L(\beta_0, \cdots, \beta_P, Y_1, \cdots, Y_n) = \frac{1}{\sqrt{2 \pi \sigma ^2}} e^{-\frac{1}{2 \sigma ^2} \sum_{i = 1} ^n \epsilon_i ^2}

, plus la vraisemblance est forte, meilleur est le modèle.

Le R ^2 (ou coefficient de détermination) offre un indicateur statistique de la modélisation du modèle et notamment de sa capacité à coller aux données réelles utilisées pour le construire. Le R ^2 varie entre [0,1] et plus il s’approche de sa borne supérieure, meilleur est le modèle. Il existe toute une flopée d’indicateurs de type R ^2, en voici les principaux.

  • Le R ^2, de formule,

R ^2 = 1 - \frac{\sum_{i = 1} ^n \epsilon_i ^2}{SST}

  • Le R_{adj} ^2de formule,

R_{adj} ^2 = 1 - \frac{(n - \sharp \lbrace \beta_0 \rbrace) (1 - R ^2)}{n - P - 1}

Avec, pour les deux derniers indicateurs présentés,

SST = \sum_{i = 1} ^n \epsilon_i ^2 + \sum_{i = 1} ^n (\hat{Y}_i - \overline{Y}) ^2

, si le modèle contient une constante (\sharp \lbrace \beta_0 \rbrace = 1). Si le modèle n’en contient pas de constante (\sharp \lbrace \beta_0 \rbrace = 0), alors,

SST = \sum_{i = 1} ^n \epsilon_i ^2 + \sum_{i = 1} ^n \hat{Y}_i ^2

D’autres versions du R ^2 existent comme celui de Nagelkerke, d’Efron, de Cox-Snell, McKelvey-Zavoina, de McFadden et sa version ajustée ou les versions empiriques « count » et « adjusted count ». Cependant ils restent rarement utilisés.

La sélection de variables:

Nous dénombrons trois principaux indicateurs permettant de sélectionner les variables les plus intéressantes dans l’objectif d’optimiser un modèle construit par régression linéaire. Il s’agit du Critère d’Information d’Akaike, noté AIC, le Critère d’Information Bayésien, noté BIC, et le critère Combinatoire des P variables de Mallows, noté C_p de Mallows.

L’utilisation de ces trois critères se fait lors des célèbres algorithmes sélectifs ascendante (FORWARD), descendante (BACKWARD) et mixte (STEPWISE) qui consiste à,

– FORWARD: Partir, pour l’étape initiale, du modèle constant et, en mesurant l’apport des différentes variables rajoutées l’une après l’autre, retenir celle qui apporte le plus d’information et l’intégrer au modèle. Les étapes suivantes procèdent de même façon sauf qu’elle compare le modèle à l’itération it et l’apport potentiel des variables non intégrées à celui-ci. L’Algorithme s’arrête si plus aucune variable n’apporte significativement pas à la qualité du modèle en cours.

– BACKWARD: Partir, pour l’étape initiale, du modèle complet (soit avec les P variables) et, en retirant une à une les P-1 variables, retenir celle qui enlèvle le moins d’information et la retirer du modèle. Les étapes suivantes procèdent de même façon sauf qu’elle compare le modèle à l’itération it et le nerf des variables restantes à celui-ci. L’Algorithme s’arrête si toutes les variables restantes diminuent significativement la qualité du modèle en cours.

– STEPWISE: il s’agit d’un mixte entre l’algorithme FOWARD et l’algorithme BACKWARD qui part du modèle constant, applique une étape FORWARD et enchaîne sur une étape BACKWARD avant de valider le modèle et poursuivre ses itérations. Ainsi, si la variable testée apporte de manière significative au modèle et si le fait de la retirer diminue trop son pouvoir prédictif, alors elle est conservée.

Présentons maintenant les trois critères avec \sigma ^2 = var(\epsilon) est la variance de l’erreur de prédiction,

– Le critère AIC, inventé par Hirotugu Akaike en 1974 et de formule,

AIC = n ln(\frac{\sum_{i = 1} ^n \epsilon_i ^2}{n}) + 2 (P + 1)

, plus la valeur d’AIC est faible et plus le modèle est de bonne qualité.

– Le critère BIC, inventé par Gideon Schwarz en 1978 et de formule,

BIC = n ln(\frac{\sum_{i = 1} ^n \epsilon_i ^2}{n}) + 2 (P + 3) \frac{n \sigma ^2}{SSE} - 2 (\frac{n \sigma ^2}{SSE}) ^2

, plus la valeur du BIC est faible et plus le modèle est de bonne qualité.

– Le C_p de Mallows, inventé Collin Lingwood Mallow et de formule,

C_p = \frac{\sum_{i = 1} ^n \epsilon_i ^2}{\sigma ^2} - n + 2 P

, plus la valeur du C_p de Mallows est faible et plus le modèle est de bonne qualité.

La régression RIDGE:

La régression RIDGE, ou L_2-pénalisation, a été inventée par A. E. Horel en 1962 et consiste à améliorer l’estimation des coefficients \beta lorsque nous sommes en présence de forte multi-colinéarité pouvant apporter un biais substantielle.

L’idée de la régression RIDGE est de minimiser l’erreur quadratique moyenne des estimateurs  au travers de la recherche d’un compromis biais/variance. La méthode permet alors de calculer et d’utiliser des estimateurs biaisés mais de variance plus faible que ceux estimés par méthode des moindres carrés.

L’estimation des coefficients de régression associés au modèle RIDGE se fait alors par la formule,

\beta_R = (\mathbf{X_1} ^t \mathbf{X_1} + \lambda I) ^{-1} \mathbf{X_1} ^t Y

, avec I matrice identité de taille P \times P et lambda paramètre de L_2-pénalisation.

add.png

L’estimation du paramètre de pénalisation \lambda se fait au travers de la formule,

\lambda = \frac{P \sigma ^2}{\beta^t \beta}

La procédure, inspirée par A. E. Hoerl et R. W Kennard en 1970, pour déterminer les paramètres \sigma, \gamma est,

– Lancer l’estimation du modèle en posant \lambda = 0 afin d’obtenir une première estimation du vecteur \beta_R = \beta puisque cela revient à procéder à une régression linéaire standart.

– Calculer l’écart-type des résidus \epsilon_i, i \in [1,n], soit la différence entre Y et les prédictions \hat{Y} via le modèle construit pour \lambda = 0.

Une fois ces deux paramètres estimés, nous pouvons calculer \lambda et en relançant le modèle nous obtenons les coefficients de régression RIDGE finaux \beta_R.

Une autre méthode d’estimation du paramètre \lambda existe, elle consiste à définir un intervalle de variation et à traçer les valeurs des différents coefficients. La valeur minimale pour laquelle les coefficients convergent est la valeur \lambda à retenir.

La régression RIDGE présente l’avantage d’accroître le pouvoir explicatif du modèle en présence de fortes multicolinéarité en attribuant aux variables très informatives et fortement corrélées le même coefficient. Mais aussi le désavantage de ne pas permettre de distinguer les variables les plus contributives des variables les moins contributives à la qualité prédictive du modèle.

A noter qu’en fonction de la littérature, \mathbf{X} et/ou Y doivent être standardisées ou non, dans notre cas nous avons pris le partie de la version non standardisée, mais dans le cas contraire l’approche ne change pas.

La régression LASSO:

La régression LASSO (Least Absolute Shrinkage and Selection Operator), ou L_1-pénalisation, a été élaborée en 1995 par Robert Tibshirani. Elle est particulièrement adaptée au problème de type n <<<< P et notamment à la recherche d’un sous-ensemble de variables explicatives depuis le modèle complet.

La résolution du modèle LASSO est plus compliquée que celle du modèle classique et du modèle RIDGE puisqu’il est impossible d’obtenir les dérivés, solution du problème, étant donné qu’il s’agit d’un L_1-problème et donc non dérivable. Le problème peut être synthétisé de la manière suivante, estimer les paramètres \beta_L du modèle tel que,

\beta_L = argmin_{\beta \in R ^{P+1}} \lbrace ||Y - X \beta|| ^2 + \lambda \sum_{p = 1} ^P |\beta_p| \rbrace

, avec \lambda paramètre de L_1-pénalisation à déterminer.

add.png

Ce problème n’est résoluble que par un algorithme itératif. Plusieurs algorithmes de résolution du problème LASSO existent, le plus célèbre est l’algorithme LARS dont voici le déroulement.

Soit \lambda le paramètre de pénalisation à appliquer aux coefficients \beta du modèle construit par régression linéaire classique. s \in \lbrace -1, 0, +1 \rbrace ^P le vecteur des signes associés aux coefficients pénalisés \beta_{LARS}.

– Initialisation des paramètres: \lambda_0 = \infty, s_0 = c(0, \cdots, 0) et de taille 1 \times (P+1), \beta_{LARS} (\lambda_0) = \beta ^{s_0} (\lambda_0) = (0, \cdots, 0) et également de taille 1 \times (P+1).

– Première étape: diminuer \lambda_1 ^k \geq \lambda_0 jusqu’à ce que \exists p, k / |(X ^p) ^t (Y - \mathbf{X} \beta_{LARS})| > \lambda_1 ^k. Le paramètre \lambda_1 ^k correspondant à cette condition donne naissance à \lambda_1 = \lambda_1 ^k. Calculer ensuite son signe \epsilon_1 \in \lbrace -1 , +1 \rbrace, ce qui donne s_1 = s_0, s_1 ^p = \epsilon_1.

– Étapes suivantes (itération N° it \geq 2): diminuer \lambda_{it} ^k \geq \lambda_{it} jusqu’à ce que \exists p, k / |(X ^p) ^t (Y - \mathbf{X} \beta_{LARS})| > \lambda_{it} ^k, \beta_{LARS} = \beta ^{s_{it}} ou que \exists p, s_{it} ^p \ne 0. Définir \lambda_{it+1}, s^{it+1} à partir des résultats obtenus pour l’itération it.

– Fin de l’algorithme: dés que \lambda est nul c’est que nous avons enfin trouver le vecteur de coefficients \beta_{LARS} solution au problème LASSO.

Parmi les autres algorithmes les plus connus pour la résolution du problème LASSO, nous pouvons citer group-LASSO qui applique une pénalisation par sous-ensemble de variables et l’adaptative-LASSO qui agit par pondération de pénalisation directement sur \beta.

La régression LASSO implique que les variables explicatives avec un très faible pouvoir explicatif auront un coefficient nul, ce qui facilite la sélection des variables les plus intéressantes vis à vis de la variable réponse Y. Mais aussi le désavantage de centraliser l’information sur une seule des variables prise aléatoirement parmi toutes celles avec lesquelles elle est corrélée.

La régression ELASTIC NET:

La régression ELASTIC NET a été élaborée par Hui Zhou et Trevor Hastie en 2005 afin de pallier aux problèmes que peut rencontrer la régression linéaire standard et en s’appuyant sur les forces des régressions RIDGE et LASSO. Ainsi, la régression ELASTIC NET va tirer avantage de la capacité du premier à pouvoir attribuer aux coefficients des variables explicatives corrélées le même coefficient et de la capacité du second à pouvoir attribuer des coefficients nuls aux variables explicatives peu informatives.

La régression ELASTIC NET se base alors sur le modèle suivant,

\beta_E = argmin_{\beta} (||Y - \mathbf{X} \beta|| ^2 +  \lambda_{L_2} || \beta || ^2 + \lambda_{L_1} || \beta ||_1)

Nous retrouvons, respectivement, les normes L_1, L_2 des modèles respectifs LASSO et RIDGE ainsi que la partie commune inspirée de la régression linéaire.

add.png

De nombreux algorithmes ont été implémantés pour la résolution du problème ELASTIC NET, l’un des plus connus est celui de van der Kooij et nommé Coordinate Descent.

\bullet Annexe théorique:

– Nous présentons ici une esquisse de la démonstration de l’espérance et de la variance totale, entités qui sont à la base du modèle linéaire dont fait partie la régression linéaire.

Théorème de l’espérance totale: E[E[Y/X]] = E[Y]

En effet,

E[E[Y/X]] = \sum_x E[Y/X=x] P(X=x)

= \sum_x (\sum_y y P(Y=y/X=x)) P(X=x)

= \sum_y y \sum_x P(Y=y/X=x)P(X=x)

= \sum_y y P(Y=y)

= E[Y]

Théorème de la variance totale: V(Y) = E[V(Y/X)]+V(E[Y/X])

En effet,

V(Y) = E[Y - E[Y]] ^2

= E[Y - E[Y/X] + E[X/Y] - E[Y]]^2

= E[Y - E[Y/X]^2] + 2 E[(Y - E[Y/X]) (E[Y/X] - E[Y])] + E[E[Y/X] - E[Y]]^2

= E[V(Y/X)] + 0 + V(E[Y/X])

= E[V(Y/X)] + V(E[Y/X])

Le terme nul ce justifie par le fait que,

E[(Y - E[Y/X]) (E[Y/X] - E[Y])] = (E[Y/X] - E[Y])(E[Y - E[Y/X]]/X)

, avec E[Y/X] - E[Y] constant à X figé et (E[Y - E[Y/X]]/X) = 0 après développement.

– Nous présentons désormais les éléments clés qui permettent de justifier la méthode des moindres carrés pour l’estimations des coefficients \beta.

L’objectif que nous nous fixons est de trouver une équation de la forme,

\hat{Y} = \beta_0 1 + \beta_1 X ^1 + \cdots + \beta_P X ^P = \mathbf{X} \beta

, tel que ||Y - \hat{Y}|| ^2 soit minimal. Afin de pouvoir rendre cette contrainte vérifiable, nous partons du principe que nous nous situons dans R ^n et que nous nous munissons de la métrique \mathbf{D}. en outre, nous venons de définir le critère des moindres carrés.

\hat{Y} est alors la projection \mathbf{D}-orthogonale de Y sur le sous-espace W engendré par (1, X ^1, \dots, X ^P) et donc de dimension P + 1. Or, nous savons que l’opérateur \mathbf{D}-orthogonal sur W est de la forme,

\mathbf{X} (\mathbf{X} ^t \mathbf{D} \mathbf{X}) ^{-1} \mathbf{X} ^t \mathbf{D}

D’où,

\hat{Y} = \mathbf{X} (\mathbf{X} ^t \mathbf{D} \mathbf{X}) ^{-1} \mathbf{X} ^t \mathbf{D} Y

, et selon la définition ci-dessus de \hat{Y}, nous pouvons alors écrire,

\hat{Y} = \mathbf{X} \beta = \mathbf{X} (\mathbf{X} ^t \mathbf{D} \mathbf{X}) ^{-1} \mathbf{X} ^t \mathbf{D} Y

\Rightarrow \mathbf{X} \beta = \mathbf{X} (\mathbf{X} ^t \mathbf{D} \mathbf{X}) ^{-1} \mathbf{X} ^t \mathbf{D} Y

\Rightarrow \beta = (\mathbf{X} ^t \mathbf{D} \mathbf{X}) ^{-1} \mathbf{X} ^t \mathbf{D} Y

Enfin, si \mathbf{D} = \frac{1}{n} \mathbf{I}, alors,

\beta = (\mathbf{X} ^t \frac{\mathbf{I}}{n} \mathbf{X}) ^{-1} \mathbf{X} ^t \frac{\mathbf{I}}{n} Y = (\frac{\mathbf{I}}{n}) ^{-1} \frac{\mathbf{I}}{n} (\mathbf{X} ^t \mathbf{X}) ^{-1} \mathbf{X} ^t Y = (\mathbf{X} ^t \mathbf{X}) ^{-1} \mathbf{X} ^t Y

\bullet Exemple:

Soit le jeu de données ci-dessous,

add.png

Modélisons notre variable réponse Y à partir des variables explicatives X ^1, X ^2.

Régression linéaire:

Tout d’abord nous construisons \mathbf{X}_1 = (1, \mathbf{X}). Nous pouvons alors calculer les coefficients de le régression linéaire,

\beta = (\begin{pmatrix} 1 & 1 & \cdots & 1 & 1 \\ 8.1472 & 9.0579 & \cdots & 7.9221 & 9.5949 \\ 1.9593 & 2.5472 & \cdots & 11.5497 & 9.9172 \end{pmatrix} \times \begin{pmatrix} 1 & 8.1472 & 1.9593 \\ 1 & 9.0579 & 2.5472 \\ \cdots & \cdots & \cdots \\ 1 & 7.9221 & 11.5497 \\ 1 & 9.5949 & 9.9172 \\ \end{pmatrix}) ^{-1} \times \begin{pmatrix} 1 & 1 & \cdots & 1 & 1 \\ 8.1472 & 9.0579 & \cdots & 7.9221 & 9.5949 \\ 1.9593 & 2.5472 & \cdots & 11.5497 & 9.9172 \end{pmatrix} \times \begin{pmatrix} 0.8970 \\ 2.0949 \\ \cdots \\ 18.9751 & 19.8936 \\ \end{pmatrix}

= \begin{pmatrix} 0.43220908 & -0.03046141 & -0.0174284 \\ -0.03046141 & 0.004836861 & -0.00005.534307 \\ -0.01742184 & -0.00005534307 & 0.001659434 \\ \end{pmatrix} \times \begin{pmatrix} 209.7543 \\ 1395.1132 \\ 2640.6649 \\ \end{pmatrix}

= \begin{pmatrix} 2.1553479 \\ 0.2124134 \\ 0.6504938 \\ \end{pmatrix}

\Rightarrow \beta_0 = 2.1553479, \beta_1 = 0.2124134, \beta_2 = 0.6504938

\Rightarrow Y = 2.1553479 + 0.2124134 \times X ^1 + 0.6504938 \times X ^2

Calcul des indicateurs du modèle construit:

  • La vraisemblance,

Le vecteur des résidus, soit la différence entre prédictions et valeurs réelles de Y, est,

\epsilon = (-4.263435, -3.641405, -1.436032, \cdots, 7.166825, 7.623983, 9.249089)

\Rightarrow RMSE = \sqrt{\frac{\sum_{i = 1} ^{20} \epsilon_i ^2}{20-3}} = \sqrt{\frac{395.9338}{17}} = \sqrt{23.29022} = 4.825994

Nous pouvons dés lors calculer la vraisemblance du modèle qui nous permettra de calculer les différents indicateurs de performance.

L(\beta_0, \beta_1, \beta_2, Y_1, \cdots, Y_{20}) = \frac{1}{\sqrt{2 \pi 4.825994 ^2}}  \times e ^{- \frac{1}{2 \times 4.825994 ^2} \sum_{i = 1} ^{20} \epsilon_i  ^2}

= 0.1465204 \times e ^{- 0.02146824 \times 395.9338}

= 0.1465204 \times 0.000203468

= 0.00002981221

Nous devons également calculer la vraisemblance du modèle constant. Nous avons alors,

\epsilon_{Cst} = (-1.2583479, -0.0604479, 0.8753521, \cdots, 15.9976521, 16.8197521, 17.7382521)

\Rightarrow RMSE_{Cst} = \frac{2050.828}{17} = 120.6369

Et donc,

L(\beta_0, Y_1, \cdots, Y_{20}) = \frac{1}{\sqrt{2 \pi 120.6369 ^2}}  \times e ^{- \frac{1}{2 \times 120.6369 ^2} \sum_{i = 1} ^{20} (epsilon_{Cst})_i  ^2}

= 0.003306967 \times e ^{- 0.005861447 \times 2050.828}

= 0.003306967 \times 0.000006017615

= 0.00000001990005

  • Le R ^2,

Nous avons \overline{Y} = 10.48771, alors,

R ^2 = 1 - \frac{395.9338}{\sum_{i = 1} ^{20} e_i ^2 + \sum_{i = 1} ^{20} (\hat{Y}_i - 10.48771) ^2}

= 1 - \frac{395.9338}{395.9338 + 266.3272}

= 1 - \frac{395.9338}{662.261}

= 1 - 0.5978516

= 0.4021484

  • Le R_{adj} ^2,

Étant donné que notre modèle présente un coefficient constant, nous avons \sharp \lbrace \beta_0 \rbrace = 1. Alors,

R_{adj} ^2 = 1 - \frac{(20 - 1) \times (1 - 0.4021484)}{20 - 3} = 1 - \frac{19 \times 0.5978516}{17} = 1 - 0.6681871 = 0.3318129

  • L’AIC,

AIC = 20 \times ln(\frac{\sum_{i = 1} ^{20} \epsilon_i ^2}{20}) + 2 \times 3 = 20 \times 2.985515 + 6 = 65.7103

  • Le BIC,

Nous avons \sigma ^2 = var(\epsilon) = 20.83862, alors,

BIC = 20 \times ln(\frac{\sum_{i = 1} ^{20} \epsilon_i ^2}{20}) + 2 \times (2 + 3) \times \frac{20 \times 20.83862}{\sum_{i = 1} ^{20} \epsilon_i ^2} - 2 \times (\frac{20 \times 20.83862}{\sum_{i = 1} ^{20} \epsilon_i ^2}) ^2

= 20 \times 2.985515 + 10 \times 1.052631 - 2 \times 1.108033

= 59.7103 + 10.52631 - 2.216066

= 68.02054

  • Le C_p de Mallows,

C_p = \frac{\sum_{i = 1} ^{20} epsilon_i ^2}{20.83862} - 20 + 2 \times 2 = \frac{395.9338}{20.83862} - 20 + 4 = 19 - 16 = 3

Régression RIDGE:

Les coefficients estimés lors de la régression linéaire de base nous donne le vecteur,

\beta = (2.1553479, 0.2124134, 0.6504938)

Nous calculons l’écart-type de \epsilon_i = Y_i - \hat{Y_i}, \forall i \in [1,n],

\epsilon = (0.8970 - 2.1553479 - 0.2124134 \times X_1 ^1 - 0.6504938 \times X_1 ^2, \cdots, 19.8936 - 2.1553479 - 0.2124134 \times X_{20} ^1 - 0.6504938 \times X_{20} ^2)

= (0.8970 - 5.160435, 2.0949 - 5.736305, \cdots, 18.9751 - 11.351117, 19.8936 - 10.644511)

= (-4.263435, -3.641405, \cdots, 7.623983, 9.249089)

\Rightarrow sd_{\epsilon} = 4.564934

Par conséquent nous avons,

\lambda = \frac{2 \times 4.564934 ^2}{(\begin{pmatrix} 0.2124134 & 0.6504938 \\ \end{pmatrix}) \times \begin{pmatrix} 0.2124134 \\ 0.6504938 \\ \end{pmatrix}} = \frac{41.67724}{5.113786} = 8.149976

Nous pouvons désormais procéder à l’estimation des coefficients du modèle RIDGE,

\beta = (\begin{pmatrix} 1 & 1 & \cdots & 1 & 1 \\ 8.1472 & 9.0579 & \cdots & 7.9221 & 9.5949 \\ 1.9593 & 2.5472 & \cdots & 11.5497 & 9.9172 \end{pmatrix} \times \begin{pmatrix} 1 & 8.1472 & 1.9593 \\ 1 & 9.0579 & 2.5472 \\ \cdots & \cdots & \cdots \\ 1 & 7.9221 & 11.5497 \\ 1 & 9.5949 & 9.9172 \\ \end{pmatrix} - \begin{pmatrix} 8.149976 & 0 & 0 \\ 0 & 8.149976 & 0 \\ 0 & 0 & 8.149976 \\ \end{pmatrix}) ^{-1} \times \begin{pmatrix} 1 & 1 & \cdots & 1 & 1 \\ 8.1472 & 9.0579 & \cdots & 7.9221 & 9.5949 \\ 1.9593 & 2.5472 & \cdots & 11.5497 & 9.9172 \end{pmatrix} \times \begin{pmatrix} 0.8970 \\ 2.0949 \\ \cdots \\ 18.9751 & 19.8936 \\ \end{pmatrix}

= (\begin{pmatrix} 11.85002 & 128.4068 & 214.2557 \\ 128.40680 & 1023.0899 & 1382.4922 \\ 214.25570 & 1382.4922 & 2889.9703 \end{pmatrix}) ^{-1} \times \begin{pmatrix} 209.7543 \\ 1395.1132 \\ 2640.6649 \\ \end{pmatrix}

= \begin{pmatrix} -0.7697995 \\ 0.4197220 \\ 0.7700205 \\ \end{pmatrix}

\Rightarrow \beta_0 = -0.7697995, \beta_1 = 0.4197220, \beta_2 = 0.7700205

\Rightarrow Y = -0.7697995 + 0.4197220 \times X ^1 + 0.7700205 \times X ^2

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#reg_toc.htm

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/lm.html

\bullet Bibliographie:

– Sur les degrés mesurés des méridiens, et sur les longueurs observées sur pendule de Pierre Simon de Laplace.

– Nouvelles méthodes pour la détermination des orbites des comètes de Adrien Marie Legendre.

– Statistique. Dictionnaire encyclopédique de Yadolah Dodge.

– The Elements of Statistical Learning de Trevor Hastie, Robert Tibshirani et Jerome Friedman.

– Data Mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry.

– Probabilités, analyse des données et Statistique de Gilbert Saporta.

– Application of Rigde Analysis to Regression Problems de A. E. Hoerl.

– Regression shrinkage and selection via the lasso de Robert Tibshirani.

– Le Lasso, ou comment choisir parmi un grand nombre de variables à l’aide de peu d’observations d’Anisse Ismaili et de Pierre Gaillard.

– Le site: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

– Pratique de la Régression Linéaire Multiple. Diagnostic et sélection de variables de Ricco Rakotomalala.

– Regularization and Variable Selection via the Elastic Net de Hui Zhou et Trevor Hastie.