Caribou!

Statistiques et Modélisation

Il est toujours assez étonnant de voir à quel point le statisticien n’est pas perçu à sa juste valeur par l’individu lambda de notre société… Qui n’a jamais entendu le fameux « ouarf les statistiques, on sait jamais d’où elles sortent ni comment ou par qui elles sont faites, il y a surement une arnaque quelque part! ». Mais pardonnons-leur leur incultisme à ce sujet!

Cette passionnante discipline qu’est celle des Statistiques (et de la Modélisation, mot qu’on oublie trop souvent de lui associer et qui fait la différence entre le simple statisticien et l’ingénieur en Statistiques) est en plein essor du fait du pouvoir de décision qu’elle détient au cœur d’un projet nécessitant une évaluation complète du risque pour passer d’une phase de développement à une autre. Ainsi cette discipline, en quantifiant l’information de manière rigoureuse et théoriquement solide, a permis le passage du choix binaire (oui/non) au choix flexible argumenté par la connaissance de la probabilité d’échec induite (nous pourrons désormais choisir « oui » si le risque associé est faible et « non » si ce dernier est trop important). Nous comprenons aisément pourquoi l’individu qui sait manier les Statistiques est alors celui détenant toutes les clés pour l’aboutissement d’un projet, en devenant même l’un des chaînons les plus importants. Mais la discipline ne se résume pas qu’à cela, notons aussi ses qualités indéniables et incontestables dans la construction de plans d’expérience et de sondage robustes assurant la fiabilité des résultats à venir sur des sous-échantillons représentatifs d’un contexte ou encore ses liens permanents avec des disciplines primordiales comme la théorie de la mesure, l’algèbre linéaire, l’analyse numérique, les séries de Fourier ou encore les algorithmes de la bio-informatique poussant toujours un peu plus l’élaboration théorique et l’apparition de nouvelles méthodologies. Les Statistiques sont également l’opportunité de découvrir un nombre extrêmement varié de domaines d’application tel que la biologie, l’écologie, l’agroalimentaire, le marketing, ect; car si d’entières différences sont flagrantes entre ces contextes multiples, le statisticien aura toujours la capacité de rajouter sa pierre à l’édifice du fait d’outils d’analyse adaptables à n’importe lequel d’entre eux.
Enfin, cette discipline ne serait pas ce qu’elle est sans le folklore qui l’entoure! Sa capacité à modéliser un phénomène et donc ses qualités prédictives ne peuvent qu’ajouter à son caractère séducteur, ainsi le statisticien n’est plus uniquement celui qui donne une photographie de ce qu’il observe mais il devient en quelque sorte un être surnaturel capable de prédire le futur, rien que cela! Alors finalement? Qui peut oser en dire autant?

L’objectif de ce site est de rassembler, de la manière la plus exhaustive qui soit, l’ensemble des tests statistiques, outils d’analyse exploratoire et méthodes d’analyse supervisée et non supervisée existantes. Il est également question de présenter la théorie se cachant derrière chaque outil ainsi que les algorithmes associés tout en présentant les syntaxes sous R et SAS pour les mettre en œuvre. J’ai fait en sorte qu’il soit utile aussi bien au jeune diplômé qui recherche des informations pratiques et théoriques pour combler sa culture statheuse (oui, le ‘h’ est mis exprès par référence au mot ‘math’, il s’agit pour moi de la marque différenciant le simple statisticien utilisateur d’histogrammes sans savoir comment ça marche de celui capable de maîtriser la théorie et ainsi être plus performant dans l’usage des méthodes de Statistiques et Modélisation) qu’à la personne non affiliée à la discipline et qui se sent perdue lorsqu’elle se trouve face à son jeu de données et son désir compulsif de le faire parler.
L’ autre raison de la création de ce site est également dû aux multiples collaborations récentes que j’ai eu avec des étudiants en thèse venant de tous horizons ainsi que d’une réelle volonté de partager ma passion. Il est donc viser de créer un espace d’échanges dans le but d’élargir cette communication, proposant ainsi  mon expertise sur d’autres projets (aussi n’hésitez pas à me contacter même si je suis souvent over-pris!!!). Le site, qui n’en est encore qu’à un simple stade de fœtus je le reconnais (ouverture du site officiellement en: fin-2018, aussi mes excuses les plus sincères pour les pages incomplètes et les coquilles jusqu’à cette date-là…), sera ainsi en mue permanente tant l’ambition et les idées que j’ai pour lui sont légions, aussi ne soyez pas déboussolé si du jour au lendemain plus rien n’est à sa place!

Ci-dessous le planning du site:

add.png

Avant de conclure cette page de présentation, je tiens également à souligner le fait qu’il s’agit d’un site fait par passion pour ce domaine qu’est la Statistique, la Probabilité et la Modélisation et principalement motivé par les trois faits suivants: parfaire mes propres connaissances, centraliser les informations essentiels de chaque outil et offrir à l’intéressé le détail et l’application de ces différents outils (combien de fois ai-je trouvé de jolies formules théoriques servant à rien, « coucou les documents sur l’analyse discriminante de Fisher » pour ne citer qu’eux). Toutefois, comme tout site présent sur internet, il n’est pas exempt de tout reproche et ceci en dépit des efforts de rigueur effectués. Il sera toujours vivement conseillé de croiser les informations que vous pourrez en extraire avec d’autres sources afin de les valider (notamment celles indiquées dans la partie bibliographique des différents articles) et je dirais même: bien fou est celui qui se basera sur mon site pour en tirer des vérités absolues. Il est question ici de proposer un espace décrivant les différents outils de statistique et modélisation avec mes mots à moi et ma propre interprétation, rien de plus.

Enfin, car un bon site est un site capable de s’auto-hors-sujet avec panache! Sévissant sur cette formidable île qu’est Mayotte en tant qu’ingénieur ayant pour ambition de contribuer à son développement, c’est avec émotion que j’alimente ce site en promouvant le dernier, et de loin le plus féerique, département français (bon OK, à égalité avec la Corse…).

mayotte.jpg

Ce site est dédié à cette petite femme de gauche au coeur immense et cet ours polaire fada de l’OM, deux personnes exceptionnelles, qui me servent de parents.

Enfin je souhaite rendre hommage, dans un premier temps, aux trois personnes suivantes: Gilbert Saporta, Stéphane Tufféry et Ricco Rakotomalala, véritables sources d’inspiration lors de mes études et début de ma carrière professionnelle. Ne les connaissant pas personnellement, je continue de caresser délicatement le doux rêve de les rencontrer un jour (je m’imagine déjà complètement hystérique et perdu dans l’ érection intellectuelle ce jour-là, je les plains d’avance).

Et dans un second temps, à tous ces célèbres mathématiciens (R. A. Fisher, K. Pearson, etc – liste à compléter rapidement) à qui nous devons notre discipline et qui ont réussi l’exploit de faire de l’or avec de l’oxygène. C’est grâce à leur travaux que notre civilisation ne cesse d’évoluer dans le bon sens (lorsque c’est le cas…) et rares sont ceux qui sont suffisamment intéressés et informés pour s’en rendre compte. Au nom de notre espèce, il convient de les remercier et de leur rendre hommage chaque jour pour leurs découvertes et ce qu’elles nous ont apporté et continuent de nous apporter quotidiennement. Merci.

Publicités

Mayotte en chiffres

add

\bullet Présentation et démarche

Second projet lancé sur ce site web et pas des moindres: présenter Mayotte au travers des données statistiques qu’il est possible de recueillir auprès des organismes officiels. Inutile de pondre des tartines pour justifier la raison d’un tel projet étant donné que vous pouvez voir en fond, sur ce site, une superbe photo de la plage de Moya en Petite-Terre. L’idée étant évidemment de faire connaître aux plus curieux Mayotte de manière objective au travers des données statistiques publiées et ce que peut représenter ce petit bout du monde pour la France; mais aussi de voir comment nos outils statistiques, décris au travers de ce site web, peuvent offrir une vue panoramique et synthétique de la situation sur le territoire.

Le projet vise ainsi à recueillir les données statistiques aux travers des principaux opérateurs tel que l’Institut National de la Statistique et des Études Économiques (INSEE), l’Agence de Santé de L’Océan Indien (ARS OI), l’Institut d’Émission des Départements d’Outre-Mer (IEDOM), l’Agence Française de Développement (AFD), la Direction de la Jeunesse, des Sports et de la Cohésion Sociale (DJSCS), la Direction de l’Environnement, de l’Aménagement et du Logement (DEAL), etc (liste à compléter au fur et à mesure) depuis leur site le web.

Pour commencer, soyons brut de pomme, tout le travail qui aura été produit se fout littéralement de savoir si nous sommes 200 000 ou 400 000 ou même 3 milliards sur le territoire de Mayotte. Tout ce qu’il faut savoir c’est que le chiffre de la population totale vivant sur une partie du territoire, quand il est produit pas l’INSEE, prévaut sur tous les autres et qu’il constitue, avec ses déclinaisons par genres et classes d’âge, le dénominateur commun à partir duquel tout indicateur statistique est conçu. Critiquer le travail de l’INSEE, c’est critiquer un organisme qui fait ça depuis belle lurette et hormis y aller au marteau-piqueur avec des arguments scientifiques solides autres que la consommation de grains de riz (LOL!!!), il est difficilement justifiable et crédible d’oser prétendre détenir une vérité autre que la leur. De plus, un petit rappel sur pourquoi l’essor des statistiques dans le monde d’aujourd’hui: si n’importe lequel d’entre nous connaissait la vérité absolue en se contentant de regarder ce qu’il se passe dans son voisinage, le marché de l’emploi ne pullulerait pas d’autant d’offres d’emploi pour statisticien comme nous pouvons l’observer.

\bullet Ahhhhhh… Mayotte

Le territoire de Mayotte est une île mesurant 376 km2 et se situe géographiquement dans l’archipel des Comores, lui-même situé dans l’océan Indien. Elle se divise en deux îles principales nommée la Grande-Terre et la Petite-Terre (oui bah l’une est plus petite que l’autre).

Historiquement, Mayotte est devenu française en 1841 et maintient ce premier statut suite à un vote ultra-majoritaire en 1976. Toujours sur la demande de sa population, elle vote majoritairement pour devenir un département d’outre-mer français en 2009 et accède au statut de zone ultrapériphérique de l’Union Européenne en 2014.

Le territoire de divise en 17 communes et se décline en 72 villages. La commune de Mamoudzou rassemblant la plus grande partie de la population de Mayotte, elle regroupe logiquement la majorité de l’activité de l’île.

Pour être le plus synthétique qui soit, et puisque l’idée de cet article est d’aller plus en profondeur dans la présentation de Mayotte au travers de ses chiffres clés publiés, nous rappellerons qu’il s’agit du département le plus jeune de France avec un habitant sur deux âgé de 17 ans ou moins. De plus, environ 4 habitants sur 10 ne sont pas français. Le contexte global tourne autour de la précarité avec 4 logements sur 10 en taule et 8 habitants sur dix qui vient en dessous du seuil de bas revenus métropolitains. L’Illettrisme concerne un habitant sur trois. Ensuite, le secteur tertiaire est le plus représenté sur le territoire (concerne 8 habitants sur 10) et plus précisément 1 habitant sur 2 travaille dans la fonction publique. Contrairement aux idées reçues, le solde migratoire est négatif et même si aucune donnée ne nous permet d’expliquer objectivement ce phénomène, la pyramide des âges ci-dessous donne comme piste potentielle le départ massif des jeunes et donc probablement des étudiants vers La Réunion, la France Métropolitaine et l’Étranger.

add4

Enfin, parmi toutes les spécificités de Mayotte, deux sont à relever: la présence des Bornes Fontaines Monétiques (BFM) permettant à la population précaire et sans accès à l’eau eau chez elle de pouvoir s’approvisionner toute l’année, ainsi que le nombre de propriétaire du bâti mais pas du sol.

Source: Wikipedia.

\bullet Exploitation des données du recensement de la population de 2012

Les données:

Les données utilisées sont celles du recensement de la population de 2012 à l’échelle de la commune et sont donc déclaratives. Une base de données de 118 variables peut être construite, que nous ramenons à 86 variables optimisées en fonction de la taille de l’effectif ventilé en fonction des variables d’origines. Étant donné que nous nous lançons dans une étude typologique, avec pour objectif de montrer la ressemblance entre les différentes communes (nous laissons le lecteur parcourir l’amas de publications misent en guise de source pour se faire une opinion plus précise), nous avons considéré la part en pourcentage de la ventilation des différents champs au sein des différentes thématiques pour chaque commune prise individuellement (en somme, une ligne équivaut à une commune). En effet, considérer les effectifs bruts ou bien la part en pourcentage en fonction des totaux nous mène à des résultats biaisés par le fait qu’il est évident que plus une commune concentre d’individus et de ménages et plus ses effectifs seront grands.

Deux types de données sont regroupées, celles issues du bulletin individuel et celles issues de la feuille logement.

  • Pour les premières nous avons:

– la répartition par classes d’âge en sept catégories (0-4 ans, 5-19 ans, 20-29 ans, 30-39 ans, 40-49 ans, 50-64 ans et 65 ans ou plus),

– la répartition par genre,

– la répartition par nationalité (français, étranger),

– la répartition par lieu de naissance (né à Mayotte, né ailleurs en France, né à l’Étranger)

– la répartition selon le statut matrimonial (célibataire-veuf-divorcé, marié) chez les 15 ans ou plus,

– la répartition en fonction d’être en couple ou non chez les 15 ans ou plus,

– la répartition en fonction du logement antérieur à Mayotte ou non,

– la répartition selon la Catégorie Socio-professionnelle (CSP), au sens du recensement et non du Bureau International du Travail (BIT), renseignée chez les 15 ans ou plus (a un travail, chômeur, étudiants, retraité-au foyer-autres inactifs),

– la répartition selon le niveau de diplôme chez les 18 ans ou plus (sans scolarité, sans diplôme, CEP-BEPC-CAP-BEP, BAC-BAC pro, diplôme du premier cycle, diplôme du second ou troisième cycle).

  • Et enfin, pour les données issues de la feuille de logement,

– la répartition par catégorie de logement (résidence principale, résidence vacante, logement secondaire-occasionnel),

– la répartition par aspect du bâti (habitation de fortune, habitation en dur, habitation traditionnelle-en bois),

– la répartition par type de construction pour les résidences principales (individuel, collectif),

– la répartition par statut d’occupation pour les résidences principales (propriétaire du logement uniquement, propriétaire du logement et du sol, locataire, logé gratuitement),

– la répartition par nature du sol pour les résidences principales (en terre battue, en béton, carrelage),

– la répartition par nombre de pièces pour les résidences principales (1 pièce, 2 pièces, 3-4 pièces, 5 pièces ou plus),

– la taille des ménages pour les résidences principales,

– la répartition selon l’accessibilité par véhicule pour les résidences principales,

– la répartition selon le nombre de voitures pour les résidences principales (aucune, une voiture, deux ou plus voitures),

– la répartition selon la présence ou non du confort de base pour les résidences principales (un logement est classé comme ayant le confort de base s’il a les WC, la baignoire, l’électricité et l’eau à l’intérieur du logement, si un seul de ces 4 items manque alors le logement est classé sans confort),

– la répartition selon le type d’accès à l’eau pour les résidences principales (eau froide à l’intérieur du logement seulement, eau froide et chaude à l’intérieur du logement, absence d’eau à l’intérieur et accès via une BFM, absence d’eau à l’intérieur et accès via un autre moyen qu’une BFM),

– la répartition selon la présence ou non de WC pour les résidences principales,

– la répartition selon la présence ou non d’électricité pour les résidences principales,

– la répartition selon la présence ou non de baignoire pour les résidences principales,

– la répartition selon le type d’évacuation des eaux usées pour les résidences principales (par le sol, par les égouts, par une fosse septique, ,

– la répartition selon la présence ou non de bacs à ordure pour les résidences principales,

– la répartition selon le mode de cuisson des aliments pour les résidences principales (cuisson par feu de bois, cuisson par réchaud à pétrole, gazinières, autres modes de cuisson),

– la répartition selon la présence ou non d’ordinateur pour les résidences principales,

– la répartition selon la présence ou non de téléviseur pour les résidences principales,

– la répartition selon la présence ou non de réfrigérateur pour les résidences principales,

– la répartition selon la présence ou non de congélateur pour les résidences principales,

– la répartition selon la présence ou non de lave-linge pour les résidences principales.

Cet inventaire est à garder à l’esprit pour les analyses à venir, car c’est à travers ce sous-ensemble de variables que nous établirons notre typologique. Évidemment, la considération d’autres caractéristiques amènerait à des résultats sensiblement différents, toutefois il est bon de savoir que nous avons là toutes les données socio-démographiques de base permettant d’ériger un distinguo « communes dans une situation globalement précaire » versus « communes dans plus développées ».

L’Analyse:

Notre étude se déroulera en deux étapes:

– La première étape consistera à procéder à une analyse exploratoire bivariée en faisant le point sur les corrélations entre nos différentes variables au travers des coefficients de corrélation de Pearson, Spearman et Kendall puisque nous avons un jeu de données au format exclusivement continue et que notre taille d’effectifs reste assez faible (n = 17).

– la seconde étape sera axée sur une étude typologique multivariée au travers d’une Analyse en Composantes Principales (ACP) et d’une Classification Ascendante Hiérarchique (CAH) afin de regrouper nos communes en fonction des différents profils que nous pourrons mettre en évidence.

  • L’Analyse bivariée

Donc commençons par la première phase des analyses. Nous lançons sur l’ensemble des combinaisons, de 2 variables d’intérêt parmi nos 86 variables présentes, le calcul des coefficients de corrélation cités ci-dessus, ce qui nous fait 3 655 combinaisons à éplucher. Le graphe ci-dessous présente le nombre de liaisons qui ressortent en fixant un | \rho | \leq 0.8 étant donné la taille de notre effectif,

add

En résumé sur l’ensemble de nos combinaisons et selon le seuil fixé, nous avons 8\% de corrélations significatives selon le coefficient de corrélation de Pearson, 9\% selon celui de Spearman et 2\% selon celui de Kendall. Face à autant de corrélations à parcourir, il convient de focaliser sur certaines variables importantes et partir du principe que nous aurons une vue plus exhaustive lors de l’approche multivariée. Ainsi, six thématiques ressortent comme intéressantes, les croisements: avec l’âge, le genre, l’accès à l’eau, la CSP, la nationalité et le confort des logements.

Pour les corrélations avec l’âge, quatre classes d’âges ressortent dans l’analyse bivariée. Les quatre figures qui suivent présentent les interactions avec la valeur du coefficient entre parenthèse et le sens de la corrélation (flèche):

add5

Globalement, la part des 0-4 ans croît avec celles du manque d’équipement et de la taille du logement. Assez logiquement, plus la part d’enfants en bas âge augmente et plus la part des personnes âgées diminue.

add5

Globalement, la part des 40-49 ans croît en même temps que celles des conditions de vie et notamment le fait de travailler.

add5

Globalement, la part des 50-64 ans croît en même temps que celles des équipements du ménage, des diplômés du BAC ou d’un BAC professionnel et du nombre de français.

add5

Globalement, la part des 65 ans ou plus croît en même temps que celles des français et de ceux ayant l’eau froide seulement à l’intérieur du logement. A contrario, les parts des modes de cuisson par réchaud à pétrole et des étrangers diminuent quand elle augmente.

Pour les corrélations avec le genre, aucun croisement ne ressort, à la différence de l’accès à l’eau où des corrélations ressortent pour la part de ménages ayant seulement l’eau froide à l’intérieur du logement et pour celle des ménages s’approvisionnant en eau par un autre moyen que les BFM. Les deux figures qui suivent présentent les interactions avec la valeur du coefficient entre parenthèse et le sens de la corrélation (flèche):

add5

Globalement, la part des ménages avec seulement l’eau froide à l’intérieur du ménage croît en même temps que la qualité et la taille du logement.

add5

Globalement, la part des ménage s’approvisionnant en eau autrement que par la BFM croît en même temps que celles des logements précaires.

Pour les corrélations avec la CSP, deux catégories ressortent dans l’analyse bivariée, la part de ceux qui ont un travail et celle de ceux de CSP « autre » (retraité, au foyer, autres inactifs). Les trois figures qui suivent présentent les interactions avec la valeur du coefficient entre parenthèse et le sens de la corrélation (flèche):

add5

Globalement, la part de ceux qui ont un emploi croît avec celles des équipements du ménage ainsi que celle des 40-49 ans. De plus, elle est corrélée avec le niveau scolaire.

add5

Globalement, la part de ceux ayant une CSP catégorisée « autre » croît avec l’absence d’équipements et de diplôme qualifiant. De plus, lorsque la part augmente, celles des 40-49 ans et 50-64 ans diminuent.

add5

Globalement, la part d’étudiants croît en même temps que la part des catégories de logement et la part de nés à Mayotte.

Pour les corrélations avec la nationalité, les deux catégories ressortent dans l’analyse bivariée. Les deux figures qui suivent présentent les interactions avec la valeur du coefficient entre parenthèse et le sens de la corrélation (flèche):

add5

Globalement, la part des étrangers croît avec celles des logements précaires et de locataires. De plus, quand elle augmente, celles des 50-64 ans et des 65 ans ou plus diminuent.

add5

Globalement, la part des français croît avec celles des logements de bonnes qualités. De plus, elle croît avec celles des 50-64 ans et des 65 ans ou plus.

Pour les corrélations avec le confort du logement, les deux catégories ressortent dans l’analyse bivariée. La figure qui suit présente les interactions avec la valeur du coefficient entre parenthèse et le sens de la corrélation (flèche):

add5

Globalement, l’indicateur du manque de confort reste assez robuste puisque, même s’il est basé sur uniquement quatre caractéristiques (WC à l’intérieur, baignoire, électricité, eau à l’intérieur), nous voyons que la part croît avec celles de l’absence de plusieurs autres équipements. De plus, quand elle augmente, celle des diplômés du BAC ou du BAC professionnel diminue. Notons que nous ne présentons pas l’analyse des corrélations avec la part des logements avec confort car elle nous conduit aux mêmes résultats inversés.

  • L’Analyse multivariée

La seconde étape consiste donc à procéder à une analyse exploratoire multivariée au travers d’une ACP. Dans un premier temps, déterminons le nombre de composantes factorielles à retenir, nous obtenons le graphe de l’évolution des parts de variance suivant,

add

Nous constatons que si nous nous limitons aux deux premiers axes factoriels, c’est 62\% de la variance que nous restituons. Pour une ACP cela  semble un peu faible malgré le coude que nous pouvons observer. Cependant, si nous souhaitons atteindre le gap classique de plus de 70 \%, nous nous voyons obligé d’aller jusqu’à quatre axes factoriels, complexifiant un peu trop la lisibilité. Afin de déterminer si nous pouvons nous limiter à deux composantes, prenons le temps de voir quelles oppositions chaque composante offre. Nous fixons le critère à un coefficient sur la composante supérieur à 0.7 ou inférieur à -0.7.

Pour la première composante, nous constatons l’opposition entre:

– La part des 40 à 64 ans, des ceux qui ont un emploi, de ceux ayant un BAC ou un BAC professionnel, de ceux ayant un diplôme du premier cycle, des logements en dur, des logements équipés d’un carrelage, des logements de 3 pièces ou plus, des ménages avec une voiture, des logements catégorisés comme confortable, des logements équipés en WC, baignoire, électricité, ordinateur, téléviseur, réfrigérateur, congélateur, lave-linge et des logements dont l’évacuation des eaux usées se fait par fosse septique.

Soit des logements de bonnes qualités avec une population âgée qui travaille et est diplômée.

– Et la part des 0 à 4 ans, des CSP « autre » (retraité, au foyer, autres inactifs), des non scolarisés, des logements dont le sol est en terre, des logements de 1 à 2 pièce(s), des ménages sans voiture, des logements sans confort, des logements dont l’accès à l’eau se fait hors de la maison et pas par la BFM, des logements sans WC, sans électricité, sans baignoire, sans ordinateur, sans téléviseur, sans réfrigérateur, sans congélateur, sans lave-linge, dont l’évacuation des eaux usées se fait par le sol et dont le mode de cuisson se fait par le bois.

Soit des logements de mauvaise qualité, regroupant une grande part de jeunes enfants et d’une population en CSP « autre » et non scolarisée.

Pour la seconde composante, les oppositions sont déjà beaucoup moins nombreuses et sont:

– La part des étrangers, de ceux nés à l’étranger, de ceux dont le logement antérieur n’était pas en France, de ceux ayant un diplôme du second ou troisième cycle, des locataires, de ceux ayant l’eau froide et chaude à l’intérieur du logement.

Soit une population étrangère diplômées et ayant un niveau de vie supérieur à la moyenne.

– Et la part des français, nés à Mayotte, dont le logement antérieur était à Mayotte, des étudiants et des logements vacants. Soit la population jeune et la population mahoraise.

Pour la troisième composante, nous ne comptons qu’une seule opposition significative: les logements collectifs versus les logement individuelles. Et pour la quatrième composante, aucune opposition significative.

Ce premier bilan nous permet d’argumenter le choix de nous restreindre à uniquement deux composantes étant donné que les composantes 3 et 4 n’apportent que peu d’information.

La figure ci-dessous présente la projection des variables sur les deux composantes retenues. En haut la projection de base et en bas le travail d’interprétation que nous ajoutons sur la figure de base.

add

Quatre groupes principaux et trois groupes de transitions se dégagent. L’ACP permet d’ériger une carte caractéristique du type d’habitat, ainsi nous avons en rouge des logements précaires, en bleu ceux des étrangers, en vert des logement plus confortable et en violet les logements fortunés.

En rouge (s’oppose directement au groupe vert): la population des 0-4 ans, les non scolarisés, les logements de 2 pièces, les ménages sans voiture, les logements sans confort, sans électricité, sans baignoire, sans ordinateur, sans téléviseur, sans réfrigérateur, sans lave-linge, inaccessible pour les voitures, les logements dont l’évacuation des eaux usées se fait par le sol, les ménages ayant recours à un mode de cuisson par bois.

– Le premier groupe de transition en gris, situé au dessus du groupe rouge: les ménages ayant recours aux réchauds à pétrole, les logements de fortune, les logements d’une pièce, les ménages sans eau à l’intérieur du logement et n’allant pas à la BFM s’approvisionner, les logements sans congélateur et les logements dont le sol est en terre battue.

– En bleu (s’oppose directement au groupe violet): les locataires, les résidences principales, les nés à l’étranger, les célibataires (ou veufs ou divorcés), les étrangers et les sans diplôme.

– Le second groupe de transition en gris, situé à droite du groupe bleu: les logements ayant l’eau froide et l’eau chaude à l’intérieur du logement, les diplômés du second et troisième cycle et ceux dont le logement antérieur n’était pas en France.

– En vert (s’oppose directement au groupe rouge): les logements équipés de réfrigérateur, les 40-49 ans, les logements de 3-4 pièces, ceux qui travaillent, les logements équipés de téléviseur, d’ordinateur, de baignoire, d’électricité, de lave-linge, de WC, les diplômés du premier cycle, les logements avec confort, les ménages ayant une voiture, les logements dont le sol est en carrelage et les logements dont l’évacuation des eaux usées se fait par fosse septique.

– En violet (s’oppose directement avec le groupe bleu): les diplômés d’un BAC ou d’un BAC professionnel, les logements avec congélateur, gazinière, les 50 ans ou plus, les logements de 5 pièces ou plus, les propriétaires du logement et du sol, les habitations en dur, les logements avec uniquement l’eau froide à l’intérieur et les français.

– Et le troisième groupe de transition en gris, et situé en bas du groupe violet: les nés à Mayotte, les résidences vacantes, ceux dont le logement antérieur était à Mayotte et les étudiants.

Nous avons donc une première typologie avec le groupe rouge qui présente la population des très précaires. Ensuite nous avons le groupe bleu, qui est indépendant au groupe rouge et au groupe vert, il se situe à côté des deux groupes gris de transition (gauche, précarité, et haut, développé) et qui s’inscrit finalement dans une classe intermédiaire. Puis nous avons le groupe vert qui, en opposition directe avec le groupe rouge, indique une population plus riche et qui reste très proche du groupe violet qui présente une forte corrélation en fonction de la tranche d’âge et du nombre de français. Puis nous avons le dernier groupe de transition, désignant la population des mahorais, étudiants, dont l’opposition se fait directement avec le groupe bleu des étrangers. A noter que les trois groupes de transition en gris sont indépendants les uns des autres, soit précarité, développé et jeunesse non liés.

Nous allons boucler notre étude en focalisant sur la ressemblance entre les communes au travers de la caractérisation obtenue par l’ACP. Nous avons alors la figure suivante qui présente, à droite, la projection des observations soit des communes,

add1

Afin d’objectiver le regroupement des communes, nous procédons à une classification ascendante hiérarchique et obtenons alors,

add2

Quatre profils se dégagent:

Pamandzi, Dzadouzi et Sada, dont les projections coïncident avec la typologie des zones développées.

Boueni et Kani-Kéli, dont les projections coïncident avec l’autre typologie des zones développées.

Chiconi, Mtsangamouiji, Acoua et Mtsamboro dont les projections coïncident avec la typologie des jeunes.

Mamoudzou, Chirongui, Dandrélé, Tsingoni, dont les projections coïncident avec la typologie des étrangers et des zones précaires.

Bandraboua, Koungou, Dembeni et Ouangani, dont la projection coïncident avec la typologie des zones précaires.

Nous finalisons notre étude par une représentation géographique de Mayotte en fonction des groupes conçus,

add3

Source:

– Les villages de Mayotte en 2012. Des conditions de vie meilleures sur le littoral ouest de Emmanuelle Clain, Véronique Daudin, Hervé Le Grand, INSEE

https://www.insee.fr/fr/statistiques/2409395?sommaire=2409812, INSEE

\bullet Analyse spatial des données du recensement de la population de 2007 et 2012 (A venir…)

Source:

– Recensement Général de la Population de Mayotte : 186 452 habitants au 31 juillet 2007 de Matthieu Morando, INSEE

– En cinq ans, 26 000 habitants de plus à Mayotte de Matthieu Morando, INSEE

– Mayotte: Recensement de la population de 2007, la population multipliée par quatre en 30 ans de Christophe Trouillard, Camélia Louachéni et Matthieu Morando, INSEE

– La croissance démographique reste dynamique de Camélia Louachéni, de Christophe Trouillard et de Matthieu Morando, INSEE

– Mayotte, département le plus jeune de France de Julien Balicchi, Jean-Pierre Bini, Véronique Daudin, Nelly Actif, Jannick Rivière, INSEE

– La moitié des Mahorais vivent en couple. Recensement de la population 2012 de Ravi Baktavatsalou et Emmanuelle Clain, INSEE

– Une famille sur deux a trois enfants ou plus à Mayotte en 2012 de Emmanuelle Clain, INSEE

– Quatre profils contrastés de quartiers. Les 36 quartiers prioritaires de la politique de la ville à Mayotte de Daniel Ah-Son, Ravi Baktavatsalou, INSEE.

\bullet Le logement

Source:

– De petits logements pour de grands ménages de Camélia Louachéni et de Matthieu Morando, INSEE

– Des conditions de logement éloignées des standards nationaux. Enquête Logement à Mayotte 2013 de Michel Brasset et Noémie Deloeuvre, INSEE

– L’état du logement à Mayotte fin 2013, des conditions précaires d’habitat, INSEE.

\bullet L’Illettrisme

Source:

– Quatre jeunes sur dix en grande difficulté à l’écrit à Mayotte de Vérnoque Daudin et de Fabrice Michaïlesco, INSEE

\bullet L’Emploi

Source:

– La progression de l’emploi permet au chômage de baisser de Camélia Louachéni et de Matthieu Morando, INSEE

– Enquête Emploi 2009 à Mayotte : un marché de l’emploi atypique de Véronique Daudin, INSEE

– 4 Mahorais sur 10 travaillent hors de leur commune – Déplacements domicile-travail de Jamel Mekkaoui, INSEE

– Enquête Emploi Mayotte 2013, 9 500 chômeurs et 29 900 inactifs qui souhaitent travailler de Édouard Fabre et de Jannick Rivière, INSEE

– Enquête Emploi Mayotte 2014 – Le chômage progresse malgré l’augmentation de l’emploi de Édouard Fabre et de Jannick Rivière, INSEE

– Trois Mahorais sur quatre sans diplôme. Formation et emploi en 2014 de Édouard Fabre et de Jannick Rivière, INSEE

– Une forte hausse du chômage en 2015. Enquête emploi Mayotte de Édouard Fabre et Jannick Rivière, INSEE

– Le département au taux de chômage le plus élevé. Enquête Emploi Mayotte 2016 de Édouard Fabre et de Claude Touzet, INSEE

– De l’école à l’emploi à Mayotte: les inégalités hommes-femmes se réduisent de Chantal Chaussy, Sébastien Merceron, Philippe Paillole, INSEE.

\bullet Le PIB

Source:

– Les produits intérieurs bruts régionaux de 2000 à 2013. La croissance, signe du rattrapage économique de Bérangère Duplouy, INSEE.

– Une économie en rattrapage soutenue par la dépense publiquePIB Mayotte 2011 de Lore Le Pabic et de Christian Monteil, INSEE.

– PIB de Mayotte en 2012 – Une croissance économique de 7 % en 2012 de Yohan Coderet de Christian Monteil, INSEE.

– Le pouvoir d’achat individuel progresse de 5 %Produit intérieur brut 2013 de Christian Monteil, INSEE.

– Le pouvoir d’achat individuel augmente de 5% pour la deuxième année consécutive. Produit intérieur brut 2014 de Michel Dublin et Christian Monteil, INSEE.

\bullet L’Indice des prix (A venir…)

Source:

https://www.insee.fr/fr/statistiques?debut=0&theme=80&categorie=2&geo=DEP-976, INSEE.

– Les pris sont plus élevés de 6,9% à Mayotte. Comparaison des prix avec la France métropolitaine en 2015 de Jamel Mekkaoui, INSEE.

\bullet Le tourisme (A venir…)

Source:

– Enquête Flux Touristique : Chute du nombre de touristes en 2006 de Cécile Prévot, INSEE

– Enquête flux touristiques 2006 de Ibrahime Abdourahamani et de Cécile Prévot, INSEE

– Mayotte a accueilli plus de 40 000 touristes en 2007 de Julie Frantz et de Matthieu Morando, INSEE

– Enquête Flux Touristiques 2009 à Mayotte : «Près de 50 000 touristes à Mayotte» de Françoise Cazanove, INSEE

– Enquête flux touristiques 2010 : près de 53 000 touristes à Mayotte de Françoise Cazanove, INSEE

– Enquête flux touristiques – Moins de touristes à Mayotte en 2011 de Véronique Daudin, INSEE

– Enquête flux touristiques à Mayotte – Une année 2012 sauvée par le tourisme d’affaires de Catherine Martigny, INSEE

– Le tourisme à Mayotte en 2013, la fréquentation touristique rebondit et retrouve le niveau de 2010 de Julien Balicchi, INSEE

– La fréquentation touristique recule de 4%. Enquête Flux touristique 2014 de Mohamadi Madi Charif, INSEE

– Enquête Flux Touristiques: La fréquentation touristique stagne en 2015 de Bourahima Ali Hadhurami, INSEE

– La fréquentation touristique reste stable en 2016 de Bourahima Ali Hadhurami, INSEE

\bullet La santé (A venir…)

Source:

– ARS OI (Statiss 2012-2016, fiches « Nos îles, notre santé »).

– Une natalité record. Naissances 2016 à Mayotte de Sébastien Merceron, INSEE.

\bullet Trajectoire de population

Source: Migrations, natalité et solidarités familiales de Claude-Valentin Marie (INED), Didier Breton (Université de Strasbourg/INED), Maude Crouzet (INED), Edouard Fabre (INSEE), Sébastien Merceron (INSEE)

\bullet L’Entreprise

Source:

– Activité des plus grandes entreprises mahoraises en 2004 (Panel d’étude 2003 – 2004) de Cécile Prévot, INSEE

– Les grandes entreprises mahoraises en 2004: valeur ajoutée en progression dans tous les secteurs de Cécile Prévot, INSEE

– Activité des plus grandes entreprises mahoraises en 2005 (Panel d’étude 2004 – 2005) de Cécile Prévot, INSEE

– Les grandes entreprises mahoraises en 2005 : moindre progression de la valeur ajoutée de Cécile Prévot, INSEE

– Entreprises marchandes de 1 à 499 salariés – 400 millions d’euros de richesse créée en 2013 par le secteur marchand de Yohan Coder, INSEE

– Les salaires dans le secteur privé et les entreprises publiques en 2013 de Axelle Bonzi, INSEE

– Créations d’entreprises – Hausse de 0,6 % en 2014 de Claude Touzet, INSEE

– Baisse de 3 % en 2015 – Créations d’entreprises de Claude Touzet, INSEE

– Nouvelle diminution des créations en 2016. Créations d’entreprises à Mayotte de Claude Touzet, INSEE.

\bullet Les autres chiffres (A venir…)

Source: IEDOM, AFD, DJSCS, etc

L’Analyse canonique des corrélations

add

\bullet Présentation:

L’Analyse canonique des corrélations, élaborée par Harold Hotelling en 1936, est une approche multivariée visant à comparer les interactions de deux matrices \mathbf{A} = (X ^1, \cdots, X ^{p'}) et \mathbf{B} = (X ^{p' +1}, \cdots, X ^P) continues. Les deux blocs peuvent être appariés ou non appariés, l’outil étant efficace dans les deux cas.

L’Analyse canonique des corrélations, comme son titre l’indique, se base sur les corrélations, autrement dit sur la présence ou l’absence d’une relation linéaire entre les variables des deux différents blocs.

L’outil appartient à la famille de l’analyse exploratoire et permet, par exemple, de comparer de champs thématiques de variables en élaborant une carte des variables et des observations afin d’avoir une représentation visuelle des interactions entre les deux blocs de données.

\bullet L’analyse canonique des corrélations:

Hypothèse préliminaire: \mathbf{A}, \mathbf{B} continues.

L’Analyse canonique des corrélations se déroule en quatre étapes qui sont les suivantes,

– Étape 1: calcul des matrices de covariances intra et inter groupes,

cov(\mathbf{A}), cov(\mathbf{B}), cov(\mathbf{A}, \mathbf{B})

– Étape 2: calcul des valeurs propres \lambda et vecteurs propres associés \mathbf{U}, \mathbf{V} sous contrainte de maximisation de,

max_{\mathbf{U}, \mathbf{V}} \frac{trace(\mathbf{U} ^t cov(\mathbf{A}, \mathbf{B}) \mathbf{U})}{\sqrt{trace(\mathbf{U} ^t cov(\mathbf{A}) \mathbf{U}) trace(\mathbf{V} ^t cov(\mathbf{B}) \mathbf{V})}}

– Étape 3: Calcul des axes factorielles après standardisation de \mathbf{A}, \mathbf{A},

\mathbf{C_A} = \mathbf{A}_{std} \mathbf{U}, \mathbf{C_B} = \mathbf{B}_{std} \mathbf{V}

– Étape 4: Projection des variables dans le plan factoriel,

Coord_{\mathbf{A}} = cor(\mathbf{A}, \mathbf{C_A}), Coord_{\mathbf{B}} = cor(\mathbf{B}, \mathbf{C_B})

La projection des observations est obtenue lors du calcul des matrices \mathbf{C_A}, \mathbf{C_B}.

Le choix du nombre d’axes se fait comme pour les autres méthodes de l’analyse exploratoire, à partir des valeurs propres \lambda et en fonction de leur distribution.

En termes d’interprétation, la lecture se fait à l’instar d’une Analyse en Composantes Principales (ACP),

– Plus une variable de l’un des deux blocs est proche du cercle de corrélation et plus elle interagit avec les variables de l’autre bloc.

– Plus les variables de différents blocs sont proches entre elles et plus leur corrélation est forte, soit que les variables de l’un des deux blocs peuvent s’écrire comme combinaison linéaire à partir des variables de l’autre bloc. Autrement dit, à partir des variables de l’un des deux blocs, nous pouvons prédire les valeurs des variables de l’autre bloc.

– Un angle de 180° entre deux blocs de variables impliquent une anti-corrélation entre eux.

– Un angle de 90° entre deux blocs de variables impliquent l’absence de corrélation entre eux.

\bullet Annexe théorique:

Nous présentons ici une esquisse de la démarche méthodologique de l’analyse canonique des corrélations.

Soit R ^n muni de la métrique D. L’idée est alors de chercher un couple de vecteurs normés (\epsilon_1, \eta_1) sous contrainte d’obtenir l’angle le plus petit et ensuite le couple (\epsilon_2, \eta_2) D-orthogonal, respectivement, à \epsilon_1, \eta_1. sous cette même contrainte. Nous en faisons de même pour les autres couples (\epsilon_p, \eta_p), p \in [3, P].

Les opérateurs utilisés sont alors de la forme,

O_1 = \mathbf{A} (\mathbf{A} ^t D \mathbf{A}) ^{-1} \mathbf{A} ^t D, O_2 = \mathbf{B} (\mathbf{B} ^t D \mathbf{B}) ^{-1} \mathbf{B} ^t D

, dont l’une des propriétés les plus intéressantes est que la restriction de O_2 O_1 est diagonalisable, de valeurs propres D-orthogonaux et de vecteurs propres \lambda réels positifs.

Cette propriété se démontre facilement par le fait que,

<\mathbf{A}, O_2 O_1 \mathbf{B}> = <O_2 \mathbf{A}, O_1 \mathbf{B}>

= <\mathbf{A}, O_1 \mathbf{B}>

= <O_1 \mathbf{A}, \mathbf{B}>

= <O_1 \mathbf{A}, O_2 \mathbf{B}>

= <O_2 O_1 \mathbf{A}, \mathbf{B}>

, étant donné que O_1, O_2 sont D-symétriques.

Dés lors, les vecteurs propres \epsilon_p, \eta_p, p \in [1, P], D-normés de O_1 O_2, O_2 O_1 sont associés aux mêmes valeurs propres. De plus, ils s’expriment comme combinaisons linéaires de \mathbf{A}, \mathbf{B},

\epsilon_p = \mathbf{A} a_p, \eta_p = \mathbf{B} b_p, \forall p \in [1,P]

, avec a_p, b_p nos facteurs canoniques obtenus par,

O_1 O_2 \epsilon_p = \lambda_p \epsilon_p, \forall p \in [1,P]

\Longleftrightarrow O_1 O_2 \mathbf{A} a_1 = \lambda_p \mathbf{A} a_p, \forall p \in [1,P]

\Longleftrightarrow \mathbf{A} (\mathbf{A} ^t D \mathbf{A}) ^{-1} \mathbf{A} ^t D \mathbf{B} (\mathbf{B} ^t D \mathbf{B}) ^{-1} \mathbf{B} ^t D \mathbf{A} a_p = \lambda_p \mathbf{A} a_p, \forall p \in [1,P]

En passant par la formule des matrices de covariance, nous en déduisons que les équations des facteurs canoniques sont de forme,

\mathbf{V_{1,1}} ^{-1} \mathbf{V_{1,2}} \mathbf{V_{2,2}} ^{-1} \mathbf{V_{2,1}} a_p = \lambda_p a_p, \forall p \in [1,P]

\mathbf{V_{2,2}} ^{-1} \mathbf{V_{2,1}} \mathbf{V_{1,1}} ^{-1} \mathbf{V_{1,2}} b_p = \lambda_p b_p, \forall p \in [1,P]

\bullet Exemple:

Soit le jeu de données suivant,

add

Nous avons donc \mathbf{A} = (X ^1, X ^2, X ^3, X ^4) et \mathbf{B} = (X ^5, X ^6, X ^7, X ^8), nos deux matrices ou blocs de données à comparer.

Dans un premier temps, déterminons les matrices de covariances intra et inter groupes. Nous avons,

Cov(\mathbf{X} ^1) = \begin{pmatrix} 9.0705355 & 0.7555145 & 1.5600932 & 10.4175026 \\ 0.7555145 & 11.9613546 & 1.7490082 & -1.9441531 \\ 1.5600932 & 1.7490082 & 2.1295090 & 0.4300301 \\ 10.4175026 & -1.9441531 & 0.4300301 & 13.7338166 \\ \end{pmatrix}

Cov(\mathbf{X} ^2) = \begin{pmatrix} 9.088271 & 2.6069842 & 5.0946792 & -10.1751933 \\ 2.606984 & 10.9457223 & 0.3020457 & 1.1275066 \\ 5.094679 & 0.3020457 & 15.7377368 & 0.6925294 \\ -10.175193 & 1.1275066 & 0.6925294 & 19.1206608 \\ \end{pmatrix}

Cov(\mathbf{X} ^1, \mathbf{X} ^2) = \begin{pmatrix} 9.0690971 & 2.8200495 & 5.393049 & -9.926482 \\ 0.7331316 & 30.687814 & 4.098546 & 1.701438 \\ 1.4270587 & 0.9324708 & 5.439073 & 1.117790 \\ 10.5149496 & 0.8331533 & 3.361065 & -14.197508 \\ \end{pmatrix}

Pour le calcul des valeurs propres et vecteurs propres associés utiles à la suite des calculs, nous procédons à une analyse généralisée des valeurs propres en cherchant les matrices de vecteurs propres \mathbf{U}, \mathbf{V} maximisant,

\frac{trace(\mathbf{U} ^t Cov(\mathbf{X} ^1, \mathbf{X} ^2) \mathbf{V}}{\sqrt{trace(\mathbf{U} ^t Cov(\mathbf{X} ^1) \mathbf{U}) trace(\mathbf{V} ^t Cov(\mathbf{X} ^2) \mathbf{V})}}

, nous obtenons ainsi,

\lambda = (0.9998629, 0.9601233, 0.7838923, 0.1796847)

, et,

\mathbf{U} = \begin{pmatrix} -0.367335712 & 0.107257361 & 1.6836411 & -0.46348891 \\ -0.002049065 & -0.006283649 & -0.1220621 & 0.35582619 \\ 0.018911484 & -0.715591159 & -0.8823932 & -0.04856284 \\ 0.028178637 & 0.015844425 & -1.3322262 & 0.38089724 \\ \end{pmatrix}

\mathbf{V} = \begin{pmatrix} -0.312924231 & 0.198063333 & 0.02560371 & -0.9986287 \\ -0.017179811 & -0.075302950 & 0.27342204 & 0.3231552 \\ -0.012493456 & -0.280402012 & -0.07303302 & 0.3362131 \\ 0.005666279 & 0.005595241 & 0.06737516 & -0.6371241 \\ \end{pmatrix}

Maintenant, calculons les projections après avoir centré-réduit les matrices \mathbf{A}, \mathbf{B},

\mathbf{C_{A}} = \mathbf{A}_{std} \times \mathbf{U} = \begin{pmatrix} -4.59656 & 1.90864 & -1.88593 & -4.83459 \\ -3.39866 & 2.81934 & -0.89523 & -4.24669 \\ -2.46286 & -4.96866 & -0.20843 & -3.65529 \\ \cdots & \cdots & \cdots & \cdots \\ 2.49024 & -0.76976 & -1.98593 & 4.45721 \\ 3.49184 & 3.33654 & 0.95347 & 2.82211 \\ 4.45324 & 3.41034 & 1.87687 & 3.67941 \\ \end{pmatrix} \times \begin{pmatrix} -0.367335712 & 0.107257361 & 1.6836411 & -0.46348891 \\ -0.002049065 & -0.006283649 & -0.1220621 & 0.35582619 \\ 0.018911484 & -0.715591159 & -0.8823932 & -0.04856284 \\ 0.028178637 & 0.015844425 & -1.3322262 & 0.38089724 \\ \end{pmatrix}

= \begin{pmatrix} 1.5126718 & 0.7679454 & 0.1329695 & 1.0597074 \\ 1.1060761 & 0.1910853 & 0.3812384 & 1.0043620 \\ 0.8079347 & -0.1417038 & 1.5135031 & -2.0086365 \\ -0.8251356 & 1.7636694 & 0.1009881 & 0.3660795 \\ -1.1919596 & -0.2840201 & 0.8707159 & 0.5974264 \\ -1.5036469 & -0.8285601 & 0.5234408 & 0.459787\\ \end{pmatrix}

, et,

\mathbf{C_{B}} = \mathbf{B}_{std} \times \mathbf{V} = \begin{pmatrix} -4.31367 & -5.02602 & -4.44019 & 2.20902 \\ -3.56947 & 3.10378 & -3.54319 & 2.62262 \\ -2.53027 & 2.96958 & -2.54469 & 4.18262 \\ \cdots & \cdots & \cdots & \cdots \\ 2.67113 & 2.55528 & -4.47639 & -4.04638 \\ 3.49323 & 1.31998 & 3.53491 & -3.08198 \\ 4.41173 & 2.99278 & 4.55261 & -4.71448\\ \end{pmatrix} \times \begin{pmatrix} -0.312924231 & 0.198063333 & 0.02560371 & -0.9986287 \\ -0.017179811 & -0.075302950 & 0.27342204 & 0.3231552 \\ -0.012493456 & -0.280402012 & -0.07303302 & 0.3362131 \\ 0.005666279 & 0.005595241 & 0.06737516 & -0.6371241 \\ \end{pmatrix}

= \begin{pmatrix} 1.5041882 & 0.78149248 & -1.01155701 & -0.21669955 \\ 1.1227785 & 0.06748688 & 1.19271948 & 1.70537668 \\ 0.7962578 & 0.01216711 & 1.21481539 & -0.03397062 \\ \cdots & \cdots & \dots & \cdots \\ -0.8467629 & 1.56918108 & 0.82135948 & -0.76868958 \\ -1.1774199 & -0.41595791 & -0.01546278 & 0.09020532 \\ -1.5155440 & -0.65450287 & 0.28111896 & 1.09580804 \\ \end{pmatrix}

Nous pouvons désormais calculer les corrélations entre \mathbf{A}, \mathbf{B} et \mathbf{C_A}, \mathbf{C_B},

cor(\mathbf{B}, \mathbf{C_A}) = \begin{pmatrix} -0.9983231 & 0.03766023 & -0.02915787 & -0.002240457 \\ -0.3025849 & -0.11210117 & 0.73769532 & 0.017213797 \\ -0.4516889 & -0.82836922 & -0.17580138 & -0.006344769 \\ 0.7464322 & -0.48029888 & 0.23043986 & -0.058506989 \\ \end{pmatrix}

cor(\mathbf{A}, \mathbf{C_B}) = \begin{pmatrix} -0.99942865 & 0.005357258 & -0.01972378 & -0.002567494 \\ -0.09359495 & -0.354372038 & 0.19463497 & 0.160046597 \\ -0.35921736 & -0.895262927 & -0.02084901 & -0.004969892 \\ -0.92477377 & 0.269298886 & -0.19023740 & -0.015025710 \\ \end{pmatrix}

Nous pouvons désormais projeter nos variables dans le plan en deux dimensions (choix motivé par simplicité de lecture étant donné qu’il s’agit d’un exemple),

addb.png

– Les variables A ^2, B ^2 ne sont pas assez proches du cercle de corrélation pour être interprétées.

– Deux groupes sont à relever, le premier concerne les variables B ^1, A ^1, A ^4 soit que la possibilité de prédire B ^1 à partir d’une combinaison linéaire des variables A ^1, A ^4. Le second concerne les variables A ^3, B ^3, soit un lien très fort entre elles.

– Les deux groupes décrits ci-dessus sont indépendants étant donné qu’ils forment un angle de 90°.

– Enfin, la variable B ^4 est anti-corrélée (angle de 180°) au premier groupe décrit et indépendante au second (angle de 90°).

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/statug_cancorr_sect005.htm

Package et fonction Rhttps://cran.r-project.org/web/packages/CCA/index.html

\bullet Bibliographie:

– Relations Between Two sets of Variates de Harold Hotelling.

– Probabilités, analyse des données et Statistique de Gilbert Saporta.

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry.

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard.

– Analyses factorielles simples et multiples de Brigitte Escofier et Jérôme Pagès.

– La présentation powerpoint: http://iml.univ-mrs.fr/~reboul/canonique.pptx.pdf

Analyse des données associées aux courses hippiques

add

\bullet Présentation

Premier projet à voir le jour sur ce site, l’exploitation des données associées aux courses hippiques m’a été inspirée par mon pauvre papounet qui, malgré des années d’expérience, n’a jamais été capable de gagner deux courses d’affilées (quoi que je ne vais pas nier qu’il soit arrivé à faire quelques très très bons coups, aussi je me laisse aller à la caricature par plaisir et méchanceté gratuite). Mais ça ce n’est pas grave, n’importe quel ouvrage sur les paris sportifs vous prouvera par A + B que la fortune aux jeux de hasard n’est réservée qu’à une poignée de chanceux défiant toutes les règles mathématiques à jamais établies et qui, pour la plupart, ne l’ont pas fait exprès.

Non, ce qui est plus déroutant c’est qu’après autant de jeux étudiés, jamais il n’ait songé à construire une base de données pour, au moins, essayer de comprendre pourquoi sa stratégie ne marche pas à tous les coups ou plutôt de savoir avec quel probabilité de réussite il peut la tenter.

Ce projet est prévu pour être en perpétuelle évolution d’une année à l’autre puisqu’il s’agira de commencer par une première approche, en sortir les résultats, faire une critique de la démarche et lancer une seconde approche avec pour objectif de faire mieux pour l’année t que pour l’année t-1.

\bullet Démarche

Depuis le 1er janvier 2017, les données du site: zoneturf.fr sont reccueillies jour par jour pour les courses dont la distance est comprise entre 800 et 1600 mètres. La récolte des données durera jusqu’au 31 décembre 2017 et cet article sera mis à jour en fonction des résultats trouvés avec une discussion axée méthodologique et plus statistique que contextuelle.

Le projet pourra aboutir sur des résultats innovants (ce dont je doute) ou sur des résultats inutiles (ce dont je ne doute pas). Mais justement, en cas d’absence de résultats probant, il sera intéressant de mettre en lumière que finalement les données proposées par le site web officiel des courses hippiques n’est qu’un leurre visant à faire dépenser inconsciemment son argent au joueur et que la banque est gagnante dans 99,99999 \% des cas. Après tout, comme nous le disons en statistique, l’absence d’information est une information.

Les variables considérées (caractéristiques) pour cette première version des analyses sont:

– Le numéro d’enregistrement pour la course,

– Le nom du cheval,

– Le genre,

– L’âge,

– Le poids,

– Le nom du jockey,

– Le nom de l’entraineur,

– Le nom du propriétaire,

– Les gains cumulés,

– La valeur attribuée au cheval par le handicapeur,

– La côte probable du cheval,

– Les dernières performances,

– La côte fixée par le PMU.

La variable à discriminer est le classement final du cheval. Elle sera considérée selon un format binaire: « a fini dans les cinq premiers » versus « n’a pas fini dans les cinq premiers ».

De plus, les informations liées à la course ont également été récupérées:

– Type de terrain,

– Moment de la journée où a eu lieu la course,

– La distance précise.

Outre la base d’origine, nous procéderons à trois déclinaisons:

– La base restructurée par chevaux où nous avons, pour un cheval considéré, en ligne ses classements aux divers courses auxquelles il a participé, la déclinaison de ses caractéristiques à cet instant T et les paramètres de la course en colonne.

– la base restructurée par jockey où nous avons, pour un jockey considéré, en ligne ses classements aux divers courses auxquelles il a participé, la déclinaison des caractéristiques à cet instant T du chwal et les paramètres de la course en colonne.

– la base restructurée par propriétaire où nous avons, pour un propriétaire considéré en ligne ses classements aux divers courses auxquelles il a participé, les caractéristiques à cet instant T de son poulain et les paramètres de la course.

La réelle difficulté d’un tel projet n’est pas vraiment de balancer des analyses comme ça puisqu’un premier constat que nous pouvons faire est que la variabilité des paramètres d’une course à l’autre change énormément. Le principal enjeu sera de proposer dans un premier temps une mesure de la relativité (différence entre les caractéristiques et la tendance générale de la course étudiée) et faire en sorte que cette mesure soit généralisable. L’Avantage d’une telle mesure sera également de mettre en avant l’aspect psychologique entre les chevaux lors d’une course hippiques.

\bullet Analyse

Rendez-vous le 31/12/2017!!!

Les références

add1

\bullet Présentation

Cet article ne vise pas à établir une liste exhaustive des ouvrages et sites web et surtout meilleurs que les autres. Il s’agit ici de présenter une bibliothèque, principalement construite autour des références régulièrement citées dans les documents parcourus pour construire ce site.

C’est également l’occasion de faire un peu de promotions aux copains qui sont tout autant passionnés par cette discipline époustouflante qu’est la statistique et la probabilité et qui font un super boulot pour mettre en lumière tout ce qu’elle peut apporter au monde d’aujourd’hui et de demain.

\bullet Les ouvrages

Histoire et pré-histoire de l’analyse des données de Jean-Paul Benzécri (160 pages)

add

Pour la petite histoire, Mr Jean-Paul Benzécri est le père-fondateur de l’Analyse Factorielle des Correspondances. Son ouvrage présente en première partie une synthèse sur l’histoire des statistiques du début de notre civilisation à 1982 ainsi que l’aspect philosophique qui se cache derrière ces disciplines que sont la Probabilité et la Statistique. La seconde partie de son livre est dédiée à l’AFC et l’ACM, de manière plus littéraire que « matheuse », régulièrement argumentée par des figures précieuses pour la compréhension. Un livre rare à trouver et qui reste un classique à avoir sur son étagère.

Contenu:

– Chapitre I: La préhistoire.

– Chapitre II: La biométrie.

– Chapitre III: Era piscatoria.

– Chapitre IV: La psychométrie.

– Chapitre V: L’Analyse des correspondances.

Statistique, dictionnaire encyclopédique de Yadolah Dodge (634 pages)

add

Comme son nom l’indique, il s’agit d’un petit dictionnaire plus ou moins pratique. Plus, car il fournit un document standardisé du vocabulaire statistique ainsi qu’un bon balayage sur pas mal d’outils/méthodes à utiliser un de ces jours et connus que de nom, le tout décliné par une partie historique, théorie et exemple bien pratique et vraiment très agréable à lire. Moins, car il manque pas mal d’outils (notamment au niveau des tests statistiques) et toute la partie Data Mining. Cependant, avec le recul, ce n’est pas vraiment l’objectif de ce dictionnaire encyclopédique qui fait finalement office de synthèse d’autres encyclopédies des Statistiques.

La probabilité, le hasard et la certitude de Paul Deheuvels (128 pages)

add

Excellent livre s’inscrivant dans la série des « que sais-je? » et qui n’est plus à présenter. L’ouvrage se positionne essentiellement sur la théorie des jeux de hasard et se divise en fait en deux parties. La première, présente les principaux théorèmes et propriétés qui vont servir à alimenter la seconde partie, plus axée sur nos chances de gagner aux jeu de hasard. Et le tout ponctué d’une conclusion pertinente et théoriquement argumentée. Un réel plaisir à lire.

Contenu:

– Chapitre I: De l’impossibilité d’observer des évènements improbables.

– Chapitre II: Les débuts du calcul de probabilités, fortune et ruine du chevalier de Méré.

– Chapitre III: Espérance de gain dans un jeu de hasard; loi des grands nombres de Bernouilli.

– Chapitre IV: Fondements logiques du calcul des probabilité. Einstein et le mouvement brownien, le modèle de Kolmogorov.

– Chapitre V: Les nombres normaux de Borel et l’explication naturelle de la loi des grands nombres au jeu de pile ou face.

– Chapitre VI: Autres exemples de calcul des probabilités en théorie des nombres; Hardy et Ramanujan, Erdos, Kac et Lévêque, développements en fractions continues.

– Chapitre VII: Indépendances de variables aléatoires, le théorème de Kommogorov, fonctions de Rademacher, échangeabilité et le théorème de De Finetti.

– Chapitre VIII: Les lois du zéo ou un pour les suites indépendantes de Borel-Cantelli, Kolmogorov et Hewitt-Savage; le manichéisme des lois de la chance, martingales.

– Chapitre IX: La théorie ergodique et le caractère universel de la convergence des moyennes de suites stationnaires.

– Chapitre X: Les lois du logarithme itéré de Hartman-Wintner et de Strassen.

– Chapitre XI: Autres lois des grands nombres; stabilité des maxima normaux; théorème de Glivenko-Cantelli.

– Chapitre XII: Les marches aléatoires et le problème de la ruine du joueur.

– Chapitre XIII: Comment ne pas trop perdre à la roulette et au jeu.

– Chapitre XIV: La persistance de la chance ou de la malchance.

– Chapitre XV: La loi de l’Arc sinus ou l’injustice fondamentale de la nature.

– Chapitre XVI: La théorie de l’arrêt optimal et la preuve mathématique qu’il vaut mieux s’abstenir de jouer au casino.

Comprendre et utiliser les statistiques dans le sciences de la vie de Bruno Falissard (376 pages)

add

Un livre très très très fortement recommandé aux étudiants en statistique qui ont fini leur Master 2 ou leur licence professionnelle et vont débuter leur stage! Le livre est très littéraire et basé sur les biostatistiques (plusieurs exemples de traitement sur des données épidémiologique). Il est accompagné de nombreux graphes qui permettent de comprendre trivialement le principe de tout ce qui est régression, ACP, clustering, ect. Excellent lien entre la théorie des universités et la pratique du monde professionnel.

Contenu:

– Chapitre I: Introduction.

– Chapitre I – partie 1: Remarques concernant la méthodologie en recherche médicale.

– Chapitre I – partie 2: Définitions.

– Chapitre I – partie 3: Gestion des données.

– Chapitre II: Méthodes univariées.

– Chapitre II – partie 1: Les représentations graphiques.

– Chapitre II – partie 2: L’Estimation.

– Chapitre II – partie 3: Les tests d’hypothèse.

– Chapitre II – partie 4: Les données de survie.

– Chapitre III: Modèles multivariés.

– Chapitre III – partie 1: Régression linéaire et analyse de variance.

– Chapitre III – partie 2: Modèle linéaire généralisé: régressions logistique et de Poisson.

– Chapitre III – partie 3: Modèle de Cox.

– Chapitre III – partie 4: Mesures répétées.

– Chapitre III – partie 5: Modèles structuraux.

– Chapitre III – partie 6: Modèles multivariés: discussion.

– Chapitre IV: Méthodes exploratoires multidimensionnelles.

– Chapitre IV – partie 1: Analyse discriminante.

– Chapitre IV – partie 2: Modèle log-linéaire.

– Chapitre IV – partie 3: Méthodes de classification, analyse en clusters.

– Chapitre IV – partie 4: Méthodes de segmentation, CART.

– Chapitre IV – partie 5: Analyse en composantes principales.

– Chapitre IV – partie 6: Analyse des correspondances.

– Chapitre IV – partie 7: Échelonnement multidimensionnel.

– Chapitre IV – partie 8: Analyse des corrélations canoniques.

– Chapitre IV – partie 9: Analyse factorielle.

Data Mining et statistique décisionnelle de Stéphane Tufféry (706 pages)

add

Le coup de cœur, l’amour littéraire de ma vie! L’Ouvrage de Mr Stéphane Tufféry permet de dresser un excellent bilan de ce qu’il est possible de faire avec R et SAS (et de temps en temps SPSS) en termes d’analyses statistiques et surtout il donne énormément d’informations sur les conditions d’utilisation des différents outils avec certains exemples (notamment un déroulé complet et précieux d’une analyse et de l’optimisation d’un modèle de régression logistique sur la base de données issues du naufrage du « Titanic »). A noter qu’il est essentiellement littéraire et syntaxique, peu de maths.

Contenu:

– Chapitre I: Panorama du Data Mining.

– Chapitre II: Le déroulement d’une étude de Data Mining.

– Chapitre III: L’Exploration et la préparation des données.

– Chapitre IV: L’Utilisation des données commerciales.

– Chapitre V: Les logiciels de statistique et de Data Mining.

– Chapitre VI: Aperçu sur les techniques de Data Mining.

– Chapitre VII: L’Analyse factorielle.

– Chapitre VIII: Les réseaux de neurones.

– Chapitre IX: Les techniques de classification automatique.

– Chapitre X: La recherche d’associations.

– Chapitre XI: Les techniques de classement et de prédiction.

– Chapitre XII: Une application du Data Mining: le scoring.

– Chapitre XIII: Les facteurs de succès d’un projet de Data Mining.

– Chapitre XIV: Le Text Mining.

– Chapitre XV: Le Web Mining.

Les techniques de sondage de Pascal Ardilly (676 pages)

add

Véritable superstar de l’INSEE, le bouquin de Mr Pascal Ardilly s’adresse aussi bien à des matheux, qu’à des statisticiens, qu’à des sociologues, ka dé, ka dé, etc. Il propose synthèses et explications sur les méthodes de tirages d’échantillons sur de grandes bases de données ainsi que l’historique des différentes enquêtes et méthodes associées à l’INSEE. Certes il coûte une certaine somme et le domaine qu’il couvre est très précis, mais à titre culturel il fait clairement son œuvre.

Contenu:

– Chapitre I: Aspects universels, principes de base.

– Chapitre I – partie 1: Généralités.

– Chapitre I – partie 2: Formalisation et vocabulaire de base.

– Chapitre I – partie 3: Loi d’un estimateur et intervalle de confiance.

– Chapitre I – partie 4: Principe des estimateurs « en chaîne ».

– Chapitre I – partie 5: Bases de sondage.

– Chapitre I – partie 6: Différents types d’erreurs rencontrés dans les enquêtes.

– Chapitre II: Présentation des plans de sondages classiques.

– Chapitre II – partie 1: Sondage aléatoire simple.

– Chapitre II – partie 2: Sondage stratifié.

– Chapitre II – partie 3: Sondage à plusieurs degrés.

– Chapitre II – partie 4: Sondage à probabilités inégales.

– Chapitre II – partie 5: Échantillonnage équilibré.

– Chapitre II – partie 6: Sondages empiriques.

– Chapitre II – partie 7: Cas pratique: l’échantillonnage des enquêtes-ménages de l’INSEE.

– Chapitre II – partie 8: Synthèse.

– Chapitre III: Amélioration des estimateurs (redressements, correction de la non-réponse).

– Chapitre III – partie 1: Post-stratification simple.

– Chapitre III – partie 2: Post-stratification sur plusieurs critères.

– Chapitre III – partie 3: Estimateur par le ratio (ou par le quotient).

– Chapitre III – partie 4: Estimateur par la régression.

– Chapitre III – partie 5: Une approche générale du problème: calage généralisé et application « CALMAR ».

– Chapitre III – partie 6: Traitement de la non-réponses.

– Chapitre III – partie 7: Cas pratique:l’enquête biens durables – ameublement.

– Chapitre III – partie 8: Synthèse.

– Chapitre IV: Quelques aspects particuliers des sondages.

– Chapitre IV – partie 1: Estimation sur des domaines.

– Chapitre IV – partie 2: Tirage d’individus dans un ménage.

– Chapitre IV – partie 3: Échantillonnage dans le temps.

– Chapitre IV – partie 4: Introduction à l’approche modèle.

– Chapitre V: Plans de sondage complexes: éléments pour estimer les précision.

– Chapitre V – partie 1: Problèmes posés et généralités sur les types de traitements.

– Chapitre V – partie 2: Deux méthodes générales d’estimation de précision: le bootstrap et le jackknife.

– Chapitre V – partie 3: Une méthode particulière d’estimation de précision: le demi-échantillon.

– Chapitre V – partie 4: Cas d’application 1: mise en œuvre du logiciel Poulpe dans le cadre de l’enquête emploi de l’INSEE.

– Chapitre V – partie 5: Cas d’application 2: méthode de calcul de précision des enquêtes-ménages tirées dans l’échantillon maître 82.

– Chapitre V – partie 6: Cas d’application 3: précision de l’indice trimestriel des loyers.

– Chapitre V – partie 7: Cas d’application 4: précision « anticipée » des enquêtes-ménages tirées dans l’échantillon-maître 90.

Analyse factorielles simples et multiples de Brigitte Escofier et Jérôme Pagés (320 pages)

add

L’ouvrage le plus bourrin que j’ai eu la chance de lire jusqu’à maintenant. ACP, AFC, ACM, AFM et CAH y sont exhaustivement présentées. Cet ouvrage contient la théorie et un déroulé très complet sur l’utilisation de ces méthodes. Véritablement l’ouvrage de référence sur les outils d’analyse exploratoire multivariée, il n’y manque plus qu’un ajout du même acabit dans les futures éditions sur les MDS (Multi-Dimensional Scale) et il sera parfait!

Contenu:

– Chapitre I: Analyse en Composantes Principales.

– Chapitre II: Exemple d’ACP et de CAH.

– Chapitre III: Analyse Factorielle des Correspondances.

– Chapitre IV: Analyse des Correspondances Multiples.

– Chapitre V: Calculs et dualité en Analyse Factorielle.

– Chapitre VI: Exemple de traitement de tableau multiple par ACM et AFC.

– Chapitre VII: L’Analyse Factorielle Multiple à partir de deux applications.

– Chapitre VIII: Aspect théoriques et techniques de l’Analyse Factorielle Multiple.

– Chapitre IX: Méthodologie de l’AFM.

– Chapitre X: Comparaison de tableaux de fréquence binaire.

– Chapitre XI: Interprétation des résultats d’une analyse factorielle.

– Chapitre XII: Fiches techniques.

Probabilité, analyse des données et Statistiques de Gilbert Saporta (622 pages)

add

En tout bien tout honneur, il n’est pas vraiment nécessaire de présenter cet ouvrage puisqu’il s’agit simplement de la bible des statistiques et des probabilités (en omettant volontairement le domaine de la théorie de la mesure car Mr Saporta ne s’y attarde que par séquence dans les 70 premières pages) et permet de conserver des bases précieuses dans ces domaines. A lire et relire en boucle (surtout que l’introduction du bouquin est assez sexy)!

Contenu:

– Chapitre I: Le modèle probabiliste.

– Chapitre II: Variables aléatoires.

– Chapitre III: Couples de variables aléatoires, conditionnement.

– Chapitre IV: Vecteurs aléatoires, formes quadratiques et lois associées.

– Chapitre V: Description unidimensionnelle de données numériques.

– Chapitre VI: Description bidimensionnelle et mesures de liaison entre variables.

– Chapitre VII: L’Analyse en composantes principales.

– Chapitre VIII: L’Analyse canonique et la comparaison de groupes de variables.

– Chapitre IX: L’Analyse des correspondances.

– Chapitre X: L’Analyse des correspondances multiples.

– Chapitre XI: Méthodes de classification.

– Chapitre XII: Distribution des caractéristiques d’un échantillon.

– Chapitre XIII: L’Estimation.

– Chapitre XIV: Les tests statistiques.

– Chapitre XV: Méthodes de Monte-Carlo et de rééchantillonnage (Jack-knife, bootstrap).

– Chapitre XVI: La régression simple.

– Chapitre XVII: La régression multiple et le modèle linéaire général.

– Chapitre XVIII: Analyse discriminante et régression logistique.

– Chapitre XIX: Méthodes algorithmiques, choix de modèles et principes d’apprentissage.

– Chapitre XX: Sondages.

– Chapitre XXI: Plans d’expériences.

The Elements of Statistical Learning de Trevor Hastie, Robert Tibshirani et Jerome Friedman (538 pages)

add

Tout en anglais, je précise… si le bouquin de Maître Saporta est la bible française alors celui-ci en est probablement sa continuité en anglais! L’ouvrage se concentre sur les différents outils d’analyse supervisé et non supervisé. Il est bien illustré avec ses graphes en couleur et le niveau d’anglais requis pour le lire est assez intermédiaire. Après nous enfonçons des portes ouvertes, il suffit de voir les trois auteurs-stars de cet ouvrage pour comprendre à quel point il s’agit d’un bouquin référence qui doit figurer sur toutes les étagères du simple au parfait statisticien.

Contenu:

– Chapitre I: Introduction.

– Chapitre II: Overview of Supervised Learning.

– Chapitre III: Linear Methods for Regression.

– Chapitre IV: Linear Methods for Classfication.

– Chapitre V: Basis Expansions and Regularization.

– Chapitre VI: Kernel Methods.

– Chapitre VII: Model Assessment and Selection.

– Chapitre VIII: Model Inference and Averaging.

– Chapitre IX: Additive Models, Trees and Related Methods.

– Chapitre X: Boosting and Additive Trees.

– Chapitre XI: Neural Networks.

– Chapitre XII: Support Vector Machines and Flexible Discriminants.

– Chapitre XIII: Prototype Methods and Nearest-Neighbors.

– Chapitre XIV: Unsupervised Learning.

The top ten algorithms in Data Mining de Xindong Wu et Viping Kumar (220 pages)

add

Ce livre met en évidence dix algorithmes de type probabiliste ou appartenant à la branche Data Mining au travers d’une présentation de leur fonctionnement. Chaque algorithme y est donc précisément présenté d’un point de vue théorique avec exemples, exercices et références associés. Une véritable mine d’or pour les curieux surtout que parmi les dix, certains sont assez inattendus, peu répandus dans la littérature et couvrant notamment des domaines d’applications assez rares. Par contre, le niveau d’anglais requis est un peu plus coriace.

Contenu:

– Chapitre I: C4.5.

– Chapitre II: K-means.

– Chapitre III: SVM: Support Vector Machines.

– Chapitre IV: Apriori.

– Chapitre V: EM.

– Chapitre VI: PageRank.

– Chapitre VII: AdaBoost.

– Chapitre VIII: kNN: k-Nearest Neighboos.

– Chapitre IX: Naïves Bayes.

– Chapitre X: CART: Classification and Regression Trees.

Processus stochastiques et applications de Nicolas Bouleau (284 pages)

add

Un ouvrage purement théorique qui balaie de manière assez complète tout ce qui touche aux processus stochastiques. Ici vous serez bombardé de théorème, définitions et propriétés, vous permettant ainsi d’avoir une référence solide et en faisant un livre principalement orienté pour les étudiants et les développeurs de nouvelles méthodologies.

Contenu:

– Chapitre I: Généralités sur les processus.

– Chapitre II: Chaîne de Markov.

– Chapitre III: Processus de sauts markoviens et processus ponctuels.

– Chapitre IV: Processus à accroissements indépendants. Mouvements brownien. Processus de Lévy.

– Chapitre V: Processus du second ordre, filtrage et prédiction.

– Chapitre VI: Introduction au calcul d’Ito.

– Chapitre VII: Équations différentielles stochastiques.

– Chapitre VIII: Processus de Markov et diffusions.

Séries chronologiques de Jean-Jacques Droesbeke, Bernard Fichet, Philippe Tassi (300 pages)

add

Un ouvrage dont la force est la faiblesse et sa quasi-exhaustivité. En effet, il fournit tous les théorèmes, définitions et propriétés associés aux modèles ARMA, ARIMA et leur extension mais parfois ne va pas assez loin sur certaines méthodes d’estimations, ce qui peut en laisser certains sur leur faim. Ceci étant dit, il n’en demeure pas moins un livre sur lequel se baser pour bien étudier les séries chronologiques, notamment avec une introduction sur leur naissance bien agréable et quelques exemples pratiques permettant de s’y retrouver dans les différentes phases d’analyse.

Contenu:

– Chapitre I: La place des séries chronologiques en statistique.

– Chapitre II: Généralités sur les processus du second ordre.

– Chapitre III: Processus univarié AR, MA, ARMA.

– Chapitre IV: Estimation des paramètres de modèles ARMA.

– Chapitre V: Identification et vérification.

– Chapitre VI: Processus multidimensionnels.

– Chapitre VII: Modèles non stationnaires, séries univariées et multivariées.

– Chapitre VIII: Quatre cas pratiques.

Contributions to probability and statistics de Ingram Olkin, Wassily Hoeffding, Sudhish G. Ghurye, William G. Madow et Henry B. Mann (517 pages)

add

Ce livre est un recueil de publications célèbres. Plusieurs d’entre elles sont régulièrement citées en référence ou bibliographie, ce qui en fait un ouvrage assez important à avoir. Cependant, il est devenu rare sur le marché.

Contenu:

– Chapitre I: Harold Hotelling.

– Chapitre II: Harold Hotelling – A leader in Mathematical Statistics.

– Chapitre III: The Teaching of Statistics.

– Chapitre IV: Bibliography of Harold Hotelling.

– Chapitre V: Some Remarks on the Design and Analysis of Factorial Experiments.

– Chapitre VI: A Limitation of Optimum Property of the Sequential Probability.

– Chapitre VII: Decision Theroy and the Choice of a Level of Significance for the t-Test.

– Chapitre VIII: Simultaneous Comparison fo the Optimum and Sign Tests of a Normal Mean.

– Chapitre IX: Some Stochastic Models in Ecology and Epidemiology.

– Chapitre X: Random Orderings and Stochastic Theories of Responses.

– Chapitre XI: On a Method of Constructing Steiner’s Triple Systems.

– Chapitre XII: A Representation of Hotelling’s T ^2 and Anderson’s Classification Statistic W in Terms of Simple Statistics.

– Chapitre XIII: Euler Squares.

– Chapitre XIV: A Compromise Between Biais and Variance in the Use of Nonrepresentative Samples.

– Chapitre XV: Construction of Fractional Factorial Designs of the Mixed second and third Series.

– Chapitre XVI: Application of Boudary Theory to Sums of Independent Random Variables.

– Chapitre XVII: Some k-Sample Rank_order Tests.

– Chapitre XVIII: Characterization of Some Location and Scale Parameter Families of Distributions.

– Chapitre XIX: Generalization of Some Results for Inversion of Partitioned Matrices.

– Chapitre XX: Selecting a Subset Containing the Best of Several Binomial Populations.

– Chapitre XXI: Consistency of Maximum Likelihood Estimation of Discrete Distributions.

– Chapitre XXII: An Upper Bound for the Variance of Kendall’s « Tau » and of Related Statistics.

– Chapitre XXIII: On the Amount of Information Contained in a \sigma-Field.

– Chapitre XXIV: The Evergreen Correlation Coefficient.

– Chapitre XXV: Robust Tests for Equality of Variances.

– Chapitre XXVI: Intrablock and Interblock Estimates.

– Chapitre XXVII: A Bivariate Chebyshev Inequality for Symmetric Convex Polygons.

– Chapitre XXVIII: Notes on the Numerical Convergence of Iterative Processes.

– Chapitre XXIX: Prediction in Future Samples.

– Chapitre XXX: Ranking in Triple Comparisons.

– Chapitre XXXI: A Statistical Screening Problem.

– Chapitre XXXII: On the Power of Some Rank-order Two-sample Tests.

– Chapitre XXXIII: Some Non-parametric Analogs of « Normal » ANOVA, MANOVA, and of Studies in « Normal » Association.

– Chapitre XXXIV: Relations Between Certain Incomplete Block Designs.

– Chapitre XXXV: Infinitesimal Renewal Processes.

– Chapitre XXXVI: Classification Procedures Bases on Dichotomous Response Vectors.

– Chapitre XXXVII: Multiple Regression.

– Chapitre XXXVIII: An Optimum Replicated Two-sample Test Using Ranks.

– Chapitre XXXIX: A survey of Sampling from Contamined Distributions.

– Chapitre XXXX: Multidimensional Statistical Scatter.

– Chapitre XXXXI: Convergence of the Empiric Distribution Function on Half-spaces.

– Chapitre XXXXII: Analysis of Two-factor Classifications With Respect to Life Tests.

SAS l’essentiel d’Olivier Decourt (264 pages)

add

L’Ouvrage de base du codage sous SAS pour les francophones et écrit par Olivier Decourt, un grand monsieur toujours disponible pour répondre aux questions des rookies se baladant sur le net via le forum developpez.net. Le livre parcours les principales fonctionnalités de SAS et présente également une présentation très intéressante de la manière dont marche l’architecture. Il est plus orienté pour les débutants mais même une programmeur développé pourra y trouver quelques informations pour compléter ses connaissances sur SAS.

Contenu:

– Chapitre I: Environnement.

– Chapitre II: Données: stockages et organisations.

– Chapitre III: Programmes SAS: contenu et logique.

– Chapitre IV: Traitements utilitaires.

– Chapitre V: Requêtes et extractions.

– Chapitre VI: Création de variables.

– Chapitre VII: SQL: une autre manière de créer des requêtes.

– Chapitre VIII: Fusions et tables.

– Chapitre IX: Import de fichiers externes.

– Chapitre X: Exports.

– Chapitre XI: Statistiques et graphiques.

– Chapitre XII: Langage macro et macro-variables.

– Chapitre XIII: Macro-programmes.

Reporting avec SAS d’Olivier Decourt (214 pages)

add

Une sorte de suite à l’autre ouvrage d’Olivier Decourt: « SAS l’essentiel », et axée, cette fois-ci, sur tout ce qui est templating et reporting. Excellemment précieux pour ceux qui travaillent sous SAS et qui font énormément d’automatisation d’analyses statistique.

Contenu:

– Chapitre I: ODS: organiser et diffuser des sorties.

– Chapitre II: La personnalisation avancée des sorties.

– Chapitre III: Les listes, les tableaux, les rapports.

– Chapitre IV: Les graphiques.

– Chapitre V: La gestion des mises en forme.

– Chapitre VI: La gestion a posteriori des sorties.

– Chapitre VII: La mise en œuvre dans l’architecture SAS BI.

– Chapitre VIII: Les grandes avancées disponibles dans SAS 9.2.

The R Book de Michael J. Crawley (1 051 pages)

add

Le mastodonte de la programmation sous R. Tout le b.a.-ba concentré dans un seul livre ainsi que tout ce qui touche à la programmation avancée et de fonctions. Le tout enrobé de syntaxes précieuses pour la sortie de résultats statistiques. Fréquemment accompagné d’exemples, l’introduction va même jusqu’à une présentation synthétique de l’ouvrage pour que les débutants et les habitués du langage R puissent focaliser sur tel ou tel partie du livre. Tout en anglais, il faut le préciser, il reste très accessible même pour ceux n’étant pas à l’aise avec cette langue.

Contenu:

– Chapitre I: Getting Started.

– Chapitre II: Essentials of the R language.

– Chapitre III: Data Input.

– Chapitre IV: Dataframes.

– Chapitre V: Graphics.

– Chapitre VI: Tables.

– Chapitre VII: Mathematics.

– Chapitre VIII: Classical Tests.

– Chapitre IX: Statistical Modelling.

– Chapitre X: Regression.

– Chapitre XI: Analysis of Variance.

– Chapitre XII: Analysis of Covariance.

– Chapitre XIII: Generalized Linear Models.

– Chapitre XIV: Count Data.

– Chapitre XV: Count Data in Tables.

– Chapitre XVI: Proportions Data.

– Chapitre XVII: Binary Response Variables.

– Chapitre XVIII: Generalized Additive Models.

– Chapitre XIX: Mixed-Effects Models.

– Chapitre XX: Non-Linear Regression.

– Chapitre XXI: Meta-Analysis.

– Chapitre XXII: Bayesian Statistics.

– Chapitre XXIII: Tree Models.

– Chapitre XXIV: Time Series Analysis.

– Chapitre XXV: Multivariate Statistics.

– Chapitre XXVI: Spatial Statistics.

– Chapitre XXVII: Survival Analysis.

– Chapitre XXVIII: Simulation Models.

– Chapitre XXIX: Changing the Look of Graphics.

♦ Méthodes et modèles en statistique non paramétrique – exposé fondamental de Philippe Capéraà et Bernard Van Custem (359 pages)

add

L’Ouvrage de référence de la statistique non paramétrique. Difficile de vouloir faire l’anticonformiste en critiquant un livre autant cité dans de multiples articles. Le livre offre un tour d’horizon assez complet sur la théorie qui se cache derrière les tests différentiels non paramétriques accompagné de la présentation d’un grand nombre de ces tests. Le tout étant enrobé d’une écriture simple et d’un style particulièrement agréable avec énormément d’informations très précieuses pour la compréhension. A conseiller fortement.

Contenu:

– Chapitre I: Introduction.

– Chapitre II: Statistiques d’ordre.

– Chapitre III: Exemples d’utilisation des statistiques d’ordre.

– Chapitre IV: Problèmes à deux échantillons.

– Chapitre V: Problèmes à un échantillon.

– Chapitre VI: Comparaison de k traitements.

– Chapitre VII: Tests d’indépendance. Mesures d’association.

– Chapitre VIII: Tests d’adéquation.

♦ Analyse statistique des données de survie de Catherine Hill, Catherine Com-Nougué, Andrew Karmar, Thierry Moreau, John O’Quigley, Rachid Senoussi et Claude Chastang (190 pages)

add.png

Un autre livre célèbre présenté sur ce site. Il s’agit d’un classique de l’analyse de survie qui couvre l’intégralité des outils utiles et nécessaires pour l’exploitation des données de survie. Le livre contient également en annexe des informations précieuses sur l’estimation par maximum de vraisemblance et sur l’usage des tests de rang de Wilcoxon et de Savage. Fortement recommandé pour ceux qui veulent une excellente référence sur le sujet.

Contenu:

– Chapitre 1: Définitions des fonctions de survie

– Chapitre 2: Échantillon tiré d’une seule population

– Chapitre 3: Comparaison e la survie de deux ou plusieurs groupes – approche non-paramétrique

– Chapitre 4: Modèles de survie paramétriques

– Chapitre 5: Modèle de Cox – Approche semi-paramétrique

– Chapitre 6: Nombre de sujets nécessaire

– Chapitre 7: Adéquation des modèles de survies

– Chapitre 8: Les modèles de survie en recherche clinique

\bullet Les pages webs à visiter absolument

– Les présentations .ppt en ligne de Mr Stéphane Tufféry: http://blogperso.univ-rennes1.fr/stephane.tuffery/public/

– Les cours en ligne de Mr Ricco Rakotomolala: http://eric.univ-lyon2.fr/~ricco/cours/

– La chaîne youtube de Mr Bruno Falissard: https://www.youtube.com/user/brunofalissardconf

– Les fiches en ligne de Mr Jean-Yves Baudot: http://www.jybaudot.fr/a_general/indexstats.html

– Les articles en ligne de Mme Véronique Bourcier: https://thesasreference.wordpress.com/

\bullet Les forums pratiques et chaudement recommandés

– Forum spécialisé dans tout ce qui relève de la pratique de l’analyse de données: http://statistiques.forumpro.fr/

– Forum pour toutes les questions touchant aux mathématiques d’un point de vue théorique: http://www.les-mathematiques.net/phorum/

– Forum à consulter lorsque vous êtes perdus avec les syntaxes de vos propres programmes: http://www.developpez.com/

– Forum spécialisé dans tout qui touche de prés ou de loin à R: http://forums.cirad.fr/logiciel-R/

\bullet Les sites web des copains, car eux aussi font des trucs vraiment très sympas!

– La chaîne youtube de ce bon Niaboc: https://www.youtube.com/channel/UCWty1tzwZW_ZNSp5GVGteaA/videos

– Le site web de superA.D.: https://superstatisticienne.fr/r-sur-le-web-le-package-shiny/

La machine à vecteurs de support

add.png

\bullet Présentation:

La Machine à Vecteurs de Supports (SVM), également connue sous le nom de séparateurs à vaste marge, a été élaborée par Vladimir Vapnik en 1995. Elle est utilisée pour la classification d’une variable réponse binaire Y à partir d’une matrice \mathbf{X} = (X ^1, \cdots, X ^P) de P variables explicatives continues.

Les SVM s’appuient sur la notion de marge maximale et la notion de fonction noyau (kernel), permettant de traiter des problèmes de discrimination non-linéaire en reformulant le problème de classement comme un problème d’optimisation quadratique.

Les SVM font parties des techniques d’apprentissage supervisé et nécessitent le passage par une méthode de validation afin de généraliser leur résultat. En effet, il s’agit d’un outil très puissant permettant de modéliser avec une extrême précision un phénomène en fonction du noyau considéré, augmentant ainsi fortement le risque de surapprentissage.

\bullet Les machines à vecteurs de support:

Hypothèse préliminaire: Y binaire, \mathbf{X} continue.

L’Algorithme:

Le calcul des coefficients via les SVM est particulièrement coûteux étant donné qu’il se base sur la recherche d’une solution optimale au travers de noyau pouvant rallonger les ressources de calcul demandée, notamment pour le noyau polynomial. De plus, l’idée principale des SVM est d’estimer les vecteurs supports qui représentent les pondérations associées à chaque observation afin de déterminer leur influence sur l’élaboration de la frontière décisionnelle. En outre, plus il y a d’observations à considérer et plus le système associé à l’estimation de ces pondérations est important.

Quatre étapes sont à suivre pour estimer les coefficients \alpha_i ^*, i \in [1,n^*], qui ne correspondent donc pas aux P variables mais à nos n^* < n individus pour lesquels l’influence est significative (ceux associés à un vecteur support négligeable sont alors supprimés du modèle prédictif final).

– Étape 0: Définir le noyau et les paramètres qui lui sont associés.

– Étape 1: Déterminer l’équation des vecteurs de support à partir des paramètres définis en étape 0,

Q_{\alpha} = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n \alpha_{i_1} \alpha_{i_2} Y_{i_1} Y_{i_2} K(X_{i_1}, X_{i_2})

– Étape 2: Déterminer la matrice à résoudre et dont la ième ligne est de la forme,

\alpha_i ^* = \frac{Q_{\alpha}}{\partial Q_{\alpha_i}} = \alpha_i - \frac{1}{2} \sum_{i_2 = 1} ^n \alpha_{i_2} Y_i Y_{i_2} K(X_i, X_{i_2}) = 1, \forall i \in [1,n]

, où \alpha = (\alpha_1, \cdots, \alpha_n) représente le vecteur des multiplicateurs de Lagrange.

– Étape 3: Rajouter à la matrice, conçue en étape 2, le vecteur en ligne et basé sur la contrainte de construction des \alpha, \sum_{i = 1} ^n Y_i \alpha_i = 0. Ce système est alors noté \blacksquare.

– Étape 4: Résoudre le système \blacksquare via les multiplicateurs de Lagrange afin d’obtenir les estimations (\alpha_1 ^*, \cdots, \alpha_n ^*).

Équation prédictive:

L’Algorithme permet de déterminer les Lagrangiens \alpha ^* soit les coefficients d’influence de nos vecteurs supports associés aux différentes observations. Cependant, les estimations \alpha ^* ne sont pas suffisants pour la prédiction d’une nouvelle observation. Définissons E ^* l’ensemble des observations associées à un vecteur support non nul et dont l’influence doit être considérée pour la prédiction. L’Équation de prédiction est alors,

f(x) = \sum_{i \in E ^*} \alpha_i ^* Y_i < X_i, x> + \beta_0

Où,

x est la notation utilisée pour désigner les valeurs caractéristiques associées aux variables explicatives considérées pour la nouvelle observation à prédire,

<.,.> le produit scalaire,

\beta_0 le coefficient constant obtenu par,

i; \beta_0 = Y_i - \sum_{p = 1} ^P X_i ^p \beta_p

, et dont la valeur ne varie pas quelque soit l’observation i utilisée.

\beta = (\beta_1, \cdots, \beta_P) les coefficients obtenus par,

\forall p \in [1,P], \beta_p = \sum_{i = 1} ^n \alpha_i ^* X_i ^p

Le choix du noyau:

Deux cas sont à distinguer lors de l’usage des SVM: le cas linéairement séparable et non linéairement séparable. Pour le premier, cela revient à construire une frontière linéaire optimale selon la notion de marge maximale. Le noyau est alors le noyau linéaire de formulation,

K(X_{i_1},X_{i_2}) = X{i_1} \cdot X_{i_2}

Pour le second cas, l’idée est de passer la construction d’une nouvelle dimension qui va envoyer les données dans un espace où la séparation est possible. Trois noyaux principaux existent parmi la longue liste disponible,

– le noyau polynomial K(X_{i_1},X_{i_2}) = (\gamma \cdot X_{i_1} ^T \cdot X_{i_2} + w_0) ^d,

– le noyau radial K(X_{i_1},X_{i_2}) = e^{- \gamma \cdot \Vert X_{i_1} - X_{i_2} \Vert ^2}, avec,

\Vert X_{i_1} - X_{i_2} \Vert = \sqrt{<X_{i_1},X_{i_1}> + <X_{i_2},X_{i_2}> - 2 <X_{i_1},X_{i_2}>}

– le noyau sigmoïdale K(X_{i_1},X_{i_2}) = tanh(\gamma \cdot X_{i_1} ^T \cdot X_{i_2} + w_0).

\gamma, w_0 et d sont les paramètres à figer.

La sélection de variable:

Le choix des variables à retenir dans le modèle final amène à l’introduction du principe de « marge ». La marge correspond à la distance entre la frontière construite par le modèle et ses vecteurs supports. En général, un modèle est de bonne qualité si la marge est suffisamment éloignée des vecteurs supports, permettant ainsi plus d’aisance dans sa généralisation.

La sélection des variables se fait en fonction de la marge associée et notamment de sa sensibilité. L’Idée est de s’orienter vers un modèle dont la marge est la plus robuste possible.

La marge se calcul selon la formule suivante,

m = \frac{2}{|| \beta ||} = \frac{2}{\sqrt{\sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n \alpha_{i_1} \alpha_{i_2} Y_{i_1} Y_{i_2} <X_{i_1},X_{i_2}>}}

En définissant un facteur échelle v qui est en fait le vecteur unitaire pondérant le noyau utilisé K, le système à résoudre pour définir la sensibilité de la marge est alors,

| \frac{\partial || w || ^2}{\partial v} | = | -2 \sum_{i_1, i_2} \alpha_{i_1} ^* \alpha_{i_2} ^* Y_{i_1} Y_{i_2} \frac{\partial K(v X_{i_1},v X_{i_2})}{\partial v} |

Généralisation au cas multiclasse:

Les SVM ne sont pas directement transposables au cas multiclasse du fait d’une formule d’estimation basée sur un principe binaire. Pour se faire, l’idée est d’appliquer une approche du type « 1-contre-1 » et qui consiste, pour K classes, à construire \frac{K \times (K - 1)}{2} classifieurs et d’avoir recours à un schéma de vote afin de décider de la classe de prédiction.

\bullet Annexe théorique:

Nous présentons ici une esquisse de la démarche méthodologique conduisant à l’algorithme d’estimation des coefficients \alpha d’un modèle basé sur les SVM.

Nous nous plaçons dans l’espace E munit du produit scalaire. L’objectif est de construire une fonction h qui sépare au mieux \mathbf{X}.

Le cas linéairement séparable:

Le plus simple, il s’écrit sous la forme suivante,

h(\mathbf{X}) = w ^t \cdot \mathbf{X} + w_0

Avec,

h(X_i) \geq 0 \Rightarrow Y_i = 1,

h(X_i) < 0 \Rightarrow Y_i = -1,

La frontière de décision h(\mathbf{X}) = 0 est un hyperplan, appelé hyperplan séparateur ou séparatrice. L’objectif est d’avoir,

\forall i \in [1,n], y_i \cdot h(X_i) \geq 0

Notion de marge maximale:

L’équation du séparateur linéaire montre que nous pouvons générer une infinité de classifieurs, la notion de marge prend alors toute son importance. Elle se définit comme étant la distance entre l’hyperplan et les observations les plus proches qui sont en fait nos vecteurs supports. L’hyperplan, à déterminer et qui maximise la marge, est donné par,

arg \hspace*{1mm} max_{w,w_0} min_i {\parallel \mathbf{X} - X_i \parallel : \mathbf{X} \in \mathbb{R} ^n / h(\mathbf{X}) = w^t \cdot \mathbf{X} + w_0 = 0}

Formulation primale:

La distance de X_i à l’hyperplan est donnée par sa projection orthogonale sur l’hyperplan,

\frac{y_i \cdot (w^T \cdot X_i + w_0)}{\parallel w \parallel}

La formule que nous recherchons se construit sous la contrainte:

arg \hspace*{1mm} max_{w,w_0} {\frac{1}{\parallel w \parallel} min_i [y_i \cdot (w^t \cdot X_i + w_0)]}

Afin de faciliter l’optimisation, nous choisissons de normaliser w et w_0, de telle manière à ce que les observations à la marge (\mathbf{X}_+ pour les vecteurs supports sur la frontière positive, et \mathbf{X}_- pour ceux situés sur la frontière opposée) satisfassent,

w^t \cdot \mathbf{X}_+ + w_0 = +1

w^t \cdot \mathbf{X}_- + w_0 = -1

La marge à maximiser vaut alors \frac{1}{\parallel w \parallel}. La formulation dite primale des SVM est ainsi,

Minimiser \frac{1}{2} \parallel w \parallel ^2 sous contraintes que y_i \cdot (w^t \cdot X_i + w_0) \geq 1

Ceci peut se résoudre par la méthode classique des multiplicateurs de Lagrange \alpha, où le lagrangien est donné par,

L(w,w_0,\alpha) = \frac{1}{2} \parallel w \parallel ^2 - \sum_{i = 1} ^n \alpha_i \cdot {y_i \cdot (w^t  \cdot X_i + w_0) - 1} \hspace*{10mm} (\blacksquare)

Formulation duale:

Le lagrangien doit être minimisé par rapport à w et w_0, et maximisé par rapport à \alpha. Pour cela nous posons notre problème sous forme duale. Nous cherchons ainsi à annuler les dérivées partielles du lagrangien, selon les conditions de Kuhn-Tucker, Nous obtenons,

\sum_{i = 1} ^n \alpha_i \cdot y_i \cdot X_i = w^*

\sum_{i = 1} ^n \alpha_i \cdot y_i = 0

En réinjectant ces valeurs dans l’équation (\blacksquare), nous avons la formulation duale suivante,

Maximiser L(\alpha) = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \sum_{i_1,i_2} ^n \alpha_{i_1} \cdot \alpha_{i_2} \cdot y_{i_1} \cdot y_{i_2} \cdot X_{i_1} ^t \cdot X_{i_2}

, sous les contraintes \alpha_i \geq 0, et \sum_{i = 1} ^n \alpha_i y_i.

Ce qui nous donne les multiplicateurs de Lagrange optimaux \alpha_i ^*. L’Equation de l’hyperplan solution devient alors,

h(x) = \sum_{i = 1} ^n \alpha_i ^* \cdot y_i \cdot (x \cdot X_i) + w_0

Le cas non linéairement séparable:

Finalement l’hyperplan solution ne dépend que du produit scalaire entre \mathbf{X} et les vecteurs supports. Cette remarque est à l’origine de la deuxième innovation majeure des SVM: l’utilisation de la fonction noyau pour projeter \mathbf{X} dans un espace dit de redescription.

Plus formellement, nous appliquons aux vecteurs d’entrée \mathbf{X}, une transformation non-linéaire notée \varphi.

Dans cet espace, nous cherchons alors l’hyperplan,

h(\mathbf{X}) = w^t \cdot \varphi(\mathbf{X}) + w_0

, qui vérifie \forall i \in [1,n], y_i \cdot h(X_i) > 0.

En utilisant la même procédure que dans le cas sans transformation, nous aboutissons au problème d’optimisation suivant,

Maximiser L(\alpha) = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \sum_{i_1,i_2} ^n \alpha_{i_1} \cdot \alpha_{i_2} \cdot y_{i_1} \cdot y_{i_2} \cdot \varphi(X_{i_1})^t \cdot \varphi(X_{i_2})

, sous contraintes \alpha_i \geq 0, et \sum_{i = 1} ^n \alpha_i \cdot y_i = 0.

La fonction noyau:

Le problème de la formulation ci-dessus est qu’elle implique un produit scalaire entre vecteurs dans l’espace de redescription et de dimension élevée, ce qui est couteux en termes de calculs. Pour résoudre ce problème, nous utilisons une astuce connue sous le nom de « Kernel trick » consistant à utiliser une fonction noyau vérifiant,

K(X_{i_1}, X_{i_2}) = \varphi(X_{i_1})^t \cdot \varphi(X_{i_2})

D’où l’expression de l’hyperplan séparateur en fonction de la fonction noyau,

h(x) = \sum_{i = 1} ^n \alpha_i ^* \cdot y_i \cdot K(X_i, x) + w_0

L’intérêt de la fonction noyau est double,

– le calcul se fait dans l’espace d’origine, ceci est beaucoup moins coûteux qu’un produit scalaire en grande dimension,

– la transformation \varphi n’a pas besoin d’être connue explicitement, seule la fonction noyau intervient dans les calculs, augmentant nettement les possibilités de discrimination.

Enfin, en accords avec le théorème de Mercer, \varphi doit être symétrique et semi-définie positive. L’approche par Kernel trick généralise ainsi l’approche linéaire.

Extension aux marges souples:

Cependant, il n’est pas non plus toujours possible de trouver une séparatrice linéaire dans l’espace de redescription. Il se peut aussi que des observations soient mal étiquetées et que l’hyperplan séparateur ne soit pas la meilleure solution au problème de classement.

Nous nous ramenons alors à la technique dite de marge souple, qui tolère les mauvais classements. La méthode cherche un hyperplan séparateur qui minimise le nombre d’erreurs grâce à l’introduction de variables ressorts \xi_i, qui permettent de relâcher les contraintes sur les vecteurs d’apprentissage:

\forall \xi_i \geq 0, i \in [1,n], y_i \cdot (w^t \cdot X_i + w_0) \geq 1 - \xi_i

Avec les contraintes précédentes, le problème d’optimisation est modifié par un terme de pénalité qui agit directement sur les variables ressorts élevées et de formulation:

Minimiser \frac{1}{2} \parallel w \parallel ^2 + C \cdot \sum_{i = 1} ^n \xi_i, C > 0

, où C est une constante qui permet de contrôler le compromis entre nombre d’erreurs de classement et la largeur de la marge.

\bullet Exemple:

Soit le jeu de données suivant,

add

Certains le reconnaîtront, il s’agit de la fonction XOR également appelée fonction OU exclusif. Essayons de résoudre le problème en fonction des trois fonctions noyaux décrites pour le cas non linéairement séparable. La matrice de données qui lui est associée est la suivante,

\mathbf{X} = \begin{pmatrix} Y & X1 & X2 \\ -1 & -1 & -1 \\ 1 & -1 & 1 \\ 1 & 1 & -1 \\ -1 & 1 & 1 \\ \end{pmatrix}

Cas du noyau sigmoïdale:

Soit le noyau sigmoïdale de constante C = 1 et de paramètre \gamma = 1,

K(X_{i_1}, X_{i_2}) = tanh(1 + X_{i_1} ^1 X_{i_2} ^1 + X_{i_1} ^2 X_{i_2} ^2)

Nous calculons pour chaque combinaison d’observations le valeur du noyau,

\mathbf{Q} = \begin{pmatrix} i_1 & i_2 & Y_{i_1} \times Y_{i_2} \times K(X_{i_1}, X_{i_2}) \\ 1 & 1 & 0.9950548 \\ 1 & 2 & -0.7615942 \\ 1 & 3 & -0.76159421 \\ 1 & 4 & -0.7615942 \\ 2 & 1 & -0.7615942 \\ 2 & 2 & 0.9950548 \\ 2 & 3 & -0.7615942 \\ 2 & 4 & -0.7615942 \\ 3 & 1 & -0.7615942 \\ 3 & 2 & -0.7615942 \\ 3 & 3 & 0.9950548 \\ 3 & 4 & -0.7615942 \\ 4 & 1 & -0.7615942 \\ 4 & 2 & -0.7615942 \\ 4 & 3 & -0.7615942 \\ 4 & 4 & 0.9950548 \\ \end{pmatrix}

En rappelant la formule générale des Q_{\alpha},

Q_{\alpha} = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \cdot \sum_{i_1, i_2} ^n \alpha_{i_1} \alpha_{i_2} Q(i_1, i_2)

, nous obtenons la dérivation suivante,

\alpha_i ^* = \frac{\partial Q_{\alpha}}{\partial \alpha_i} = 1

\Rightarrow \alpha_i ^* = 1 - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2) = 1

\Rightarrow \alpha_i ^* = - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2)

Si nous raisonnons en termes de matrice afin de simplifier les calculs, cela revient à transposer les éléments de \mathbf{Q} en fonction de i_1. Nous obtenons alors la matrice,

\begin{pmatrix} \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -0.9950548 & 0.7615942 & 0.7615942 & 0.7615942 \\ 0.7615942 & -0.9950548 & 0.7615942 & 0.7615942 \\ 0.7615942 & 0.7615942 & -0.9950548 & 0.7615942 \\ 0.7615942 & 0.7615942 & 0.7615942 & -0.9950548 \\ \end{pmatrix}

Comme sous sommes sous contraintes que \sum_{i = 1} ^5 Y_i \times \alpha_i ^* = 0, nous rajoutons la condition au système à résoudre ainsi que la valeur de l’égalité (qui vaut -1 car, pour respecter le passage des équations à la forme matricielle du problème, nous faisons pivoter le coefficient constant associé à la somme des \alpha_i à droite),

\mathbf{S} = \begin{pmatrix} Y_t & \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -1 & -0.9950548 & 0.7615942 & 0.7615942 & 0.7615942 \\ -1 & 0.7615942 & -0.9950548 & 0.7615942 & 0.7615942 \\ -1 & 0.7615942 & 0.7615942 & -0.9950548 & 0.7615942 \\ -1 & 0.7615942 & 0.7615942 & 0.7615942 & -0.9950548 \\ 0 & 1 & -1 & -1 & 1 \end{pmatrix}

Nous résolvons ce système avec une régression linéaire et obtenons,

\alpha_1 ^* = \alpha_2 ^* = \alpha_3 ^* = \alpha_4 ^* = -0.7754

Tous nos coefficients sont différents de 0, nous en déduisons que pour ce noyau les quatre observations jouent un rôle de vecteur support.

Maintenant que les coefficients ont été estimés, nous pouvons déterminer la valeur de prédiction de X_1. Nous calculons dans un premier temps les coefficients \beta associés aux \alpha ^*,

\beta = (-0.7754 \times (-1) \times (-1) + (-0.7754) \times 1 \times (-1) + (-0.7754) \times 1 \times 1 + (-0.7754) \times (-1) \times 1, -0.7754 \times (-1) \times (-1) + (-0.7754) \times 1 \times 1 + (-0.7754) \times 1 \times (-1) + (-0.7754) \times (-1) \times 1)

= (0,0)

\Rightarrow \beta_0 = Y_1 - X_1 ^t \times \beta = Y_1 = -1

Nous pouvons maintenant déterminer la prédiction de X ^1 sur la base du modèle construit,

f(X_1) = \sum_{i = 1} ^4 \alpha_i ^* Y_i <X_i,X_1> + \beta_0

= -0.7754 \times (-1) \times ((-1) ^2 + (-1) ^2) + (-0.7754) \times 1 \times (-1 \times (-1) + (-1) \times 1) + (-0.7754) \times 1 \times ((-1) \times 1 + (-1) \times (-1)) + (-0.7754) \times (-1) \times ((-1) \times 1 + (-1) \times 1) + (-1)

= 0.7754 \times 2 - 0.7754 \times 0 -0.7754 \times 0 + 0.7754 \times (-2) - 1

= 1.5508 - 1.5508 - 1

\Rightarrow f(X_1) = - 1

Cas du noyau radial:

Soit le noyau radial de paramètre \gamma = 1,

K(X_{i_1}, X_{i_2}) = e ^{|| X_{i_1} - X_{i_2} || ^2}

Nous calculons pour chaque combinaison d’observations le valeur du noyau,

\mathbf{Q} = \begin{pmatrix} i_1 & i_2 & Y_{i_1} \times Y_{i_2} \times K(X_{i_1}, X_{i_2}) \\ 1 & 1 & 1 \\ 1 & 2 & -0.0183156389 \\ 1 & 3 & -0.0183156389 \\ 1 & 4 & 0.0003354626 \\ 2 & 1 & -0.0183156389 \\ 2 & 2 & 1 \\ 2 & 3 & 0.0003354626 \\ 2 & 4 & -0.0183156389 \\ 3 & 1 & -0.0183156389 \\ 3 & 2 & 0.0003354626 \\ 3 & 3 & 1 \\ 3 & 4 & -0.0183156389 \\ 4 & 1 & 0.0003354626 \\ 4 & 2 & -0.0183156389 \\ 4 & 3 & -0.0183156389 \\ 4 & 4 & 1 \\ \end{pmatrix}

En rappelant la formule générale des Q_{\alpha},

Q_{\alpha} = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \cdot \sum_{i_1, i_2} ^n \alpha_{i_1} \alpha_{i_2} Q(i_1, i_2)

, nous obtenons la dérivation suivante,

\alpha_i ^* = \frac{\partial Q_{\alpha}}{\partial \alpha_i} = 1

\Rightarrow \alpha_i ^* = 1 - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2) = 1

\Rightarrow \alpha_i ^* = - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2)

Si nous raisonnons en termes de matrice afin de simplifier les calculs, cela revient à transposer les éléments de \mathbf{Q} en fonction de i_1. Nous obtenons alors la matrice,

\begin{pmatrix} \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -1 & 0.0183156389 & 0.0183156389 & -0.0003354626 \\ 0.0183156389 & -1 & -0.00032354626 & 0.0183156389 \\ 0.0183156389 & -0.0003354626 & -1 & 0.0183156389 \\ -0.0003354626 & 0.0183156389 & 0.0183156389 & -1 \\ \end{pmatrix}

Comme sous sommes sous contraintes que \sum_{i = 1} ^5 Y_i \times \alpha_i ^* = 0, nous rajoutons la condition au système à résoudre ainsi que la valeur de l’égalité (qui vaut -1 car, pour respecter le passage des équations à la forme matricielle du problème, nous faisons pivoter le coefficient constant associé à la somme des \alpha_i à droite),

\mathbf{S} = \begin{pmatrix} Y_t & \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -1 & -1 & 0.0183156389 & 0.0183156389 & -0.0003354626 \\ -1 & 0.0183156389 & -1 & -0.00032354626 & 0.0183156389 \\ -1 & 0.0183156389 & -0.0003354626 & -1 & 0.0183156389 \\ -1 & -0.0003354626 & 0.0183156389 & 0.0183156389 & -1 \\ 0 & 1 & -1 & -1 & 1 \end{pmatrix}

Nous résolvons ce système avec une régression linéaire et obtenons,

\alpha_1 ^* = \alpha_2 ^* = \alpha_3 ^* = \alpha_4 ^* = 1.038

Tous nos coefficients sont différents de 0, nous en déduisons que pour ce noyau les quatre observations jouent un rôle de vecteur support.

Maintenant que les coefficients ont été estimés, nous pouvons déterminer la valeur de prédiction de X_1. Nous déterminons dans un premier temps les coefficients \beta associé aux \alpha ^*,

\beta = (1.038 \times (-1) \times (-1) + 1.038 \times 1 \times (-1) + 1.038 \times 1 \times 1 + 1.038 \times (-1) \times 1, 1.038 \times (-1) \times (-1) + 1.038 \times 1 \times 1 + 1.038 \times 1 \times (-1) + 1.038 \times (-1) \times 1)

= (0,0)

\Rightarrow \beta_0 = Y_1 - X_1 ^t \times \beta = Y_1 = -1

Nous pouvons maintenant déterminer la prédiction de X ^1 sur la base du modèle construit,

f(X_1) = \sum_{i = 1} ^4 \alpha_i ^* Y_i <X_i,X_1> + \beta_0

= 1.038 \times (-1) \times ((-1) ^2 + (-1) ^2) + 1.038 \times 1 \times (-1 \times (-1) + (-1) \times 1) + 1.038 \times 1 \times ((-1) \times 1 + (-1) \times (-1)) + 1.038 \times (-1) \times ((-1) \times 1 + (-1) \times 1) + (-1)

= - 1.038 \times 2 + 1.038 \times 0 + 1.038 \times 0 - 1.038 \times (-2) - 1

= -2.076 + 2.076 - 1

\Rightarrow f(X_1) = - 1

Cas du noyau polynomial:

Soit le noyau polynomial de degré 2, de constante C = 1 et de paramètre \gamma = 1,

K(X_{i_1}, X_{i_2}) = (1 + X_{i_1} ^1 X_{i_2} ^1 + X_{i_1} ^2 X_{i_2} ^2) ^2

Nous calculons pour chaque combinaison d’observations le valeur du noyau,

\mathbf{Q} = \begin{pmatrix} i_1 & i_2 & Y_{i_1} \times Y_{i_2} \times K(X_{i_1}, X_{i_2}) \\ 1 & 1 & 9 \\ 1 & 2 & -1 \\ 1 & 3 & -1 \\ 1 & 4 & 1 \\ 2 & 1 & -1 \\ 2 & 2 & 9 \\ 2 & 3 & 1 \\ 2 & 4 & -1 \\ 3 & 1 & -1 \\ 3 & 2 & 1 \\ 3 & 3 & 9 \\ 3 & 4 & -1 \\ 4 & 1 & 1 \\ 4 & 2 & -1 \\ 4 & 3 & -1 \\ 4 & 4 & 9 \\ \end{pmatrix}

En rappelant la formule générale des Q_{\alpha},

Q_{\alpha} = \sum_{i = 1} ^n \alpha_i - \frac{1}{2} \cdot \sum_{i_1, i_2} ^n \alpha_{i_1} \alpha_{i_2} Q(i_1, i_2)

, nous obtenons la dérivation suivante,

\alpha_i ^* = \frac{\partial Q_{\alpha}}{\partial \alpha_i} = 1

\Rightarrow \alpha_i ^* = 1 - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2) = 1

\Rightarrow \alpha_i ^* = - \sum_{i_2 = 1} ^n \alpha_{i_2} \times Q(i,i_2)

Si nous raisonnons en termes de matrice afin de simplifier les calculs, cela revient à transposer les éléments de \mathbf{Q} en fonction de i_1. Nous obtenons alors la matrice,

\begin{pmatrix} \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -9 & 1 & 1 & -1 \\ 1 & -9 & -1 & 1 \\ 1 & -1 & -9 & 1 \\ -1 & 1 & 1 & -9 \\ \end{pmatrix}

Comme sous sommes sous contraintes que \sum_{i = 1} ^5 Y_i \times \alpha_i ^* = 0, nous rajoutons la condition au système à résoudre ainsi que la valeur de l’égalité (qui vaut -1 car, pour respecter le passage des équations à la forme matricielle du problème, nous faisons pivoter le coefficient constant associé à la somme des \alpha_i à droite),

\mathbf{S} = \begin{pmatrix} Y_t & \alpha_1 & \alpha_2 & \alpha_3 & \alpha_4 \\ -1 & -9 & 1 & 1 & -1 \\ -1 & 1 & -9 & -1 & 1 \\ -1 & 1 & -1 & -9 & 1 \\ -1 & -1 & 1 & 1 & -9 \\ 0 & 1 & -1 & -1 & 1 \end{pmatrix}

Nous résolvons ce système avec une régression linéaire et obtenons,

\alpha_1 ^* = \alpha_2 ^* = \alpha_3 ^* = \alpha_4 ^* = 0.125

Tous nos coefficients sont différents de 0, nous en déduisons que pour ce noyau les quatre observations jouent un rôle de vecteur support.

Maintenant que les coefficients ont été estimés, nous pouvons déterminer la valeur de prédiction de X_1. Nous déterminons dans un premier temps les coefficients \beta associé aux \alpha ^*,

\beta = (0.125 \times (-1) \times (-1) + 0.125 \times 1 \times (-1) + 0.125 \times 1 \times 1 + 0.125 \times (-1) \times 1, 0.125 \times (-1) \times (-1) + 0.125 \times 1 \times 1 + 0.125 \times 1 \times (-1) + 0.125 \times (-1) \times 1)

=(0,0)

\Rightarrow \beta_0 = Y_1 - X_1 ^t \times \beta = Y_1 = -1

Nous pouvons maintenant déterminer la prédiction de X ^1 sur la base du modèle construit,

f(X_1) = \sum_{i = 1} ^4 \alpha_i ^* Y_i <X_i,X_1> + \beta_0

= 0.125 \times (-1) \times ((-1) ^2 + (-1) ^2) + 0.125 \times 1 \times (-1 \times (-1) + (-1) \times 1) + 0.125 \times 1 \times ((-1) \times 1 + (-1) \times (-1)) + 0.125 \times (-1) \times ((-1) \times 1 + (-1) \times 1) + (-1)

= - 0.125 \times 2 + 0.125 \times 0 + 0.125 \times 0 - 0.125 \times (-2) - 1

= -0.250 + 0.250 - 1

\Rightarrow f(X_1) = - 1

\bullet Application informatique:

Macro SAS:

%macro svm(DATA=,Y=,kernel=);

 /* Macro-programme pour le calcul des coefficients associés aux vecteurs supports.
       Les paramètres: – DATA, indique la base de données à traiter,
                       – Y, la variable réponse binaire ou multiclasse,
                       – kernel, le noyau (sigmoidale, radial, polynomial de degré 1-2-3-4).
       Sortie: la table coeffs_&kernel. des coefficients selon le noyau paramétré.

    /* Options nécessaires pour éviter de saturer le log et mettre en évidence les erreurs */
options nonotes spool;

   /* Sortie liste des variables explicatives */
proc contents data = &DATA. (drop =  &Y.) out = biblio noprint;
run;

    /* Listing variables explicatives et nombre */
proc sql noprint;
select distinct(name) into: list_vars separated by  »  » from biblio;
select count(*) into: nb_vars from biblio;
quit;

    /* Sortie effectif total */
proc sql noprint;
select count(*) into: nobs from &DATA.;
quit;

    /* Initialisation de la matrice des Y_i1 Y_i2 K(X_i1,X_i2) */
data Q;
run;

    /* Calcul par paire d’observations */
%do i1 = 1 %to &nobs.;

        /* Récupération 1ère observation */
data obs1;
set &DATA.;
if _n_ = &i1.;
rename &Y. = &Y.1;
%do p = 1 %to &nb_vars.;
rename %scan(&list_vars.,&p.) = %scan(&list_vars.,&p.)_1;
%end;
run;

%do i2 = 1 %to &nobs.;

            /* Récupération 2nde observation */
data obs2;
set &DATA.;
if _n_ = &i2.;
rename &Y. = &Y.2;
%do p = 1 %to &nb_vars.;
rename %scan(&list_vars.,&p.) = %scan(&list_vars.,&p.)_2;
%end;
run;

            /* Calcul de Y_i1 Y_i2 K(X_i1,X_i2) en fonction du noyau paramétré et de la paire d’observations considérées */
data pair;
merge obs1 obs2;
score = 0;
score1 = 0;
score2 = 0;
%do p = 1 %to &nb_vars.;
score = score + %scan(&list_vars.,&p.)_1*%scan(&list_vars.,&p.)_2;
score1 = score1 + %scan(&list_vars.,&p.)_1*%scan(&list_vars.,&p.)_1;
score2 = score2 + %scan(&list_vars.,&p.)_2*%scan(&list_vars.,&p.)_2;
%end;
%if &kernel. = sigmoidale %then %do;
score = &Y.1*&Y.2*tanh(1 + score);
%end;
%if &kernel. = radial %then %do;
score = &Y.1*&Y.2*exp(-sqrt((score1 + score2 – 2 * score)**2));
%end;
%if &kernel. = polynomial1 %then %do;
score = &Y.1*&Y.2*(1 + score);
%end;
%if &kernel. = polynomial2 %then %do;
score = &Y.1*&Y.2*(1 + score)**2;
%end;
%if &kernel. = polynomial3 %then %do;
score = &Y.1*&Y.2*(1 + score)**3;
%end;
%if &kernel. = polynomial4 %then %do;
score = &Y.1*&Y.2*(1 + score)**4;
%end;
run;

data Qadd;
set pair;
Obs1 = &i1.;
Obs2 = &i2.;
keep Obs1 Obs2 score;
run;

data Q;
set Q Qadd;
run;

%end;

%end;

    /* Finalisation de la liste des croisements et de leur score */
data Q;
set Q;
if Obs1 ne .;
score_deriv = – score;
run;

    /* Initialisation de la matrice des lagrangiens par la contrainte à respecter sum Y_i alpha_i = 0 */
proc transpose data = &DATA. (keep = &Y.) out = matsvm;
run;

data matsvm;
set matsvm;
score = 0;
drop _NAME_;
run;

    /* Pour chaque observation, on récupère la dérivée partielle pour le calcul des Lagrangiens */
%do i = 1 %to &nobs.;

data Qt;
set Q;
if Obs1 = &i.;
keep score_deriv;
run;

proc transpose data = Qt out = matsvm_add;
run;

data matsvm_add;
set matsvm_add;
score = -1;
drop _NAME_;
run;

data matsvm;
set matsvm matsvm_add;
run;

%end;

data matsvm;
set matsvm;
run;

    /* Sortie du dernier Lagrangien en guise de borne supérieur des Lagrangiens à considérer */
data _null_;
set &DATA.;
if _n_ = &nobs.;
lim_vars = compress(« COL »||_n_);
call symput (« lim_vars »,lim_vars);
run;

    /* Calcul des Lagrangiens par régression linéaire */
proc reg data = matsvm;
model score = COL1 — &lim_vars. / noint;
ods exclude NObs FitStatistics ParameterEstimates ANOVA;
ods output ParameterEstimates = coeffs;
run;

    /* Finalisation de la table des résultats finaux */
data Coeffs_&kernel.;
set coeffs;
Variable = tranwrd(Variable, »Alpha », »COL »);
Support = « N »;
if Estimate ne 0 then Support = « O »;
keep Variable Estimate Support;
run;

    /* Suppression des tables temporaires inutiles */
proc datasets lib = work nolist;
delete matsvm biblio Q Obs1 Obs2 pair Qadd Qt matsvm_add coeffs;
run;

    /* Reset des options */
options notes nospool;

%mend;

Package et fonction R: https://cran.r-project.org/web/packages/e1071/index.html

\bullet Bibliographie:

– The Elements of Statistical Learning de Trevor Hastie, Robert Tibshirani et Jerome Friedman.

– The Top Ten Algorithms in Data Minig de Xindong Wu et Vipin Kumar.

– Data Mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry.

– Probabilité, analyse des données et statistique de Gilbert Saporta.

– SVM, Support Vector Machine. Machines à Vecteurs de Support – Séparateurs à Vaste Marge de Ricco Rakotomalala.

– Méthodes à noyaux – PART I de Alain Rakotomamonjy et Stéphane Canu.

– L’Article web: https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-app-svm.pdf

– Sélection de variables par SVM: application à la détection de piétons SVM Variable selection with application to pedestrian detection d’Alain Rakotomamonjy et de Frédéric Suard.

La méthode DISQUAL

add

\bullet Présentation:

La méthode DISQUAL, qui est l’acronyme de DIScrimination sur variables QUALitatives, a été élaboré par Gilbert Saporta en 1975. Elle permet de discriminer une variable polychotomique Y à K \geq 2 classes à partir d’une matrice de variables qualitatives \mathbf{X} = (X ^1, \cdots, X ^P).

Le principe de base de la méthode DISQUAL est de combiner les bienfaits de l’Analyse des Correspondances Mulitples (ACM) avec celles de l’analyse discriminante linéaire ou quadratique de Fisher. Cette caractéristique fait de la méthode DISQUAL une sorte d’équivalent de la régression PLS (qui se base sur un mixte d’Analyse en Composantes Principales et de régression linéaire ou logistique), jouissant ainsi des mêmes propriétés bénéfiques qui sont: la possibilité de conserver plus de variables explicatives dans le modèle, des poids correctement réparties entre ces dernières et l’affranchissement des méfaits de la multicolinéarité.

Si la méthode DISQUAL est à réserver exclusivement à des variables qualitatives, une approche consistant à découper les variables continues en intervalles de valeurs pour les catégoriser est possible afin d’utiliser cet outil sur un format mixte de données.

\bullet DISQUAL:

Hypothèse préliminaire:  Y à K \geq 2 classes et \mathbf{X} qualitative.

L’Algorithme associé à la méthode DISQUAL se déroule à cinq étapes qui sont les suivantes,

– Étape 1: Faire une ACM sur \mathbf{X} et en sortir les projections des variables sur l’ensemble des composantes \mathbf{V} ainsi que celles des observations \mathbf{O}.

– Étape 2: Former la matrice (Y,\mathbf{O}) et sélectionner les axes non nuls et ainsi que ceux séparant au mieux les groupes de Y selon une analyse discriminante de Fisher linéaire ou quadratique sur les axes factorielles. Le critère utilisé en général est le \lambda de Wilks au seuil de 15\% puis 5\% en fonction du nombre d’axes retenus. Suite à ce premier filtre appliqué, (Y,\mathbf{O}) devient (Y,\mathbf{O} ^{D'}), D' ensemble des axes factorielles retenus.

– Étape 3: Appliquer un second filtre sur [latex](Y,\mathbf{O} ^{D'}) en retirant une par une les variables dont la p-valeur est la plus forte et en usant du critère de l'Aire (AUC), du volume (VUS) ou hypervolume (HUM) sous la Courbe ROC (AUC) en fonction du nombre de classe de Y obtenu selon une analyse discriminante de Fisher linéaire ou quadratique sur les axes factorielles. Nous supprimons ainsi les dimensions à partir desquelles ce critère chute. Suite à ce second filtre appliqué, (Y,\mathbf{O} ^{D'}) devient (Y,\mathbf{O} ^D)

- Étape 4: Nous lançons une analyse discriminante de Fisher linéaire ou quadratique sur (Y,\mathbf{O} ^D) et obtenons ainsi les coefficients associés à chacune de nos composantes. Nous recherchons l'estimation combinée à partir de ces coefficients obtenus en soustrayant les coefficients par composantes en fonction des groupes de Y (dans le cas où Y est polychotomique, la distance euclidienne peut être une option).

- Étape 5: Le calcul des coefficients \beta du modèle prédictif se fait alors en récupérant \mathbf{V} ^D et en multipliant les coordonnées de nos modalités de variables par les coefficients respectifs à chacun de ces axes et obtenus en étape 4. La règle décisionnelle est alors de la forme suivante,

Y = \sum_{p = 1} ^P \sum_{m_p = 1} ^{\sharp \lbrace \mbox{modalites de} X ^p \rbrace} \beta_p 1|_{X ^p = m_p}

A noter que nous pouvons également fixer une étape de sélection des variables à cet algorithme lors de l'étape 1. Il faudrait alors lancer une première ACM sur \mathbf{X}, supprimer les variables dont l'ensemble des modalités ne sont que très peu contributives à la formation des axes et relancer une nouvelle ACM sur l'ensemble épuré de ces variables.

\bullet Annexe théorique:

Nous présentons dans cette partie de l'article une esquisse de la démarche méthodologique justifiant l'utilisation de la méthode DISQUAL.

La méthode DISQUAL se base sur un mélange d'ACM et d'analyse discriminante de Fisher. L'Utilisation d'une ACM sur un tableau de données qualitative \mathbf{X} revient à, dans un premier temps, transformer notre matrice en un tableau disjonctif complet, soit un tableau de Q indicatrices valant 1 si l'observation a choisi tel modalité de tel variable et 0 sinon.

Le problème de discrimination revient alors à lancer un analyse discriminante de Fisher sur ce tableau disjonctif et à estimer les coefficients propres à chaque modalité de chaque variable (ce qui revient à dire à chaque variable du dit-tableau). Nous pouvons alors reformuler l'objectif en la maximisation de la distance de Mahalanobis entre les centres de gravité des différents groupes de Y.

En ce sens, la méthode DISQUAL s’inspire donc très largement de la régression sur composantes principales (ou de la régression PLS) en lançant une analyse discriminante de Fisher sur nos axes factoriels.

Soit b ^q les composantes de l'ACM et \lambda_q les valeurs propres qui leur sont associés. L'Une des formidables propriétés des axes factoriels construis via une ACM est qu'ils sont orthogonaux, rendant l'inversion des matrices nécessaires au calcul possible comparé au cas où nous aurions directement travaillé sur le tableau disjonctif complet. Nous pouvons alors obtenir le score \delta issue de la fonction de Fisher (dans le cas où Y binaire),

\delta = \sum_{q = 1} ^Q u_q b ^q

, avec,

\mathbf{u} = \begin{pmatrix} \cdot \\ u_q \\ \cdot \\ \end{pmatrix} = \mathbf{V} ^{-1} (\mu_1 - \mu_2) = \begin{pmatrix} \cdot \\ \frac{\overline{b_1} ^q - \overline{b_2} ^q}{\lambda_q} \\ \cdot \\ \end{pmatrix}

L'Avantage de s'appuyer sur l'ACM est qu'il suffit d’effectuer la combinaison linéaire avec les mêmes coefficients u_q des coordonnées de ses catégories. En effet, nous avons b ^q = \mathbf{X} a ^q, où a ^q vecteur des coordonnées des modalités dans le plan factoriel. Nous avons alors,

\delta = \sum_{q = 1} ^Q u_q \mathbf{X} a ^q = \mathbf{X} \sum_{q = 1} ^Q u_q a ^q

Le score s'exprime alors comme la somme de la combinaison linéaire des indicatrices des modalités pour chaque individu. A noter que la règle décisionnelle ne comporte volontairement pas de terme constant.

\bullet Exemple:

Soit le jeu de données ci-dessous,

add

Appliquons la méthode DISQUAL, nous commençons donc par une ACM sur \mathbf{X} = (X ^1, X ^2, X ^3, X ^4, X ^5) et sortons les coordonnées de nos individus sur les axes factoriels conçus,

add

Nous pouvons déjà filtrer six composantes sur les quinze attendues puisque nulles. Nous conservons donc Dim1, Dim2, \cdots, Dim9.

Maintenant nous devons filtrer les dimensions à partir du modèle Y = \beta_0 + \sum_{d = 1} ^D \beta_d Dim_d. Nous utilisons pour cela le test du \lambda de Wilks et obtenons les résultats suivants classés par ordre d'intégration selon une méthode descendante,

\begin{tabular} {|l|c|} \hline Axe & p-valeur \\ \hline Dim1 & 0.0007 \\ \hline Dim2 & 0.0010 \\ \hline Dim4 & 0.0078 \\ \hline Dim3 & 0.0415 \\ \hline Dim9 & 0.0372 \\ \hline Dim5 & 0.0198 \\ \hline Dim8 & 0.0284 \\ \hline \end{tabular}

Au seuil de 5 \%, sept axes sont significatifs. Par conséquent, nous les conservons tous à cette étape. Appliquons maintenant un second filtre basé sur l'AUC. Nous obtenons alors,

\begin{tabular} {|l|c|} \hline Suppression & AUC \\ \hline Dim8 & 1 \\ \hline Dim5 & 1 \\ \hline Dim9 & 1 \\ \hline Dim3 & 1 \\ \hline Dim4 & 0.99 \\ \hline Dim2 & 0.92 \\ \hline Dim1 & 0.51 \\ \hline \end{tabular}

Il ressort du tableau ci-dessus que nous pouvons supprimer les dimensions Dim_8, Dim_5, Dim_9, Dim_3) puisque sur le modèle Dim_4, Dim_2, Dim_1, l'AUC reste maximale.

Maintenant nous faisons tourner une nouvelle analyse discriminante de Fisher sur le modèle retenu et calculons le score en fonction des prédictions. Nous obtenons,

\begin{tabular} {|l|c|c|c|} \hline Axe & Coeff A & Coeff B & Score \\ \hline Cst & -2.18810 & -2.18810 & 0 \\ \hline Dim1 & 4.77941 & -4.77941 & 9.5588283314 \\ \hline Dim2 & 3.87168 & -3.87168 & 7.7433688952 \\ \hline Dim4 & -3.53072 & 3.53072 & -7.061434395 \\ \hline \end{tabular}

Nous avons maintenant nos coefficients par axe factoriel retenu. Place à l'estimation des coefficients de la règle décisionnelle en fonction des coordonnées des modalités de variables sur les axes Dim1, Dim2, Dim4,

\begin{tabular} {|l|c|c|c|c|} \hline Modalites & Dim1 & Dim2 & Dim4 & Coefficient \\ \hline X1 = 1m & 1.4525 & -0.0724 & -0.0991 & 14.024033312 \\ \hline X1 = 2m & -0.5044 & 1.0807 & -0.4710 & 2.507363696 \\ \hline X1 = 3m & -0.7407 & -1.0187 & -0.0623 & -14.52796362 \\ \hline X2 = 1m & 0.0672 & 0.1352 & 1.1090 & -6.141877623 \\ \hline X2 = 2m & 0.4744 & -0.59144 & -0.2168 & 1.4867091678 \\ \hline X2 = 3m & -0.5321 & 0.4756 & -0.7337 & 3.7777573659 \\ \hline X3 = 1m & -0.7178 & 0.4918 & 0.7324 & -8.225486258 \\ \hline X3 = 2m & 1.0569 & 0.4305 & -0.0022 & 13.451550502 \\ \hline X3 = 3m & -0.4416 & -0.8520 & -0.6256 & -6.401133709 \\ \hline X4 = 1m & 1.4525 & -0.0724 & -0.0991 & 14.024033312 \\ \hline X4 = 2m & -0.6846 & 0.6239 & -0.4711 & 1.163251329 \\ \hline X4 = 3m & -0.5604 & 0.5619 & 0.5560 & -13.63385131 \\ \hline X5 = 1m & -0.2261 & 1.2179 & -0.2590 & 9.098504086 \\ \hline X2 = 2m & 0.7383 & -0.1965 & 0.1248 & 4.6541658144 \\ \hline X5 = 3m & -0.5445 & 0.8474 & 0.0972 & -12.4528836 \\ \hline \end{tabular}

\bullet Application informatique:

Procédure SAS: http://od-datamining.com/download/#macro

Package et fonction R: http://finzi.psych.upenn.edu/library/DiscriMiner/html/disqual.html

\bullet Bibliographie:

- Probabilité, analyse des données et Statistique de Gilbert Saporta.

- Data Mining et statistique décisionnelle de Stéphane Tufféry.

Les méthodes de boosting

add.png

\bullet Présentation:

Le boosting est une famille d’outils d’analyse discriminante très puissants. L’idée est d’améliorer la règle de discrimination d’un classifieur sur plusieurs sous-parties de l’hyperplan formé par (Y, X ^1, \cdots, X ^P) et d’établir la classification finale au travers d’un vote global pondéré. Chaque partie du plan se voit alors attribuer une pondération en fonction de sa performance de discrimination et qui est mise à jour itération par itération afin d’adapter la frontière décisionnelle en fonction des zones les plus difficiles à classer.

Le classifieur utilisé est la plupart du temps la régression linéaire, logistique ou les arbres de décision. Ils portent le nom de « classifieurs fiables » à la fois car ils sont simples d’utilisation mais également car l’objectif du boosting est d’améliorer la règle de discrimination lorsqu’elle est peu performante.

Le boosting appartient à la catégorie des méthodes d’apprentissage statistique nécessitant un jeu de d’apprentissage pour la conception de la règle d’apprentissage et un jeu de test pour sa validation afin de limiter les risques de sur-apprentissage. Comme la plupart d’entre elles, le boosting a le principal défaut de concevoir une règle décisionnelle peu lisible d’où son surnom de boîte noire.

Parmi les méthodes de boosting, la plus célèbre reste l’algorithme AdaBoost conçu par Yoav Freun et Robert Shapire en 1997 et définit pour la discrimination d’une variable réponse Y binaire à partir d’un ensemble de variables continues explicatives \mathbf{X} = (X ^1, \cdots, X ^P).

D’autres algorithmes de boosting sont particulièrement répandus, nous pouvons ainsi citer: l’algorithme Gentle Adaboost, Real Adaboost, MART et RankBoost.

\bullet Les algorithmes de Boosting:

Hypothèse préliminaire: Y binaire ou continue, \mathbf{X} continue.

L’algorithme générale:

Avant d’aborder les algorithmes Adaboost et MART, nous présentons l’algorithme de boosting de base.

– Étape initiale: définir un classifieur faible f et un nombre T d’itérations d’entrainement pour l’optimisation des pondérations.

– Étape 1: Soit \mathbf{E}_1 = \mathbf{E} = [Y \mathbf{X}], la matrice de données d’origine et pour laquelle chaque observation a un poids similaire aux autres et égal à 1.

– Étape 2: Pour t \in \lbrace 2, \cdots, T \rbrace,

—- Nous appliquons notre classifieur faible: h_t = f(\mathbf{E}_1)

—- Nous mesurons le taux d’erreurs de classification de la règle décisionnelle conçue précédemment: \epsilon_t = Pr_{x ~ \mathbf{E}_t, y} I[h_t(x) \neq y]

—- Nous mettons à jour les pondérations et chaque observation mal classée se voit attribuer un poids plus important. Ainsi, \mathbf{E}_t devient \mathbf{E}_{t + 1}

– Étape 3: Nous déterminons la règle décisionnelle finale: H(x) = \mbox{Vote a partir des } h_t(x), \forall t \in [1,T]

L’algorithme AdaBoost

L’Algorithme AdaBoost a été pensé pour le cas où Y est binaire. Il se décline de la manière suivante:

– Étape initiale: initialisation des pondérations associées aux observations,

w_i ^1 = \frac{1}{N}, \forall i \in [1,N]

– Étape 1: \forall t \in [2,T]

—- Application du classifieur paramétré sur le jeu d’apprentissage en utilisant les pondérations w_i ^{t - 1}, \forall i \in [1,N], nous obtenons la règle décisionnelle f_t(x).

—- Calcul du taux d’erreurs de la règle décisionnelle définie précédemment,

\epsilon_t = Pr_{x ~ \mathbf{E}_t, y} I[f_t(x) \neq y]

—-Si \epsilon_t >0.5 alors le classifieur fait mieux qu’une règle aléatoire et nous conservons le modèle, sinon nous ajustons,

  • le coefficient de pondération:

\alpha_t = \frac{1}{2} ln(\frac{1 - \epsilon_t}{\epsilon_t})

  • les pondérations:

w_i ^t = w_i ^{t - 1} e ^{\alpha_t \cdot I_{(y_i \neq f_t (x_i))}}, \forall i \in [1,N]

– Étape 2: Nous obtenons le modèle final,

H(x) = sign[\sum_{t = 1} ^T \alpha_t f_t (x)]

L’algorithme Multiple Additive Regression Trees (MART)

L’Algorithme MART se base sur l’utilisation d’arbres de régression. Par conséquent, il est adapté au cas où Y est continue. Les différentes étapes d’estimation sont les suivantes:

– Étape initiale: Initialiser f_0 (x) = arg min_{\delta} \sum_{i = 1} ^N L(y_i, \delta), avec L fonction de perte à minimiser. Et détermination du nombre d’itérations T.

– Étape 1: Pour t \in [1, T],

— Pour i \in [1, N] calculer,

r_{i,t} = - [\frac{\partial L(y_i, f(x_i))}{\partial f(x_i)}]_{f = f_{t - 1}}

— Estimer le modèle par arbre de régression sur r_{i,t} et donnant les régions décisionnelles R_{j,t}, \forall j \in \lbrace 1, \cdots, J_t \rbrace

— Pour j \in \lbrace 1, \cdots, J_t \rbrace, calculer,

\delta_{j,t} = arg min_{\delta} \sum_{x_i \in R_{j,t}} L(y_i, f_{t - 1} (x_i) + \delta)

— Mettre à jour f_t (x) = f_{t - 1} (x) + \sum_{j = 1} ^{J_t} \delta_{j,t} I (x \in R_{j,t})

– Étape 2: Nous avons enfin la règle décisionnelle finale de forme: \hat{f} (x) = f_T (x)

\bullet Annexe théorique:

Cette partie de l’article présente une esquisse de la justification de l’usage de la fonction de perte exponentielle.

L’algorithme AdaBoost se base sur l’idée nouvelle d’une fonction de perte exponentielle dont le principal avantage est computationnel. Ainsi, nous montrons facilement que,

f ^* (x) = arg min_{f(x)} E_{Y|x} (e ^{-Y f(x)}) = \frac{1}{2} log \frac{P(Y = 1 | x)}{P(Y = -1 | x)}

Et équivalent à,

P(Y = 1 | x) = \frac{1}{1 + e ^{-2 f^* (x)}}

De cette manière, l’expansion additive produite par l’algorithme AdaBoost revient à estimer une partie du log-odds de P(Y = 1 | x). Ce qui justifie l’usage de son signe comme règle de classification décrite par la formule,

G(x) = sign (\sum_{m = 1} ^M \alpha_m G_m (x))

Un autre critère de minimisation de perte est la log-vraisemblance de la loi binomial négative (appelée également déviance ou entropie croisée), interprétant f comme une transformation logit. Nous avons,

p(x) = P(Y = 1 | x) = \frac{e ^{f(x)}}{e ^{-f(x)} + e ^{f(x)}}  = \frac{1}{1 + e ^{-2 f(x)}}

, avec Y ' = \frac{Y + 1}{2} \in \lbrace 0, 1 \rbrace. La fonction de perte est alors,

l(Y,p(x)) = Y ' log (p(x)) + (1 - Y ') log(1 - p(x))

Et de déviance,

-l (Y, f(x)) = log (1 + e ^{-2Y f(x)})

De la formule précédente, nous voyons que,

E_{Y|x} [-l(Y,f(x))] = E_{Y|x} [e ^{-Y f(x)}]

\bullet Application informatique:

Procédure SAS: ND.

Package et fonction Rhttps://www.rdocumentation.org/packages/JOUSBoost/versions/2.1.0/topics/adaboost

\bullet Bibliographie:

– The Elements of Statistical Learning de Trevor Hastie, Robert Tibshirani et Jerome Friedman.

– The top ten algorithms in data mining de Xindong Wu et Vipin Kumar.

– Probabilité, analyse des données et Statistique de Gilbert Saporta.

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry.