Introduction à la mise en place d’un projet et l’analyse de données

addIl ne s’agit pas ici de répeter le laius de la page de présentation de ce site. Nous irons directement au coeur du sujet en présentant les différentes étapes d’un projet de recherche ou de développement dans le domaine des statistiques et de la modélisation.

Un projet se décline en sept principales étapes, certaines sont parfois déjà exécutées (comme la récupération directe d’une base de données) ou encore ne sont pas obligatoire en fonction de la structure dans laquelle le statisticien se trouve ou encore en fonction du type de partenariat mis en place (analyse exploratoire, analyse supervisée ou non supervisée, étape de décision).

La figure ci-dessous présente la pyramide de ces différentes étapes:

add

Etape N°1: L’élaboration du projet et le choix de la méthode de collecte des données

Elle constitue forcément la base de la pyramide, il s’agit du moment où le projet né dans les têtes, qu’il est ensuite débattu et enfin validé au sein d’un comité scientifique. Il s’agit de définir dans un premier temps le domaine d’application, les objectifs, les questions d’intérêts à explorer et souvent en lien avec les différents partenariats internes et externes mis en place. Là c’était la partie la plus sympa. La partie technique et à la fois délicate arrive quand il s’agit de parler coût de l’opération en définissant la population à étudier, les particularités à mesurer et comment les mesurer afin de s’assurer de construire une base de données contenant l’information la plus exploitable possible.

Elle s’ensuit de la définition du champs de l’enquête, du choix de la méthode de collecte des données en fonction de la précision des estimateurs et du coût. En fonction du domaine d’application, les études industrielles s’orientent plus souvent vers les plans d’expérience, les études cliniques vers les cohortes et les études sociales (à prendre au sens très large) vers les plans de sondage. Il s’agit également de pouvoir anticiper au maximum les différentes contraintes qu’il est possible de rencontrer afin d’y pallier le plus tôt possible et éviter d’accumuler subsantiellement un biais dont il est quasi-impossible de se défaire au fur et à mesure que les différentes étapes de la pyramide sont parcourues.

Enfin, la réalisation du questionnaire grâce auquel la collecte des données va pouvoir avoir lieu en faisant en sorte que la formulation des questions, leur ordre, leur pertinence, la durée de remplissage, etc soient en adéquation avec les objectifs du projet. La validation du questionnaire se fait la plupart du temps au travers d’une phase de test préliminaire sur un petit échantillon, non pas pour collecter de l’information mais essentiellement pour voir la faisabilité du questionnaire et du projet.

Cette première phase est souvent accompagnée d’un travail bibliographique assidu permettant de cibler les variables d’intérêt à mesurer et compléter les thèmes à explorer pour le projet.

Le tableau ci-dessous présente les différentes méthodes de sondages et plans d’expérience présentées sur ce site:

add

Le tableau ci-dessous présente les différents plans d’expérience présentés sur ce site:

add

Etape N°2: La collecte des données

Une fois la méthode définie pour la collecte des données, il faut mettre les mains dans la partie la plus compliquée du projet. En fait, il s’agit du point crucial d’un projet, si elle est loupé alors autant dire que l’argent dégagé avant et le temps apporté après ne servent à rien. La collecte peut avoir lieu de plusieurs manières différentes: enquête terrain, enquête téléphonique, enquête par sondage sur internet, récupération des données auprés de cliniciens ou d’organismes les regroupant au travers d’une base de données regroupant l’ensemble des membres ou des assurés.

La collecte des données est toujours sous réserve de respecter l’anonymat de l’individu qui y participe, la CNIL et le CCTIRS veillent cruellement (et heureusement) à ce que cette condition soit respectée sous peine procédure judiciaire. Dans le cadre d’une enquête auprès de la population, il s’agit d’un argument souvent à mettre en avant afin de persuader un individu à y participer.

Etape N°3: Apurement des données, pondération, traitement de la non-réponse et nettoyage de la base

Une fois la base de données construite, le travail du statisticien doit encore attendre une étape essentielle: finaliser la base. Plusieurs questions se posent alors, doit-on établir un contrôle de cohérences des données (ce qui est appelé l’apurement des données)? Devons-nous appliquer une pondération? Devons-nous traiter la non-réponse? Tout ceci est à déterminer en fonction du type de projet. Les projets cliniques en général ne touchent pas aux données car trop précieuses en l’état, d’autres projets comme les enquêtes et les sondages font tout l’inverse car il cherche avant tout à pouvoir extrapoler leur résultat à une population générale.

Le travail ne se termine pas là, une étape de rigueur doit encore avoir lieu, celle du nettoyage des données. Cette phase consiste généralement à éliminer les variables présentant un taux de non-réponse trop important, ou encore celles suspectes (par exemple la consommation d’alcool sous format déclaratif est souvent biaisée et donc supprimée des analyses). Elle consiste également à retravailler les variables qualitatives, qui ont à la fois un trop grand nombre de modalités et une répartition plus qu’inégale, en agrégeant les modalités et les codifiant ou recodifiant entre elles afin de rééquilibrer la distribution sous contrainte de conserver à la fois le maximum de cohérence et d’intérêt.

Le tableau ci-dessous présente les différentes méthodes de redressement des pondérations présentées sur ce site:

add

Le tableau ci-dessous présente les différentes transformations des données présentées sur ce site:

add5

Le tableau ci-dessous présente les différentes méthodes d’imputation des données manquantes présentées sur ce site:

add

Etape N°4: Analyse univariée et statistiques descriptives

Enfin le statisticien peut commencer à s’épanouir! Il peut se servir des outils les plus basiques de sa palette, histogramme, biplot, boxplot, densité, tableau de pourcentage, etc font leur apparition. L’objectif est de présenter les variables sans les croiser entre elle. L’étape permet de monter une sorte de bibliothèque descriptive des données.

Le tableau ci-dessous présente les différentes statistiques descriptives présentées sur ce site:

add

Etape N°5: Analyse différentielle et réduction de la base d’analyse

Le statisticien monte d’un niveau, il introduit la théorie des tests et la notion de risque d’erreur dans son analyse visant à définir au sens statistique du terme les liens entre les différentes variables de son jeu de données.

Généralement, le terme d’analyse différentiellee est approprié au croisement entre une variable réponse Y et ses variables explicatives (X ^1, \cdots, X ^p) afin de déterminer les variables les plus liés à elle et ainsi conserver uniquement celles au risque \alpha fixé. Ce risque est généralement de 5\% mais peut être parfois diminué à 1\% voir élargit à 10\% en fonction du nombre de variables à retenir.

Dans le cas où il n’y a pas de variable réponse Y, l’analyse différentielle peut se restreindre à l’analyse complète des différentes variables entre elles afin d’étudier plus profondément les interactions bivariées présentes.

Le tableau ci-dessous présente les différents tests statistiques présentés sur ce site:

add1.png

Le tableau ci-dessous présente les différentes procédures de correction des tests présentées sur ce site:

add

Etape N°6: Analyse exploratoire

Il fut un temps l’analyse exploratoire était réservée au puriste du genre, mais heureusement plus le temps avance avec des logiciels facilitant l’accès à des méthodes comme l’ACP, l’ACM, l’AFC et actuellement le MDS ou les hitmaps, plus le statisticien se fait un grand plaisir de pratiquer l’analyse exploratoire.

Nous entrons là à un niveau plus poussé de l’analyse de données qui consiste à étudier directement toutes les interactions entre les différentes variables du jeu de données au travers d’une approche multivariée. Les méthodes citées ci-dessus ont été pensées dans le but d’offrir au lecteur des résultats des cartes et figures les plus explicites possibles (sous réserve de livrer une petite notice et les indicateurs de qualité) afin d’offrir une lecture rapide et synthétique de la base de données.

Le tableau ci-dessous présente les différents outils d’analyse exploratoire présentés sur ce site:

add.png

Etape N°7: Analyse supervisée et non supervisée

Il s’agit de la phase où le format des données et les objectifs du projet vont avoir un rôle déterminant. Analyse supervisée (présence d’une variable réponse Y) ou analyse non supervisée (ou absence d’une variable réponse Y)? Classification ou modélisation? C’est là qu’interviennent de nombreux outils comme la CAH, les cartes de Kohoken, la régression logistique, l’analyse discriminante de Fisher, les arbres décisionnels, les réseaux de neurones, etc.

Plusieurs méthodes d’approches existent, nous pourrons simplement estimer un modèle sur l’ensemble des variables retenues, ou bien se servir des méthodes de sélection de variables. La méthode la plus « bourrine » qui soit et prenant de plus en plus d’ampleur dans l’anayse haut débit est l’exploration de l’ensemble des combinaisons de variables d’intérêt retenues afin d’estimer tous les modèles possibles et sélectionner le plus intéressant. Cette dernière est particulièrement coûteuse en temps d’analyse, mais l’essor des processeurs multicoeurs (gonflé en GHz) et de la parallélisation de calculs permet de plus en plus aux entreprises de s’orienter vers cette approche terriblement efficace.

Le tableau ci-dessous présente les différentes méthodes de rééchantillonnage présentées sur ce site:

add2 (1)

Le tableau ci-dessous présente les différentes outils d’analyse non supervisé présentés sur ce site:

add

Le tableau ci-dessous présente les différentes outils d’analyse supervisé présentés sur ce site:

add.png

Le tableau ci-dessous présente les différentes outils de l’analyse de survie présentés sur ce site:

add1

Le tableau ci-dessous présente les différentes outils de l’analyse des séries temporelles présentés sur ce site:

add

Etape N°8: Décision

L’étape qui a donné son nom à la statistique décisionnel. A ce moment là du projet un rapport rédigé et recensant l’intégralité des résultats est livré, il s’agit de prendre les décisions en accords avec les objectifs du projet.

\bullet Bibliographie:

– Les techniques de sondage de Pascal Ardilly

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry