Statistiques descriptives et notations récurrentes de ce site

add\bullet Introduction et notations globales

Nous faisons d’une pierre deux coups en présentant ici les différents outils utiles à décrire un jeu de données en univariée ainsi que les notations utilisées de manière récurrente sur ce site.

Une variable aléatoire peut être de quatre formats différents:

– quantitative continue (l’âge, données protéomique, poids, salaire, etc)

– quantitative discrète (résultat à un test, choix binaire à une question, etc)

– quantitative ordinale (rang, agpar, note scolaire, etc)

– qualitative catégorielle (sexe, catégorie socio-professionnelle, etc)

Le type de données induit directement sur le type d’outil d’analyse que nous pouvons utiliser.

♦ Nous noterons n le nombre d’observations et nous utiliserons généralement l’indice i \in [1, n] pour désigner la ième observation. Ainsi que p le nombre de variables explicatives et généralement l’indice j \in [1, p] sera utilisé pour désigner la jème variable explicative.

♦ Nous distinguerons les notions d’échantillon et de variable aléatoire au risque de s’attirer les foudres des puristes du genre. Ainsi nous noterons \mathbf{X} un échantillon aléatoire décrit au travers variables aléatoires pouvant être uniquement ou un mixte des quatre types de variables décrites ci-dessus, appariées (2 à T mesures dans le temps) ou non appariées (1 mesure dans le temps). Nous aurons donc:

\mathbf{X} = (X ^1, \ldots, X ^p)

\mathbf{X} deviendra X si la matrice est réduite à une unique variable aléatoire, devenant ainsi un vecteur.

Ainsi, pour la variable aléatoire complète X ^j, nous aurons X_i ^j sa valeur pour l’individu i. Une écriture plus détaillé sera alors:

X ^j = (X_1 ^j, \ldots, X_n ^j)

Et inversement, un individu X_i aura pour caractéristiques le vecteur:

X_i = (X_i ^1, \cdots, X_i ^p)

♦ Une base de données composées de m variables réponses \mathbf{Y} = (Y ^1, \cdots, Y ^m) et de p variables explicatives \mathbf{X} = (X ^1, \cdots, X ^p) sera notée:

\mathbf{E} = (\mathbf{Y}, \mathbf{X})

\bullet Les variables quantitatives continues

♦ Nous pouvons déterminer 3 indicateurs fondamentaux en Statistiques et Probabilités:

la moyenne: \mu_j = \overline{X ^j} = \frac{1}{n} \sum_{i = 1} ^n X_i ^j

la variance: \sigma_j ^2 = \frac{1}{n - 1} \sum_{i = 1} ^n (X_i ^j - \overline{X ^j})^2

la médiane: Med(X ^j) = \left\{ \begin{array}{ll} X_{\frac{n+1}{2}} ^j & \mbox{si imparite de } n \\ \frac{X_{\frac{n}{2}} ^j + X_{\frac{n}{2} + 1} ^j}{2} & \mbox{si parite de } n \end{array} \right.

Généralement les deux indicateurs les plus prisés en statistique sont en fait les deux premiers. Néanmoins la médiane trouve toute son importance dans le cas de faibles échantillons, de plus il offre une information intéressante en ce sens qu’il représente la valeur derrière et devant laquelle se trouve 50\% de la distribution empirique de la variable.

♦ 4 autres indicateurs sont souvent retrouvés lorsqu’il s’agit de décrire des variables quantitatives continues:

l’écart-type: \sigma_j = \sqrt{\frac{1}{n} \sum_{i = 1} ^n (X_i ^j - \overline{X ^j}) ^2}

le coefficient de variation: CV_j = 100 \cdot \frac{\sigma_j}{\mu_j}

La valeur minimale, notée min(X ^j), de X ^j représente la valeur la plus faible prise par la variable aléatoire, tandis que la notation max(X ^j) représente sa valeur la plus haute.

♦ Nous pouvons généraliser les notions de moyenne et de variance pour le cas matriciel:

\overline{X} = (\mu_1, \cdots, \mu_p) = (\overline{X ^1}, \cdots, \overline{X ^p}), le barycentre de \mathbf{X}

\mathbf{\Sigma_X} la matrice de covariance associée à \mathbf{X}

\sigma_X ^2 le vecteur des variances associées aux différentes variables aléatoires composant \mathbf{X} et correspondant à la diagonale de \mathbf{\Sigma_X}

Le boxplot: il s’agit d’un outil présentant une vision synthétique des statistiques descriptives d’une variable X ^j au travers d’un schéma simple à la lecture. Il se divise en trois parties, si nous prenons X ^j ordonné de manière croissante:

– le quartile inférieur (où moustache) représente les 25 premier \% de la distribution (soit les observations inférieures à Q25),

– le quantile (de forme rectangulaire) représente les 50\% suivant de la distribution (soit les observations comprises entre Q25 et Q75),

– et enfin, le quartile supérieur (où moustache) représente les 25\% restant (soit les observations supérieures à Q75).

Le boxplot trace également la médiane (sous la forme d’un trait bien évidemment dans le quantile) et la moyenne (sous la forme d’un point). Il permet également d’avoir une visibilité sur les individus aberrants (également appelés outliers) en établissant une mesure de la dispersion et de formule:

lim.inf = \mbox{premier quartile } - (1.5 \cdot \mbox{ intervalle interquartile})

lim.sup = \mbox{troisieme quartile } + (1.5 \cdot \mbox{ intervalle interquartile})

L’intervalle interquartille étant égale à Q75 - Q25.

Le boxplot est particulièrement agréable à lire quand nous sommes en présence d’un n très grand, dans le cas où l’effectif est relativement faible il faut préviligier une vision plus transparente du boxplot et qui porte le nom de dotplot (nom non universel, il est possible de trouver ce type de figure sous d’autres appellations) et qui consiste simplement à présenter les points dans le boxplot selon un algorithme visant dispatcher les valeurs de X ^j trop proches les unes des autres et qui auraient tendance à se superposer et donc affaiblir la qualité de la figure.

Le boxplot porte plusieurs noms: boîte à moustaches, diagramme en boîte ou encore boîte de Tuckey.

L’histogramme: Ce type de figure est idéalement conçu pour les variables quantitatives discrètes et ordinales et qualitatives catégorielles, néanmoins il peut être également utilisé pour des variables quantitatives continues. Il s’agit de définir une longueur d’intervalle L (de préférence porportionnelle à n) à partir de laquelle nous définissons l’ensemble des plages de valeurs adajcentes. Une fois ces intervalles crééent, il suffit de compter le nombre de fois que X ^j prend ses valeurs dans les différentes plages définies et tracer l’histogramme.

La courbe de densité: Il s’agit une fois de plus de synthétiser l’information et assurer une représentation graphique permettant de lire facilement la distribution des données. La courbe de densité peut être calculée soit en supposant que X ^j suit une loi précise et alors il suffit de calculer les paramètres nécessaires et appliquer la formule de densité associée à cette loi. Soit par méthode non parématrique en appliquant un lissage ou estimation par noyau (méthode de Parzen-Rozenblatt). Il existe plusieurs noyaux utilisables, en voici les plus connus:

– le noyau triangulaire, K(u) = 1 - | u | si u \in [-1, 1]

– le noyau parabolique d’Epanechnikov, K(u) = \frac{3}{4} \cdot (1 - u ^2) si u \in[-1, 1]

– le noyau de Tukey, K(u) = \frac{1}{16} \cdot (1 - u ^2) ^2 si u \in [-1, 1]

– le noyau sinusoïdale, K(u) = \frac{\pi}{4} \cdot cos(\frac{\pi}{2} \cdot u) si u \in [-1, 1]

– le noyau gaussien, K(u) = \frac{1}{\sqrt{2 \pi}} \cdot e ^{-\frac{1}{2} u ^2} si u \ in [-1, 1]

La courbe de densité se construit point par point, par la formule:

\hat{f_i} (X_i ^j) = \frac{1}{n \cdot h} \sum_{q = 1} ^Q K(\frac{S_q - X_i ^j}{h})

, où S = (S_1, \cdots, S_Q) désigne le pas et h le paramètre de lissage qui peut être déterminé de plusieurs manières. En voici les principales règles:

– la règle gaussienne, h = \sigma_j \cdot [\frac{4}{3n}] ^{0.2}

– la règle de Siverman, h = \frac{0.9 \cdot min(\sigma_j, \frac{Q_{75} - Q_{25}}{1.34})}{n ^{0.2}}

– l’estimation du maximum de vraisemblance max_h (\prod_{i = 1} ^n f_{n-1} ^{-i} (X_i ^j)) par validation croisée généralisée

Le QQplot: permet de visualiser à quel degré la distribution de X ^j s’éloigne de celle attendue si elle suivait une loi de distribution fixée. En définissant la loi à laquelle comparer X ^j, il faut ordonner notre variable aléatoire par ordre croissant et associer à chaque X_i ^j le quantile q_i de la loi définie et de formule:

q_i = \frac{i}{n + 1}-quantile

Le QQplot (pour quantile-quantile) porte également le nom de droite de Henry. A noter deux formes bien connues, de cette courbe, existent: la forme en U qui signifie que la distribution est asymétrique; et celle en S qui signifie que la distribution est sensible aux des outliers. Plus la courbe s’apparente à une droite et plus nous pouvons en conclure que X ^j suit la loi de distribution à laquelle nous la comparons.

Concernant les autres règles d’interprétations, nous reprendrons le tableau bien connu de N. Curtis ci-dessous.

add\bullet Les variables quantitatives discrètes et ordinales et qualitatives catégorielles

♦ Ces variables ne bénéficient pas d’une palette aussi fournie que celle disponible pour les variables quantitatives continues, la faute à leur format qui ne laisse que peu de place pour le plaisir du statisticien. L’indicateur essentiel restant celui des fréquences de formule pour une modalité k d’une variable X ^j:

F_k ^j = \frac{\sharp \lbrace X ^j = k \rbrace}{n}

L’histogramme: il s’agit de la seule représentation graphique pour X ^j. L’outil est simple à mettre en oeuvre, il présente pour chaque catégorie (ou modalité) de la variable aléatoire l’effectif concerné.

\bullet Exemple:

♦ Cas d’une variable aléatoire quantitative continue:

Soit l’échantillon suivant,

addLes statistiques descriptives de base sont:

min(X) = X_1 = 0.897

med(X) = \frac{X_{10} + X_{11}}{2} = \frac{9.9468 + 11.1682}{2} = 10.5575

\overline{X} = \frac{1}{20} \times \sum_{i = 1} ^{20} X_i = \frac{0.8970 + \cdots + 19.8936}{20} = \frac{209.7543}{20} = 10.48771

max(X) = X_{20} = 19.8936

\sigma ^2 = \frac{1}{20-1} \times \sum_{i = 1} ^{20} (X_i - 10.5575) ^2

= \frac{(-9.590715) ^2 + \cdots + 9.405885 ^2}{19}

= \frac{662.2609}{19}

= 34.85584

\sigma = \sqrt{34.85584} = 5.903883

CV(X) = 100 \times \frac{5.903883}{10.48771} = 56.29335\%

Nous pouvons désormais dessiner le boxplot associé à X. Les informations nécessaires sont:

– le premier quartile (inférieur) qui va de,

[min(X), \frac{X_5 + X_6}{2}] = [0.897, \frac{5.0515 + 6.0261}{2}] = [0.897, 5.5388]

– le second quartile (supérieur) qui va de,

\frac{X_{15} + X_{16}}{2}, max(X)] = [\frac{14.8826 + 15.9808}{2}, 19.8936] = [15.4317, 19.8936]

L’intervalle interquartile est:

Q75 - Q25 = 15.4317 - 5.5388 = 10.0437

Nous avons donc:

lim.inf = 5.5388 - 1.5 \times 10.0437 = -9.52675

lim.sup = 15.4317 + 1.5 \times 10.0437 = 30.49725

Les observations qui ne sont pas comprises dans l’intervalle [-9.52675, 30.49725] seront alors considérées comme des outliers.

La figure ci-dessous présente le boxplot que nous pouvons construire à partir des informations ci-dessus:

addReprésentons maintenant l’histogramme associé à X. Fixons une longueur d’intervalle de 5. Nous avons donc la répartition suivante:

4 observations dans l’intervalle [0-5]

6 observations dans l’intervalle ]5-10]

5 observations dans l’intervalle ]10-15]

5 observations dans l’intervalle ]15-20]

La figure ci-dessous représente l’histogramme en fonction de la longueur d’intervalle fixée:

addPassons à la construction de la courbe de densité associée à X. Dans un premier temps fixons une séquence de 1 à 20 de pas égale à 1, soit S = (1, 2, 3, \cdots, 18, 19, 20).

Ensuite, déterminons le paramètre de lissage h par la règle de Silverman, nous avons alors:

h = \frac{0.9 \times min (5.903883, \frac{15.4317 - 5.5388}{1.34})}{20 ^{0.2}} = \frac{0.9 \times 5.903883}{1.820564} = 2.918598

Il ne nous reste plus qu’à appliquer la formule d’estimation de densité en prenant, par exemple, le noyau gaussien, nous avons alors pour l’observation X_1 = 0.8970,

\hat{f} (0.8970) = \frac{1}{20 \times 2.918598} \times \frac{1}{\sqrt{2 \pi}} \times \sum_{l = 1} ^{20} e ^{- \frac{1}{2} \times (\frac{S_l - 0.8970}{2.918598}) ^2} = 0.02771823

En procédant à cet estimation pour les différentes observations de X, nous obtenons la courbe de densité suivante:

addFinalisons cet exemple par la construction du QQplot associé à X. Nous cherchons à voir si X s’approche de la distribution d’une loi normale centrée-réduite.

Pour cela commençons par déterminer les quantiles. Nous avons n = 20, par conséquent les quantiles d’intérêt sont:

(\frac{1}{21}, \frac{2}{21}, \cdots, \frac{20}{21}) = (5\%, 10\%, \cdots, 90\%, 95\%)

A ces quantiles correspondent les valeurs suivantes que nous trouvons si nous générons une variable selon une loi normale centrée-réduite:

q = (-1.67155405, -1.3031697, \cdots, 1.26267738, 1.62862050)

La courbe ci-dessous présente le QQplot associé au couple (q, X):

add

♦ Cas d’une variable aléatoire qualitative catégorielle:

Soit l’échantillon suivant:

addNous avons donc trois modalités prises par X. Leur fréquence respective sont:

F_{X = "A"} = 100 \times \frac{6}{20} = 30\%

F_{X = "B"} = 100 \times \frac{7}{20} = 35\%

F_{X = "C"} = 100 \times \frac{7}{20} = 35\%

La figure ci-dessous présente l’histrogramme de distribution de X:

add

\bullet Application informatique:

♦ Procédure SAS:

min, max, moyenne, médiane, variance, écart-type, coefficient de variation et QQplot: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_univariate_sect056.htm

boxplot: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/boxplot_toc.htm

dotplot:
%MACRO DOTPLOT(TABLE = , VAR_CLASS = , VAR_EXPLICATIVE = , VAR_REF = );

/* Edition de la table sur laquelle appliquer la macro */
DATA RECUP_CLASS;
SET &TABLE.;
KEEP &VAR_CLASS. &VAR_REF.;
RUN;

/* Utilisation de la macro NA afin de supprimer les données manquantes */
%NA(TABLE = RECUP_CLASS);

/* Trie par classe */
PROC SORT DATA = RECUP_CLASS NODUPKEY;
BY &VAR_CLASS.;
RUN;

/* Création des macros LIST_CLASS contenant le nom des classes et NB_CLASS contenant le nombre de classe */
PROC SQL NOPRINT;
SELECT DISTINCT(&VAR_CLASS.)
INTO   :LIST_CLASS
separated BY ‘ ‘
FROM RECUP_CLASS;
SELECT COUNT(&VAR_CLASS.)
INTO   :NB_CLASS
FROM RECUP_CLASS;
QUIT;

/* Automatisation insertion nom des classes sur l’axe des abscisses, ajustement des espaces */
%IF %length(&LIST_CLASS.) <= 27 %THEN %LET espace = ‘                                  ‘;
%IF (%length(&LIST_CLASS.) > 27 & %length(&LIST_CLASS.) <= 41) %THEN %LET espace = ‘                           ‘;
%IF (%length(&LIST_CLASS.) > 41 & %length(&LIST_CLASS.) <= 69) %THEN %LET espace = ‘             ‘;
%IF (%length(&LIST_CLASS.) > 69 & %length(&LIST_CLASS.) <= 83) %THEN %LET espace = ‘    ‘;
%IF %length(&LIST_CLASS.) > 83 %THEN %LET espace = ‘ ‘;

/* Création de la liste de noms de statut correctement espacés et à mettre en dessous des dotplots */
PROC SQL NOPRINT;
SELECT DISTINCT(&VAR_CLASS.)
INTO   :LIST_CLASSb
separated BY &espace.
FROM RECUP_CLASS;
QUIT;

/* Création de la coordonnée en abscisse en fonction de la classe, initialisation à classe 1 d’abscisse 1 */
DATA DOTPLOT;
SET &TABLE.;
IF &VAR_CLASS. = « %SCAN(&LIST_CLASS., 1) » THEN Y_superpose = 1;
RUN;

/* Complétion de la table contenant les coordonnées en abscisse */
%DO iteration_CLASS = 2 %TO &NB_CLASS.;
DATA DOTPLOT;
SET DOTPLOT;
IF &VAR_CLASS. = « %SCAN(&LIST_CLASS., &iteration_CLASS.) » THEN Y_superpose = &iteration_CLASS.;
RUN;
%END;

/* Distribution aléatoire sur X des données autour de Y_superpose afin d’éviter qu’elles se superposent */
DATA DOTPLOT;
SET DOTPLOT;
KEEP Y_superpose &VAR_EXPLICATIVE. &VAR_REF.;
Y_superpose = Y_superpose + ranuni(1)/4;
RUN;

/* Trie par classe */
PROC SORT DATA = &TABLE.;
BY &VAR_CLASS.;
RUN;

/* Récupération des paramètres pour faire le boxplot sur les points */
PROC BOXPLOT DATA = &TABLE.;
PLOT &VAR_EXPLICATIVE. * &VAR_CLASS. / OUTBOX = DONNEES;
INSETGROUP min Q2 max mean std;
ODS EXCLUDE BOXPLOT;
RUN;

/* Initialisation de la table contenant toutes les informations pour tracer les boxplots en fonction de chaque classe */
DATA boxplot;
RUN;

/* Design des différentes coordonées pour tracer les limites du boxplot sur les points */
%DO iteration_CLASS = 1 %TO &NB_CLASS.;

DATA boxplot_net;
SET DONNEES;
IF &VAR_CLASS. = « %SCAN(&LIST_CLASS., &iteration_CLASS.) »;
IF _TYPE_ ^= ‘N’;
IF _TYPE_ ^= ‘STDDEV’;
DROP &VAR_CLASS. _VAR_;
RUN;

DATA add1;
_TYPE_ = ‘DEP’;
_VALUE_ = &iteration_CLASS. – 0.05;
RUN;

DATA add2;
_TYPE_ = ‘FIN’;
_VALUE_ = &iteration_CLASS. + 0.3;
RUN;

DATA add3;
_TYPE_ = ‘MID’;
_VALUE_ = &iteration_CLASS. + 0.125;
RUN;

DATA add;
SET add1 add2;
RUN;

DATA add;
SET add add3;
RUN;

DATA boxplot_net;
SET boxplot_net add;
RUN;

PROC TRANSPOSE DATA = boxplot_net OUT = boxplot&iteration_CLASS.;
ID _TYPE_;
RUN;

DATA boxplot;
SET boxplot boxplot&iteration_CLASS.;
RUN;

%END;

/* Ajustement des quantiles par rapport aux outliers à 5% et 10% */
DATA boxplot;
SET boxplot;
IF Q1 ^= .;
IQR = Q3 – Q1;
MIN1 = Q1 – 1.5 * IQR;
IF MIN1 < MIN THEN MIN1 = MIN;
MIN2 = Q1 – 3 * IQR;
IF MIN2 < MIN THEN MIN2 = MIN;
MAX1 = Q3 + 1.5 * IQR;
IF MAX1 > MAX THEN MAX1 = MAX;
MAX2 = Q3 + 3 * IQR;
IF MAX2 > MAX THEN MAX2 = MAX;
RUN;

/* Merge des informations sur les outliers avec les autres informations pour tracer l’intégralité des boxplots */
DATA DOTPLOT;
SET DOTPLOT boxplot;
MERGE DOTPLOT boxplot;
DROP _NAME_;
RENAME MAX1 = QUANT;
RENAME MAX2 = OUTLIER;
RUN;

/* Trie par variable de référence */
PROC SORT DATA = DOTPLOT;
BY &VAR_REF.;
RUN;

/* Création du template pour colorier les points correctement */
PROC TEMPLATE;
DEFINE STYLE styles.mystyle;
PARENT = styles.default;
STYLE graphdata1 FROM graphdata1 / CONTRASTCOLOR = green;
STYLE graphdata2 FROM graphdata2 / CONTRASTCOLOR = red;
CLASS graphbackground / COLOR = white;
END;
RUN;

ODS RTF STYLE = mystyle STARTPAGE = NO;

/* Création de la macro-variable maxGraduate qui permet de ne pas couper le dotplot de la dernière classe à gauche */
%LET maxGraduate = %SYSEVALF(&NB_CLASS. + 0.5);

/* Tracé du dotplot avec les informations descriptives */
PROC SGPLOT DATA = DOTPLOT;
SCATTER X = Y_superpose Y = &VAR_EXPLICATIVE. / GROUP = &VAR_REF. MARKERATTRS = (SYMBOL = CIRCLEFILLED SIZE = 5) NAME = « observations »;
VECTOR X = FIN Y = Q1 / XORIGIN = DEP YORIGIN = Q1 NOARROWHEADS LINEATTRS = (COLOR = « black »);
VECTOR X = FIN Y = Q3 / XORIGIN = DEP YORIGIN = Q3 NOARROWHEADS LINEATTRS = (COLOR = « black »);
VECTOR X = FIN Y = MEAN / XORIGIN = DEP YORIGIN = MEAN NOARROWHEADS LINEATTRS = (PATTERN = THINDOT COLOR = « black ») NAME = « point_mean »;
VECTOR X = FIN Y = MEDIAN / XORIGIN = DEP YORIGIN = MEDIAN NOARROWHEADS LINEATTRS = (PATTERN = DOT COLOR = « black ») NAME = « point_median »;
VECTOR X = DEP Y = Q3 / XORIGIN = DEP YORIGIN = Q1 NOARROWHEADS LINEATTRS = (COLOR = « black »);
VECTOR X = FIN Y = Q3 / XORIGIN = FIN YORIGIN = Q1 NOARROWHEADS LINEATTRS = (COLOR = « black »);
VECTOR X = MID Y = QUANT / XORIGIN = MID YORIGIN = Q3 NOARROWHEADS LINEATTRS = (PATTERN = LONGDASH COLOR = « black ») NAME = « 1.5IQR »;
VECTOR X = MID Y = OUTLIER / XORIGIN = MID YORIGIN = QUANT NOARROWHEADS LINEATTRS = (PATTERN = SHORTDASH COLOR = « black ») NAME = « 3IQR »;
VECTOR X = MID Y = MIN1 / XORIGIN = MID YORIGIN = Q1 NOARROWHEADS LINEATTRS = (PATTERN = LONGDASH COLOR = « black »);
VECTOR X = MID Y = MIN2 / XORIGIN = MID YORIGIN = MIN1 NOARROWHEADS LINEATTRS = (PATTERN = SHORTDASH COLOR = « black »);
XAXIS LABEL = « &LIST_CLASSb. » DISPLAY = (NOVALUES NOTICKS) MIN = 0.7 MAX = &maxGraduate.;
KEYLEGEND « observations » « point_mean » « point_median » « 1.5IQR » « 3IQR »;
RUN;

ODS RTF STYLE = meadow STARTPAGE = NO;

%MEND DOTPLOT;

histogramme et courbe de densité: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/procstat_freq_sect006.htm

♦ Fonction R:

min, max, moyenne et médiane: http://127.0.0.1:22957/library/base/html/summary.html

variance: http://127.0.0.1:22957/library/stats/html/cor.html

écart-type: http://127.0.0.1:22957/library/stats/html/sd.html

coefficient de variation: https://cran.r-project.org/web/packages/BioStatR/BioStatR.pdf

boxplot: http://127.0.0.1:22957/library/graphics/html/boxplot.html

dotplot: http://statistiques.forumpro.fr/t2949-les-bonnes-idees-r

histogramme pour variable quantiative continue: http://127.0.0.1:22957/library/graphics/html/hist.html

histogramme pour variable quantitative ordinale, discrète et qualitative catégorielle: http://127.0.0.1:22957/library/graphics/html/barplot.html

courbe de densité: http://127.0.0.1:22957/library/stats/html/density.html

qqplot: http://127.0.0.1:22957/library/stats/html/qqnorm.html

\bullet Bibliographie:

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Probabilité, analyse des données de Gilbert Saporta

– Statistique non paramétrique élémentaire – cours de M2 ESA – Université D’Orléans de Gilbert Colletaz