Représentation des données#
Introduction#
Définition
Une population est un ensemble fini d'objets appelés individus sur lesquels une étude se porte et dont les éléments répondent à une ou plusieurs caractéristiques communes.
Définition
La taille ou l'effectif d'une population, notée généralement \(N\) (majuscule), est le nombre d'éléments de cette population.
Définition
Un échantillon est un sous-ensemble d'une population.
Définition
Une variable statistique est une qualité, un attribut ou une caractéristique que possède chacun des individus observés. Une variable statistique se dénote au moyen d'une lettre majuscule, par exemple \(X\), \(Y\), etc.
Les différents états ou valeurs que peut prendre une variable statistique sont appelés les modalités ou simplement les valeurs de cette variable. Les différentes modalités d'une variable statistique sont notées au moyen de la même lettre que la variable correspondante, mais minuscule, et avec un indice: \(x_1\), \(x_2\), \(\dots{}\), \(x_n\) désignent les \(n\) modalités de la variable \(X\).
Exemple 1#
Une enquête est effectuée auprès des 40 employés de la compagnie d'assurance Mondass afin de déterminer leur état civil.
La population correspond aux employés de la compagnie d'assurance Mondass.
La taille ou l'effectif est de \(N = 40\).
Il y a 4 modalités: "célibataire", "marié.e", "divorcé.e" et "veuf/veuve".
Exemple 2#
Une enquête est effectuée auprès de 200 élèves du collège Sainte-Croix pour déterminer leur taille en centimètres.
La population correspond aux élèves du collège Sainte-Croix.
La taille ou l'effectif est de \(N = 200\).
Les modalités sont dans l'intervalle \([140, 210]\)
Définition
Une variable statistique est quantitative, si ses modalités sont des nombres.
Dans le cas contraire, elle est qualitative.
Exemple 3#
La variable statistique de l'exemple 1 est qualitative, car les modalités sont des noms.
La variable statistique de l'exemple 2 est quantitative, car les modalités sont des nombres.
Définition
Une variable statistique quantitative est discrète ou discontinue si chacune de ses modalités est une valeur isolée, réduite à un seul nombre.
Exemple 4#
Le nombre d'enfants d'un couple est une variable quantitative discrète dont les modalités sont les nombres entiers de \(0\) à \(30\).
Le saviez-vous?
Record historique (le plus grand nombre d'enfants) : Valentina Vassilyeva (Russie) a donné naissance à 69 enfants en 27 grossesses (16 paires de jumeaux, 7 triplés et 4 quadruplés) entre 1725 et 1765.
Définition
Une variable statistique quantitative est continue, lorsque l'ensemble ses modalités est un intervalle de l'ensemble des nombres réels.
Exemple 5#
La température en degrés Celsius du corps humain est une variable statistique continue dont les modalités sont n'importent quelle valeur réelle dans l'intervalle [35; 42].
Variables statistiques discrètes ou qualitatives#
Définition
Soit une variable statistique discrète ou qualitative \(X\). L'effectif d'une modalité \(x_i\) de \(X\) est le nombre d'individus \(n_i\) qui ont cette modalité.
Définition
La fréquence d'une modalité \(x_i\), notée \(f_i\), le rapport de son effectif \(n_i\) avec l'effectif de la population ou de l'échantillon.
Exemple 6#
Lors de l'enquête effectuée à l'exemple 1, les données ci-dessous ont été récoltées avec les modalités suivantes: célibataire "C", marié.e "M", divorcé.e "D" et veuf/veuve "V".
Le tableau des effectifs \(n_i\) et des fréquences \(f_i\) est le suivant.
Définition
Un diagramme en barres ou à bâtons est un diagramme dans lequel sont représentés les effectifs ou les fréquences des modalités.
Définition
Un diagramme circulaire ou à secteurs est un diagramme dans lequel sont représentés les fréquences des modalités d'une variable statistique.
Définition
La fréquence cumulée d'une modalité d'une variable statistique discrète est la somme des fréquences de cette modalité et des fréquences de toutes les modalités inférieures. La fréquence cumulée de la modalité \(x_i\) est notée \(F_i\).
Exemple 7#
Voici les notes obtenues à l'examen écrit de maturité en mathématiques.
Le tableau des effectifs \(n_i\), des fréquences \(f_i\) et des fréquences cumulées \(F_i\) est le suivant.
Définition
Une fonction de répartition est une fonction discontinue, en escalier, qui représente les fréquences cumulées d'une variable statistique discrète.
Variables statistiques continues#
Pour représenter les données de variables statistiques continues avec un histogramme, il faut les regrouper en classes.
Définition
Une classe est un intervalle semi-ouvert de la forme \(\left[b_{i-1} ; b_i \right[\) où \(b_{i-1}\) s'appelle la borne inférieure de cette \(i\)-ème classe et \(b_i\) la borne supérieure.
La largeur, étendue ou amplitude d'une classe est la différence de ses bornes:
Le centre ou milieu d'une classe est la moyenne arithmétique de ses bornes:
Exemple 8#
La masse de \(140\) étudiants de sexe masculin a été mesurée. Les données sont les suivantes.
La masse a été arrondie à l'entier, mais c'est une variable statistique quantitative continue.
Pour faciliter le stockage et la visualisation de ces données, il est possible de les regrouper par classe de largeur \(L = 5\).
Définition
Un histogramme est un diagramme dans lequel sont représentés les effectifs ou les fréquences des classes d'une variable statistique continue.