11 Statistique à deux variables (TS2)

Statistique à deux variables (TS2)

algebra

Généralités

Statistique à une variable - Rappels :

Soit X un caractère étudié dans une population d’effectif N, prenant les valeurs .
A chaque modalité on associe son effectif .

Définition 1.

  • L’ensemble des couples est appelé série statistique simple ou série statistique à une variable.

  • La fréquence de la modalité est le réel noté tel que :

  • La moyenne de la série statistique est le réel noté ou tel que :

  • La variance de la série statistique est le réel noté ou tel que :

L’écart-type est la racine carrée de la variance. On le note ou .

Propriété 2.

Remarque 3. Lorsque la série est groupée en classes ; les centres de classes représentent .

Dans chacun des exercices ci-dessous, calculer la moyenne, la variance et l’écart type de la série statistique donnée.

Exercice 4. On considère la série de notes d’élèves de TS1, à un devoir de maths.

Exercice 5. Une enquête portant sur le nombre x de frères et sœurs d’élèves d’une seconde S a donné les résultats suivants :

Exercice 6. L’étude de la taille des élèves d’une classe a donné les résultats ci- dessous :

Série statistiques à deux variables

On considère dans une population d’effectif , deux caractères et prenant respectivement les valeurs et . A tout couple , et , on associe le nombre d’individus pour lesquels prend la valeur et la valeur .

Définition 7.

  • L’ensemble des triplets est appelé série statistique double ou à deux variables associée au couple de caractère .
    est l’effectif du couple

  • La fréquence du couple est : ; on la note .

Exemple 8. Le tableau ci-dessous donne les notes X de maths et Y de sciences physiques obtenues par 10 candidats au Bac S1 :

L’effectif du couple est . La fréquence du couple est .
L’effectif du couple est .
Les modalités du caractère X sont : 7-8-10-11-12-14-15.
Les modalités du caractère Y sont : 8-9-11-12-13-17.

Exemple 9. Une enquête sur 100 familles portant sur le nombre d’enfants X par famille et le nombre de pièces d’habitation Y par famille a donné les résultats suivants.

L’effectif du couple est : il y a familles ayant enfant et pièces d’habitation.
La fréquence du couple est : des familles ont enfants et deux pièces d’habitation.

Séries marginales

A l’aide du tableau de l’exemple 9 précédent, on peut reconstituer la série statistique de chacun des caractères et associés à cette série statistique double et de calculer leur moyenne, variance et écart -type.
L’effectif d’une valeur prise par est obtenu en additionnant les nombres situés sur la même colonne que et on porte ce résultat en marge du tableau. L’effectif de est noté

La série simple est appelée série (ou distribution) marginale de .
De même, l’effectif d’une valeur prise par est obtenu en additionnant les nombres situés sur la même ligne que , et on porte ce résultat en marge du tableau. L’effectif de est noté

La série simple est appelée série ou distribution marginale de .

Définition 10. Les nombres et sont les effectifs marginaux respectifs de et .
Les fréquences marginales sont les nombres et définis par:

Séries ou distributions conditionnelles

A partir de la distribution statistique double, on peut fixer la valeur d’un caractère et étudier la distribution qui en résulte pour l’autre caractère. On obtient ainsi deux types de séries conditionnelles: la distribution conditionnelle de sachant que notée et la distribution conditionnelle de sachant que notée
La distribution conditionnelle est la distribution de valeurs de lorsque a pris une valeur fixée , c’est la série d’effectif total .
On obtient les fréquences conditionnelles de cette distribution:
Dans le tableau de l’exemple 9 précédent, on peut s’intéresser qu’aux familles à deux enfants et déterminer le nombre de pièces d’habitation qu’elles ont. Il y en a .
On obtient ainsi la série conditionnelle de sachant que
On peut extraire cette série du tableau :

Parmi les familles à deux enfants la fréquence de celles qui ont 4 pièces d’habitation est
C’est la fréquence conditionnelle de 4 sachant que . On note .
On en déduit que des familles à deux enfants ont 4 pièces d’habitation.
La moyenne conditionnelle de sachant est égale à :
Interprétation
Les familles à deux enfants ont en moyenne 3 pièces d’habitation.

Remarque 11. Les distributions conditionnelles sont présentées sous forme de fréquences conditionnelles. En multipliant par 100 ces fréquences on obtient la distribution conditionnelle en pourcentage, ce qui est conforme aux habitudes de la vie.

Exercice 12. Donner en pourcentage la distribution conditionnelle de la série double de l’exemple 9. Pour cela compléter le tableau suivant.

Nuage de points-Point moyen

Soit une série double associée au couple de caractères . Dans un plan muni d’un repère orthogonal, on représente les points de coordonnées . Et on indique à côté de chaque point, l’effectif s’il est différent de ou bien on représente chacun de ces points par une tâche dont l’étendue est proportionnelle à l’effectif
L’ensemble de ces points est appelé nuage de la série double.

Exemple 13. Nuage de la série double étudiée à l’exemple 8

tikzpicture-1

Nuage de la série double étudiée à l’exemple 9

tikzpicture-2

Le barycentre des points affectés des coefficients a pour coordonnées .
est la moyenne de la série marginale et celle de la série marginale .
Le point est appelé point moyen.

Ajustement linéaire

Notion d’ajustement

Un nuage représentant une série statistique double peut avoir différents aspects.
Ajuster un nuage par une courbe c’est trouver la courbe la « plus proche » des points du nuage. Cette courbe est appelée courbe d’ajustement ou de régression ou d’estimation. Si cette courbe est une droite, on parle de régression linéaire.

Ajustement linéaire par la méthode des moindres carrées

On considère le nuage de points .
d’effectifs tous égaux à , représentant une série statistique double .

tikzpicture-3

Essayons d’approcher ce nuage par une droite .
Supposons que les points ne sont pas tous situés sur une droite parallèle à l’axe des ordonnées c’est à dire n’est pas une constante. On désigne le projeté de sur la droite parallèlement à l’axe des ordonnées.
Supposons que les points ne sont pas tous situés sur l’axe des ordonnées, c’est à dire n’est pas une constante. On désigne le projeté de sur la droite parallèlement à l’axe des abscisses.
La méthode des moindres carrées consiste à chercher une droite d’équation qui rend minimale la somme des ou une droite qui rend minimale la somme des :


Dans le premier cas est appelée droite de régression de en . On la note .
Dans le deuxième cas est appelée droite de régression de en . On la note .

Définition 14. Soit et les moyenne des séries marginales associées à la série double d’effectif . On appelle covariance de le réel noté cov ou défini par :

Remarque 15. cov

Théorème 16.

  • La droite de régression de Y en X passe par le point moyen et a pour équation : .

  • La droite de régression de X en Y passe par le point moyen et a pour équation : .

Remarque 17. Ces équations permettent de trouver par extrapolation à partir d’une valeur de x fixée, la valeur de y estimée et inversement.

Exercice 18. Déterminer les droites de régression de Y en X et de X en Y des séries doubles étudiées aux exemples 8 et 9).

Coefficient de corrélation linéaire

Lorsque les points du nuage sont groupés suivant une direction rectiligne, on a une dépendance statistique linéaire entre les caractères X et Y. On dit qu’il y a corrélation linéaire entre X et Y.

Définition 19. On appelle coefficient de corrélation linéaire d’une série statistique double le réel défini par :

Propriété 20.

  • et sont les coefficients directeurs respectifs des droites de régression de Y en X et de X en Y.

Remarque 21.

  • Si et alors

  • Si et alors

Appréciation de la corrélation linéaire

Le réel permet d’apprécier la corrélation linéaire entre les variables X et Y.
Si alors la corrélation linéaire entre les deux variables est forte.
Si la corrélation est faible.

Remarque 22. Si la corrélation est faible, un ajustement linéaire n’est pas justifié.