11 Statistique à deux variables (TS2)
Statistique à deux variables (TS2)
algebra
Généralités
Statistique à une variable - Rappels :
Soit X un caractère étudié dans une population d’effectif N, prenant
les valeurs .
A chaque modalité on associe son effectif .
Définition 1.
L’ensemble des couples est appelé série statistique simple ou série statistique à une variable.
La fréquence de la modalité est le réel noté tel que :
La moyenne de la série statistique est le réel noté ou tel que :
La variance de la série statistique est le réel noté ou tel que :
L’écart-type est la racine carrée de la variance. On le note ou .
Propriété 2.
Remarque 3. Lorsque la série est groupée en classes ; les centres de classes représentent .
Dans chacun des exercices ci-dessous, calculer la moyenne, la variance et l’écart type de la série statistique donnée.
Exercice 4. On considère la série de notes d’élèves de TS1, à un devoir de maths.
Exercice 5. Une enquête portant sur le nombre x de frères et sœurs d’élèves d’une seconde S a donné les résultats suivants :
Exercice 6. L’étude de la taille des élèves d’une classe a donné les résultats ci- dessous :
Série statistiques à deux variables
On considère dans une population d’effectif , deux caractères et prenant respectivement les valeurs et . A tout couple , et , on associe le nombre d’individus pour lesquels prend la valeur et la valeur .
Définition 7.
L’ensemble des triplets est appelé série statistique double ou à deux variables associée au couple de caractère .
est l’effectif du coupleLa fréquence du couple est : ; on la note .
Exemple 8. Le tableau ci-dessous donne les notes X de maths et Y de sciences physiques obtenues par 10 candidats au Bac S1 :
L’effectif du couple est . La fréquence du couple
est .
L’effectif du couple est .
Les modalités du caractère X sont : 7-8-10-11-12-14-15.
Les modalités du caractère Y sont : 8-9-11-12-13-17.
Exemple 9. Une enquête sur 100 familles portant sur le nombre d’enfants X par famille et le nombre de pièces d’habitation Y par famille a donné les résultats suivants.
L’effectif du couple est : il y a familles ayant enfant et pièces
d’habitation.
La fréquence du couple est : des
familles ont enfants et deux pièces
d’habitation.
Séries marginales
A l’aide du tableau de l’exemple 9 précédent, on peut reconstituer la
série statistique de chacun des caractères et associés à cette série statistique double et de
calculer leur moyenne, variance et écart -type.
L’effectif d’une valeur prise par est obtenu en additionnant les nombres situés sur la même colonne que et on porte ce résultat en marge du tableau.
L’effectif de est noté
La série simple est appelée
série (ou distribution) marginale de .
De même, l’effectif d’une valeur prise par est obtenu en additionnant les nombres situés sur la même ligne que , et on porte ce résultat en marge du tableau.
L’effectif de est noté
La série simple est appelée
série ou distribution marginale de .
Définition 10. Les nombres et sont les effectifs
marginaux respectifs de et .
Les fréquences marginales sont les nombres et définis par:
Séries ou distributions conditionnelles
A partir de la distribution statistique double, on peut fixer la
valeur d’un caractère et étudier la distribution qui en résulte pour
l’autre caractère. On obtient ainsi deux types de séries
conditionnelles: la distribution conditionnelle de
sachant que notée et la distribution conditionnelle de
sachant que notée
La distribution conditionnelle est la
distribution de valeurs de lorsque a pris une valeur fixée
, c’est la série d’effectif total .
On obtient les fréquences conditionnelles de cette distribution:
Dans le tableau de l’exemple 9 précédent, on peut s’intéresser qu’aux
familles à deux enfants et déterminer le nombre de pièces d’habitation
qu’elles ont. Il y en a .
On obtient ainsi la série conditionnelle de
sachant que
On peut extraire cette série du tableau :
Parmi les familles à deux enfants la fréquence de celles qui ont 4
pièces d’habitation est
C’est la fréquence conditionnelle de 4 sachant que . On note .
On en déduit que des familles à deux enfants
ont 4 pièces d’habitation.
La moyenne conditionnelle de sachant est égale à :
Interprétation
Les familles à deux enfants ont en moyenne 3 pièces d’habitation.
Remarque 11. Les distributions conditionnelles sont présentées sous forme de fréquences conditionnelles. En multipliant par 100 ces fréquences on obtient la distribution conditionnelle en pourcentage, ce qui est conforme aux habitudes de la vie.
Exercice 12. Donner en pourcentage la distribution conditionnelle de la série double de l’exemple 9. Pour cela compléter le tableau suivant.
Nuage de points-Point moyen
Soit une série double
associée au couple de caractères . Dans un plan
muni d’un repère orthogonal, on représente les points de coordonnées . Et on indique à côté de chaque point,
l’effectif s’il est différent de ou bien on représente chacun de ces points par une
tâche dont l’étendue est proportionnelle à l’effectif
L’ensemble de ces points est appelé nuage de la série
double.
Exemple 13. Nuage de la série double étudiée à l’exemple 8
Nuage de la série double étudiée à l’exemple 9
Le barycentre des points affectés des coefficients a
pour coordonnées .
est la moyenne de la série marginale
et celle de la
série marginale .
Le point est
appelé point moyen.
Ajustement linéaire
Notion d’ajustement
Un nuage représentant une série statistique double peut avoir
différents aspects.
Ajuster un nuage par une courbe c’est trouver la courbe la « plus proche
» des points du nuage. Cette courbe est appelée courbe d’ajustement ou
de régression ou d’estimation. Si cette courbe est une droite, on parle
de régression linéaire.
Ajustement linéaire par la méthode des moindres carrées
On considère le nuage de points .
d’effectifs tous égaux à , représentant une série statistique double .
Essayons d’approcher ce nuage par une droite .
Supposons que les points ne sont pas tous situés sur une droite
parallèle à l’axe des ordonnées c’est à dire n’est
pas une constante. On désigne le projeté de sur la droite parallèlement
à l’axe des ordonnées.
Supposons que les points ne sont pas tous situés sur l’axe des
ordonnées, c’est à dire n’est pas une constante.
On désigne le projeté de
sur la droite parallèlement à l’axe des
abscisses.
La méthode des moindres carrées consiste à chercher une droite d’équation qui rend
minimale la somme des ou une droite
qui rend minimale la somme des :
Dans le premier cas est appelée droite de
régression de en . On la note
.
Dans le deuxième cas est appelée droite de
régression de en . On la note
.
Définition 14. Soit et les moyenne des séries marginales associées à la série double d’effectif . On appelle covariance de le réel noté cov ou défini par :
Remarque 15. cov
Théorème 16.
La droite de régression de Y en X passe par le point moyen et a pour équation : où .
La droite de régression de X en Y passe par le point moyen et a pour équation : où .
Remarque 17. Ces équations permettent de trouver par extrapolation à partir d’une valeur de x fixée, la valeur de y estimée et inversement.
Exercice 18. Déterminer les droites de régression de Y en X et de X en Y des séries doubles étudiées aux exemples 8 et 9).
Coefficient de corrélation linéaire
Lorsque les points du nuage sont groupés suivant une direction rectiligne, on a une dépendance statistique linéaire entre les caractères X et Y. On dit qu’il y a corrélation linéaire entre X et Y.
Définition 19. On appelle coefficient de corrélation linéaire d’une série statistique double le réel défini par :
Propriété 20.
où et sont les coefficients directeurs respectifs des droites de régression de Y en X et de X en Y.
Remarque 21.
Si et alors
Si et alors
Appréciation de la corrélation linéaire
Le réel permet
d’apprécier la corrélation linéaire entre les variables X et Y.
Si
alors la corrélation linéaire entre les deux variables est forte.
Si la
corrélation est faible.
Remarque 22. Si la corrélation est faible, un ajustement linéaire n’est pas justifié.