29 Statistique à deux variables
Statistique à deux variables
analysis
L’étude conjointe de deux variables statistiques sur une même
population est fréquente dans le domaine des sciences exactes comme dans
celui des sciences humaines.
On cherche alors à déterminer s’il existe un lien entre ces deux
variables et, le cas échéant, quelle est la nature de ce lien. La
première étape consiste à représenter sur un même graphique les deux
variables statistiques. C’est ce que l’on appelle tracer un nuage de
points. On regarde ensuite si ce nuage de points se rapproche d’une
courbe connue, afin de déterminer la nature du lien (ou la
corrélation) éventuel entre les deux variables
statistiques.
La notion de corrélation semble avoir été esquissée pour la première
fois par le britannique Francis Galton, (1822-1911), dans ses travaux
sur l’hérédité.
En 1886, il examinait la taille des enfants en fonction de la taille
moyenne des parents. Il nota que les enfants de parents de grande taille
avaient tendance à être plus petits qu’eux. Il y avait donc régression
du caractère "grande taille" : la droite d’ajustement de y en x qu’il
utilisa fut nommée droite de régression. C’est pourquoi la droite
d’ajustement affine est appelée droite de régression linéaire.
Statistique à une variable - Rappels
Moyenne - Variance - Écart-type
Soit X un caractère étudié dans une population d’effectif n, prenant
les valeurs , , , , .
Définition 1.
L’ensemble des réels est appelé série statistique simple ou série statistique à une variable.
La moyenne de la série statistique est le réel noté ou tel que :
La variance de la série statistique est le réel noté ou tel que :
L’écart-type est la racine carrée de la variance. On le note ou .
Exemple 2. On considère la série de notes d’élèves de TS1, à un devoir de maths.
On a:
La variance est alors :
D’où l’écart-type:
Série statistique à deux variables
On considère dans une même population d’effectif , deux caractères quantitatifs et
prenant respectivement les valeurs et .
A chaque individu de la population , on associe un couple .
L’ensemble des couples est appelé série
statistique double ou à deux variables associée au couple de caractère
.
Exemple 3. Le tableau ci-dessous donne les notes X de maths et Y de français obtenues par 10 candidats au Bac L.
L’effectif du couple est . La fréquence du couple
est .
L’effectif du couple est . La fréquence du couple
est .
Les modalités du caractère X sont : 7-8-10-11-12-14-15.
Les modalités du caractère Y sont : 8-9-11-12-13-17.
Nuage de points et point moyen
Soit une série statistique double.
Dans un plan muni d’un repère orthogonal, on représente les points de
coordonnées .
L’ensemble de ces points est appelé nuage de la série
double.
Exemple 4. Nuage de la série double de l’exemple précèdent.
Point moyen
Définition 5. est la moyenne des valeurs de et celle des valeurs de .
Le point G est appelé point moyen.
Exemple 6.
d’ où G
Ajustement linéaire par la méthode des moindres carrées
Lorsque le nuage de points semble présenter une forme allongée, c’est-à-dire que ses points paraissent sensiblement alignés suivant une direction de droite, cela suggère de trouver une fonction affine telle que : on parle d’ajustement affine ou linéaire.
On utilise alors pour déterminer l’équation de la droite une méthode appelée méthode des moindres carrées, car la droite obtenue, parmi toutes les droites possibles pouvant approcher le nuage de points, est celle dont la somme des carrés des distances aux points du nuage est minimale.
Cette droite est appelée droite de régression de en . On la note .
Covariance
Définition 7. Soit et les
moyennes des séries X et Y associées à la série double d’effectif .
On appelle covariance de le réel noté
cov ou défini
par :
Exemple 8. cov(X,Y)
Propriété 9. La droite de régression de Y en X passe par le point moyen et a pour équation :
Remarque 10. Cette équation permet de trouver par extrapolation à partir d’une valeur de x fixée, la valeur de y estimée et inversement.
Exemple 11. Calculons la variance de X. On a
:
V
On a : donc
c’est à
dire équation de la droite de
régression de y en x.
Si cette tendance se maintient, on peut estimer la note de français d’un
élève qui a eu 16 en maths.
On a ainsi : soit
en français.
Inversement quelle serait le note en maths d’un élève qui a eu 10 en
français ?
Pour cela on résout l’équation d’inconnue
suivante:.
On tire soit en maths.
Coefficient de corrélation linéaire
Lorsque les points du nuage sont groupés suivant une direction rectiligne, on a une dépendance statistique linéaire entre les caractères X et Y. On dit qu’il y a corrélation linéaire entre X et Y.
Définition 12. On appelle coefficient de corrélation linéaire d’une série statistique double , est le réel défini par : ou
Exemple 13. On reprend l’exemple de la série
statistique des notes X de maths et Y de français obtenues par 10
candidats au Bac L.
On a: cov, V
et V
On en déduit que: r
Propriété 14.
Appréciation de la corrélation linéaire
Le réel permet
d’apprécier la corrélation linéaire entre les variables X et Y.
Si
alors la corrélation linéaire entre les deux variables est forte.
Si la
corrélation est faible.
Remarque 15. Si la corrélation est faible, un ajustement linéaire n’est pas justifié.