29 Statistique à deux variables

Statistique à deux variables

analysis

L’étude conjointe de deux variables statistiques sur une même population est fréquente dans le domaine des sciences exactes comme dans celui des sciences humaines.
On cherche alors à déterminer s’il existe un lien entre ces deux variables et, le cas échéant, quelle est la nature de ce lien. La première étape consiste à représenter sur un même graphique les deux variables statistiques. C’est ce que l’on appelle tracer un nuage de points. On regarde ensuite si ce nuage de points se rapproche d’une courbe connue, afin de déterminer la nature du lien (ou la corrélation) éventuel entre les deux variables statistiques.
La notion de corrélation semble avoir été esquissée pour la première fois par le britannique Francis Galton, (1822-1911), dans ses travaux sur l’hérédité.
En 1886, il examinait la taille des enfants en fonction de la taille moyenne des parents. Il nota que les enfants de parents de grande taille avaient tendance à être plus petits qu’eux. Il y avait donc régression du caractère "grande taille" : la droite d’ajustement de y en x qu’il utilisa fut nommée droite de régression. C’est pourquoi la droite d’ajustement affine est appelée droite de régression linéaire.

Statistique à une variable - Rappels

Moyenne - Variance - Écart-type

Soit X un caractère étudié dans une population d’effectif n, prenant les valeurs , , , , .

Définition 1.

  • L’ensemble des réels est appelé série statistique simple ou série statistique à une variable.

  • La moyenne de la série statistique est le réel noté ou tel que :

  • La variance de la série statistique est le réel noté ou tel que :

L’écart-type est la racine carrée de la variance. On le note ou .

Exemple 2. On considère la série de notes d’élèves de TS1, à un devoir de maths.

On a:

La variance est alors :

D’où l’écart-type:

Série statistique à deux variables

On considère dans une même population d’effectif , deux caractères quantitatifs et prenant respectivement les valeurs et .
A chaque individu de la population , on associe un couple .
L’ensemble des couples est appelé série statistique double ou à deux variables associée au couple de caractère .

Exemple 3. Le tableau ci-dessous donne les notes X de maths et Y de français obtenues par 10 candidats au Bac L.

L’effectif du couple est . La fréquence du couple est .
L’effectif du couple est . La fréquence du couple est .
Les modalités du caractère X sont : 7-8-10-11-12-14-15.
Les modalités du caractère Y sont : 8-9-11-12-13-17.

Nuage de points et point moyen

Soit une série statistique double.
Dans un plan muni d’un repère orthogonal, on représente les points de coordonnées .
L’ensemble de ces points est appelé nuage de la série double.

Exemple 4. Nuage de la série double de l’exemple précèdent.

tikzpicture-1

Point moyen

Définition 5. est la moyenne des valeurs de et celle des valeurs de .

Le point G est appelé point moyen.

Exemple 6.

d’ où G

Ajustement linéaire par la méthode des moindres carrées

Lorsque le nuage de points semble présenter une forme allongée, c’est-à-dire que ses points paraissent sensiblement alignés suivant une direction de droite, cela suggère de trouver une fonction affine telle que : on parle d’ajustement affine ou linéaire.

On utilise alors pour déterminer l’équation de la droite une méthode appelée méthode des moindres carrées, car la droite obtenue, parmi toutes les droites possibles pouvant approcher le nuage de points, est celle dont la somme des carrés des distances aux points du nuage est minimale.

Cette droite est appelée droite de régression de en . On la note .

tikzpicture-2

Covariance

Définition 7. Soit et les moyennes des séries X et Y associées à la série double d’effectif .
On appelle covariance de le réel noté cov ou défini par :

Exemple 8. cov(X,Y)

Propriété 9. La droite de régression de Y en X passe par le point moyen et a pour équation :

Remarque 10. Cette équation permet de trouver par extrapolation à partir d’une valeur de x fixée, la valeur de y estimée et inversement.

Exemple 11. Calculons la variance de X. On a :
V
On a : donc c’est à dire équation de la droite de régression de y en x.
Si cette tendance se maintient, on peut estimer la note de français d’un élève qui a eu 16 en maths.
On a ainsi : soit en français.
Inversement quelle serait le note en maths d’un élève qui a eu 10 en français ?
Pour cela on résout l’équation d’inconnue suivante:.
On tire soit en maths.

Coefficient de corrélation linéaire

Lorsque les points du nuage sont groupés suivant une direction rectiligne, on a une dépendance statistique linéaire entre les caractères X et Y. On dit qu’il y a corrélation linéaire entre X et Y.

Définition 12. On appelle coefficient de corrélation linéaire d’une série statistique double , est le réel défini par : ou

Exemple 13. On reprend l’exemple de la série statistique des notes X de maths et Y de français obtenues par 10 candidats au Bac L.
On a: cov, V et V

On en déduit que: r

Propriété 14.

Appréciation de la corrélation linéaire

Le réel permet d’apprécier la corrélation linéaire entre les variables X et Y.
Si alors la corrélation linéaire entre les deux variables est forte.
Si la corrélation est faible.

Remarque 15. Si la corrélation est faible, un ajustement linéaire n’est pas justifié.