Croisement de variables qualitatives – Cours 2nde

Sommaire

1. Variables qualitatives 2. Tableau croisé d’effectifs 3. Fréquences marginales 4. Fréquences conditionnelles 5. Interpréter un tableau croisé 6. Lien avec les probabilités conditionnelles Bilan — L’essentiel !Pièges et contre-exemples

Sondage : y a-t-il un lien entre sport pratique et région ?

On interroge 500 lycéens de deux régions sur leur sport préféré (football, basketball, natation). Comment savoir si le choix du sport dépend de la région ?

Construire un tableau croisé, calculer les fréquences conditionnelles et interpréter.
→ Méthode détaillée dans les sections 2 à 5.

→ Solution complète en fin de chapitre

Florence Nightingale et les statistiques

Florence Nightingale (1820–1910), pionnière des soins infirmiers, est aussi l’une des premières à utiliser les statistiques pour convaincre. Pendant la guerre de Crimée, elle a collecté des donnees sur les causes de décès des soldats et les a croisées avec les conditions sanitaires.

Ses diagrammes à secteurs innovants (« coxcombs ») ont montré que la majorité des décès étaient dus aux maladies, non aux blessures. Ses tableaux croisés ont convaincu le gouvernement britannique de reformer les hôpitaux militaires.

Le paradoxe de Simpson

L’hôpital A réussit mieux que l’hôpital B pour les cas légers et pour les cas graves. Pourtant, globalement, l’hôpital B a un meilleur taux de réussite. Comment n’est-ce possible ?

Indice : les deux hôpitaux ne traitent pas la même proportion de cas graves.

→ Solution complète en fin de chapitre

1. Variables qualitatives

Définition — Variable qualitative

Une variable qualitative (ou categorielle) est un caractère qui prend des valeurs non numériques, appelées modalités.

Exemples

Variable nominale (pas d’ordre) : couleur des yeux, profession, département de résidence, espèce animale.
Variable ordinale (avec un ordre) : niveau d’étude (brevet, bac, licence…), degré de satisfaction (pas du tout, un peu, beaucoup…).
Variable qualitative définie par intervalles : classe d’âge (moins de 18 ans, 18-25 ans, 26-40 ans…), temps de transport (moins de 15 min, 15-30 min, plus de 30 min…).

Différence avec une variable quantitative

Une variable quantitative prend des valeurs numériques (taille, poids, note). On ne peut pas calculer de moyenne sur une variable qualitative.

2. Tableau croisé d’effectifs

Définition — Tableau croisé

Un tableau croisé d’effectifs (ou tableau de contingence) présente la répartition d’une population selon deux variables qualitatives. Les modalités d’une variable sont en lignes, celles de l’autre en colonnes.

Exemple — Sport et région

On interroge 200 lycéens sur leur sport préféré :

	Football	Basketball	Natation	Total
Région Nord	40	30	10	80
Région Sud	30	40	50	120
Total	70	70	60	200

Les totaux en dernière ligne et dernière colonne sont les effectifs marginaux.

marginales. Les lignes/colonnes donnent les fréquences conditionnelles.

Chaque effectif \(n_{ij}\) croisé une modalité ligne et une modalité colonne. Les totaux en bordure (marges) correspondent aux effectifs marginaux, utilisés pour les fréquences marginales.

Méthode — Construire un tableau croisé

Identifier les deux variables et leurs modalités.
Compter les individus correspondant à chaque croisement de modalités.
Ajouter les totaux par ligne, par colonne, et le total général.
Vérifier : la somme de chaque ligne = total de la ligne ; la somme de chaque colonne = total de la colonne.

3. Fréquences marginales

Définition — Fréquence marginale

La fréquence marginale d’une modalité est la proportion de cette modalité dans l’ensemble de la population. Elle se calcule à partir des totaux (marges) du tableau croisé.

Exemple (suite)

Fréquences marginales des sports :

Football : \(\frac{70}{200} = 35\,\%\)
Basketball : \(\frac{70}{200} = 35\,\%\)
Natation : \(\frac{60}{200} = 30\,\%\)

Fréquences marginales des régions :

Région Nord : \(\frac{80}{200} = 40\,\%\)
Région Sud : \(\frac{120}{200} = 60\,\%\)

4. Fréquences conditionnelles

Définition — Fréquence conditionnelle

La fréquence conditionnelle d’une modalité B sachant une modalité A est la proportion de B parmi les individus ayant la modalité A : \[f_{A}(B) = \frac{\text{effectif de } A \cap B}{\text{effectif de } A}\]

Exemple (suite)

Fréquence du football sachant Région Nord :

\[f_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 50\,\%\]

Fréquence du football sachant Région Sud :

\[f_{\text{Sud}}(\text{Football}) = \frac{30}{120} = 25\,\%\]

Le football est deux fois plus populaire au Nord qu’au Sud (50 % contre 25 %). Il semble y avoir un lien entre région et sport.

Attention — Ne pas confondre les deux sens

\(f_{\text{Nord}}(\text{Football})\) (fréquence du football parmi les Nordistes) et \(f_{\text{Football}}(\text{Nord})\) (fréquence des Nordistes parmi les footballeurs) sont des nombres différents :

\(f_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 50\,\%\)
\(f_{\text{Football}}(\text{Nord}) = \frac{40}{70} \approx 57{,}1\,\%\)

Méthode — Tableau de fréquences conditionnelles par ligne

On divise chaque case par le total de sa ligne :

	Football	Basketball	Natation	Total
Nord	50 %	37,5 %	12,5 %	100 %
Sud	25 %	33,3 %	41,7 %	100 %

Chaque ligne totalise 100 %. On lit directement la répartition des sports dans chaque région.

Les deux profils sont visiblement différents : au Nord, le football domine (50 %) ; au Sud, c’est la natation (41,7 %). Il existe un lien entre la région et le sport pratique.

5. Interpréter un tableau croisé

Méthode — Détecter un lien entre deux variables

On compare les fréquences conditionnelles entre les différentes sous-populations :

Si les profils conditionnels sont similaires (mêmes proportions dans chaque ligne), les deux variables semblent indépendantes.
Si les profils conditionnels sont différents, il y a une association (un lien) entre les deux variables.

Exemple (suite)

Les profils sont différents : au Nord, 50 % font du football et 12,5 % de la natation ; au Sud, 25 % font du football et 41,7 % de la natation. Il y a bien un lien entre la région et le sport pratique.

📌 À retenir — Détecter l’indépendance

Profils conditionnels identiques (mêmes pourcentages dans chaque ligne) ⟹ les variables sont indépendantes.
Profils conditionnels différents ⟹ il y a un lien (association) entre les deux variables.
En pratique, on compare les lignes du tableau de fréquences conditionnelles : si elles se ressemblent, pas de lien ; sinon, lien.

Remarque — Paradoxe de Simpson

Attention : une tendance observée dans chaque sous-groupe peut s’inverser quand on fusionne les groupes (cf. énigme d’introduction). Il faut toujours analyser les fréquences conditionnelles, pas seulement les fréquences marginales.

📺 Pour aller plus loin — Le paradoxe de Simpson en vidéo

L’exemple canonique du paradoxe de Simpson est celui des admissions à l’université de Berkeley en 1973 : globalement, les hommes semblaient avantagés (44 % admis contre 35 % pour les femmes), mais département par département, les femmes étaient en réalité mieux admises. L’explication ? Les femmes postulaient davantage dans les départements les plus sélectifs.

🎬 Voyages au pays des maths — Le paradoxe de Simpson | ARTE (épisode 6 min)
📄 Fiche exercices — Paradoxe de Simpson (CSEN, niveau lycée)

Conclusion : toujours examiner les sous-groupes, pas seulement le total fusionné.

Méthode — Algorithme : filtre ET/OU/NON

À partir de deux listes représentant deux caractères, on peut filtrer une sous-population en Python :

ET : individus vérifiant les deux critères simultanément.
OU : individus vérifiant au moins un des deux critères.
NON : individus ne vérifiant pas un critère.

On peut ensuite dresser le tableau croisé et calculer les fréquences conditionnelles automatiquement.

6. Lien avec les probabilités conditionnelles

Propriété — De la statistique aux probabilités

Si on tire au sort un individu dans la population avec équiprobabilité, alors :

La proportion d’une sous-population A devient la probabilité \(P(A)\).
La fréquence conditionnelle \(f_A(B)\) devient la probabilité conditionnelle \(P_A(B)\).

\[P(A) = \frac{\text{Card}(A)}{\text{Card}(\Omega)} \qquad P_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\]

Justification intuitive

Résultat admis -- justification intuitive :

Si on tire un individu au hasard dans une population de \(N\) individus avec équiprobabilité, la probabilité de tomber dans un sous-ensemble \(A\) de \(n_A\) individus est \(\frac{n_A}{N}\), ce qui est exactement la proportion de \(A\) dans la population.

La fréquence conditionnelle \(f_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\) devient la probabilité conditionnelle \(P_A(B) = \frac{P(A \cap B)}{P(A)}\) par le même raisonnement. C’est le lien entre statistiques descriptives et probabilités.

Exemple (suite)

On tire un lycéen au hasard parmi les 200.

\(P(\text{Nord}) = \frac{80}{200} = 0{,}4\)
\(P(\text{Football}) = \frac{70}{200} = 0{,}35\)
\(P_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 0{,}5\)
\(P(\text{Nord} \cap \text{Football}) = \frac{40}{200} = 0{,}2\)

On vérifie : \(P(\text{Nord} \cap \text{Football}) = P(\text{Nord}) \times P_{\text{Nord}}(\text{Football}) = 0{,}4 \times 0{,}5 = 0{,}2\). ✓

🔗 Renvoi — Suite au chapitre 15

Le chapitre 15 — Probabilités conditionnelles et arbres généralise cette notion dans un cadre probabiliste, au-delà des tableaux croisés : on y voit les arbres pondérés, la formule des probabilités totales et l’indépendance de deux événements.

🐍 Python — Fréquences a partir d’un tableau croisé

On représente le tableau avec un dictionnaire imbriqué, puis on calcule les fréquences marginales (par ligne et par colonne).

# Reprise du sondage 200 lycéens : sport préféré x région
tableau = {
    "Nord": {"foot": 40, "basket": 30, "natation": 10},
    "Sud":  {"foot": 30, "basket": 40, "natation": 50},
}

total = sum(sum(ligne.values()) for ligne in tableau.values())
print("Total :", total)  # 200

# Fréquences marginales par ligne (région)
for région, ligne in tableau.items():
    print(région, ":", sum(ligne.values()) / total)

# Fréquences marginales par colonne (sport)
sports = ["foot", "basket", "natation"]
for s in sports:
    effectif = sum(tableau[région][s] for région in tableau)
    print(s, ":", effectif / total)

# Profil-ligne de Nord (fréquences conditionnelles)
for s in sports:
    print("Nord,", s, ":", tableau["Nord"][s] / sum(tableau["Nord"].values()))

On retrouve 40 % Nord / 60 % Sud, 35 % foot / 35 % basket / 30 % natation, puis le profil-ligne Nord : 50 % foot, 37,5 % basket, 12,5 % natation (cohérent avec le tableau du cours plus haut).

Bilan — L’essentiel

Notion	Formule / Description
Tableau croisé	Répartition selon deux variables qualitatives
Fréquence marginale	\(f(A) = \frac{\text{effectif de } A}{\text{effectif total}}\)
Fréquence conditionnelle	\(f_A(B) = \frac{\text{effectif de } A \cap B}{\text{effectif de } A}\)
Lien probabiliste	\(P_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\)

Retenir :

Les fréquences conditionnelles permettent de comparer les profils de différents sous-groupes.
Si les profils conditionnels sont identiques, les variables semblent indépendantes.
Le paradoxe de Simpson montré qu’il faut toujours examiner les sous-groupes, pas seulement les totaux.
Ne pas confondre \(f_A(B)\) et \(f_B(A)\).

Solution du problème d’ouverture — Sondage : sport et région

Pour détecter un lien entre deux variables qualitatives, on compare les fréquences conditionnelles d’une variable sachant l’autre. Si elles sont très différentes, il y a un lien ; sinon, les variables sont quasi indépendantes.

Exemple de donnees fictives :

	Football	Basketball	Natation	Total
Région Nord	150	60	40	250
Région Sud	80	80	90	250
Total	230	140	130	500

Fréquences conditionnelles « sport sachant région » :

Nord : \(60\%\) foot, \(24\%\) basket, \(16\%\) natation
Sud : \(32\%\) foot, \(32\%\) basket, \(36\%\) natation

Les profils sont nettement différents : au Nord, le football domine largement ; au Sud, les trois sports sont équilibrés. Il y a bien un lien entre région et sport pratique.

Si les deux régions avaient eu les mêmes pourcentages (\(46\%\) - \(28\%\) - \(26\%\), fréquences marginales), on aurait conclu à une indépendance.

Solution de l’énigme — Le paradoxe de Simpson

Exemple :

	Hôpital A	Hôpital B
Cas légers	90/100 (90 %)	8/10 (80 %)
Cas graves	30/100 (30 %)	2/10 (20 %)
Global	120/200 (60 %)	10/20 (50 %)

Ici, A est meilleur partout et globalement. Mais si B traité surtout des cas graves :

	Hôpital A	Hôpital B
Cas légers	90/100 (90 %)	800/1000 (80 %)
Cas graves	30/100 (30 %)	20/100 (20 %)
Global	120/200 (60 %)	820/1100 (74,5 %)

B paraît meilleur globalement car il traité une énorme proportion de cas légers ! C’est le paradoxe de Simpson : les fréquences conditionnelles et les fréquences marginales peuvent raconter des histoires différentes.

📌 Cas historique : c’est exactement ce qui s’est passé en 1973 à l’université de Berkeley (Californie) : les femmes avaient un taux d’admission global inférieur à celui des hommes, mais étaient mieux admises dans presque tous les départements. L’explication ? Elles postulaient davantage dans les filières les plus sélectives. Voir la section 5 pour une vidéo explicative.

⚠️ Pièges et contre-exemples

Variables croisées : teste d’abord ton intuition, puis lis l’explication.

Score : 0 / 6 pièges identifiés

1 Fréquence conditionnelle = fréquence marginale

« La fréquence conditionnelle \(f_A(B)\) est toujours égale à la fréquence marginale \(f(B)\). »

Cette affirmation n’est-elle vraie ?

Explication

FAUX. La fréquence conditionnelle \(f_A(B)\) est la proportion de \(B\) parmi les individus de \(A\). La fréquence marginale \(f(B)\) est la proportion de \(B\) dans toute la population.

Exemple : 80 % des sportifs sont en bonne santé (\(f_{\text{sport}}(\text{santé}) = 0{,}8\)), mais seulement 60 % de la population totale l’est (\(f(\text{santé}) = 0{,}6\)).

\(f_A(B) = f(B)\) seulement si les variables sont indépendantes. Sinon, les deux sont différentes.

Mini-test : dans un lycée, 70 % des filles font du sport, et 55 % de tous les élèves font du sport. On en déduit que :

Voir section 4 — Fréquences conditionnelles

2 La somme d’une ligne = 100 % du total

« Dans un tableau de fréquences conditionnelles par ligne, la somme d’une ligne vaut 100 % du total général. »

Cette affirmation n’est-elle vraie ?

Explication

FAUX. Dans un profil-ligne (fréquences conditionnelles par ligne), chaque ligne somme à 100 % de cette ligne, pas du total général. Les pourcentages d’une ligne se rapportent au total de cette ligne uniquement.

De même, dans un profil-colonne, chaque colonne somme à 100 % de cette colonne.

Profil-ligne : somme = 100 % de la ligne. Profil-colonne : somme = 100 % de la colonne. Ni l’un ni l’autre ne somment à 100 % du total.

Mini-test : dans un profil-ligne, la ligne « garçons » donne : sport 60 %, musique 25 %, rien 15 %. Ce 60 % signifie :

Voir section 4 — Fréquences conditionnelles

3 Corrélation = causalité

« Si deux variables sont liées dans un tableau croisé, alors l’une cause l’autre. »

Cette affirmation n’est-elle vraie ?

Explication

FAUX. Un lien statistique (corrélation) ne prouve jamais un lien de cause à effet. Il peut exister un facteur confondant (une troisième variable qui explique les deux).

Exemple classique : la consommation de glaces et les noyades augmentent en été. Ce n’est pas la glace qui provoque les noyades — c’est la chaleur qui augmente les deux.

Corrélation ≠ causalité. Toujours chercher un facteur confondant avant de conclure.

Mini-test : « Les pays qui consomment plus de chocolat ont plus de prix Nobel. » On peut conclure que :

Voir section 5 — Interpréter un tableau croisé

4 Forte fréquence conditionnelle = événement probable

« Si 90 % des malades ont de la fièvre, alors une personne fiévreuse est très probablement malade. »

Cette affirmation n’est-elle vraie ?

Explication

FAUX. On confond \(f_{\text{malade}}(\text{fièvre})\) et \(f_{\text{fièvre}}(\text{malade})\). Si la maladie est rare (1 % de la population) mais que beaucoup de gens sains ont aussi parfois de la fièvre (grippe, fatigue…), la plupart des fiévreux ne seront pas malades de cette maladie.

C’est exactement le piège des faux positifs en médecine.

\(f_A(B)\) élève n’implique pas \(f_B(A)\) élève. Ne jamais inverser le conditionnement sans calcul.

Mini-test : 95 % des fumeurs toussent. 30 % de la population tousse. On peut conclure que :

Voir section 6 — Lien avec les probabilités conditionnelles

5 Lire un tableau à l’envers

« Dans un tableau croisé, \(f_A(B)\) et \(f_B(A)\) représentent la même chose. »

Cette affirmation n’est-elle vraie ?

Explication

FAUX. \(f_A(B)\) = proportion de \(B\) parmi les \(A\). \(f_B(A)\) = proportion de \(A\) parmi les \(B\). Ce sont deux calculs différents !

Exemple : \(f_A(B) = \frac{n_{AB}}{n_A}\) (on divise par le total de la ligne \(A\)), tandis que \(f_B(A) = \frac{n_{AB}}{n_B}\) (on divise par le total de la colonne \(B\)).

Toujours bien identifier le dénominateur : c’est le total du sous-groupe qui conditionne.

Mini-test : 30 sportifs sur 50 garçons, et 50 garçons sur 120 sportifs. \(f_{\text{garçons}}(\text{sport})\) vaut :

Voir section 4 — Fréquences conditionnelles

6 Les marges du tableau

« La somme de toutes les fréquences marginales d’une variable vaut toujours 1 (ou 100 %). »

Cette affirmation n’est-elle vraie ou fausse ?

Explication

C’est VRAI ! Les fréquences marginales d’une variable représentent les proportions de chaque modalité dans l’ensemble de la population. Comme les modalités forment une partition, leurs fréquences somment à 1.

Exemple : si 40 % des élèves sont en Seconde, 35 % en Première et 25 % en Terminale, on a bien \(0{,}40 + 0{,}35 + 0{,}25 = 1\).

Les fréquences marginales d’une variable forment toujours une distribution qui somme à 100 %. C’est un intrus parmi les pièges !

Mini-test : dans un tableau croisé sexe/sport, les fréquences marginales du sexe sont : garçons 55 %, filles 45 %. Est-ce cohérent ?

Voir section 3 — Fréquences marginales

➡️ Pour la suite

Ch. 15 — Probabilités conditionnelles et arbres — Des fréquences conditionnelles observées aux probabilités conditionnelles : l’idée est la même, le modèle est théorique.

Chapitre 14 — Croisement de variables qualitatives

Sondage : y a-t-il un lien entre sport pratique et région ?

Florence Nightingale et les statistiques

Le paradoxe de Simpson

1. Variables qualitatives

2. Tableau croisé d’effectifs

3. Fréquences marginales

4. Fréquences conditionnelles

5. Interpréter un tableau croisé

6. Lien avec les probabilités conditionnelles

Bilan — L’essentiel

⚠️ Pièges et contre-exemples