Math@mine / Seconde 2026 / Ch14

Chapitre 14 — Croisement de variables qualitatives

📋 Prérequis & 🎯 Objectifs du chapitre déplier
📋 Prérequis
  • Ch. 13 — statistiques descriptives
🎯 Objectifs — à la fin du chapitre, je saurai…
  • Construire un tableau croisé de variables qualitatives
  • Calculer fréquences marginales et conditionnelles
  • Comparer des profils-lignes / profils-colonnes

Seconde — Nouveau programme (BO 2026) · Math@mine

Sommaire
1. Variables qualitatives 2. Tableau croise d’effectifs 3. Fréquences marginales 4. Fréquences conditionnelles 5. Interpréter un tableau croise 6. Lien avec les probabilités conditionnelles Bilan — L’essentiel !Pieges et contre-exemples

Sondage : y a-t-il un lien entre sport pratique et region ?

On interroge 500 lyceens de deux regions sur leur sport prefere (football, basketball, natation). Comment savoir si le choix du sport depend de la region ?

Construire un tableau croise, calculer les fréquences conditionnelles et interpréter.
→ Méthode detaillee dans les sections 2 a 5.

→ Solution complète en fin de chapitre

Florence Nightingale et les statistiques

Florence Nightingale (1820–1910), pionniere des soins infirmiers, est aussi l’une des premières a utiliser les statistiques pour convaincre. Pendant la guerre de Crimee, elle a collecte des données sur les causes de deces des soldats et les a croisees avec les conditions sanitaires.

Ses diagrammes a secteurs innovants (« coxcombs ») ont montre que la majorite des deces etaient dus aux maladies, non aux blessures. Ses tableaux croises ont convaincu le gouvernement britannique de reformer les hopitaux militaires.

Le paradoxe de Simpson

L’hopital A reussit mieux que l’hopital B pour les cas legers et pour les cas graves. Pourtant, globalement, l’hopital B a un meilleur taux de reussite. Comment est-ce possible ?

Indice : les deux hopitaux ne traitent pas la même proportion de cas graves.

→ Solution complète en fin de chapitre

1. Variables qualitatives

Définition — Variable qualitative
Une variable qualitative (ou categorielle) est un caractere qui prend des valeurs non numériques, appelees modalites.
Exemples
  • Variable nominale (pas d’ordre) : couleur des yeux, profession, departement de residence, espece animale.
  • Variable ordinale (avec un ordre) : niveau d’étude (brevet, bac, licence…), degre de satisfaction (pas du tout, un peu, beaucoup…).
Difference avec une variable quantitative

Une variable quantitative prend des valeurs numériques (taille, poids, note). On ne peut pas calculer de moyenne sur une variable qualitative.

2. Tableau croise d’effectifs

Définition — Tableau croise
Un tableau croise d’effectifs (ou tableau de contingence) presente la repartition d’une population selon deux variables qualitatives. Les modalites d’une variable sont en lignes, celles de l’autre en colonnes.
Exemple — Sport et région

On interroge 200 lycéens sur leur sport préféré :

FootballBasketballNatationTotal
Région Nord40301080
Région Sud304050120
Total707060200

Les totaux en dernière ligne et dernière colonne sont les effectifs marginaux.

Structure d’un tableau croisé Effectifs croisés \(n_{ij}\) : nb d’individus ayant modalité \(i\) et modalité \(j\) Modalités de la variable 1 (colonnes) Var. 2 (lignes) Marges colonnes (totaux par colonne) Marges lignes Total \(N\) → Les marges donnent les fréquences marginales. Les lignes/colonnes donnent les fréquences conditionnelles.

Chaque effectif \(n_{ij}\) croise une modalité ligne et une modalité colonne. Les totaux en bordure (marges) correspondent aux effectifs marginaux, utilisés pour les fréquences marginales.

Méthode — Construire un tableau croise
  1. Identifier les deux variables et leurs modalites.
  2. Compter les individus correspondant a chaque croisement de modalites.
  3. Ajouter les totaux par ligne, par colonne, et le total général.
  4. Verifier : la somme de chaque ligne = total de la ligne ; la somme de chaque colonne = total de la colonne.
🎯 S’entraîner sur Wims
Tableau croiséLire un tableau croisé d’effectifs
▸ Tableau croisé

3. Fréquences marginales

Définition — Fréquence marginale
La fréquence marginale d’une modalite est la proportion de cette modalite dans l’ensemble de la population. Elle se calcule à partir des totaux (marges) du tableau croise.
Exemple (suite)

Fréquences marginales des sports :

  • Football : \(\frac{70}{200} = 35\,\%\)
  • Basketball : \(\frac{70}{200} = 35\,\%\)
  • Natation : \(\frac{60}{200} = 30\,\%\)

Fréquences marginales des regions :

  • Region Nord : \(\frac{80}{200} = 40\,\%\)
  • Region Sud : \(\frac{120}{200} = 60\,\%\)
🎯 S’entraîner sur Wims
Fréquences marginalesCalculer les fréquences marginales
▸ Fréquences marginales

4. Fréquences conditionnelles

Définition — Fréquence conditionnelle
La fréquence conditionnelle d’une modalite B sachant une modalite A est la proportion de B parmi les individus ayant la modalite A : \[f_{A}(B) = \frac{\text{effectif de } A \cap B}{\text{effectif de } A}\]
Exemple (suite)

Fréquence du football sachant Region Nord :

\[f_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 50\,\%\]

Fréquence du football sachant Region Sud :

\[f_{\text{Sud}}(\text{Football}) = \frac{30}{120} = 25\,\%\]

Le football est deux fois plus populaire au Nord qu’au Sud (50 % contre 25 %). Il semble y avoir un lien entre region et sport.

Attention — Ne pas confondre les deux sens

\(f_{\text{Nord}}(\text{Football})\) (fréquence du football parmi les Nordistes) et \(f_{\text{Football}}(\text{Nord})\) (fréquence des Nordistes parmi les footballeurs) sont des nombres differents :

  • \(f_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 50\,\%\)
  • \(f_{\text{Football}}(\text{Nord}) = \frac{40}{70} \approx 57{,}1\,\%\)
Méthode — Tableau de fréquences conditionnelles par ligne

On divise chaque case par le total de sa ligne :

FootballBasketballNatationTotal
Nord50 %37,5 %12,5 %100 %
Sud25 %33,3 %41,7 %100 %

Chaque ligne totalise 100 %. On lit directement la répartition des sports dans chaque région.

Profils conditionnels comparés (Nord vs Sud) Nord 0 % 50 % 100 % Foot 50 % Basket 37,5 % Natation 12,5 % Sud 0 % 50 % 100 % Foot 25 % Basket 33,3 % Natation 41,7 %

Les deux profils sont visiblement différents : au Nord, le football domine (50 %) ; au Sud, c’est la natation (41,7 %). Il existe un lien entre la région et le sport pratiqué.

5. Interpréter un tableau croise

Méthode — Detecter un lien entre deux variables

On compare les fréquences conditionnelles entre les différentes sous-populations :

  • Si les profils conditionnels sont similaires (mêmes proportions dans chaque ligne), les deux variables semblent indépendantes.
  • Si les profils conditionnels sont differents, il y a une association (un lien) entre les deux variables.
Exemple (suite)

Les profils sont différents : au Nord, 50 % font du football et 12,5 % de la natation ; au Sud, 25 % font du football et 41,7 % de la natation. Il y a bien un lien entre la région et le sport pratiqué.

📌 À retenir — Détecter l’indépendance
  • Profils conditionnels identiques (mêmes pourcentages dans chaque ligne) ⟹ les variables sont indépendantes.
  • Profils conditionnels différents ⟹ il y a un lien (association) entre les deux variables.
  • En pratique, on compare les lignes du tableau de fréquences conditionnelles : si elles se ressemblent, pas de lien ; sinon, lien.
Remarque — Paradoxe de Simpson

Attention : une tendance observée dans chaque sous-groupe peut s’inverser quand on fusionne les groupes (cf. énigme d’introduction). Il faut toujours analyser les fréquences conditionnelles, pas seulement les fréquences marginales.

Paradoxe de Simpson — la tendance s’inverse ! Cas légers Hôpital A : 90 % (90/100 guéris) Hôpital B : 95 % (855/900 guéris) Cas graves Hôpital A : 30 % (270/900 guéris) Hôpital B : 50 % (50/100 guéris) Agrégation → Total fusionné Hôpital A : 36 % (360/1000 guéris) Hôpital B : 90,5 % (905/1000 guéris) Chaque sous-groupe : A meilleur. Pourtant, globalement : B semble meilleur (90,5 % vs 36 %) ! Pourquoi ? Les effectifs sont déséquilibrés : — Hôpital A traite surtout des cas graves (900 graves / 100 légers) ; — Hôpital B traite surtout des cas légers (900 légers / 100 graves).

Conclusion : toujours examiner les sous-groupes, pas seulement le total fusionné.

Méthode — Algorithme : filtre ET/OU/NON

A partir de deux listes representant deux caracteres, on peut filtrer une sous-population en Python :

  • ET : individus verifiant les deux criteres simultanément.
  • OU : individus verifiant au moins un des deux criteres.
  • NON : individus ne verifiant pas un critere.

On peut ensuite dresser le tableau croise et calculer les fréquences conditionnelles automatiquement.

6. Lien avec les probabilités conditionnelles

Propriété — De la statistique aux probabilités
Si on tire au sort un individu dans la population avec équiprobabilité, alors :
  • La proportion d’une sous-population A devient la probabilité \(P(A)\).
  • La fréquence conditionnelle \(f_A(B)\) devient la probabilité conditionnelle \(P_A(B)\).
\[P(A) = \frac{\text{Card}(A)}{\text{Card}(\Omega)} \qquad P_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\]
Justification intuitive

Résultat admis -- justification intuitive :

Si on tire un individu au hasard dans une population de \(N\) individus avec équiprobabilité, la probabilité de tomber dans un sous-ensemble \(A\) de \(n_A\) individus est \(\frac{n_A}{N}\), ce qui est exactement la proportion de \(A\) dans la population.

La fréquence conditionnelle \(f_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\) devient la probabilité conditionnelle \(P_A(B) = \frac{P(A \cap B)}{P(A)}\) par le même raisonnement. C’est le lien entre statistiques descriptives et probabilités.

Exemple (suite)

On tire un lyceen au hasard parmi les 200.

  • \(P(\text{Nord}) = \frac{80}{200} = 0{,}4\)
  • \(P(\text{Football}) = \frac{70}{200} = 0{,}35\)
  • \(P_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 0{,}5\)
  • \(P(\text{Nord} \cap \text{Football}) = \frac{40}{200} = 0{,}2\)

On vérifie : \(P(\text{Nord} \cap \text{Football}) = P(\text{Nord}) \times P_{\text{Nord}}(\text{Football}) = 0{,}4 \times 0{,}5 = 0{,}2\). ✓

🔗 Renvoi — Suite au chapitre 15

Le chapitre 15 — Probabilités conditionnelles et arbres généralise cette notion dans un cadre probabiliste, au-delà des tableaux croisés : on y voit les arbres pondérés, la formule des probabilités totales et l’indépendance de deux événements.

🎯 S’entraîner sur Wims
Statistiques et pourcentagesPourcentages en statistiques · Effectifs et pourcentages
🐍 Python — Fréquences à partir d’un tableau croise

On représente le tableau avec un dictionnaire imbriqué, puis on calcule les fréquences marginales (par ligne et par colonne).

# Reprise du sondage 200 lyceens : sport prefere x region
tableau = {
    "Nord": {"foot": 40, "basket": 30, "natation": 10},
    "Sud":  {"foot": 30, "basket": 40, "natation": 50},
}

total = sum(sum(ligne.values()) for ligne in tableau.values())
print("Total :", total)  # 200

# Frequences marginales par ligne (region)
for region, ligne in tableau.items():
    print(region, ":", sum(ligne.values()) / total)

# Frequences marginales par colonne (sport)
sports = ["foot", "basket", "natation"]
for s in sports:
    effectif = sum(tableau[region][s] for region in tableau)
    print(s, ":", effectif / total)

# Profil-ligne de Nord (fréquences conditionnelles)
for s in sports:
    print("Nord,", s, ":", tableau["Nord"][s] / sum(tableau["Nord"].values()))

On retrouve 40 % Nord / 60 % Sud, 35 % foot / 35 % basket / 30 % natation, puis le profil-ligne Nord : 50 % foot, 37,5 % basket, 12,5 % natation (cohérent avec le tableau du cours plus haut).

Bilan — L’essentiel

NotionFormule / Description
Tableau croiseRepartition selon deux variables qualitatives
Fréquence marginale\(f(A) = \frac{\text{effectif de } A}{\text{effectif total}}\)
Fréquence conditionnelle\(f_A(B) = \frac{\text{effectif de } A \cap B}{\text{effectif de } A}\)
Lien probabiliste\(P_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\)
Retenir :
  • Les fréquences conditionnelles permettent de comparer les profils de differents sous-groupes.
  • Si les profils conditionnels sont identiques, les variables semblent indépendantes.
  • Le paradoxe de Simpson montre qu’il faut toujours examiner les sous-groupes, pas seulement les totaux.
  • Ne pas confondre \(f_A(B)\) et \(f_B(A)\).
Solution du problème d’ouverture — Sondage : sport et région

Pour détecter un lien entre deux variables qualitatives, on compare les fréquences conditionnelles d’une variable sachant l’autre. Si elles sont très différentes, il y a un lien ; sinon, les variables sont quasi indépendantes.

Exemple de données fictives :

FootballBasketballNatationTotal
Région Nord1506040250
Région Sud808090250
Total230140130500

Fréquences conditionnelles « sport sachant région » :

  • Nord : \(60\%\) foot, \(24\%\) basket, \(16\%\) natation
  • Sud : \(32\%\) foot, \(32\%\) basket, \(36\%\) natation

Les profils sont nettement différents : au Nord, le football domine largement ; au Sud, les trois sports sont équilibrés. Il y a bien un lien entre région et sport pratiqué.

Si les deux régions avaient eu les mêmes pourcentages (\(46\%\) - \(28\%\) - \(26\%\), fréquences marginales), on aurait conclu à une indépendance.

Solution de l’énigme — Le paradoxe de Simpson

Exemple :

Hopital AHopital B
Cas legers90/100 (90 %)8/10 (80 %)
Cas graves30/100 (30 %)2/10 (20 %)
Global120/200 (60 %)10/20 (50 %)

Ici, A est meilleur partout et globalement. Mais si B traite surtout des cas graves :

Hopital AHopital B
Cas legers90/100 (90 %)800/1000 (80 %)
Cas graves30/100 (30 %)20/100 (20 %)
Global120/200 (60 %)820/1100 (74,5 %)

B parait meilleur globalement car il traite une enorme proportion de cas legers ! C’est le paradoxe de Simpson : les fréquences conditionnelles et les fréquences marginales peuvent raconter des histoires différentes.

⚠️ Pieges et contre-exemples

Variables croisees : teste d’abord ton intuition, puis lis l’explication.

Score : 0 / 6 pieges identifies
1 Fréquence conditionnelle = fréquence marginale

« La fréquence conditionnelle \(f_A(B)\) est toujours egale à la fréquence marginale \(f(B)\). »

Cette affirmation est-elle vraie ?

Explication

FAUX. La fréquence conditionnelle \(f_A(B)\) est la proportion de \(B\) parmi les individus de \(A\). La fréquence marginale \(f(B)\) est la proportion de \(B\) dans toute la population.

Exemple : 80 % des sportifs sont en bonne sante (\(f_{\text{sport}}(\text{sante}) = 0{,}8\)), mais seulement 60 % de la population totale l’est (\(f(\text{sante}) = 0{,}6\)).

\(f_A(B) = f(B)\) seulement si les variables sont indépendantes. Sinon, les deux sont différentes.

Mini-test : dans un lycee, 70 % des filles font du sport, et 55 % de tous les élèves font du sport. On en déduit que :

Voir section 4 — Fréquences conditionnelles

2 La somme d’une ligne = 100 % du total

« Dans un tableau de fréquences conditionnelles par ligne, la somme d’une ligne vaut 100 % du total général. »

Cette affirmation est-elle vraie ?

Explication

FAUX. Dans un profil-ligne (fréquences conditionnelles par ligne), chaque ligne somme a 100 % de cette ligne, pas du total général. Les pourcentages d’une ligne se rapportent au total de cette ligne uniquement.

De même, dans un profil-colonne, chaque colonne somme a 100 % de cette colonne.

Profil-ligne : somme = 100 % de la ligne. Profil-colonne : somme = 100 % de la colonne. Ni l’un ni l’autre ne somment a 100 % du total.

Mini-test : dans un profil-ligne, la ligne « garcons » donne : sport 60 %, musique 25 %, rien 15 %. Ce 60 % signifie :

Voir section 4 — Fréquences conditionnelles

3 Correlation = causalite

« Si deux variables sont liees dans un tableau croise, alors l’une cause l’autre. »

Cette affirmation est-elle vraie ?

Explication

FAUX. Un lien statistique (correlation) ne prouve jamais un lien de cause a effet. Il peut exister un facteur confondant (une troisième variable qui explique les deux).

Exemple classique : la consommation de glaces et les noyades augmentent en été. Ce n’est pas la glace qui provoque les noyades — c’est la chaleur qui augmente les deux.

Correlation ≠ causalite. Toujours chercher un facteur confondant avant de conclure.

Mini-test : « Les pays qui consomment plus de chocolat ont plus de prix Nobel. » On peut conclure que :

Voir section 5 — Interpréter un tableau croise

4 Forte fréquence conditionnelle = événement probable

« Si 90 % des malades ont de la fievre, alors une personne fievreuse est tres probablement malade. »

Cette affirmation est-elle vraie ?

Explication

FAUX. On confond \(f_{\text{malade}}(\text{fievre})\) et \(f_{\text{fievre}}(\text{malade})\). Si la maladie est rare (1 % de la population) mais que beaucoup de gens sains ont aussi parfois de la fievre (grippe, fatigue…), la plupart des fievreux ne seront pas malades de cette maladie.

C’est exactement le piege des faux positifs en medecine.

\(f_A(B)\) élève n’implique pas \(f_B(A)\) élève. Ne jamais inverser le conditionnement sans calcul.

Mini-test : 95 % des fumeurs toussent. 30 % de la population tousse. On peut conclure que :

Voir section 6 — Lien avec les probabilités conditionnelles

5 Lire un tableau a l’envers

« Dans un tableau croise, \(f_A(B)\) et \(f_B(A)\) representent la même chose. »

Cette affirmation est-elle vraie ?

Explication

FAUX. \(f_A(B)\) = proportion de \(B\) parmi les \(A\). \(f_B(A)\) = proportion de \(A\) parmi les \(B\). Ce sont deux calculs differents !

Exemple : \(f_A(B) = \frac{n_{AB}}{n_A}\) (on divise par le total de la ligne \(A\)), tandis que \(f_B(A) = \frac{n_{AB}}{n_B}\) (on divise par le total de la colonne \(B\)).

Toujours bien identifier le dénominateur : c’est le total du sous-groupe qui conditionne.

Mini-test : 30 sportifs sur 50 garcons, et 50 garcons sur 120 sportifs. \(f_{\text{garcons}}(\text{sport})\) vaut :

Voir section 4 — Fréquences conditionnelles

6 Les marges du tableau

« La somme de toutes les fréquences marginales d’une variable vaut toujours 1 (ou 100 %). »

Cette affirmation est-elle vraie ou fausse ?

Explication

C’est VRAI ! Les fréquences marginales d’une variable representent les proportions de chaque modalite dans l’ensemble de la population. Comme les modalites forment une partition, leurs fréquences somment a 1.

Exemple : si 40 % des élèves sont en Seconde, 35 % en Premiere et 25 % en Terminale, on a bien \(0{,}40 + 0{,}35 + 0{,}25 = 1\).

Les fréquences marginales d’une variable forment toujours une distribution qui somme a 100 %. C’est un intrus parmi les pieges !

Mini-test : dans un tableau croise sexe/sport, les fréquences marginales du sexe sont : garcons 55 %, filles 45 %. Est-ce cohérent ?

Voir section 3 — Fréquences marginales

➡️ Pour la suite
Ch. 15 — Probabilités conditionnelles et arbres — Des fréquences conditionnelles observées aux probabilités conditionnelles : l’idée est la même, le modèle est théorique.