Seconde — Nouveau programme (BO 2026) · Math@mine
On interroge 500 lyceens de deux regions sur leur sport prefere (football, basketball, natation). Comment savoir si le choix du sport depend de la region ?
Florence Nightingale (1820–1910), pionniere des soins infirmiers, est aussi l’une des premières a utiliser les statistiques pour convaincre. Pendant la guerre de Crimee, elle a collecte des données sur les causes de deces des soldats et les a croisees avec les conditions sanitaires.
Ses diagrammes a secteurs innovants (« coxcombs ») ont montre que la majorite des deces etaient dus aux maladies, non aux blessures. Ses tableaux croises ont convaincu le gouvernement britannique de reformer les hopitaux militaires.
L’hopital A reussit mieux que l’hopital B pour les cas legers et pour les cas graves. Pourtant, globalement, l’hopital B a un meilleur taux de reussite. Comment est-ce possible ?
Une variable quantitative prend des valeurs numériques (taille, poids, note). On ne peut pas calculer de moyenne sur une variable qualitative.
On interroge 200 lycéens sur leur sport préféré :
| Football | Basketball | Natation | Total | |
|---|---|---|---|---|
| Région Nord | 40 | 30 | 10 | 80 |
| Région Sud | 30 | 40 | 50 | 120 |
| Total | 70 | 70 | 60 | 200 |
Les totaux en dernière ligne et dernière colonne sont les effectifs marginaux.
Chaque effectif \(n_{ij}\) croise une modalité ligne et une modalité colonne. Les totaux en bordure (marges) correspondent aux effectifs marginaux, utilisés pour les fréquences marginales.
Fréquences marginales des sports :
Fréquences marginales des regions :
Fréquence du football sachant Region Nord :
\[f_{\text{Nord}}(\text{Football}) = \frac{40}{80} = 50\,\%\]Fréquence du football sachant Region Sud :
\[f_{\text{Sud}}(\text{Football}) = \frac{30}{120} = 25\,\%\]Le football est deux fois plus populaire au Nord qu’au Sud (50 % contre 25 %). Il semble y avoir un lien entre region et sport.
\(f_{\text{Nord}}(\text{Football})\) (fréquence du football parmi les Nordistes) et \(f_{\text{Football}}(\text{Nord})\) (fréquence des Nordistes parmi les footballeurs) sont des nombres differents :
On divise chaque case par le total de sa ligne :
| Football | Basketball | Natation | Total | |
|---|---|---|---|---|
| Nord | 50 % | 37,5 % | 12,5 % | 100 % |
| Sud | 25 % | 33,3 % | 41,7 % | 100 % |
Chaque ligne totalise 100 %. On lit directement la répartition des sports dans chaque région.
Les deux profils sont visiblement différents : au Nord, le football domine (50 %) ; au Sud, c’est la natation (41,7 %). Il existe un lien entre la région et le sport pratiqué.
On compare les fréquences conditionnelles entre les différentes sous-populations :
Les profils sont différents : au Nord, 50 % font du football et 12,5 % de la natation ; au Sud, 25 % font du football et 41,7 % de la natation. Il y a bien un lien entre la région et le sport pratiqué.
Attention : une tendance observée dans chaque sous-groupe peut s’inverser quand on fusionne les groupes (cf. énigme d’introduction). Il faut toujours analyser les fréquences conditionnelles, pas seulement les fréquences marginales.
Conclusion : toujours examiner les sous-groupes, pas seulement le total fusionné.
A partir de deux listes representant deux caracteres, on peut filtrer une sous-population en Python :
On peut ensuite dresser le tableau croise et calculer les fréquences conditionnelles automatiquement.
Résultat admis -- justification intuitive :
Si on tire un individu au hasard dans une population de \(N\) individus avec équiprobabilité, la probabilité de tomber dans un sous-ensemble \(A\) de \(n_A\) individus est \(\frac{n_A}{N}\), ce qui est exactement la proportion de \(A\) dans la population.
La fréquence conditionnelle \(f_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\) devient la probabilité conditionnelle \(P_A(B) = \frac{P(A \cap B)}{P(A)}\) par le même raisonnement. C’est le lien entre statistiques descriptives et probabilités.
On tire un lyceen au hasard parmi les 200.
On vérifie : \(P(\text{Nord} \cap \text{Football}) = P(\text{Nord}) \times P_{\text{Nord}}(\text{Football}) = 0{,}4 \times 0{,}5 = 0{,}2\). ✓
Le chapitre 15 — Probabilités conditionnelles et arbres généralise cette notion dans un cadre probabiliste, au-delà des tableaux croisés : on y voit les arbres pondérés, la formule des probabilités totales et l’indépendance de deux événements.
On représente le tableau avec un dictionnaire imbriqué, puis on calcule les fréquences marginales (par ligne et par colonne).
# Reprise du sondage 200 lyceens : sport prefere x region tableau = { "Nord": {"foot": 40, "basket": 30, "natation": 10}, "Sud": {"foot": 30, "basket": 40, "natation": 50}, } total = sum(sum(ligne.values()) for ligne in tableau.values()) print("Total :", total) # 200 # Frequences marginales par ligne (region) for region, ligne in tableau.items(): print(region, ":", sum(ligne.values()) / total) # Frequences marginales par colonne (sport) sports = ["foot", "basket", "natation"] for s in sports: effectif = sum(tableau[region][s] for region in tableau) print(s, ":", effectif / total) # Profil-ligne de Nord (fréquences conditionnelles) for s in sports: print("Nord,", s, ":", tableau["Nord"][s] / sum(tableau["Nord"].values()))
On retrouve 40 % Nord / 60 % Sud, 35 % foot / 35 % basket / 30 % natation, puis le profil-ligne Nord : 50 % foot, 37,5 % basket, 12,5 % natation (cohérent avec le tableau du cours plus haut).
| Notion | Formule / Description |
|---|---|
| Tableau croise | Repartition selon deux variables qualitatives |
| Fréquence marginale | \(f(A) = \frac{\text{effectif de } A}{\text{effectif total}}\) |
| Fréquence conditionnelle | \(f_A(B) = \frac{\text{effectif de } A \cap B}{\text{effectif de } A}\) |
| Lien probabiliste | \(P_A(B) = \frac{\text{Card}(A \cap B)}{\text{Card}(A)}\) |
Pour détecter un lien entre deux variables qualitatives, on compare les fréquences conditionnelles d’une variable sachant l’autre. Si elles sont très différentes, il y a un lien ; sinon, les variables sont quasi indépendantes.
Exemple de données fictives :
| Football | Basketball | Natation | Total | |
|---|---|---|---|---|
| Région Nord | 150 | 60 | 40 | 250 |
| Région Sud | 80 | 80 | 90 | 250 |
| Total | 230 | 140 | 130 | 500 |
Fréquences conditionnelles « sport sachant région » :
Les profils sont nettement différents : au Nord, le football domine largement ; au Sud, les trois sports sont équilibrés. Il y a bien un lien entre région et sport pratiqué.
Si les deux régions avaient eu les mêmes pourcentages (\(46\%\) - \(28\%\) - \(26\%\), fréquences marginales), on aurait conclu à une indépendance.
Exemple :
| Hopital A | Hopital B | |
|---|---|---|
| Cas legers | 90/100 (90 %) | 8/10 (80 %) |
| Cas graves | 30/100 (30 %) | 2/10 (20 %) |
| Global | 120/200 (60 %) | 10/20 (50 %) |
Ici, A est meilleur partout et globalement. Mais si B traite surtout des cas graves :
| Hopital A | Hopital B | |
|---|---|---|
| Cas legers | 90/100 (90 %) | 800/1000 (80 %) |
| Cas graves | 30/100 (30 %) | 20/100 (20 %) |
| Global | 120/200 (60 %) | 820/1100 (74,5 %) |
B parait meilleur globalement car il traite une enorme proportion de cas legers ! C’est le paradoxe de Simpson : les fréquences conditionnelles et les fréquences marginales peuvent raconter des histoires différentes.
Variables croisees : teste d’abord ton intuition, puis lis l’explication.
« La fréquence conditionnelle \(f_A(B)\) est toujours egale à la fréquence marginale \(f(B)\). »
Cette affirmation est-elle vraie ?
FAUX. La fréquence conditionnelle \(f_A(B)\) est la proportion de \(B\) parmi les individus de \(A\). La fréquence marginale \(f(B)\) est la proportion de \(B\) dans toute la population.
Exemple : 80 % des sportifs sont en bonne sante (\(f_{\text{sport}}(\text{sante}) = 0{,}8\)), mais seulement 60 % de la population totale l’est (\(f(\text{sante}) = 0{,}6\)).
Mini-test : dans un lycee, 70 % des filles font du sport, et 55 % de tous les élèves font du sport. On en déduit que :
« Dans un tableau de fréquences conditionnelles par ligne, la somme d’une ligne vaut 100 % du total général. »
Cette affirmation est-elle vraie ?
FAUX. Dans un profil-ligne (fréquences conditionnelles par ligne), chaque ligne somme a 100 % de cette ligne, pas du total général. Les pourcentages d’une ligne se rapportent au total de cette ligne uniquement.
De même, dans un profil-colonne, chaque colonne somme a 100 % de cette colonne.
Mini-test : dans un profil-ligne, la ligne « garcons » donne : sport 60 %, musique 25 %, rien 15 %. Ce 60 % signifie :
« Si deux variables sont liees dans un tableau croise, alors l’une cause l’autre. »
Cette affirmation est-elle vraie ?
FAUX. Un lien statistique (correlation) ne prouve jamais un lien de cause a effet. Il peut exister un facteur confondant (une troisième variable qui explique les deux).
Exemple classique : la consommation de glaces et les noyades augmentent en été. Ce n’est pas la glace qui provoque les noyades — c’est la chaleur qui augmente les deux.
Mini-test : « Les pays qui consomment plus de chocolat ont plus de prix Nobel. » On peut conclure que :
« Si 90 % des malades ont de la fievre, alors une personne fievreuse est tres probablement malade. »
Cette affirmation est-elle vraie ?
FAUX. On confond \(f_{\text{malade}}(\text{fievre})\) et \(f_{\text{fievre}}(\text{malade})\). Si la maladie est rare (1 % de la population) mais que beaucoup de gens sains ont aussi parfois de la fievre (grippe, fatigue…), la plupart des fievreux ne seront pas malades de cette maladie.
C’est exactement le piege des faux positifs en medecine.
Mini-test : 95 % des fumeurs toussent. 30 % de la population tousse. On peut conclure que :
« Dans un tableau croise, \(f_A(B)\) et \(f_B(A)\) representent la même chose. »
Cette affirmation est-elle vraie ?
FAUX. \(f_A(B)\) = proportion de \(B\) parmi les \(A\). \(f_B(A)\) = proportion de \(A\) parmi les \(B\). Ce sont deux calculs differents !
Exemple : \(f_A(B) = \frac{n_{AB}}{n_A}\) (on divise par le total de la ligne \(A\)), tandis que \(f_B(A) = \frac{n_{AB}}{n_B}\) (on divise par le total de la colonne \(B\)).
Mini-test : 30 sportifs sur 50 garcons, et 50 garcons sur 120 sportifs. \(f_{\text{garcons}}(\text{sport})\) vaut :
« La somme de toutes les fréquences marginales d’une variable vaut toujours 1 (ou 100 %). »
Cette affirmation est-elle vraie ou fausse ?
C’est VRAI ! Les fréquences marginales d’une variable representent les proportions de chaque modalite dans l’ensemble de la population. Comme les modalites forment une partition, leurs fréquences somment a 1.
Exemple : si 40 % des élèves sont en Seconde, 35 % en Premiere et 25 % en Terminale, on a bien \(0{,}40 + 0{,}35 + 0{,}25 = 1\).
Mini-test : dans un tableau croise sexe/sport, les fréquences marginales du sexe sont : garcons 55 %, filles 45 %. Est-ce cohérent ?