Échantillonnage et estimation – Maths Complementaires

Sommaire

1. Échantillon et fluctuation 2. Intervalle de fluctuation 3. Estimation ponctuelle 4. Intervalle de confiance au niveau 95% 5. Prise de decision 6. Applications (sondages, sciences) Bilan — Formules essentielles Pieges et contre-exemples

Un sondage electoral sous la loupe

A la veille d’une election, un institut de sondage interroge 1 000 personnes. Le résultat annonce : 52 % des personnes interrogees ont l’intention de voter pour le candidat A, avec une marge d’erreur de 3 points.

Le candidat A peut-il etre confiant dans sa victoire ? Que signifie exactement cette « marge d’erreur » ? Et si l’on avait interroge seulement 100 personnes, le résultat serait-il aussi fiable ?

Comment quantifier la precision d’un sondage ? A partir de quel effectif les résultats deviennent-ils exploitables ?
→ Reponse dans la section 6.

Fisher, Neyman et la naissance de la statistique moderne

Ronald Fisher (1890–1962), biologiste et statisticien britannique, a pose les bases de l’estimation statistique dans les annees 1920 en travaillant a la station agronomique de Rothamsted. Il y a développé la méthode du maximum de vraisemblance pour estimer les parametres d’une population a partir d’un échantillon.

C’est ensuite Jerzy Neyman (1894–1981), mathematicien polonais, qui a formalise en 1937 la notion d'intervalle de confiance : plutot que donner une valeur unique, on fournit un intervalle qui « capture » le vrai parametre avec une probabilite controlee. Cette idee revolutionnaire est aujourd’hui au coeur de tous les sondages, essais cliniques et controles qualite.

Le fabricant confiant

Un fabricant de billes affirme que 5 % de sa production est defectueuse. Un controleur preleve un échantillon de 200 billes et en trouve 18 defectueuses, soit 9 %.

Le controleur doit-il remettre en cause l’affirmation du fabricant ? Comment le justifier mathematiquement ?

→ Solution complète en fin de chapitre

1. Échantillon et fluctuation

Definition — Population et échantillon

La population est l’ensemble de tous les individus etudies. Un échantillon de taille \(n\) est un sous-ensemble de \(n\) individus preleves dans la population. L’échantillon est dit aléatoire lorsque chaque individu a la meme probabilite d’etre selectionne.

Definition — Frequence observee

On s’interesse a un caractere possedant une proportion \(p\) dans la population (par exemple, la proportion de pieces defectueuses). Sur un échantillon de taille \(n\), on note \(f\) la frequence observee de ce caractere : \[f = \frac{\text{nombre d'individus presentant le caractere}}{n}\]

Propriete — Fluctuation d’échantillonnage

La frequence observee \(f\) varie d’un échantillon a l’autre : c’est le phénomène de fluctuation d’échantillonnage. Plus la taille \(n\) de l’échantillon est grande, plus la frequence \(f\) a tendance a se rapprocher de la proportion réelle \(p\).

Justification (loi des grands nombres)

Soit \(X\) le nombre d’individus présentant le caractère dans un échantillon de taille \(n\). Alors \(X\) suit la loi binomiale \(\mathcal{B}(n, p)\), et la fréquence observée est \(f = X/n\).

Espérance et variance. Par les propriétés de la loi binomiale :

\(E(f) = \dfrac{E(X)}{n} = \dfrac{np}{n} = p, \qquad V(f) = \dfrac{V(X)}{n^2} = \dfrac{np(1-p)}{n^2} = \dfrac{p(1-p)}{n}.\)

L’écart-type \(\sigma(f) = \sqrt{p(1-p)/n}\) décroît en \(1/\sqrt{n}\) : quand \(n\) augmente, la fréquence se concentre autour de \(p\).

Loi des grands nombres (admise). Formellement, pour tout \(\varepsilon > 0\) :

\(P\bigl(|f - p| < \varepsilon\bigr) \xrightarrow[n\to+\infty]{} 1.\)

C’est la loi faible des grands nombres, admise en Maths Complémentaires. Elle se démontre rigoureusement à partir de l’inégalité de Bienaymé-Tchebychev (hors programme). ∎

Exemple

On lance une piece equilibree 50 fois. La proportion theorique de « pile » est \(p = 0{,}5\). Si l’on obtient 28 « pile », la frequence observee est \(f = \frac{28}{50} = 0{,}56\). Un autre échantillon de 50 lancers pourrait donner \(f = 0{,}44\). Cette variabilite est normale.

Remarque — Loi des grands nombres

La loi des grands nombres garantit que, lorsque \(n\) tend vers l’infini, la frequence observee \(f\) converge vers \(p\). En pratique, on ne peut pas interroger toute la population, d’ou la necessite de quantifier l’incertitude liee a l’échantillonnage.

2. Intervalle de fluctuation

2.1 Cadre et hypotheses

On considere un échantillon de taille \(n\) preleve dans une population ou la proportion du caractere etudie est \(p\). On suppose que \(n\) est assez grand et que \(n p \geq 5\) et \(n(1-p) \geq 5\).

Théorème — Intervalle de fluctuation asymptotique au seuil de 95 %

Sous les conditions ci-dessus, la frequence observee \(f\) appartient a l’intervalle \[I_f = \left[ p - 1{,}96 \, \frac{\sigma}{\sqrt{n}} \;;\; p + 1{,}96 \, \frac{\sigma}{\sqrt{n}} \right] \quad \text{avec} \quad \sigma = \sqrt{p(1-p)}\] avec une probabilite d’au moins 95 %. Autrement dit : \[P\!\left( f \in \left[ p - 1{,}96 \sqrt{\frac{p(1-p)}{n}} \;;\; p + 1{,}96 \sqrt{\frac{p(1-p)}{n}} \right] \right) \geq 0{,}95\]

Justification

La frequence observee \(f = X/n\), ou \(X \sim \mathcal{B}(n, p)\). Par l’approximation normale (chapitre 8), \(X \approx \mathcal{N}(np, np(1-p))\), donc \(f \approx \mathcal{N}\!\left(p, \frac{p(1-p)}{n}\right)\).

En centrant-reduisant : \(Z = \frac{f - p}{\sqrt{p(1-p)/n}} \approx \mathcal{N}(0,1)\). Or \(P(-1{,}96 \leq Z \leq 1{,}96) \approx 0{,}95\), ce qui donne l’intervalle annonce.

Remarque — D’ou vient 1,96 ?

Le nombre 1,96 provient de la loi normale centree reduite : \(P(-1{,}96 \leq Z \leq 1{,}96) \approx 0{,}95\). C’est le quantile associe au seuil de confiance 95 %.

2.2 Utilisation de l’intervalle de fluctuation

Méthode — Tester une hypothese sur \(p\)

On formule une hypothese : « la proportion est \(p_0\) ».
On calcule l’intervalle de fluctuation au seuil de 95 % pour \(p_0\) et \(n\).
On compare la frequence observee \(f\) a cet intervalle.
Si \(f \notin I_f\), on rejette l’hypothese au seuil de 5 %. Sinon, on ne peut pas la rejeter.

Exemple

Un laboratoire affirme que son traitement guerit 80 % des patients. Sur un essai de 400 patients, 300 sont gueris, soit \(f = 0{,}75\).

Intervalle de fluctuation pour \(p_0 = 0{,}80\) et \(n = 400\) :

\[I_f = \left[0{,}80 - 1{,}96\sqrt{\frac{0{,}80 \times 0{,}20}{400}} \;;\; 0{,}80 + 1{,}96\sqrt{\frac{0{,}80 \times 0{,}20}{400}}\right] = [0{,}761 \;;\; 0{,}839]\]

Comme \(0{,}75 \notin [0{,}761 ; 0{,}839]\), on rejette l’hypothese du laboratoire au seuil de 5 %.

3. Estimation ponctuelle

Definition — Estimateur et estimation

Un estimateur d’un parametre inconnu \(\theta\) de la population est une quantite calculee a partir de l’échantillon. La valeur numérique obtenue pour un échantillon donne s’appelle une estimation.

Propriete — Estimation de la proportion

La frequence observee \(f\) est un estimateur naturel de la proportion \(p\) inconnue. On dit que \(f\) est un estimateur sans biais de \(p\), car \(E(f) = p\).

Démonstration

Notons \(X\) le nombre d’individus du caractère dans un échantillon de taille \(n\). Chaque individu est un tirage de Bernoulli de paramètre \(p\) (probabilité \(p\) d’avoir le caractère, \(1-p\) sinon), indépendants entre eux. Donc \(X \sim \mathcal{B}(n, p)\) et \(E(X) = np\).

La fréquence observée est \(f = X/n\). Par linéarité de l’espérance :

\(E(f) = E\!\left(\dfrac{X}{n}\right) = \dfrac{E(X)}{n} = \dfrac{np}{n} = p.\)

Comme \(E(f) = p\), on dit que \(f\) est un estimateur sans biais de \(p\) : en moyenne (sur tous les échantillons possibles), la fréquence observée donne la bonne valeur. ∎

Propriete — Estimation de la moyenne

La moyenne de l’échantillon \(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\) est un estimateur sans biais de la moyenne \(\mu\) de la population.

Démonstration

Notons \(X_1, X_2, \ldots, X_n\) les variables aléatoires correspondant aux \(n\) individus de l’échantillon. Chacune a pour espérance \(E(X_i) = \mu\) (moyenne de la population).

La moyenne empirique est \(\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} X_i\). Par linéarité de l’espérance :

\(E(\bar{X}) = \dfrac{1}{n}\sum_{i=1}^{n} E(X_i) = \dfrac{1}{n}\cdot n\mu = \mu.\)

Donc \(\bar{X}\) est un estimateur sans biais de \(\mu\). ∎

Exemple

On mesure la taille de 50 élèves d’un lycee. La moyenne de l’échantillon est \(\bar{x} = 1{,}72\) m. C’est une estimation ponctuelle de la taille moyenne de tous les élèves du lycee. On ne connait pas la valeur exacte de \(\mu\), mais \(\bar{x}\) en donne une approximation.

Remarque — Limites de l’estimation ponctuelle

L’estimation ponctuelle ne donne aucune indication sur la precision du résultat. Elle ne dit pas « a combien pres » on estime le parametre. C’est pour cette raison qu’on lui prefere l’intervalle de confiance.

4. Intervalle de confiance au niveau 95 %

4.1 Principe

Contrairement a l’intervalle de fluctuation (ou \(p\) est connu et on encadre \(f\)), l’intervalle de confiance part de la situation inverse : on observe \(f\) et on cherche a encadrer \(p\) inconnu.

Théorème — Intervalle de confiance pour une proportion

Si \(n \geq 30\), \(nf \geq 5\) et \(n(1-f) \geq 5\), alors un intervalle de confiance au niveau 95 % pour la proportion \(p\) inconnue est : \[I_c = \left[ f - \frac{1}{\sqrt{n}} \;;\; f + \frac{1}{\sqrt{n}} \right]\] Cette formule simplifiee est valable car \(1{,}96\sqrt{f(1-f)} \leq 1{,}96 \times 0{,}5 \approx 0{,}98 \approx 1\).

Justification de la simplification

Dans l’intervalle de fluctuation, on remplace \(p\) (inconnu) par \(f\) (observe). La demi-largeur est \(1{,}96\sqrt{\frac{f(1-f)}{n}}\). Or le produit \(f(1-f)\) est maximal pour \(f = 0{,}5\), valant \(0{,}25\). Donc \(1{,}96\sqrt{\frac{f(1-f)}{n}} \leq 1{,}96 \times \frac{0{,}5}{\sqrt{n}} = \frac{0{,}98}{\sqrt{n}} \approx \frac{1}{\sqrt{n}}\).

Remarque — Formule precise

La formule plus precise de l’intervalle de confiance est : \[I_c = \left[ f - 1{,}96\sqrt{\frac{f(1-f)}{n}} \;;\; f + 1{,}96\sqrt{\frac{f(1-f)}{n}} \right]\] La formule simplifiee \(\left[f - \frac{1}{\sqrt{n}} ; f + \frac{1}{\sqrt{n}}\right]\) est une majoration commode qui donne un intervalle un peu plus large.

4.2 Interpretation

Definition — Niveau de confiance

Dire que l’intervalle \(I_c\) est au niveau de confiance 95 % signifie que, si l’on repete l’experience un grand nombre de fois, environ 95 % des intervalles construits contiendront la vraie valeur de \(p\). Attention : pour un échantillon donne, \(p\) est soit dans l’intervalle, soit en dehors ; il n’y a pas de probabilite.

Exemple

Un sondage sur 625 personnes donne \(f = 0{,}48\) en faveur d’un projet de loi.

Intervalle de confiance simplifie : \(\left[0{,}48 - \frac{1}{\sqrt{625}} \;;\; 0{,}48 + \frac{1}{\sqrt{625}}\right] = [0{,}44 \;;\; 0{,}52]\).

On estime avec 95 % de confiance que la proportion réelle est comprise entre 44 % et 52 %. Le projet n’est donc pas assure de recueillir la majorite.

4.3 Influence de la taille de l’échantillon

Propriete — Marge d’erreur et taille

La demi-largeur (ou marge d’erreur) de l’intervalle de confiance simplifie est \(\frac{1}{\sqrt{n}}\). Elle decroit quand \(n\) augmente. Pour diviser la marge d’erreur par 2, il faut multiplier la taille de l’échantillon par 4.

Justification

Si l’on remplace \(n\) par \(4n\), la marge devient \(\frac{1}{\sqrt{4n}} = \frac{1}{2\sqrt{n}}\), soit la moitie de la marge initiale \(\frac{1}{\sqrt{n}}\). C’est une consequence directe de la formule \(\frac{1}{\sqrt{n}}\) et de la propriété \(\sqrt{4n} = 2\sqrt{n}\).

Taille \(n\)	Marge d’erreur \(\frac{1}{\sqrt{n}}\)	Largeur de l’intervalle
100	0,10 (10 %)	20 points
400	0,05 (5 %)	10 points
1 000	0,032 (3,2 %)	6,4 points
10 000	0,01 (1 %)	2 points

Méthode — Déterminer la taille minimale d’un échantillon

Pour obtenir une marge d’erreur inferieure a \(\varepsilon\), on resout : \[\frac{1}{\sqrt{n}} \leq \varepsilon \quad \Longleftrightarrow \quad n \geq \frac{1}{\varepsilon^2}\]

Exemple : Pour une marge d’erreur de 2 %, on a besoin de \(n \geq \frac{1}{0{,}02^2} = 2\,500\) personnes.

5. Prise de decision

5.1 Principe du test

Definition — Test d’hypothese

Un test d’hypothese est une demarche qui permet de decider, a partir d’un échantillon, si l’on peut remettre en cause une hypothese formulee sur la population.

L'hypothese nulle \(H_0\) : la proportion est \(p_0\) (c’est l’hypothese que l’on cherche a tester).
Le seuil de signification \(\alpha\) : la probabilite maximale de rejeter \(H_0\) a tort (en général \(\alpha = 0{,}05\)).

Méthode — Conduire un test au seuil de 5 %

Poser l’hypothese \(H_0 : p = p_0\).
Calculer l’intervalle de fluctuation \(I_f\) associe a \(p_0\) et \(n\).
Observer la frequence \(f\) sur l’échantillon.
Decision :
- Si \(f \in I_f\) : on ne rejette pas \(H_0\). L’échantillon est compatible avec l’hypothese.
- Si \(f \notin I_f\) : on rejette \(H_0\) au seuil de 5 %. L’ecart observe est statistiquement significatif.

5.2 Les deux types d’erreur

Propriete — Risques d’erreur

Erreur de premiere espece (risque \(\alpha\)) : rejeter \(H_0\) alors qu’elle est vraie. Ce risque est contrôle par le seuil choisi (5 %).
Erreur de deuxieme espece (risque \(\beta\)) : ne pas rejeter \(H_0\) alors qu’elle est fausse. Ce risque diminue quand \(n\) augmente.

Justification

Erreur de première espèce (\(\alpha\)). Par construction de l’intervalle de fluctuation au seuil de 95 %, si \(H_0 : p = p_0\) est vraie, alors \(P(f \in I_f) \ge 0{,}95\). Le risque de rejeter \(H_0\) à tort est :

\(\alpha = P(f \notin I_f \mid H_0\text{ vraie}) \le 0{,}05.\)

Ce risque est choisi par le statisticien : prendre un seuil 99 % à la place de 95 % ramènerait \(\alpha\) à 1 %.

Erreur de deuxième espèce (\(\beta\)). Si la vraie proportion est \(p \neq p_0\), la fréquence observée se distribue autour de \(p\) (et non de \(p_0\)). Le risque de ne pas rejeter \(H_0\) à tort est :

\(\beta = P(f \in I_f \mid p \neq p_0).\)

Quand \(n\) augmente, l’écart-type \(\sigma(f) = \sqrt{p(1-p)/n}\) diminue : la fréquence \(f\) est plus concentrée autour de \(p\), donc la probabilité qu’elle tombe dans l’intervalle centré sur \(p_0\) diminue. D’où \(\beta \to 0\) lorsque \(n \to +\infty\).

Compromis. À \(n\) fixé, diminuer \(\alpha\) (intervalle plus large) augmente \(\beta\) (on rejette moins, y compris à tort). Le choix \(\alpha = 5\%\) est un compromis usuel. ∎

Exemple

Un fabricant annonce que 3 % de ses ampoules sont defectueuses (\(H_0 : p_0 = 0{,}03\)). Un magasin contrôle un lot de 500 ampoules et en trouve 24 defectueuses, soit \(f = 0{,}048\).

Intervalle de fluctuation : \(I_f = \left[0{,}03 - 1{,}96\sqrt{\frac{0{,}03 \times 0{,}97}{500}} \;;\; 0{,}03 + 1{,}96\sqrt{\frac{0{,}03 \times 0{,}97}{500}}\right] \approx [0{,}015 \;;\; 0{,}045]\).

Comme \(0{,}048 \notin [0{,}015 ; 0{,}045]\), le magasin rejette l’hypothese du fabricant : le lot semble contenir plus de 3 % de defauts.

Remarque — Ne pas rejeter n’est pas prouver

Quand on ne rejette pas \(H_0\), cela ne signifie pas que \(H_0\) est vraie. Cela signifie seulement que les donnees de l’échantillon ne sont pas suffisantes pour la contredire au seuil choisi.

6. Applications (sondages, sciences)

6.1 Sondages d’opinion

Exemple — Sondage electoral

Un institut interroge 1 000 electeurs. Le candidat A obtient \(f = 0{,}52\).

Intervalle de confiance : \(\left[0{,}52 - \frac{1}{\sqrt{1000}} \;;\; 0{,}52 + \frac{1}{\sqrt{1000}}\right] \approx [0{,}488 \;;\; 0{,}552]\).

L’intervalle contient des valeurs inferieures a 0,50. On ne peut donc pas affirmer avec 95 % de confiance que le candidat A sera elu. La course reste ouverte.

Remarque — Limites des sondages

Les formules precedentes supposent un échantillonnage aléatoire. En pratique, les sondages utilisent la méthode des quotas (age, sexe, CSP…) et des corrections supplementaires. De plus, les non-reponses, les changements d’avis et les biais de desirabilite sociale peuvent affecter les résultats au-dela de la marge statistique.

6.2 Contrôle qualite industriel

Méthode — Contrôle de conformite

Un fabricant garantit un taux de defaut maximal \(p_0\). Le client preleve un échantillon de taille \(n\) et calcule la frequence de defauts \(f\) :

Si \(f\) est dans l’intervalle de fluctuation associe a \(p_0\), le lot est accepte.
Sinon, le lot est refuse ou soumis a un contrôle renforce.

6.3 Essais cliniques

Exemple — Test d’un médicament

Un nouveau médicament est teste sur 200 patients. Le taux de guerison observe est \(f = 0{,}68\). Le traitement de reference guerit 60 % des patients (\(p_0 = 0{,}60\)).

Intervalle de fluctuation pour \(p_0 = 0{,}60\) : \(\left[0{,}60 - 1{,}96\sqrt{\frac{0{,}60 \times 0{,}40}{200}} \;;\; 0{,}60 + 1{,}96\sqrt{\frac{0{,}60 \times 0{,}40}{200}}\right] \approx [0{,}532 \;;\; 0{,}668]\).

Comme \(0{,}68 \notin [0{,}532 ; 0{,}668]\), on rejette l’hypothese \(p = 0{,}60\). Le nouveau médicament semble significativement plus efficace que le traitement de reference.

6.4 Sciences experimentales

En physique, chimie ou biologie, l’estimation par intervalle de confiance permet de rendre compte de l’incertitude de mesure. Lorsque l’on repete \(n\) fois une mesure et que l’on obtient une moyenne \(\bar{x}\) et un ecart type \(s\), l’intervalle de confiance pour la vraie valeur est :

\[\left[\bar{x} - 1{,}96 \frac{s}{\sqrt{n}} \;;\; \bar{x} + 1{,}96 \frac{s}{\sqrt{n}}\right]\]

Cette demarche est a la base de l’expression des résultats dans les publications scientifiques.

Bilan — Formules essentielles

Notion	Formule
Intervalle de fluctuation (95 %)	\(\left[ p - 1{,}96\sqrt{\dfrac{p(1-p)}{n}} \;;\; p + 1{,}96\sqrt{\dfrac{p(1-p)}{n}} \right]\)
Intervalle de confiance simplifie (95 %)	\(\left[ f - \dfrac{1}{\sqrt{n}} \;;\; f + \dfrac{1}{\sqrt{n}} \right]\)
Intervalle de confiance precis (95 %)	\(\left[ f - 1{,}96\sqrt{\dfrac{f(1-f)}{n}} \;;\; f + 1{,}96\sqrt{\dfrac{f(1-f)}{n}} \right]\)
Marge d’erreur simplifiee	\(\dfrac{1}{\sqrt{n}}\)
Taille minimale pour marge \(\varepsilon\)	\(n \geq \dfrac{1}{\varepsilon^2}\)
Conditions d’utilisation	\(n \geq 30\), \(np \geq 5\), \(n(1-p) \geq 5\)

Demarche de test : poser \(H_0\), calculer \(I_f\), comparer \(f\), conclure.

Solution du problème d’ouverture — Le sondage electoral

Avec 1 000 personnes interrogees et \(f = 0{,}52\), l’intervalle de confiance simplifie est \([0{,}52 - \frac{1}{\sqrt{1000}} ; 0{,}52 + \frac{1}{\sqrt{1000}}] \approx [0{,}488 ; 0{,}552]\).

Cet intervalle contient 0,50, donc on ne peut pas conclure avec 95 % de confiance que le candidat A obtiendra la majorite.

Avec seulement 100 personnes, la marge serait de 10 points, rendant le sondage encore moins informatif. La precision depend de \(\frac{1}{\sqrt{n}}\).

Solution de l’énigme — Le fabricant confiant

Sous l’hypothese \(p = 0{,}05\) avec \(n = 200\), l’intervalle de fluctuation asymptotique au seuil 95 % est :

\[I = \left[0{,}05 - 1{,}96\sqrt{\frac{0{,}05 \times 0{,}95}{200}} \;;\; 0{,}05 + 1{,}96\sqrt{\frac{0{,}05 \times 0{,}95}{200}}\right] \approx [0{,}020 \;;\; 0{,}080]\]

La frequence observee \(f = \frac{18}{200} = 0{,}09\) est en dehors de cet intervalle.

Au seuil de 5 %, on rejette l’hypothese du fabricant : la proportion réelle de billes defectueuses semble superieure a 5 %.

Pieges et contre-exemples

Échantillonnage et estimation : teste d’abord ton intuition.

Score : 0 / 6 pieges identifies

1 Taille de la population

« Pour un sondage national, il faut interroger au moins 1 % de la population. »

Cette affirmation est-elle correcte ?

Explication

Faux. La precision depend de la taille de l’échantillon \(n\), pas du ratio \(n/N\). Un échantillon de 1 000 personnes donne la meme precision que la population fasse 1 million ou 100 millions.

Marge d’erreur \(\approx \frac{1}{\sqrt{n}}\). Seul \(n\) compte, pas \(N\).

Mini-test : pour diviser la marge d’erreur par 2, il faut multiplier \(n\) par :

2 Intervalle de confiance

« L’intervalle de confiance a 95 % contient la vraie proportion avec une probabilite de 95 %. »

Cette affirmation est-elle correcte ?

Explication

Faux (nuance subtile). La vraie proportion est fixe. L’intervalle, lui, est aléatoire. La bonne interprétation : si on repete l’experience, 95 % des intervalles construits contiendront la vraie proportion.

Le 95 % porte sur la méthode, pas sur un intervalle particulier.

Mini-test : sur 100 sondages independants, combien donneront un IC contenant la vraie proportion ?

3 Échantillon biaise

« Un échantillon de grande taille est toujours representatif. »

Cette affirmation est-elle correcte ?

Explication

Faux. Un échantillon biaise reste biaise meme s’il est grand. Exemple celebre : le sondage du Literary Digest (1936) interrogeait 2,4 millions de personnes, mais par telephone — a une epoque ou seuls les riches avaient le telephone. Résultat : prediction fausse.

La representativite depend du mode de selection, pas de la taille.

Mini-test : sonder 10 000 clients d’un magasin de luxe pour estimer le revenu moyen des Francais. Fiable ?

4 Frequence et probabilite

« Si la frequence observee est \(f = 0{,}6\), alors la probabilite est 0,6. »

Cette affirmation est-elle correcte ?

Explication

Faux. La frequence est une estimation de la probabilite, entachee d’une incertitude. La vraie probabilite \(p\) est dans l’intervalle de confiance autour de \(f\), pas exactement egale a \(f\).

\(f\) est un estimateur de \(p\). Il faut donner l’intervalle de confiance.

Mini-test : on lance 100 fois une piece et on obtient 60 faces. La piece est-elle truquee ?

5 Confiance a 100 %

« On peut construire un intervalle de confiance a 100 %. »

Cette affirmation est-elle correcte ?

Explication

Faux (en pratique). Un intervalle a 100 % serait \([0 ; 1]\) pour une proportion, ce qui ne donne aucune information. Plus le niveau de confiance est élève, plus l’intervalle est large et moins il est informatif.

Il y a toujours un compromis precision/confiance. 95 % est le standard.

Mini-test : pour un IC plus precis (plus etroit), faut-il augmenter ou diminuer le niveau de confiance ?

6 Loi des grands nombres

« Plus \(n\) est grand, plus la frequence observee \(f\) se rapproche de la probabilite theorique \(p\). »

Cette affirmation est-elle correcte ?

Explication

C’est vrai ! C’est la loi des grands nombres : la frequence converge vers la probabilite quand le nombre d’experiences augmente.

C’est le fondement de la statistique : l’échantillon represente la population si \(n\) est assez grand.

Mini-test : la frequence de « face » apres 1 000 000 de lancers d’une piece equilibree sera :

➡️ Pour la suite

Ch. 10 — Géométrie dans le plan et dans l'espace — Dernier chapitre : géométrie vectorielle et analytique en 2D et 3D.

Chapitre 9 — Échantillonnage et estimation

Un sondage electoral sous la loupe

Fisher, Neyman et la naissance de la statistique moderne

Le fabricant confiant

1. Échantillon et fluctuation

2. Intervalle de fluctuation

2.1 Cadre et hypotheses

2.2 Utilisation de l’intervalle de fluctuation

3. Estimation ponctuelle

4. Intervalle de confiance au niveau 95 %

4.1 Principe

4.2 Interpretation

4.3 Influence de la taille de l’échantillon

5. Prise de decision

5.1 Principe du test

5.2 Les deux types d’erreur

6. Applications (sondages, sciences)

6.1 Sondages d’opinion

6.2 Contrôle qualite industriel

6.3 Essais cliniques

6.4 Sciences experimentales

Bilan — Formules essentielles

Pieges et contre-exemples