observation avec xcas
Le document d'accompagnement affirme que pour des échantillons de taille
$n$ obtenus à partir d'un modèle de Bernoulli, 95% des mesures des
fréquences mesurées sont comprises dans l'intervalle
$\left[p-\frac{1}{\sqrt{n}},p+\frac{1}{\sqrt{n}}\right]$ avec $p$ la
proportion à mesurer.
On simule ici N échantillons de taille $n$ d'un modèle de Bernoulli
ayant une probabilité $p$.
On simule une expérience de probabilité $p$:
evalf(hasard(0,1))<p. En effet, on tire au hasard un décimal
entre 0 et 1 et on compte un point si ce nombre est inférieur à $p$.
On trace le nuage des points d'ordonnées les fréquences d'obtention d'un
résultat favorable.
On trace également les droites d'équations:
\[y=p\pm\frac{1}{\sqrt{n}}\]
echantillon(n,p,N):={ Freq:=NULL; pour k de 1 jusque N faire S:=0; pour j de 1 jusque n faire si evalf(hasard(0,1))<p alors S+=1; fsi fpour Freq:=Freq,[k,evalf(S/n)]; fpour P:=affichage(nuage_points([Freq]),epaisseur_point_3); D1:=affichage(droite(y=p-1./sqrt(n)),bleu+epaisseur_ligne_3); D2:=affichage(droite(y=p+1./sqrt(n)),rouge+epaisseur_ligne_3); retourne(P,D1,D2) }:;
On observe qu'une immense majorité des fréquences sont entre $p-\frac{1}{\sqrt{n}}$
et $p+\frac{1}{\sqrt{n}}$.
Le programme dit qu'au moins $95\%$ des fréquences se trouvent dans cet
intervalle. Vérifions-le:
echantillon2(n,p,N):={ ok:=0; pour k de 1 jusque N faire S:=0; pour j de 1 jusque n faire si evalf(hasard(0,1))<p alors S+=1; fsi fpour si evalf(S/n)>=(p-1./sqrt(n)) et evalf(S/n)<=(p+1./sqrt(n)) alors ok+=1 fsi fpour retourne ok*100./N }:;
Par exemple:
>>echantillon(100,0.4,10000) 95.57
On relance autant de fois que l'on veut le calcul pour observer que le
nombre obtenu est supérieur à 95.
Nous ne discuterons pas ici de la pertinence d'une telle expérience
devant des élèves de 2nde...
observation avec python
La fonction en elle-même est assez rapide à écrire:
def echantillon(n,p,N): return [(k,len(list(filter(lambda x: x < p,random.random(size=n)))) / n) for k in range(N)]
On observe avec pygal:
def affiche_echantillon(n,p,N): confiance = XY(show_legend = False) confiance.title = 'Intervalle de confiance' confiance.add('Succès',echantillon(n,p,N)) confiance.add('Limite inf',[(0,p - 1/sqrt(n)),(N,p - 1/sqrt(n))]) confiance.add('Limite sup',[(0,p + 1/sqrt(n)),(N,p + 1/sqrt(n))]) confiance.render_to_file("confiance.svg") !firefox ./confiance.svg # possible que sous ipython dans un systéme UNIX
Et on obtient ce magnifique rendu SVG
avec la commande:
affiche_echantillon(100,0.4,1000)
un exemple de td en 2nde
expérience
Une urne contient un très grand nombre de boules dont $40\%$ sont
rouges. On en tire un échantillon de taille 100 au hasard.
On mesure la fréquence de boules rouges obtenues.
Un résultat classique en statistique affirme que la probabilité que la
fréquence observée soit dans l'intervalle
$\left[0,40-\frac{1}{\sqrt{100}},0,40+\frac{1}{\sqrt{100}}\right]$ est
au moins supérieure à une valeur que nous allons essayer de déterminer
expérimentalement.
que voulons-nous que l'ordinateur fasse?
Nous allons généraliser le problème.
Nous allons demander à l'ordinateur d'effectuer un grand nombre N de
tirages d'échantillons de taille $n$, sachant que la proportion de
boules rouges est $p$.
Nous allons représenter le nuage des points d'ordonnées les fréquences
de boules rouges obtenues par échantillon.
On trace également les droites d'équations:
\[y=p\pm\frac{1}{\sqrt{n}}\]
programme xcas
echantillon(n,p,N):={ Freq:=NULL; pour k de 1 jusque N faire S:=0; pour j de 1 jusque n faire si evalf(hasard(0,1))<p alors S+=1; fsi fpour Freq:=Freq,[k,evalf(S/n)]; fpour P:=affichage(nuage_points([Freq]),epaisseur_point_3); D1:=affichage(droite(y=p-1./sqrt(n)),bleu+epaisseur_ligne_3); D2:=affichage(droite(y=p+1./sqrt(n)),rouge+epaisseur_ligne_3); retourne(P,D1,D2) }:;
le théorème
Le résultat suivant sera admis :
[tr] | ||
[td] | ||
Lorsqu'on prélève un échantillon de taille $n$ dans une | ||
population où la fréquence d'un caractère est $p$ | alors | sous |
certaines conditions | la probabilité que cet échantillon fournisse | |
une fréquence appartenant | ||
à \[I=\left[p-\frac{1}{\sqrt{n}} | p+\frac{1}{\sqrt{n}}\right]\] est | |
au moins égale à ..... % | ||
[/td] | ||
[/tr] |
Sondages et urnes: les élections
Vu à la radio:
En perte de vitesse ces derniers mois, la cote du
président syldave est remontée de $49\%$ à $52\%$ après son mariage avec la princesse
Carlotta de Bordurie qui a su séduire par ses sourires les électeurs
de Syldavie.
La véritable cote de popularité du président auprès des 60 millions de
Syldave est inconnue. Désignons-la par $p$.
On connaît deux fréquences observées sur deux échantillons de
1000 personnes: $f_1=489\%$ et $f_2=52\%$.
Montrez que $f_i\in
I_i=\left[p-\frac{1}{\sqrt{n}},p+\frac{1}{\sqrt{n}}\right]$ équivaut à $p\in J_i=\left[f_i-\frac{1}{\sqrt{n}},f_i+\frac{1}{\sqrt{n}}\right]$.
Écrivez les intervalles $J_1$ et $J_2$ correspondant à $f_1$ et
$f_2$. Représentez-les sur une droite graduée. Commentez alors l'annonce
faite à la radio.
sondage personnel
Lu à la syldavision:
Le président syldave a affirmé hier lors de sa conférence de
presse que sa cote de popularité est de $52\%$.
Un groupe dissident soutenu par la Bordurie effectue un sondage
auprès de 625 personnes et obtient une cote de $47\%$ d'opinions
favorables: le président syldave aurait-il menti?
Un autre sondage effectué auprès de 625 autres personnes donne une
cote de $49\%$. Cela permet-il de confirmer la cote de $52\%$ annoncée
par le président syldave?
arnaque
La princesse Carlotta anime un jeu à la télévision. Elle annonce que
dans une urne se trouvent 50 boules noires et 50 boules blanches. Elle
offrira une photo dédicacée de son mari à toute personne obtenant au
moins 11 boules blanches en tirant 30 boules au hasard de l'urne.
L'ambassadeur bordure participe au jeu. Il tire 30 boules et obtient 10
blanches seulement. Furieux, il décide de déclarer la guerre à la
Syldavie affirmant que le jeu est truqué. Qu'en pensez-vous?
Parviendrez-vous à éviter la guerre?