Antal sim. punkter per 'n':
Antal grupper per punkt:
Simulering av 'födelsedagsproblemet' – månadsvis
Månad | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Januari | |||||||||||||||||||||||||||||||
Februari | |||||||||||||||||||||||||||||||
Mars | |||||||||||||||||||||||||||||||
April | |||||||||||||||||||||||||||||||
Maj | |||||||||||||||||||||||||||||||
Juni | |||||||||||||||||||||||||||||||
Juli | |||||||||||||||||||||||||||||||
Augusti | |||||||||||||||||||||||||||||||
September | |||||||||||||||||||||||||||||||
Oktober | |||||||||||||||||||||||||||||||
November | |||||||||||||||||||||||||||||||
December |
Antal grupper att simulera:
Antal personer per grupp:
Sannolikhet 'min två':
De två indatafälten styr utfallet i diagrammet till höger.
Antal sim. punkter per 'n': 'n' är olika folkmängder, alltifrån två till 60 personer (dvs ungefär två skolklasser). Indata (initialt 4) anger antal simuleringar av 200 grupper med 'n' personer ('200' är andra parametern.)
Antal grupper per punkt: Anger antal grupper om 'n' personer innan en sannolikhet beräknas och plottas som en blå punkt.
[Repetera simulering]: Denna knapp repeterar simuleringen och plottar resultatet med givna parametervärden.
Observera att indata och repetera-knappen är blockerade under tiden en graf ritas. Om ett parametervärde ändras påbörjas en simulering och utritande av resultatet.
••••
De två indatafälten styr utfallet i månadskalendern.
Antal grupper att simulera: Alltså hur många grupper av personer som utfrågas. Varje grupp undersöks för att hitta minst två personer med samma födelsedag i gruppen. 'Minst två' betyder också tre, fyra, osv.
Antal personer per grupp: Anger antal personer i en grupp.
Sannolikhet 'min två': Den teoretiska sannolikheten.
[Repetera simulering]: Denna knapp repeterar simuleringen och plottar kalendern med givna parametervärden.
- "Simulerat ant. grp: x av xx" visar hur simuleringen fortskrider.
- "Antal grp 'min två': x" är en räknare för antal 'träff'.
- "Ber. andel 'min två':" är kvoten av ovanstående två uppgifter och är en skattning av den teoretiska sannolikheten.
Observera att indata och repetera-knappen är blockerade under tiden en kalender simuleras. Om ett parametervärde ändras påbörjas en ny simulering.
••••
Denna sida innehåller årets alla dagar uppdelade per månad.
Varje födelsedag som slumpas fram i gruppen av personer ritas som en grå cirkel på respektive dag. Om det blir två eller flera personer i en ruta, indikeras detta med en röd större cirkel (antal grupper med en eller flera röda cirklar ackumuleras nedan).
Fördelning av födslar antages vara lika över året. Det finns heller ingen hänsyn till skottår.
Beräkningen av sannolikheten för minst två personer med samma födelsedag är ganska enkel, se info på huvudsidan bakom denna ruta.
••••
Diagrammet har tre skikt:
- de teoretiska sannolikheterna (röda punkter)
- simulerade sannolikheter (blå punkter)
- medelvärden över de blå punkterna (svarta '+'-tecken).
Visa/dölj simulering: Kan dölja respektive visa skiktet med de simulerade blå punkterna.
Visa/dölj medelvärden: Kan dölja respektive visa skiktet med medelvärden (svarta '+'-tecken).
X-axeln: Visar sannolikhet att hitta minst två (eller fler) personer med samma födelsedag i en 'n'-grupp. Sannolikhet är ett tal mella 0 och 1.
Y-axeln: Visar gruppstorlek från 2 t.om. 60 personer. (Mer än 60 personer kommer bara att visa att kurvan kommer närmare och närmare 1.)
Notera Med parametervärdena 4/200 syns det tydligt att variationen är mycket högre vid sannolikheter, säg, 0.40-0.60. Denna ökning i variation är lätt att visa med gällande formler. Rent praktiskt ger detta stora problem i stickprov, t.ex opinionsundersökningar där andelarna 'för' och 'emot' är ungefär 50/50 (t.ex. omröstningen om EU i UK). Stickprovets resultat blir mer osäkert vid dessa proportioner och visserligen kan man motverka detta med mer mätningar (men någon måste betala...)
••••
Födelsedagsproblemet är ett exempel som förekommer i många statistikböcker. Det är ganska lätt att formulera och beräkna men har ett förvånande resultat.
Den vanligaste beskrivningen är följande:
”Hur många människor behövs i en grupp för att ha 50% chans att hitta minst två med samma födelsedag?”
Svaret skall vara ett antal, inte en procentsats e.d. Rätt svar är 23 personer dvs ett mycket oväntat resultat, ungefär som en
mindre skolklass. (Se texten under [Formler]-knappen hur beräkningen görs. Om man har en grupp på 60 personer så är
sannolikheten långt högre, nämligen 99.4%.)
Exemplet illustrerar att mätningar och stickprov måste designas på något sätt, det duger inte att höfta till när det
gäller t.ex. antal mätningar.
I födelsedagsproblemet tenderar folk att förslå antal omkring 180 (alltså cirka hälften av 365) vilket är alltså
fullkomligt fel.
I industrin utför man mängder av mätningar och man anser sig definitivt inte att ha råd att mäta för mycket (
eller för lite), därför behöver man ägna mer tid åt att förstå och bemästra och styra osäkerheten.
Ytterligare anmärkning
En grupp om 23 personer har alltså sannolikheten 0.5 att innehålla ’minst två personer med samma födelsedag’.
Antag att vi betraktar gruppen som en enhet t.ex. som en detalj eller en människa och vi undersöker huruvida
detaljen är felaktig eller om människan har en viss åsikt.
Antag att kvoten i bägge fallen är 0.5.
Det visas tydligt i simuleringen att då kvoten är 0.5 (eller däromkring) är variationen större, ett faktum som lätt visas med
enkla formler.
Men detta betyder ju för t.ex. opinionsundersökningar då opinionen vacklar runt 50/50, att stickproven är
mer osäkra än om opinionssiffrorna vore 10/90 eller 90/10, dvs längre ut på skalan.
Visserligen skulle man kunna motverka
detta genom att öka antal mätningar men det blir dyrare…
••••
Info, referenser, m.m...
22. Födelsedagsproblemet – mer än man tror
Visa/dölj simulering
Visa/dölj medelvärden
10
20
30
40
50
60
Gruppstorlek (n)
1
0.75
0.50
0.25
0
Sannolikhet ('minst två med samma födelsedag')
- röd cirkel: teoretisk sannolikhet
- Blå cirkel: simulerat resultat
- '+'-tecken: medelvärde av simulering