Binomialfördelningen

Visa/dölj programkod för R

Kommandon för R

Info, referenser, m.m...

Geometrisk fördelning

Binomialfördelningen – några egenskaper

Binomialfördelningen är en diskret fördelning som ofta
används då man noterar antal t.ex. 'ej OK' i ett parti

Sannolikhetsfördelningen

Fördelningsfunktionen

μ :

σ :

F(x):

Parameter (p):

Parameter (n):

Välj en fördelning...

Kontinuerliga fördelningar

Exponentialfördelning – ett specialfall av Weibullfördelningen då formparametern a = 1. Används ofta för att modellera väntetider.

Gammafördelning – Gammafördelningen är en kontinuerlig fördelning och nämns ofta då man modellerar livslängder som är summan av ett antal (exponentialfördelade) tider mellan händelser.

Lognormalfördelning – används ibland som livslängsfördelning med något speciella egenskaper. Har en nära koppling till normalfördelningen.

Normalfördelning – den vanligaste kontinuerliga fördelningen.

Rayleighfördelning – ett specialfall av Weibullfördelningen då formparametern a = 2. Används ofta inom radioteknologi vid modellering av dämpning s.k. Rayleigh fading.

Weibullfördelning – en vanlig fördelning för tider – kötider, livslängder, väntetider, etc. Låga värden på formparametern ger positivt skeva fördelningar medan höga värden ger negativ skevhet.

Diskreta fördelningar

Binomialfördelning – modellerar antal felaktiga x i ett stickprov om n enheter då processens felkvot är p.

Geometrisk fördelning – modellerar antal 'OK' mellan varje 'ej OK' om processens felkvot är p.

Poissonfördelning – modellerar antal händelser i något kontinuum – ett tidsintervall, en yta, en volum, etc.

••••

'Min' måste vara större 0 och mindre än 'Max'!
(dvs 0 < Min < Max)

Ändra i rutorna nedan:

Några vanliga användningsområden

Binomialfördelningen är en synnerligen vanlig modell. Ofta, men inte alltid, beskrivs den i 'kvalitetstermer' dvs "antal felaktiga detaljer i ett stickprov om n detaljer" men det är naturligtvis inte enda användningsområdet. (Observera att mätvärdena är 'antal' dvs heltal, inte procentsatser eller något annat.)

Om man studerar någonting som klassas i två grupper typ 'OK/ejOK' eller 'man/kvinna' eller 'överlevde mer än två år/överlevde inte mer än två år' så finns det anledning att fundera på binomialfördelningen som modell.
Fördelningen har två parametrar p och n (se knappen "Parameterbeskrivning" för detaljer) där n kan vara så lågt som 1. De formella kraven på p är att p skall vara konstant och att obeservationerna är oberoende. Om p inte är konstant har man en mer komplicerad situation med blandning av variabler.
I datorprogram eller läroböcker anges ofta 'success rate' för det som ibland exemplifieras som 'felkvot' och även 'number of trials' för det som ibland kallas stickprov. Anledningen är naturligtvis att programmet är neutralt med avseende på det som analyseras och t.ex. varje detalj är ju ett försök (trial).

••••

Något om parametrar, resultat och diagram

μ: Fördelningens väntevärde. Anges också i rött på X-axeln under sannolikhetsfördelningen. Väntevärdet beräknas med fördelningens två parametrar, p och n.

σ: Fördelningens standardavvikelse. Anges som röda skalstreck på X-axeln under sannolikhetsfördelningen. Standardavvikelsen beräknas med fördelningens två parametrar, p och n.

F(x): Summan av de färgade staplarna till vänster om den röda vertikala linjen på X-axeln (staplarna visas då det röda pilformade handtaget dras till höger över X-axeln). F(x)-värdet anger sannolikheten att få ett värde mindre eller lika med x och visas också på den högra grafens Y-axel. F(x) är alltid inom intervallet [0, 1], dvs 0 < F(x) < 1.

x: x-värdet visas på X-axeln under sannolikhetsfördelningen då markören dras över det vänstra diagrammet. x-värdet visas också på det högra diagrammets X-axel.

p-parameter: Binomialfördelningen har två parametrar och den ena betecknas ibland med ett p och kallas ibland för felkvoten eller lite mer neutralt för probability of success. För låga värden på p är fördelningen positivt skev och för höga värden är den negativt skev. Vid p = 0.5 är fördelningen symmetrisk och med störst variation.

n-parameter: n-parametern är det antal enheter som studeras/kontrolleras och kallas ibland för stickprovet. Det minsta värdet på n är naturligtvis 1 och då brukar fördelningen kallas Bernoullifördelningen. Observera att om stickprovet är draget ur ett större parti med N enheter pratar man om den hypergeometriska fördelningen.

••••

X-axeln
X-axeln i bägge diagrammen har ett min- och ett max-värde. Dessa kan ändras på sannolikhetsfördelningens X-axel till något värde som kanske bättre passar den uppritade fördelningen. Om något värde ändras så sker automatiskt samma ändring i högra diagrammet. Min- eller max-värdet ändras genom att klicka på nuvarande värden och skriva in andra.

Y-axeln
Y-axeln i sannolikhetsdiagrammet (det vänstra diagrammet) är sannolikheten för ett visst enskilt X-värde. Observera att för kontinuerliga fördelningar visar Y-axeln inte visar sannolikhet. Y-axeln i högra diagrammet är dock ett sannolikhetsmått (därav intervallet [0, 1]) och visar summan av de färgade staplarna i sannolikhetsdiagrammet då markören dras över det vänstra diagrammet.

Högra diagrammet
Det högra diagrammet kallas vanligen för en fördelningsfunktion och betecknas ofta i datorprogram för cdf (cumulating distribution function). Det finns tre små blå markeringar på Y-axeln, dessa är kvartil 1, 2 och 3, se övningarna!

••••

Några grundläggande övningar

Övning 1 – ändra p-parametern
Dra p-parametern till låga värden och se att fördelningen trängs mot X = 0, självklart ty det finns inga negativa resultat. Dra sedan p-parametern mot mitten på skalan och notera att fördelningen blir symmetrisk och klockformad. Då p-parametern ökas ännu mer mot 1 kommer fördelningen återigen bli skev fast åt andra hållet.
Vid p = 0.5 har fördelningen störst spridning och detta beror på att p(1 - p), som ingår i beräkningen av spridningen, når maximum då p = 0.5.

Övning 2 – ändra n-parametern
Ställ in p på ungefär 0.04 och dra sedan n-parametern (stickprovstorleken) till högre värden. Fördelningen kommer då snabbt att bli mer och mer symmetrisk och klockformad. Notera också att spridningen ökar då n ökar.
Om p-parametern ändras kommer fördelningen att på samma sätt förflyttas så länge p-parametern inte är extremt låg eller hög.

Övning 3 – tumregeln
Låt n-parametern vara 50 och justera p-parametern så att sigma blir 3.00. Ändra xmin till 3 och xmax till 22. Notera att tumregeln 'medelvärde plus/minus tre standardavvikelser, som här blir (ungefär) intervallet 9 - 21, omfattar praktiskt taget hela fördelningen (som i teorin går från 0 till 50). Tumregeln gäller naturligtvis för alla kombinationer av medelvärde och standardavvikelse.

Övning 4 – Q1, Q2, Q3
Ibland är man intreserad av kvartilerna dvs de X-värden som delar in fördelningen i bitar om 25%. Kvartil 2 (Q2) kallas också för medianen dvs det X-värde som delar fördelningen i två lika delar. Sätt p-parametern till 0.50 och n-parametern till 200 samt ändra xmin till 75 och xmax till 125. Drag markören över det vänstra diagrammet och notera att x = 95 är närmast Q1 och att x = 99 och 100 omger Q2 samt att x = 104 är närmast Q3. I en diskret fördelning är det vanligtvis inte möjligt att hitta x-värden som exakt motsvarar Q1, Q2 eller Q3 dvs 0.25, 0.50 och 0.75.

••••

Beräkning av my (μ) och sigma (σ):

Generellt för alla fördelningar gäller följande två uttryck:

$μ = E (X)$ $σ^{2} = E (X - μ)^{2}$

För binomialfördelningen får vi följande:

μ = n p

σ = \sqrt{n p (1 - p)}

Här är n stickprovsstorleken och p processens felkvot.

••••