Visa/dölj programkod för R
Info, referenser, m.m...
Binomialfördelningen – några egenskaper
Binomialfördelningen är en diskret fördelning som ofta
används då
man noterar antal t.ex. 'ej OK' i ett parti
Sannolikhetsfördelningen
Fördelningsfunktionen
μ :
σ :
F(x):
x:
Parameter (p):
Parameter (n):
Välj en fördelning...
Kontinuerliga fördelningar
Exponentialfördelning – ett specialfall av Weibullfördelningen då formparametern a = 1. Används ofta för att modellera väntetider.
Gammafördelning – Gammafördelningen är en kontinuerlig fördelning och nämns ofta då man modellerar livslängder som är summan av ett antal (exponentialfördelade) tider mellan händelser.
Lognormalfördelning – används ibland som livslängsfördelning med något speciella egenskaper. Har en nära koppling till normalfördelningen.
Normalfördelning – den vanligaste kontinuerliga fördelningen.
Rayleighfördelning – ett specialfall av Weibullfördelningen då formparametern a = 2. Används ofta inom radioteknologi vid modellering av dämpning s.k. Rayleigh fading.
Weibullfördelning –
en vanlig fördelning för tider – kötider, livslängder, väntetider, etc. Låga värden
på formparametern ger positivt skeva fördelningar medan höga värden ger negativ skevhet.
Diskreta fördelningar
Binomialfördelning – modellerar antal felaktiga x i ett stickprov om n enheter då processens felkvot är p.
Geometrisk fördelning – modellerar antal 'OK' mellan varje 'ej OK' om processens felkvot är p.
Poissonfördelning – modellerar antal händelser i något kontinuum – ett tidsintervall, en yta, en volum, etc.
••••
Några egenskaper, krav och kommentarer
En fördelningen är en modell av hur en sannolikhetsyta fördelas över talaxeln. Ibland används ordet sannolikhetsmassa, ofta men inte alltid, då man diskuterar t.ex. en bivariat fördelning. (Man kan likna en sådan som en sandhög uthälld på ett plan (därav massa)). En bivariat fördelning har två 'X-axlar' och ett exempel kan vara människans längd och vikt. (Man kan ha fler variabler och det beskrivs då som en multivariat fördelning.) Här diskuteras enbart univariata fördelningar.
En fördelning kan illustreras med ett diagram men är egentligen en matematisk modell där man är
intresserad av ytan som begränsas av kurvan och X-axeln. En fördelning är inte något som uppkommit genom
data utan som en härledning ur en teoretisk situation.
Några exempel: (a) en process där händelser inträffar med konstant intensitet (typ 5.2 samtal per timme) och
oberoende av varandra, leder, efter matematiska bearbetningar till en s.k. Poissonfördelning. (b) om man bedömer n detaljer
som antingen ’ok’ eller ’ej ok’ och där felkvoten p är konstant, kommer man
fram till binomialfördelningen. Många andra kända fördelningar kräver mycket mer matematisk manipulation.
Man använder en sannolikhetsfördelning i princip som vilken annan modell som helst – för att göra utsagor om verkligheten och där verkligheten representeras av data. (Exempel på andra modeller är en ritning, en busstidtabell, ett organisationsschema, etc. Ingen av dem är perfekt men kan användas för att studera verkligheten.)
En fördelnings utsträckning kan vara hela X-axeln (från minus oändligheten till plus oändligheten) eller t.ex. bara den positiva talaxeln. Diskreta fördelningar kan bara ta vissa bestämda ('diskreta') värden på talaxeln, ofta, men inte alltid, heltalen. Studerar man antal bakterier per milliliter blod kan ju resultatet bara vara 0, 1, 2, 3...
Givet en situation med flera ingående fördelningar kan man (ibland!) härleda en "resultatsfördelning". Detta kan vara lätt i vissa "snälla" situationer men helt omöjligt i andra.
Vilken funktion som helst kan vara en sannolikhetsfördelning givet att hela funktionen är på eller över X-axeln och ytan under kurvan är exakt 1. Man bör naturligtvis kunna motivera valet av funktion annars blir det bara en matematisk lek.
En fördelning kan (oftast!) sammanfattas med ett antal värden, vanligast är dess väntevärde (teoretiskt medelvärde, ofta beskrivet som fördelningens tyngdpunkt) och dess varians som i praktiska sammanhang omvandlas till standardavvikelse. Det finns dock många fler mått men de används sällan i praktiken. Observera att formlerna för väntevärdet kan se extremt olika ut när man jämför olika fördelningar men alla har utgått från samma originaldefinition – detta gäller även variansen. Sedan har man bara utvecklat formlerna och förenklat så långt som möjligt.
Observera att i litteraturen förekommer ibland något olika formler för en och samma fördelning. Det beror på att man parametriserat lite olika. Slutresultatet är alltid samma men man måste vara medveten om dessa skillnader om man t.ex. skall programmera någon beräkning.
Vissa fördelningar kan verka ganska lika då man jämför deras sannolikhetsfördelningar men kan ändå uppvisa väldigt olika egenskaper vid tillförlitlighets- och livslängdsanalys.
Lite kuriosa: det finns en namngiven fördelning (Cauchyfördelningen) som uppfyller kraven ovan men likväl finns inget väntevärde! Detta medför oväntade saker, se litteraturen för detaljer!
Många namngivna fördelningar, t.ex. exponentialfördelningen och Rayleighfördelningen, är specialfall av någon annan fördelning (i det här fallet Weibullfördelningen). Exponentialfördelningen är också ett specialfall av gammafördelningen. (Faktum är att många vanliga fördelningar kan skrivas på en och samma form, låt vara mer komplicerad, och litteraturen pratar ibland om familjer av fördelningar.)
Utöver de sannolikhetsfördelningar som används som modell för olika typer av mätresultat, finns det också s.k. hjälpfördelningar som används i vissa typer av statistiska analyser. Fördelningen gäller då den teststatistika som man beräknat ur den givna datamängden. Se litteraturen för mer information!
Det är omöjligt att här ta med alla egenskaper och resultat. Ett sådant är dock väldigt centralt: om man adderar (eller subtraherar) variabler så blir resultatet mer och mer normalfördelat, oavsett hur de ursprungliga fördelningarna ser ut. Detta faktum kallas centrala gränsvärdessatsen och finns välformulerat i litteraturen. Sålunda kan man påstå att t.ex. ett medelvärde är (åtminstone approximativt) normalfördelat ty medelvärden är en summa av flera värden. Många statistiska analysmetoder bygger på central gränsvärdessatsen.
••••
'Min' måste vara större 0 och mindre än 'Max'!
(dvs 0 < Min < Max)
Ändra i rutorna nedan:
Några vanliga användningsområden
Binomialfördelningen är en synnerligen vanlig modell. Ofta, men inte alltid, beskrivs den i 'kvalitetstermer'
dvs "antal felaktiga detaljer i ett stickprov om n detaljer" men det är naturligtvis inte enda användningsområdet.
(Observera att mätvärdena är 'antal' dvs heltal, inte procentsatser eller något annat.)
Om man studerar någonting som klassas i två grupper typ 'OK/ejOK' eller 'man/kvinna' eller 'överlevde
mer än två år/överlevde inte mer än två år' så finns det anledning att
fundera på binomialfördelningen som modell.
Fördelningen har två parametrar p och n (se knappen "Parameterbeskrivning" för detaljer)
där n kan vara så lågt som 1. De formella kraven på p är att p
skall vara konstant och att obeservationerna är oberoende. Om p inte är konstant har man en mer
komplicerad situation med blandning av variabler.
I datorprogram eller läroböcker anges ofta 'success rate' för det som ibland exemplifieras som 'felkvot'
och även 'number of trials' för det som ibland kallas stickprov.
Anledningen är naturligtvis att programmet är neutralt med avseende på det som analyseras och
t.ex. varje detalj är ju ett försök (trial).
••••
Något om parametrar, resultat och diagram
μ: Fördelningens väntevärde. Anges också i rött på X-axeln under sannolikhetsfördelningen. Väntevärdet beräknas med fördelningens två parametrar, p och n.
σ: Fördelningens standardavvikelse. Anges som röda skalstreck på X-axeln under sannolikhetsfördelningen. Standardavvikelsen beräknas med fördelningens två parametrar, p och n.
F(x): Summan av de färgade staplarna till vänster om den röda vertikala linjen på X-axeln (staplarna visas då det röda pilformade handtaget dras till höger över X-axeln). F(x)-värdet anger sannolikheten att få ett värde mindre eller lika med x och visas också på den högra grafens Y-axel. F(x) är alltid inom intervallet [0, 1], dvs 0 < F(x) < 1.
x: x-värdet visas på X-axeln under sannolikhetsfördelningen då markören dras över det vänstra diagrammet. x-värdet visas också på det högra diagrammets X-axel.
p-parameter: Binomialfördelningen har två parametrar och den ena betecknas ibland med ett p och kallas ibland för felkvoten eller lite mer neutralt för probability of success. För låga värden på p är fördelningen positivt skev och för höga värden är den negativt skev. Vid p = 0.5 är fördelningen symmetrisk och med störst variation.
n-parameter: n-parametern är det antal enheter som studeras/kontrolleras och kallas ibland för stickprovet. Det minsta värdet på n är naturligtvis 1 och då brukar fördelningen kallas Bernoullifördelningen. Observera att om stickprovet är draget ur ett större parti med N enheter pratar man om den hypergeometriska fördelningen.
••••
X-axeln
X-axeln i bägge diagrammen har ett min- och ett max-värde. Dessa kan ändras på sannolikhetsfördelningens
X-axel till något värde som kanske bättre passar den uppritade fördelningen. Om något värde ändras
så sker automatiskt samma ändring i högra diagrammet. Min- eller max-värdet ändras genom att klicka på
nuvarande värden och skriva in andra.
Y-axeln
Y-axeln i sannolikhetsdiagrammet (det vänstra diagrammet) är sannolikheten för ett visst enskilt X-värde.
Observera att för kontinuerliga fördelningar visar Y-axeln inte visar sannolikhet.
Y-axeln i högra diagrammet är dock ett sannolikhetsmått (därav intervallet [0, 1]) och visar summan av de färgade
staplarna i sannolikhetsdiagrammet då markören dras över det vänstra diagrammet.
Högra diagrammet
Det högra diagrammet kallas vanligen för en fördelningsfunktion och betecknas ofta i datorprogram för cdf
(cumulating distribution function). Det finns tre små blå markeringar på Y-axeln, dessa är kvartil 1, 2 och 3, se övningarna!
••••
Några grundläggande övningar
Övning 1 – ändra p-parametern
Dra p-parametern till låga värden och se att fördelningen trängs mot X = 0, självklart ty det finns inga negativa resultat.
Dra sedan p-parametern mot mitten på skalan och notera att fördelningen blir symmetrisk och klockformad. Då p-parametern
ökas ännu mer mot 1 kommer fördelningen återigen bli skev fast åt andra hållet.
Vid p = 0.5 har fördelningen störst spridning och detta beror på att p(1 - p), som ingår i beräkningen av spridningen,
når maximum då p = 0.5.
Övning 2 – ändra n-parametern
Ställ in p på ungefär 0.04 och dra sedan n-parametern (stickprovstorleken) till högre värden. Fördelningen kommer då
snabbt att bli mer och mer symmetrisk och klockformad. Notera också att spridningen ökar då n ökar.
Om p-parametern ändras kommer fördelningen att på samma sätt förflyttas så länge p-parametern inte är extremt låg eller hög.
Övning 3 – tumregeln
Låt n-parametern vara 50 och justera p-parametern så att sigma blir 3.00. Ändra xmin till 3 och xmax till 22.
Notera att tumregeln 'medelvärde plus/minus tre standardavvikelser, som här blir (ungefär) intervallet 9 - 21, omfattar praktiskt taget
hela fördelningen (som i teorin går från 0 till 50). Tumregeln gäller naturligtvis för alla kombinationer av medelvärde och standardavvikelse.
Övning 4 – Q1, Q2, Q3
Ibland är man intreserad av kvartilerna dvs de X-värden som delar in fördelningen i bitar om 25%. Kvartil 2 (Q2)
kallas också för medianen dvs det X-värde som delar fördelningen i två lika delar. Sätt p-parametern till 0.50
och n-parametern till 200 samt ändra xmin till 75 och xmax till 125. Drag markören över det vänstra diagrammet och notera att x = 95 är
närmast Q1 och att x = 99 och 100 omger Q2 samt att x = 104 är närmast Q3.
I en diskret fördelning är det vanligtvis inte möjligt att hitta x-värden som exakt motsvarar Q1, Q2 eller Q3 dvs 0.25, 0.50 och 0.75.
••••
Beräkning av my (μ) och sigma (σ):
Generellt för alla fördelningar gäller följande två uttryck:
μ=E(X)
σ2=E(X-μ)2
För binomialfördelningen får vi följande:
Här är n stickprovsstorleken och p processens felkvot.
••••