Simulering av 0 fel bland 'n'

Ändra parametersliderna så att den röda stapeln visar 0.05 (alltså 95% konfidens). Notera sedan att den approximativa tumregeln "Övre gräns: 3/n" ger praktiskt taget det inställda p-värdet.

I praktiken är naturligtvis processens felkvot (p) inte känd. Tumregeln är alltså ett praktiskt redskap att beräkna ett konfidensintervall för det besvärliga fallet '0 fel i stickprovet'.

Notera att tumregeln "3/n" gäller bara för 95%-igt konfidensintervall. Se f.ö. 'Några exempel...'

Se också dokumentet 'A fairytale.doc'

Visa/dölj binomialfördelningen

Visa/dölj "Några exempel"

Visa/dölj parametrar

Info, referenser, m.m...

Noll felaktiga bland n försök – en tumregel

"Vad är sannolikheten att få 0 felaktiga? Vilka slutsatser kan man dra?"

Den röda stapeln till vänster anger
sannolikheten att få exakt 0 fel
med de inställda parametrarna.

Några exempel med kommentarer:

A. En biltillverkare har fått info om att en av deras modeller inbromsats oväntat av det automatiska bromssystemet. Man beslutat då att med samma fordon köra samma vägsträcka, samma riktning och i övrigt lika förhållanden som rapporterats. Man genomför n körningar men hittar 0 störningar. Vad kan man säga om proportionen 'störningar'?

B. Man tänker så n frö för att se hur det är med grobarheten. Om det efter 5 veckor finns en spirande planta antecknas 'OK', annars 'ej OK'. Man blandar planteringsjorden noga, packar den på samma sätt i alla krukor, sår fröet, vattnar med noga doserad mängd enligt instruktioner och gällande kunskap. Efter 5 veckor finner man n spirande plantor. Vad kan man säga om proportionen 'ej OK'?

C. En leverantör har förändrat en konstruktion och skickat 150 detaljer för test hos kund som inte hittar några felaktiga. Sedan tidigare finns en överenskomelse att felprocenten skall vara mindre eller lika med 1.5%. Vad kan kunden säga om proportionen 'ej OK'? Är resultatet i linje med kravet?

Analys. Det är ganska meningslöst att beräkna den erhållna felkvoten, den blir ju noll. Men kanske man kan beräkna ett konfidensintervall? (Se [1] [2] [3] för mer info.)
Att beräkna ett konfidensintervall för en proportion visar sig dock vara en ganska komplicerad uppgift (före användning av datorer använde man sig uteslutande av enkla normalapproximationer).

Specialfallet '0 fel'. '0 fel' är ju ett specialfall men ändå lite annorlunda. För detta fall finns det en mycket praktisk tumregel (3/n, se mer nedan).
Ett konfidensintervall för utfallet '0 fel' börjar naturligtvis i 0 ty det kan ju vara så att felet inte existerar. Det svåra blir intervallets övre ände. Hur skall vi beräkna det?
Om vi inte har tillgång till en dator, kanske vi sitter vid ett möte och får siffrorna presenterade för oss, kan vi använda en mycket praktisk, väldigt enkel tumregel som ger övre ändan i ett 95%-igt konfidensintervall för den okända proportionen p:

Exempel A. Antag att fordonet kördes 50 gånger och vid inget tillfälle blev det någon felaktig inbromsning. Konfidensintervallets övre gräns blir då 3/50 = 0.06.
Det finns alltså 100 - 95 = 5% sannolikhet att få 0 fel trots att felprocenten kan vara 6%.
Verifiering: 'Antal felaktiga bland n' är en binomialfördelad variabel. Genom att med sliden i parameterfönstret ställa n till 50 och sedan flytta p-sliden så att sannolikheten för noll fel (den röda stapeln) blir 0.05. Värdet på p-sliden visar då 0.058 dvs mycket när det som tumregeln visar.

Exempel B. Antag att man planterat 70 plantor och alla klarade testet. Intervallets övre gräns blir då 3/70 = 0.043. Det finns alltså 100 - 95 = 5% sannolikhet att få 0 misslyckade planteringar även om felprocenten är 4.3%.
Verifiering: Om sliden för n flyttas till 50 och p-sliden så att sannolikheten för noll fel att bli 0.05. Värdet på p-sliden visar då 0.042 dvs mycket när det som tumregeln visar.

Exempel C. Tumregeln ger att en övre gräns blir då 3/150 = 0.02. Det finns alltså 100 - 95 = 5% sannolikhet att få 0 felaktiga produkter även om felprocenten är 2%.
Verifiering: Om sliden för n flyttas till 150 och p-sliden så att sannolikheten för noll fel att bli 0.05. Värdet på p-sliden visar då 0.0198 dvs mycket när det som tumregeln visar.

Härledning. Det är relativt lätt att förstå härledningen av tumregeln 3/n. Se http://www.indstat.se och knapp [Statistikhörnan] och artikel nr 7 '0 fel bland...'. Det går naturligtvis att hitta tumregel för t.ex. 99% konfidensintervall men då förlorar det sin enkelhet.

Kommentar. Exemple C visar ett av många sätt hur intervallberäkningen kan användas. Kunden kan t.ex. säga till leverantören att det hade behövts n = 198 (och 0 fel!) för att testresultatet skulle vara en bra indikation på att felkvoten är enligt specifikation.
(Placera p-sliden på 0.015 och flytta n-sliden så att den röda stapeln blir 5%.)

••••

(Tangentbordets pilar kan användas för att ändra sliderna)

Att dra slutsatser från data om den bakomliggande processen brukar kallas inferens. Beräkning av ett konfidensintervall tillhör detta område. Begreppet hypotestesting, hypotesprövning hänger också tätt ihop med detta förfarande.

En formell hypotestest ställer upp en hypotes om det sanna värdet på parametern (i denna övning är parametern p, 'felkvoten'). Analysen går då ut på att förkasta eller inte förkasta hypotesen.

Ett konfidensintervall är ett intervall som med en given konfidens täcker det sanna värdet på parametern ifråga. Ibland formuleras detta som att intervallet består av alla hypoteser som inte kan förkastas. Värden under undre gräns och över övre gräns är då alla hypotetiska värden som kan förkastas.

Formeln som presenteras här (3/n) är en förvånandsvärt bra skattning. Man brukar ange att n bör var större än 30. Den som har tillgång till ett datorprogram kan ju göra en jämförelse.

Visa/dölj binomialfördelningen: den teoretiska fördelningen kan döljas eller visas. Det kan också stängas med dialogrutans vanliga kryss.

Visa/dölj "Några exempel": rutan med några exempel kan döljas eller visas men kan också stängas med dialogrutans vanliga kryss.

Visa/dölj parametrar: dialogrutan med slider för parametervärden kan döljas eller visas men kan också stängas med dialogrutans vanliga kryss.

••••

Sliderna anger parametervärdena för beräkningen. En beräkning sker kontinuerligt då sliden flyttas.

Processens felkvot (p): Parametern p består ju av hela intervallet [0, 1] men är här begränsad till ett kortare intervall.

Sampelstorlek (n): Anger antal försök som genomförs. Här är 'försök' antal körningar med bilen, antal plantor och antal produkter.

••••

Binomialfördelningen

Binomialfördelningen är en diskret sannolikhetsfördelning som har två parametrar, n och p. Man brukar ange att om n*p*(1 - p) > 15 blir fördelningen ganska symmetrisk.
(Förr i tiden, före datorernas intåg, brukade man approximera med en normalfördelning. Vi låga p 'trycks' fördelningen mot 0 men vid (1 - p) 'trycks' fördelningen mot gränsvärdet n. (Detta motsvarar ungefär om man antecknar antal 'ej OK' eller antal 'OK'.)

Mer information om binomialfördelningen finns på

http://ovn.ing-stat.se/fordelningar/BinoSlid1.php
http://ovn.ing-stat.se/confbin/confbin3.php

••••