Number 50: 'Truncation of a normal distribution'

(2024-04-22)

Industriell statistik – övningar i statistik
med hjälp av simulering och animering

OBS att varje sida har ett antal 'info'-knappar som detaljerat beskriver textinnehåll, parametrar, o.d. Använd dessa för att förstå indata, utskrifter, m.m.

Info, referenser, m.m...

••••


1. Histogram – övningar

Histogram är ett vanligt sätt att sammanfatta en datamängd. Sidan innehåller ett antal övningar med simulerad data.

2. Cpk – övningar

'Capability index' (Cpk) är ett vanligt sätt att sammanfatta och beskriva data från en process.

3. Specifikationer, my, sigma och Cpk-triangeln

Denna animering och simulering visar hur specifikationer och processens parametrar påverkar Cpk-värdet (Capability index).

4. Linjära och icke-linjära kombinationer

Linjära kombinationer (t.ex. en summa av olika mått) är vanliga inom statistisk analys. Sidan har också exempel på ickelinjära kombinationer.

5. t-test av skillnad mellan två processer

't-test' är en klassisk metod att jämföra skillnaden mellan två väntevärden (teoretiska medelvärden, (μ)). MER...

6. Proportion – övningar

Ofta anges data som en proportion ('felkvot', 'procentsats', etc). Det är då viktigt att också redovisa ett s.k. konfidensintervall. Sidan innehåller ett antal övningar med simulerad data.

7. Ett antal fördelningar

Initialt visas en Weibullfördelning men ett antal kontinuerliga och diskreta fördelningar kan visas via en länk. För varje fördelning kan parametrarna ändras steglöst så att fördelningarnas form och läge uppdateras.

8. Several distributions with common μ and σ (ENG)

The animation shows several distributions with common μ and σ. By two slides these values can be changed and the corresponding functions visualised.

9. Comparing two proportions (ENG)

A simulation that shows some of the difficulties when comparing two proportions.

10. Animering av en enkel OC-kurva

Här animeras en enkel OC-kurva som beskriver vissa egenskaper hos ett enkel stickprovsförfarande.

11. Animering av den s.k. Centrala gränsvärdessatsen

Här animeras den centrala gränsvärdessatsen som betyder att summor av variabler går mot normalfördelningen.

12. Konfidensintervall för medelvärdet (I)

Skattning av processens sanna medelvärde (μ) är vanligt förekommande i statistiska analyser. Sidan innhåller ett antal övningar och illustrationer.

13. Konfidensintervall för medelvärdet (II)

Här simuleras och animeras flera grundläggande egenskaper hos ett konfidensintervall.

14. Confidence interval for p (ENG)

The animation shows how a confidence interval for p should be intepreted. Here p ('proportion', 'fault rate', etc) is the unknown parameter to be estimated from a dataset.

15. Regressionsanalys – övningar

Regressisonsanalys är en kraftfull och effektiv metod och dessa övningar exemplifierar en situation med en kontinuerliga variabel och en kategorisk variabel med fyra nivåer.

16. Betingad sannolikhet – del I

S.k. 'betingad sannolikhet' behandlas i de flesta läroböcker i statistik. Begreppet kan verka både enkelt och tillkrånglat. Dessutom leder det lätt till en fördjupad teori över 'Bayes sats' och bayesiansk inferens. Se litteraturen för ytterligare info.

17. Betingad sannolikhet – del II

I denna övning exemplifieras 'betingad sannolikhet' med mätningar på en kontinuerlig skala och formulerar t.ex. 'givet att det sanna värdet är inom specifikationer', vad är sannolikheten att det uppmätta värdet är inom specifikationer?'.

18. Mixture of normal distributions (ENG)

An animation that shows what happens when distributions are mixed.

19. Power and sample size (ENG)

An animation that illustrates the idea with power and sample size.

20. Mixture of Poisson distributions (ENG)

An animation that shows what happens when distributions are mixed.

21. Life length analysis – some basic features (ENG)

The concept of life length analysis is very large with a vast literature and many possibilities.

22. Födelsedagsproblemet – mer än du tror

'Födelsedagsproblemet' är ett sannolikhetsproblem som ofta återfinns i läroböcker. Det är ganska enkelt (om det formuleras tydligt) men svaret brukar överraska. (Problemet finns också illustrerat med ett Minitab-makro, %Birthday).

23. En enkel kö – inte alltid så enkelt

Egenskaperna hos en enkel kö beror på dess design och dess parametrar. Här består systemet av en kö (FIFO) och en betjänare. Vid ett visst parameterförhållande visar den simulerade kön ganska stora och plötsliga förändringar i kölängd. (Se 'info'- och [Kommentarer]-knapparna.)

24. Två variabler – fem krav

På en produkt finns det två toleranssatta normalfördelade variabler. Det finns dessutom ett femte krav. Hur kan man resonera om detta?

25. Kvarvarande rapporter

Vid framtagning av större IT-projekt finns det alltid en mängd anmärkningsrapporter. Dessutom finns det ett datum då projektet skall vara färdigt. Vad är risken att det vid denna tidpunkt finns för många rapporter kvar?


••••

••••

26. Simulering av obalans i en elektronisk krets

I en elektronisk krets finns två resistorer. En obalans uppkommer då dessa är olika men hur beror detta på variation i resistansen?

27. Noll felaktiga bland n försök – en tumregel

Vad kan man säga om felkvoten då man hittat 0 felaktiga i stickprovet?

28. Hur stort är N – två olika beräkningssätt

Antag att data är siffrorna 1, 2, ...N och att det finns ett stickprov. Hur kan man skatta N, seriens högsta värde? N är alltså okänt.

29. Design of Experiments (DoE) — some basic features (ENG)

This routine simulates and animates a linear model for DoE. It also includes other aspects of DoE.

30. Operationstider — en simulering

Summan av tiderna för ett antal operationer på en dag är naturligtvis intressant för ett sjukhus. Hur förändras den genomsnittliga kostnaden för en operation då medeltid och variation ändras?

31. Variation hos proportioner

Praktiskt taget varje dag ser vi redovisningar av proportioner, inte minst i massmedier. Vanligaste måttet är 'procent' (även om t.ex. TV ibland anger "...8 av 10 män lider av...". Det antyds dock sällan någon variation eller osäkerhet i redovisningen trots ett ändligt underlag.
Denna simulering och animering visar hur stor variationen kan bli och hur den påverkas av t.ex. stickprovets storlek. Dessutom diskuteras ett populärt index – NPS.

32. Simpsons paradox

Redovisningar av data i form av procentsatser är ganska vanliga. Inte oväntat drar olika personer olika slutsatser, ibland på grund av den så kallade Simpsons paradox. Här visas några olika tabeller och animeringar.

33. Kvalitetsförbättring

Ibland sätter man mål för kvalitetsförbättringar. Ofta glömmer man eller hoppar över det stöd som finns med en statistisk formulering och vidhängande analys. Här formleras målet som en funktion mot vilken inkommande data plottas och analyseras.

34. "10% mer än..."

Väldigt ofta används procent för att beskriva en förändring. I denna animering görs en jämförelse mellan ett nytt värde och processens väntevärde (Poissonfördelningen används som modell.) Men är det alltid så klokt?

35. Varför 'n-1' i nämnaren?

Vid beräkning av sampelvarians används 'n-1' i nämnaren och det brukar ge upphov till frågor. Det är lätt att inse att skillnaden mellan 'n-1' och 'n' snabbt försvinner då 'n' ökas men frågan kvarstår ändå. Detta diskuteras i denna animering och simulering.

36. Förvirrande tolkning — 'regression fallacy'

Det finns många paradoxer och förvirrande diagram inom statistisk analys. Här redovisas ett exempel från boken Dicing with Death av Stephen Senn. Data är antal olyckor på ett stort antal vägavsnitt under några år. Förklaring finns i 'regression fallacy'.

37. Mer om proportioner

Denna animering har inget nytt om proportioner och motsvarande modell men innehåller ändå detaljer för ökad förståelse av grundläggande egenskaper och kanske en metod för att illustrera dessa.

38. Simulation and animation of some Markov-chains (ENG)

A simulation and animation of some processes described as Markov-chains. Such a process contains a number of states between which items jump with certain probabilities.

39. Simulering av en diskret fördelning

Här simuleras en enkel diskret fördelning vars sannolikheter och X-värden anges i övningen. Rutinen skapar också några olika diagram.

40. "Vad är sigma?"   (film)

Begreppet 'sigma' dyker upp då man bearbetar eller redovisar numerisk data. Men vad betyder 'sigma'? Hur kan man tolka ett sigma-värde? Hur beräknas sigma? Programmet utför simuleringar med givna parametervärden. Här finns också samlat ett antal relevanta dokument.

41 a-g. Ett antal 'Shiny'-exempel

'Shiny' är ett s.k. grafiskt gränssnitt för statistikprogrammet 'R'. Om man t.ex. vill göra regelbundna analyser av data kan en 'Shiny'-applikation vara en möjlighet i stället för kodning direkt i 'R'.

42. A 3-step maturity model (ENG)

Three steps describing the state a company or an organisation can be in while developing their skills in statistical analysis.

43. Variation i felkvot

Variationen i felkvot beror inte bara på stickprovets storlek utan även kvotens värde. Om kvoten (oftast kallad p) är 0.50 är variationen som högst, och därmed även osäkerheten i slutsatser.
(Detta har exemplifierats i omröstningar de senaste åren där kvoten har varit nära 0.5. Utsagorna, har det visat sig, var ibland långt ifrån det slutgiltiga svaret efter omröstningen.)

44. Felaktigt SPC-diagram

Så kallade SPC-diagram är populära inom kvalitetsarbete och vid analys av data med en utpräglad tidsdomän. Eftersom det är en graf inbjuder den till omedelbar tolkning men analysen kräver att förutsättningarna är uppfyllda. Denna övning belyser några aspekter av detta.

45. Analys av formförändringar

Vid tillverkning av s.k. tryckta kretsar (Printed Circuit Board, PCB) uppstår ibland formförändringar vilket försvårar flera produktionssteg men även efterföljande komponentplacering. Här sker analysen med s.k. regressionsanalys.

46. Interaction between variables – 3D-graphs (ENG)

These examples show a number of different linear models together with 3D-graphs. The 'Extra'-example shows a fixed set of data with 2D- and 3D-graphs. The graphs illustrate the impossibility to detect even the simplest relation between variables without a thorough analysis.

47. Interaction between variables (ENG)

Often there is the concept of interaction in a set of data. Such an interaction can cause confusion if not included in the model. Here there is an interaction between a continuous X-variable and a factor of two levels. The models used can be of first or second degree polynomial.

48. A simpel regression and the correlation coefficient (ENG)

There are a number of popular datasets that show exactly the same calculated correlation coefficient between two variables. However, a simple graphing of the data reveals different structures worth a deeper investigation. There is also a simulation illustrating certain aspects of the concept of correlation coefficient.

49. Confidence intervals for p (ENG)

Most statistical analyses contain one or several confidence intervals for some estimated parameter. Here confidence intervals are calculated for a p-parameter, for example a fault rate. (See also [14] and [27]).

50. Truncated normal distribution (ENG)

This animation and simulation illustrates different way of truncation of a normal distribution.


••••

För att köra alla detaljer i dessa övningar och simuleringar krävs ett antal dokument. Nedan finns en beskrivning av varje dokument och till vänster en länk.

Minitab-makron. Dessa filer (.mac) finns i en zip-fil och innehåller kommandon för Minitab och aktiveras med %namn i Minitabs sessionsfönster. Några av makrona är speciella för dessa webbaserade övningar.
Makrona måste lagras på den lokala hårddisken, se 'Installationsanvisning' för detaljer.

Installationsanvisning. Detta dokument innehåller anvisningar och råd om hur Minitab bör sättas upp. Observera att anvisningarna är allmänna och därför kan lokala variationer förekomma.

Orgdefs.reg. Denna profilfil beskrivs i anvisningarna ovan och används för att arrangera Minitabs olika fönster. Observera att det går lätt att ändra till annan profil eller att ta bort en profil.
Notera att vid aktivering av profilen kommer några kommentarer eller 'fel'. Dessa meddelande kan ignoreras (profilen är skriven för en äldre version av Minitab).




Ett t-test är en formell jämförelse mellan väntevärdena hos två normalfördelningar. I den ’klassiska’ formuleringen skulle man antaga att variansen för de bägge fördelningarna var lika.

Detta krav är inte längre nödvändigt men kräver då långt större matematisk behandling som naturligtvis inte längre är ett hinder. Det finns olika varianter på t-test, bl.a. ett s.k. ’paired t-test’. Se ’Övningar’ på sidan för ett exempel.

Man kan tycka att det vore enkelt att med t.ex. histogram hitta skillnad mellan medelvärden, men även om skillnaden är så stor som en standardavvikelse, är den ibland svår att hitta med bara histogram. Det krävs alltså ett mer formellt förfarande, t.ex. ett ’t-test’.


••••