Antal besökande: 824
❌
Number 53: A collection of diagrams
(2024-08-26)
Do you want info of future exercises?
Send a mail to: info@ing-stat.se
Industriell statistik – övningar i statistik
med hjälp av simulering och animering
OBS att varje sida har ett antal 'info'-knappar som detaljerat beskriver textinnehåll, parametrar, o.d. Använd dessa för att förstå indata, utskrifter, m.m.
Info, referenser, m.m...
••••
Histogram är ett vanligt sätt att sammanfatta en datamängd. Sidan innehåller ett antal
övningar med simulerad data.
'Capability index' (Cpk) är ett vanligt sätt att sammanfatta och beskriva data från en
process.
Denna animering och simulering visar hur specifikationer och processens parametrar påverkar
Cpk-värdet (Capability index).
Linjära kombinationer (t.ex. en summa av olika mått) är vanliga inom statistisk
analys. Sidan har också exempel på ickelinjära kombinationer.
't-test' är en klassisk metod att jämföra skillnaden mellan två väntevärden (teoretiska
medelvärden, (μ)). MER...
Ofta anges data som en proportion ('felkvot', 'procentsats', etc). Det är då viktigt att också
redovisa ett s.k. konfidensintervall. Sidan innehåller ett antal övningar med simulerad data.
Initialt visas en Weibullfördelning men ett antal kontinuerliga och diskreta fördelningar
kan visas via en länk. För varje fördelning kan parametrarna ändras steglöst så att fördelningarnas form och
läge uppdateras.
The animation shows several distributions with common μ and σ. By two
slides these values can be changed and the corresponding functions visualised.
A simulation that shows some of the difficulties when comparing two proportions.
Här animeras en enkel OC-kurva som beskriver vissa egenskaper hos ett enkel stickprovsförfarande.
Här animeras den centrala gränsvärdessatsen som betyder att summor av variabler går mot normalfördelningen.
Skattning av processens sanna medelvärde (μ) är vanligt förekommande i statistiska analyser.
Sidan innhåller ett antal övningar och illustrationer.
Här simuleras och animeras flera grundläggande egenskaper hos ett konfidensintervall.
The animation shows how a confidence interval for p should be intepreted. Here p
('proportion', 'fault rate', etc) is the unknown parameter to be estimated from a dataset.
Regressisonsanalys är en kraftfull och effektiv metod och dessa övningar exemplifierar en
situation med en kontinuerliga variabel och en kategorisk variabel med fyra nivåer.
S.k. 'betingad sannolikhet' behandlas i de flesta läroböcker i statistik. Begreppet kan verka både
enkelt och tillkrånglat. Dessutom leder det lätt till en fördjupad teori över 'Bayes sats' och bayesiansk inferens.
Se litteraturen för ytterligare info.
I denna övning exemplifieras 'betingad sannolikhet' med mätningar på en kontinuerlig skala
och formulerar t.ex. 'givet att det sanna värdet är inom specifikationer', vad är sannolikheten att det uppmätta
värdet är inom specifikationer?'.
An animation that shows what happens when distributions are mixed.
An animation that shows what happens when distributions are mixed.
The concept of life length analysis is very large with a vast literature and many possibilities.
'Födelsedagsproblemet' är ett sannolikhetsproblem som ofta återfinns i läroböcker. Det är ganska enkelt (om det formuleras tydligt)
men svaret brukar överraska. (Problemet finns också illustrerat med ett Minitab-makro, %Birthday).
Egenskaperna hos en enkel kö beror på dess design och dess parametrar. Här består systemet av en kö (FIFO) och en betjänare.
Vid ett visst parameterförhållande visar den simulerade kön ganska stora och plötsliga förändringar i kölängd. (Se 'info'- och [Kommentarer]-knapparna.)
På en produkt finns det två toleranssatta normalfördelade variabler. Det finns dessutom ett femte krav. Hur kan man resonera om detta?
Vid framtagning av större IT-projekt finns det alltid en mängd anmärkningsrapporter. Dessutom finns det ett datum då projektet skall vara färdigt.
Vad är risken att det vid denna tidpunkt finns för många rapporter kvar?
I en elektronisk krets finns två resistorer. En obalans uppkommer då dessa är olika men hur beror detta på variation i resistansen?
Vad kan man säga om felkvoten då man hittat 0 felaktiga i stickprovet?
••••
••••
Antag att data är siffrorna 1, 2, ...N och att det finns ett stickprov. Hur kan man skatta N, seriens högsta värde? N är alltså okänt.
This routine simulates and animates a linear model for DoE. It also includes other aspects of DoE.
Summan av tiderna för ett antal operationer på en dag är naturligtvis intressant för ett sjukhus. Hur förändras den genomsnittliga
kostnaden för en operation då medeltid och variation ändras?
Praktiskt taget varje dag ser vi redovisningar av proportioner, inte minst i massmedier. Vanligaste måttet är 'procent' (även
om t.ex. TV ibland anger "...8 av 10 män lider av...". Det antyds dock sällan någon variation eller osäkerhet i redovisningen trots ett ändligt
underlag.
Denna simulering och animering visar hur stor variationen kan bli och hur den påverkas av t.ex. stickprovets storlek. Dessutom diskuteras
ett populärt index – NPS.
Redovisningar av data i form av procentsatser är ganska vanliga. Inte oväntat drar olika personer olika slutsatser, ibland på grund av
den så kallade Simpsons paradox. Här visas några olika tabeller och animeringar.
Ibland sätter man mål för kvalitetsförbättringar. Ofta glömmer man eller hoppar över det stöd som finns med en statistisk formulering och
vidhängande analys. Här formleras målet som en funktion mot vilken inkommande data plottas och analyseras.
Väldigt ofta används procent för att beskriva en förändring. I denna animering görs en jämförelse mellan ett nytt värde och processens
väntevärde (Poissonfördelningen används som modell.) Men är det alltid så klokt?
Vid beräkning av sampelvarians används 'n-1' i nämnaren och det brukar ge upphov till frågor. Det är lätt att inse att skillnaden mellan
'n-1' och 'n' snabbt försvinner då 'n' ökas men frågan kvarstår ändå. Detta diskuteras i denna animering och simulering.
Det finns många paradoxer och förvirrande diagram inom statistisk analys. Här redovisas ett exempel från boken Dicing with Death av
Stephen Senn. Data är antal olyckor på ett stort antal vägavsnitt under några år. Förklaring finns i 'regression fallacy'.
Denna animering har inget nytt om proportioner och motsvarande modell men innehåller ändå detaljer för ökad förståelse
av grundläggande egenskaper och kanske en metod för att illustrera dessa.
A simulation and animation of some processes described as Markov-chains. Such a process contains a number of
states between which items jump with certain probabilities.
Här simuleras en enkel diskret fördelning vars sannolikheter och X-värden anges i övningen.
Rutinen skapar också några olika diagram.
Begreppet 'sigma' dyker upp då man bearbetar eller redovisar numerisk data. Men vad betyder 'sigma'?
Hur kan man tolka ett sigma-värde? Hur beräknas sigma? Programmet utför simuleringar med givna parametervärden.
Här finns också samlat ett antal relevanta dokument.
'Shiny' är ett s.k. grafiskt gränssnitt för statistikprogrammet 'R'. Om man t.ex. vill göra regelbundna
analyser av data kan en 'Shiny'-applikation vara en möjlighet i stället för kodning direkt i 'R'.
Three steps describing the state a company or an organisation can be in while developing their skills in statistical analysis.
Variationen i felkvot beror inte bara på stickprovets storlek utan även kvotens värde. Om kvoten (oftast kallad p)
är 0.50 är variationen som högst, och därmed även osäkerheten i slutsatser.
(Detta har exemplifierats i omröstningar de senaste åren
där kvoten har varit nära 0.5. Utsagorna, har det visat sig, var ibland långt ifrån det slutgiltiga svaret efter omröstningen.)
Så kallade SPC-diagram är populära inom kvalitetsarbete och vid analys av data med en utpräglad tidsdomän.
Eftersom det är en graf inbjuder den till omedelbar tolkning men analysen kräver att förutsättningarna är uppfyllda. Denna övning
belyser några aspekter av detta.
Vid tillverkning av s.k. tryckta kretsar (Printed Circuit Board, PCB) uppstår ibland formförändringar vilket försvårar
flera produktionssteg men även efterföljande komponentplacering. Här sker analysen med s.k. regressionsanalys.
These examples show a number of different linear models together with 3D-graphs. The 'Extra'-example shows a fixed set of data with 2D- and
3D-graphs. The graphs illustrate the impossibility to detect even the simplest relation between variables without a thorough analysis.
Often there is the concept of interaction in a set of data. Such an interaction can cause confusion if not included
in the model. Here there is an interaction between a continuous X-variable and a factor of two levels. The models used can be of first or second degree
polynomial.
There are a number of popular datasets that show exactly the same calculated correlation coefficient between two variables.
However, a simple graphing of the data reveals different structures worth a deeper investigation. There is also a simulation illustrating
certain aspects of the concept of correlation coefficient.
Most statistical analyses contain one or several confidence intervals for some estimated parameter. Here confidence intervals
are calculated for a p-parameter, for example a fault rate. (See also [14] and [27]).
This animation and simulation illustrates different way of truncation of a normal distribution.
Illustrates the binomial distribution as well as a random walk.
Illustrates that a goal for time measurements must be set with care, not only the popular 'max X % more than Y days'.
The examples can be used as a source of information when creating graphs using the 'ggplot2'-package in R.
••••
För att köra alla detaljer i dessa övningar och simuleringar krävs ett antal dokument. Nedan finns en beskrivning av varje dokument och till vänster en länk.
Minitab-makron. Dessa filer (.mac) finns i en zip-fil och innehåller kommandon för Minitab och aktiveras
med %namn i Minitabs sessionsfönster. Några av makrona är speciella för dessa webbaserade övningar.
Makrona måste lagras
på den lokala hårddisken, se 'Installationsanvisning' för detaljer.
Installationsanvisning. Detta dokument innehåller anvisningar och råd om hur Minitab bör sättas upp. Observera att anvisningarna är allmänna och därför kan lokala variationer förekomma.
Orgdefs.reg. Denna profilfil beskrivs i anvisningarna ovan och används för att arrangera Minitabs olika fönster.
Observera att det går lätt att ändra till annan profil eller att ta bort en profil.
Notera att vid aktivering av profilen kommer några
kommentarer eller 'fel'. Dessa meddelande kan ignoreras (profilen är skriven för en äldre version av Minitab).
Ett t-test är en formell jämförelse mellan väntevärdena hos två normalfördelningar.
I den ’klassiska’ formuleringen skulle man antaga att variansen för de bägge
fördelningarna var lika.
Detta krav är inte längre nödvändigt men kräver
då långt större matematisk behandling som naturligtvis inte längre är ett hinder.
Det finns olika varianter på t-test, bl.a. ett s.k. ’paired t-test’. Se ’Övningar’
på sidan för ett exempel.
Man kan tycka att det vore enkelt att med t.ex. histogram hitta skillnad mellan
medelvärden, men även om skillnaden är så stor som en standardavvikelse, är den
ibland svår att hitta med bara histogram. Det krävs alltså ett mer formellt
förfarande, t.ex. ett ’t-test’.
••••