Bakgrund
Jag är volontär i en grundskola och hjälper till med matematiklektionerna. Just nu lär sig 7:e klass om statistik och om att läsa, rita och tolka olika typer av diagram. Matteläraren undrade om jag hade något eller några histogram som kunde kunde användas i undervisningen. Sportsidorna på en större dagstidning brukar på våren låta läsarna gissa vem som gör säsongens första mål och samtidigt publicerades resultatet från de 67 senaste säsongerna. Data bestod av minuter och sekunder till första mål. Dessa data kan ju passa för att illustrera ett histogram och består ju av en känd variabel (tid) och en relativt känd kontext (fotboll).
Nedan finns data och en analys och det visar sig att en Weibullfördelning passar data perfekt. (Redovisningen för eleverna innehöll dock bara histogrammet och med ett inritat medelvärde; inget om anpassning av en sannolkhetsfördelning.)
Frågor. Det finns naturligtvis många frågor och hypoteser man kan
ha då man studerar tider (inga extra frågor behandlas dock
här):
• Finns det en skillnad mellan
herrallsvenskan och damallsvenskan?
• Förändras
‘målintensiteten’ över åren? Olika anfallsstrategier?
• Etc.
Info om anpassning av Weibull: https://ovn.ing-stat.se/Rgraphs/weibullness.pdf
library(ggplot2)
library(weibullness)
##
## weibullness Package is installed.
library(ggplot2)
library(MASS)
Följande graf kallas ibland för ‘probability plot’ och om punkterna ansluter till den räta röda linjen kan man anta att resultatet följer en Weibull-fördelning. Då kan också fördelningens två parametrar (shape och scale) skattas (används för att senare rita ut fördelningen på histogrammet).
(Observera att Y-skalan är annorlunda längst ned till vänster så punkter tycks (felaktigt) ha stora avvikelser. Detta gäller generellt då man gör ett sannolikhetsdiagram på detta sätt eftersom skalan är omräknad för att ge en rät linje.)
# --------- Visar inläsning av data från TXT-fil. Nedan anges dock data här i texten.
# forstamal <- read.table("~/Desktop/Statistik R/forstamal.txt", quote="\"", comment.char="")
# forstamal[3] <- forstamal$V1 + forstamal$V2/60
# data <- forstamal$V3
data <- c(0.417, 0.433, 0.567, 0.933, 1.200, 1.267, 1.267, 1.433, 1.467, 1.467, 1.767, 2.467, 2.517, 2.517, 2.683, 3.250, 3.333, 3.567, 3.583, 3.583, 3.667, 3.850, 4.050, 4.083, 4.117, 4.283, 4.383, 4.417, 4.800, 4.917, 5.233, 5.650, 5.700, 5.700, 5.883, 6.133, 6.783, 6.883, 7.267, 7.450, 7.817, 7.833, 7.867, 8.417, 8.550, 9.283, 9.433, 9.600, 9.967, 10.150, 10.383, 10.583, 11.050, 11.267, 11.383, 11.450, 12.933, 13.150, 14.167, 14.583, 15.350, 17.633, 17.967, 19.450, 20.917, 21.533, 32.533)
forstamal <- data.frame(data)
wp.plot(data, main="Tid till säsongens första mål", col.line = "red", xlab = "Minuter", lty.line = 1, pch = 19)
arg <- fitdistr(data, "weibull")
shape <-arg$estimate[1] # Estimerade parametrar.
scale <-arg$estimate[2]
medel <- mean(data)
hist <- ggplot(data.frame(forstamal), aes(x = data)) + geom_histogram(bins=12, color='black', alpha = 0.5,
boundary = 0, fill = "yellow", position = 'identity', aes(y = after_stat(density)))
hist <- hist + geom_function(fun=dweibull, linewidth=1.5, color='blue', args=list(shape, scale))
hist <- hist + labs(x = "Minuter till allsvenskans första mål", y = " ")
hist <- hist + theme(legend.position="none")
hist <- hist + theme(axis.text.x = element_text(size = 15), axis.text.y = element_text(size = 15),
axis.title.x = element_text(size = 15), axis.title.y = element_text(size = 15))
hist <- hist + geom_point(x = medel, y = 0, shape = 17, colour = "red", size = 5.5)
hist <- hist + annotate("text", x = -Inf, y = Inf, label="Tid till säsongens första mål", vjust = 2.8,
hjust = -0.80, size = 6, colour = "blue" )
hist <- hist + annotate("text", x = -Inf, y = Inf, label=" i herrallsvenskan (67 säsonger)", vjust = 4.5,
hjust = -0.75, size = 6, colour = "blue" )
hist
Kommentar till grafen. Grafen visar ett histogram och med motsvarande Weibull-diagram (blå linje). Statistisk analys innebär ofta att försöka anpassa en lämplig modell till data. En modell av processen ger processutvecklare och kvalitetsmänniskor möjligheter att bättre förstå situationen. (I många situationer är kanske modellantagandet inte uttalat eller utskrivet - då man diskuterar t.ex. felkvoter finns alltid binomialfördelningen som grund).