Sannsynlighet er mål for hvor sannsynlig det er at en hendelse inntreffer. Den varierer fra 0 (umulig) til 1 (sikker).
To hendelser er uavhengige hvis inntreffen av den ene ikke påvirker sannsynligheten for den andre.
Oppgave: Et terningkast. Hva er sannsynligheten for å få 6?
Løsning:
Utfallsrom: {1, 2, 3, 4, 5, 6} - 6 mulige utfall
Gunstige utfall: {6} - 1 gunstig utfall
P(6) = 1/6 ≈ 0.167 eller 16.7%
Betinget sannsynlighet er sannsynligheten for at hendelse A inntreffer gitt at B allerede har inntruffen.
Et kraftig verktøy for å oppdatere sannsynligheter basert på ny informasjon.
Scenario: En sykdomtest har 95% følsomhet (P(+|syk)=0.95) og 98% spesifisitet (P(-|frisk)=0.98). Sykdommen rammer 1% av befolkningen (P(syk)=0.01).
Spørsmål: Hvis en person får positiv resultat, hva er sannsynligheten for at de faktisk er syke?
Løsning:
P(+|frisk) = 1 - P(-|frisk) = 1 - 0.98 = 0.02
P(frisk) = 1 - P(syk) = 1 - 0.01 = 0.99
P(syk|+) = [P(+|syk) · P(syk)] / [P(+|syk)·P(syk) + P(+|frisk)·P(frisk)]
= [0.95 · 0.01] / [0.95·0.01 + 0.02·0.99]
= 0.0095 / [0.0095 + 0.0198]
= 0.0095 / 0.0293
≈ 0.324 eller 32.4%
Brukes når vi har n uavhengige forsøk, hver med sannsynlighet p for suksess.
Brukes for rare hendelser som inntreffer med konstant gjennomsnittshastighet i tid eller rom.
Modellerer tiden mellom Poisson-hendelser.
Normalfordelingen er en av de viktigste fordelingene i statistikk. Den er symmetrisk, klokkeformet og definert av gjennomsnitt (μ) og standardavvik (σ).
For å bruke standardiserte normalfordelingstabeller, konverterer vi verdier til Z-verdier.
Gitt: Høyden på mannlige studenter er normalfordelt med μ = 180 cm og σ = 8 cm.
Spørsmål: Hva er sannsynligheten for at en tilfeldig student er høyere enn 190 cm?
Løsning:
Z = (190 - 180) / 8 = 10/8 = 1.25
P(X > 190) = P(Z > 1.25) = 1 - Φ(1.25) ≈ 1 - 0.8944 = 0.1056 eller 10.56%
De fem viktigste verdiene som beskriver en datasett:
| Mål | Beskrivelse |
|---|---|
| Minimum | Minste verdi i datasettet |
| Q1 (25. persentil) | 25% av data ligger under denne verdien |
| Median (Q2) | Midtpunktet - 50% ligger over og under |
| Q3 (75. persentil) | 75% av data ligger under denne verdien |
| Maksimum | Største verdi i datasettet |
Data: 45, 52, 58, 62, 65, 68, 72, 75, 78, 82, 85, 88, 92, 95, 98
Beregninger:
x̄ = (45+52+...+98) / 15 = 1065 / 15 = 71
Median = 75 (8. verdi av 15)
Standardavvik s ≈ 17.4
Utvalgsfordelingen beskriver hvordan en estimator varierer når vi tar gjentatte utvalg fra populasjonen.
Når vi tar gjentatte utvalg av størrelse n fra en populasjon:
Hypotesetesting er en systematisk metode for å teste påstander om en populasjon basert på utvalgsdata.
Test om gjennomsnitt av en populasjon er lik en gitt verdi μ₀.
Test for samhørighet mellom kategoriske variabler.
Scenario: Vi ønsker å teste om gjennomsnittshøyden av studenter er 175 cm.
Et utvalg på 25 studenter har gjennomsnitt x̄ = 178 cm og s = 10 cm.
α = 0.05
Hypoteser:
H0: μ = 175
H1: μ ≠ 175 (tosidig test)
Beregning:
t = (178 - 175) / (10/√25) = 3 / 2 = 1.5
df = 25 - 1 = 24
Kritisk t-verdi (tosidig, α=0.05) ≈ ±2.064
|1.5| < 2.064, så vi kan ikke forkaste H0
Regresjonsanalyse undersøker forholdet mellom en avhengig variabel (Y) og en eller flere uavhengige variabler (X).
Modellerer lineært forhold mellom to variabler.
Korrelasjon måler styrken og retningen av det lineære forholdet.
Data: Sammenheng mellom studietimer (X) og eksamenresultat (Y)
| Studietimer (X) | Resultat (Y) |
|---|---|
| 2 | 45 |
| 3 | 52 |
| 5 | 68 |
| 8 | 82 |
| 10 | 88 |
Løsning:
x̄ = (2+3+5+8+10)/5 = 5.6
ȳ = (45+52+68+82+88)/5 = 67
b ≈ 5.1 (for hver ekstra time studier, øker resultatet med ca 5.1 poeng)
a ≈ 38.4
Regresjonsmodell: Ŷ = 38.4 + 5.1·X