← Tilbake til statistikk

📖 Statistikk - Pensum

PB2030
Komplett oppsummering av alle emner

📋 Innholdsfortegnelse

1. 🎲 Sannsynlighetsteori

Grunnleggende Konsepter

Sannsynlighet er mål for hvor sannsynlig det er at en hendelse inntreffer. Den varierer fra 0 (umulig) til 1 (sikker).

✓ Grunnprinsipper:
  • Utfallsrom (S): Settet av alle mulige utfall
  • Hendelse (A): En delmengde av utfallsrommet
  • Klassisk sannsynlighet: P(A) = Antall gunstige utfall / Totalt antall mulige utfall
Grunnleggende formler:
P(A) = antall gunstige utfall / antall mulige utfall, hvor 0 ≤ P(A) ≤ 1

P(A∪B) = P(A) + P(B) - P(A∩B) [Addisjonsregelen]

P(A') = 1 - P(A) [Komplementregelen]

Uavhengige Hendelser

To hendelser er uavhengige hvis inntreffen av den ene ikke påvirker sannsynligheten for den andre.

Multiplikasjonsregel for uavhengige hendelser:
P(A∩B) = P(A) · P(B)
Eksempel:

Oppgave: Et terningkast. Hva er sannsynligheten for å få 6?

Løsning:
Utfallsrom: {1, 2, 3, 4, 5, 6} - 6 mulige utfall
Gunstige utfall: {6} - 1 gunstig utfall
P(6) = 1/6 ≈ 0.167 eller 16.7%

2. 🔗 Betinget Sannsynlighet

Betinget sannsynlighet er sannsynligheten for at hendelse A inntreffer gitt at B allerede har inntruffen.

Definisjon av betinget sannsynlighet:
P(A|B) = P(A∩B) / P(B), hvor P(B) ≠ 0

Bayes' Teorem

Et kraftig verktøy for å oppdatere sannsynligheter basert på ny informasjon.

Bayes' teorem:
P(A|B) = [P(B|A) · P(A)] / P(B)

Eller mer utvidet:
P(Ai|B) = [P(B|Ai) · P(Ai)] / [Σ P(B|Aj) · P(Aj)]
Eksempel - Sykdomtest:

Scenario: En sykdomtest har 95% følsomhet (P(+|syk)=0.95) og 98% spesifisitet (P(-|frisk)=0.98). Sykdommen rammer 1% av befolkningen (P(syk)=0.01).

Spørsmål: Hvis en person får positiv resultat, hva er sannsynligheten for at de faktisk er syke?

Løsning:
P(+|frisk) = 1 - P(-|frisk) = 1 - 0.98 = 0.02
P(frisk) = 1 - P(syk) = 1 - 0.01 = 0.99

P(syk|+) = [P(+|syk) · P(syk)] / [P(+|syk)·P(syk) + P(+|frisk)·P(frisk)]
= [0.95 · 0.01] / [0.95·0.01 + 0.02·0.99]
= 0.0095 / [0.0095 + 0.0198]
= 0.0095 / 0.0293
≈ 0.324 eller 32.4%

3. 📦 Sannsynlighetsfordelinger

Diskrete Fordelinger

A) Binomialfordeling

Brukes når vi har n uavhengige forsøk, hver med sannsynlighet p for suksess.

Binomialfordelingen:
P(X = k) = C(n,k) · p^k · (1-p)^(n-k)

Hvor: C(n,k) = n! / (k!(n-k)!)
E(X) = n·p
Var(X) = n·p·(1-p)

B) Poissonfordeling

Brukes for rare hendelser som inntreffer med konstant gjennomsnittshastighet i tid eller rom.

Poissonfordelingen:
P(X = k) = (e^(-λ) · λ^k) / k!

E(X) = λ
Var(X) = λ

Kontinuerlige Fordelinger

C) Uniformfordeling

Uniformfordeling U(a,b):
f(x) = 1/(b-a) for a ≤ x ≤ b

E(X) = (a+b)/2
Var(X) = (b-a)²/12

D) Eksponentfordeling

Modellerer tiden mellom Poisson-hendelser.

Eksponentfordelingen:
f(x) = λ·e^(-λx) for x ≥ 0

E(X) = 1/λ
Var(X) = 1/λ²

4. 📊 Normalfordelingen

Normalfordelingen er en av de viktigste fordelingene i statistikk. Den er symmetrisk, klokkeformet og definert av gjennomsnitt (μ) og standardavvik (σ).

✓ Egenskaper ved normalfordelingen:
  • Symmetrisk omkring gjennomsnittet
  • 68% av data ligger innenfor μ ± σ
  • 95% av data ligger innenfor μ ± 2σ
  • 99.7% av data ligger innenfor μ ± 3σ
Normalfordelingen N(μ, σ²):
f(x) = (1/(σ√(2π))) · e^(-(x-μ)²/(2σ²))

Standardisering (Z-score)

For å bruke standardiserte normalfordelingstabeller, konverterer vi verdier til Z-verdier.

Z-transformasjon:
Z = (X - μ) / σ

Hvor: Z ~ N(0,1) [standard normalfordeling]
Eksempel - Høydemålinger:

Gitt: Høyden på mannlige studenter er normalfordelt med μ = 180 cm og σ = 8 cm.

Spørsmål: Hva er sannsynligheten for at en tilfeldig student er høyere enn 190 cm?

Løsning:
Z = (190 - 180) / 8 = 10/8 = 1.25
P(X > 190) = P(Z > 1.25) = 1 - Φ(1.25) ≈ 1 - 0.8944 = 0.1056 eller 10.56%

5. 📈 Deskriptiv Statistikk

Sentralitets- og Spredningsmål

Gjennomsnitt (aritmetisk):
x̄ = (Σ xi) / n
Varians:
s² = Σ(xi - x̄)² / (n-1) [Utvalgsvariance]
Standardavvik:
s = √(s²)

Figur-Sammendrag

De fem viktigste verdiene som beskriver en datasett:

Mål Beskrivelse
Minimum Minste verdi i datasettet
Q1 (25. persentil) 25% av data ligger under denne verdien
Median (Q2) Midtpunktet - 50% ligger over og under
Q3 (75. persentil) 75% av data ligger under denne verdien
Maksimum Største verdi i datasettet
Eksempel - Eksamenresultater:

Data: 45, 52, 58, 62, 65, 68, 72, 75, 78, 82, 85, 88, 92, 95, 98

Beregninger:
x̄ = (45+52+...+98) / 15 = 1065 / 15 = 71
Median = 75 (8. verdi av 15)
Standardavvik s ≈ 17.4

6. 🔄 Utvalgsfordeling

Utvalgsfordelingen beskriver hvordan en estimator varierer når vi tar gjentatte utvalg fra populasjonen.

Utvalgsfordeling av Gjennomsnitt

Når vi tar gjentatte utvalg av størrelse n fra en populasjon:

✓ Sentralgrenseteoremet:
  • Utvalgsgjennomsnitt er normalfordelt (for store n)
  • E(X̄) = μ (gjennomsnitt av utvalgsgjennomsnitt = populasjonsjennomsnitt)
  • Var(X̄) = σ²/n (variansen minker med større utvalg)
  • SD(X̄) = σ/√n (standardfeilen)
Standardfeil:
SE = σ / √n

Eller estimert ved:
SE = s / √n

7. ✅ Hypotesetesting

Grunnleggende Konsepter

Hypotesetesting er en systematisk metode for å teste påstander om en populasjon basert på utvalgsdata.

✓ Hypotetestprosessen:
  • H0 (Nullhypotese): Påstanden vi ønsker å teste (ofte: ingen effekt)
  • H1 (Alternativhypotese): Det vi tror er sant (motsatt av H0)
  • Signifikansnivå (α): Maksimal sannsynlighet for Type I-feil (vanlig 0.05)
  • P-verdi: Sannsynligheten for å observere data som ekstrem eller mer ekstrem under H0

T-test for ett utvalg

Test om gjennomsnitt av en populasjon er lik en gitt verdi μ₀.

T-statistikk for ett utvalg:
t = (x̄ - μ₀) / (s/√n)

Frihetsgrader: df = n - 1
Sammenlign med kritisk t-verdi fra t-tabell

T-test for to utvalg (uavhengige)

T-statistikk for to uavhengige utvalg:
t = (x̄₁ - x̄₂) / √[(s₁²/n₁) + (s₂²/n₂)]

Frihetsgrader: df ≈ n₁ + n₂ - 2

Chi-kvadrat test (χ²)

Test for samhørighet mellom kategoriske variabler.

Chi-kvadrat statistikk:
χ² = Σ [(O - E)² / E]

Hvor: O = observert frekvens, E = forventet frekvens
df = (antall rader - 1) × (antall kolonner - 1)
Eksempel - T-test:

Scenario: Vi ønsker å teste om gjennomsnittshøyden av studenter er 175 cm.
Et utvalg på 25 studenter har gjennomsnitt x̄ = 178 cm og s = 10 cm.
α = 0.05

Hypoteser:
H0: μ = 175
H1: μ ≠ 175 (tosidig test)

Beregning:
t = (178 - 175) / (10/√25) = 3 / 2 = 1.5
df = 25 - 1 = 24
Kritisk t-verdi (tosidig, α=0.05) ≈ ±2.064
|1.5| < 2.064, så vi kan ikke forkaste H0

8. 📉 Regresjonsanalyse

Regresjonsanalyse undersøker forholdet mellom en avhengig variabel (Y) og en eller flere uavhengige variabler (X).

Enkel Lineær Regresjon

Modellerer lineært forhold mellom to variabler.

Regresjonsmodell:
Y = a + b·X + e

Hvor: a = intercept, b = stigningstall, e = feilledd
Estimering av koeffisienter:
b = Σ[(xi - x̄)(yi - ȳ)] / Σ[(xi - x̄)²]

a = ȳ - b·x̄

Korrelasjon

Korrelasjon måler styrken og retningen av det lineære forholdet.

Pearsons korrelasjonskoeffisient:
r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

-1 ≤ r ≤ 1
r² = koeffisient for bestemmelse (R²)
✓ Tolking av korrelasjon:
  • r ≈ ±1: Sterk lineær korrelasjon
  • r ≈ 0: Svak eller ingen lineær korrelasjon
  • r > 0: Positiv korrelasjon (begge øker sammen)
  • r < 0: Negativ korrelasjon (en øker mens den andre minker)
  • R² = andelen varians i Y som forklares av X
Eksempel - Regresjon:

Data: Sammenheng mellom studietimer (X) og eksamenresultat (Y)

Studietimer (X)Resultat (Y)
245
352
568
882
1088

Løsning:
x̄ = (2+3+5+8+10)/5 = 5.6
ȳ = (45+52+68+82+88)/5 = 67
b ≈ 5.1 (for hver ekstra time studier, øker resultatet med ca 5.1 poeng)
a ≈ 38.4
Regresjonsmodell: Ŷ = 38.4 + 5.1·X