PB2030 Pensum - Statistikk

1. 🎲 Sannsynlighetsteori

Grunnleggende Konsepter

Sannsynlighet er mål for hvor sannsynlig det er at en hendelse inntreffer. Den varierer fra 0 (umulig) til 1 (sikker).

✓ Grunnprinsipper:

Utfallsrom (S): Settet av alle mulige utfall
Hendelse (A): En delmengde av utfallsrommet
Klassisk sannsynlighet: P(A) = Antall gunstige utfall / Totalt antall mulige utfall

Grunnleggende formler:

P(A) = antall gunstige utfall / antall mulige utfall, hvor 0 ≤ P(A) ≤ 1

P(A∪B) = P(A) + P(B) - P(A∩B) [Addisjonsregelen]

P(A') = 1 - P(A) [Komplementregelen]

Uavhengige Hendelser

To hendelser er uavhengige hvis inntreffen av den ene ikke påvirker sannsynligheten for den andre.

Multiplikasjonsregel for uavhengige hendelser:

P(A∩B) = P(A) · P(B)

Eksempel:

Oppgave: Et terningkast. Hva er sannsynligheten for å få 6?

Løsning:
Utfallsrom: {1, 2, 3, 4, 5, 6} - 6 mulige utfall
Gunstige utfall: {6} - 1 gunstig utfall
P(6) = 1/6 ≈ 0.167 eller 16.7%

2. 🔗 Betinget Sannsynlighet

Betinget sannsynlighet er sannsynligheten for at hendelse A inntreffer gitt at B allerede har inntruffen.

Definisjon av betinget sannsynlighet:

P(A|B) = P(A∩B) / P(B), hvor P(B) ≠ 0

Bayes' Teorem

Et kraftig verktøy for å oppdatere sannsynligheter basert på ny informasjon.

Bayes' teorem:

P(A|B) = [P(B|A) · P(A)] / P(B)

Eller mer utvidet:
P(Ai|B) = [P(B|Ai) · P(Ai)] / [Σ P(B|Aj) · P(Aj)]

Eksempel - Sykdomtest:

Scenario: En sykdomtest har 95% følsomhet (P(+|syk)=0.95) og 98% spesifisitet (P(-|frisk)=0.98). Sykdommen rammer 1% av befolkningen (P(syk)=0.01).

Spørsmål: Hvis en person får positiv resultat, hva er sannsynligheten for at de faktisk er syke?

3. 📦 Sannsynlighetsfordelinger

Diskrete Fordelinger

A) Binomialfordeling

Brukes når vi har n uavhengige forsøk, hver med sannsynlighet p for suksess.

Binomialfordelingen:

P(X = k) = C(n,k) · p^k · (1-p)^(n-k)

Hvor: C(n,k) = n! / (k!(n-k)!)
E(X) = n·p
Var(X) = n·p·(1-p)

B) Poissonfordeling

Brukes for rare hendelser som inntreffer med konstant gjennomsnittshastighet i tid eller rom.

Poissonfordelingen:

P(X = k) = (e^(-λ) · λ^k) / k!

E(X) = λ
Var(X) = λ

Kontinuerlige Fordelinger

C) Uniformfordeling

Uniformfordeling U(a,b):

f(x) = 1/(b-a) for a ≤ x ≤ b

E(X) = (a+b)/2
Var(X) = (b-a)²/12

D) Eksponentfordeling

Modellerer tiden mellom Poisson-hendelser.

Eksponentfordelingen:

f(x) = λ·e^(-λx) for x ≥ 0

E(X) = 1/λ
Var(X) = 1/λ²

4. 📊 Normalfordelingen

Normalfordelingen er en av de viktigste fordelingene i statistikk. Den er symmetrisk, klokkeformet og definert av gjennomsnitt (μ) og standardavvik (σ).

✓ Egenskaper ved normalfordelingen:

Symmetrisk omkring gjennomsnittet
68% av data ligger innenfor μ ± σ
95% av data ligger innenfor μ ± 2σ
99.7% av data ligger innenfor μ ± 3σ

Normalfordelingen N(μ, σ²):

f(x) = (1/(σ√(2π))) · e^(-(x-μ)²/(2σ²))

Standardisering (Z-score)

For å bruke standardiserte normalfordelingstabeller, konverterer vi verdier til Z-verdier.

Z-transformasjon:

Z = (X - μ) / σ

Hvor: Z ~ N(0,1) [standard normalfordeling]

Eksempel - Høydemålinger:

Gitt: Høyden på mannlige studenter er normalfordelt med μ = 180 cm og σ = 8 cm.

Spørsmål: Hva er sannsynligheten for at en tilfeldig student er høyere enn 190 cm?

Løsning:
Z = (190 - 180) / 8 = 10/8 = 1.25
P(X > 190) = P(Z > 1.25) = 1 - Φ(1.25) ≈ 1 - 0.8944 = 0.1056 eller 10.56%

5. 📈 Deskriptiv Statistikk

Sentralitets- og Spredningsmål

Gjennomsnitt (aritmetisk):

x̄ = (Σ xi) / n

Varians:

s² = Σ(xi - x̄)² / (n-1) [Utvalgsvariance]

Standardavvik:

s = √(s²)

Figur-Sammendrag

De fem viktigste verdiene som beskriver en datasett:

Mål	Beskrivelse
Minimum	Minste verdi i datasettet
Q1 (25. persentil)	25% av data ligger under denne verdien
Median (Q2)	Midtpunktet - 50% ligger over og under
Q3 (75. persentil)	75% av data ligger under denne verdien
Maksimum	Største verdi i datasettet

Eksempel - Eksamenresultater:

Data: 45, 52, 58, 62, 65, 68, 72, 75, 78, 82, 85, 88, 92, 95, 98

Beregninger:
x̄ = (45+52+...+98) / 15 = 1065 / 15 = 71
Median = 75 (8. verdi av 15)
Standardavvik s ≈ 17.4

6. 🔄 Utvalgsfordeling

Utvalgsfordelingen beskriver hvordan en estimator varierer når vi tar gjentatte utvalg fra populasjonen.

Utvalgsfordeling av Gjennomsnitt

Når vi tar gjentatte utvalg av størrelse n fra en populasjon:

✓ Sentralgrenseteoremet:

Utvalgsgjennomsnitt er normalfordelt (for store n)
E(X̄) = μ (gjennomsnitt av utvalgsgjennomsnitt = populasjonsjennomsnitt)
Var(X̄) = σ²/n (variansen minker med større utvalg)
SD(X̄) = σ/√n (standardfeilen)

Standardfeil:

SE = σ / √n

Eller estimert ved:
SE = s / √n

7. ✅ Hypotesetesting

Grunnleggende Konsepter

Hypotesetesting er en systematisk metode for å teste påstander om en populasjon basert på utvalgsdata.

✓ Hypotetestprosessen:

H0 (Nullhypotese): Påstanden vi ønsker å teste (ofte: ingen effekt)
H1 (Alternativhypotese): Det vi tror er sant (motsatt av H0)
Signifikansnivå (α): Maksimal sannsynlighet for Type I-feil (vanlig 0.05)
P-verdi: Sannsynligheten for å observere data som ekstrem eller mer ekstrem under H0

T-test for ett utvalg

Test om gjennomsnitt av en populasjon er lik en gitt verdi μ₀.

T-statistikk for ett utvalg:

t = (x̄ - μ₀) / (s/√n)

Frihetsgrader: df = n - 1
Sammenlign med kritisk t-verdi fra t-tabell

T-test for to utvalg (uavhengige)

T-statistikk for to uavhengige utvalg:

t = (x̄₁ - x̄₂) / √[(s₁²/n₁) + (s₂²/n₂)]

Frihetsgrader: df ≈ n₁ + n₂ - 2

Chi-kvadrat test (χ²)

Test for samhørighet mellom kategoriske variabler.

Chi-kvadrat statistikk:

χ² = Σ [(O - E)² / E]

Hvor: O = observert frekvens, E = forventet frekvens
df = (antall rader - 1) × (antall kolonner - 1)

Eksempel - T-test:

Scenario: Vi ønsker å teste om gjennomsnittshøyden av studenter er 175 cm.
Et utvalg på 25 studenter har gjennomsnitt x̄ = 178 cm og s = 10 cm.
α = 0.05

Hypoteser:
H0: μ = 175
H1: μ ≠ 175 (tosidig test)

Beregning:
t = (178 - 175) / (10/√25) = 3 / 2 = 1.5
df = 25 - 1 = 24
Kritisk t-verdi (tosidig, α=0.05) ≈ ±2.064
|1.5| < 2.064, så vi kan ikke forkaste H0

8. 📉 Regresjonsanalyse

Regresjonsanalyse undersøker forholdet mellom en avhengig variabel (Y) og en eller flere uavhengige variabler (X).

Enkel Lineær Regresjon

Modellerer lineært forhold mellom to variabler.

Regresjonsmodell:

Y = a + b·X + e

Hvor: a = intercept, b = stigningstall, e = feilledd

Estimering av koeffisienter:

b = Σ[(xi - x̄)(yi - ȳ)] / Σ[(xi - x̄)²]

a = ȳ - b·x̄

Korrelasjon

Korrelasjon måler styrken og retningen av det lineære forholdet.

Pearsons korrelasjonskoeffisient:

r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

-1 ≤ r ≤ 1
r² = koeffisient for bestemmelse (R²)

✓ Tolking av korrelasjon:

r ≈ ±1: Sterk lineær korrelasjon
r ≈ 0: Svak eller ingen lineær korrelasjon
r > 0: Positiv korrelasjon (begge øker sammen)
r < 0: Negativ korrelasjon (en øker mens den andre minker)
R² = andelen varians i Y som forklares av X

Eksempel - Regresjon:

Data: Sammenheng mellom studietimer (X) og eksamenresultat (Y)

Studietimer (X)	Resultat (Y)
2	45
3	52
5	68
8	82
10	88

Løsning:
x̄ = (2+3+5+8+10)/5 = 5.6
ȳ = (45+52+68+82+88)/5 = 67
b ≈ 5.1 (for hver ekstra time studier, øker resultatet med ca 5.1 poeng)
a ≈ 38.4
Regresjonsmodell: Ŷ = 38.4 + 5.1·X

📖 Statistikk - Pensum

📋 Innholdsfortegnelse

1. 🎲 Sannsynlighetsteori

Grunnleggende Konsepter

Uavhengige Hendelser

2. 🔗 Betinget Sannsynlighet

Bayes' Teorem

3. 📦 Sannsynlighetsfordelinger

Diskrete Fordelinger

A) Binomialfordeling

B) Poissonfordeling

Kontinuerlige Fordelinger

C) Uniformfordeling

D) Eksponentfordeling

4. 📊 Normalfordelingen

Standardisering (Z-score)

5. 📈 Deskriptiv Statistikk

Sentralitets- og Spredningsmål

Figur-Sammendrag

6. 🔄 Utvalgsfordeling

Utvalgsfordeling av Gjennomsnitt

7. ✅ Hypotesetesting

Grunnleggende Konsepter

T-test for ett utvalg

T-test for to utvalg (uavhengige)

Chi-kvadrat test (χ²)

8. 📉 Regresjonsanalyse

Enkel Lineær Regresjon

Korrelasjon