MET 1190 · BI

Studieguide for MET 1190 Statistikk

Komplett pensumoversikt for statistikk ved BI — med forklaringer, sentrale begreper, eksamenstips og vanlige fallgruver. Eksamensoptimalisert basert på tidligere eksamener.

Introduksjon

MET 1190 Statistikk er et grunnleggende statistikkemne ved BI som dekker alt fra deskriptiv statistikk til regresjonsanalyse, med vekt på praktisk bruk av programvaren R. Eksamen består typisk av 4-5 oppgaver med ulik vekt, der Oppgave 1 alltid er flervalgsoppgaver om R-kode (10-15 %), og de resterende oppgavene krever fullstendige utregninger med begrunnelse.

Kurset bygger opp fra beskrivende statistikk (gjennomsnitt, varians, median) via sannsynlighetsregning og fordelinger (binomisk, normal) til statistisk inferens (konfidensintervall, hypotesetesting) og enkel linear regresjon. Sentralgrenseteoremet og estimatorteori knytter disse temaene sammen og gir det teoretiske grunnlaget for inferensmetodene.

Viktig: Eksamen gir vedlegg med alle formler og statistiske tabeller. Du trenger ikke pugge formlene, men du må forstå når du bruker hvilken formel og tolke resultatene korrekt. Korrekt matematisk notasjon og tydelige forklaringer er avgjørende for full uttelling.

Deskriptiv statistikk

Hyppig på eksamen

Sentralmal (gjennomsnitt, median) og spredningsmal (varians, standardavvik) for å beskrive og oppsummere datasett. Grunnlaget for all videre statistisk analyse.

Oversikt

Deskriptiv statistikk handler om å oppsummere et datasett med noen få nøgletal. Vi skiller mellom sentralmål (hvor ligger dataene?) og spredningsmål (hvor spredt er de?). Disse målene er byggesteinene for alt annet i statistikken.

Sentralmål

Gjennomsnitt (aritmetisk middel) er summen av alle verdier delt på antall observasjoner:

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$

Gjennomsnittet er sensitivt for ekstremverdier (uteliggere). En enkelt veldig høy eller lav verdi kan trekke gjennomsnittet kraftig i sin retning.

Median er den midterste verdien når dataene er sortert i stigende rekkefølge:

$\tilde{x} = \begin{cases} x_{(n+1)/2} & \text{hvis } n \text{ er oddetall} \\ \frac{x_{n/2} + x_{n/2+1}}{2} & \text{hvis } n \text{ er partall} \end{cases}$

Medianen er robust mot uteliggere og gir ofte et bedre bilde av "typisk verdi" i skjeve fordelinger.

Spredningsmål

Utvalgsvarians måler gjennomsnittlig kvadratisk avvik fra gjennomsnittet. Vi deler på $n-1$ (ikke $n$ ) for å få en forventningsrett estimator:

$s_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

Utvalgets standardavvik er kvadratroten av variansen og har samme måleenhet som dataene:

$s_X = \sqrt{s_X^2}$

Intuisjon: Hvorfor $n-1$ ?

Vi deler på $n-1$ i stedet for $n$ fordi vi bruker $\bar{x}$ (som selv er estimert fra dataene) i stedet for den sanne populasjonsforventningen $\mu$ . Dette koster oss en "frihetsgrad". Hadde vi kjent $\mu$ , ville vi delt på $n$ . Denne korreksjonen (Bessels korreksjon) sikrer at $E(S_X^2) = \sigma^2$ , dvs. at utvalgsvariansen er en forventningsrett estimator for populasjonsvariansen.

Eksempel 1: Beregn gjennomsnitt og varians

Oppgave: Et utvalg av $n = 24$ leveringstider (i timer) ga: $\sum x_i = 168{,}00$ og $\sum(x_i - \bar{x})^2 = 92{,}00$ . Beregn gjennomsnitt og standardavvik.

Løsning:

$\bar{x} = \frac{168{,}00}{24} = 7{,}00 \text{ timer}$

$s_X^2 = \frac{92{,}00}{24 - 1} = \frac{92{,}00}{23} = 4{,}000$

$s_X = \sqrt{4{,}000} = 2{,}00 \text{ timer}$

Eksempel 2: Median av sortert datasett

Oppgave: Gitt den sorterte datasekvensen: $2, 5, 7, 9, 11, 14, 18, 22$ ( $n = 8$ , partall). Finn medianen.

Løsning: Siden $n = 8$ er partall, er medianen gjennomsnittet av observasjon nr. $n/2 = 4$ og $n/2 + 1 = 5$ :

$\tilde{x} = \frac{x_4 + x_5}{2} = \frac{9 + 11}{2} = 10$

I R: median(c(2, 5, 7, 9, 11, 14, 18, 22)) eller manuell formel (x[n/2] + x[(n/2)+1])/2.

Eksempel 3: Beregne ventetidsstatistikk

Oppgave: En kundeservice målte ventetiden (i sekunder) for $n = 40$ kunder. Oppsummeringsdata: $\sum x_i = 1\,920{,}00$ , $\sum(x_i - \bar{x})^2 = 6\,084{,}00$ . Beregn gjennomsnitt og standardavvik.

Løsning:

$\bar{x} = \frac{1\,920{,}00}{40} = 48{,}00 \text{ sekunder}$

$s_X^2 = \frac{6\,084{,}00}{39} = 156{,}00$

$s_X = \sqrt{156{,}00} \approx 12{,}49 \text{ sekunder}$

Nøkkelformler

•$ $\displaystyle \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ $ (Gjennomsnitt)
•$ $\displaystyle s_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ $ (Utvalgsvarians)
•$ $s_X = \sqrt{s_X^2}$ $ (Utvalgets standardavvik)
•$ $\displaystyle s_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ $ (Kovarians)
•$ $\displaystyle r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}$ $ (Korrelasjon)

Vanlige feil

⚠️Dele på n i stedet for n-1 i utvalgsvariansen. Husk: sd(x) i R bruker n-1.
⚠️Blande varians (kvadrerte enheter) og standardavvik (same enhet som data).
⚠️Glemme a sortere dataene for beregning av median.
⚠️Forveksle utvalgsstatistikk (bar{x}, s) med populasjonsparametre (mu, sigma).

Eksamenstips

💡R-funksjoner: mean(x), median(x), var(x) (gir s^2 med n-1), sd(x) (gir s med n-1).
💡Når oppgaven gir summer direkte (sum x_i, sum (x_i - xbar)^2), bruk dem rett i formlene.
💡Kommenter alltid hva tallene betyr i kontekst (f.eks. 'gjennomsnittstemperaturen er 7.4 timer').

Laster...

Laster…

Introduksjon

Studieguide for MET 1190 Statistikk

Introduksjon

Deskriptiv statistikk

Oversikt

Sentralmål

Spredningsmål

Intuisjon: Hvorfor n−1n-1n−1?

Eksempel 1: Beregn gjennomsnitt og varians

Eksempel 2: Median av sortert datasett

Eksempel 3: Beregne ventetidsstatistikk

Studieguide for MET 1190 Statistikk

Introduksjon

Deskriptiv statistikk

Oversikt

Sentralmål

Spredningsmål

Intuisjon: Hvorfor n−1n-1n−1?

Eksempel 1: Beregn gjennomsnitt og varians

Eksempel 2: Median av sortert datasett

Eksempel 3: Beregne ventetidsstatistikk

Intuisjon: Hvorfor $n-1$ ?

Intuisjon: Hvorfor $n-1$ ?