STV1020

Cheat Sheet

Formler, begreper og oppsummering

Politisk analyse 2: Forskningsdesign og kvantitative metoder

eksamenssett.no

Nøkkelformler per tema

Vitenskapsteori og forskningsprosessen

•Falsifiserbarhet (Popper): en påstand er vitenskapelig bare hvis den i prinsippet kan motbevises av observasjoner
•Deduktiv metode: teori → hypotese → datainnsamling → test
•Induktiv metode: observasjoner → mønstre → teori
•Hypotetisk-deduktiv metode: den dominerende strategien i kvantitativ statsvitenskap
•Intersubjektivitet: andre forskere skal kunne etterprøve resultatene

Forskningsdesign

•Avhengig variabel (Y): det vi forsøker å forklare
•Uavhengig variabel (X): den forklarende faktoren
•Kontrollvariabel (Z): holdes konstant for å isolere X→Y-effekten
•Ekstensivt design: stort N, statistisk generalisering
•Intensivt design: lite N, kontekstuell dybde
•Tverrsnitt: mange enheter, ett tidspunkt; paneldata: mange enheter, mange tidspunkter

Kausalitet og kausale slutninger

•Mills tre betingelser for kausalitet: kovariasjon + tidsrekkefølge + eliminering av alternativer

Vanlige feil å unngå

Vitenskapsteori og forskningsprosessen

•Forveksler normative påstander («demokrati er bra») med empiriske hypoteser – bare empiriske påstander er testbare
•Tror at én bekreftet observasjon beviser en hypotese – bekreftelse styrker teorien, men falsifisering er prinsipielt viktigere
•Blander deduktiv og induktiv tilnærming – kvantitative studier i STV1020 er primært deduktive
•Oppfatter positivisme og post-positivisme som ytterpunkter uten middelposisjon – de fleste kvantitative statsvitere er post-positivister

Forskningsdesign

•Forveksler analyseenhet med observasjonsenhet – enheten er hva vi trekker slutninger om, ikke nødvendigvis hva vi samler data fra
•Antar at ekstensivt design alltid er bedre – valget avhenger av problemstillingen
•Glemmer å spesifisere tidsdesign (tverrsnitt vs. panel) – dette er viktig for kausal inferens
•Blander kontrollvariabel med konfunderende variabel – kontrollvariabler er inkludert i analysen; konfunderende variabler er de vi ikke har kontrollert for

Kausalitet og kausale slutninger

•Likestiller korrelasjon med kausalitet – kovariasjon er nødvendig, men ikke tilstrekkelig for kausal slutning
•Glemmer tidsrekkefølge-betingelsen – X må komme før Y for at X kan forårsake Y

Eksamenstips

Vitenskapsteori og forskningsprosessen

•Flervalgsoppgaver tester gjerne om du kan skille mellom testbare og ikke-testbare hypoteser – øv på å identifisere falsifiserbare påstander
•Vit hva som skiller deduktiv og induktiv forskning, og at kvantitative studier typisk er deduktive
•Poppers falsifiserbarhetsprinsipp er et klassisk flervalgs-tema
•Forskningsprosessens trinn er pensum-grunnlag – kjenn rekkefølgen og hva hvert trinn innebærer

Forskningsdesign

•Å identifisere populasjon, enhet(er) og variabler er nesten alltid det første spørsmålet i Del 2 (3–4p) – tren på å gjøre dette raskt og presist for en gitt hypotese
•Skillet mellom uavhengig, avhengig og kontrollvariabel testes både i Del 1 (flervalg) og Del 2 – vær trygg på rollene og hvilken vei pilen går
•Kjenn forskjellen mellom tverrsnitt, tidsserie og panel – og hvilke trusler mot validitet som er spesifikke for hvert design
•Intern vs. ekstern validitet er et klassisk tema; ekstern validitet kobles ofte til representativt utvalg og generalisering, intern validitet til utelatte variabler
•Vit at ekstensivt (kvantitativt) design er fokus i STV1020, i motsetning til STV1010 som fokuserer på intensivt (kvalitativt) design

Kausalitet og kausale slutninger

•Del 2 ber svært ofte om K&W's fire kausalitetskriterier (typisk 8p) – kunn dem ordrett og bruk dem som sjekkliste når du skal vurdere om en konkret sammenheng er kausal

Spuriøs sammenheng: X og Y korrelerer pga. bakenforliggende Z, ikke pga. X→Y

•Kontrafaktisk logikk: hva ville Y vært om X ikke hadde inntruffet, alt annet likt?

•Det fundamentale kausalitetsproblemet: vi kan ikke observere samme enhet i begge tilstander

•RCT: tilfeldig tildeling av behandling eliminerer konfundering i gjennomsnitt

•Omvendt kausalitet: Y kan forårsake X, ikke bare omvendt

Målenivåer og operasjonalisering

•Nominalt: kategorier, ingen rangorden – kun modus og frekvenser
•Ordinalt: rangorden, men ulike intervaller – median er meningsfull
•Intervall: like intervaller, intet naturlig null – gjennomsnitt og sd tillatt
•Forholdstall (ratio): naturlig null – alle operasjoner tillatt
•Reliabilitet: konsistens og reproduserbarhet av måling
•Validitet: måler vi det vi faktisk ønsker å måle?

Datainnsamling og utvalg

•Populasjon: alle enheter vi ønsker å generalisere til
•Utvalg: den delmengden vi faktisk observerer
•Standardfeil for gjennomsnittet: $SE = s / \sqrt{n}$
•Standardfeil for en proporsjon: $SE(\hat{p}) = \sqrt{\hat{p}(1-\hat{p})/n}$
•Stratifisert utvalg: reduserer standardfeil når strata er homogene
•Utvalgsbias: systematisk skjevhet – lar seg ikke rettes ved å øke N
•Sannsynlighetsutvalg: nødvendig for gyldig statistisk inferens

Deskriptiv statistikk

•Gjennomsnitt: $\displaystyle \bar{x} = \frac{1}{n}\sum x_i$
•Varians: $\displaystyle s^2 = \frac{1}{n-1}\sum(x_i - \bar{x})^2$
•Standardavvik: $s = \sqrt{s^2}$
•Range: $x_{\max} - x_{\min}$
•IQR: $Q_3 - Q_1$ (robust spredningsmål)
•Normalfordeling: 68 % innen $\pm 1\sigma$ , 95 % innen $\pm 2\sigma$

Bivariat analyse

•Pearsons r: $\displaystyle r = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{(n-1)s_x s_y}$
•r-skala: –1 til +1; 0 = ingen lineær sammenheng
•Spearmans rho: rangordensbasert korrelasjon – brukes for ordinale data
•Gamma: $\gamma = (P-Q)/(P+Q)$ for to ordinale variabler i krysstabell
•Kjikvadrat (χ²) tester sammenheng i krysstabell; Fi og Cramérs V er normerte mål bygd på χ² for nominale data
•Valg av mål styres av laveste målenivå: kontinuerlig→Pearson, ordinal→Spearman/gamma, nominal→χ²/Cramérs V
•Krysstabeller: les kolonneprosenter og sammenlign på tvers av kategorier
•Scatter-plot: X på horisontal akse, Y på vertikal – visuell sjekk av linearitet og outliers

Enkel (bivariat) regresjonsanalyse

•Regresjonsmodell: $Y_i = \alpha + \beta X_i + \varepsilon_i$
•OLS stigningstall: $\displaystyle \hat{\beta} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$
•OLS konstantledd: $\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}$
•R²: $1 - SSR/SST$ – andel forklart varians; for bivariat regresjon: $R^2 = r^2$
•Residual: $\hat{\varepsilon}_i = y_i - \hat{y}_i$ (observert minus predikert)
•OLS-forutsetninger: linearitet, normalfordelte og uavhengige residualer, homoskedastisitet, E(feilledd)=0
•Residualhistogram → normalitet; residual mot X → heteroskedastisitet
•Brudd på normalitet/homoskedastisitet → gale standardfeil → upålitelige t-tester

Multivariat regresjonsanalyse

•Multivariat modell: $Y_i = \alpha + \beta_1 X_{1i} + \cdots + \beta_K X_{Ki} + \varepsilon_i$
•Partialkoeffisient $\hat{\beta}_j$ : effekt av $X_j$ på Y, holdt alle andre X konstant
•Dummyvariabler: lag k−1 dummyer for k kategorier; utelatt kategori = referansekategori
•Samspill: betinget effekt av $X_1$ er $b_1 + b_3 X_2$ (modell med $b_3 X_1 X_2$ )
•Standardiserte koeffisienter (β): effekt i antall standardavvik – sammenligner relativ styrke
•Justert R²: $\displaystyle \bar{R}^2 = 1-(1-R^2)\frac{n-1}{n-K-1}$ – straffer for antall variabler
•Omitted variable bias: utelatt konfunderer Z gir skjevt estimat for $\hat{\beta}_X$
•VIF > 10: problematisk multikolinearitet

Statistisk inferens og hypotesetesting

•Standardfeil for gjennomsnitt: $SE = s/\sqrt{n}$
•95 % konfidensintervall: $\hat{\theta} \pm 1{,}96 \cdot SE$ (stor N)
•T-statistikk: $t = \hat{\beta}/SE_{\hat{\beta}}$ (og dermed $SE = \hat{\beta}/t$ )
•Frihetsgrader i regresjon: $df = N - k - 1$ (k = antall uavhengige variabler)
•Beslutningsregel: forkast $H_0$ hvis $|t_{obs}| > t_{krit}$ , eller hvis $p < \alpha$
•P-verdi: $P(|T| \geq |t_{obs}| \mid H_0 \text{ sann})$
•Type I-feil: forkaster sann $H_0$ (sannsynlighet = $\alpha$ )
•Type II-feil: beholder usann $H_0$ (sannsynlighet = $\beta$ ); styrke = $1-\beta$

Datavisualisering

•Histogram: kontinuerlig variabel → fordeling (søyler uten mellomrom)
•Stolpediagram: kategorisk variabel → frekvenser (søyler med mellomrom)
•Boxplot: median + IQR + whiskers (1,5×IQR) + outliers
•Scatter-plot: to kontinuerlige variabler → sammenheng og linearitet
•Linjediagram: tidsseriedata

R som statistikkverktøy

•Innlesing: read.csv() / read_csv()
•Deskriptiv: mean(), median(), sd(), var(), table()
•Korrelasjon: cor(x, y) (Pearson) / cor(x, y, method="spearman")
•Regresjon: lm(Y ~ X1 + X2, data=df) → summary(modell)
•Subsetting: data[betingelse, ] eller subset(data, betingelse)
•Visualisering: hist(), boxplot(), plot() / ggplot() + geom_*()

Tror at statistisk kontroll løser alle konfunderingsproblemer – vi kan bare kontrollere for observerte variabler

•Forveksler spuriøs sammenheng med mediering – en mediator M ligger på den kausale stien X→M→Y og er ikke spuriøs

•Husker bare Mills tre betingelser når oppgaven eksplisitt ber om Kellstedt og Whittens fire kriterier – inkluder mekanisme, ingen omvendt kausalitet, kovariasjon og ingen bakenforliggende Z

•Tegner stimodellen med variablene i feil tidsrekkefølge eller med flere piler mellom samme variabelpar – sensor vekter rekkefølge fra venstre til høyre og én pil per par

Målenivåer og operasjonalisering

•Behandler ordinale variabler som intervallvariabler – dette er vanlig i praksis men metodisk omstridt; vær bevisst på antagelsen
•Forveksler reliabilitet og validitet – reliabilitet er nødvendig, men ikke tilstrekkelig for validitet
•Glemmer at målenivået begrenser hvilke statistiske metoder som er tillatt – man kan ikke beregne et meningsfullt gjennomsnitt av partivalg
•Tror at høyt antall svaralternativer automatisk gir intervallnivå – antallet kategorier endrer ikke det underliggende målenivået

Datainnsamling og utvalg

•Forveksler utvalgsfeil (tilfeldig) med utvalgsbias (systematisk) – økt N hjelper bare mot tilfeldig feil
•Antar at et stort utvalg er representativt – størrelse kompenserer ikke for systematisk skjevhet i rekruttering
•Tror at kvoteutvalg er et sannsynlighetsutvalg – det er ikke-tilfeldig og gir ikke gyldig statistisk inferens
•Glemmer at klyngeutvalg gir høyere standardfeil enn enkelt tilfeldig utvalg av samme størrelse

Deskriptiv statistikk

•Bruker gjennomsnittet ukritisk ved skjeve fordelinger – ved outliers er medianen et bedre sentraltendensmål
•Glemmer at varians er kvadrert og dermed har en annen enhet enn variabelen – bruk standardavvik for tolkning
•Beregner varians med N i nevneren (populasjonsvarians) istedenfor N−1 (utvalgets varians) – i STV1020 brukes alltid N−1
•Tror at modus alltid er den beste representanten for data – modus er nyttig for nominale variabler, ikke for kontinuerlige

Bivariat analyse

•Konkluderer kausalitet fra korrelasjon – r = 0,6 betyr ikke at X forårsaker Y
•Bruker Pearsons r på ordinale variabler uten å vurdere Spearmans rho
•Leser radprosenter istedenfor kolonneprosenter i krysstabeller – konvensjonen er å ha den uavhengige variabelen i kolonner og lese kolonneprosenter
•Glemmer å sjekke scatter-plot for kurvilinearitet – r kan være lav selv om det er en sterk kurvilineær sammenheng

Enkel (bivariat) regresjonsanalyse

•Tolker konstantleddet som en substantiell verdi når X = 0 ikke er realistisk – konstantleddet er et matematisk ankerpunkt, ikke alltid meningsfullt
•Forveksler stigningstall med korrelasjon – r måler styrke, β måler endring i Y-enheter per X-enhet
•Glemmer enhetene i tolkningen av β – «øker med 4,1» er meningsløst uten enhetene (f.eks. prosentpoeng)
•Konkluderer årsakssammenheng fra OLS – OLS gir prediksjon og assosiasjon, ikke automatisk kausal identifikasjon

Multivariat regresjonsanalyse

•Tolker partialkoeffisienter uten «holdt konstant»-forbeholdet – dette er avgjørende for korrekt tolkning
•Inkluderer like mange dummyer som kategorier i stedet for k−1 – det gir perfekt multikolinearitet (dummy-fellen)
•Tolker hovedeffekten $b_1$ i en samspillsmodell som en uavhengig effekt – den gjelder kun når den andre variabelen er 0
•Glemmer å legge til samspillsleddet når man regner ut betinget effekt for gruppen med dummy = 1
•Bruker vanlig R² til å sammenligne modeller med ulikt antall variabler – bruk justert R²
•Tror at alle konfundere er kontrollert fordi man har inkludert mange variabler – uobserverte konfundere gjenstår

Statistisk inferens og hypotesetesting

•Tolker p-verdien som sannsynligheten for at $H_0$ er sann – p-verdien er betinget på $H_0$ , ikke en sannsynlighet for $H_0$ i seg selv
•Konkluderer praktisk signifikans fra statistisk signifikans – en liten effekt kan være statistisk signifikant med stor N
•Forveksler konfidensintervallet med sannsynligheten for at parameteren er i intervallet – det er intervallet som er tilfeldig, ikke parameteren
•Glemmer tosidig vs. ensidig test – dersom vi har en retningshypotese brukes ensidig test (halverer p-verdien)

Datavisualisering

•Forveksler histogram og stolpediagram – histogram brukes for kontinuerlige variabler, stolpediagram for kategoriske
•Kutter y-aksen uten god grunn – dette kan villede leseren om størrelsen på effekter
•Bruker sektordiagram (kakediagram) for mange kategorier – stolpediagram er nesten alltid bedre
•Overser scatter-plot i favor av bare korrelasjonsmålet – scatter-plot avslører kurvilinearitet og outliers som r ikke fanger

R som statistikkverktøy

•Glemmer nå.rm=TRUE i funksjoner som mean() og sd() – manglende verdier (NA) gir NA som resultat uten dette argumentet
•Forveksler data $variabel med bare variabel – uten data$ -prefiks vil R ikke finne variabelen (med mindre du bruker attach(), som ikke anbefales)
•Bruker = istedenfor <- for tildeling – begge fungerer, men <- er R-konvensjonen
•Glemmer å lagre lm()-modellen i et objekt – summary(lm(...)) kjøres direkte, men da kan man ikke bruke confint() etc. etterpå

•Å tegne en kausalmodell/stimodell er en gjenganger i Del 2 (ofte 3–8p) – øv på å plassere bakenforliggende variabel lengst til venstre og begrunne pilene ut fra tid

•Dekomponering (direkte/indirekte/spuriøs effekt) og forskjellen fra simultan regresjon er testet flere ganger – vit at simultan regresjon kun gir den direkte effekten

•Begrepene mettet/umettet og rekursiv/ikke-rekursiv modell, samt bakenforliggende vs. mellomliggende variabel, dukker opp i Del 1 (flervalg) – ha presise definisjoner klare

•Eksperimenter vs. observasjonsstudier, randomisering og det fundamentale kausalitetsproblemet er typisk eksamensstoff

Målenivåer og operasjonalisering

•«Hva er målenivået? Begrunn ved å vise til egenskapene» er et fast Del 2-spørsmål (3–6p) – husk å begrunne med rangering, lik avstand og naturlig nullpunkt, ikke bare oppgi nivået
•Forholdstall vs. intervall avgjøres av om det finnes et naturlig nullpunkt – svarer du intervall der ratio er riktig (eller omvendt) får du som regel delvis uttelling
•Validitet og reliabilitet bes ofte forklart med egne ord (typisk 3–4p), gjerne med K&W's tre validitetstyper (umiddelbar/face, innholds-/content, begreps-/construct) – ha en kort definisjon klar for hver
•Husk at omkoding (gruppering, dummy) senker målenivået – dette er et konkret eksamenspoeng
•Skillet mellom reliabilitet og validitet testes også i Del 1 – husk at reliabel + ugyldig er mulig, men lav reliabilitet gir alltid lav validitet

Datainnsamling og utvalg

•«Hvilken utvalgsteknikk bør du bruke? Begrunn» er et fast Del 2-spørsmål (3p) – kjernepoenget i begrunnelsen er at sannsynlighetsutvelging gir kjent uttrekkssannsynlighet, som kreves for å beregne standardfeil og generalisere
•Kjenn de fire sannsynlighetsutvalgene (enkelt tilfeldig, stratifisert, klynge, systematisk) og hvorfor kvote-/bekvemmelighetsutvalg ikke gir gyldig inferens – også skillet proporsjonalt vs. disproporsjonalt stratifisert
•Strukturert vs. ustrukturert intervju (fordeler/ulemper) er et tilbakevendende Del 2-tema i oppfølgende kvalitative deler – knytt strukturert til reliabilitet og ustrukturert til fleksibilitet/dybde
•Formelen $SE = s/\sqrt{n}$ og standardfeil for en proporsjon ( $SE(\hat{p}) = \sqrt{\hat{p}(1-\hat{p})/n}$ ) er begge brukt i Del 2-utregninger – kjenn dem
•Skillet mellom utvalgsfeil (tilfeldig, krymper med N) og utvalgsbias (systematisk, krymper ikke med N) testes både i Del 1 og Del 2

Deskriptiv statistikk

•Del 2 ber jevnlig om å finne median, modus og variasjonsbredde fra en frekvenstabell eller et histogram – øv på å bruke kumulativ frekvens for medianen og vis fremgangsmåten
•Betinget/relativ frekvens og gjennomsnitt for en delgruppe (f.eks. «de som skåret over X») er konkrete utregningsoppgaver – les nøyaktig hvilke observasjoner som skal med
•Vær trygg på formler for gjennomsnitt, varians (N−1) og standardavvik – de kan komme både som utregning og som flervalg
•Vit når gjennomsnitt vs. median er mest hensiktsmessig – skjev fordeling/outliers → median
•Normalfordelingen og ±1σ/±2σ-regelen er pensum-grunnlag og brukes når du vurderer residualfordelinger i regresjon

Bivariat analyse

•«Hvilket sammenhengsmål og hvilken hypotesetest passer? Begrunn» er et fast Del 2-spørsmål (2–3p) – begrunnelsen MÅ vise til målenivåene til X og Y
•Pearsons r er hyppig eksamensstoff – kjenn formelen, tolkning av fortegn og størrelse, og at den krever to kontinuerlige variabler testet med t-test
•Gamma, kjikvadrat/Fi/Cramérs V og Spearmans rho dukker opp i Del 1 (flervalg) og i eldre eksamener – kjenn hvilket målenivå hvert mål forutsetter
•Et scatter-plot kan presenteres med spørsmål om retning og styrke – øv på å tolke grafer og se etter kurvilinearitet/outliers som r ikke fanger
•Krysstabeller: vit at man leser kolonneprosenter og sammenligner på tvers av kategorier

Enkel (bivariat) regresjonsanalyse

•«Skriv opp regresjonsligningen på generell form» er et fast Del 2-spørsmål (ofte 6p) – husk konstantledd, alle koeffisienter med variabler OG residualleddet $e_i$ for full uttelling
•Tolkning av konstantledd og stigningstall fra en tabell/R-output er kjernepensum – gi alltid både teknisk og substansiell tolkning, med enheter og hva referansegruppen er
•Å regne ut en predikert verdi ved innsetting er en sikker poenggiver – ta med konstantleddet, vis utregningen, og pass på 0/1-koding av dummyer (delpoeng for riktig fremgangsmåte)
•R²-tolkning er klassisk: «X-ene forklarer Y % av variasjonen i avhengig variabel» – kjenn også at $R^2 = r^2$ i bivariat regresjon
•Formlene for $\hat{\beta}$ og $\hat{\alpha}$ og sammenhengen $\hat{\beta} = r\cdot s_y/s_x$ kan komme – men tolkning vektes tyngre enn reproduksjon
•Å vurdere en OLS-forutsetning ut fra et residualplott (histogram→normalitet, residual mot X→heteroskedastisitet) og oppgi KONSEKVENSEN for signifikanstestene er et fast Del 2-spørsmål (4–6p)
•Kunn K&W's gruppering av OLS-antagelser (feilledd, modellspesifikasjon, estimeringskrav) – ha minst ett punkt fra hver gruppe klart

Multivariat regresjonsanalyse

•Å håndtere en kategorisk variabel med dummyer (k−1, referansekategori, ny tolkning av konstantleddet) er en av de mest gjentatte Del 2-oppgavene (ofte 8p) – øv på å forklare hvert trinn OG skrive ligningen
•Samspill/interaksjon testes nesten hver eksamen: regn ut betinget effekt ( $b_1+b_3$ ) og tolk hva en signifikant samspillskoeffisient betyr
•Å forklare hvorfor en koeffisient endrer seg (størrelse/signifikans) når kontrollvariabler legges til, er et fast Del 2-grep – knytt det til indirekte effekt/mekanisme eller spuriøsitet
•Standardiserte koeffisienter (β) brukes til å sammenligne relativ styrke mellom variabler i ulike enheter – et tilbakevendende tolkningsspørsmål
•Forklar gjerne hvorfor N faller mellom modeller (listwise deletion av manglende verdier) – dette spørres direkte om
•Omitted variable bias og partialkoeffisient-tolkning («holdt konstant») er kjernepensum i både Del 1 og Del 2

Statistisk inferens og hypotesetesting

•Å gjennomføre en t-test for hånd med t-tabell (df = N−k−1 → kritisk verdi → observert t = b/SE → konklusjon) er et fast Del 2-spørsmål (5p) – vis ALLE trinnene, sensor gir delpoeng per trinn
•Kunne regne SE fra b og t ( $SE = b/t$ ) og motsatt – små men sikre poeng i Del 2
•Beslutning via p-verdi: forkast $H_0$ hvis p < signifikansnivået – pass på riktig nivå (1 %, 5 %, 10 %)
•Tolkning av p-verdier og t-statistikker fra en tabell/R-output er kjernepensum – øv på både teknisk og substansiell tolkning
•Konfidensintervaller: hvis KI ikke inneholder 0, er koeffisienten signifikant – hyppig tema i Del 1
•Type I-/type II-feil og skillet statistisk vs. praktisk/substansiell signifikans (en liten effekt kan bli signifikant ved stor N) testes hyppig

Datavisualisering

•Flervalgsoppgaver tester hvilken visualiseringstype som er riktig for en gitt datatype – histogram (kontinuerlig), stolpe (kategorisk), boxplot (sammenligning av grupper)
•Vit hva et boxplot viser: median, IQR, whiskers og outliers
•Scatter-plot med regresjonslinje er sentralt for å forstå regresjonsanalyse visuelt
•R-kode for de viktigste diagramtypene er pensum (se R-tema)

R som statistikkverktøy

•R-arbeidskravene er obligatoriske – bestå dem for å kunne gå opp til eksamen
•Flervalgsoppgaver kan vise R-output (summary(lm(...))) og spørre om tolkning – øv på å lese og forstå standard R-output
•Kjenn de viktigste funksjonene for deskriptiv statistikk, korrelasjon og regresjon i R
•Diagnostiske plott (plot(modell)) brukes til å sjekke OLS-forutsetninger – vit hva residual vs. fitted-plott viser