Løgn, forbanna løgn og forskning

Frøy Gudbrandsen har skrivi en veldig god kommentar, «De usikre 22», om hvor svakt grunnlag som finnes i valgundersøkelsene for å si noe om velgeroverganger i småpartier. Hun skriver at de som står bak valgundersøkelsene underkommuniserer hvor stor usikkerheta er. Det er jeg heilt enig i. Jeg har tidligere tatt opp dette i SV-interne fora, og tenkte at jeg kunne dele noen av de analysene jeg har gjort, siden saka er blitt aktuell. Ikke minst er dette interessant og relevant også for de andre små partia. De eineste partia som får noe ut av valgundersøkelsene på dette området er egentlig Arbeiderpartiet og Høyre.

Tabell som viser velgeroverganger fra 2009 til 2013. Henta fra notatet i brødteksten.
Figur 1. Tabell som viser velgeroverganger fra 2009 til 2013. Henta fra notatet i brødteksten.

I motsetning til Gudbrandsens kommentar har ikke jeg fokusert på hva SVs (eller andre partiers) velgere i 2009 stemte denne gangen, men hva de som stemte SV (eller andre partier) i 2013 stemte i 2009. La oss først begynne med å se på hvordan data presenteres i den forstudien til Valgundersøkelsen 2013 dette er snakk om, notatet «Velgervandringer og valgdeltakelse ved stortingsvalget 2013» (.pdf). Figur 1 viser dette. La oss deretter multiplisere de andelene som kommer fram i denne tabellen, med det antallet respondenter som ligger til grunn. Resultatet fra denne multiplikasjonen er vist i figur 2.

Figur 2: Antall respondenter som ligger til grunn for individuelle velgeroverganger.
Figur 2: Antall respondenter som ligger til grunn for individuelle velgeroverganger. Funnet ved å multiplisere andelene i figur 1 med størrelsen på panelet (n = 641) og runde av til nærmeste heiltall.

På dette punktet vil det begynne å skurre for de fleste som har et grunnkurs i statistikk. Antallet respondenter er i mange tilfeller svært, svært lavt. En «overgang» på 0,2 prosentpoeng av velgermassen viser seg å være en eneste person. Det totale antallet respondenter for alle partier unntatt Arbeiderpartiet, Høyre og Fremskrittspartiet er under 40. Det er klart at dette får til dels store konsekvenser for hvor bastant man kan være.

Statistikken som ligger til grunn her er temmelig enkel om man har tatt et universitetskurs i statistikk (hvis ikke er det sjølsagt ganske komplisert). Jeg har gjort rede for den i et tidligere innlegg om meiningsmålinger. En kortversjon som forklarer de tekniske sidene ved dette følger i de neste avsnitta. Som det går fram i det gamle innlegget mitt, er det lett å beregne usikkerheta i sånne anslag. Den vanlige måten å gjøre det på er i form av konfindensintervall. Som regel bruker man konfidensintervall, og framgansmåten er godt beskrivi hos Stattrek.

Med utgangspunkt i sentralgrenseteoremet legger man til grunn at konfidensintervallet kan finnes ved å multiplisere det empiriske standardavviket s = √(p(1-p) / n) (der p er andelen i utvalget og n er størrelsen på utvalget) med en bestemt verdi. Denne verdien tilsvarer det antallet standardavvik, z(α), som man må legge til eller trekke fra gjennomsnittet av alle utvalg for å finne en gitt andel, α, av utvalga – bare på grunn av tilfeldigheter. Som regel beskriver man konfidensintervalla med verdien 1-α %, altså den andelen av anslaga som vil ligge innafor konfidensgrensene. Den vanligste verdien av α er 0,05, som altså gir 95 % konfidensintervall. Skjematisk kan vi skrive konfidensintervallet sånn:

p ± (s · z(α))

Det mange ikke tar hensyn til er at hvor mange konfidensintervall du vil oppgi påvirker størrelsen på z. Denne verdien følger av den kumulative sannsynlighetsfunksjonen til normalfordelinga. Hvis du ikke har laga ei begrunna hypotese om at utvalget ditt har en større eller mindre andel enn populasjonen som heilhet må du teste «tosidig» og bruke αkorrigert = α/2. Skal du oppgi ett konfidensintervall, og ønsker å bruke 95 % konfidensnivå – som altså betyr at du tolererer å oppgi et galt intervall i ett av 20 tilfeller – får du altså en z-verdi på 1,96 (ikke 1,65). Skal du oppgi meir enn ett konfidensintervall, auker du antall muligheter for å havne utafor de 95 % du har satt opp som krav. For at det ikke skal være meir enn 5 % sannsynlighet for at noen av konfidensintervalla dine skal være gale, må du derfor ha en annen z-verdi. Den vanligste måten å gjøre dette på er ved hjelp av en Bonferroni-korreksjon. Da får du αkorrigert = α/(2 · n).

Hvis man skal oppgi svært mange konfidensintervall, er det klart at effekten av dette kan bli dramatisk. Men den er også merkbar for bare et ganske lite antall. Referanseramma i Frøy Gudbrandsens tekst er jo f.eks. ikke et enslig anslag på SVs velgerlojalitet, men ei sammenligning av velgerlojaliteten til alle svaralternativene i undersøkelsen. Siden det er 10 svaralternativer, får vil αkorrigert = α/(2 · 10), som gir en z-verdi på ca. 2,81, og konfidensintervallet for SVs velgerlojalitet blir dermed 22 ± 20 %, eller for å skrive det på en annen måte 1 – 42 %. Verdien «1» dukker opp her fordi 22 er avrunda fra 21,875 og 20 er avrunda fra 20,4622. Det er altså ikke langt unna at usikkerheta er så stor at det bare er en avrundingsfeil som skiller anslaget på velgerlojaliteten fra 0 (og statistisk meiningslaushet).

Figur 3: Tabell som viser nedre grense for konfidensintervall for velgeroverganger gitt at sannsynligheta for at ingen av konfidensintervalla skal være gale skal være mindre eller lik 0.05.
Figur 3: Tabell som viser nedre grense for konfidensintervall for velgeroverganger gitt at sannsynligheta for at ingen av konfidensintervalla skal være gale skal være mindre eller lik 0.05.

For å illustrere hvor galt dette kan gå, kan vi sette opp heile velgerovergangstablået fra figur 1, der jeg har satt opp nedre grense for størrelsen på konfidensintervallet, etter å ha korrigert for det totale antallet konfidensintervall (n=110). Dersom denne grensa er lavere enn 0, er tallet vist i rødt. Jeg gjør oppmerksom på at øverste rad og venstre kolonne, altså totalene, ikke er tatt med i korreksjonen. Figur 3 viser resultatet. Ei uttømmende liste over ting valgundersøkelsen sier heilt sikkert på dette området blir da:

  • Minst 0,17 %-poeng av oppslutninga til Arbeiderpartiet kommer fra tidligere SV-velgere.
  • Minst 13,9 %-poeng av oppslutninga til Arbeiderpartiet kommer fra folk som også stemte Ap sist.
  • Minst 0,17 %-poeng av oppslutninga til Arbeiderpartiet kommer fra folk som ikke stemte i 2009.
  • At henholdsvis minst 0,45; 0,34; 1,71 og 3,58 %-poeng av oppslutninga til Venstre, Kristelig folkeparti, Senterpartiet og Frp kommer fra folk som stemte på disse partia også i 2009.
  • Minst 0,11; 6,48; 2,14 og 0,45 %-poeng av oppslutninga til Høyre kom fra folk som tidligere henholdsvis har stemt Ap, Høyre, Frp eller ikke har stemt.
  • At minst 1.23 %-poeng av befolkningsandelen som ikke stemte i 2013 stemte Arbeiderpartiet i 2009, og minst 0,11 %-poeng Frp, og dessuten at minst 9.11 %-poeng av denne befolkningsandelen heller ikke stemte ved 2009-valget.

Det numerisk sett sterkeste funnet er altså at de som ikke stemmer fortsetter å ikke stemme. Bortsett fra folk som fortsetter å stemme på de partiene de stemte på sist er det numerisk sett sterkeste funnet velgerovergangen fra Frp til Høyre. Som Frøy Gudbrandsen peiker på: Hvordan man leser statistikken påvirker i stor grad hvilke historie man lager. Det er temmelig interessant å merke seg at de historiene som skaper størst oppmerksomhet på ingen måte er det historiene som har sterkest støtte i undersøkelsen.

Meningsmålingsløgner

Jeg irriterer meg ofte over at bevegelser på meningsmålinger blir presentert med alt for mye brask og bram. Det er faktisk sjeldent at variasjonen mellom oppslutninga til et parti i to påfølgende meningsmålinger er stor nok til at man kan være særlig sikker på at det har skjedd ei endring i befolkninga.

Hvorfor er det sånn? Meningsmålinger av den typen som blir slått opp i media blir stort sett gjennomført ved hjelp av telefonintervjuer. Siden man ikke kan intervjue hele befolkninga, intervjuer man et utvalg. Utvalget er vanligvis på ca. 1000 personer. Jeg skal ikke gå alt for langt inn i detaljene, og det finnes feilkilder jeg ikke nevner her (har alle stemmeberettiga lik sannsynlighet for å ta telefonen eller gidde å snakke med meningsmålingsfolk, for eksempel?), men jeg vil gjerne slå fast følgende: Denne metoden gir stort sett gode resultater, men de kommer med ei usikkerhet som ofte er mye større enn det som blir kommunisert.

Når man prøver å si noe om hvordan noe er i befolkninga (hele populasjonen i statistikkspråk), bruker man altså et utvalg. Formelen for å anslå andelen (p) av hele befolkninga som mener en bestemt ting, bruker andelen i utvalget (p-hatt, altså en p med ^ over), se formel 1 under.

p-hatt er lik antall interessante observasjoner delt på antall observasjoner totalt
Formel 1: Anslag for andel i en populasjon med et bestemt trekk (mening), basert på andelen i et utvalg som har dette trekket.

Her er n antallet i utvalget som mente dette og N antallet i hele utvalget. Det er vanlig å anslå usikkerheta til dette anslaget ved hjelp av standardavviket (les mer på Wikipedia hvis du er interessert i detaljene i utregningene her). Den vanligste metoden for å beregne standardavviket for andelen av et utvalg er ved å bruke formel 2.

s er lik kvadratrota av parentes start en delt på totalt antall i utvalget parentes slutt ganger p-hatt ganger parentes start en minus p-hatt parentes slutt kvadratrot slutt
Formel 2: Beregning av usikkerhet i et anslag av andelen i en populasjon med et bestemt trekk (mening) på bakgrunn av andelen i et utvalg med dette trekket.

Ved å gange denne med bestemte verdier for normalfordelinga kan man i neste omgang si noe om hvor stor usikkerhet man vil gi anslaget sitt for. Grovt sagt er den største usikkerheta man aksepterer i vitenskapelige sammenhenger 5 %. Det vil si at man oppgir usikkerheten i et anslag slik at det intervallet man oppgir i 19 av 20 tilfeller vil inneholde den sanne verdien, eller verdien i populasjonen som helhet. Dette oppgis som regel i liten tekst når meningsmålinger presenteres, men både journalister og valgforskere ser ofte ut til å la være å forholde seg til det.

Det kan man forstå når man ser på tabellen under, der det er angitt intervaller for anslag basert på formlene over og ulike andeler. Tabellen gir også et godt argument for hvorfor de minste partiene, slik som Miljøpartiet de Grønne, ofte blir utelatt: Usikkerheten blir veldig stor i forhold til anslaget. Som vi ser er det strengt tatt ingen nyhet om et parti som forrige gang var på 5,5 % nå ligger på 4,2 %. Det trenger ikke å ha skjedd noe, det kan bare hende at utvalgene var litt forskjellige, men at de begge reflekterer populasjonen på en statistisk sannsynlig måte.

Tabell som viser usikkerhet for ulike binomiale andeler.
Tabell 1: 95% konfidensintervall for ulike svarandeler i et utvalg på 1000 personer. Et 95 % konfidensintervall er et «anslagsområde» som i 19 av 20 tilfeller vil inneholde den sanne verdien i populasjonen, og omfatter alle verdier mellom den nedre grensa og den øvre. I høyre kolonne vises usikkerheten som den verdien man må legge til/trekke fra anslaget, slik det blei beregna i den første formelen for å få konfidensintervallet.

Men det stopper ikke der: Når man gjør mange tester, øker jo sjølsagt sannsynligheten også for at man ramler over den ene av de 20 testene som ikke inneholder den sanne verdien. Dermed må man strengt tatt sette lista høyere for meningsmålinger om partipreferanse enn f.eks. for målinger om EU-standpunkt. Hvis vi legger til grunn det vanlige antallet partier som blir tatt med, 8, blir usikkerhetene slik betraktelig større, dersom man vil at det for hver gang man presenterer meningsmålinger bare skal være 5 % sannsynlighet for at man tar feil om man sier at det har skjedd bevegelser (for ordens skyld: jeg har brukt en enkel Bonferroni-korreksjon).

Tabell som over, men korrigert for at det gjennomføres 8 tester samtidig.
Tabell 2: Som tabell 1, men med høyere usikkerheter, fordi man ønsker at gale påstander om at det har skjedd ei reell endring for noe parti i snitt bare skal forekomme for hver 20. gang man publiserer meningsmålinger.

Hva betyr så dette? Jo, det betyr at:

  • Forskjeller mellom to enkeltmålinger som er under ca. 1,5 %-poeng for småpartier og under ca. 3 %-poeng for store partier betyr aldri noen ting som helst. De innebærer ikke ei endring, de innebærer ikke en tendens, de betyr rett og slett nada. På fagspråket kalles det «støy».
  • Sjøl oppslag om krisemålinger eller kjempegode målinger – så sjelden som de strengt tatt forekommer – ofte bare er et resultat av usikkerhet. De store tapene for Høyre som refereres her hos Stavangeravisa og her hos Nettavisen kunne hver for seg like godt ha vært tolka som at den reelle oppslutninga hele tida lå et sted midt i mellom. Men: Ser man de tre målingene i sammenheng er likevel Høyres nedgang uomtvistelig.
  • Som regel er det bare når man har flere målinger som er gjort uavhengig av hverandre og over noe tid at man faktisk kan si noe om utviklinga i oppslutninga til et parti, fordi de kortsiktige endringene i oppslutning ofte er innafor usikkerheta.

Hvorfor blir ikke dette kommunisert? Vel, media vil ha mest mulig sensasjonelle oppslag, meningsmålingsleverandørene vil selge flest mulig meningsmålinger (det bidrar jo til bedre bilder over tid, så det er greit nok) og valgforskere og kommentatorer vil ha mest mulig spalteplass. Men ofte er det de har å melde altså bare tøv, og siden innholdet i dette innlegget er pensum på alle innføringskurs i statistikk må vi regne med at de veit det. Det kan godt hende at vi må leve med at det er sånn, men det er i det minste greit å vite om. Hvis man vil ha et bilde av hvordan ting egentlig er må man følge med over tid og gjerne se på meningsmålinger fra flere ulike leverandører (fordi de håndterer de usikkerhetene jeg har latt være å drøfte på ulike måter). Et godt sted å gjøre det er på pollofpolls.no.