Kart og grafer om alt: Årets navn i VG: Selvvalgt nettavstemning vs. representativt utvalg

Klikk deg inn og les kommentarfeltet i VGs sak om Årets navn. Skjermdump: vg.no

Reaksjonene på kåringen av Robin Schaefer, og ikke Hege Storhaug, som årets navn i VG, og kåringen i seg selv, gir et interessant innblikk i forskjellene mellom resultatene fra selvvalgte nettavstemninger og et representativt utvalg. La oss ta det fra starten av.

Vi snakket om det i pauserommet på samfunnsgeografi - at det ville bli rabalder hvis Hege Storhaug ikke ble kåret til årets navn i VG. Årsaken? I en avstemning på VGs nettsider for å nominere kandidater fikk Hege Storhaug, som nettopp kom ut med boka Islam: Den 11. landeplage, over 40 000 stemmer.

Han som til slutt ble årets navn, politimannen og varsleren Robin Schaefer som sørget for at Monika-saken i Bergen ble gjenopptatt, fikk i denne nettavstemningen blant VGs nettlesere bare 3000 stemmer.

Kommentarfelten til VGs sak om årets navn er verdt et studie i seg selv. Uansett, mange raljerer over at VG har fikset og jukset med resultatene, så islam- og innvandringskritiske Hege Storhaug ikke skulle få vinne. Hvordan ellers kunne en med bare 3000 stemmer vinner over en med 42 000 stemmer? Det morsomme er at flere kommenterer at VG på denne måten ser bort i fra hva folket sier. Sannheten er jo at VG har nettopp latt folket få tale gjennom å betale en god del for at TNS Gallup skal gjennomføre en undersøkelse.

Poenget er at folk i avstemningen på VGs nettsider kunne nominere kandidater til årets navn. Deretter tok TNS Gallup en ringerunde og spurte 1000 personer om hvem av de ti kandidatene med flest stemmer (fra nettavstemningen) som burde bli årets navn.

De 1000 personene utgjør et statistisk representativt utvalg. De drøyt 100 000 stemmene på nettavstemningen utgjør et selvvalgt utvalg. Gjennom seleksjonsprosessen av de 1000 personene, så kan de representere hele Norges befolkning, vel å merke med en feilmargin på noen få prosent. De 100 000 i nettavstemningen er ikke i nærheten av å kunne representere hele Norges befolkning.

Dette handler om forutsetninger for å kunne generalisere fra et utvalg til en populasjon, eller sagt med andre ord, fra personene som er med i en undersøkelse til hele befolkningen. Nå måtte jeg tørke støv fra boka jeg hadde i et metodekurs i bachelorgraden min, men i Enhet og mangfold: Samfunnsvitenskapelig forskning og kvantitativ metode av Kristen Ringdal står det at en sannsynlighetsutvelging av et representativt utvalg må inneholde tre elementer (og her referer Ringdal selv til Groves et al. 2004: 94):

En utvalgsramme som består av en liste utvalget kan trekkes fra
En tilfeldig trekking av enheter (personer) fra lista
En mekanisme som sikrer at nøkkelgrupper i utvalget blir representert

I dette tilfellet er populasjonen hele Norges befolkning (mer eller mindre), og da anvender TNS Gallup en befolkningsbase som de selv har på huset for å trekke tilfeldige personer. Det er også mulig at de vekter for å sørge for at resultatene i utvalget er representative for populasjonen, men det mest interessante av punktene i Ringdals bok, med tanke på nettavstemning, er det siste punktet. For i nettavstemninger er det nok grunn til å si at nøkkelgrupper blir overrepresentert, som for eksempel ihugga tilhengere av de forskjellige kandidatene som kan nomineres. Tilhengere av Hege Storhaug er nok overrepresentert ganske heftig i nettavstemningen.

Hvis utvalget er representativt, så kan resultatene i utvalget, om f.eks. hvem som burde bli årets navn, overføres med ganske stor sikkerhet til hele populasjonen. Estimatet fra utvalget vil nok ikke stemme helt på desimalen med hva populasjonen mener, men i 19 av 20 tilfeller vil resultatet fra utvalget være innenfor en liten feilmargin for hva som faktisk stemmer i populasjonen.

Hvor stor denne feilmarginen skal være, er det opp til TNS Gallup, eller oppdragsgiver å avgjøre, men den vanligste feilmarginen, med tanke på hva som er både praktisk og etterrettelig, er en feilmargin hvor utvalgsestimatet i 19 av 20 tilfeller (95 prosents konfidensintervall, eller signifikansnivå på 0,05) er innenfor bufferen for hva som stemmer for hele populasjonen. Det viser seg også at større utvalg enn på 1000 personer har lite å si for størrelsen for konfidensintervallet, så å si uavhengig av hvor stor populasjonen er.

Og det var nok i denne omgang om statistikk, representative utvalg, konfidensintervall, nettavstemninger og den slags.

Kart og grafer om alt

Sider med ekstra påfyll

lørdag 19. desember 2015

Årets navn i VG: Selvvalgt nettavstemning vs. representativt utvalg

Ingen kommentarer:

Legg inn en kommentar