Sider med ekstra påfyll

onsdag 22. august 2018

Ungdomsidrett og sosial bakgrunn i Oslos bydeler

Innimellom tenker jeg at hvis jeg hadde blitt en politiker, så hadde min kampsak nummer én vært gratis barneidrett. Ikke bare er det gøy og artig med fysisk aktivitet, men det er viktig i et folkehelseperspektiv.

Da kan det være brutalt å tenke på hva treningsutstyr, lisenser og utgifter kan koste, spesielt for familier som ikke har altfor god råd.

Derfor leste denne artikkelen fra NRK, om at klubben Brodd har kuttet ut årskontingent for de yngste, med stor interesse.

I tillegg synes jeg at fotballbladet Josimar har hatt noen interessante reportasjer om ulikhetene i fotballtilbud og -muligheter på østkant og vestkant i Oslo.

Og siden jeg holder på å lære meg R og pakken ggplot2 for datavisualisering, hvorfor ikke lage en graf om ungdoms deltakelse i organisert friidrett?
Klikk for å se større. Sånn faktisk.


Hvis du klikker på grafen, slik at den blir større, så viser den hvor mange prosent av ungdommen med henholdsvis lav middels og høy sosial bakgrunn i hver bydel som deltar i organisert idrett.

Bydelene er sortert fra venstre til høyre etter andelen ungdom (ungdomsskole-elever og videregående skole-elever) med lav sosial bakgrunn som deltar i organisert idrett.

De stiplete linjene viser gjennomsnittet i Oslo for ungdom med de forskjellige bakgrunnene.

Tallene er hentet fra rapporten Ung i Oslo 2015, skrevet av Patrick Lie Andersen og Anders Bakken, via Oslo statistikkbank.

Hva menes egentlig med sosial bakgrunn? "I undersøkelsen er dette målt gjennom et samlemål for familiens sosioøkonomiske ressurser (definert som «summen» av foreldrenes utdanningsnivå, bøker i hjemmet, om man drar på ferie, har eget soverom, om man har bil etc.)." (Andersen og Bakken 2015, side 4)

Ikke overraskende, så er trenden at ungdom på Østkanten i gjennomsnitt deltar mindre i organisert idrett enn de på Vestkanten (Nordstrand inkludert). Dette gjelder uansett hvilken sosial bakgrunn ungdommene har.

Det er det grove, overordnete bildet, så er det selvfølgelig variasjon og detaljer som viker litt fra denne historien. For eksempel er idrettsdeltakelsen blant ungdom med høy bakgrunn i Stovner markant høyere enn i de andre bydelene i Groruddalen. Bare Vestre Aker har høyere idrettsdeltakelse blant de med høy sosial bakgrunn enn Østensjø. Nå er Østensjø en bydel med særskilt sterke idrettstradisjoner- og miljøer.

Her kan jeg også legge til at dette datamaterialet er basert på en spørreundersøkelse med et utvalg. Jeg har ikke tittet nøye nok på rapporten til å se om jeg kan beregne og vise konfidensintervall. Eller for å si det på denne måten: Det kan hende at de forskjellene vi ser her blant de som svarte på undersøkelsen ikke finnes hvis vi skal snakke om alle ungdommene i bydelene.

Frogner er et markant unntak blant bydelene i vest. Jeg kan bare spekulere i at det er fordi Frogner er en relativt "bypreget" bydel med ikke altfor mange idrettsmuligheter uten å måtte reise et stykke.

Det som jeg synes er mest interessant av alt i denne figuren, er det som skjer med ungdom med lav sosial bakgrunn i bydelene på Vestkanten, altså Ullern, Nordstrand, Vestre Aker og spesielt Nordre Aker.

Når man anekdotisk kan snakke om at ungdommen på Vestkanten er mer aktive i idrett enn de på Østkanten, så kunne man spekulere i at det er fordi ungdom på Vestkanten generelt er mer velstående og har økonomisk mulighet og oppfølging i hjemmet til å satse 110 prosent på å bli den nye Petter Northug eller Martin Ødegård.

Derfor er det interessant å se at idrettsdeltakelsen i disse vestkant-bydelene er markant høyere også blant ungdom med lav sosial bakgrunn.

I mine studier på samfunnsgeografi hadde vi en del om nabolagseffekter, altså at nabolaget du bor i har noe å si for dine livsmuligheter, uavhengig av hvilke gener du har eller hvor mange bøker foreldrene dine har i hylla. Altså, hva har det å si å vokse opp i et nabolag med høy velstand kontra lav velstand. Har det noe å si å vokse opp i et område med kommunalboliger?

Noe som man har sett i studier i USA (linken går til en artikkel jeg hadde på pensum av George Galster, hvor dette er omtalt), er at barn i mindre velstående familier kan prestere litt bedre hvis de bor i områder med litt mer velstående familier. Man kan da snakke om en peer-effekt: At du påvirkes av de du ser på som dine "likemenn", altså de du går i klasse med.

Min antakelse er at en slik effekt kan være med på å forklare idrettsdeltakelsen til ungdom med lav sosial bakgrunn på Vestkanten.

Under the hood

Og over til noe helt annet. Fikk du med deg at jeg lagde den grafen i R? Den viktigste motivasjonen for å lage denne grafen var jo at jeg holder på å lære meg å bruke R, og da blant annet datavisualiseringspakken ggplot2. Hvis du er nysgjerrig på hvordan jeg lagde den, så har du koden min her.

Dette er aller første gang jeg lager min helt egen graf i R, så koden er nok helt håpløs. Transformeringene og databehandlingen for å klargjøre tallene for grafen kan nok skrives mye mer effektivt, med hjelp av litt pipes. Jeg fikk god hjelp av googling og denne boka her, R for Data Science, som er åpen og gratis på internett. Den holder deg trygt i hånda når du er helt newbie. Anbefales!

fredag 3. august 2018

Hvor bør knutepunktutviklingen komme (og slik lager du et bivariat punktkart)

Klikk for å se større.
Jeg hadde lyst til å gjøre to ting. Jeg ville lage et bivariat punktkart, og jeg ville jobbe litt med datasettene til Entur om kollektivtransport (som jeg skal bruke massevis i doktorgraden min).

Kartet du ser her er punktdata over tog- og t-banestasjoner i Oslo-området. I tillegg til lokaliseringen, så viser punktene to ting – derav bivariat – hvor lang tid det tar å reise fra den stasjonen til Oslo sentrum, og tettheten av beboere og arbeidsplasser i nærområdet.

Det som egentlig er ekstra kult med punkter, er at du strengt tatt kan vise tre forskjellige verdier samtidig, altså lage trivariate kart. Du kan gjøre som i kartet over, vise en ting (tetthet) med fargen til omrisset og vise en annen ting med fyllfargen (reisetid). I tillegg kan du variere størrelsen på punktene for å vise en tredje verdi, gjerne en absolutt verdi, som antall avganger, f.eks. Tetthet, hvor du deler befolkning på areal, er en relativ verdi og det motsatte av absolutt.

Punktene i kartet er egentlig to kartlag.
Det jeg gjorde for å få til det, var å legge to lag oppå hverandre i QGIS (se til venstre). Jeg sørget for at det nederste punktlaget hadde litt større punkter (density = punktstørrelse 3 i dette tilfellet) enn det øverste laget (transit time = punktstørrelse 2). Ingen av punktene har omrisslinje, og det nederste laget fungerer som omriss for det øverste.

Det ser ikke sånn ut på kartet, men jeg velger en gråskala fra svart til hvit for det øverste laget. Grunnen til det kommer jeg straks tilbake til.




Klikk for å se større. Blendingsmoduser skaper magi.
Deretter går jeg inn i symbologiinnstillingene til det øverste laget med gråskala (se bildet til venstre), transit time-laget, finner fram til nedtrekksmenyen for blendingsmodus, og velger multipliser.

Det som skjer er at tallverdiene til fargene i det øverste laget blir multiplisert med fargene i laget under der de overlapper. Er det kort til sentrum (svart) i et tett befolket område (turkis), da ganges svart med turkis. Langt til sentrum i grisgrend strøk? Hvitt ganges med brunt.

Hvorfor nevnte jeg QGIS spesifikt? På grunn av transparency blending modes. Hvis du er godt bevandret i Photoshop, så kjenner du antakeligvis godt til blendingsmoduser. Poenget er at hvis du vil ha noe delvis gjennomsiktig, så er ikke gjennomsiktig bare gjennomsiktig. Man kan for eksempel velge om fargemetningen i det øverste laget skal beholdes, men at lysstyrken skal preges av det underliggende laget. QGIS har totalt tolv forskjellige blendingsmoduser. ArcGIS, som jeg bruker mye ellers, har bare én.

Du har kanskje prøvd å legge et lag med fjellskygge over et kartlag med farger for arealbruk (fjell, hav, jordbruk, skog) og synes at det blir litt matt, kjedelig og dødt? Neste gang prøv ut forskjellige blendingsmoduser. Multipliser er en god gjenganger.

Her er en fantastisk blogg om fantasikart (!) med en veldig fin gjennomgang av forskjellige blendingsmoduser i Photoshop.

Når jeg først nevner programvare, så brukte jeg nettverksanalyse i ArcGIS til å beregne reisetiden med kollektivtransport til Oslo sentrum. Network Analyst-tilleggspakken til ArcGIS klarer ikke å beregne kollektivreiser på egenhånd.

Melinda Morang har imidlertid vært i førersetet for en fantastisk verktøypakke, Using GTFS Data in ArcGIS, som man kan laste ned og bruke til å kjøre nettverksanalyser med kollektivtransport.

En klar svakhet i det datamaterialet som blir framstilt her. Er at det viser reisetider fra akkurat klokka 08.00. Hvis det ikke går noe tog til Oslo før 08.05 fra en stasjon, så er ventetiden med i reisetiden på kartet. For å være skikkelig robust burde reisetidene gjennom en hel time (avreise 08.00, 08.01, 08.02 osv) blitt beregnet før den korteste reisetiden ble brukt i framstillingen.

450 meter buffer rundt hver stasjon, summerer opp areal, befolkning og
arbeidsplasser fra 250 x 250 rutenett fra SSB.
Datakilder: SSB, Entur, Bing Aerial
Når vi kommer til kvaliteten på datamaterialet kan jeg også nevne at arealet som brukes i tetthetsberegningene godt kunne vært hakket mer rafinert. Jeg lagde buffere med 450 meter radius rundt hver stasjon, og summerte antall beboere, arbeidsplasser og det totale arealet i alle cellene (i et rutenett fra SSB) som bufferen overlappet med (se til venstre). Vannareal er altså med i beregningen. Tettheten i rutenettet er forøvrig med i bakgrunnen i det endelige kartet.

Hvorfor buffere med akkurat 450 meter radius? Det er ganske vanlig å operere med at folk er villig til å gå 400 meter for å ta kollektivtransport. Størrelsen på cellene i rutenettet, på 250 x 250m, blir akkurat for små til at det er godt nok med bare en celle som "nærområde" for stasjonen. Derfor sørget jeg for å ha med de områdene som i hvert fall er innenfor 500 meter fra stasjonen.