DataSporet

KandiValg-modellen

Med baggrund i mine syv år i ungdomspolitik har jeg siddet i mange lokaler, hvor spørgsmålet var: "Hvor skal vi føre valgkamp?" Det var ikke et spørgsmål med et klart svar, især når man kun har data fra seneste valg. Her ved man nemlig ikke altid, hvilken kandidat der minder mest om én selv. Derfor har jeg sat mig for at finde en måde at skabe det overblik på.

Her er et eksempel på det kort, som modellen producerer, hvis man er en 25-årig mandlig kandidat i Københavns Omegns Storkreds:

Metoden

Det kræver en del at skabe en model, der kan afhjælpe det problem. Det kræver:

Data om relevante områder
Data om kandidater
Metoder til at omregne data fra ét niveau til et andet
En metode til at estimere sandsynligheder

Selvom jeg ikke kan gå i dybden med de to sidste punkter, vil jeg gerne uddybe, hvilken data der anvendes. Udfordringen er, at data på et meget lavt geografisk niveau ofte er dyrt. Heldigvis stiller Danmarks Statistik også en del data gratis til rådighed for bredere geografiske områder.

Demografiske data på kommune- og sogneniveau er bredt tilgængelige, blandt andet fordelt på køn og alder. Det gør det muligt at skabe relationer mellem data på sogne-, afstemnings- og kommuneniveau. Dermed kan der udvikles en model, der estimerer sandsynligheden for at opnå stemmer baseret på, hvem der bor i området omkring et afstemningssted.

Data om kandidater er lidt mere kompliceret. Der findes data om stemmetal og kandidater via Valg.dk, som relativt let kan kobles sammen. Den eneste systematiske oplysning om kandidater, der er tilgængelig, er deres beskæftigelse.