Data Cleaning

Algemeen

ID

Ik heb een nieuwe kolom met een ID bij elke rij toegevoegd ('Persoon'), van 1-93.

Duplicate Entries

Er zat een duplicate entry op line 68; deze heb ik uit de dataset gehaald.

Ik heb de kolom 'hoogste bedrag ooit uitgegeven' gesorteerd A-Z om te kijken of er nog meer duplicates in zouden zitten, maar dit was gelukkig niet het geval.

Daarnaast zijn de entries 11, 58 en 63 OOK hetzelfde, geen idee wie de dataset drie keer in heeft zitten vullen maar ik heb er in ieder geval twee van verwijderd.

Data cleaning per kolom

HEX code van de ogen

Om de data te cleanen heb ik de volgende aanpassingen gedaan:

  • Waar geen '#' voor stond, heb ik een '#' voor geplaatst.

  • Waar een spatie in het antwoord verwerkt zat, heb ik deze uitgehaald

  • Waar een RGB-kleur ipv HEX is ingevuld, heb ik omgezet naar hexadecimaal.

  • Waar alleen een kleur is ingevuld als 'lichtblauw' of 'bruin', heb ik de data vervangen met de bijbehorende algemene hex-kleur volgens de Web Colors standaarden

Of het verder met uppercase of lowercase-letters moet, ligt aan de programmeertaal. Voor CSS maakt het momenteel gelukkig geen zak uit dus heb ik daar geen aanpassingen aan gedaan.

Slaapkamer

Hier heb ik de punten (.) vervangen door komma's (,).

Schoenmaat

Ook hier heb ik de punten (.) vervangen door komma's (,).

Politieke voorkeur

  • Het antwoord '/' weggehaald

  • De volledige namen vervangen door hun afkortingen zoals op deze lijst aangeduid

  • Alles wat op 'ben er niet zo mee bezig' neerkomt, vervangen door 'Niet zo mee bezig'.

  • Alles wat op 'geen idee' neerkomt, vervangen door 'Geen idee'.

  • Alles wat op 'gaat je niets aan/wil ik niet vertellen' neerkomt, vervangen door 'Zeg ik liever niet'.

  • 'Geen voorkeur' in hetzelfde format qua capitals

Verder is er door iemand "Optie 17, optie 16" ingevuld, maar kom er niet uit waar dat voor zou moeten staan. Blanco, stemonthouding, geen idee.

Voor zover ik weet is de nummering van de kandidatenlijsten nog niet bekend, maar in 2017 waren het in ieder geval:

  1. Forum voor Democratie

  2. De BurgerBeweging (19 kieskringen)

CMD-voorkeuren (2 kolommen)

  • Bij het antwoord 'anders', data vervangen door het antwoord dat in de volgende vraag gegeven is

  • Antwoorden als 'x' of '-' of 'nvt' eruit gehaald

  • Overeenkomende/dubbele antwoorden eruit gehaald

  • "Tech" met Frontend op 1 hoop gegooid, tenzij anders aangegeven (backend bijv wel apart benoemd)

Bijbaan

  • Lege velden of iets dat op 'nee' neerkomt, vervangen door 'Nee'

  • '0' ook vervangen door 'Nee'.

  • 'Ja' aan het begin van de zin verwijderen zodat alleen de titel van de baan overblijft

  • Van alles een zelfstandig naamwoord gemaakt (bijv: 'ja, horeca' = 'Horecamedewerker')

  • Alles wat op 'bediening' of ' serveerder/serveerster' neerkomt vervangen door: 'Bediende'

  • 'Front-end' vervangen door 'frontend'

  • 'Winkelbediende' vervangen door 'winkelmedewerker'

Waarom voor tech/visual gekozen

  • Alles met 'beide', aangepast naar 'Beide'

  • Grammaticale fouten of spelfouten verbeterd

  • Iets met 'Interessant' = 'Interessant'

  • Iets met 'Leuk' = Leuk

  • Beknopte zinnen van gemaakt

Wat wil je later worden

Hier kan ik sowieso nog wat mee in de categorie 'onzinantwoorden' maar dit is de cleaning voor nu:

  • '?'. 'geen idee' of iets in die trant, veranderen in 'Weet ik nog niet'

  • 'Frontend Developer'-varianten veranderen naar 'Frontend Developer'

  • Vormgever etc naar ' Visual Designer'

  • 'Webdesign' naar 'Web Designer'

Geluksgetal

  • '00 naar 0

Lievelingsmerk

  • Alles met 'geen' naar 'Geen'

  • Hoofdletters

  • 'h&m divided' naar 'H&M'

  • 'Pokemon' naar 'Pokémon'

  • 'Addidas' naar 'Adidas'

  • 'Ben niet merkengeil' en 'geef ik niets om' naar 'Geen'

Lievelingskleur in HEX

Waar geen '#' voor stond, heb ik een '#' voor geplaatst.

  • Waar een spatie in het antwoord verwerkt zat, heb ik deze uitgehaald

  • Waar ipv een '#', een ' stond, vervangen door '#'

  • Waar een RGB-kleur ipv HEX is ingevuld, heb ik omgezet naar hexadecimaal.

  • Waar alleen een kleur is ingevuld als 'lichtblauw' of 'bruin', heb ik de data vervangen met de bijbehorende algemene hex-kleur volgens de Web Colors standaarden

  • #000 naar #000000

Of het verder met uppercase of lowercase-letters moet, ligt aan de programmeertaal. Voor CSS maakt het momenteel gelukkig geen zak uit dus heb ik daar geen aanpassingen aan gedaan.

Social Media

  • 'Anders' uit antwoord verwijderd

  • '6300 minuten per dag' naar '630 minuten per dag' veranderd aangezien er maar 1440 minuten inn een dag zitten

Last updated