Data Cleaning
Algemeen
ID
Ik heb een nieuwe kolom met een ID bij elke rij toegevoegd ('Persoon'), van 1-93.
Duplicate Entries
Er zat een duplicate entry op line 68; deze heb ik uit de dataset gehaald.
Ik heb de kolom 'hoogste bedrag ooit uitgegeven' gesorteerd A-Z om te kijken of er nog meer duplicates in zouden zitten, maar dit was gelukkig niet het geval.
Daarnaast zijn de entries 11, 58 en 63 OOK hetzelfde, geen idee wie de dataset drie keer in heeft zitten vullen maar ik heb er in ieder geval twee van verwijderd.
Data cleaning per kolom
HEX code van de ogen
Om de data te cleanen heb ik de volgende aanpassingen gedaan:
Waar geen '#' voor stond, heb ik een '#' voor geplaatst.
Waar een spatie in het antwoord verwerkt zat, heb ik deze uitgehaald
Waar een RGB-kleur ipv HEX is ingevuld, heb ik omgezet naar hexadecimaal.
Waar alleen een kleur is ingevuld als 'lichtblauw' of 'bruin', heb ik de data vervangen met de bijbehorende algemene hex-kleur volgens de Web Colors standaarden
Of het verder met uppercase of lowercase-letters moet, ligt aan de programmeertaal. Voor CSS maakt het momenteel gelukkig geen zak uit dus heb ik daar geen aanpassingen aan gedaan.
Slaapkamer
Hier heb ik de punten (.) vervangen door komma's (,).
Schoenmaat
Ook hier heb ik de punten (.) vervangen door komma's (,).
Politieke voorkeur
Het antwoord '/' weggehaald
De volledige namen vervangen door hun afkortingen zoals op deze lijst aangeduid
Alles wat op 'ben er niet zo mee bezig' neerkomt, vervangen door 'Niet zo mee bezig'.
Alles wat op 'geen idee' neerkomt, vervangen door 'Geen idee'.
Alles wat op 'gaat je niets aan/wil ik niet vertellen' neerkomt, vervangen door 'Zeg ik liever niet'.
'Geen voorkeur' in hetzelfde format qua capitals
Verder is er door iemand "Optie 17, optie 16" ingevuld, maar kom er niet uit waar dat voor zou moeten staan. Blanco, stemonthouding, geen idee.
Voor zover ik weet is de nummering van de kandidatenlijsten nog niet bekend, maar in 2017 waren het in ieder geval:
Forum voor Democratie
De BurgerBeweging (19 kieskringen)
CMD-voorkeuren (2 kolommen)
Bij het antwoord 'anders', data vervangen door het antwoord dat in de volgende vraag gegeven is
Antwoorden als 'x' of '-' of 'nvt' eruit gehaald
Overeenkomende/dubbele antwoorden eruit gehaald
"Tech" met Frontend op 1 hoop gegooid, tenzij anders aangegeven (backend bijv wel apart benoemd)
Bijbaan
Lege velden of iets dat op 'nee' neerkomt, vervangen door 'Nee'
'0' ook vervangen door 'Nee'.
'Ja' aan het begin van de zin verwijderen zodat alleen de titel van de baan overblijft
Van alles een zelfstandig naamwoord gemaakt (bijv: 'ja, horeca' = 'Horecamedewerker')
Alles wat op 'bediening' of ' serveerder/serveerster' neerkomt vervangen door: 'Bediende'
'Front-end' vervangen door 'frontend'
'Winkelbediende' vervangen door 'winkelmedewerker'
Waarom voor tech/visual gekozen
Alles met 'beide', aangepast naar 'Beide'
Grammaticale fouten of spelfouten verbeterd
Iets met 'Interessant' = 'Interessant'
Iets met 'Leuk' = Leuk
Beknopte zinnen van gemaakt
Wat wil je later worden
Hier kan ik sowieso nog wat mee in de categorie 'onzinantwoorden' maar dit is de cleaning voor nu:
'?'. 'geen idee' of iets in die trant, veranderen in 'Weet ik nog niet'
'Frontend Developer'-varianten veranderen naar 'Frontend Developer'
Vormgever etc naar ' Visual Designer'
'Webdesign' naar 'Web Designer'
Geluksgetal
'00 naar 0
Lievelingsmerk
Alles met 'geen' naar 'Geen'
Hoofdletters
'h&m divided' naar 'H&M'
'Pokemon' naar 'Pokémon'
'Addidas' naar 'Adidas'
'Ben niet merkengeil' en 'geef ik niets om' naar 'Geen'
Lievelingskleur in HEX
Waar geen '#' voor stond, heb ik een '#' voor geplaatst.
Waar een spatie in het antwoord verwerkt zat, heb ik deze uitgehaald
Waar ipv een '#', een ' stond, vervangen door '#'
Waar een RGB-kleur ipv HEX is ingevuld, heb ik omgezet naar hexadecimaal.
Waar alleen een kleur is ingevuld als 'lichtblauw' of 'bruin', heb ik de data vervangen met de bijbehorende algemene hex-kleur volgens de Web Colors standaarden
#000 naar #000000
Of het verder met uppercase of lowercase-letters moet, ligt aan de programmeertaal. Voor CSS maakt het momenteel gelukkig geen zak uit dus heb ik daar geen aanpassingen aan gedaan.
Social Media
'Anders' uit antwoord verwijderd
'6300 minuten per dag' naar '630 minuten per dag' veranderd aangezien er maar 1440 minuten inn een dag zitten
Last updated