Geen woorden, maar data
Interview met Sylvia Kok-de Vries (directeur Demografische en Sociaal-Economische Statistieken bij het CBS)
In april 2017 verscheen op deze website een door het Centraal Bureau voor Statistiek (CBS) geschreven nieuwsbericht met de titel: ‘Loonaangifte is cruciaal in de CBS-keuken’. Dit zeer lezenswaardige en nog altijd actuele artikel beschrijft op heldere wijze hoe het CBS bij de loonaangifteketen betrokken is. Enerzijds is het CBS net als de Belastingdienst en het UWV wettelijke (mede-)eigenaar van de gegevensset van de loonaangifte; anderzijds is het CBS één van de grootste afnemers van de gegevens uit die keten.
Het artikel beschrijft hoe de gegevens, die geleverd worden vanuit de polisadministratie van het UWV, door het CBS ontvangen, geschoond en gefilterd worden en vervolgens gebruikt worden voor het opstellen van statistiek. Je krijgt een goed beeld van de wijze waarop de miljoenen records wekelijks bijna geheel geautomatiseerd getransformeerd worden van ruwe data naar, bijvoorbeeld, arbeidsmarktcijfers. Ook wordt duidelijk wat een aanwinst zo’n actuele databron als de polisadministratie voor het CBS is, in vergelijking met het vroegere arbeidsintensieve uitvragen van gegevens via enquêtes bij specifieke populaties. Heel verhelderend is ook het inzicht waar die op de loonaangiftegegevens gebaseerde statistieken uiteindelijk allemaal voor gebruikt worden.
De wereld staat echter niet stil. De mogelijkheden voor het verzamelen en verwerken van data zijn de laatste jaren door technologische innovaties als bijvoorbeeld méér rekenkracht van computers, sterk verbeterde inter-connectiviteit, artificiële intelligentie en nieuwe onderzoeksinstrumenten (sensoren etc.) sterk toegenomen. Dat roept vragen op. Op welke wijze beïnvloeden deze ontwikkelingen de werkzaamheden van het CBS? Hebben registers als de polisadministratie nog wel een toekomst?
We hebben die vragen voorgelegd aan Sylvia de Kok-de Vries, directeur Demografische en Sociaal-economische Statistieken. Zij is al jaren nauw betrokken bij de Loonaangifteketen, momenteel met name, met haar afdeling, in de rol van grote afnemer van gegevens.
Sylvia, kun je wat nader ingaan op waar je precies verantwoordelijk voor bent binnen het CBS?
Ik ben verantwoordelijk voor de alle statistieken over demografie, dus, om maar wat te noemen, waar mensen wonen en wanneer ze trouwen. Daarnaast voor alle statistieken over sociale zekerheid, dus bijvoorbeeld over bijstand en uitkeringen. Verder voor de statistieken over werkgelegenheid en arbeid. De enquêtes over de beroepsbevolking vallen daar echter niet onder. Tenslotte ben ik verantwoordelijk voor het sociaaleconomisch totaalbeeld (zoals ook de Volkstelling) en, daarmee samenhangend, voor de coördinatie van het samenbrengen en delen van de verzamelde data en informatie binnen het CBS.
Hoe lang werk je al bij het CBS?
Vanaf 1996, eerst als onderzoeker, later als manager en nu als directeur. Bij het CBS heb ik me ook nog een tijd met de overheidsfinanciën beziggehouden. Vóór 1996 heb ik als statisticus een tijd in Noorwegen gewerkt bij een consultancybureau. Mijn studie Statistiek heb ik aan de Universiteit van Amsterdam gedaan.
Hoe gaan jullie om met al die nieuwe data-ontwikkelingen?
De beschikbaarheid en het gebruik van data groeit razendsnel. We zien dat ze op alle gebieden steeds belangrijker worden. Het lijkt op een ‘data-revolutie’. Overal is men bezig zicht te krijgen op wat de gebruiksmogelijkheden zijn, maar ook wat de risico’s zijn, bijvoorbeeld op het gebied van de privacy. Het is een hele nieuwe situatie met veel vraagstukken. Niet voor niets houdt de Algemene Verordening Gegevensgebruik (AVG) die overal geïmplementeerd moet worden, momenteel veel mensen bezig. Deze Europese verordening is bedoeld een ontwikkeling te reguleren, waarvan de samenleving de impact nog maar nauwelijks kan bevatten. Voor het CBS is duidelijk dat alles rondom data verandert. Naast dat het CBS voldoet aan de vereisten van de AVG en gecertificeerd privacy-proof is, zijn we vanzelfsprekend volop bezig om met de nieuwe data-ontwikkelingen mee te gaan.
Hoe doen jullie dat?
Je ziet het terug in de wijze waarop het CBS zijn gegevens verzamelt. Al heel lang werken we met enquêtes, vragenlijsten voor personen en bedrijven. Enquêtes zijn gebaseerd op primaire waarnemingen. Je vraagt wat je hebben wilt bij een doelgroep en je krijgt wat je van te voren bedacht hebt. Primaire waarnemingen spelen ook nu nog steeds een rol. Een tiental jaar geleden kwamen de grote registers op, waaronder de polisadministratie. De registers bevatten periodiek verzamelde gegevens. Wij noemen dat secundaire waarnemingen. Achter die registergegevens zitten bepaalde populaties (bijvoorbeeld alle Nederlanders bij het GBA, of alle werknemers in loondienst in de polisadministratie), dus daar kunnen we wat mee. Hierdoor konden wij bijvoorbeeld de jaarlijkse werkgevers-enquête over verdiende lonen afschaffen, omdat zowel de werkgevers(populatie) als de benodigde gegevens per werknemer al onderdeel uitmaken van de gegevensset in de polisadministratie. Registers hebben ons werk al met al kwalitatief verbetert, de administratieve lasten verlaagd en deels ook goedkoper gemaakt.
Het maken van statistiek op basis van big data is een mooi innovatietraject
En nu ‘big data’?
Inderdaad. Sinds enige jaren lijken de mogelijkheden om statistiek te maken zich verder uit te breiden door wat ‘big data’ wordt genoemd. De gegevens komen niet uit enquêtes of registers, maar komen in feite ‘overal en nergens’ vandaan. Denk daarbij aan waarnemingsapparaten als sensoren, satellietdata, scannerdata e.d. Van scannerdata uit supermarkten maken we bijvoorbeeld al gebruik in de consumentenprijsindex. Naast dat het mooi is, dat er zoveel data beschikbaar komen, is het niet altijd zo eenvoudig om uit al die data reguliere statistiek af te leiden. Dit komt onder andere doordat de deze data niet specifiek voor jouw statistische vraag zijn verzameld en populaties veel minder goed te definiëren zijn. Neem de situatie van data die afkomstig zijn van verkeerslussen. Daar kun je niet zomaar landelijke statistiek op baseren, omdat alleen gemeten wordt op specifieke plekken waar het druk is of omdat ze soms gewoon niet werken. Je hebt bij big data in veel gevallen véél meer informatie nodig dan alleen de data. Aan die innovatie werken we samen met gerenommeerde partners en zijn we aan het experimenteren.
Maar het voegt wel iets toe?
Beslist. Echter realiseer je dat we via de data van enquêtes en registers al heel veel kunnen. Big data is een nieuwe component die het data verzamelen, de data-analyse en het data bewerken een nieuwe impuls geeft, maar op dit gebied valt er nog veel te leren. We zitten in een beginstadium met interessante bèta-uitkomsten, maar ook met nog heel veel vragen.
Hoe geven jullie dat big data onderzoek vorm?
We nemen deze ontwikkeling binnen het CBS heel serieus. Daarom hebben we een big data centrum opgericht, los van het reguliere werk: het Center for Big Data Statistics (CBDS). Daar zijn we bezig te onderzoeken hoe we de bronnen kunnen analyseren en voor statistiek kunnen gebruiken. Vanzelfsprekend komen er hele andere dingen bij kijken dan bij het traditionele onderzoek. Bij dat laatste bakende je een populatie af, trok een steekproef en dan kun je de statistische standaardmethoden toepassen. Vervolgens kon je een uitspraak doen. Bij big data daarentegen gaat het in eerste instantie vooral over technologische innovaties, over het vraagstuk hoe je zoveel en zo snel mogelijk grote datastromen kunt verwerken, maar ook over hoe je definities en formules toepast en of en hoe je überhaupt uitspraken kan doen. Daar ligt nog veel werk. We doen dat overigens niet op ons zelf, maar met samenwerkingspartners die de technologische kennis of expertise hebben om ons verder te helpen.
En hoe loopt dat?
Zoiets opzetten is nooit makkelijk. Maar we lopen wat betreft big data voorop in Nederland. Dit komt mede omdat we als CBS een grote innovatieve kracht hebben en partners zoeken om het met ons samen te doen. Het helpt, dat we een wettelijke basis hebben om gegevens te verzamelen, data te koppelen en statistiek te genereren. Vanzelfsprekend zijn we aan duidelijke regels gebonden wat betreft datgene wat we naar buiten brengen. Sowieso mogen individueel herleidbare gegevens nooit door het CBS vrijgegeven worden.
Het CBS levert steeds meer ‘data services’ aan decentrale overheden.
Zijn er nog andere opmerkelijke veranderingen bij het CBS gaande?
Naast de vernieuwingen op het gebied van big data, ondersteunt het CBS als expertisecentrum andere overheidsorganisaties met data-driven werken, datagovernance en data-beheer. Interdepartementaal nemen we deel aan diverse adviesgroepen, delen we onze kennis en helpen daarmee andere overheidsorganisaties.
Wat ook anders is dan vroeger, is dat we als CBS bezig zijn met ‘data services’. Hier gaat het niet om landelijke statistieken, maar om het beschikbaar stellen van CBS informatie (geen meningen, maar feiten) binnen een keten en op decentraal niveau: bijvoorbeeld lokale armoede statistieken voor gemeenten. Het CBS levert steeds meer ‘data services’ aan decentrale overheden. We stellen daarmee CBS informatie beschikbaar voor beleidsvragen zoals bijvoorbeeld: waar moet je oplaadpalen plaatsen? (door inzicht in waar elektrische voertuigen staan geregistreerd kan een gemeente inschatten waar laadpalen benodigd zijn) Mede via deze initiatieven treedt het CBS tegenwoordig meer naar buiten met de feiten waarover we beschikken. Het is immers de wettelijke taak van het CBS om zijn statistieken openbaar te maken en statistische informatievoorziening van overheidswege te bevorderen. We hebben daar een professionele communicatie-afdeling voor, die weet hoe we de gebruikers van onze statistieken kunnen bereiken. Echter ook bij dit naar buiten treden doen we dat altijd met inachtneming van de wettelijke (privacy) grenzen; ook intern zijn data geanonimiseerd.
Het CBS heeft ook een databank met open data die beschikbaar wordt gesteld?
Dat klopt. Het gaat daarbij om data-deling en het gebruik door derden. We hebben naast onze centrale open data bron Statline ook een API open data op basis hiervan beschikbaar gesteld waar iedereen in kan.
Daarnaast is het ook mogelijk om onderzoekopdrachten uit te laten voeren door onderzoekers van het Centrum voor Beleidsstatistiek. Verder werken we aan een data-alliantie waarin andere partijen eenvoudig data kunnen delen, bijvoorbeeld rond de rechtspraakketen. Er is een breed scala aan zaken waarmee we de andere overheidsorganisaties op het gebied van databeheer en datagebruik kunnen helpen. Van zowel advies over hoe je bestanden kan koppelen, tot advies over steekproeftrekkingen. Deze services zijn overigens niet gratis. De uren die we specifiek in onderzoek of statistische diensten steken worden door de afnemers hiervan vergoed.
Hoe zie je de rol van het CBS binnen het ecosysteem van de loonaangifteketen?
Voor de wereld van de loonaangifteketen spelen we vooral een rol bij de datakwaliteit en het afnemersbelang. Bij het analyseteam gegevens van de loonaangifteketen (AGL) dat zich bezighoudt met de kwaliteit van de loonaangiftegegevens zit bijvoorbeeld iemand van ons met kennis van de data-wereld en data-analyse.
Meer in de bestuurlijke hoek zetten we ons in voor de afnemers van de gegevens uit de polisadministratie. De polisadministratie is voor ons een belangrijke bron voor cijfers over banen en lonen en het belang daarvan loopt door tot aan de nationale rekeningen. We zijn een hele belangrijke afnemer en kennen het belang van de gegevens. We willen de afnemers goed positioneren, zodat deze een stem hebben in wat er rondom de gegevens van de loonaangifte gebeurt. Dat gaat tegenwoordig beter dan een paar jaar terug, maar er is in de toekomst zeker meer mogelijk.
Wat bedoel je precies?
Op het gebied van gegevens wordt door de loonaangifteketen nog te weinig vanuit de BV Nederland gedacht. We zullen samen een stap moeten zetten en veel meer moeten investeren in een gezamenlijke gegevenshuishouding. Hoe kunnen we samen de polisgegevens bruikbaar maken voor een bredere groep afnemers, die nu nog allemaal zelf hun uitvragen bij bedrijven doen? Dat is ook wat de burger verwacht. Daarom is het goed dat de afnemers nu ook een rol in het kernteam van de loonaangifteketen hebben. We pakken een duwende rol in het belang van de samenleving.
We willen als CBS voorop lopen en als data-knooppunt de toekomst van de datasamenleving mede vormgeven.
Is het leuk om altijd met data bezig te zijn?
Omgaan met data is soms lastig, maar ook mooi. In het kader van data-governance hebben we het over ‘geen woorden, maar data’. Ik geloof in data, het beïnvloed ons leven, straks wellicht méér dan we nu denken. We merken nu al dat het onze werkwereld en ons sociale leven sterk verandert. De samenleving zit midden in de data-revolutie. Het is boeiend om bij die veranderingen een rol te kunnen spelen. We willen als CBS vooroplopen en als data-knooppunt de toekomst van de data in de samenleving verder vormgeven. En ik vind het top om daar onderdeel van uit te mogen maken.