CDAT: Data Testen kun je leren

vrijdag 23 april 2021



Hoe word je testprofessional in een Business Intelligence, Datawarehouse of Data Analytics omgeving? Hoe ‘test’ je datakwaliteit, datamigraties en databases? Antwoord: Met je ‘gewone’ software en systeem testing skills PLUS. Deze blog gaat over die PLUS en vooral over de nieuwe training die opleidt tot het CDAT-certificaat.

CDAT, wat is dat?

CDAT staat voor ‘Certified Data Analytics Tester’. Het is een tweedaagse opleiding, verzorgd door onder andere Valori. Met bijbehorende onafhankelijke certificering en examen, verzorgd door Brightest.

Er zijn mensen die stellen “die persoon hoef ik niet in mijn team want die is gecertificeerd”. Ik hou het er liever op dat een rijbewijs geen voldoende voorwaarde is voor veilig rijden, maar wel een nuttige en vaak zelfs noodzakelijke voorwaarde. Voor het CDAT-certificaat geldt precies hetzelfde: je gaat er misschien niet direct beter van presteren dan iemand met veel ervaring zonder certificaat. Maar je hebt wel laten zien dat je in ieder geval de basiskennis en basisvaardigheden in huis hebt.

In deze blog leg ik uit waarom datakwaliteit belangrijk is, wat testers daarin kunnen betekenen en waarom het een goed idee is om snel de CDAT-training te volgen of aan te bieden aan je medewerkers.

“Data Quality, the biggest risk in town”

Lang geleden gaf ik op een EuroSTAR-conferentie in Manchester een presentatie met bovenstaande titel. Ik heb toen het testen van data en van datakwaliteit op de agenda van de Europese test community gezet en stiekem ben ik daar nog steeds trots op.

Voor de historici onder ons: ik opende mijn verhaal met het Amerikaanse bombardement op de Chinese ambassade in Belgrado. Dat was een moment in de Balkanoorlog dat toen nog redelijk vers in ieders geheugen zat. Een enorm menselijk én politiek drama. Het heeft de VS veel geld en moeite gekost om het een beetje goed te maken en de relatie met China te repareren.

Hoe het kon gebeuren? Datakwaliteit!

In de ‘target list’ van de U.S. Air Force stond deze locatie te boek als een belangrijke wapenopslag van het Servische leger. Die data was volkomen correct op één belangrijk kwaliteitsaspect na: actualiteit. De wapenopslag was namelijk verplaatst en in het pand zat al enkele jaren de Chinese Ambassade.

Alle processen en alle IT- en wapensystemen deden het voortreffelijk, ongetwijfeld mede dankzij goede softwaretesters. Maar ja…

Recentere en voor Nederland nog pijnlijkere vergelijkbare gevallen laat ik nu maar rusten en ik spring direct naar het normale economische verkeer. Daar is datakwaliteit ook een enorm ding. Verouderde, inconsistente, onjuiste of domweg slecht toegankelijke gegevens zijn een belangrijke oorzaak van datamigratie-ellende, verstoringen, ontevreden klanten en verkeerde managementbeslissingen. Fusies en mergers van grote ondernemingen hebben last van de slechte toestand van ‘corporate data’. De beloftes van Datawarehouse, Data Analytics en BI-initiatieven worden niet altijd ingelost en de Total Cost of Ownership van zulke landschappen rijst links en rechts de pan uit. De wereld kan absoluut niet meer zonder, maar gebrek aan (data)kwaliteit kost ons ook hier handenvol geld.

Een taak voor testers

Mijn EuroSTAR presentatie schakelde vervolgens naar de rol van ‘ons softwaretesters’. Vreemd eigenlijk: we zijn altijd druk met de softwarekwaliteit van de informatiesystemen, terwijl het uiteindelijk om die informatie gaat. Ook in vredestijd: data in het datawarehouse, trends in de BI-rapporten, cijfers in het grootboek, relatiegegevens in Salesforce, enzovoort.

Testers laten het op dit vlak nog steeds een beetje afweten. Waarom ziet elke tester in een brok software, een app of een systeem wel een testobject, maar in een gegevensverzameling niet? Terwijl we het testen van de systemen niet overlaten aan ontwikkelaars en programmeurs, laten we het testen van datakwaliteit wél over aan informatie analisten en database administrators.

Terwijl we alle ‘People, Process, Tools’ voorzieningen voor risicoanalyse, testontwerp en -uitvoering en bevindingenrapportage en -beheer in huis hebben. Wij kunnen dit veel professioneler en meer gestructureerd aanvliegen dan de gemiddelde DBA’er dat kan.

Wat ons helpt zijn modellen voor datakwaliteit. In de SmarTEST praktijk hebben we ISO25010 uitgebreid tot het IPS-model: Informatie, Proces en Systeemkwaliteit. De I is ingevuld met het IDQ-model voor datakwaliteit en dat is dankbaar ontvangen en wordt nog steeds gebruikt door diverse (overheids)organisaties. Tegenwoordig hebben we ook het ISO 25012 model voor datakwaliteit. En ook: het DAMA-model voor datakwaliteit. Dat is het leuke van standaarden: keus genoeg …

Hoe dan ook, dit soort modellen (eigenlijk zijn het veredelde checklists) kun je als tester prima gebruiken, bijvoorbeeld in risicoanalyses.

Kansen, kansen ….

Van bronsysteem via datawarehouse naar rapportage

Toch nog even over de systemen: in data-georiënteerde landschappen moet de hele dataketen natuurlijk wel soepel verlopen. We hebben het dan over het ETL-proces: ophalen van brondata (Extract), bewerken en uniformeren (Transform) en doorzetten naar het centrale datawarehouse (Load). En daarna weer iets vergelijkbaars: data uit het datawarehouse in een aantal stappen beschikbaar stellen in datamarts en een BI /DA-omgeving waarop rapporten en dashboards gebouwd kunnen worden. Hier ligt een wereld aan processen, tools en maatwerk en een weelde aan taken voor professionele testers.

Kansen, kansen …

Wat is er zo goed aan de CDAT-training?

Cursiste Sjakina Hiwat is al een tijdje actief als tester in een BI-omgeving en heeft het misschien wel het beste samengevat: “Had ik deze training maar eerder gedaan, alles valt op zijn plaats en ik snap nu veel beter wat ik aan het doen ben”. Je leert een paar praktische ‘kunstjes’, maar doet vooral veel inzicht en begrip op. Ik kan hier natuurlijk niet in detail gaan, zie daarvoor de CDAT-syllabus, maar licht er een paar dingen uit.

  • Concepten: de visie achter Data Analytics, Datawarehousing, Data Lakes, Data Vaults, Data Mining aan de hand van experts als Kimball en Inmon
  • Datamodellering: sterschema’s, snowflake schema’s, denormalisatie
  • Datakwaliteit: inclusief ‘nieuwe’ VVV-aspecten van big data: Volume, Velocity en Variety. Met leerzame cases waarin je het DAMA-model toepast
  • Systemen en processen: met een ijzersterk referentieplaatje van een DWH/BI/DA-landschap
  • Jargon: ETL (Extractie, Tansformatie, Laad), STM (Source to Target Mappings), SCD (Slowly Changing Dimensions), CDM (Corporate Data Model), OLAP (On Line Analytical Processing), datamarts, cubes, reports, dashboards, etc.
  • Query talen: SQL uiteraard, elke tester moet een beetje met SQL uit de voeten kunnen. Maar ook NoSQL (not only SQL), Multidimensional Expressions (MDX)
  • Tools: wat zijn leidende ‘Data Analytics’ tools anno nu? Met een fantastische demo van de gratis tool Data Cleaner
  • Testtechnieken: welke testtechnieken die we kennen van ISTQB, SmarTEST en TMAP zijn speciaal geschikt in een datalandschap?
  • Vier verschillende BI-testrollen: Reporting Tester, ETL Tester, Data Migration Tester, Data Quality Tester. Dat is sterk, want een DWH/BI/DA-landschap is breed en divers. De rol waarin je wordt ingezet maakt een enorm verschil voor de skills die je nodig hebt en de tools die je gebruikt
  • Data analyse: Veel aandacht voor Data Profiling, een geweldige en ondergewaardeerde techniek voor het ‘Inside Out’ analyseren van gegevensverzamelingen, die overigens in mijn boek SmarTEST al best goed is uitgelegd
  • Enzovoort, enzovoort

CDAT: gewoon doen!

En nu weer terug naar waar ik mee begon: die CDAT-training is fantastisch om de kennis en vaardigheden op te doen die je als tester nodig hebt voor het bovenstaande. Ik heb hem zelf gevolgd, bij Rogier Ammerlaan en Armando Dörsek. Ere wie ere toekomt, zij zijn de mannen van het eerste uur achter de CDAT-syllabus die je gratis kunt downloaden. Inmiddels ben ik zelf geaccrediteerd docent en via Valori Academy heb ik een eerste groep opgeleid. Tot wederzijds genoegen en met resultaat: tot nu toe hebben alle examens een certificaat opgeleverd.

Wat ik zo heerlijk vind is het ‘walk the talk’ gevoel. Je doet iets concreets met de overtuiging dat testers zich beter moeten profileren in data analytics land. En dat enthousiasme is natuurlijk precies de aanleiding voor deze blog waarvan ik hééél veel aanmeldingen verwacht voor de CDAT-training.

Want je snapt het wel: ik geef deze training graag en daarvoor hebben we aanmeldingen via de Valori Academy of via dit formulier op de site van Brightest nodig. Gewoon even verder praten met een reactie op deze blog mag natuurlijk ook. Ik hoop je te zien in één van de volgende CDAT-trainingen, het wordt een win-win, promise!