Data is voor veel bedrijven de motor achter innovatie en besluitvorming. Naarmate organisaties groeien, neemt ook de hoeveelheid data toe, net als de complexiteit van het beheren en gebruiken ervan. Traditionele data-architecturen, zoals data/delta lakes en data warehouses, kunnen moeite hebben om deze groei bij te benen. Hier komt data mesh in beeld – een moderne benadering die bedrijven helpt om hun data op een schaalbare en flexibele manier te organiseren. In dit artikel leggen we uit waarom data mesh belangrijk is, hoe je het eenvoudig en praktisch kunt opzetten, en hoe je kunt beginnen met de implementatie.
Data Mesh legt het eigenaarschap van data via zogenoemde dataproducten terug aan de business. Het is een verandering in mindset die afstapt van de traditionele monoliet mindset, waarbij een enkel team vaak alles afhandeld van ingestie, verwerking en serveren. Op kleine schaal werkt dat, maar brokkelt al snel af op grotere schaal. Door de business in de lead te maken van de dataproducten, wordt de afstand verkort, wordt de scope helderder en kan het IT-team veel beter ondersteunen in “hoe” het gebouwd moet worden en “wat” in plaats van dat ze ook de “waarom” moeten verzinnen.
Waarom data mesh belangrijk is
Data mesh biedt een oplossing voor de uitdagingen die ontstaan bij het opschalen van traditionele data-infrastructuren. Een van de grootste problemen bij oudere architecturen is dat ze vaak gecentraliseerd zijn. Dit betekent dat er een centraal team verantwoordelijk is voor het verzamelen, opslaan en beheren van alle data binnen de organisatie. Dit kan leiden tot vertragingen, bottlenecks en inefficiënties.
Source: DBT Labs
Data mesh draait om het idee dat data gedecentraliseerd wordt beheerd. In plaats van één centraal team, ligt het eigenaarschap van data bij de teams die het het beste begrijpen: de domeinen. Een domein is een functioneel gebied binnen een organisatie, zoals sales, marketing of logistiek. Elk domein is verantwoordelijk voor zijn eigen data, wat leidt tot snellere toegang, hogere kwaliteit en een meer flexibele manier van werken.
Source: DBT Labs
Belangrijk is dat data mesh data behandelt als een product. Dit betekent dat elk domein ervoor zorgt dat hun data goed georganiseerd, beschikbaar, schaalbaar en bruikbaar is voor anderen binnen de organisatie. Dit maakt data toegankelijk voor iedereen die het nodig heeft, zonder dat ze afhankelijk zijn van een gecentraliseerd IT-team.
Eenvoudig en praktisch starten met data mesh
Het opzetten van een data mesh kan intimiderend klinken, maar door de juiste focus te leggen op proces, governance en eigenaarschap kun je een schaalbare, effectieve infrastructuur bouwen. Hier zijn enkele stappen om data mesh eenvoudig en praktisch op te zetten.
In een data mesh-model is data-eigendom gedecentraliseerd. Dit betekent dat elk domein verantwoordelijk is voor zijn eigen data en deze beheert alsof het een product is. Om dit effectief te maken, moet elk domein worden uitgerust met de juiste tools en kennis om hun data te beheren, onderhouden en delen. Dit vereist duidelijke afspraken over wie wat beheert en hoe data wordt gepubliceerd binnen het netwerk van de organisatie.
Een belangrijk aspect van data mesh is dat de technische verantwoordelijkheid niet per se bij een centraal IT-team ligt. De domeinen die het best begrijpen hoe de data werkt en hoe deze moet worden gebruikt, krijgen het eigenaarschap. Dit helpt om snellere toegang tot bruikbare data te bieden.
Goede governance is cruciaal in een data mesh. Dit betekent dat er duidelijke regels en afspraken moeten zijn over hoe data wordt gedeeld, beveiligd en geconsumeerd. Dit kun je bijvoorbeeld vastleggen in officiële data contracten. Om consistentie en kwaliteit te garanderen, zijn er centrale richtlijnen nodig, maar het beheer en de verantwoordelijkheid blijven bij de domeinen.
Denk bijvoorbeeld aan het documenteren van metadata (zoals de oorsprong en betekenis van data), het naleven van wettelijke vereisten zoals AVG, en het waarborgen van de kwaliteit van de data. Het implementeren van data governance voorkomt dat domeinen in silo’s werken, en zorgt ervoor dat de data bruikbaar is voor anderen binnen de organisatie.
Een van de kernprincipes van data mesh is de self-service infrastructuur. Gebruikers binnen de organisatie moeten eenvoudig toegang hebben tot de data die ze nodig hebben, zonder dat ze afhankelijk zijn van een IT-team. Dit vereist het opzetten van tools en platformen die gebruikers in staat stellen om data te ontdekken, te consumeren en te analyseren. Bij datahub gebruiken we hier bijvoorbeeld Databricks en DBT (Data Build Tool) voor. DBT is een zeer krachtige open-source oplossing om onder andere data mesh mee in te richten.
Hier is het van belang om te zorgen dat de juiste technologieën worden gekozen die passen bij de behoeften van je organisatie. Denk hierbij aan cloudplatformen die schaalbare opslag en verwerking bieden, evenals tools die gebruikers gemakkelijk toegang geven tot data, zoals data catalogi en analyseplatformen.
Granulatireit van data binnen data mesh
In een data mesh kan data op verschillende niveaus van granulariteit beschikbaar worden gesteld, afhankelijk van het domein en de use case. Granulariteit verwijst naar hoe gedetailleerd of samengevat de data is.
Een voorbeeld van granulariteit is een domein zoals HR, dat data over “personeelsverloop” aanbiedt op maandniveau en “zieteverzuim” op dagniveau, terwijl een ander domein zoals Sales verkoopdata aanbiedt op dagniveau, maar NPS weer op weekniveau. Dit verschil in granulariteit kan uitdagingen opleveren wanneer data van verschillende domeinen gecombineerd moet worden.
DDGs
Binnen datahub hebben we hier een speciaal type visualisatie voor ontwikkeld, zogenoemde DDGs (Data Domein Granulariteitsgrafieken). Deze DDGs geven een visuele representatie van het beschikbare niveau van data binnen een domein, subdomein of zelfs binnen een schema. Dit maakt het eenvoudiger voor data consumenten om te begrijpen welk niveau aan data beschikbaar is voor ze. De informatie achter de DDGs wordt opgeslagen in het dataplatform zelf, waardoor het dynamisch gevisualiseerd kan worden in iedere gewenste tool én het eigenaarschap weer komt te liggen bij de eigenaar van het data domein of het data product.
Een voorbeeld van een Data Domein Granulariteitsgrafiek, afgekort DDG. Source: datahub Lab.
Het is belangrijk dat gebruikers begrijpen op welk niveau de data beschikbaar is en hoe deze gebruikt kan worden. Duidelijke documentatie over de granulariteit van elk data product is essentieel om verwarring en fouten te voorkomen. Een goede praktijk is om domeinen te stimuleren om hun data in meerdere granulariteiten aan te bieden, zodat gebruikers zelf kunnen kiezen welk detailniveau het beste past bij hun analyse.
Begin met data mesh
Het starten met data mesh hoeft niet ingewikkeld te zijn, maar vraagt wel om een gefaseerde aanpak. Hier zijn de belangrijkste stappen:
- Identificeer domeinen: Begin met het in kaart brengen van de verschillende domeinen binnen je organisatie. Welke afdelingen of teams hebben eigen datasets die waardevol kunnen zijn voor anderen?
- Geef eigenaarschap: Wijs data-eigenaren aan binnen elk domein. Zorg ervoor dat deze teams de juiste training en tools krijgen om hun data als een product te beheren.
- Implementeer governance: Zet duidelijke governance-richtlijnen op die zorgen voor consistentie en kwaliteit binnen de data mesh. Maak afspraken over hoe data gedeeld, gedocumenteerd en beveiligd wordt.
- Bouw de infrastructuur: Zorg voor een schaalbare infrastructuur die gebruikers toegang geeft tot de data die ze nodig hebben. Dit kan een combinatie zijn van cloudopslag, data catalogi en self-service analytics tools.
- Begin klein en schaal op: Het is verleidelijk om meteen groot te beginnen, maar data mesh werkt het best als je klein begint. Kies één of twee domeinen om mee te starten en schaal daarna op naarmate je meer ervaring opdoet.
Conclusie
Data mesh biedt een oplossing voor veel van de uitdagingen die traditionele data-architecturen hebben bij het opschalen van organisaties. Door eigenaarschap te decentraliseren, data te behandelen als een product en een self-service infrastructuur te bieden, kunnen bedrijven sneller en flexibeler omgaan met hun data. Granulariteit speelt hierbij een belangrijke rol, en door inzicht te bieden in de verschillende niveaus waarop data beschikbaar is, kunnen gebruikers eenvoudig de juiste data voor hun analyses kiezen.
Het implementeren van een data mesh begint bij het identificeren van domeinen, het toewijzen van eigenaarschap en het opzetten van een goede governance. Met de juiste infrastructuur en een stapsgewijze aanpak kan elke organisatie beginnen met het benutten van de kracht van een data mesh.