Hoe bouw je een Marketing Data Hub — De Modern Data Stack voor Marketing

Krisjan Oldekamp— 
Turntwo

De Modern Data Stack; één grote stekkerdoos. Een cloud data warehouse met daaromheen verschillende specialistische Software-as-a-Service (SaaS) tools: de basis voor een Marketing Data Hub. Denk aan het samenbrengen van verschillende databronnen in een data warehouse of het operationaliseren van de data in marketing kanalen of andere systemen (Composable CDP). Maar hoe stel je nou zo’n moderne data stack samen en op welke manier kan marketing hier van profiteren?

De moderne data stack bestaat uit verschillende best-of-breed oplossingen die ieder in een stuk functionaliteit voorzien. Zie het als een modulair systeem waarvan je de bouwblokken relatief eenvoudig kunt toevoegen of vervangen.

Dit is een herziene versie van het artikel dat in 2022 op Emerce verscheen.

Data- en marketing-‘technology stack’ groeien naar elkaar toe

Binnen de moderne data stack draait het niet alleen om het verzamelen van data in een centrale database (data warehouse), zodat alleen analisten of datawetenschappers hun werk kunnen doen. Datademocratisering – iedereen in de organisatie toegang tot goede data – en daarmee het kunnen operationaliseren van de data zijn steeds meer een vast onderdeel van het systeem, de stack.

Afbeelding: Van inzicht naar actie

Data uit het warehouse kunnen geautomatiseerd gekoppeld en geactiveerd worden in andere systemen (zoals marketing kanalen of CRM systemen). Dus de data gaan niet alleen het warehouse in, maar gaan er ook uit (operationalisatie). En dit is niet enkel een tech-feestje. Zo zijn er bijvoorbeeld tools waarmee niet-technische gebruikers bijvooorbeeld eenvoudig doelgroepen bij elkaar kunnen klikken en deze  geautomatiseerd kunnen delen met een marketing automation tool of Google Ads. Dit alles gebaseerd op de al aanwezige data in het data warehouse. Deze ontwikkeling is tegenwoordig als het Composable Customer Data Platform (CDP).

Afbeelding: Screenshot van Hightouch (Reverse ETL), waarbij je audiences kan maken op basis van data in je cloud data warehouse.

Ook zijn componenten als datatransformatie, governance en self-service business intelligence in de meeste gevallen een vast onderdeel binnen de Modern Data Stack. Feit is dat de data- en de marketing-technology stack steeds meer naar elkaar toe groeien.

De opkomst van de "Modern Data Stack"

Aan de opkomst van de moderne data stack liggen een aantal ontwikkelingen ten grondslag:

  1. De verschuiving van on-premise naar cloud-native data warehouses (denk aan analytische databases zoals Amazon Redshift, Snowflake of Google BigQuery).

  2. De opkomst van SaaS-tools en services binnen cloudomgevingen die als bouwblokken op elkaar gestapeld kunnen worden.

  3. De opkomst van self-service business intelligence tools om data voor iedereen binnen een organisatie beschikbaar te maken (datademocratisering).

Het grote voordeel van de moderne data stack is dat het minder complex is geworden om een dergelijk systeem op te tuigen. Er is geen leger aan data engineers nodig om de bouwblokken op elkaar te zetten. Dit betekent overigens niet dat de rol van de data-engineer overbodig is geworden, integendeel. Het maakt het leven van de data engineer wel makkelijker.

Door tooling die gekoppeld kan worden in de stack kunnen eindgebruikers zelf met de data aan slag. Zowel het verkrijgen van inzichten als het operationaliseren van de data. En denk hierbij niet alleen aan de analisten maar ook aan de marketing-, sales- of operations-teams.

Een ander pluspunt is dat het systeem modulair is opgebouwd en de kosten vaak afhankelijk zijn van hetgeen je gebruikt. Voor zowel kleine als grote organisaties is een moderne data stack uitermate geschikt: er kan worden uitgebreid indien noodzakelijk, zowel qua schaal als functionaliteit. Maar uit welke onderdelen bestaat zo’n moderne data stack en waar begin je met bouwen?

De onderdelen van een Modern Data Stack

Grofweg kun je de stack onderverdelen in onderstaande categorieën, welke ik stapsgewijs zal toelichten:

  1. Data integratie

  2. Dataopslag en -transformatie (ELT)

  3. Data-analyse en -visualisatie

  4. Data-activatie / -operationalisatie

  5. Data-governance en -kwaliteit

Afbeelding: De moderne (marketing)-data stack - 5 onderdelen

Per stap noem ik (willekeurig) een aantal aanbieders. Uiteraard is er meer keuze, de overzichten van Castor of Snowplow geven een meer compleet beeld van alle beschikbare SaaS-tools.

1. Dataintegratie: importeren van bronnen naar het data warehouse

Zoals al eerder genoemd is het een stuk eenvoudiger geworden om alle verschillende databronnen binnen je organisatie te koppelen met het data warehouse, zonder dat hiervoor een leger aan IT-specialisten en data-engineers nodig is. Dit neemt niet weg dat een data-engineer alsnog erg waardevol is.

De tools die op de markt zijn bevatten veelal 100 of meer kant-en-klare connectors. Denk aan het binnenhalen van marketingperformancedata uit Facebook, Google of Linkedin, maar ook CRM-data uit Hubspot, Salesforce of Shopify. Dit alles kan geconfigureerd worden zonder al te veel technische kennis. Al is het aan te raden om bij de inrichting iemand met kennis van zaken mee te laten kijken. Een aantal populaire aanbieders van data integratie-tools:

  • Fivetran

  • Stitch

  • Adverity

  • Airbyte (open-source)

  • Mattilion

  • Keboola

Deze tools sturen hebben als eindbestemming de analytische database in het cloud data warehouse.

Niet alleen klantdata

Omdat we het ook hebben over Composable Customer Data Platforms (CDPs), kan het de indruk wekken dat er enkel klantdata wordt geïmporteerd. Echter is dit absoluut niet het geval. Enkele voorbeelden zijn performance data uit de marketing kanalen, product en pricing data, socio/demografische data, weerdata etc.

2. Dataopslag en -transformatie

In het hart van de moderne data stack staat de (cloud-native) analytische database. Dit type databases zijn geschikt om snel enorme hoeveelheden data te kunnen analyseren. De meest bekende producten zijn:

  • Snowflake

  • Google BigQuery

  • Amazon Redshift

  • Azure Synapse / Fabric

Bijna alle dataintegratie-tools benoemd onder het vorige kopje ondersteunen de bovenstaande databases als eindbestemming. Uit ervaring weten we dat de keuze tussen de verschillende databases lastig kan zijn, al liggen de capaciteiten niet heel ver uit elkaar. Voor een uitstekende vergelijking raad ik aan dit artikel van Rogier Werschkull eens te bekijken.

Om de data consistent en bruikbaar te maken in de rest van de keten, is het belangrijk dat de data getransformeerd worden (denk aan het opschonen en samenvoegen). Omdat de cloud-native analytische databases zo krachtig zijn, is het prima mogelijk om de ongetransformeerde data (as-is) in te laden naar het data warehouse en datatransformatie pas een stap later op te pakken. Van ETL naar ELT (Extract, Transform Load naar Extract, Load, Transform). Dit haalt een stuk functionaliteit weg bij de dataintegratie-tools uit het vorige hoofdstuk. Alle datatransformatie komt daarmee op één plek te liggen in plaats van deels in het integratieproces en deels in het data warehouse.

Veelgebruikte datatransformatie-tool die het leven van de data-engineers en de analisten een stuk makkelijk maakt, is dbt en Google's Dataform.

3. Data-analyse: naar een ‘self-service’ model

Data beschikbaar maken voor iedereen binnen de organisatie is een belangrijke manier om een data-driven cultuur te creëren. Dus ook zonder technische kennis van bijvoorbeeld SQL moet het eenvoudig zijn om de gewenste data te verkrijgen. Het is dus zaak om een moderne business intelligence tool te selecteren die integreert met cloud-native databases. De meeste tools bieden inmiddels self-service functionaliteit waarin de eindgebruiker zijn of vragen vragen met behulp van data op kan lossen. Denk aan het eenvoudig verkennen van databronnen of verder kunnen verdiepen van informatie in bestaande rapportages. Bekende aanbieders zijn:

  • Looker / Looker Studio

  • Tableau

  • PowerBI

  • Qlik

  • Apache Superset (open source)

  • Metabase (open source)

Maar hoe mooi zou het zijn om niet enkel te kunnen analyseren maar de data ook direct en geautomatiseerd te kunnen gebruiken in bijvoorbeeld je marketingkanalen of CRM, en daarmee dus eigenlijk ook onderdeel te worden van de marketing-technology stack?

4. Data operations: activeer data vanuit het data warehouse

Rond 2021 zijn tools die data vanuit een data warehouse te kunnen operationaliseren enorm populair geworden. Dit wordt ook wel Reverse ETL genoemd. Reverse ETL doet inderdaad precies het tegenovergestelde als ETL (Extract, Transform, Load): data uit je data warehouse weer terugbrengen naar de bron of andere systemen.

Dit heeft niet enkel voordelen voor marketing, maar bijvoorbeeld ook voor sales of HR. Denk aan het automatisch aanmaken van Google Ads of Facebook audiences, aanvullen van inzichten in een CRM-systeem (360º customer view) of het personaliseren van e-mailcampagnes. Tools zijn bijvoorbeeld:

  • Census

  • Hightouch

Van inzicht naar actie

Afbeelding: Marketing Data Hub: Van inzicht naar actie

De basis voor een Composable CDP

Reverse ETL zorgt er eigenlijk ook voor dat de moderne data stack de concurrentie aangaat met stand-alone Customer Data Platforms (CDP’s). Je zou de Marketing Data Hub dan ook kunnen zien als de basis voor een Composable CDP.

5. Data-‘governance’ en -kwaliteit: inzicht in je data

De laatste maar zeker niet de minste stap: data-governance en datakwaliteit. Vertrouwen in de data is de namelijk een van de belangrijkste componenten om het hele systeem te laten slagen. Dit is dan ook een categorie waar momenteel veel ontwikkeling plaatsvindt en die in 2022 een vogelvlucht zal namen. Grofweg zijn er in deze categorie twee type tools. De data catalogs en de data quality & observability tools.

Data catalogs

Hoe weet je nou uit welke databron een bepaalde dashboard-metric komt? Of als we het omdraaien, als tabel X gewijzigd wordt, op welke dashboards of systemen heeft dit potentieel invloed? Om dit in kaart te brengen zijn er data catalogs. Deze tools brengen verschillende databronnen, -tabellen, -dashboards of andere makers of gebruikers van data in kaart en linken deze aan elkaar (data lineage). Daarnaast is er vaak de mogelijkheid om documentatie toe te voegen en de hele catalogus te doorzoeken. Om een aantal tools te noemen:

  • Atlan

  • Apache Atlas

  • Amundsen

  • DataHub

Data quality & observability

Naast inzicht en documentatie, kunnen de verschillende databronnen ook automatisch gemonitord worden. Dit kan enerzijds op basis van machine learning die automatisch afwijkingen in de data constateert dan wel het handmatig toevoegen van controles (mist er bijvoorbeeld een cruciaal veld of is de data in de afgelopen 24 uur wel bijgewerkt). Bij afwijkingen kunnen er alerts verstuurd worden, bijvoorbeeld via email en/of Slack. Tools zijn:

  • Monte Carlo

  • Soda

  • Elementary (voor dbt)

Stap voor stap: begin met de business cases

De beste tip die we kunnen geven: begin met een business case. The Modern Data Stack leent zich er uitstekend toe om op die manier te werk gegaan. Niet elke bron hoeft vanaf het begin gekoppeld te worden. Begin daarom met een of een aantal eerste business cases en bouw vervolgens verder. Op die manier kun je snel waarde en draagvlak creëren. Laat ook zien dat het niet alleen een tech-aangelegenheid is. Met de juiste set-up zou de output laagdrempelig beschikbaar moeten zijn voor de hele organisatie, zowel qua inzichten als het operationeel maken van data binnen alle onderdelen van de organisatie.

In het begin zullen er zeker een aantal fundamentele keuzes gemaakt moeten, maar vervolgens kan er stapsgewijs uitgebreid worden. Doe in deze fase gedegen onderzoek, betrek de juiste mensen en zorg voor de juiste kennis aanwezig is om zo een solide fundament neer te zetten.

Blijf up-to-date!

Interessant artikel? Schrijf je in en ontvang een email bij nieuwe artikelen of updates. Geen spam en uitschrijven kan altijd!