AI zonder metadata is kansloos, metadateren zonder AI is monnikenwerk

In de huidige digitale wereld speelt metadatering een cruciale rol in de manier waarop data wordt beheerd en benut. Nou ja, eigenlijk is dat al véél langer het geval natuurlijk. Op het moment dat ik 21 jaar geleden (oef!) mijn afstudeerscriptie schreef over dit onderwerp stond het ook vol in de aandacht. Het metadateren van data is en blijft ontzettend belangrijk, maar was nauwelijks onder de aandacht bij alle organisaties waar ik de afgelopen 20 jaar een kijkje heb genomen in de keuken. Zonder metadata (data over de data) kunnen we bijvoorbeeld data niet goed terugvinden.
Nu we ‘allemaal’ heel druk zijn met het serieus toepassen van Artificial Intelligence (AI) popt het onderwerp weer opnieuw op. Voor een data-verantwoordelijke (Chief Data Officer of Enterprise Data/Informatie Architect) in data verwerkende organisaties is het essentieel om te begrijpen hoe metadatering de inzet van Artificial Intelligence (AI) kan optimaliseren én hoe AI juist kan bijdragen aan het proces van metadateren. In deze blog zal ik de belangrijkste aspecten van metadatering en AI uiteenzetten, en hoe dit elkaar kan versterken om waardevolle inzichten en efficiëntie te bieden.
Wat is metadatering?
Metadateren verwijst naar het proces van het toevoegen van beschrijvende, structurele en administratieve data aan de daadwerkelijke data. Deze metadata helpt bij het identificeren, beheren en vinden van data. Denk aan metadata als de labels en tags die aan een dataset worden toegevoegd om bijvoorbeeld de inhoud, context en structuur ervan te beschrijven. Voor data verwerkende organisaties is het cruciaal om een aanpak te hebben t.a.v. metadateren om op die manier de integriteit en toegankelijkheid van data te waarborgen.
De rol van AI in Data Management
AI heeft de manier waarop we data verwerken en analyseren revolutionair veranderd. AI-algoritmen kunnen enorme hoeveelheden data doorzoeken, patronen herkennen en voorspellingen doen die voorheen ondenkbaar waren. Echter, de effectiviteit van AI hangt sterk af van de kwaliteit en toegankelijkheid van de data die het gebruikt (zie ook mijn vorige blog gerelateerd aan dit onderwerp: AI succesvol inzetten in je organisatie? Investeer in Data Management – Solventa).
Metadatering versterkt AI
Op verschillende vlakken komt dit tot uiting:
- Verbeterde data kwaliteit: Metadata zorgt ervoor dat data goed georganiseerd en gemakkelijk te vinden is. Dit betekent dat AI-modellen toegang hebben tot schone, goed gedefinieerde datasets, wat de nauwkeurigheid en betrouwbaarheid van hun output verbetert.
- Efficiëntie in data ontsluiting: Met goed gestructureerde metadata kunnen AI-systemen sneller en efficiënter de benodigde data vinden. Dit vermindert de tijd die nodig is voor data-preprocessing en versnelt het hele analyseproces.
- Contextuele inzichten: Metadata biedt contextuele informatie die AI helpt om data beter te interpreteren. Bijvoorbeeld, door te weten wanneer en door wie een dataset is gemaakt, kan een AI-systeem beter begrijpen hoe de data moet worden geanalyseerd en toegepast.
- Compliance en governance: In een tijdperk van strenge regelgeving rond data privacy en beveiliging, helpt metadata bij het bijhouden van de herkomst en het gebruik van data. Dit zorgt ervoor dat AI-systemen kunnen voldoen aan wettelijke vereisten en het biedt kansen om het ook nog eens op een ethisch verantwoorde manier te doen (al is dat uiteraard ook van vele andere factoren afhankelijk).
Uitdagingen
Hoewel de voordelen van metadateren echt wel duidelijk zijn, is het belangrijk om te erkennen dat de data verantwoordelijke vaak nog een hele hoop andere ontwikkelingen, initiatieven en projecten op zijn actielijst heeft staan. Het op orde brengen van de basisinfrastructuur (bijvoorbeeld het applicatielandschap), het neerzetten van een dataplatform en het waarborgen van de operationele continuïteit krijgen bijvoorbeeld vaak voorrang.
Het opzetten van een weloverwogen organisatiebreed plan voor het metadateren van data krijgt daardoor vaak niet de prioriteit die het verdient. Daarnaast heeft deze verantwoordelijke architect uiteindelijk niet de verantwoordelijkheid over het aanbrengen van de metadata. Een verantwoordelijke vanuit een domein/afdeling (noem het ‘business owner’) zou hier voor aangewezen moeten worden. Deze persoon is naast voor de kwaliteit van de data zelf ook verantwoordelijk voor de kwaliteit van de metadata. Ook bij deze business owner moet deze activiteit prioriteit krijgen, voordat er daadwerkelijk het gewenste resultaat ontstaat. Best een opgave dus!
Praktische toepassingen
Maar er is ook goed nieuws! Voor een organisatie die hier nu serieus mee aan de slag wil zijn er verschillende manieren om metadateren een boost te geven mét de inzet van AI. Dit is wel prettig want handmatig metadateren is monnikenwerk en eigenlijk heeft niemand hier zin in (en in ieder geval geen tijd voor). Het volgende is wijs om in te richten:
- Automatische metadatering: AI kan worden gebruikt om automatisch metadata toe te voegen aan nieuwe datasets. Dit kan door middel van natuurlijke taalverwerking (NLP) en machine learning-algoritmen die de inhoud van de data analyseren en relevante metadata genereren.
- Metadata management tools: Er zijn verschillende tools beschikbaar die AI gebruiken om metadata te beheren en te optimaliseren. Deze tools kunnen helpen bij het identificeren van ontbrekende metadata, het opschonen van bestaande metadata en het verbeteren van de algehele metadata-kwaliteit.
- Data catalogus: Een data catalogus is een centrale opslagplaats voor metadata die AI kan gebruiken om data te vinden en te analyseren. Door een data catalogus te implementeren, kunnen organisaties ervoor zorgen dat hun data consistent en toegankelijk is voor AI-toepassingen.
Een aantal voorbeelden van applicaties die dit nu faciliteren zijn Microsoft Purview, AWS Glue Data Catalog, Collibra en Data.world.
Conclusie
Metadatering en Artificial Intelligence zijn onlosmakelijk met elkaar verbonden. Wanneer het elkaar versterkt kan de manier waarop data wordt beheerd en benut drastisch verbeterd worden, dit kan leiden tot diepere en meer waardevolle inzichten uit de data. Het onderwerp moet dus op de agenda komen, zeker als je hard aan de slag wil met AI. Maak het onderdeel van de (data)strategie, de (data)governance, de (data) architectuur en de operationele uitvoering.