Ongestructureerde gegevens in de informationele omgeving zijn helemaal hip. DB/M wijdde er in maart van dit jaar een themanummer aan, Bill Inmon ruimt er een prominente plaats voor in in zijn DW 2.0, IBM timmert aan de weg met het UIMA-framework , en inmiddels zijn er diverse commerciële producten beschikbaar die zich hierop richten.
Hip of niet, ik zie nog wel wat haken en ogen. Al was het alleen maar dat alle airplay eromheen voornamelijk over de technologiekant gaat, dus over het “hoe”. Het “waarom” komt nog onvoldoende uit de verf.
Must have?
Zo stelt Erwin Vorwerk in het DB/M-themanummer dat volgens analisten meer dan 80% van alle beschikbare data in de categorie “ongestructureerd” valt: “[...] steeds meer directies realiseren zich dat hun Business Intelligence zich beperkt tot slechts 20 procent van de binnen een onderneming aanwezige data en dat men dus op basis van een beperkte blik beslissingen neemt. Daarmee neemt de vraag naar geïntegreerde data toe.”
Leidt ontsluiting van slechts 20% van alle data automatisch tot een beperkte blik? Anders gezegd: leidt 100% gegevensontsluiting automatisch tot betere besluitvorming? Ook als de percentages kloppen (hoe zijn die eigenlijk bepaald? Welke grootheden zijn er met elkaar vergeleken? aantallen bytes? aantallen records versus aantallen documenten?), zeggen ze op zichzelf nog niets: meer is niet altijd beter. Veel belangrijker is de kwaliteit en het relatieve belang van de gegevens, en daarmee de waarde die ze toevoegen aan de BI-omgeving.
Gestructureerde data ontsluiten we niet zomaar voor de heb, dat doen we alleen als we denken dat we er een concrete informatiebehoefte mee denken te vervullen, nu of in de toekomst. Voor ongestructureerde data zou hetzelfde moeten gelden - welk percentage van het totaal ze uitmaken, is daarbij niet relevant.
First things first
Daarmee wil ik overigens niet zeggen dat ongestructureerde informatie per definitie nutteloos is voor informationele doeleinden - hoewel ik er nog geen requirement voor ben tegengekomen, kan ik me voorstellen dat die er wel degelijk kan zijn. Maar ik vraag me af of we niet te veel tegelijk willen: de meeste organisaties hebben immers nog hun handen vol aan het leggen van een solide informationele basis met gestructureerde data (en lopen daarbij tegen de nodige moeilijkheden op). Zelfs de organisaties die op dat gebied voorop lopen, zijn nog maar net begonnen met het uitnutten van hun BI-omgeving. Want hij mag dan “maar” 20% van de totale gegevensverzameling omvatten, het is wel een goudmijn aan onontdekte informatie. Eentje die zich bij uitstek leent om er advanced analytics op los te laten, om maar iets te noemen.
Zijn we wel aan nieuwe avonturen met ongestructureerde data toe? Het is al een uitdaging op zich om het maximale uit de reguliere BI-omgeving te halen - ook zonder ongestructureerde gegevens valt daar voorlopig nog voldoende return on investment te oogsten.
Trackback URI: http://blog.grey-matter.nl/ongestructureerde-gegevens-zin-of-onzin/trackback/Back to home page
« 4 misverstanden omtrent de single... Data Vault en brononafhankelijkheid »
Ik ben Lidwine van As, sinds 1994 werkzaam in de IT, en actief als 







