Print This Post

Ongestructureerde gegevens in de informationele omgeving zijn helemaal hip. DB/M wijdde er in maart van dit jaar een themanummer aan, Bill Inmon ruimt er een prominente plaats voor in in zijn DW 2.0, IBM timmert aan de weg met het UIMA-framework , en inmiddels zijn er diverse commerciële producten beschikbaar die zich hierop richten.
Hip of niet, ik zie nog wel wat haken en ogen. Al was het alleen maar dat alle airplay eromheen voornamelijk over de technologiekant gaat, dus over het “hoe”. Het “waarom” komt nog onvoldoende uit de verf.

Must have?

Zo stelt Erwin Vorwerk in het DB/M-themanummer dat volgens analisten meer dan 80% van alle beschikbare data in de categorie “ongestructureerd” valt: “[...] steeds meer directies realiseren zich dat hun Business Intelligence zich beperkt tot slechts 20 procent van de binnen een onderneming aanwezige data en dat men dus op basis van een beperkte blik beslissingen neemt. Daarmee neemt de vraag naar geïntegreerde data toe.”
Leidt ontsluiting van slechts 20% van alle data automatisch tot een beperkte blik? Anders gezegd: leidt 100% gegevensontsluiting automatisch tot betere besluitvorming? Ook als de percentages kloppen (hoe zijn die eigenlijk bepaald? Welke grootheden zijn er met elkaar vergeleken? aantallen bytes? aantallen records versus aantallen documenten?), zeggen ze op zichzelf nog niets: meer is niet altijd beter. Veel belangrijker is de kwaliteit en het relatieve belang van de gegevens, en daarmee de waarde die ze toevoegen aan de BI-omgeving.
Gestructureerde data ontsluiten we niet zomaar voor de heb, dat doen we alleen als we denken dat we er een concrete informatiebehoefte mee denken te vervullen, nu of in de toekomst. Voor ongestructureerde data zou hetzelfde moeten gelden - welk percentage van het totaal ze uitmaken, is daarbij niet relevant.

First things first

Daarmee wil ik overigens niet zeggen dat ongestructureerde informatie per definitie nutteloos is voor informationele doeleinden - hoewel ik er nog geen requirement voor ben tegengekomen, kan ik me voorstellen dat die er wel degelijk kan zijn. Maar ik vraag me af of we niet te veel tegelijk willen: de meeste organisaties hebben immers nog hun handen vol aan het leggen van een solide informationele basis met gestructureerde data (en lopen daarbij tegen de nodige moeilijkheden op). Zelfs de organisaties die op dat gebied voorop lopen, zijn nog maar net begonnen met het uitnutten van hun BI-omgeving. Want hij mag dan “maar” 20% van de totale gegevensverzameling omvatten, het is wel een goudmijn aan onontdekte informatie. Eentje die zich bij uitstek leent om er advanced analytics op los te laten, om maar iets te noemen.

Zijn we wel aan nieuwe avonturen met ongestructureerde data toe? Het is al een uitdaging op zich om het maximale uit de reguliere BI-omgeving te halen - ook zonder ongestructureerde gegevens valt daar voorlopig nog voldoende return on investment te oogsten.


Print This Post
  • email
  • del.icio.us
  • Twitter
  • LinkedIn
  • Digg
  • Facebook
  • Google Bookmarks
Trackback URI: http://blog.grey-matter.nl/ongestructureerde-gegevens-zin-of-onzin/trackback/

Back to home page
« 4 misverstanden omtrent de single... Data Vault en brononafhankelijkheid »
3 Responses to “Ongestructureerde gegevens: zin of onzin?”
 

Ungestructureerde informatie….heeft bij mij een hoog BI 2.0 - blabla gehalte. Heb vaak ook het gevoel dat de enige die er over praten is de ‘industry’ zelf.

En helemaal eens met de mening dat we nog zo ontiegelijk veel te doen hebben om zoveel mogelijk te halen uit onze reguliere omgeving die we vaak nog lang niet op orde hebben.

En sorry Erwin…ik heb je stuk ook gelezen en ik zou toch graag het directielid spreken dat zegt dat de BI vandaag de dag niet voldoende is en dat de ongestructureerde kant erg belangrijk is……geloof het gewoon niet….

Ronald

Ronald Damhof wrote on June 27th, 2008 at 08:31

 

Uit recent wereldwijd onderzoek van Accenture onder 167 CIO’s van grote organisaties blijkt dat 67% van de CIO’s ongestructureerde data specifiek op de informatie management agenda hebben staan, met name om de business intelligence de verbeteren.

Erwin Vorwerk wrote on July 1st, 2008 at 06:15

 

Erwin,

Dit is precies het soort onderzoek waar het toch begint te jeuken bij mij. Ik kan hier helemaal niks mee. Hoe is deze vraag gesteld? “Acht u ongestructureerde informatie een grote bron om BI op toe te passen?”

Hoe kun je het daar niet mee eens zijn????? Dat is hetzelfde vragen als: “Bent u van mening dat de BI functie in uw bedrijf toegevoegde waarde moet leveren”
of
“Bent u van mening dat de de BI functie binnen uw bedrijf gebruikersvriendelijker moet?”

Probleem met dit soort vragen is dat het verboden moet worden om hier conclusies uit te trekken. Het zegt namelijk geen moer….

Verder reageer je niet op mijn statement dat er maar heel weinig voorbeelden zijn van vooral grotere enterprises die een succesvolle BI functie hebben neergezet. Daar nu aankomen met het statement dat ze de ongestructureerde data moeten ontsluiten (en nog erger - later we er Gooogle opzetten—-zucht)is net zoiets als het bouwen van de schoorsteen als er geen huis is….of laten we een dashbord neerzetten voor de board, een CPM (of BSC)oplossing neerzetten en intussen nog geen Enterprise data management oplossing hebben….of een succesvol BICC in de retail de nek omdraaien terwijl er een uniek succesvol EDW is neergezet met proven value (sorry…geen goed voorbeeld).

Reageer hier nogal vel op omdat hier behoefte wordt verkocht (”ongestructureerde informatie moet je mee bezig - daar zit de echte value - je concurrentie doet het ook - 95% van de data is ongestructureerd en doe je niks mee” - blehhhhhh) en geen business value. Goede voorbeelden vanzelfsprekend daargelaten (ik zie ze heus wel - text scrubben, text mining, text clustering, text categorisering, etc….kan ontzettend veel value hebben, ze zijn echter vaak een voorbeeld van zeer kleinschalige oplossingen voor een specifiek probleem).

Komt nog bij dat infrastructureel en technisch het ter beschikking stellen van ongestuctureerde data in een Enterprise-context (big enterprise I mean) nog in een pioniers fase zit….

Laten we nu vooral eens ophouden met hypen en zorgen we het kunstje van de gestructureerde data goed onder de knie krijgen..Als we dit al niet kunnen…..

my 2 cents..

Ronald Damhof wrote on September 29th, 2008 at 22:27

Leave a Reply