Big Data vs Right Data

Vi har talt om det i årevis. Konsulentfirmaer har sagt i lang tid, at vi har brug for det. Måske sigter du endda mod det i din strategi?
Hvad nøjagtigt er Big Data? og hvordan kom vi til at snak så meget om det?
Inden du læser videre, så prøv at besvare følgende spørgsmål for dig selv - ingen snyderi: Hvor mange V’er definerer Big Data?

Big data startede oprindeligt med tre V’er, som beskrevet i big data right data, så var der fem, og derefter ti. Et nyligt offentliggjort artikel fra maj 2019 antyder, at Big Data indeholder 51 V’er [1]
Vi ved ikke med dig, men hvem kan virkelig huske 10 eller endda 51 V? Måske er det derfor, at de fleste fokuserer på et bestemt V: Volumen. Det ser ud til at være blevet selve definitionen af Big Data. Nogle virksomheder henter store mængder data uden at vide formålet med at hente det. Udsagnet: “Vi har muligvis brug for det en dag” er meget almindeligt.
Når vi er på farten har vi mødt virksomheder som har sagt, at de ikke kan begynde at få værdi af deres data, fordi de ikke har store nok datasæt. Vores svar på dette udsagn er altid det samme: hvornår har du så et stort nok datasæt? For hvis vi kun ser på størrelsen på vores datasæt, når vi beslutter, om vores data er tilstrækkelige, hvem bestemmer så, hvornår datasættet er stort nok eller rettere hvilket antal bytes er stort i big data?

Big Data er ikke Right Data

Dette er grunden til, at vi oprigtigt beder dig om at holde op med at tænke på big data og bestemt ikke terabytes eller petabytes. Mængden af data bør ikke være et strategisk mål og volumen bør ikke være en hoveddriver, når du fastlægger kvaliteten af dine data. I stedet vil vi bede dig om at tænke over right data. Right Data handler om at være strategisk med hvilke data, du indsamler, og at have et formål med at indsamle dem. Du starter med at se på din strategi og se, hvilke strategiske mål du har. Baseret på dine strategiske mål bestemmer du, hvilke data du skal indsamle ved at følge disse enkle trin.

Værdi

Begynd med at se på, hvilken værdi du leder efter, ikke falde i fælden af “vi har muligvis brug for dataene en dag” uden at have et formål med det. Der skal være en business case, penge sparet, øget indtjening, bedre ydelse eller bedre sikkerhed. Hvis du har et mål om at reducere uplanlagt nedetid, kan du løse dette ved forskellige tilgange: præventiv vedligeholdelse, tilstandsbaseret vedligeholdelse og prædiktiv vedligeholdelse. I dette trin skal du bestemme, hvilken af følgende vedligeholdelsesmetoder der passer til dit behov, fordi de kræver forskellige typer data og i forskellig frekvens. Det er ikke en god løsning bare at tage den billigste og hurtigste metode, men prøv at analysere omkostningerne til vedligeholdelse, omkostningerne ved nedbrud og omkostningerne til reservedele. I denne analyse finder du din business case og herved, hvilke af de vedligeholdelsesmetoder som passer til din virksomhed.

Kilder

Når vi har bestemt værdien, er det på tide at beslutte, hvilke data der skal indsamles. Det er her korrelation er vigtigt. Vi har brug for nogle data, der kan sige noget om det resultat, vi ønsker at forudsige.
Det er ikke nødvendigvis bedre at indsamle data fra 100 forskellige kilder end kun en håndfuld. 10 features, der er meget korrelerede med det output vi leder efter, er bedre end 40 med en meget lav korrelation.
Dette er ikke altid lige til for os som mennesker at finde ud af dette, så du bliver sandsynligvis nødt til at gøre nogle eksperimenter for at finde ud af, hvad der er vigtigt og hvad som ikke er. Dette eksperiment kan være: Samel en lille mængde data af alt hvad du synes er vigtigt, og kontroller derefter sammenhængen mellem featurene, dette vil hjælpe dig med at finde ud af, hvad der er vigtigt, og hvad der ikke er baseret på data. Vi kan ikke tackle vigtigheden af at være selektiv med hensyn til hvilke data vi skal indsamle fra starten. Det er en skam at have fire års data, der ikke er noget værd, fordi en eller to vigtige features endnu ikke er blevet opsamlet, eller hyppigheden af dataene er forkert.

Hastighed og Frekvens

Hastigheden for hvilke data der skal hentes, bestemmes af den værdi, du ønsker at opnå, og den business case, som du opdagede. Årsagen til, at du skal bruge mere tid på at bestemme, hvilken værdi du ønsker at opnå, er at det handler om at hente de rigtige data til det rigtige problem - men hvis frekvensen er for lav til at bruge dataene, kan det være et enormt spild af tid, omkostninger, og energi. Sørg for, at du investerer i de rigtige sensorer til din udfordring, og vær ambitiøs. Det er let at downsample data fra en gang pr. minut til en gang i timen, men umuligt at gøre det omvendt.

Repræsentativitet

I Right Data fokuserer vi på, om du har et repræsentativt datasæt.
Et repræsentativt datasæt er et datasæt, hvor alle mulige resultater præsenteres.
Hvis din virksomhed er interesseret i forudsigelig vedligeholdelse, betyder et repræsentativt datasæt, at du har observeret 5-10 nedbrud i dine data.
Du skal desuden sørge for, at dine data er uvildige og veldokumenterede. Hvis du ønsker at forudsige remaining useful life for et komponent, skal du sørge for at have en veldokumenteret vedligeholdelsesjournal. Hvilken dato og tid udførte du vedligeholde og hvad var grunden til at vedligeholdelsen? Dette er nødvendigt i næsten alle tilfælde for at kunne validering den nye tilgang til vedligehold.

Størrelse

Størrelse er den mindst vigtige variabel, da den bestemmes af, om dataene er repræsentativ. Når du har et repræsentativt datasæt, har du den tilstrækkelige datastørrelse til at begynde at få værdi af det. Du har ikke brug for big data eller store datamængder, vi har bevist dette flere gange i vores tidligere blogindlæg og hos vores kunder.
I datasættet hvor vi forsøger at se om en tumor er godartet eller ondartet, havde vi 569 observationer og fik en trænings- og testnøjagtighed på 98,69% og 96,23%.
I et andet eksempel hentede vi data fra en vandpumpe, vi oplevede 7 nedbrud inden for de første fem-seks måned. Dette udgør et repræsentativt datasæt.

neurospace’s AI Camp

Hvis du er interesseret i at lære mere om koncepterne Big Data vs Right Data, og hvordan dette kan fungere i din virksomhed, er AI Campen et godt sted at starte din datarejse.

// Maria Hvid, Machine Learning Engineer @ neurospace

Referencer

[1] Khan et al. (2019) The 51 V’s of Big Data: Survey, Technologies, Characteristics, Opportunities, Issues and Challenges. COINS'19: Proceedings of the International Conference on Onmi-Layer Intelligent Systems pp. 19-24.