I dette blogindlæg vil vi gennemgå de forskellige tilgange til Big Data, definere, hvad big data er, og hvordan man bruger dem til at skabe værdi. Der er mange meninger om, hvordan man håndterer og bruger big data, og virkeligheden er, at mange ikke har en klar idé om mængden af data, der genereres i deres virksomheder.
Med introduktionen til maskinlæring og kunstig intelligens er der opstået et øget behov for store datasæt fra forskellige kilder og i den rigtige kvalitet. Med store datasæt er det muligt at skabe sikre maskinlæringsmodeller, der kan skabe en konkurrencefordel for virksomhederne. Dette vil være en game changer for virksomhederne, både for at forbedre beslutningstagningen, men også for at være mere effektiv i produktionen.
Big Data Definition
Oprindeligt blev Big data defineret af tre V’er:
“….. Høj Volumen, Høj Hastighed, og/eller Høj Varians informationsaktiver, der kræver nye former for behandling for at muliggøre forbedret beslutningstagning, opdagelse af indsigt og procesoptimering” Laney 2001
Høj Volumen defineres som hvor mange observationer der er repræsenteret i et givet datasæt. Nogle artikler definerer volumen som tilfredsstillende med antallet af terabyte eller endda eksabyte. Volumen kan dog ikke defineres som altid at værende tilstrækkelig, når der er x terabyte. Den rigtige mængde afhænger af den enkelte case.
Høj Hastighed defineres som hvor ofte nye data hentes og behandles. Mange maskinlæringsopgaver som prædiktiv vedligeholdelse kræver data med en høj hastighed (sekunder, minutter) for at være tilstrækkelige nøjagtige.
Høj Varians defineres som de forskellige datatyper: strukturerede, semistrukturerede og ustrukturerede data såsom tekstfiler, billeder, sensordata, webdata osv.
Efterhånden som årene går, er flere V’er blevet introduceret til definitionen af Big Data såsom Veracity (repræsentativitet, objektiv data) og Værdi (skaber dataindsamling og analyse af dataene værdi for dig og din virksomhed?).
Det er vigtigt at understrege, at Big Data ikke betyder, at du skal samle alle de data, du kan. Vær taktisk, og begynd at indsamle information fra de steder, hvor en analyse har vist at du kan skabe værdi for din virksomhed og sørg for, at data er uvildige, af høj kvalitet og repræsentative.
Udviklingen af “analytics”
Analytics omhandler hvordan og til hvilket niveau man bruger data, og hvilken slags værdi de forventes at generere. Analytics kan indeles i tre forskellige kategorier ved navn analytics 1.0, analytics 2.0 og analytics 3.0 [1].
Analytics 1.0 - Business Intelligence (BI) æraen.
I denne æra anvendes data primært til historiske informationer og rapportering. Det mest almindelige eksempel er månedlige økonomiske rapporter for at opsummere, hvad der er sket den sidste måned. Ofte bruges excel-ark til at præsentere og levere information..
Dette var æraen med Enterprise Data Warehouse; bruges til at indsamle information og af Business Intelligence Software; bruges til at præsentere og rapportere.
Statements:
- Beslutningen var primært baseret på erfaring og intuition
- Datakildes var relativitet få og fra interne systemer
- Det meste af tiden bruges til at indsamle data - ikke til at anvende dem
- Data bruges ikke som et aktivt i beslutningsprocessen
Analytics 2.0 - Big Data æraen.
I denne æra vokser mængden af data, og kilderne skifter fra at være af interne kilder til at være en kombination af interne og eksterne kilder. Mængden af datakilder stiller nye krav til, hvordan man behandler al informationen, hvilket øger behovet for at bruge både intern og ekstern behandlingskapacitet til at håndtere dem i den nødvendige hastighed.
Meget data, der blev anvendt i denne æra var ustrukturerede. Det krævede nye teknologier for at dette data kunne skabe værdi, det kunne være teknologier som maskinlæring
(ML), billedgenkendelse og kunstig intelligens (AI)
Hovedfokus i denne æra er at begynde at bruge data til at forudsige, hvad der vil ske i fremtiden, i stedet for kun at bruge data til “historieskrivning”.
For at være i stand til at arbejde med data på denne nye måde kræves en ny type medarbejdere, dataanalytiker eller dataforskere begynder at dukke op i virksomhederne for at kunne håndtere dette nye forretningsområde.
Statements:
- Komplekse, store og ustrukturerede datakilder
- Nye analyse modeller og større computer kraft
- Data, der er gemt og kan analyseres i det offentlige eller cloud computing-miljøer
- Maskinlæringsmetoder øger analysens hastighed
- Visuel analyse tilbyder prædiktive og visuelle teknikker
- Onlineselskaber vil begynde at skabe forretning udelukkende på baggrund af data
Analytics 3.0 - Data er forretningstilbudet æraen
Denne æra er kendetegnet ved, at alle virksomheder kan skabe databaserede tjenester og produkter. Data leveres ikke blot som data, men bruges til beslutningstagning både fra leverandøren - og fra kundesiden. Et andet udtryk, der ofte bruges, er, at en virksomhed er ”datacentrisk”. Data er ganske ofte indlejret i produktions- og beslutningsprocesser, hvilket gør det meget sværere for ledere at “undgå” at bruge data. Data og analyse vil være rundt omkring i alle processer i virksomheder.
Statements:
- Skabe data og analysebaserede produkter
- Ingen data levarance - hjælpe/vejlede kunderne i beslutningsprocessen
- Det at skabe indsigt baseret på online data
- Alle virksomheder kan oprette databaserede produkter og tjenester
- Fokus ail skifte fra software udvikling til data analyse
- Stor afhængighed af maskinlæring
- Rigide strukturer til rådighed for at kommunikere data analyse direkte til beslutningstagere
- Høj hastighed og agility er nødvendig
Hvad er - right data?
For at være i stand til at regne ud var rigtige og / eller forkerte data er det vigtigt at begynde at definere formålet eller målet. “Hvad ønsker virksomheden at opnå?”
I mange situationer starter virksomheder processen med at indsamle så mange data som muligt. To år senere begynder virksomheden faktisk at se på dataene. Processen kan være meget hurtigere, hvis kun de rigtige data findes og gemmes.
Med andre ord - right data er de data, der kan være grundlaget for analyser, der kan skabe værdi.
Hvordan begynder rejsen
For at starte rejsen med at gå fra analytics 1.0 til 2.0 er der flere skridt der er nødvendige at tage for at skabe en succes inden for en rimelig tidsramme.
-
Definer den formålet, find det område hvor du forventer at kunne skabe størst værdi. Når du viser for resten af organisationen at data kan skabe en succes, er det meget lettere at få finansiering og støtte til at udvide arbejdet med Big Data til resten af virksomheden.
-
Start altid nedfra, start med de små caces, skab en success og scaler derefter.
-
Identificer det data, der kan hjælpe virksomheden med at nå formålet. Der kan være to mulige udfald, enten er data tilgængelige, men har brug for opmærksomhed før de kan bruges, eller der er ingen data tilgængelige. Hvis der ikke er nogen data, begynder rejsen med at generere data, nøje fulgt af at finde en måde at gemme data på. Hvis der er tilgængelige data, skal datakvaliteten analyseres og evt. skal data renses før de kan anvendes.
-
Involver din organisation, der vil være mennesker der er involveret i såvel transformationen som i implementeringsen efterfølgende. Det bedste resultat opnås altid ved at medarbejdere er involveret fra begyndelsen og at de tager ejerskab i undervejs i processen.
-
Det vil altid være en forandringsproces at arbejdet med Big data og maskinlæring. Nye værktøjer skaber behov for ændringer i den aktuelle proces. Dette er et område, som mange mennesker har tendens tøve med at bevæge sig ind i indtil der ikke er andre muligheder. Det vil ofte være en stor fejltagelse at vente, og det skaber ofte et dårligere resultat.
Konklusion
For at være i stand til at gå fra analytics 1.0 til analytics 2.0 og endnu senere den fulde vej til analytics 3.0 kræver fokus og veldefineret data strategi. Processen behøver ikke nødvendigvis at køre i mange år og det er muligt at skabe små succeser hurtigt for at få fart i organisationen. Den mulige gevinst er for de fleste virksomheder er enorm, og hvis du ikke starter nu, er det sandsynligt, at dine konkurrenter vil gøre det og de vil derefter være mere konkurrencedygtige. Der er ingen tvivl om at begynde arbejder med Big Data, vil generere en masse intern værdi, men det er ikke nok bare at gemme dem, de skal bringes i brug og de skal skabe værdi.
// Lars Endrup, Business Development Manager @neurospace
Referencer
[1] Davenport, Thomas H. The era of analytics, Harvard Business Review 2013.