I dette blogindlæg vil vi diskutere, hvorfor du skal stoppe med at fokusere på Big Data og specielt big -delen, som ofte fortolkes som antallet af observationer, vi har i et datasæt.

Dette blogindlæg vil bevise, at størrelsen på dine data ikke har nogen værdi, og repræsentativitet er vigtigere.

“Repræsentativitet er, når alle mulige udfald som kan forekomme, er repræsenteret i dit datasæt”

Hvornår du har et repræsentativt datasæt er bestemt af den udfordring du søger løst. Hvis du ønsker at identificere noget, der næsten aldrig sker, vil det tage dig lang tid at opnå et repræsentativt datasæt sammenlignet med noget, du kan opleve hver dag. Lad os se på nogle eksempler for at prøve og forklare dette.

Image of a computer and data

Estimer om en tumor er godartet eller ondartet

I et eksempel, er målet at forudsige om en tumor er godartet eller ondartet. Til dette, havde vi et datasæt med kun 569 observationer. Datasættet havde 357 observationer, der viste godartede tumorer, og 212 observationer af ondartede tumorer. Baseret på en korrelationsanalyse og beskrivende statistik blev det identificeret, at de to grupper havde signifikant forskellig mønstre, og det er årsagen til, at kun 569 observationer er tilstrækkelige til at få en machine learningsmodel med en testnøjagtighed på 99,56% og en Area Under a Curve (AUC) score på 96,43%.

Hvad med antallet af features vi bruger?

Indenfor Big Data og Machine Learning-samfundet fortælles det ofte, at modeller bliver bedre med data fra flere kilder, men dette er en fejlagtig fortolkning. Dette kan være sandt, men er ikke en universiel sandhed. Så hvis du hører dette, så spørg Hvordan ved vi det?. I det forrige tilfælde reducerede vi antallet af kilder fra 30 til 20 og forbedrede vores models nøjagtighed. Dette beviser vigtigheden af at vælge de rigtige funktioner til modellen i modsætning til blot at give modellen flere data. Det er bedre at gå med 10 stærkt korrelerede funktioner end 50 lavt korrelerede funktioner.

Estimere den Resterende Brugbare Levetid

Når en virksomhed ønsker at estimere den resterende brugbare levetid på et udstyr, er datasættet repræsentativt, når der gives tilstrækkelige data til at vise mønstret for nedbrud. I mange tilfælde, hvis data hentes fra de rigtige data, er 7-10 nedbrud tilstrækkelige for at begynde at få værdi, mens mere data samles op. Dette blev bevist ved estimering af en vandpumpes resterende brugbare levetid og på en turbofan-motor. Efterhånden som flere nedbrud opstår, forbedres modellens nøjagtighed, men forbedringerne vil på et eller andet tidspunkt stagnere.

Forudsig kreditkortsvindel

I en anden udfordring, vi stod overfor, skulle vi forudsige kreditkortsvindel ved at estimere sandsynligheden for, at en transaktion er normal eller unormal. Datasættet bestod af 284.807 observationer, hvoraf kun 0.172% var reel kreditkort-svindel. Selvom datasættet kun havde 492 observationer af svindel, var mønstrene væsentligt forskellige fra normale transaktioner, og det var således muligt at generere en model med en testnøjagtighed på 99% og en ROC AUC-score på 98,5%.

Vær opmærksom på det følgende

Når du arbejder med dataanalyse i enhver form, det gælder både indenfor statistik og maskinindlæring, har du brug for data, der repræsenterer det, du ønsker at vide noget om eller forudsige. Hvis din udfordring er at estimere den resterende brugbare levetid på en maskine, skal du have oplevet nedbrud, mens du indsamler data. Hvis dine data er for støjende til, at reelle mønstre kan identificeres, har du brug for mere data og sandsynligvis fra andre kilder og i en anden frekvens. I det øjeblik at dit data er repræsentativt, har du et tilstrækkeligt datasæt til at få værdi.

Endelig skal du sørge for at identificere de tre til ti vigtigste datakilder til dit problem. Det er bedre at have 4 stærkt korrelerede kilder til vores problem end at have 50 med lav korrelation.

Konklusion

Vi har givet dig tre eksempler på udfordringer, hvor vi ikke har haft meget data at arbejde med, men stadig har fået et resultat som kan give værdi. Repræsentativitet er defineret af din udfordring, som igen påvirker hvor meget data der skal til, for at mønstre kan adskilles fra hinanden. Der er mange som sigter efter det perfekte når man laver machine learning, og en model som ikke er 100% korrekt er ikke god nok. Men hvorfor lade det perfekte stå i vejen for at du bliver bedre i morgen? En machine learning model som er 10% bedre end det i har i dag, er stadig 10% bedre. Endvidere vil mere data blot forbedre machine learning modellens forudsigelser.

// Maria Jensen, Machine Learning Engineer @ neurospace