Vi har tidligere givet en introduktion til superviseret læring, men der findes også usuperviseret læring. Denne blog post vil give dig en introduktion til usuperviseret læring og hvorfor det kan være smart at bruge til visse typer af problemer.

I sidste blog post introducerede vi dig for superviseret læring. I denne blog post vil vi introducere dig for en anden kendt læringsmetode indenfor maskinlæring: Usuperviseret læring. Du vil få svar på hvad usuperviseret læring er, hvornår det giver mening at bruge det, og hvilke krav der stilles til din data.

Hvad er Usuperviseret Læring?

Usuperviseret læring benyttes ofte i situationer, hvor vi ikke selv kender det rigtige svar. I superviseret læring guider vi en maskinlæringsalgoritme ved at fortælle den hvad det er for nogen resultater vi ønsker at den skal kunne skelne fra hinanden. I Usuperviseret læring har vi ikke samme mulighed fordi vi oftest ikke kender det rigtige svar. Der findes f.eks. ikke noget “label”, som vi kan bruge under træningen til at tune maskinlæringsmodellen. Usupeviseret læring kan derimod selv finde mønstre i data, og har til formål selv at lave disse skel for hvornår noget hører til klasse A og noget hører til klasse B.

Usuperviseret læring

Eksempel på usuperviseret læring

Hvad kan vi løse med Usuperviseret Læring?

Typisk kan usuperviseret læring løse to typer af udfordringer:

  1. Klyngeanalyse (Clustering)
  2. Dimensionalitetsreduktion

Der er dog også en tredje type udfordring, som teknisk set ligger under clustering, men alligevel er anderledes, som vi vil sætte ekstra fokus på i denne blog post:

  1. Outlier detektion

I de følgende afsnit vil vi gå i dybden med de tre typer.

Clustering (Klynger)

Hvis du som virksomhed står overfor et clustering problem, ønsker du at kunne gruppere dit data i grupper baseret på samme mønster. Clustering vil altså gruppere observationerne i et datasæt i klynger, således at de observationer som har fælles træk ligger i samme klynge.

Du har uden tvivl stødt på løsninger som benytter clustering

Clustering er meget populært i detailbranchen.
Med clustering er det muligt at identificere personer med samme købsadfærd ved at benytte grupperinger, således at man kan målrette markedsføringen direkte til den givne gruppe. Hvis du eksempelvis er i fjernvarme branchen, kan det være vigtigt for dig at vide hvordan forskellige grupper som f.eks. private husstande, industri osv. opfører sig i forhold til afkøling på forskellige tidspunkter af året. Det vigtige er at de forskellige typer af kunder agere forskelligt, og vil have forskellige krav til dig som leverandør. Det samme er gældende for virksomheder indenfor produktion. Her kan du med clustering finde ud af hvordan dine kunder ligner hinanden, eller måske endnu vigtigere, adskiller sig fra hinanden, og du kan dermed målrette markedsføringen og salgsprocessen til en gruppe af dine kunder.

Som privat er du stødt på clustering metoden hvis du er bruger af platforme såsom Netflix og Spotify. Når du har set en film på Netflix vil du få foreslået en ny film du kan se, baseret på hvad andre brugere som ser de samme film som dig har set igennem tiden. Du bliver altså anbefalet film, baseret på hvad andre personer i din “klynge” har kunnet lide at se. Det er en smart måde at foreslå content, da du får personlige anbefalinger baseret på dem du deler adfærd med. Dette ligger inden for det der kaldes anbefalingssystemer og kan bruges til meget andet end at foreslå film f.eks. kan det hjælpe personer i din organisation med at træffe mere rigtige beslutninger baseret på tidligere erfaringer.

Hvad er forskellen på Clustering og Klassificering?

Clustering bliver ofte fejlagtigt forvekslet med klassificering fra superviseret læring. De to udfordringer ligner meget hinanden da det handler om at putte noget i kategorier eller klasser. Ved Klassificering har vi et label, vi kender altså svaret, og vil gerne lærer en maskinlæringsmodel mønstrene så den kan gøre det for os.
Clustering derimod er kendetegnet ved at vi ikke har et label, og derfor ikke er helt sikre på mønstrene men vi har en idé om dem.
Ved klassificering kan vi altså også få at vide om det er en banan eller et æble der er på billedet, mens vi ved clustering får grupperinger.

Dimensionalitetsreduktion

Dimensionalitetsreduktion har til formål at reducere antallet af features (kolonner) vi bruger til at skabe vores maskinlæringsmodel med. Det er en metode vi ofte bruger til signifikant at reducere støjen i data.
Der er mange fordele ved at reducere antallet af kolonner eller features. Vi reducere signifikant kompleksiteten af en maskinlæringsmodel i produktion, når den har færre parametre med. Derforuden kan støj i dataen signifikant reducere nøjagtigheden af maskinlæringsmodellen og ofte får man en meget bedre model, med få, vigtige features.

Detektere Anomalier

"En anomali er en ekstrem værdi, som falder uden for normalen."neurospace

Med usuperviseret læring er vi i stand til at detektere anomalier som er værdier der falder udenfor normalen. Dette kan bl.a. hjælpe virksomheder til at komme hurtigt i gang med prædiktiv vedligeholdelse, eller finde fejlmålinger eller mærkværdigheder i data.

Der gemmer sig ofte guldkorn når vi analysere anomalier i data, som kan give ny indsigt for din virksomhed. Det kan give indsigt for jer som virksomhed, som er svær at få uden at analysere efter disse ekstreme værdier og hvorfor de opstår. Det er generelt i udfordringer indenfor anomali detektion, at vi ser store konkurrencemæssige fordele for virksomheder.

Tips til Usuperviseret Læring

Selvom usuperviseret læring ikke kræver et label, så kan det være hensigtsmæssigt at du har en idé om hvad der er rigtigt, og hvad der er forkert.
Det er svært at validere en usuperviseret lærings model, da vi ikke på samme måde som ved superviseret læring har et label vi kan tune efter. Derfor har du behov for at skabe en test f.eks. igennem et test datasæt, hvor du ved hvilken gruppe den givende observation hører til (paracelhus eller virksomhed), som kan bruges til at validere og tune en usuperviseret læringsmodel med.
Endelig er det vigtigt at huske, at klassificering og clustering er to forskellige typer af problemer, og dit problem skal løses med den rette metode. Sidst men ikke mindst så husk at anomali detektion kan skabe stor indsigt og konkurrencemæssige fordele.

// Maria Hvid, Machine Learning Engineer @ neurospace