A

Anomali

En anomali er en unormal, ofte ekstrem, observation som falder udenfor det der betragtes som værende normalt. Anomali kaldes også for en outlier eller afvigelse.

B

Bias

Et biased datasæt er et datasæt som ikke er repræsentativt for den virkelige verden. Det fører til at en værdi er underrepræsenteret. Et biased datasæt vil resultere i en biased model, som ikke vil være generaliserbar.

Big Data

Big Data beskriver det at have store datasæts som er svære at håndtere. Den blev først beskrevet af Gartner gennem 3 V’er: Volume, Variety og Velocity. I dag bliver Big Data defineret gennem 5, 10 eller mere end 20 V’er.

Binær

Et binært problem er et enten-eller problem, dvs. der er kun to valgmuligheder.

C

Computer Vision

Computer Vision er et område inden for kunstig intelligens hvor man beskæftigere sig med at udtrække information fra billeder. Dette kunne være at identificere objekter i billedet, eller klassificering af kvalitet. Der findes mange matematiske metoder til Computer Vison, men maskinlæring har vist sig at være specielt nyttigt inden for dette område. Computer Vision er ofte kendt i industrien som Machine Vision.

Confusion Matrix

En Confusion Matrix er et matrix som viser værdierne for sande positiver, sande negativer, falske positiver og falske negativer. Denne matrix giver information nok til at evaluere en models ydelse på et klassificeringsproblem.

D

Data Governance

Data Governance er processen om at håndtere datapolitikker, data tilgængelighed, data ejerskab, data sikkerhed og datakvalitet. Det er vigtigt at disse elementer sammen med Business Continuity er afspejlet i en data strategi.

Data Lake

En Data Lake er et dataopbevaringssystem som kan håndtere ubegrænsede mængder af data. Dataen er ofte opbevaret i et råt format, hvilket vil sige at dataen ikke er blevet behandlet mellem kilde og opbevaring. Data Lakes bruges ofte til analytiske formål, men kræver i de fleste tilfælde at analyserne udføres af data specialister, eftersom at ubehandlet data giver øget kompleksitet.

Data Lakehouse

En Data Lakehouse er et data platform tilgang som kombinere det bedste fra både Data Warehouses og Data Lakes. Det vil sige at man har mulighed for at håndtere både Business Intelligence og Maskinlærings use cases, da platformen kan håndtere både struktureret data og ustruktureret data.

Data Lækage

Data Lækage er brugen af en værdi under udviklingen af en model, som på forudsigelsestidspunktet ikke kan være tilgængelig. Denne værdi indeholder ofte information om det vi prøver at forudsige eller er en eftervirkning af forudsigelsen.

Data Mesh

Et Data Mesh er et paradigme omkring datahåndteringsarkitektur som følger en domæne dreven design tilgang og gør brug af distribuerede systemer, til at skalere analysiske data. Data Mesh konceptet inkludere både tekniske implementerings detajler og organisatoriske principper, blandt andet er data og håndteringen heraf opdelt i forretningsdomæner.

Data Sump

En Data Sump er en Data Lake hvor man opbevare store mængder af data som ikke bliver brugt til noget. Årsagen kan f.eks. være at data forbrugerne har mistet tilliden til datakvaliteten eller har svært ved at finde den rigtige version af et datasæt.

Data Warehouse

Et Data Warehouse er en type af datahåndteringssystem som samler data fra mange forskellige kilder i ét stuktureret format og gør det tilgængeligt gennem en enkelt kilde, ofte ved brug af SQL. Data Warehouses bruges for det meste i analytisk kontekst, som f.eks ved business intelligence.

Dybe Neurale Netværk

Dybe neurale netværk (Deep learning) beskriver en bestemt type af neurale netværk som indeholder mange skjulte lag, hvilket øger kompleksiteten og muligheden for at lære af data.

E

ELT

Extract, Load, Transform (ELT) benyttes til at beskrive processer som overfører data fra et eller flere systemer til et andet, hvor dataen bliver gemt i kildens rå format. ELT nævnes ofte i forbindelse med data lakes hvor data først bliver transformeret når det skal bruges.

ETL

Extract, Transform and Load (ETL) benyttes til at beskrive processer som overfører data fra et eller flere systemer til et andet, hvor dataen bliver transformeret inden det gemmes i destinationen. ETL nævnes ofte i forbindelse med data warehouses hvor databasen kræver en bestemt struktur af dataen før det kan gemmes.

F

Falske Negativer

Falske negativer er når en test fejlagtigt forudser at en tilstand ikke er til stede. Det er med andre ord forkert at forudsigelsen er negativ.

Falske Positiver

Falske positiver er når en test fejlagtigt forudser at en tilstand er til stede. Det er med andre ord forkert at testen er positiv.

Feature

En feature er en målbar individuel karakteristik, som kan bruges til at forudsige en værdi. Vibration, temperatur og lyd er alle eksempler på features.

Feature Vigtighed

Feature vigtighed beskriver, hvilke features der har den største betydning for en models forudsigelser.

Forretningskontinuitet

Business Continuity Plan er en guideline for hvordan virksomheden vil håndtere forskellige katastrofe scenarier såsom et hacker angreb, hvis data forsvinder grundet en naturkatastrofe, eller et partnerskab med en vigtig leverandør ophør.

Frekvens aliasering

Frequency Aliasing er en tilstand hvor signal data (sensor-data som vibration) opsamles med for lav en frekvens. Dette forårsager at signalet bliver oversat forkert fra analog til digital, hvilket resultere i en signalforvrængning. Nyquist-Shannon sample teori er en metode til at beregne den rette frekvensrespons.

Frossen Data

Frossen data betegner situationen hvor data fra sensorer ikke overføres til den ønskede destination, såsom en dataplatform. Ofte viser frossen data sig som samme måling over en længere periode.

G

Generaliserbar

Generaliserbarhed beskriver hvorledes forudsigelserne af maskinlæringsmodellen kan blive ført ud i produktion. Den beskriver således om resultaterne fra maskinlæringsmodellen kan overføres til nyt data og give samme nøjagtighed i dens forudsigelser.

Gentræning

Gentræning beskriver processen af at gentræne en maskinlæringsmodel med mere og nyt data, for at modellen kan lærer de nyeste mønstre og ændringer i den virkelige verden. Gentræning er vigtig for at opretholde gode forudsigelser og en høj nøjagtighed.

H

Hyperparameter Optimering

Hyperparameter optimering af en model beskriver processen hvor de bedste modelparametre findes, for at få den mest generaliserbare model.

I

Ikke-labelet Data

Modsat labelet data, er ikke-labelet data observeret output data som ikke er kendt. Maskinlæringsmodellen trænes til at detektere mønstre uden at have den faktiske output værdi.

Input Data

Input data er alle de features som bruges til at forudsige output værdien.

Internet of Things

Internet of Things (IoT) beskriver det at fysiske objekter som f.eks. maskiner bliver forbundet til internettet med sensorer og/eller får udvidet sine evner med f.eks. indlejrede systemer.

K

Kausalitet

Kausalitet er forholdet mellem årsag og effekt. Det beskriver når den observerede korrelation har en årsagssammenhæng.

Klassificering

Klassificering er en kategori af problemer hvor man ønsker at detektere hvilken klasse et givent objekt hører til.

Klyngeanalyse

Klyngeanalyse eller clustering er en kategori af problemer, hvor vi ønsker at opdele datapunker i grupper (klynger) som ligner hinanden. Klyngeanalyse er ofte udført på ikke-labelet data med eksplorative formål for at skabe indsigt.

Konfidensniveau

Et konfidensniveau er en værdi mellem 0 og 1, som giver information om hvor sikker en model er omkring den givne forudsigelse.

Korrelation

En korrelation beskriver et gensidigt forhold mellem to uafhængige variable. Korrelationen beskrives som værende enten positiv eller negativ og udtrykkes ofte som en værdi mellem -1 og +1.

Læs Mere

Kunstig Intelligens

Kunstig Intelligens (fra engelsk, AI), er teorien og udvikling af computersystemer som kan udføre opgaver der normalt ville anses for at kræve menneske lignende intelligens såsom visual opfattelse, talegenkendelse, beslutningstagning, og oversættelse mellem sprog. AI er oftest udviklet ved brug af maskinlæring.

Kvalitativ Variabel

En kvalitativ variabel er en værdi som kan kategoriseres såsom køn, og aldersgruppe.

Kvantitativ Variabel

En kvantitativ variabel er målbar. Du kan beregne gennemsnittet og standardafvigelsen af disse værdier, dvs. værdien er numerisk (kontinuerlig).

Kvartiler

Kvartiler beskriver en proces hvor man sortere datasættet fra mindste til største værdi, inden data opdeles i fraktiler. Disse fraktiler er oftest opdelt i nedre kvartilen (25%-fraktilen), medianen (50%-fraktilen), øvre kvartilen (75% fraktilen). Kvartiler er en god aggregeringsmetode, da den tydeliggør anomalier samt distributionen af data.

L

Labelet Data

Labelet Data er nødvendigt for at benytte superviseret læring, hvor output værdierne skal være kendte under træning af maskinlæringsmodellen.

Logistisk Regression

Logistisk Regression er en statistisk model som kan benyttes til binære klassificeringsproblemmer.

M

Machine Learning Engineer

En Machine Learning Engineer (ML Engineer) arbejder med hele maskinlæringslivscyklussen: alt fra design, udvikling, produktionssætning, monitorering, og vedligeholdelse af maskinlæringssystemer.

Maskinlæring

Maskinlæring (ML) beskriver kategorien af algoritmer som benytter data til at opnå det ønskede resultat, i modsætning til at skrive specifikke logiske og matematiske formler. ML algoritmer lærer fra eksempler af data, og resultatet af en algoritme kaldes for en model.

Mean

Mean er det samme som et gennemsnit.

Mean Absolute Error

Mean Absolute Error (MAE) anvendes til at validere regressions problemer. MAE er et gennemsnit af den totale, absolutte, forskel mellem den sande og forudsagte værdi. Store og små fejl i MAE behandles som værende lige vigtige da værdierne er absolute modsat Mean Squared Error.

Mean Squared Error

Mean Squared Error (MSE) anvendes til at evaluere regressions problemer. MSE er forskellen mellem den sande og forudsagte værdi, opløftet i anden. MSE anvendes når man ønsker at straffe store fejl, i modsætning til Mean Absolute Error.

Model

En model er en generaliseret repræsentation af noget konkret data, ofte udledt af en maskinlæring algoritme. Modellen er unik for det givne problem og det data som den er trænet på. En trænet model kan bruges til at ræsonnere omkring nye datapunkter.

Multikollinearitet

Multikollinearitet beskriver når to features har en perfekt lineær korrelation med hinanden. Vi kan altså forudsige den ene værdi, hvis vi kender den anden. Hvis to features er perfekt korreleret med hinanden, bør man fjerne den ene, da intet information går tabt, og multikollineære variable kan reducere modellens performance.

N

NaN-værdi

NaN står for “Not a Number” (ikke et tal) og benyttes når et resultat af en beregning ikke er definerbar. F.eks. når man dividere med 0, vil resultatet være “NaN”. NaN-Værdier benyttes også nogen gange forkert når data ikke er tilgængelig, her vil det dog være mere korrekt at benytte Null-Værdier.

Neurale Netværk

Et Neuralt Netværk (NN), eller Kunstigt Neuralt Netværk (KNN, engelsk ANN), er et computersystem indenfor maskinlæring som er inspireret af menneskehjernens neuroner og synapser. Når der er meget information i dataen øges kompleksiteten, hvilket ofte kommer til udtryk i at der er flere skjulte lag i det neurale netværk, hvilket kendetegnes som dybe neurale netværk.

Null-værdi

En null-værdi beskriver en observation hvor data mangler. Null bliver brugt til at repræsentere at ingen værdi er sat. Et datasæt med mange null-værdier betyder at vi mangler vigtig information.

Nyquist-Shannon Sample Teori

Nyquist-Shannon Sample Teori (Nyquist-Shannon Sampling Theorem) er en metode til at beregne den rette frekvensrespons ved signal data, for at undgå Frekvensasliasering

Nøjagtighed

Nøjagtighed er en metode til at måle hvor ofte en model udarbejdet til klassificering, korrekt kategorisere en observation. Selve værdien beregnes ud fra summen af sande positive og sande negative delt med det totale antal observationer.

O

Outlier detektion

Outlier/Anomaly detektion er problemet omkring at identificere data punkter som ligger signifikant uden for majoriteten af det komplette datasæt. Der findes både simple statistiske metoder (IQR) og mere advancerede maskinlærings metoder såsom klyngeanalyse.

Overall Equipment Effectiveness

Overall Equipment Effectiveness (OEE) er en kendt målemetode indenfor Lean, som bruges til at sige hvor produktiv en produktion er. Den måler uplanlagt nedetid, stop mellem skift, og reklamationer fanget under produktionen.

Overfitting

Overfitting er en tilstand som beskriver at en maskinlæringsmodel har lært mønstre fra træningsdataen for godt, således at modellen ikke kan generalisere til nyt data.

P

P-F Interval

P-F interval beskriver tiden imellem at der er registreret et tidligt tegn på potentiel fejl, til at der decideret forekommer en funktions fejl (nedbrud).

P-værdi

En P-værdi er en statistisk indikator for hvor sandsynligt et given resultat kunne være opnået tilfældigt. Jo lavere en P-værdi, desto lavere er sandsynligheden for at resultatet er opstået tilfældigt. Værdien bruges til at vurdere om ens hypotese kan anses for at være sandt eller falsk. Et resultat er ofte anset for at være statistisk signifikant hvis P-vædien er lavere en 0.05, altså mindre end 5% chance for at resulatet er opnået tilfældigt.

Pludselige Nedbrud

Pludselige nedbrud er fejl som opstår på maskiner pludseligt. Dette kan bl.a. ske pga. fejl monteringer men kan også virke tilfældige. De opstår ofte kort tid efter at vedligeholdelse er sket, og kan ved hjælp af prædiktiv vedligeholdelse blive opdaget i tide til at slukke maskinen, og reducere sandsynligheden for farlige situationer.

Precision og Recall

Precision og Recall anvendes til at vurdere klassificerings problemer. Precision og Recall er en sensitivitetsmåling, som giver udtryk for hvor god modellen er til at forudsige de sande positive, kontra falske negativer og falske positiver.

Prædiktiv Vedligeholdelse

Prædiktiv vedligeholdelse, eller forudsigelig vedligeholdelse, er en vedligeholdelsesmetode, som forudser fremtidig nedbrud for at øge oppetiden og reducere vedligeholdelsesomkostningerne.

Læs Mere

Præventiv Vedligeholdelse

Præventiv Vedligeholdelse er en vedligeholdelsesmetode, som forebygger nedbrud ved at planlægge vedligeholdelse eksempelvis baseret på tid.

R

Reaktiv Vedligeholdelse

Reaktiv Vedligeholdelse er en vedligeholdelsesmetode, hvor der foretages vedligeholdelse på udstyr når det er brudt sammen.

Recovery Point Objective

Recovery Point Objective (RPO) er den tid hvorpå vi mister data, fordi vi ikke kan opsamle data. RPO beskrives ofte sammen med Recovery Time Objective, og defineres i en Forretningskontinuitet Plan.

Recovery Time Objective

Recovery Time Objective (RTO) er den tid vi kan leve med ikke at have adgang til data. RTO beskrives ofte sammen med Recovery Point Objective, og defineres i en Forretningskontinuitet Plan.

Regression

Regression er gruppe af problemer hvor vi estimere forholdet mellem en eller flere variable for at kunne forudsige nye datapunkter. I modsætning til klassificerings problemer bruges regression til at forudsige et tal, f.eks. den resterende brugbare levetid eller salgsprisen på et hus.

Reinforcement Læring

Reinforcement Læring (RL) er en specifik læringsmetode indenfor maskinlæring, hvor algoritmen lærer ved at forsøge og fejle. Målet er at maksimere en specifik belønning, eksempelvis at gå efter maksimale point i et spil.

Reproducerbarhed

Reproducerbare analyser betyder at det er muligt at genskabe resultaterne ved en analyse, såfremt samme data, kode, og værktøjer anvendes.

Repræsentativt Datasæt

Et repræsentativt datasæt betyder at alle mulige udfald der kan forekomme, er repræsenteret i datasættet. Er datasættet ikke repræsentativt er det biased. Analyser lavet på et datasæt som ikke er repræsentativt kan ikke bruges til beslutningstagen.

Residual

Residual er forskellen mellem den sande og forudsagte værdi af modellen.

Resterende Brugbare Levetid

Den resterende brugbare levetid, eller Remaining Useful Life (RUL), er en gren indenfor prædiktiv vedligeholdelse, som forudsiger slitage på udstyr. Med RUL er det muligt at kunne planlægge vedligehold i god tid, og ligeledes købe reservedele inden et nedbrud forekommer.

Right Data

Right Data er konceptet om at være strategisk med hvilket data der opsamles i en virksomhed. Data skal ikke opsamles før vi ved til hvilket formål, og hvordan denne kan hjælpe virksomheden med at nå strategiske mål.

S

Sande Negative

Sande negative er når en test rigtigt forudser at en tilstand ikke er til stede.

Sande Positive

Sande positive er når en test rigtigt forudser at en tilstand er til stede.

Sandsynlighed

En sandsynlighed er en værdi mellem 0 og 1, som giver udtryk for hvor sandsynligt det er, at noget forekommer. Jo tættere på 1, desto større er sandsynligheden.

Skyen

Skyen (Cloud) er en computertjeneste, f.eks. servere, lager, databaser osv. som er tilgængelige on-demand. Dvs. man betaler kun for de resourcer man benytter, og sparer omkostningerne og administrationen af selv at eje hardwaren. Cloud services er tilbudt af en cloud udbyder som Google, Amazon, eller Microsoft.

Spuriøs Korrelation

En Spuriøs Korrelation er en korrelation som er tilfældig. Det vil sige at den lineære sammenhæng vi kan spotte i dataen er ganske tilfældig og der findes ingen naturlig sammenhæng mellem dem.

Standardafvigelse

Standardafvigelse beskriver, hvor stor en spredning der er i datasættet.

Struktureret Data

Struktureret data følger et bestemt skema, f.eks. alt der kan sættes i rækker og koloner som i excel. Det vil sige at data bliver indhentet i samme format hver gang. Struktureret data er ofte opbevaret i en relationel database som et data warehouse.

Superviseret Læring

Superviseret læring er en læringsmetode inden for maskinlæring, hvor output værdierne er kendte imens maskinlæringsmodellen trænes. Med andre ord bruges output værdierne til at guide maskinlæringsmodellen til at finde ud af, hvilke mønstre den skal lede efter.

T

Tilstandsbaseret Vedligeholdelse

Tilstandsbaseret vedligeholdelse er en vedligeholdelsesmetode, som prøver at forebygge yderligere skade og nedetid på maskinerne ved at sætte grænser for specifikke værdier og derved give en alarm når disse er overtrådt.

Trimmet gennemsnit

Et trimmet gennemsnit er et gennemsnit hvor de mest ekstreme værdier er fjernet inden gennemsnittet beregnes. Typisk vil man fjerne de 5% nederste og øverste værdier, hvilket ofte resultere i et gennemsnit som ikke er præget af anomalier.

Træn, Valider, Test - Split

For at træne og verificere en maskinlæringsmodel bliver datasættet opdelt i trænings, validerings og test data. Størstedelen af datasættet bruges til at træne modellen. Validerings data bruges til at validere resultatet under træningen, mens test datasættet bruges til at evaluere hvorvidt modellen er generaliserbar.

Træning

En maskinlæringsmodel trænes oftest på historisk data. I træningsfasen er maskinlæringsmodellen introduceret for et større datasæt som den bruger til at lære mønstre i datasættet. Baseret på mønstre i historisk data, vil den trænede model kunne lave forudsigelser på uset data.

U

Ubalanceret Datasæt

Et ubalanceret datasæt er et datasæt hvor størstedelen af de opsamlede værdier tilhøre én klasse, hvilket diskriminere den anden klasse.

Underfitting

Underfitting er en tilstand, hvor en model præstere dårligt på datasættet under træning, og ligeledes på test datasættet. Ved underfitting er en model ikke generaliserbar.

Ustruktureret Data

Ustruktureret Data er alt data som ikke er struktureret i et prædefineret format så som billeder, lyd, tekst, osv. Ustuktureret data kan have stuktureret metadata som beskriver indholdet af dataten.

Usuperviseret Læring

Usuperviseret Læring er en læringsmetode inden for maskinlæring hvor det sande output er ukendt under træning. Usuperviseret Læring bruges, når du ikke kender det sande output, og derfor i stedet søger mønstre for at kunne f.eks. gruppere kundesegmenter baseret på deres købsadfærd.

V

Value

Value (værdi) fra Big Data beskriver, hvorvidt dataen som opsamles og analyseres skaber værdi for organisationen.

Variety

Variety (variation) fra Big Data beskriver data der kommer fra forskellige kilder. Data kan komme fra både struktureret data og ustruktureret data.

Velocity

Velocity (hastighed) fra Big Data beskriver med hvilken frekvens data indsamles.

Veracity

Veracity (sandfærdighed) fra Big Data fortæller hvorvidt data der indsamles er unbiased, repræsentativ, og troværdig.

Volume

Volume fra Big Data handler om at have store mængder data.