A
Anomali
En anomali er en unormal, ofte ekstrem, observation som falder udenfor det der betragtes som værende normalt. Anomali kaldes også for en outlier eller afvigelse.
B
Bias
Et biased datasæt er et datasæt som ikke er repræsentativt for den virkelige verden. Det fører til at en værdi er underrepræsenteret. Et biased datasæt vil resultere i en biased model, som ikke vil være generaliserbar.
Binær
Et binært problem er et enten-eller problem, dvs. der er kun to valgmuligheder.
C
Computer Vision
Computer Vision er et område inden for kunstig intelligens hvor man beskæftigere sig med at udtrække information fra billeder. Dette kunne være at identificere objekter i billedet, eller klassificering af kvalitet. Der findes mange matematiske metoder til Computer Vison, men maskinlæring har vist sig at være specielt nyttigt inden for dette område. Computer Vision er ofte kendt i industrien som Machine Vision.
Confusion Matrix
En Confusion Matrix er et matrix som viser værdierne for sande positiver, sande negativer, falske positiver og falske negativer. Denne matrix giver information nok til at evaluere en models ydelse på et klassificeringsproblem.
D
Data Governance
Data Governance er processen om at håndtere datapolitikker, data tilgængelighed, data ejerskab, data sikkerhed og datakvalitet. Det er vigtigt at disse elementer sammen med Business Continuity er afspejlet i en data strategi.
Data Lake
En Data Lake er et dataopbevaringssystem som kan håndtere ubegrænsede mængder af data. Dataen er ofte opbevaret i et råt format, hvilket vil sige at dataen ikke er blevet behandlet mellem kilde og opbevaring. Data Lakes bruges ofte til analytiske formål, men kræver i de fleste tilfælde at analyserne udføres af data specialister, eftersom at ubehandlet data giver øget kompleksitet.
Data Lakehouse
En Data Lakehouse er et data platform tilgang som kombinere det bedste fra både Data Warehouses og Data Lakes. Det vil sige at man har mulighed for at håndtere både Business Intelligence og Maskinlærings use cases, da platformen kan håndtere både struktureret data og ustruktureret data.
Data Lækage
Data Lækage er brugen af en værdi under udviklingen af en model, som på forudsigelsestidspunktet ikke kan være tilgængelig. Denne værdi indeholder ofte information om det vi prøver at forudsige eller er en eftervirkning af forudsigelsen.
Data Mesh
Et Data Mesh er et paradigme omkring datahåndteringsarkitektur som følger en domæne dreven design tilgang og gør brug af distribuerede systemer, til at skalere analysiske data. Data Mesh konceptet inkludere både tekniske implementerings detajler og organisatoriske principper, blandt andet er data og håndteringen heraf opdelt i forretningsdomæner.
Data Sump
En Data Sump er en Data Lake hvor man opbevare store mængder af data som ikke bliver brugt til noget. Årsagen kan f.eks. være at data forbrugerne har mistet tilliden til datakvaliteten eller har svært ved at finde den rigtige version af et datasæt.
Data Warehouse
Et Data Warehouse er en type af datahåndteringssystem som samler data fra mange forskellige kilder i ét stuktureret format og gør det tilgængeligt gennem en enkelt kilde, ofte ved brug af SQL. Data Warehouses bruges for det meste i analytisk kontekst, som f.eks ved business intelligence.
Dybe Neurale Netværk
Dybe neurale netværk (Deep learning) beskriver en bestemt type af neurale netværk som indeholder mange skjulte lag, hvilket øger kompleksiteten og muligheden for at lære af data.
E
ELT
Extract, Load, Transform (ELT) benyttes til at beskrive processer som overfører data fra et eller flere systemer til et andet, hvor dataen bliver gemt i kildens rå format. ELT nævnes ofte i forbindelse med data lakes hvor data først bliver transformeret når det skal bruges.
ETL
Extract, Transform and Load (ETL) benyttes til at beskrive processer som overfører data fra et eller flere systemer til et andet, hvor dataen bliver transformeret inden det gemmes i destinationen. ETL nævnes ofte i forbindelse med data warehouses hvor databasen kræver en bestemt struktur af dataen før det kan gemmes.
F
Falske Negativer
Falske negativer er når en test fejlagtigt forudser at en tilstand ikke er til stede. Det er med andre ord forkert at forudsigelsen er negativ.
Falske Positiver
Falske positiver er når en test fejlagtigt forudser at en tilstand er til stede. Det er med andre ord forkert at testen er positiv.
Feature
En feature er en målbar individuel karakteristik, som kan bruges til at forudsige en værdi. Vibration, temperatur og lyd er alle eksempler på features.
Feature Vigtighed
Feature vigtighed beskriver, hvilke features der har den største betydning for en models forudsigelser.
Forretningskontinuitet
Business Continuity Plan er en guideline for hvordan virksomheden vil håndtere forskellige katastrofe scenarier såsom et hacker angreb, hvis data forsvinder grundet en naturkatastrofe, eller et partnerskab med en vigtig leverandør ophør.
Frekvens aliasering
Frequency Aliasing er en tilstand hvor signal data (sensor-data som vibration) opsamles med for lav en frekvens. Dette forårsager at signalet bliver oversat forkert fra analog til digital, hvilket resultere i en signalforvrængning. Nyquist-Shannon sample teori er en metode til at beregne den rette frekvensrespons.
Frossen Data
Frossen data betegner situationen hvor data fra sensorer ikke overføres til den ønskede destination, såsom en dataplatform. Ofte viser frossen data sig som samme måling over en længere periode.
G
Generaliserbar
Generaliserbarhed beskriver hvorledes forudsigelserne af maskinlæringsmodellen kan blive ført ud i produktion. Den beskriver således om resultaterne fra maskinlæringsmodellen kan overføres til nyt data og give samme nøjagtighed i dens forudsigelser.
Gentræning
Gentræning beskriver processen af at gentræne en maskinlæringsmodel med mere og nyt data, for at modellen kan lærer de nyeste mønstre og ændringer i den virkelige verden. Gentræning er vigtig for at opretholde gode forudsigelser og en høj nøjagtighed.
H
Hyperparameter Optimering
Hyperparameter optimering af en model beskriver processen hvor de bedste modelparametre findes, for at få den mest generaliserbare model.
I
Ikke-labelet Data
Modsat labelet data, er ikke-labelet data observeret output data som ikke er kendt. Maskinlæringsmodellen trænes til at detektere mønstre uden at have den faktiske output værdi.
Input Data
Input data er alle de features som bruges til at forudsige output værdien.
Internet of Things
Internet of Things (IoT) beskriver det at fysiske objekter som f.eks. maskiner bliver forbundet til internettet med sensorer og/eller får udvidet sine evner med f.eks. indlejrede systemer.
K
Kausalitet
Kausalitet er forholdet mellem årsag og effekt. Det beskriver når den observerede korrelation har en årsagssammenhæng.
Klassificering
Klassificering er en kategori af problemer hvor man ønsker at detektere hvilken klasse et givent objekt hører til.
Klyngeanalyse
Klyngeanalyse eller clustering er en kategori af problemer, hvor vi ønsker at opdele datapunker i grupper (klynger) som ligner hinanden. Klyngeanalyse er ofte udført på ikke-labelet data med eksplorative formål for at skabe indsigt.
Konfidensniveau
Et konfidensniveau er en værdi mellem 0 og 1, som giver information om hvor sikker en model er omkring den givne forudsigelse.
Korrelation
En korrelation beskriver et gensidigt forhold mellem to uafhængige variable. Korrelationen beskrives som værende enten positiv eller negativ og udtrykkes ofte som en værdi mellem -1 og +1.
Kunstig Intelligens
Kunstig Intelligens (fra engelsk, AI), er teorien og udvikling af computersystemer som kan udføre opgaver der normalt ville anses for at kræve menneske lignende intelligens såsom visual opfattelse, talegenkendelse, beslutningstagning, og oversættelse mellem sprog. AI er oftest udviklet ved brug af maskinlæring.
Kvalitativ Variabel
En kvalitativ variabel er en værdi som kan kategoriseres såsom køn, og aldersgruppe.
Kvantitativ Variabel
En kvantitativ variabel er målbar. Du kan beregne gennemsnittet og standardafvigelsen af disse værdier, dvs. værdien er numerisk (kontinuerlig).
Kvartiler
Kvartiler beskriver en proces hvor man sortere datasættet fra mindste til største værdi, inden data opdeles i fraktiler. Disse fraktiler er oftest opdelt i nedre kvartilen (25%-fraktilen), medianen (50%-fraktilen), øvre kvartilen (75% fraktilen). Kvartiler er en god aggregeringsmetode, da den tydeliggør anomalier samt distributionen af data.
L
Labelet Data
Labelet Data er nødvendigt for at benytte superviseret læring, hvor output værdierne skal være kendte under træning af maskinlæringsmodellen.
Logistisk Regression
Logistisk Regression er en statistisk model som kan benyttes til binære klassificeringsproblemmer.
M
Machine Learning Engineer
En Machine Learning Engineer (ML Engineer) arbejder med hele maskinlæringslivscyklussen: alt fra design, udvikling, produktionssætning, monitorering, og vedligeholdelse af maskinlæringssystemer.
Maskinlæring
Maskinlæring (ML) beskriver kategorien af algoritmer som benytter data til at opnå det ønskede resultat, i modsætning til at skrive specifikke logiske og matematiske formler. ML algoritmer lærer fra eksempler af data, og resultatet af en algoritme kaldes for en model.
Mean
Mean er det samme som et gennemsnit.
Mean Absolute Error
Mean Absolute Error (MAE) anvendes til at validere regressions problemer. MAE er et gennemsnit af den totale, absolutte, forskel mellem den sande og forudsagte værdi. Store og små fejl i MAE behandles som værende lige vigtige da værdierne er absolute modsat Mean Squared Error.
Mean Squared Error
Mean Squared Error (MSE) anvendes til at evaluere regressions problemer. MSE er forskellen mellem den sande og forudsagte værdi, opløftet i anden. MSE anvendes når man ønsker at straffe store fejl, i modsætning til Mean Absolute Error.
Model
En model er en generaliseret repræsentation af noget konkret data, ofte udledt af en maskinlæring algoritme. Modellen er unik for det givne problem og det data som den er trænet på. En trænet model kan bruges til at ræsonnere omkring nye datapunkter.
Multikollinearitet
Multikollinearitet beskriver når to features har en perfekt lineær korrelation med hinanden. Vi kan altså forudsige den ene værdi, hvis vi kender den anden. Hvis to features er perfekt korreleret med hinanden, bør man fjerne den ene, da intet information går tabt, og multikollineære variable kan reducere modellens performance.
N
NaN-værdi
NaN står for “Not a Number” (ikke et tal) og benyttes når et resultat af en beregning ikke er definerbar. F.eks. når man dividere med 0, vil resultatet være “NaN”. NaN-Værdier benyttes også nogen gange forkert når data ikke er tilgængelig, her vil det dog være mere korrekt at benytte Null-Værdier.
Neurale Netværk
Et Neuralt Netværk (NN), eller Kunstigt Neuralt Netværk (KNN, engelsk ANN), er et computersystem indenfor maskinlæring som er inspireret af menneskehjernens neuroner og synapser. Når der er meget information i dataen øges kompleksiteten, hvilket ofte kommer til udtryk i at der er flere skjulte lag i det neurale netværk, hvilket kendetegnes som dybe neurale netværk.
Null-værdi
En null-værdi beskriver en observation hvor data mangler. Null bliver brugt til at repræsentere at ingen værdi er sat. Et datasæt med mange null-værdier betyder at vi mangler vigtig information.
Nyquist-Shannon Sample Teori
Nyquist-Shannon Sample Teori (Nyquist-Shannon Sampling Theorem) er en metode til at beregne den rette frekvensrespons ved signal data, for at undgå Frekvensasliasering
Nøjagtighed
Nøjagtighed er en metode til at måle hvor ofte en model udarbejdet til klassificering, korrekt kategorisere en observation. Selve værdien beregnes ud fra summen af sande positive og sande negative delt med det totale antal observationer.
O
Outlier detektion
Outlier/Anomaly detektion er problemet omkring at identificere data punkter som ligger signifikant uden for majoriteten af det komplette datasæt. Der findes både simple statistiske metoder (IQR) og mere advancerede maskinlærings metoder såsom klyngeanalyse.
Overall Equipment Effectiveness
Overall Equipment Effectiveness (OEE) er en kendt målemetode indenfor Lean, som bruges til at sige hvor produktiv en produktion er. Den måler uplanlagt nedetid, stop mellem skift, og reklamationer fanget under produktionen.
Overfitting
Overfitting er en tilstand som beskriver at en maskinlæringsmodel har lært mønstre fra træningsdataen for godt, således at modellen ikke kan generalisere til nyt data.
P
P-F Interval
P-F interval beskriver tiden imellem at der er registreret et tidligt tegn på potentiel fejl, til at der decideret forekommer en funktions fejl (nedbrud).
P-værdi
En P-værdi er en statistisk indikator for hvor sandsynligt et given resultat kunne være opnået tilfældigt. Jo lavere en P-værdi, desto lavere er sandsynligheden for at resultatet er opstået tilfældigt. Værdien bruges til at vurdere om ens hypotese kan anses for at være sandt eller falsk. Et resultat er ofte anset for at være statistisk signifikant hvis P-vædien er lavere en 0.05, altså mindre end 5% chance for at resulatet er opnået tilfældigt.
Pludselige Nedbrud
Pludselige nedbrud er fejl som opstår på maskiner pludseligt. Dette kan bl.a. ske pga. fejl monteringer men kan også virke tilfældige. De opstår ofte kort tid efter at vedligeholdelse er sket, og kan ved hjælp af prædiktiv vedligeholdelse blive opdaget i tide til at slukke maskinen, og reducere sandsynligheden for farlige situationer.
Precision og Recall
Precision og Recall anvendes til at vurdere klassificerings problemer. Precision og Recall er en sensitivitetsmåling, som giver udtryk for hvor god modellen er til at forudsige de sande positive, kontra falske negativer og falske positiver.
Prædiktiv Vedligeholdelse
Prædiktiv vedligeholdelse, eller forudsigelig vedligeholdelse, er en vedligeholdelsesmetode, som forudser fremtidig nedbrud for at øge oppetiden og reducere vedligeholdelsesomkostningerne.
Præventiv Vedligeholdelse
Præventiv Vedligeholdelse er en vedligeholdelsesmetode, som forebygger nedbrud ved at planlægge vedligeholdelse eksempelvis baseret på tid.
R
Reaktiv Vedligeholdelse
Reaktiv Vedligeholdelse er en vedligeholdelsesmetode, hvor der foretages vedligeholdelse på udstyr når det er brudt sammen.
Recovery Point Objective
Recovery Point Objective (RPO) er den tid hvorpå vi mister data, fordi vi ikke kan opsamle data. RPO beskrives ofte sammen med Recovery Time Objective, og defineres i en Forretningskontinuitet Plan.
Recovery Time Objective
Recovery Time Objective (RTO) er den tid vi kan leve med ikke at have adgang til data. RTO beskrives ofte sammen med Recovery Point Objective, og defineres i en Forretningskontinuitet Plan.
Regression
Regression er gruppe af problemer hvor vi estimere forholdet mellem en eller flere variable for at kunne forudsige nye datapunkter. I modsætning til klassificerings problemer bruges regression til at forudsige et tal, f.eks. den resterende brugbare levetid eller salgsprisen på et hus.
Reinforcement Læring
Reinforcement Læring (RL) er en specifik læringsmetode indenfor maskinlæring, hvor algoritmen lærer ved at forsøge og fejle. Målet er at maksimere en specifik belønning, eksempelvis at gå efter maksimale point i et spil.
Reproducerbarhed
Reproducerbare analyser betyder at det er muligt at genskabe resultaterne ved en analyse, såfremt samme data, kode, og værktøjer anvendes.
Repræsentativt Datasæt
Et repræsentativt datasæt betyder at alle mulige udfald der kan forekomme, er repræsenteret i datasættet. Er datasættet ikke repræsentativt er det biased. Analyser lavet på et datasæt som ikke er repræsentativt kan ikke bruges til beslutningstagen.
Resterende Brugbare Levetid
Den resterende brugbare levetid, eller Remaining Useful Life (RUL), er en gren indenfor prædiktiv vedligeholdelse, som forudsiger slitage på udstyr. Med RUL er det muligt at kunne planlægge vedligehold i god tid, og ligeledes købe reservedele inden et nedbrud forekommer.
Right Data
Right Data er konceptet om at være strategisk med hvilket data der opsamles i en virksomhed. Data skal ikke opsamles før vi ved til hvilket formål, og hvordan denne kan hjælpe virksomheden med at nå strategiske mål.
S
Sande Negative
Sande negative er når en test rigtigt forudser at en tilstand ikke er til stede.
Sande Positive
Sande positive er når en test rigtigt forudser at en tilstand er til stede.
Sandsynlighed
En sandsynlighed er en værdi mellem 0 og 1, som giver udtryk for hvor sandsynligt det er, at noget forekommer. Jo tættere på 1, desto større er sandsynligheden.
Skyen
Skyen (Cloud) er en computertjeneste, f.eks. servere, lager, databaser osv. som er tilgængelige on-demand. Dvs. man betaler kun for de resourcer man benytter, og sparer omkostningerne og administrationen af selv at eje hardwaren. Cloud services er tilbudt af en cloud udbyder som Google, Amazon, eller Microsoft.
Spuriøs Korrelation
En Spuriøs Korrelation er en korrelation som er tilfældig. Det vil sige at den lineære sammenhæng vi kan spotte i dataen er ganske tilfældig og der findes ingen naturlig sammenhæng mellem dem.
Standardafvigelse
Standardafvigelse beskriver, hvor stor en spredning der er i datasættet.
Struktureret Data
Struktureret data følger et bestemt skema, f.eks. alt der kan sættes i rækker og koloner som i excel. Det vil sige at data bliver indhentet i samme format hver gang. Struktureret data er ofte opbevaret i en relationel database som et data warehouse.
Superviseret Læring
Superviseret læring er en læringsmetode inden for maskinlæring, hvor output værdierne er kendte imens maskinlæringsmodellen trænes. Med andre ord bruges output værdierne til at guide maskinlæringsmodellen til at finde ud af, hvilke mønstre den skal lede efter.
T
Tilstandsbaseret Vedligeholdelse
Tilstandsbaseret vedligeholdelse er en vedligeholdelsesmetode, som prøver at forebygge yderligere skade og nedetid på maskinerne ved at sætte grænser for specifikke værdier og derved give en alarm når disse er overtrådt.
Trimmet gennemsnit
Et trimmet gennemsnit er et gennemsnit hvor de mest ekstreme værdier er fjernet inden gennemsnittet beregnes. Typisk vil man fjerne de 5% nederste og øverste værdier, hvilket ofte resultere i et gennemsnit som ikke er præget af anomalier.
Træn, Valider, Test - Split
For at træne og verificere en maskinlæringsmodel bliver datasættet opdelt i trænings, validerings og test data. Størstedelen af datasættet bruges til at træne modellen. Validerings data bruges til at validere resultatet under træningen, mens test datasættet bruges til at evaluere hvorvidt modellen er generaliserbar.
U
Ubalanceret Datasæt
Et ubalanceret datasæt er et datasæt hvor størstedelen af de opsamlede værdier tilhøre én klasse, hvilket diskriminere den anden klasse.
Underfitting
Underfitting er en tilstand, hvor en model præstere dårligt på datasættet under træning, og ligeledes på test datasættet. Ved underfitting er en model ikke generaliserbar.
Ustruktureret Data
Ustruktureret Data er alt data som ikke er struktureret i et prædefineret format så som billeder, lyd, tekst, osv. Ustuktureret data kan have stuktureret metadata som beskriver indholdet af dataten.
Usuperviseret Læring
Usuperviseret Læring er en læringsmetode inden for maskinlæring hvor det sande output er ukendt under træning. Usuperviseret Læring bruges, når du ikke kender det sande output, og derfor i stedet søger mønstre for at kunne f.eks. gruppere kundesegmenter baseret på deres købsadfærd.
V
Variety
Variety (variation) fra Big Data beskriver data der kommer fra forskellige kilder. Data kan komme fra både struktureret data og ustruktureret data.