Ny metode til identificering af sammenhænge i Big Data
Sektorerne trafik og energi, som er hovedfokus for DiCyPS’ arbejde, skaber enorme mængder data. For at udnytte disse data kræves der nye metoder til bearbejdning og analyse. Post.doc. Thi Thao Nguyen Ho fra DAISY – Center for Data Intensive Systems arbejder på en ny metode til identifikation af sammenhænge (correlations) i store mængder data under vejledning af professor Torben Bach Pedersen.
”Kernen i dette arbejde er anvendelsen af informationsteori på Big Data. Det er en metode, der tidligere har været meget brugt i kommunikationsteknologi, og som anvendes til at finde nye sammenhænge og årsagerne til, at disse ting sker,” forklarer Torben Bach Pedersen.
”Hvis man skal regne sammenhænge og årsager præcist ud, er det en meget tung proces. Derfor vil vi gerne finde ud af, hvordan man kan lave tilnærmede søgninger, der giver næsten samme resultat og dermed samme vigtige viden. Det er meget lettere – og dermed hurtigere – at udføre sådanne tilnærmede søgninger, og det betyder også, at man vil kunne finde disse sammenhænge meget hurtigere.”
Målet er at udvikle og forfine en metode, der kan anvendes på eksempelvis enorme mængder data fra vindmøller.
”Med denne metode kan man hurtigere identificere sammenhænge, fx hvis nogle målinger svinger i takt, eller der er nogle mønstre, hvor nogle målinger går ned, mens andre går op. Vi har testet metoden på vindmølledata, hvor vi har haft kendskab til sammenhænge – fx højere produktion ved høj vindhastighed – og kan se, at den frembringer de resultater, vi forventede,” siger Torben Bach Pedersen.
Forskerne arbejder nu videre på at udvikle og teste metoden, og håbet er at udvikle et værktøj, der kan være et værdifuldt hjælpemiddel i såvel vindmøllebranchen som transportbranchen.
”Det er vores håb, at med anvendelse af denne metode på fx data fra en eller flere vindmøller, vil man kunne se ukendte sammenhænge, der kan anvendes til at optimere energiproduktionen eller identificere fejl, der er ved at opstå, på et tidligere tidspunkt. Tanken er desuden, at metoden på sigt også skal afprøves på data fra transportsammenhænge, så man kan analysere eksempelvis transporttid, ” afslutter Torben Bach Pedersen.
Ansættelsen af Thi Thao Nguyen Hos er 50% finansieret af DiCyPS og 50% finansieret af et stipendiat fra Det Tekniske Fakultet for IT og Design.
Torben Bach Pedersen, professor, Institut for Datalogi, Aalborg Universitet
Thi Thao Nguyen, post.doc., Institut for Datalogi, Aalborg Universitet