Hvert ?r taper industrien store summer fordi de ansatte ikke klarer ? finne raskt nok frem til de relevante dataene i bedriftens enorme datamengder.
Samtidig som datamengdene ?ker i et stadig st?rre tempo, vokser ogs? mengden av irrelevant informasjon.
– Mangelen p? gode systemer for ? finne relevante data, kan koste store bedrifter hundre millioner kroner i ?ret. Mange beslutninger m? tas innen kort tid, s? den informasjonen de ansatte ikke greier ? finne innen fristen, har bedriften ingen glede av. Det er derfor viktig ? f? raskere tilgang til dataene enn i dag. Teknikken for ? gj?re dette, har ikke endret seg p? tjue-tretti ?r. Vi m? derfor lage helt nye kikkhull inn i de store datalagrene, forteller Arild Waaler, som er professor i logikk og semantisk teknologi p? Institutt for informatikk ved Universitetet i Oslo.
Han er n? blitt leder av det nye senteret for frem- ragende innovasjon, Senter for skalerbar data- aksess, som er et 澳门葡京手机版app下载 mellom UiO, NTNU, Universitetet i Oxford og en rekke industrielle tungakt?rer.
Store oljeselskaper er med
Senteret skal b?de utnytte teknologiske nyvinninger og utvikle helt nye teknologier. Teknologien skal testes ut p? sv?re datasett i store selskaper som Statoil, Philips og Schlumberger, i 澳门葡京手机版app下载 med internasjonale konsulentselskaper som IBM og Oracle.
Et eksempel p? en av de mange oppgavene senteret h?per ? l?se, er et nytt system for oljeselskapene slik at de raskt skal kunne finne frem i de enorme mengdene med interne rapporter og informasjon som fins spredt i en rekke databaser. En database er en systematisk m?te ? organisere dataene p?. Uheldigvis mangler den gjennomsnittlige oljegeologen, akkurat som den vanlige Apollon- leseren, god nok dataforst?else til ? kombinere informasjonen i databasene p? best mulig m?te.
– Tenk deg at du er ingeni?r og har f?tt sv?rt kort tid til ? finne viktig informasjon om en viss type oljebr?nn. Du skal sy sammen relevant informasjon fra mange databaser der hver database kan inneholde titusenvis av variabler. Du m? vite hvilke tabeller i databasene du skal koble sammen. Dessverre vet du ikke engang hva tabellene heter.
Hvis geologen ikke vet hvor informasjonen befinner seg, nytter det ikke med et raskt database- oppslag. Problemet er at dataene er organisert p? en s? kompleks m?te at det kreves sv?rt spesialisert kunnskap for ? gjenfinne dem.
Utfyller Google
N?r Google trekker frem relevant informasjon fra hele verdensveven, baserer den treffene sine p? statistiske analyser.
– Det gj?r at tidligere s?k med mange treff kommer h?yt opp p? Googles liste. Denne teknik- ken fungerer dessverre ikke i industrien, fordi brukerne og sp?rringene er for f?.
Google s?ker dessuten ikke etter informasjon i databaser. Database-programmererne bruker et eget programmeringsspr?k som heter Structured Query Language (SQL). SQL har ikke endret seg siden 1980-tallet. Avanserte SQL-sp?rringene kan v?re sv?rt komplekse og fortone seg komplett uforst?elige for dem som ikke har inng?ende, datateknisk kunnskap.
M?let er at geologen ikke skal v?re avhengig av it-konsulenten, men kunne beskrive informasjonsbehovet med sitt eget vokabular p? et mest mulig normalt spr?k.
– Vi ?nsker at systemet automatisk skal oversette disse setningene til et dataspr?k som skal lage SQL-sp?rringer mot datamaskinen. Hvis vi klarer dette, skal det arbeidet som geologene i dag bruker flere dager p?, kunne gj?res p? f? minutter.
Det gj?r det ikke enklere at mange av geologene ogs? m? lete etter og tolke seismiske data. Seismiske data, som er geofysiske m?linger av havbunnen, kan ta svimlende mye plass og kreve enorme beregninger p? superraske datamaskiner. Disse maskinene er ti tusen ganger raskere enn PC-en din.
– Hele poenget er ? kombinere mye regnekraft med radikalt nye metoder for ? kunne finne frem til informasjonen og gj?re beregninger langt rask-ere ? finne enn hva som er mulig i dag.
Kombinerer siste skrik
Det nye senteret skal ta alle de store datateknologiene i bruk, p? alle niv?er, fra sky-teknologier, der data blir lagret og delt p? nett, og ned til det mest element?re maskinspr?ket.
– Datasystemer har mange abstraksjonslag. For hvert lag mister du ytelse. Vi ?nsker ? kutte tvers igjennom alle abstraksjonslagene og designe dataprogrammene p? en slik m?te at vi kan pushe teknologien i grenseland og dermed ?ke ytelsen.
Senteret skal trekke til seg mer enn hundre forskere.
– Om ?tte ?r tror jeg at det vi forsker p? i dag, vil v?re en selvf?lge i industrien. Da informatikerne startet med relasjonsdatabaser, spurte folk hva det var godt for. I dag er slike databaser allemannseie. N? skal vi ta et tilsvarende grep for ? trekke ut relevant informasjon fra store datamengder, p?peker Arild Waaler.
Regjeringen er positiv
Statssekret?r Dilek Ayhan (H?yre) i N?rings- og fiskeridepartementet poengterer at det nye senteret bidrar til ? h?yne kvaliteten p? norsk, n?ringsrettet forskning.
– Resultatene kan p? sikt bidra til ? styrke norsk konkurranseevne. Store datamengder kan v?re kilde til innovasjon, entrepren?rskap og arbeidsplasser. Ny teknologi kan gj?re det enklere ? samle inn og analysere disse dataene. Dette vil kunne gi oss raskere tilgang til relevant informasjon. Her ligger det store muligheter for b?de det offentlige og n?ringslivet, p?peker statssekret?ren til Apollon.