Tro det eller ei! Uansett hva du leter etter p? Finn.no, landets st?rste markedsplass, blir de automatiske annonse-anbefalingene mer relevante desto mer Finn.no tar hensyn til usikkerhetene.
Etter at nettstedet tok i bruk nye usikkerhetsberegninger, har den gjennomsnittlige brukeren klikket seg inn p? sju prosent flere annonser enn tidligere. Mer trafikk betyr st?rre omsetning og mer penger i kassen.
– Det gjelder ? engasjere brukeren nok til at han bryr seg om hva vi anbefaler, forteller data scientist Simen Eide p? Finn.no. Han tar n? en industriell doktorgrad p? BigInsight – et senter for forskningsdrevet innovasjon ved UiO – om hvordan det er mulig ? bruke kunnskapen om usikkerheter for at markedsplassen kan anbefale de beste annonsene til nettopp deg som bruker.
Ut av digital boble
?La oss ta det hele fra starten. Du har klikket ti ganger p? noe du er interessert i. Anta du har sett p? ti biler. F?r ville Finn.no ha anbefalt deg annonser med tilsvarende biler.
– Det er vanligvis slik anbefalingsalgoritmene fungerer.
Dette har dessverre noen uheldige konsekvenser. Hvis du bare blir anbefalt det markedsplassen tror du ser etter, havner du i en digital boble.
– Da vil ikke anbefalingene dekke hele interessebredden din. Simen Eide har fors?kt ? gj?re noe med dette. Det har v?rt alt annet enn enkelt. Selv om Finn. no sitter p? enorme mengder data, vet de nesten ingenting om den enkelte bruker.
– Usikkerheten er sv?rt stor om hva brukeren er interessert i. Hvis du har sett p? ti biler, men ogs? er interessert i noe annet, er det i tillegg viktig for oss ? oppdage de andre interessene dine.
Dyp l?ring
?For ? klare dette m? Simen Eide kvantifisere usikkerhetene. Anbefalingssystemet til Finn.no bygger p? dyp l?ring, en viktig metode for ? trene opp datamaskinen til ? gjenkjenne m?nstre i data. Problemet med dyp l?ring er at denne metoden ikke tar hensyn til usikkerheter.
– Vi pr?ver n? ? bake inn usikkerheten i den dype l?ringen.
Hvis du har sett p? femten biler og ett sofabord, er det best ? vise annonser av biler, men det er samtidig en viss sannsynlighet for at du ogs? har andre preferanser. Simen Eide tar derfor ogs? hensyn til hva de andre brukerne, med tilsvarende interesser for biler, ser etter.
– Det eneste vi vet er at en bruker som har sett p? en bil, ogs? har stor sannsynlighet for ? se p? en annen bil.
Da m? Finn.no finne den rette bilen blant de to millioner gjenstandene som finnes i databasen deres.
50-dimensjonal fotballbane
For ? skj?nne hvordan Finn.no tenker, kan du se for deg at nettstedet har plassert alle annonsene – det er alts? mer enn to millioner av dem – utover en fotballbane. Hver gang en av brukerne tar en titt p? to bestemte annonser, blir disse to annonsene plassert n?rmere hverandre p? fotballbanen.
– Brukere har en tendens til ? se p? lignende ting over tid. Kanskje vil alle de dyre bilene havne p? den ene siden av fotballbanen, mens sofaene havner p? den andre siden.
Jo kortere avstanden er mellom to objekter, desto st?rre er sannsynligheten for at de to annonsene blir vist til samme bruker.
Det er ikke mulig ? plassere alle objektene p? en to-dimensjonal fotballbane. Simen Eide jobber heller ikke i tre dimensjoner.
– Vi er n?dt til ? sortere alle annonsene p? en fotballbane med femti dimensjoner. Vi trenger s? mange dimensjoner for ? kunne finne den rette avstanden mellom alle annonsene.
Sannsynlighetsfordeling
S? kommer neste problem. Det handler om det Simen Eide kaller for kaldstartproblemet.
– Hvis det legges ut en ny bilannonse, er det ingen som har sett p? denne bilen f?r. Da er det umulig ? legge ut bilen p? fotballbanen.
Poenget er ? anbefale den til brukere s? tidlig som mulig. Og det er n? Apollon omsider kommer til det saliggj?rende hovedpoenget om usikkerheter. P? tide! Og n? snakker han om brukerne og ikke annonsene. Han legger ogs? brukerne inn p? fotballbanen.
– Vi legger ogs? brukerne p? fotballbanen, men vi er usikre p? n?yaktig hvor de skal plasseres. Det er ikke nok ? legge dem p? et bestemt punkt. Vi m? ogs? lage en sannsynlighetsfordeling for hvert av disse punktene.
Det betyr at alle brukerne f?r et omr?de p? fotballbanen der de med en viss usikkerhet kan ligge.
– Sannsynligheten blir da kanskje st?rst for at brukeren fortsatt ?nsker ? lete etter en annen bil, mens sannsynligheten ogs? er til stede for at han har lyst til ? se etter et sofabord.
Etter at Finn.no la denne spesielle formen for usikkerhet inn i modellen, ?kte klikkraten med sju prosent.
– Det er bra. Hvis folk finner annonsene mer interessante, vil de kj?pe og selge mer. Vi f?r da mer forn?yde brukere, samtidig som Finn.no f?r en sterkere posisjon i markedet.
Tunge beregninger
Det krever en del datakraft for ? ta hensyn til alle usikkerhetene. Dette er intet stress for akademikere. Det har ingenting ? si for dem om de m? bruke en ukes databeregninger for ? trene opp modellen.
I det virkelige liv er en uke altfor mye. F?r alle beregningene er i boks, er resultatene i mellomtiden blitt irrelevante. Det er derfor viktig at markedsplassen klarer ? l?se beregningene i l?pet av noen f? nattetimer, slik at brukerne kan f? de beste anbefalingene n?r de setter seg ved tastaturet neste morgen.
– Jo fortere vi f?r dette til, desto mer ferskvare blir resultatene.
Det beste hadde v?rt om det var mulig ? trene opp modellen i sanntid, slik at Finn.no vet hva brukeren er interessert i der og da.
– Med en liten algoritme skal det v?re mulig ? f? fornuftige resultater i l?pet av 80 millisekunder. Det betyr at systemet v?rt kan beregne hva du liker best hver gang du klikker deg inn p? nettstedet.
Spiller med ?pne kort
Selv om alle algoritmene blir publisert i vitenskapelige tidsskrifter, er ikke Simen Eide redd for at noen andre luringer skal stikke av g?rde med ideene hans.
– P? konferanser utveksler vi ideer med konkurrentene v?re. Det er givende. Verdien av algoritmene er begrenset kommersielt. Finn.no er mye mer enn dette. Men den gangen jeg jobbet i finansverdenen, diskuterte vi ikke l?sningene med andre. Det hadde v?rt mye farligere for bedriften.