De siste ?rene har store spr?kmodeller (Large Language Models, LLMs) basert p? dypl?ringsarkitekturer blitt stadig mer popul?re innen spr?kteknologi (NLP). Det gj?r at programmer blir bedre til ? l?se oppgaver som har med spr?k ? gj?re. Mens en modell pleier ? l?re mer av et spr?k ettersom mengden treningsdata ?ker, vet vi ikke n?r kostnadene ved mer data blir for h?ye sammenlignet med hvor mye bedre modellen blir. – Jeg ser p? hvor godt modellen l?rer seg forskjellige spr?k underveis i treningen, om noen spr?k er vanskeligere ? l?re enn andre ut ifra hvordan de er bygget opp, og om vi trenger ulik mengde treningsdata for ulike spr?k.
Kombinerte to oppgaver
Alle som tar en master i Spr?kteknologi skriver oppgaven med forskningsgruppen Language Technology Group (LTG). – Jeg s? p? listen av ledige oppgaver de foreslo og sto mellom to forslag. S? etter at LTG holdte presentasjonen over ledige masteroppgaver, spurte jeg veilederne som foresl? de to oppgavene om jeg kunne kombinere de.
Victoria er interessert i det tekniske og lingvistiske som oppgaven inneb?rer.
– I tillegg er jeg veldig opptatt av etikk og tenkte at dette var en mulighet til ? forst? LLMs bedre.
– Kanskje det kunne hjelpe med ? l?se noen av de problemene som kommer med ? bruke store data.
Et tverrfaglig felt
Victoria synes en ting som er fint med masterprogrammet i Spr?kteknologi er at feltet er tverrfaglig, og at hun dermed har mulighet til ? jobbe med mye forskjellig. – Jeg skriver om LLMs, men det betyr ikke at jeg n?dvendigvis m? jobbe med dette. Utdanningen og oppgaven min har v?rt innom mange forskjellige omr?der som utvikling/informatikk (spesifikt High-Performance Computing), datavitenskap, lingvistikk, og statistikk.
Kort om Victoria
- Navn: Victoria Handford
- Masteroppgave: Large Language Models and Linguistic Representativeness: A Typological Perspective
- Utdanning fra UiO:
- Master i Informatikk: spr?kteknologi
- Bachelor i Informatikk: spr?kteknologi