SOS2901 – Anvendt maskinl?ring for samfunnsvitere
Kort om emnet
Maskinl?ring er sentralt i ? nyttiggj?re seg store data, deriblant for automatisering generelt og datadrevne beslutningssystemer b?de i privat og offentlig sektor. En viktig anvendelse er klassifisering og prediksjoner for nye observasjoner der man enn? ikke vet utfallet. Noen ganger vil det inneb?re ? sp? om fremtiden og gj?re beslutninger basert p? prediksjoner.
?
Med ?kt digitalisering vil innsikt i denne type dataanalyse v?re viktig for samfunnsforst?else generelt. Det er ogs? metoder med ?kende utbredelse i samfunnsvitenskapelig forskning. Selv om samfunnsvitere i liten grad vil st? for utvikling av slike systemer i arbeidslivet, men vil kunne v?re involvert i anbudsrunder, implementering eller andre vurderinger av slike systemer. Samfunnsvitere vil derfor ha stor praktisk nytte av innsikt i maskinl?ring.
?
Dette kurset gir en praktisk innf?ring i grunnleggende prinsipper for maskinl?ring og h?ndtere noen relativt enkle algoritmer for strukturerte data. Det vektlegges vurderinger av akseptable feilrater (falske positive vs. falske negative), og systematiske forskjeller i presisjon p? tvers av undergrupper (bias og fairness). Gjennomg?ende vektlegges justering av algoritmene (tuning) for ? oppn? akseptable feilrater og veie ulike hensyn mot hverandre.
?
For noen anvendelser, som f.eks. m?lrettet reklame, er det lite alvorlig om prediksjonene er feil. I andre typer anvendelser skal det derimot tas beslutninger som potensielt inneb?rer alvorlige konsekvenser for enkeltindivider, f.eks. kredittvurderinger, rekruttering i arbeidslivet, eller risikovurderinger for fremtidig kriminalitet. Algoritmene m? derfor vurderes i lys av hva prediksjonene skal brukes til, og hvilke konsekvenser det f?r. Det gjelder s?rlig konsekvenser hvis prediksjonene er feil. Slike vurderinger gjelder prinsipielt sett ogs? for andre beslutningssystemer, herunder skj?nn. Selv n?r feilratene er store er det ikke alltid ?penbart at alternativene til maskinl?ring er bedre. Slike vurderinger st?r sentralt i emnet.
?
Kurset vektlegger praktiske anvendelser med h?ndtering av datasett og bruk av softwaren?R. Det tekniske niv?et er moderat.?Undervisningen tar utgangspunkt i at studentene er kjent med grunnleggende line?r regresjon, og er kjent med?R.?Det anbefales derfor ? ha tatt SOSGEO1120 eller tilsvarende (f.eks. STV1020).
Hva l?rer du?
Etter endt kurs skal studentene kunne f?lgende:?
- Kjenne viktige prinsipper for maskinl?ring, herunder forskjell p? supervised og unsupervised ML, forst? bias-variance trade-off, overfitting osv.
- Beherske grunnleggende modeller for prediksjon og klassifikasjon, med vekt p? regresjon, tre-baserte algoritmer og boosting.
- Kjenne grunnleggende teknikker for tolkbar maskinl?ring: feature importance og partial dependence.
- Kunne vurdere prediksjoners p?litelighet, med vekt p? feilrater og m?l p? algorithmic fairness. Det vektlegges tuning av algoritmene for ? oppn? ?nsket resultat.
- Beherske grunnleggende teknikker for klustring og datareduksjon.
- Forst? viktige muligheter og begrensninger ved datadrevne modeller. Herunder datakvalitet, forsterkning av bias over tid, og utilsiktede konsekvenser.
Opptak til emnet
Studenter m? hvert semester?s?ke og f? plass p? undervisningen og melde seg til eksamen?i Studentweb.
Dersom du ikke allerede har studieplass ved UiO, kan du s?ke opptak til v?re?studieprogrammer,?eller s?ke om ? bli?enkeltemnestudent.
Opptak til emner skjer p? bakgrunn av?rangeringsregler.
Anbefalte forkunnskaper
Det forutsettes en grunnleggende kjennskap til kvantitative metoder og statistikk. Studentene b?r ha noe kjennskap til programmet R. Det forventede niv?et tilsvarer fullf?rt SOSGEO1120 eller STV1020. Studenter som ikke har tatt disse emnene b?r sjekke l?ringsm?lene p? emnesiden til SOSGEO1120.
Undervisning
Undervisningen vil best? av undervisningsvideoer og seminarer som er fokusert p? praktisk oppgavel?sing der det jobbes med oppgaver og R-programmering. Seminarene er ikke obligatoriske, men krever at man stiller forberedt.
Studentene m? ha tilgang til egen datamaskin med internettilgang med R og Rstudio installert. ?
Informasjon om bytte av seminargruppe
Eksamen
4-timers skoleeksamen.
Eksamen vil inkludere flervalgsoppgaver, korte tekstsvar og analyse av datasett i R.
Hjelpemidler til eksamen
- Alle R-script som er blitt brukt i kurset
Eksamensspr?k
Eksamensoppgaven gis p? norsk. Du kan besvare eksamenen p? norsk, svensk, dansk eller engelsk.
Karakterskala
Emnet bruker?karakterskala fra A til F, der A er beste karakter og F er stryk. Les mer om?karakterskalaen.
Mer om eksamen ved UiO
- Kildebruk og referanser
- Tilrettelegging p? eksamen
- Trekk fra eksamen
- Syk p? eksamen / utsatt eksamen
- Begrunnelse og klage
- Ta eksamen p? nytt
- Fusk/fors?k p? fusk
Andre veiledninger og ressurser finner du p? fellessiden om eksamen ved UiO.