Beskrivelse
Whisper er en generell talegjenkjenningsmodell. Den er trent p? et stort datasett med variert lyd og er ogs? en fleroppgavemodell som kan utf?re flerspr?klig talegjenkjenning samt taleoversettelse og spr?kidentifikasjon.
Tjenesten kan lastes ned og kj?res p? egen PC, men dette anbefales ikke ettersom den krever mye ressurser. Autotekst.uio.no er en tjeneste som bruker Whisper via servere som er plassert p? UiO og webtjenesten er ogs? tilgjengelig via Educloud. Denne anbefales for de fleste brukere.
Beskrivelsen under omhandler de som ?nsker ? installere Whisper i et prosjekt i TSD og bruke HPC fra Colossus for ? kj?re transkriberinger.
Hjemmeside for Whisper
https://github.com/openai/whisper
Dokumentasjon
https://github.com/openai/whisper
Lisens
Bruk
Whisper-lydtranskripsjon b?r kj?res p? GPU-nodene og krever opplasting av den oppl?rte modellfilen. Eksempelskript er tilgjengelig i "/tsd/shared/software/whisper". Se her for en grunnleggende veiledning for bruken. V?r oppmerksom p? at skriptene b?r tilpasses dine data og analysen som skal gj?res. (f.eks. forskjellig kj?retid, forskjellig transkripsjonsspr?k, forskjellige modellargumenter). Testing har vist at Slurm-jobbens kj?retid kan settes til omtrent en halv til en tredjedel av lydfilens varighet.
Bruk
module avail Whisper
for ? se hvilke versjoner av Whisper som er tilgjengelige. Bruk
module load Whisper/version
for ? f? tilgang til Whisper.
Fakturering
Jobben kj?rer p? en GPU, og faktureringsgrunnlag er beskrevet her. Generelt er kostnaden for en transkripsjonsjobb = (antall GPUer) x (GPU-kostnadsfaktor) x (arbeidstid) x (kjernetimepris). S? forutsatt at transkripsjon har en varighet p? en 1 times lyd-/videofil som tar 30 minutter ? fullf?re p? 1 GPU (standard) og ved ? bruke UiO-priser, vil kostnaden v?re 24 x 0,06 x 0,5 = 0,72 NOK.