Whisper

Beskrivelse

Whisper er en generell talegjenkjenningsmodell. Den er trent p? et stort datasett med variert lyd og er ogs? en fleroppgavemodell som kan utf?re flerspr?klig talegjenkjenning samt taleoversettelse og spr?kidentifikasjon.

Tjenesten kan lastes ned og kj?res p? egen PC, men dette anbefales ikke ettersom den krever mye ressurser. Autotekst.uio.no er en tjeneste som bruker Whisper via servere som er plassert p? UiO og webtjenesten er ogs? tilgjengelig via Educloud. Denne anbefales for de fleste brukere.

Beskrivelsen under omhandler de som ?nsker ? installere Whisper i et prosjekt i TSD og bruke HPC fra Colossus for ? kj?re transkriberinger.

Hjemmeside for Whisper

https://github.com/openai/whisper

Dokumentasjon

https://github.com/openai/whisper

Lisens

MIT license

Bruk

Whisper-lydtranskripsjon b?r kj?res p? GPU-nodene og krever opplasting av den oppl?rte modellfilen. Eksempelskript er tilgjengelig i "/tsd/shared/software/whisper". Se her for en grunnleggende veiledning for bruken. V?r oppmerksom p? at skriptene b?r tilpasses dine data og analysen som skal gj?res. (f.eks. forskjellig kj?retid, forskjellig transkripsjonsspr?k, forskjellige modellargumenter). Testing har vist at Slurm-jobbens kj?retid kan settes til omtrent en halv til en tredjedel av lydfilens varighet.

Bruk

module avail Whisper

for ? se hvilke versjoner av Whisper som er tilgjengelige. Bruk

module load Whisper/version

for ? f? tilgang til Whisper.

Fakturering

Jobben kj?rer p? en GPU, og faktureringsgrunnlag er beskrevet her. Generelt er kostnaden for en transkripsjonsjobb = (antall GPUer) x (GPU-kostnadsfaktor) x (arbeidstid) x (kjernetimepris). S? forutsatt at transkripsjon har en varighet p? en 1 times lyd-/videofil som tar 30 minutter ? fullf?re p? 1 GPU (standard) og ved ? bruke UiO-priser, vil kostnaden v?re 24 x 0,06 x 0,5 = 0,72 NOK.

Fant du det du lette etter?

Publisert 1. feb. 2023 13:53 - Sist endret 14. apr. 2025 08:04