Whisper i TSD

Her er oppskrift p? hvordan du kan transkribere med Whisper i TSD.

F?r du begynner

TSD-prosjektet m? ha tilgang til tungregning p? Colossus. Om dette ikke allerede er p? plass m? PI sende e-post til tsd-drift@usit.uio.no med relevant prosjektnummer og ettersp?rre tilgang.

Installasjon

Fordi prosjekter kan ha b?de Windows- og Linux-maskiner er det flere m?ter ? installere Whisper p?. Felles er at programvaren m? kopieres fra et fellesomr?de og inn i prosjektet v?rt. Dette kan gj?res p? ulike m?ter, og vi viser her hvordan det gj?res i File Explorer og i en terminal.

File Explorer (Windows)

?pne File Explorer
Klikk i filsti-feltet og skriv inn f?lgende filsti: \\ess01\shared\software\whisper
Tast s? Enter p? tastaturet n?r stien er innskrevet.
Marker alt innhold i denne mappen, h?yreklikk p? en av de bl? radene og velg Copy.
Klikk i filsti-feltet og skriv inn f?lgende filsti hvor pXXXX byttes ut med prosjektnummeret v?rt: \\ess01\pXXXX\data\durable
Tast s? Enter p? tastaturet n?r stien er innskrevet.
Opprett en ny mappe i denne mappen ved ? h?yreklikke i et blankt felt innad i mappen, velg New og klikk deretter p? Folder. Gi mappen et passende navn, vi anbefaler whisper. Avslutt med ? g? inn i denne nye mappen.
Lim s? inn innholdet som tidligere ble kopiert ved ? h?yreklikke og velge Paste. Whisper er n? kopiert til prosjektet v?rt, og kan benyttes av alle prosjektmedlemmer.

Terminal (Linux + Windows)

?pne et terminalvindu (p? Windows m? du f?rst koble til prosjektets submit-node ved bruk av PuTTY, hvordan dette gj?res er beskrevet her).
Man?vrer til prosjektets durable-mappe med f?lgende kommando, hvor pXXXX byttes ut med relevant prosjektnummer (alle kommandoer m? etterf?lges av trykk p? Enter-tasten p? tastaturet):

cd /tsd/pxxxx/data/durable

3. Kopier whisper-mappen fra den delte disken til durable-mappen med f?lgende kommando:

cp -r /shared/software/whisper/ .

Whisper er n? kopiert til durable-mappen og tilgjenglig for alle i prosjektet.

Hvordan benytte Whisper

For ? benytte Whisper m? man f?rst koble seg til maskinen Colossus, som gj?res gjennom prosjektets submit-node (om dette h?res ukjent ut, ta en ny gjennomgang av F?r man begynner). Herfra starter vi en transkriberingsjobb som vil bli utf?rt etter en k?ordning, som man finner mer informasjon om her. For ? koble til submit-noden gj?res f?lgende (avhengig av maskintypen til prosjektet):

Windows: F?lg veiledningen p? denne siden.
Linux: ?pne programmet Terminal, skriv ssh pxxxx-hpc-01 og trykk Enter-tasten. Angi deretter TSD-passordet ditt (OBS! Passordet skrives inn selv om du ikke ser noen reaksjon p? skjermen) og bekreft ved ? trykke Enter.

N? som vi er tilkoblet submit-noden vil ting v?re likt uavhengig av hvilken type virtuell maskin vi benytter oss av. De neste stegene er som f?lger:

P?se at lydfilene som skal transkriberes befinner seg i mappen pxxxx/data/durable/whisper/data/. Dette gj?res enklest i programmene File Explorer (Windows) eller Files (Linux).
NB! Filnavn kan kun ha lovlige tegn og ikke mellomrom.
Sett igang jobben som utf?rer transkriberingen fra riktig mappe ved ? utf?re f?lgende kommandoer i PuTTY/Terminal, hvor pXXXX byttes ut med riktig prosjektnr (hver kommando m? etterf?lges av trykk p? Enter-tasten):
```
cd /tsd/pxxxx/data/durable/whisper
```
```
./transcribe_data
```
Du b?r n? f? en melding om at en jobb er sendt inn, med tilh?rende ID.
De transkriberte filene vil dukke opp i samme mappe som opptaket/opptakene (pxxxx/data/durable/whisper/data/) straks jobben er ferdig utf?rt.
Husk ? flytte disse f?r du transkriberer andre filer!

Dersom noe skulle g? galt med transkribsjonsjobben vil det genereres en slurm-JOBID.out-fil i whisper-mappen, som inneholder informasjon om hvorfor jobben feilet.

Se instruksjonsvideo

Advarsel: I videon nevnes at man logger p? submit host (pxxx-submit), men etter nylige endringer i Colossus heter submit host n? pxxx-hpc-nn.

Merk: Spr?kmodellen brukt av Whisper p? Colossus er n? en programvare modul som blir lastet av scriptet som ligger i whisper folderen, og ikke en fil i seg selv i den folderen slik det var tildligere. Se ogs? under i 'Avanserte instillinger' avsnittet for hvordan du kan velge spr?kmodell.

Denne videoen er tekstet med Whisper b?de med NOR og EN som parameter, og da kom f?lgende filer ut (som jeg har eksportert fra TSD)

Du kan endre teksting selv eller skru den av. Denne filmen er tekstet uten ? bli redigert i etterkant. Jeg brukte Whisper til ? oversette ved ? endre i whisper.sm.

Avanserte innstillinger

Du kan gj?re endringer p? diverse innstillinger for transkribsjonen din selv ved ? redigere filen whisper.sm. Denne filen ?pnes i et tekstprogram, f.eks. Notepad eller Notepad++, ved ? h?yreklikke og velge Open with, f?r man deretter velger programmet.

Her er 2 ting du kan endre:

LANGUAGE=en
- Om du endrer denne til fra "no" til "en" f?r du automatisk oversatt transcriberingen(!)
#SBATCH --time=00:20:00
- om du har store filer, m? du ?ke denne opp fra 20 min, ellers f?r du time-out.

Husk ? lagre fila f?r du gj?r kj?rer scriptet p? nytt.

Whisper benytter n? spr?kmodellen "large-v3" som default, men alle OpenAI modeller er inkludert i programvare modulen og kan velges ved ? endre milj? variablene som brukes av modulen. For ? se alle spr?kmodeller tilgjengelig i modulen, kj?re f?lgende kommando etter ? ha lastet modulen:

printenv | grep EBWHISPERMODEL

For ? velge en annen modell, oppdater scriptet "whisper.sm" med korresponderende milj? variabel (f.eks. MODEL=$EBWHISPERMODELLARGEV2).

Publisert 21. nov. 2022 12:12 - Sist endret 1. apr. 2025 10:09