INF0105 - V?r 2011

6. september: H?rsel og retning - syn og forretning

Forelesning ved Sverre Holm og Anne Schistad Solberg fra forskningsgruppen for digital signalbehandling og bildeanalyse.

Sverre Holm og Anne Schistad Solberg

Kort om foredraget:

Signalbehandling er det matematiske verkt?yet for ? analysere, modellere og filtrere fysiske signaler. Disse verkt?yene brukes p? digitale signaler i en datamaskin. Signalbehandling st?r sentralt i en rekke anvendelser innenfor bl.a. tr?dl?s kommunikasjon, multimedia som mp3 og GPS, samt akustisk avbildning i medisinsk ultralyd og sonar. V?r forskning handler mest om slik avbildning. I forelesingen vil vi ta utgangspunkt i hvordan ?rene finner retningen til lydkilder og trekke analogier til hvordan man danner bilder i medisinsk ultralyd og sonar og peke p? noen paradoksale forskjeller. Foredraget vil ogs? omhandle det store mikrofonarrayet i taket i auditoriet Simula og hvordan det finner retningen til den som snakker.

Digital bildeanalyse brukes for ? finne ut hva et bilde inneholder, gjerne for ? trekke ut informasjon som er viktig for ? ta en beslutning eller styre en prosess. V?r gruppe jobber s?rlig med anvendelser i medisin, fjernm?ling og seismikk. Et eksempel er medisinsk bildeanalyse der vi kan finne kreftsvulster i CT eller MR scan eller stille diagnose og prognose p? pasienter ved hjelp av mikroskopi-bilder. Et annet eksempel er fjernm?ling der vi bruker radarsatellitter til deteksjon av oljes?l til sj?s. I forelesningen vil vi ta utgangspunkt i tekstgjenkjenning, og vise hvordan vi med relativt enkle algoritmer kan finne, beskrive og skille mellom ulike tegn og symboler, alts? hva kommersielle OCR-systemer egentlig gj?r.

I forelesingen vil det ogs? bli gitt eksempler p? bedrifter og patenter som er sprunget ut av gruppen.

Oppsummering skrevet av Morten D?hlen:

Signalbehandling

Denne delen av referatet er en liten omskriving av en av Sverres bloggartikler ��Stereo under vann��:

Sverre Holm i aksjon p? Idefestivalen ved UiO den 17. september 2011. Foto: Paal Mork-Knutsen

Sverre viser til en beretning av Hans J?rgen Weedon fra 1960-tallet om bassenget i Tandbergs representasjonsbolig der han sa at de ikke kunne h?re noen stereoeffekt under vann. Siden mange har interesse av stereo, presenter Sverre noen betraktninger om h?rsel, evne til ? h?re retning og om hvordan dette fungerer under vann. Ved Institutt for informatikk i gruppen for Digital signalbehandling og bildeanalyse (DSB-gruppen) benyttes dette til utviklingen av sonarer.

Det finnes forskning p? undervannsh?rsel tilbake til 1960-tallet og n?r man sl?r opp i f.eks. Journal of the Acoustical Society of America s? finner man at det faktisk er mulig ? bestemme retning under vann, men at denne evnen er mye d?rligere enn i luft. Typisk kan retningen fra hvor lyden kommer fra finnes med 10-20 graders n?yaktighet i vann, mot 2-4 graders n?yaktighet i luft. Det beste resultatet i vann f?r man n?r man blir bedt om ? skille mellom om lyden kommer fra h?yre eller venstre, mens det er betydelig vanskeligere ? skille mellom om lyden kommer forfra eller bakfra. Retningsbestemmelse fungerer ogs? best ved lave frekvenser, typisk 400 Hz. (Hertz=Hz er betegnelsen p? frekvens og angir antall sykliske hendelser per sekund for et periodisk fenomen, som f.eks. lyd som forplanter seg som en b?lge, dvs. en syklisk hendelse.) Det er ogs? mulig ? trene opp egenskapen ved lytte til lyder fra ulike retninger.

V?r evne til retningsbestemmelse i luft forklares i dag med tre effekter:

Tids- eller fase-forskjell mellom ?rene som skyldes at lyden fra et sted kommer til ?rene p? forskjellige tidspunkter og i ulik fase. Lyden forplanter seg som en b?lge, som igjen betyr at n?r lyden n?r ett ?re vil den v?re p? et sted p? b?lgen, mens den kan v?re p? et annet sted p? b?lgen n?r lyden n?r det andre ?ret, dvs i ulik fase. Tids- og fase-forskjeller mellom ?rene kan oppfattes for frekvenser under omtrent 1,5 kHz.
Amplitudeforskjeller mellom ?rene fordi hodet skygger for lyd fra den andre siden. Amplityde angir styrke eller h?yden p? lydb?lgene, og h?yde eller styrkeforskjeller skapes av at hodet skygger for lyden eller at lyden beveger seg rundt hodet. Dette er dominerende for frekvenser fra 1,5 �C 2 kHz og oppover.
Det ytre ?ret (pinna) �C Retningsavhengig frekvensrespons til det ytre ?ret. Med bare tids- og amplitudeforskjeller er det ikke mulig ? skille lyder som kommer forfra fra de som kommer bakfra, og heller ikke avgj?re om lyder kommer ovenfra eller i samme plan som hodet. Men det ytre ?rets ��farging�� av lyden gj?r at vi likevel klarer det. De sm? detaljene i det ytre ?ret skaper sm? reflekser som blir litt forskjellig i hver retning og som vi har l?rt oss ? tolke. Dette gj?r at det faktisk er mulig ? finne retning med bare ett ?re ogs?, men det virker best for kjente lyder hvor hjernen vet hva den skal forvente.

Som Weedon p?peker s? blir den f?rste effekten, tidsforskjellen i vann, mindre enn en fjerdedel da lydhastigheten i vann er h?yere enn i luft. (Lydhastighetene i vann er 1500 m/s mot 340 m/s i luft). Likevel regnes dette som den viktigste mekanismen for retningsbestemmelse under vann.

Effekt nummer to, amplitydeforskjellen eller skygging fra hodet, blir omtrent borte i vann. Ved 1,5-2 kHz er b?lgelengden i luft omtrent som diameteren til hodet og det er f?rst n?r b?lgelengden blir mindre enn hodet at det blir skyggeeffekter. I vann m? frekvensen da opp til 6-8 kHz. Dessuten er ikke kontrasten, sett fra en lydb?lges perspektiv, s? veldig stor mellom hodet og vannet, s? lyden kan delvis g? rett gjennom hodet. Det gj?r ogs? at en del av h?rselsevnen kan skyldes ledning av lyd gjennom bein og ikke prim?rt lyd som g?r inn gjennom ?regangene. Det er ting som tyder p? at dette skaper tids- og amplitudeforskjeller. Amplitudeforskjellen i vann kan minne om de forskjellene som skapes av hodets skygging i luft, og dermed bidra til ? gi retningsevne under vann.

Den tredje effekten, det ytre ?rets farging av lyden, regner man med at blir satt ut av spill under vann. I vann blir det omtrent ikke reflekser mot huden, da forskjellen i s?kalt akustisk impedans mellom ?ret og vannet er s? liten. (Akustisk impedans er ledningsevne for lydb?lger eller hvordan lyd forplanter seg i et medium.)

DSB-gruppen ved Institutt for informatikk har grepet fatt i dette fra en litt annen synsvinkel. Moderne avbildningssystemer som sonar og medisinsk ultralyd bruker bare tidsforskjeller for retningsbestemmelse. Gruppen fors?ker ? finne ut av om det finnes muligheter for ? forbedre retningsbestemmelse ved ? l?re av h?rselen og ta flere lyd-fenomener i bruk.

Digital bildeanalyse

Bildeanalyse handler om ? finne objekter eller m?nstre i bilder. Vi f?r oss presentert et bilde der vi ser mange tall. Vi ser enkelt at dette bildet best?r av tall og siden de f?rste tallene er 314159265 (se bilde) vil ogs? mange av oss straks anta at dette kanskje m? v?re tallet Pi med noen hundre siffers n?yaktighet. Hvordan skal vi f? datamaskinen til ? ��se�� tallene i et bilde som bare best?r av gr?toneverdier mellom 0 (svart) og 255 (hvit).

Det f?rste som m? skje er ? skille bakgrunnen fra forgrunnen (dvs. tegnene). Dette gj?res ved s?kalt terskling der man finner en gr?toneverdi mellom bakgrunnen og forgrunnen. Merk at denne terskelen kan variere over bildet.

Har man funnet denne terskelen p? et sted i bildet setter man bakgrunnen, dvs. verdier st?rre enn terskelen, lik hvit (255) og forgrunnen, dvs. verdier i bildet mindre en terskelen, lik sort (0). Deretter rydder man opp i bildet ved ? fjerne st?y, dvs. enkeltpunkter eller sm? sammenhengende objekter som ikke kan v?re et tegn. Bildene viser et 3-tall f?r og etter terskling.

Man finner s? rotasjonsvinkelen til tallene, dvs. om radene med tegn er parallelle med kanten av bildet. Dette kan gj?res p? mange m?ter, men det mest robuste er ? bruke Fourier-analyse for ? finne de prinsipale retningene i bildet. (Jeg skal ikke g? videre inn p? dette her, men henvise til kurs p? instituttet.) Anta n? at bildet er rettet opp, dvs. rotert slik at radene med tegn er parallelle med kantene i bildet.

Vi er n? i posisjon til ? finne objektene, dvs. flere sorte punkter i bildet som henger sammen. Dette kan f.eks. gj?res ved ? finne punktene i objektene som utgj?r objektenes kant(er). Tallene 1,2,3,4,5,7 har en kant, tallene 0,6, og 9 har 2 kanter, mens tallet 8 har tre kanter. Det vil som oftest v?re nok ? bare se p? den ytre kanten, dvs. bare finne randen p? objektene. Ved ? analyse randa til et ukjent objekt finner man et antall egenskaper ved dette objektet. Disse egenskapene er et antall passende matematiske m?l, og ogs? her kan Fourier-analyse brukes for ? finne et passende antall matematiske m?l. Man sammenligner s? disse egenskapene med de tilsvarende egenskapene til symboler (i dette tilfelle tall) som man kjenner. Vi har her 10 symboler/tall og vi sier at det ukjente objektet er det symbolet av disse 10 kjente symbolene som har egenskaper som ligner mest p? egenskapene til akkurat dette kjente symbolet.

Vi har n? funnet ut at det f?rste ukjente symbolet er et 3-tall, det neste et ��1��-tall, osv. Det h?rer med til historien at det finnes et hav av metoder for ? gj?re dette, og det kan du l?re mer om dersom du velger ? studere bildebehandling og m?nsterkjenkjenning ved Institutt for informatikk.

Hvor er Mona Lisa?

Publisert 9. sep. 2011 15:20 - Sist endret 7. feb. 2020 16:00

Kommentarer (0)

Abonner p? kommentarer

Legg til kommentar