STK1000: FØRSTE SETT MED OBLIGATORISKE OPPGAVER
Høsten 2008
Oppgavesettet består av tre oppgaver. For å løse oppgavene trenger du hjelp av MINITAB eller annen statistisk programvare. I forbindelse med bruk av MINITAB kan du ha nytte av notatet Starthjelp i MINITAB (kalt "innføringsheftet" nedenfor). Det er tilgjengelig på hjemmesiden til kurset.
I den skriftlige besvarelsen av oppgavene skal du kort forklare hvordan de enkelte punktene er løst. Det er valgfritt om du vil skrive besvarelsen for hånd eller om du vil bruke et tekstbehandlingsprogram. Der du bruker MINITAB, må relevante utskrifter og plott legges ved eller limes inn i besvarelsen. Instruksjoner for utskrift fra MINITAB finner du i avsnitt 10 i innføringsheftet.
Obligen skal leveres med en egen forside som du finner her. Det er lov å 澳门葡京手机版app下载e og å bruke hjelpemidler. Den innleverte besvarelsen skal imidlertid skrives av deg og gjenspeile din forståelse av stoffet. Er vi i tvil om at du virkelig har forstått det du har levert inn, kan vi be deg om en muntlig redegjørelse.
Besvarelsen leveres på instituttkontoret ved Matematisk Institutt i 7. etasje, Niels Henrik Abels hus (Matematikkbygningen).
Frist for innlevering er fredag 26. september 2008 kl 14.30.
Oppgave 1
Karbondioksid (CO2) er en gass som dannes n?r man brenner fossile brensler, og bidrar bl.a. til global oppvarming. På side 33 i læreboken (Moore & McCabe, 5. utg.) finner du en tabell over CO2-utslipp i tonn per person i 2006 fra land med mer enn 20 millioner innbyggere. Tallene er gitt på fil i tekst-format og Minitab-format.a) Del verdiområdet opp i passende delintervaller og tell opp antall observasjoner i hvert delintervall. Tegn for hånd et histogram for de 48 observasjonene. Kommenter histogrammets form.
b) Lag et histogram over de 48 observasjonene ved hjelp av MINITAB (kommando: Graph -> Histogram; jfr. avsnitt 8.3 i innføringsheftet). Sammenlign med histogrammet du lagde i a). Lag også et stilk-og-blad-plott (Graph -> Stem-and-Leaf). Hvilke land skiller seg ut? Frivillig: Finn ut hvor i fordelingen Norges CO2-utslipp ligger.
c) Hvilke oppsummerende mål bør brukes for å beskrive en fordeling som den du ser i a) og b)? Begrunn svaret. Beregn disse ved hjelp av MINITAB (kommando: Stat -> Basic Statistics -> Display Descriptive Statistics; jfr. avsnitt 8.1 i innføringsheftet - plukk ut det du trenger fra utskriften).
d) Bruk MINITAB til å lage et boxplot over dataene. Beskriv og beregn kriteriet som ligger til grunn for at en observasjon er markert med stjerne-symbol i plottet. Syns du denne potensielle uteliggeren burde fjernes fra datasettet i videre analyser? Begrunn svaret.
Oppgave 2
I denne oppgaven skal vi se på data som er samlet inn under et innføringskurs i statistikk ved et amerikansk universitet. Studentene i kurset gjennomførte et enkelt forsøk. Hver student noterte sin høyde og vekt og målte pulsen sin (under hvile). Så kastet hver av studentene en mynt. De som fikk krone løp på stedet i ett minutt, mens de som fikk mynt ble sittende stille i ett minutt. Så målte alle pulsen en gang til (for de som satt stille, er dette en måling til av pulsen under hvile). Dataene for de 92 studentene finnes som en Minitab-fil og som en vanlig tekstfil, som du må kopiere inn i et arbeidsark i MINITAB. På datafilen er det en linje for hver av de 92 studentene, der variablene i kolonnene har følgende betydning:- Pulse1: Første pulsmåling (antall slag per minutt)
- Pulse2: Andre pulsmåling (antall slag per minutt)
- Ran: 1=løp på stedet; 2=satt stille
- Sex: 1=mann; 2=kvinne
- Height: høyde i inches (1 inch = 2,54 cm)
- Weight: vekt i pounds (1 pound =0,454 kg)
Med dette modifiserte datasettet:
a) Lag histogram for variabelen Pulse1 og merk av din egen verdi.
b) Beregn enkle oppsummerende mål for den samme variabelen. Hvordan ligger din egen verdi i dette bildet?
c) Lag et scatterplot med Pulse1 på x-aksen og Pulse2 på y-aksen, med forskjellige symboler for de som løp og de som ikke løp. Forklar hva plottet viser. Lag andre grafiske fremstillinger som viser effekten av aktivitet p? Pulse2.
d) Gjennomfør en regresjonsanalyse med vekt som responsvariabel og høyde som forklaringsvariabel. Forklar hva resultatene av regresjonsanalysen forteller deg. (Kommandoer: Stat -> Regression -> Regression og Stat -> Regression -> Fitted Line Plot.)
e) Forklar hva R-Sq (r-kvadrert) i utskriften betyr.
Oppgave 3
a) Plott først dataene for hastighet og stegfrekvens. Her lager du tre figurer: Først en der dataene plottes i samme figur, men med ulike plottesymboler for menn og kvinner, dernest en der det legges inn en felles regresjonslinje og til slutt en der det legges inn separate regresjonslinjer. Plottene kan du lage med kommandoen Graph -> Scatterplot. På bildet som kommer fram kan du spesifisere de tre typene av plott som er beskrevet ovenfor ved With Groups, With Regression og With Groups and Regression henholdsvis. Du trenger den sjette kolonnen, som identifiserer kvinner og menn, for å lage det første og siste av plottene.
b) Anta nå at du fikk dataene uten identifikasjon av kjønn. Beregn koeffisientene for minste kvadraters linje for alle dataene. Bruk de to kolonnene der dataene for kvinner og dataene for menn er slått sammen.
c) Lag plott av residualene fra linjen i punkt b) mot rekkefølgen av observasjonene og mot hastighet. Forklar hvordan det vises i plottet at dataene kommer fra to forskjellige grupper. Kommandoene er her Stat -> Regression -> Regression. Klikk på Graphs og be om å få plottet (i) residualene mot rekkefølgen av observasjonene og (ii) residualene mot hastighet.
d) Beregn så regresjonslinjer separat for hvert kjønn. Hva blir korrelasjonen mellom hastighet og stegfrekvens i hvert av tilfellene? Hva sier disse korrelasjonene om regresjonslinjene?
e) Lag plott av residualene fra hver av de to linjene fra punkt d) mot hastighet. Kommenter plottene!