R-hjelp
til exercise 5 i BSS
#
Les dataene inn i en dataramme, gi
navn til variablene i datarammen
og se p?
dataene:
rock<-read.table("http://www.math.uio.no/avdc/kurs/STK4900/data/rock.dat",
col.names=c("area","peri","shape","perm"))
rock
# Kontroller at dataene svarer til de som er
gitt i oppgaven.
#
Gj?r variablene i datarammen tilgjengelige
attach(rock)
#
Punkt a)
#
Beskrivende statistikk,
histogram og andre plott av "perm" (lag ett plott om
gangen=:
summary(perm)
hist(perm)
boxplot(perm)
#
Hvordan er fordelingen av "perm"? Symmetrisk eller skjev?
#
Pr?ver med en log-transformasjon:
summary(log(perm))
hist(log(perm))
boxplot(log(perm))
#
Hvordan er fordelingen av "log(perm)"? Symmetrisk eller skjev?
#
(Vi velger ? g? videre med "log(perm)" i punkt c.)
#
PUNKT b)
#
Beregner korrelasjonen mellom de tre kovariatene
og plotter dem:
cor(rock[,1:3])
plot(rock[,1:3])
# Er det stor korrelsajon
mellom noen av kovariatene. Hva
#
PUNKT c)
#
Plotter? "log(perm)"
mot de andre kovariatene
(lag ett plott om gangen):
plot(area, log(perm))
plot(peri, log(perm))
plot(shape, log(perm))
# Hvilke av kovariatene ser ut til ?
ha betydning?
#
Line?r regresjon av log(perm) med alle kovariatene
#
(opsjonene "x=T" og
"y=T" er med p.g.a.
beregningene i punkt d)
pfit1<-lm(log(perm)~area+peri+shape, x=T,
y=T)
summary(pfit1)
# Hvilke av kovariatene ser ut til ?
ha betydning?
# Hvordan stemmer det med spredningsplottene?
#
PUNKT d)
#
Etter t-verdiene ordnes variablene som: peri > area > shape
#
Tilpasser ogs? enklere modeller:
pfit2<-lm(log(perm)~area+peri, x=T, y=T)
pfit3<-lm(log(perm)~peri, x=T, y=T)
#
Beregner kryssvalidert R2:
kryssvalidR2(pfit3)
kryssvalidR2(pfit2)
kryssvalidR2(pfit1)
# Hvilken av de tre modellene
gir den beste prediksjonen?
#
Sammenlign kryssvalidert R2
med R" fra punkt c. Hva ser du?
#
PUNKT e)
#
Tilpass modell med andreordens ledd og interaksjoner:
pfit1<-lm(log(perm)~area+peri+shape+I(area^2)+I(peri^2)+I(shape^2)+area:peri+area:shape+peri:shape, x=T, y=T)
summary(pfit1)
# Hvilke variable ser ut til ?
ha st?rst betydning?
#
Etter t-verdiene ordnes variablene som:?
#
area:peri > area^2 > peri > area > peri^2 > area:shape
> peri:shape > shape^2 > shape
#
Tilpasser modeller etter denne ordningen:
pfit2<-lm(log(perm)~area+peri+I(area^2)+I(peri^2)+I(shape^2)+area:peri+area:shape+peri:shape,x=T,y=T)
pfit3<-lm(log(perm)~area+peri+I(area^2)+I(peri^2)+area:peri+area:shape+peri:shape,x=T,y=T)
pfit4<-lm(log(perm)~area+peri+I(area^2)+I(peri^2)+area:peri+area:shape,x=T,y=T)
pfit5<-lm(log(perm)~area+peri+I(area^2)+I(peri^2)+area:peri,x=T,y=T)
pfit6<-lm(log(perm)~area+peri+I(area^2)+area:peri,x=T,y=T)
pfit7<-lm(log(perm)~peri+I(area^2)+area:peri,x=T,y=T)
pfit8<-lm(log(perm)~I(area^2)+area:peri,x=T,y=T)
pfit9<-lm(log(perm)~area:peri,x=T,y=T)
#
Beregner kryssvalidert R2
for modellene:
kryssvalidR2(pfit9)
kryssvalidR2(pfit8)
kryssvalidR2(pfit7)
kryssvalidR2(pfit6)
kryssvalidR2(pfit5)
kryssvalidR2(pfit4)
kryssvalidR2(pfit3)
kryssvalidR2(pfit2)
kryssvalidR2(pfit1)
#
Hvilken modell gir best prediksjon
#
(ikke bry deg om "merkelige"
verdier av R2 for modellene med mange kovariater)
#
PUNKT f)
#
Gj?r selv dette punktet etter
samme "oppskrift"
som i punkt
e
# Hvilken modell gir best prediksjon? Er det den samme som
i punkt e?
#
PUNKT g)
# Lag ulike plott av residualene.
# Se oppgave 5c for hjelp til R-kommandoer.