Medisinsk statistikk
Forslag til prosjektoppgave i industriell matematikk høsten 2006
og hovedoppgave våren 2007:
Forslagsstiller og veileder: Professor Stian Lydersen, Det medisinske
fakultet. e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse:
5. etg Kreftbygget, St Olavs hospital.
Forslag beskrevet nedenfor:
- Klassifisering av brystkreft. Multinomisk logistisk regresjon.
- Metoder for håndtering av manglende data – anvendt på
gjentatte ultralydmålinger hos foster
Se også forslaget
- Repeterte målinger av gange hos pasienter
beskrevet på egen side her.
Klassifisering av brystkreft. Multinomisk logistisk regresjon.
Forslagsstiller og veileder: Professor Stian Lydersen, Det medisinske
fakultet. e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse:
5. etg Kreftbygget, St Olavs hospital.
Biveileder: Førsteamanuensis II / Overlege Anna Bofin, Det
medisinske fakultet / St Olavs hospital
Finnålsaspirasjonscytologi (FNA) er en prøvetakingsmetode
der man ved et nålestikk trekker ut en liten vevsprøve.
Dette brukes i tidlig utredning av f.eks svulster i bryst. Basert
på hvilke celletyper og stoffer som finnes i prøven, kan
man predikere diagnosen (type svulst) og bestemme
behandlingsstrategier.
I multinomisk logistisk regresjon (Hosmer & Lemeshow, kapitel 8,
Kleinbaum & Klein, Kapitel 9-10) kan den avhengige variable ha mer
enn 2 mulige verdier (f.eks diagnosegrupper). Sannsynlighetene for
å få den enkelte verdi modelleres som en funksjon av
kovariatene. Bofin & al (2004) bruker en slik modell til prediksjon
av type svulst, anvendt på data 133 pasienter der også
endelig diagnose (”fasit”) forelå.
Oppgaven går ut på å beskrive alternative
multinomiske logistiske regresjonsmodeller for denne type anvendelse,
og å anvende dem på dette og/eller andre datasett. Spesielt
skal kandidaten sjekke tilpasning mellom estimert modell og datasett,
dvs modellens evne til å predikere diagnosen.
Anbefalt bakgrunn er fagene ”Multivariabel analyse”og ”Moderne
statistiske metoder”. Kurset ”Generaliserte lineære modeller”
anbefales tatt parallelt med prosjektoppgaven (eller tidligere). Kurset
”Medisin for ikke-medisinere” vil være nyttig.
Referanser
Bofin, A., Lydersen, S., Hagmar, B.: (2004) Cytological criteria for
the diagnosis of intraductal hyperplasia, ductal carcinoma in situ, and
invasive carcinoma of the breast. Diagnostic Cytopathology 31(4),
207-215.
Hosmer, D. W. & Lemeshow, D. W.: ”Applied Logistic Regression.” 2nd
Ed. Wiley, New York 2000. ISBN 0-471-35632-8.
Kleinbaum, D. G. & Klein, M.: ”Logistic Regression. A Self Learning
Text”. 2nd ed, Springer, 2002. ISBN 0-387-95397-3.
Metoder for
håndtering av manglende data – anvendt på gjentatte
ultralydmålinger hos foster
Forslag til prosjektoppgave i industriell matematikk høsten 2006
og hovedoppgave våren 2007
Forslagsstiller og veileder: Stian Lydersen, Det medisinske fakultet.
e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse: 5. etg
Kreftbygget, St Olavs hospital.
Biveileder: Geir Jacobsen, Det medisinske fakultet
Intrauterin ( i livmor) veksthemming er et uttrykk for at et foster
ikke ”lever opp til” sitt genetiske vekstpotensiale. Dette kan gi
økt risiko for sykdom eller død for barnet ved
fødsel. Det er derfor viktig å karakterisere, oppdage, og
følge opp redusert fostervekst.
Oppgaven vil ta utgangspunkt i de skandinaviske SGA-studiene av
svangerskap fra Trondheim, Bergen og Uppsala i 1986-1988. SGA betyr
”small for gestational age”, dvs liten i forhold til
svangerskapsvarighet. Det ble registrert bakgrunnsvariable hos mor, som
alder, tidigere svangerskapsutfall, vekt, høyde og
røyking, samt utfall av svangerskapet, som svangerskapsvarighet,
barnets lengde og vekt, og barnets tilstand. Disse ble fulgt opp med 4
ultralydmålinger under svangerskapet (uke 17, 25, 33 og 37), der
man registrerte bla. lengde av lårbein, estimert magetverrsnitt,
og tverr-diameter av hodeskallen. Målet med studien var bl.a.
å studere hvordan disse data kan predikere utfallet av
svangerskapet, som f.eks barnets vekt.
Et problem ved mange studier av denne art er at datasettet ikke er
komplett. I dette tilfellet manglet data fra en eller flere
ultralydmålinger for ca 20% av kvinnene - kvinnen møtte av
en eller annen grunn ikke opp til den aktuelle målingen.
Tradisjonelt har man i slike situasjoner brukt ”complete case” analyse
– man analyserer bare de ”case” (kvinner) der en har komplette data. I
tillegg til at man mister en del av utvalget, kan man få ”bias”
(forventningsskjevhet) i resultatene.
Oppgaven går ut på å beskrive modeller og metoder for
håndtering av manglende data, spesielt ”maximum likelihood” og
”multippel imputasjon”. En eller flere av disse metodene skal anvendes
på data fra et utvalg av 561 kvinner fra SGA-prosjektet, og
sammenliknes med resultatene fra ”complete case” analysen. Aktuelle
analyseverktøy finnes i R.
Nødvendig bakgrunn er fagene ”Multivariabel analyse” og ”moderne
statistiske metoder”. Kurset ”Medisin for ikke-medisinere” vil
være nyttig.
Referanser:
Schafer, J. L., Graham, J. W.: (2002). Missing Data: Our View of the
State of the Art. Psychological methods, 2002, Vol 7, No 2, 147 – 177
Little, R J A, Rubin, D B: (2002) Statistical Analysis with Missing
data. 2nd ed. Wiley.