Medisinsk statistikk

Forslag til prosjektoppgave i industriell matematikk høsten 2006 og hovedoppgave våren 2007:

Forslagsstiller og veileder: Professor Stian Lydersen, Det medisinske fakultet. e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse: 5. etg Kreftbygget, St Olavs hospital.

Forslag beskrevet nedenfor:

- Klassifisering av brystkreft. Multinomisk logistisk regresjon.
- Metoder for håndtering av manglende data – anvendt på gjentatte ultralydmålinger hos foster

Se også forslaget
- Repeterte målinger av gange hos pasienter
beskrevet på egen side her.


Klassifisering av brystkreft. Multinomisk logistisk regresjon.


Forslagsstiller og veileder: Professor Stian Lydersen, Det medisinske fakultet. e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse: 5. etg Kreftbygget, St Olavs hospital.
Biveileder: Førsteamanuensis II / Overlege Anna Bofin, Det medisinske fakultet / St Olavs hospital


Finnålsaspirasjonscytologi (FNA) er en prøvetakingsmetode der man ved et nålestikk trekker ut en liten vevsprøve. Dette brukes i tidlig utredning av f.eks svulster i bryst. Basert på hvilke celletyper og stoffer som finnes i prøven, kan man predikere diagnosen (type svulst) og bestemme behandlingsstrategier.

I multinomisk logistisk regresjon (Hosmer & Lemeshow, kapitel 8, Kleinbaum & Klein, Kapitel 9-10) kan den avhengige variable ha mer enn 2 mulige verdier (f.eks diagnosegrupper). Sannsynlighetene for å få den enkelte verdi modelleres som en funksjon av kovariatene. Bofin & al (2004) bruker en slik modell til prediksjon av type svulst, anvendt på data 133 pasienter der også endelig diagnose (”fasit”) forelå.

Oppgaven går ut på å beskrive alternative multinomiske logistiske regresjonsmodeller for denne type anvendelse, og å anvende dem på dette og/eller andre datasett. Spesielt skal kandidaten sjekke tilpasning mellom estimert modell og datasett, dvs modellens evne til å predikere diagnosen.

Anbefalt bakgrunn er fagene ”Multivariabel analyse”og ”Moderne statistiske metoder”. Kurset ”Generaliserte lineære modeller” anbefales tatt parallelt med prosjektoppgaven (eller tidligere). Kurset ”Medisin for ikke-medisinere” vil være nyttig.


Referanser

Bofin, A., Lydersen, S., Hagmar, B.: (2004) Cytological criteria for the diagnosis of intraductal hyperplasia, ductal carcinoma in situ, and invasive carcinoma of the breast. Diagnostic Cytopathology 31(4), 207-215.

Hosmer, D. W. & Lemeshow, D. W.: ”Applied Logistic Regression.” 2nd Ed. Wiley, New York 2000. ISBN 0-471-35632-8.

Kleinbaum, D. G. & Klein, M.: ”Logistic Regression. A Self Learning Text”. 2nd ed, Springer, 2002. ISBN 0-387-95397-3.


Metoder for håndtering av manglende data – anvendt på gjentatte ultralydmålinger hos foster

Forslag til prosjektoppgave i industriell matematikk høsten 2006 og hovedoppgave våren 2007

Forslagsstiller og veileder: Stian Lydersen, Det medisinske fakultet. e-post stian.lydersen@ntnu.no, tlf 73867270. Kontoradresse: 5. etg Kreftbygget, St Olavs hospital.
Biveileder: Geir Jacobsen, Det medisinske fakultet


Intrauterin ( i livmor) veksthemming er et uttrykk for at et foster ikke ”lever opp til” sitt genetiske vekstpotensiale. Dette kan gi økt risiko for sykdom eller død for barnet ved fødsel. Det er derfor viktig å karakterisere, oppdage, og følge opp redusert fostervekst.

Oppgaven vil ta utgangspunkt i de skandinaviske SGA-studiene av svangerskap fra Trondheim, Bergen og Uppsala i 1986-1988. SGA betyr ”small for gestational age”, dvs liten i forhold til svangerskapsvarighet. Det ble registrert bakgrunnsvariable hos mor, som alder, tidigere svangerskapsutfall, vekt, høyde og røyking, samt utfall av svangerskapet, som svangerskapsvarighet, barnets lengde og vekt, og barnets tilstand. Disse ble fulgt opp med 4 ultralydmålinger under svangerskapet (uke 17, 25, 33 og 37), der man registrerte bla. lengde av lårbein, estimert magetverrsnitt, og tverr-diameter av hodeskallen. Målet med studien var bl.a. å studere hvordan disse data kan predikere utfallet av svangerskapet, som f.eks barnets vekt.

Et problem ved mange studier av denne art er at datasettet ikke er komplett. I dette tilfellet manglet data fra en eller flere ultralydmålinger for ca 20% av kvinnene - kvinnen møtte av en eller annen grunn ikke opp til den aktuelle målingen. Tradisjonelt har man i slike situasjoner brukt ”complete case” analyse – man analyserer bare de ”case” (kvinner) der en har komplette data. I tillegg til at man mister en del av utvalget, kan man få ”bias” (forventningsskjevhet) i resultatene.

Oppgaven går ut på å beskrive modeller og metoder for håndtering av manglende data, spesielt ”maximum likelihood” og ”multippel imputasjon”. En eller flere av disse metodene skal anvendes på data fra et utvalg av 561 kvinner fra SGA-prosjektet, og sammenliknes med resultatene fra ”complete case” analysen. Aktuelle analyseverktøy finnes i R.

Nødvendig bakgrunn er fagene ”Multivariabel analyse” og ”moderne statistiske metoder”. Kurset ”Medisin for ikke-medisinere” vil være nyttig.

Referanser:
Schafer, J. L., Graham, J. W.: (2002). Missing Data: Our View of the State of the Art. Psychological methods, 2002, Vol 7, No 2, 147 – 177

Little, R J A, Rubin, D B: (2002) Statistical Analysis with Missing data. 2nd ed. Wiley.