Konkordansanalyse | Jiotower
Vurderinger på en kontinuerlig skala
de fleste fysiske målinger er på en kontinuerlig numerisk skala. Ofte er det mer enn en teknikk eller et instrument for å måle den aktuelle mengden, og spørsmålet oppstår hvor tett disse teknikkene er enige (1). Hvis man ønsker å introdusere en ny metode for å måle en medisinsk variabel, må man først vurdere gyldigheten ved å sjekke hvor godt den er enig med en allerede etablert metode, eller med en gullstandard.
i denne delen vil vi presentere statistiske metoder for å sammenligne to måleteknikker og bruke dem på noen fiktive eksempler. Vi antar at noen antall n personer eller objekter (kanskje 100 av dem) gjennomgår måling med hver av de to teknikkene, noe som gir totalt n par målinger. Som et første trinn er målingene oppnådd ved de to teknikkene plottet mot hverandre i en graf: ett punkt er plottet for hvert medlem av prøven, dets x-koordinat er måling oppnådd ved den første teknikken og dens y-koordinat måling oppnådd ved den andre teknikken. Hvis de to teknikkene er enige perfekt eller nesten så, bør alle de plottede punktene ligge på eller nær diagonallinjen x = y.
To forskjellige og lett forståelige situasjoner er vist i Figur 1a og 1b (Eksempler a og b). Ethvert par målinger som var nøyaktig like (Måling 1 = Måling 2) ville bli plottet som et punkt som ligger på diagonallinjen x = y, som er tegnet på begge grafer. I Eksempel a er de to måleteknikkene enige; i Eksempel b viser imidlertid plottet samtidig at forskjellen mellom Målinger 1 og 2 varierer stadig mer for økende verdier og er større samlet enn I Eksempel a.
en mer informativ måte å vise slike relasjoner på er Det såkalte Bland-Altman-diagrammet, vist for De To Eksemplene i Figur 2a og 2b. Som tidligere er hvert par målinger plottet i xy-planet, men på en annen måte: gjennomsnittet av de to målingene er plottet som x-koordinaten, og forskjellen mellom dem som y-koordinaten. I tillegg er gjennomsnittet av alle forskjeller plottet som en solid horisontal linje, og to ekstra (stiplede) horisontale linjer plottet over og under denne linjen i en avstand på 1,96 ganger standardavviket for forskjellene. Disse to linjene samsvarer med de såkalte grensene for avtale. Gjennomsnittet av alle forskjeller linjen indikerer en systematisk avvik av de to måleteknikker som, generelt, en korreksjon kan innføres; grensene for avtalen angir størrelsen på ytterligere avvik som generelt, ikke kan korrigeres. Hvis mengden som måles er normalfordelt, bør 5% av de målte forskjellene ligge utenfor avtalens grenser, dvs. mer enn 1,96 standardavvik over eller under gjennomsnittet av alle forskjeller (2). Faktoren 2 brukes ofte, for enkelhet, i stedet for 1,96; sistnevnte tilsvarer imidlertid mer presist til 97.5% av normalfordelingen. Sammendrag Er Bland-Altman-diagrammet et nyttig hjelpemiddel som muliggjør en visuell sammenligning av måleteknikker.
I Figur 2a bekrefter Bland-Altman-diagrammet for Eksempel a at de to måleteknikkene er i nært samsvar. Middel-av-alle-forskjeller linjen er svært nær 0; dermed, det synes å være noen systematisk avvik mellom de målte verdiene av de to teknikkene. I dette eksemplet er standardavviket for alle forskjeller omtrent 0,05. Forutsatt at mengden som måles er normalfordelt, kan vi konkludere med at forskjellen mellom de to målingene vil være mindre enn 0,1 i 95% av tilfellene; denne forskjellen er liten i forhold til de målte mengdene selv. Avstanden mellom de to grensene for avtale (med andre ord bredden på avtaleområdet) er 0,2 i dette eksemplet.
Når Bland-Altman-diagrammer brukes i virkelige situasjoner for å se hvor godt to måleteknikker er enige, kan spørsmålet om den observerte graden av enighet bare besvares i forhold til den spesielle applikasjonen som teknikkene skal brukes til (dvs. ” god nok for hva?”). Potensielle brukere må bestemme hvor tett målingene må være enige (ellers oppgitt: hvor smalt båndet mellom grensene for avtalen må være) for å være akseptabelt for kliniske formål. Tetzlaff et al. (1), for eksempel, sammenlignet magnetisk resonans imaging (MRI) med spirometri for en bestemt klinisk anvendelse Ved Hjelp Av Bland-Altman diagrammer (blant andre metoder) og funnet graden av enighet for å være tilfredsstillende.
Bland-Altman-diagrammet for Eksempel b (Figur 2b) avslører umiddelbart mer enn en begrensning for avtalen mellom de to måleteknikkene som undersøkes. Den gjennomsnittlige forskjellen mellom de to målingene er igjen nær null, men grensene for avtalen er 1,4 enheter over og under middelverdien, dvs., kan man forvente at 95% av alle målte forskjeller ligger i området -1,4 til +1,4. Legen må avgjøre om en avvik av denne størrelsen er akseptabel. Videre indikerer den ujevne fordeling av punktene i dette diagrammet systematisk forvrengning (systematisk bias).
likevel bør dårlig avtale i Et Bland-Altman-diagram ikke føre oss til å avvise en ny måleteknikk for tidlig. I Figur 3 vises ytterligere to tilfeller (Eksempler c og d) der de to måleteknikkene åpenbart ikke er enige (de plottede punktene ligger langt borte fra avtalelinjen), men de er likevel funksjonelt relaterte, som regresjonskurven viser i hvert tilfelle. Forholdet mellom de to teknikkene er lineært i Eksempel c (Figur 3c), ikke-lineært i Eksempel d (Figur 3d).
Punktskydiagrammer for sammenligning av to funksjonelt relaterte måleteknikker; Måling 1 vs Måling 2 for eksempel c (over) Og Eksempel d (under)
Dermed skjer det ofte at en måling kan forutsies nøyaktig fra den andre fordi de to er tydelig funksjonelt relaterte, selv om de to målingene selv gir svært forskjellige verdier. I Figur 3d for eksempel, Når Måling 1 gir verdien 3.0, kan vi bruke regresjonskurven til å estimere At Måling 2 vil gi verdien 7.65. Den tilsynelatende mangelen på enighet mellom de to måleteknikkene er dermed i stor grad korrigert. Etter å ha “korrigert” Måling 2 på denne måten ved hjelp av regresjonskurven-som tilsvarer vårt beste estimat av det funksjonelle forholdet mellom de to målingene – kan vi sammenligne den korrigerte Måling 2 Med Måling 1 ved hjelp av metodene som allerede er beskrevet, for eksempel et Nytt Bland-Altman-diagram. Denne prosedyren ligner på kalibrering av et måleinstrument. Fastsettelsen av selve det funksjonelle forholdet, dvs., genereringen av regresjonskurver av typene sett i Figur 3, krever en rekke statistiske metoder, for eksempel lineær og ikke-lineær regresjon, som vi ikke kan diskutere her i nærmere detalj.
Pearson korrelasjonskoeffisienten (2) mellom de to måleteknikkene anses ofte for å demonstrere et lineært forhold (dermed en bestemt type funksjonelt forhold) mellom dem. Faktisk indikerer en koeffisient med høy absolutt verdi (nær 1 eller -1) et slikt forhold. En vanlig feil er imidlertid å feiltolke implikasjonene av signifikansprøver som brukes på korrelasjonskoeffisienter. Et funn om at korrelasjonen mellom to måleteknikker avviker vesentlig fra null, indikerer ikke nødvendigvis at de to teknikkene er i god overensstemmelse. Selv det minste, praktisk talt irrelevante forholdet mellom to teknikker kan i prinsippet gi et statistisk signifikant funn av denne typen. En” signifikant ” korrelasjon inneholder faktisk ingen informasjon om størrelsen på uenigheten mellom de to måletypene (3, 4).