Konkordansanalyse | Jiotower

vurderinger på en kontinuerlig skala

de fleste fysiske målinger er på en kontinuerlig numerisk skala. Ofte er der mere end en teknik eller instrument til måling af den pågældende mængde, og spørgsmålet opstår, hvor tæt disse teknikker er enige (1). Hvis man ønsker at introducere en ny metode til måling af en medicinsk variabel, skal man først evaluere dens gyldighed ved at kontrollere, hvor godt den stemmer overens med en allerede etableret metode eller med en guldstandard.

i dette afsnit vil vi præsentere statistiske metoder til sammenligning af to måleteknikker og anvende dem på nogle fiktive eksempler. Vi antager, at et antal n personer eller genstande (måske 100 af dem) gennemgår måling med hver af de to teknikker, hvilket giver i alt n par målinger. Som et første trin afbildes målingerne opnået ved de to teknikker mod hinanden i en graf: et punkt er afbildet for hvert medlem af prøven, idet dens røntgenkoordinat er den måling, der opnås ved den første teknik, og dens y-koordinerer den måling, der opnås ved den anden teknik. Hvis de to teknikker stemmer perfekt eller næsten overens, skal alle de afbildede punkter ligge på eller nær den diagonale linje = y.

to forskellige og let forståelige situationer er vist i figur 1a og 1b (eksempel A og b). Ethvert par målinger, der var nøjagtigt ens (måling 1 = Måling 2), ville blive afbildet som et punkt, der ligger på den diagonale linje H = y, som er tegnet på begge grafer. I eksempel A er de to måleteknikker tæt enige; i eksempel B afslører plottet imidlertid straks, at forskellen mellem måling 1 og 2 varierer stadig mere for stigende værdier og er større samlet end i Eksempel a.

en mere informativ måde at vise sådanne forhold på er det såkaldte Bland-Altman-diagram, vist for de to eksempler i figur 2a og 2b. Som før er hvert par målinger afbildet i H-y-planet, men på en anden måde: gennemsnittet af de to målinger er afbildet som H-koordinat, og forskellen mellem dem som y-koordinat. Derudover afbildes gennemsnittet af alle forskelle som en solid vandret linje, og to yderligere (stiplede) vandrette linjer afbildes over og under denne linje i en afstand på 1,96 gange standardafvigelsen for forskellene. Disse to linjer svarer til de såkaldte aftalegrænser. Linjen middel-af-alle-forskelle indikerer en systematisk afvigelse af de to måleteknikker, for hvilke der generelt kan indføres en korrektion; grænserne for enighed angiver størrelsen på yderligere afvigelser, der generelt ikke kan korrigeres. Hvis den målte mængde fordeles normalt, bør 5% af de målte forskelle ligge uden for aftalens grænser, dvs.mere end 1,96 standardafvigelser over eller under gennemsnittet af alle forskelle (2). Faktoren 2 bruges ofte for enkelhed i stedet for 1, 96; sidstnævnte svarer imidlertid mere præcist til 97.5% kvantile af normalfordelingen. Sammenfattende er Bland – Altman-diagrammet et nyttigt hjælpemiddel, der muliggør en visuel sammenligning af måleteknikker.

i figur 2a bekræfter Bland-Altman-diagrammet for eksempel A, at de to måleteknikker er i tæt overensstemmelse. Linjen mellem alle forskelle er meget nær 0; der synes således ikke at være nogen systematisk afvigelse mellem de målte værdier for de to teknikker. I dette eksempel er standardafvigelsen for alle forskelle omtrent 0,05. Forudsat at den målte mængde fordeles normalt, kan vi konkludere, at forskellen mellem de to målinger vil være mindre end 0,1 i 95% af tilfældene; denne forskel er lille i forhold til de målte mængder selv. Afstanden mellem de to grænser for aftale (med andre ord bredden af aftaleområdet) er 0, 2 i dette eksempel.

når Bland-Altman-diagrammer bruges i virkelige situationer for at se, hvor godt to måleteknikker er enige, kan spørgsmålet om, hvorvidt den observerede grad af enighed er god nok, kun besvares i forhold til den særlige applikation, som teknikkerne skal bruges til (dvs. “god nok til hvad?”). Potentielle brugere skal beslutte, hvor tæt målingerne skal være enige (ellers angivet: hvor snævert båndet mellem grænserne for aftale skal være) for at være acceptabelt til kliniske formål. Et al. (1) sammenlignede for eksempel magnetisk resonansafbildning (MRI) med spirometri til en specifik klinisk anvendelse ved hjælp af Bland-Altman-diagrammer (blandt andre metoder) og fandt, at graden af enighed var tilfredsstillende.

Bland-Altman-diagrammet for eksempel b (figur 2b) afslører straks mere end en begrænsning af aftalen mellem de to måleteknikker, der undersøges. Den gennemsnitlige forskel mellem de to målinger er igen nær nul, men grænserne for aftale er 1,4 enheder over og under middelværdien, dvs., kan man forvente, at 95% af alle målte forskelle ligger i området -1,4 til +1,4. Lægen skal afgøre, om en afvigelse af denne størrelse er acceptabel. Desuden indikerer den ikke-ensartede fordeling af punkterne i dette diagram systematisk forvrængning (systematisk bias).

alligevel bør dårlig aftale i et intetsigende diagram ikke føre os til at afvise en ny måleteknik for tidligt. I figur 3 vises yderligere to tilfælde (eksempler c og d), hvor de to måleteknikker tydeligvis ikke er enige (de afbildede punkter ligger langt væk fra aftalelinjen), men alligevel er de ikke desto mindre funktionelt relaterede, som regressionskurven viser i hvert tilfælde. Forholdet mellem de to teknikker er lineært i eksempel c (figur 3c), ikke-lineært i eksempel d (figur 3D).

Punktskydediagrammer til sammenligning af to funktionelt relaterede måleteknikker; Måling 1 vs måling 2 for eksempel c (ovenfor) og eksempel d (nedenfor)

således sker det ofte, at den ene måling kan forudsiges nøjagtigt fra den anden, fordi de to er klart funktionelt relaterede, selvom de to målinger i sig selv giver meget forskellige værdier. I figur 3d for eksempel, når måling 1 giver værdien 3.0, kan vi bruge regressionskurven til at estimere, at måling 2 vil give værdien 7.65. Den tilsyneladende mangel på enighed mellem de to måleteknikker er således stort set korrigerbar. Efter at have” korrigeret ” måling 2 på denne måde ved hjælp af regressionskurven—som svarer til vores bedste skøn over det funktionelle forhold mellem de to målinger—kan vi sammenligne den korrigerede måling 2 med måling 1 ved hjælp af de allerede beskrevne metoder, f.eks. et nyt Bland-Altman-diagram. Denne procedure ligner meget kalibrering af et måleinstrument. Bestemmelsen af selve den funktionelle relation, dvs., genereringen af regressionskurver af de typer, der ses i figur 3, kræver en række statistiske metoder, såsom lineær og ikke-lineær regression, som vi ikke kan diskutere her i yderligere detaljer.

Pearson-korrelationskoefficienten (2) mellem de to måleteknikker anses ofte for at demonstrere et lineært forhold (således en bestemt form for funktionelt forhold) mellem dem. Faktisk indikerer en koefficient med en høj absolut værdi (nær 1 eller -1) et sådant forhold. En almindelig fejl er imidlertid at fejlagtigt fortolke implikationerne af signifikanstest, der anvendes på korrelationskoefficienter. En konstatering af, at sammenhængen mellem to måleteknikker adskiller sig markant fra nul, indikerer ikke nødvendigvis, at de to teknikker er i god overensstemmelse. Selv det mindste, praktisk talt irrelevante forhold mellem to teknikker kunne i princippet give et statistisk signifikant fund af denne type. En” signifikant ” korrelation indeholder faktisk slet ingen oplysninger om størrelsen af uenigheden mellem de to typer målinger (3, 4).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.