Konkordansanalys | Jiotower
betyg på en kontinuerlig skala
de flesta fysiska mätningar är på en kontinuerlig numerisk skala. Ofta finns det mer än en teknik eller instrument för att mäta kvantiteten i fråga, och frågan uppstår hur nära dessa tekniker är överens (1). Om man vill införa en ny metod för att mäta en medicinsk variabel måste man först utvärdera dess giltighet genom att kontrollera hur väl den överensstämmer med en redan etablerad metod eller med en guldstandard.
i detta avsnitt kommer vi att presentera statistiska metoder för att jämföra två mättekniker och tillämpa dem på några fiktiva exempel. Vi antar att ett antal n personer eller föremål (kanske 100 av dem) genomgår mätning med var och en av de två teknikerna, vilket ger totalt n mätpar. Som ett första steg ritas mätningarna erhållna med de två teknikerna mot varandra i en graf: en punkt plottas för varje medlem av provet, dess x-koordinat är mätningen erhållen med den första tekniken och dess y-koordinera mätningen erhållen med den andra tekniken. Om de två teknikerna överensstämmer perfekt eller nästan så, bör alla plottade punkter ligga på eller nära diagonallinjen x = y.
två distinkta och lättförståeliga situationer visas i figurerna 1a och 1b (exempel a och b). Varje par mätningar som var exakt lika (mätning 1 = Mätning 2) skulle ritas som en punkt som ligger på den diagonala linjen x = y, som ritas på båda graferna. I exempel A är de två mätteknikerna nära överens; I exempel b avslöjar emellertid plottet på en gång att skillnaden mellan mätningarna 1 och 2 varierar allt mer för att öka värdena och är överlag större än i Exempel a.
ett mer informativt sätt att visa sådana förhållanden är det så kallade Bland-Altman-diagrammet, som visas för de två exemplen i figurerna 2a och 2b. Som tidigare ritas varje mätpar i xy-planet, men på ett annat sätt: medelvärdet av de två mätningarna ritas som x-koordinaten och skillnaden mellan dem som y-koordinaten. Dessutom ritas medelvärdet av alla skillnader som en solid horisontell linje och ytterligare två (prickade) horisontella linjer ritas över och under denna linje på ett avstånd av 1,96 gånger standardavvikelsen för skillnaderna. Dessa två linjer motsvarar de så kallade gränserna för överenskommelse. Linjen mean-of-all-differences indikerar en systematisk avvikelse av de två mätteknikerna för vilka i allmänhet en korrigering kan införas; gränserna för överenskommelse anger storleken på ytterligare avvikelser som i allmänhet inte kan korrigeras. Om den uppmätta kvantiteten är normalt fördelad, bör 5% av de uppmätta skillnaderna ligga utanför gränserna för överenskommelse, dvs. mer än 1,96 standardavvikelser över eller under medelvärdet av alla skillnader (2). Faktorn 2 används ofta, för enkelhet, istället för 1, 96; den senare motsvarar emellertid mer exakt 97.5% kvantil av normalfördelningen. Sammanfattningsvis är Bland-Altman-diagrammet ett användbart hjälpmedel som möjliggör en visuell jämförelse av mättekniker.
i Figur 2a bekräftar Bland-Altman-diagrammet till exempel A att de två mätteknikerna är i nära överensstämmelse. Mean-of-all-differences-linjen är mycket nära 0; således verkar det inte finnas någon systematisk avvikelse mellan de uppmätta värdena för de två teknikerna. I detta exempel är standardavvikelsen för alla skillnader ungefär 0,05. Förutsatt att kvantiteten som mäts normalt fördelas kan vi dra slutsatsen att skillnaden mellan de två mätningarna kommer att vara mindre än 0, 1 i 95% av fallen; denna skillnad är liten i förhållande till de uppmätta kvantiteterna själva. Avståndet mellan de två gränserna för överenskommelse (med andra ord bredden på avtalsregionen) är 0,2 i detta exempel.
när Bland-Altman-diagram används i verkliga situationer för att se hur väl två mättekniker är överens, kan frågan om den observerade graden av överenskommelse är tillräckligt bra endast besvaras i förhållande till den speciella applikation för vilken teknikerna ska användas (dvs. “bra nog för vad?”). Potentiella användare måste bestämma hur nära mätningarna måste komma överens (annars anges: hur smalt bandet mellan gränserna för överenskommelse måste vara) för att vara acceptabelt för kliniska ändamål. Tetzlaff et al. (1) jämförde till exempel magnetisk resonansavbildning (MRI) med spirometri för en specifik klinisk tillämpning med Bland-Altman-diagram (bland andra metoder) och fann att graden av överenskommelse var tillfredsställande.
Bland-Altman-diagrammet till exempel b (Figur 2B) avslöjar omedelbart mer än en begränsning av överenskommelsen mellan de två mätteknikerna som undersöks. Medelskillnaden mellan de två mätningarna är återigen nära noll, men gränserna för överenskommelse är 1,4 enheter över och under medelvärdet, dvs., kan man förvänta sig att 95% av alla uppmätta skillnader ligger i intervallet -1.4 till +1.4. Läkaren måste bestämma om en avvikelse av denna storlek är acceptabel. Dessutom indikerar den ojämna fördelningen av punkterna i detta diagram systematisk distorsion (systematisk bias).
ändå bör dålig överenskommelse i ett Bland-Altman-diagram inte leda till att vi avvisar en ny mätteknik för tidigt. I Figur 3 visas ytterligare två fall (exempel c och d) där de två mätteknikerna uppenbarligen inte överensstämmer (de plottade punkterna ligger långt ifrån överenskommelsen), men de är ändå funktionellt relaterade, vilket regressionskurvan visar i varje fall. Förhållandet mellan de två teknikerna är linjärt i exempel c (figur 3c), olinjärt i exempel d (figur 3d).
Punktmolndiagram för att jämföra två funktionellt relaterade mättekniker; Mätning 1 vs mätning 2 till exempel c (ovan) och exempel d (nedan)
således händer det ofta att en mätning kan förutsägas exakt från den andra eftersom de två är tydligt funktionellt relaterade, även om de två mätningarna själva ger mycket olika värden. I Figur 3d till exempel, när mätning 1 ger värdet 3.0, kan vi använda regressionskurvan för att uppskatta att mätning 2 kommer att ge värdet 7.65. Den uppenbara bristen på överenskommelse mellan de två mätteknikerna är således till stor del korrigerbar. Efter att ha “korrigerat” mätning 2 på detta sätt med hjälp av regressionskurvan—vilket motsvarar vår bästa uppskattning av det funktionella förhållandet mellan de två mätningarna—kan vi jämföra den korrigerade mätningen 2 med mätning 1 med hjälp av de metoder som redan beskrivits, t.ex. ett nytt Bland-Altman-diagram. Denna procedur liknar nära kalibreringen av ett mätinstrument. Bestämningen av själva funktionella förhållandet, dvs., genereringen av regressionskurvor av de typer som ses i Figur 3, kräver en mängd olika statistiska metoder, såsom linjär och olinjär regression, som vi inte kan diskutera här i någon ytterligare detalj.
Pearson-korrelationskoefficienten (2) mellan de två mätteknikerna anses ofta visa ett linjärt förhållande (alltså en specifik typ av funktionellt förhållande) mellan dem. Faktum är att en koefficient med ett högt absolut värde (nära 1 eller -1) indikerar ett sådant förhållande. Ett vanligt fel är dock att misstolka konsekvenserna av signifikanstester som tillämpas på korrelationskoefficienter. Ett konstaterande att korrelationen mellan två mättekniker skiljer sig avsevärt från noll indikerar inte nödvändigtvis att de två teknikerna är i god överensstämmelse. Även det minsta, praktiskt taget irrelevanta förhållandet mellan två tekniker kan i princip ge ett statistiskt signifikant resultat av denna typ. En” signifikant ” korrelation innehåller faktiskt ingen information alls om storleken på oenigheten mellan de två typerna av mätning (3, 4).