Concordantieanalyse | Jiotower
Ratings op een continue schaal
de meeste fysische metingen zijn op een continue numerieke schaal. Vaak is er meer dan één techniek of instrument voor het meten van de hoeveelheid in kwestie, en de vraag rijst hoe nauw deze technieken overeenkomen (1). Als men een nieuwe methode voor het meten van een medische variabele wil invoeren, moet men eerst de validiteit ervan evalueren door na te gaan hoe goed deze overeenkomt met een reeds vastgestelde methode, of met een gouden standaard.
in deze paragraaf zullen we statistische methoden presenteren voor het vergelijken van twee meettechnieken en deze toepassen op enkele fictieve voorbeelden. We gaan ervan uit dat een aantal n van personen of objecten (misschien 100 van hen) metingen ondergaan met elk van de twee technieken, wat een totaal van n paren van metingen oplevert. Als eerste stap worden de metingen verkregen door de twee technieken tegen elkaar uitgezet in een grafiek: voor elk lid van het monster wordt één punt uitgezet, waarbij de x-coördinaat de met de eerste techniek verkregen meting is en de y-coördinaat de met de tweede techniek verkregen meting. Als de twee technieken het volkomen of bijna eens zijn, dan moeten alle uitgezet punten op of in de buurt van de diagonale lijn x = y liggen.
in de figuren 1a en 1b (voorbeelden a en b) worden twee verschillende en gemakkelijk te begrijpen situaties weergegeven. Elk paar metingen dat precies gelijk was (meting 1 = meting 2) zou worden uitgezet als een punt dat op de diagonale lijn x = y ligt, die op beide grafieken wordt getekend. In Voorbeeld a, de twee meettechnieken eens nauw; in Voorbeeld b, echter, het perceel op keer blijkt dat het verschil tussen meting 1 en 2 verschilt steeds meer op grote schaal voor toenemende waarden en is meer algemeen dan in Voorbeeld a.
Een meer informatieve manier van weergeven van dergelijke relaties is de zogenaamde Bland-Altman-diagram, weergegeven voor de twee Voorbeelden in de Figuren 2a en 2b. Zoals voorheen wordt elk paar metingen uitgezet in het X-Y-vlak, maar op een andere manier: het gemiddelde van de twee metingen wordt uitgezet als de x-coördinaat, en het verschil tussen beide als de y-coördinaat. Bovendien wordt het gemiddelde van alle verschillen uitgezet als een vaste horizontale lijn, en twee extra (gestippelde) horizontale lijnen worden boven en onder deze lijn uitgezet op een afstand van 1,96 maal de standaardafwijking van de verschillen. Deze twee lijnen komen overeen met de zogenaamde grenzen van overeenstemming. De mean-of-all-differences lijn geeft een systematische afwijking aan van de twee meettechnieken waarvoor in het algemeen een correctie kan worden ingevoerd; de grenzen van overeenstemming geven de omvang aan van verdere afwijkingen die in het algemeen niet kunnen worden gecorrigeerd. Indien de gemeten hoeveelheid normaal wordt verdeeld, moet 5% van de gemeten verschillen buiten de overeengekomen grenzen liggen, d.w.z. meer dan 1,96 standaardafwijkingen boven of onder het gemiddelde van alle verschillen (2). De factor 2 wordt vaak gebruikt, voor de eenvoud, in plaats van 1,96; deze laatste komt echter nauwkeuriger overeen met de 97.5% kwantiel van de normale verdeling. Kortom, het Bland-Altman diagram is een nuttig hulpmiddel dat een visuele vergelijking van meettechnieken mogelijk maakt.
in Figuur 2a bevestigt het Bland-Altman-diagram bijvoorbeeld a dat de twee meettechnieken nauw met elkaar overeenstemmen. De gemiddelde-van-alle-verschillen lijn is zeer dicht bij 0; Er lijkt dus geen systematische afwijking te zijn tussen de gemeten waarden van de twee technieken. In dit voorbeeld is de standaardafwijking van alle verschillen ongeveer 0,05. Aangenomen dat de gemeten hoeveelheid normaal verdeeld is, kunnen we concluderen dat het verschil tussen de twee metingen in 95% van de gevallen kleiner zal zijn dan 0,1; dit verschil is klein ten opzichte van de gemeten hoeveelheden zelf. De afstand tussen de twee grenzen van overeenstemming (met andere woorden, de breedte van het gebied van overeenstemming) is 0,2 in dit voorbeeld.
wanneer Bland-Altmandiagrammen worden gebruikt in real-life situaties om te zien hoe goed twee meettechnieken overeenkomen, kan de vraag of de waargenomen mate van overeenstemming goed genoeg is alleen worden beantwoord met betrekking tot de specifieke toepassing waarvoor de technieken moeten worden gebruikt (d.w.z., ” goed genoeg voor wat?”). Potentiële gebruikers moeten beslissen hoe nauw de metingen moeten overeenkomen (anders vermeld: hoe smal de band tussen de grenzen van overeenstemming moet zijn) om aanvaardbaar te zijn voor klinische doeleinden. Tetzlaff et al. (1) bijvoorbeeld, vergeleken magnetic resonance imaging (MRI) met spirometrie voor een specifieke klinische toepassing met behulp van Bland-Altman diagrammen (onder andere methoden) en vond de mate van overeenstemming bevredigend.
het Bland-Altman-diagram bijvoorbeeld b (figuur 2b) laat onmiddellijk meer dan één beperking zien van de overeenstemming van de twee onderzochte meettechnieken. Het gemiddelde verschil tussen de twee metingen is weer bijna nul, maar de grenzen van overeenstemming zijn 1,4 eenheden boven en onder de gemiddelde waarde, d.w.z. men kan verwachten dat 95% van alle gemeten verschillen in het bereik -1,4 tot +1,4 liggen. De arts moet beslissen of een afwijking van deze omvang aanvaardbaar is. Bovendien wijst de niet-uniforme verdeling van de punten in dit diagram op systematische vertekening (systematische vertekening).
toch mag een slechte overeenstemming in een flauw-Altmandiagram er niet toe leiden dat we een nieuwe meettechniek voortijdig afwijzen. In Figuur 3 worden nog twee andere gevallen (voorbeelden c en d) weergegeven waarin de twee meettechnieken duidelijk niet overeenkomen (de geplot punten liggen ver van de lijn van overeenstemming), maar toch functioneel gerelateerd zijn, zoals de regressiecurve in elk geval laat zien. De relatie tussen de twee technieken is lineair in Voorbeeld c (figuur 3c), niet-lineair in Voorbeeld d (figuur 3d).
Puntwolkdiagrammen voor het vergelijken van twee functioneel gerelateerde meettechnieken; Meting 1 vs meting 2 bijvoorbeeld c (boven) en voorbeeld d (onder))
zo komt het vaak voor dat de ene meting nauwkeurig kan worden voorspeld van de andere omdat de twee van hen duidelijk functioneel gerelateerd zijn, hoewel de twee metingen zelf zeer verschillende waarden opleveren. In Figuur 3d bijvoorbeeld, wanneer meting 1 de waarde 3.0 oplevert, kunnen we de regressiecurve gebruiken om te schatten dat meting 2 de waarde 7.65 zal opleveren. Het kennelijke gebrek aan overeenstemming tussen de twee meettechnieken is dus grotendeels te corrigeren. Na meting 2 op deze manier te hebben “gecorrigeerd” door middel van de regressiecurve—die overeenkomt met onze beste schatting van de functionele relatie tussen de twee metingen—kunnen we de gecorrigeerde meting 2 vergelijken met meting 1 met behulp van de reeds beschreven methoden, bijvoorbeeld een nieuw Bland-Altman diagram. Deze procedure lijkt sterk op de kalibratie van een meetinstrument. De bepaling van de functionele relatie zelf, d.w.z., vereist het genereren van regressiecurves van de types die in Figuur 3 worden gezien, een verscheidenheid aan statistische methoden, zoals lineaire en niet-lineaire regressie, die we hier niet verder in detail kunnen bespreken.
de correlatiecoëfficiënt Pearson (2) tussen de twee meettechnieken wordt vaak geacht een lineair verband (dus een specifiek soort functionele relatie) tussen hen aan te tonen. Een coëfficiënt met een hoge absolute waarde (in de buurt van 1 of -1) wijst inderdaad op een dergelijke relatie. Een veel voorkomende fout is echter om de implicaties van significantie tests die worden toegepast op correlatiecoëfficiënten verkeerd te interpreteren. Een bevinding dat de correlatie tussen twee meettechnieken aanzienlijk verschilt van nul betekent niet noodzakelijkerwijs dat de twee technieken goed met elkaar overeenstemmen. Zelfs de geringste, praktisch irrelevante relatie tussen twee technieken kan in principe een statistisch significante bevinding van dit type opleveren. Een” significante ” correlatie bevat eigenlijk helemaal geen informatie over de omvang van het verschil tussen de twee soorten metingen (3, 4).