Konkordanzanalyse | Jiotower

Bewertungen auf einer kontinuierlichen Skala

Die meisten physikalischen Messungen erfolgen auf einer kontinuierlichen numerischen Skala. Oft gibt es mehr als eine Technik oder ein Instrument zur Messung der betreffenden Menge, und es stellt sich die Frage, wie eng diese Techniken übereinstimmen (1). Wenn man eine neue Methode zur Messung einer medizinischen Variablen einführen möchte, muss man zuerst ihre Validität bewerten, indem man überprüft, wie gut sie mit einer bereits etablierten Methode oder mit einem Goldstandard übereinstimmt.

In diesem Abschnitt werden statistische Methoden zum Vergleich zweier Messtechniken vorgestellt und auf einige fiktive Beispiele angewendet. Wir nehmen an, dass eine Anzahl n von Personen oder Objekten (vielleicht 100 von ihnen) mit jeder der beiden Techniken gemessen werden, was insgesamt n Maßpaare ergibt. In einem ersten Schritt werden die durch die beiden Techniken erhaltenen Messungen in einem Diagramm gegeneinander aufgetragen: für jedes Element der Probe ist ein Punkt aufgetragen, dessen x-Koordinate die durch die erste Technik erhaltene Messung und dessen y-Koordinate die durch die zweite Technik erhaltene Messung ist. Wenn die beiden Techniken perfekt oder nahezu übereinstimmen, sollten alle aufgezeichneten Punkte auf oder in der Nähe der diagonalen Linie x = y liegen.

In den Abbildungen 1a und 1b (Beispiele a und b) sind zwei unterschiedliche und leicht verständliche Situationen dargestellt. Jedes Paar von Messungen, die genau gleich waren (Messung 1 = Messung 2), würde als ein Punkt aufgetragen, der auf der diagonalen Linie x = y liegt, die in beiden Diagrammen gezeichnet ist. In Beispiel a stimmen die beiden Messtechniken eng überein; in Beispiel b zeigt die Darstellung jedoch sofort, dass der Unterschied zwischen den Messungen 1 und 2 bei steigenden Werten immer weiter variiert und insgesamt größer ist als in Beispiel a.

Eine aussagekräftigere Darstellung solcher Zusammenhänge ist das sogenannte Bland-Altman-Diagramm, das für die beiden Beispiele in den Abbildungen 2a und 2b dargestellt ist. Wie zuvor wird jedes Messpaar in der x-y-Ebene aufgetragen, jedoch auf andere Weise: Der Durchschnitt der beiden Messungen wird als x-Koordinate und die Differenz zwischen ihnen als y-Koordinate aufgetragen. Zusätzlich wird der Mittelwert aller Differenzen als durchgezogene horizontale Linie aufgetragen, und zwei zusätzliche (gepunktete) horizontale Linien werden oberhalb und unterhalb dieser Linie in einem Abstand von 1,96 mal der Standardabweichung der Differenzen aufgetragen. Diese beiden Linien entsprechen den sogenannten Grenzen der Übereinstimmung. Der Mittelwert aller Differenzen gibt eine systematische Abweichung der beiden Meßtechniken an, für die im Allgemeinen eine Korrektur eingeleitet werden kann; die Übereinstimmungsgrenzen geben die Größe weiterer Abweichungen an, die im Allgemeinen nicht korrigierbar sind. Wenn die zu messende Größe normalverteilt ist, dann sollten 5% der gemessenen Differenzen jenseits der Übereinstimmungsgrenzen liegen, d.h. mehr als 1,96 Standardabweichungen über oder unter dem Mittelwert aller Differenzen (2). Der Einfachheit halber wird häufig der Faktor 2 anstelle von 1, 96 verwendet; letzteres entspricht jedoch genauer der 97.5% Quantil der Normalverteilung. Zusammenfassend ist das Bland-Altman-Diagramm eine nützliche Hilfe, die einen visuellen Vergleich von Messtechniken ermöglicht.

In Abbildung 2a bestätigt das Bland-Altman-Diagramm für Beispiel a, dass die beiden Messtechniken eng übereinstimmen. Der Mittelwert aller Differenzen liegt sehr nahe bei 0; Somit scheint es keine systematische Abweichung zwischen den Messwerten der beiden Techniken zu geben. In diesem Beispiel beträgt die Standardabweichung aller Differenzen ungefähr 0,05. Unter der Annahme, dass die zu messende Größe normalverteilt ist, können wir daraus schließen, dass die Differenz zwischen den beiden Messungen in 95% der Fälle weniger als 0,1 beträgt. Der Abstand zwischen den beiden Übereinstimmungsgrenzen (mit anderen Worten, die Breite des Übereinstimmungsbereichs) beträgt in diesem Beispiel 0,2.

Wenn Bland-Altman-Diagramme in realen Situationen verwendet werden, um zu sehen, wie gut zwei Messtechniken übereinstimmen, kann die Frage, ob der beobachtete Übereinstimmungsgrad gut genug ist, nur in Bezug auf die jeweilige Anwendung beantwortet werden, für die die Techniken verwendet werden sollen (dh “gut genug für was?”). Potenzielle Anwender müssen entscheiden, wie eng die Messungen übereinstimmen müssen (anders angegeben: Wie eng muss das Band zwischen den Übereinstimmungsgrenzen sein), um für klinische Zwecke akzeptabel zu sein. Tetzlaff et al. (1) verglich beispielsweise die Magnetresonanztomographie (MRT) mit der Spirometrie für eine spezifische klinische Anwendung unter Verwendung von Bland-Altman-Diagrammen (unter anderem Methoden) und stellte fest, dass der Grad der Übereinstimmung zufriedenstellend ist.

Das Bland-Altman-Diagramm für Beispiel b (Abbildung 2b) offenbart sofort mehr als eine Einschränkung der Übereinstimmung der beiden untersuchten Messtechniken. Die mittlere Differenz zwischen den beiden Messungen liegt wieder nahe Null, die Übereinstimmungsgrenzen liegen jedoch 1,4 Einheiten über und unter dem Mittelwert, d.h. 95% aller gemessenen Differenzen im Bereich von -1,4 bis +1,4 liegen. Der Arzt muss entscheiden, ob eine Abweichung dieser Größenordnung akzeptabel ist. Darüber hinaus weist die ungleichmäßige Verteilung der Punkte in diesem Diagramm auf eine systematische Verzerrung (systematische Verzerrung) hin.

Trotzdem sollte eine schlechte Übereinstimmung in einem Fad-Altman-Diagramm nicht dazu führen, dass wir eine neue Messtechnik vorzeitig ablehnen. In Abbildung 3 sind zwei weitere Fälle (Beispiele c und d) dargestellt, in denen die beiden Messtechniken offensichtlich nicht übereinstimmen (die eingezeichneten Punkte liegen weit von der Übereinstimmungslinie entfernt), aber dennoch funktional verwandt sind, wie die Regressionskurve jeweils zeigt. Die Beziehung zwischen den beiden Techniken ist linear in Beispiel c (Abbildung 3c), nichtlinear in Beispiel d (Abbildung 3d).

Punktwolkendiagramme zum Vergleich zweier funktionsbezogener Messtechniken; Messung 1 vs Messung 2 für Beispiel c (oben) und Beispiel d (unten)

So kommt es oft vor, dass eine Messung von der anderen genau vorhergesagt werden kann, weil die beiden eindeutig funktional verwandt sind, obwohl die beiden Messungen selbst sehr unterschiedliche Werte ergeben. Wenn in Abbildung 3d beispielsweise Messung 1 den Wert 3,0 ergibt, können wir anhand der Regressionskurve schätzen, dass Messung 2 den Wert 7,65 ergibt. Die scheinbare mangelnde Übereinstimmung zwischen den beiden Messtechniken ist somit weitgehend korrigierbar. Nachdem wir die Messung 2 auf diese Weise mittels der Regressionskurve “korrigiert” haben — was unserer besten Schätzung der funktionalen Beziehung zwischen den beiden Messungen entspricht — können wir die korrigierte Messung 2 mit der Messung 1 unter Verwendung der bereits beschriebenen Methoden, z. B. eines neuen Bland-Altman-Diagramms, vergleichen. Dieses Verfahren ähnelt stark der Kalibrierung eines Messgeräts. Die Bestimmung der funktionalen Beziehung selbst, d.h., die Erzeugung von Regressionskurven, wie sie in Abbildung 3 zu sehen sind, erfordert eine Vielzahl von statistischen Methoden, wie lineare und nichtlineare Regression, die wir hier nicht näher diskutieren können.

Es wird oft angenommen, dass der Pearson-Korrelationskoeffizient (2) zwischen den beiden Messtechniken eine lineare Beziehung (also eine bestimmte Art von funktionaler Beziehung) zwischen ihnen zeigt. In der Tat weist ein Koeffizient mit einem hohen Absolutwert (nahe 1 oder -1) auf eine solche Beziehung hin. Ein häufiger Fehler besteht jedoch darin, die Auswirkungen von Signifikanztests, die auf Korrelationskoeffizienten angewendet werden, falsch zu interpretieren. Die Feststellung, dass die Korrelation zwischen zwei Messtechniken signifikant von Null abweicht, bedeutet nicht unbedingt, dass die beiden Techniken gut übereinstimmen. Selbst die geringste, praktisch irrelevante Beziehung zwischen zwei Techniken könnte im Prinzip zu einem statistisch signifikanten Befund dieser Art führen. Eine “signifikante” Korrelation enthält tatsächlich überhaupt keine Information über die Größe der Meinungsverschiedenheit zwischen den beiden Messarten (3, 4).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.