Analisi della concordanza | Jiotower
Valutazioni su scala continua
La maggior parte delle misurazioni fisiche avviene su scala numerica continua. Spesso, c’è più di una tecnica o strumento per misurare la quantità in questione, e sorge la domanda quanto strettamente queste tecniche concordano (1). Se si vuole introdurre un nuovo metodo di misurazione di una variabile medica, si deve prima valutare la sua validità verificando quanto bene concorda con un metodo già stabilito, o con un gold standard.
In questa sezione, presenteremo metodi statistici per confrontare due tecniche di misurazione e applicarle ad alcuni esempi fittizi. Supponiamo che un certo numero n di persone o oggetti (forse 100 di loro) subisca la misurazione con ciascuna delle due tecniche, producendo un totale di n coppie di misurazioni. Come primo passo, le misure ottenute dalle due tecniche sono tracciate l’una contro l’altra in un grafico: un punto è tracciato per ogni membro del campione, la sua coordinata x è la misura ottenuta con la prima tecnica e la sua coordinata y la misura ottenuta con la seconda tecnica. Se le due tecniche concordano perfettamente o quasi, tutti i punti tracciati dovrebbero trovarsi sopra o vicino alla linea diagonale x = y.
Due situazioni distinte e facilmente comprensibili sono mostrate nelle figure 1a e 1b (Esempi a e b). Qualsiasi coppia di misure esattamente uguali (Misura 1 = Misura 2) verrebbe tracciata come un punto che giace sulla linea diagonale x = y, che viene disegnata su entrambi i grafici. Nell’esempio a, le due tecniche di misurazione concordano strettamente; nell’esempio b, tuttavia, il grafico rivela subito che la differenza tra le Misure 1 e 2 varia sempre più ampiamente per valori crescenti ed è complessivamente maggiore rispetto all’esempio a.
Un modo più informativo per visualizzare tali relazioni è il cosiddetto diagramma Bland-Altman, mostrato per i due esempi nelle figure 2a e 2b. Come prima, ogni coppia di misure viene tracciata nel piano xy, ma in un modo diverso: la media delle due misure viene tracciata come coordinata x e la differenza tra loro come coordinata y. Inoltre, la media di tutte le differenze viene tracciata come una linea orizzontale continua e due linee orizzontali aggiuntive (tratteggiate) vengono tracciate sopra e sotto questa linea ad una distanza di 1,96 volte la deviazione standard delle differenze. Queste due linee corrispondono ai cosiddetti limiti di accordo. La linea media di tutte le differenze indica una deviazione sistematica delle due tecniche di misurazione per le quali, in generale, è possibile introdurre una correzione; i limiti di accordo indicano la dimensione di ulteriori deviazioni che, in generale, non sono correggibili. Se la quantità misurata è normalmente distribuita, allora il 5% delle differenze misurate dovrebbe trovarsi oltre i limiti dell’accordo, cioè più di 1,96 deviazioni standard al di sopra o al di sotto della media di tutte le differenze (2). Il fattore 2 viene spesso utilizzato, per semplicità, al posto di 1.96; quest’ultimo, però, corrisponde più precisamente al 97.5% quantile della distribuzione normale. In sintesi, il diagramma Bland-Altman è un aiuto utile che consente un confronto visivo delle tecniche di misurazione.
Nella Figura 2a, il diagramma Bland-Altman ad esempio a conferma che le due tecniche di misurazione sono in stretto accordo. La linea media di tutte le differenze è molto vicina a 0; quindi, non sembra esserci alcuna deviazione sistematica tra i valori misurati delle due tecniche. In questo esempio, la deviazione standard di tutte le differenze è di circa 0,05. Supponendo che la quantità misurata sia normalmente distribuita, possiamo concludere che la differenza tra le due misurazioni sarà inferiore a 0,1 nel 95% dei casi; questa differenza è piccola rispetto alle quantità misurate stesse. La distanza tra i due limiti di accordo (in altre parole, la larghezza della regione di accordo) è 0.2 in questo esempio.
Quando i diagrammi Bland-Altman vengono utilizzati in situazioni reali per vedere quanto bene due tecniche di misurazione concordano, la domanda se il grado di accordo osservato sia abbastanza buono può essere risolta solo in relazione alla particolare applicazione per la quale le tecniche devono essere utilizzate (cioè, ” abbastanza buono per cosa?”). I potenziali utilizzatori devono decidere quanto strettamente le misurazioni devono essere d’accordo (altrimenti indicato: quanto deve essere stretta la banda tra i limiti dell’accordo) per essere accettabile per scopi clinici. Tetzlaff et al. (1), ad esempio, ha confrontato la risonanza magnetica (MRI) con la spirometria per una specifica applicazione clinica utilizzando diagrammi Bland-Altman (tra gli altri metodi) e ha trovato il grado di accordo soddisfacente.
Il diagramma Bland-Altman ad esempio b (Figura 2b) rivela immediatamente più di una limitazione all’accordo delle due tecniche di misurazione oggetto di studio. La differenza media tra le due misurazioni è ancora una volta vicina allo zero, ma i limiti di accordo sono 1,4 unità al di sopra e al di sotto del valore medio, cioè, uno può aspettare 95% di tutte le differenze misurate per trovarsi nell’intervallo -1.4 a +1.4. Il medico deve decidere se una deviazione di questa entità è accettabile. Inoltre, la distribuzione non uniforme dei punti in questo diagramma indica una distorsione sistematica (bias sistematico).
Anche così, tuttavia, lo scarso accordo in un diagramma Blando-Altman non dovrebbe portarci a rifiutare prematuramente una nuova tecnica di misurazione. Nella figura 3, sono mostrati altri due casi (esempi c e d) in cui le due tecniche di misurazione ovviamente non sono d’accordo (i punti tracciati si trovano lontani dalla linea di accordo), ma sono comunque funzionalmente correlati, come mostra la curva di regressione in ciascun caso. La relazione tra le due tecniche è lineare nell’esempio c (Figura 3c), non lineare nell’esempio d (Figura 3d).
Diagrammi di nuvole di punti per confrontare due tecniche di misurazione funzionalmente correlate; Misura 1 vs Misura 2 per esempio c (sopra) e Esempio d (sotto)
Quindi, spesso accade che una misurazione possa essere predetta con precisione dall’altra perché le due sono chiaramente funzionalmente correlate, anche se le due misurazioni stesse producono valori molto diversi. Nella Figura 3d, ad esempio, quando la Misura 1 produce il valore 3.0, possiamo utilizzare la curva di regressione per stimare che la misura 2 produrrà il valore 7.65. L’apparente mancanza di accordo tra le due tecniche di misurazione è quindi ampiamente correggibile. Avendo “corretto” la Misura 2 in questo modo mediante la curva di regressione—che corrisponde alla nostra migliore stima della relazione funzionale tra le due misure—possiamo confrontare la Misura corretta 2 con la Misura 1 utilizzando i metodi già descritti, ad esempio un nuovo diagramma di Bland-Altman. Questa procedura assomiglia molto alla calibrazione di uno strumento di misura. La determinazione della relazione funzionale stessa, cioè, la generazione di curve di regressione dei tipi visti in Figura 3, richiede una varietà di metodi statistici, come la regressione lineare e non lineare, che non possiamo discutere qui in dettaglio.
Il coefficiente di correlazione di Pearson (2) tra le due tecniche di misurazione è spesso considerato per dimostrare una relazione lineare (quindi, un tipo specifico di relazione funzionale) tra di loro. In effetti, un coefficiente con un alto valore assoluto (vicino a 1 o -1) indica tale relazione. Un errore comune, tuttavia, è quello di interpretare erroneamente le implicazioni dei test di significatività applicati ai coefficienti di correlazione. La constatazione che la correlazione tra due tecniche di misurazione differisce significativamente da zero non indica necessariamente che le due tecniche siano in buon accordo. Anche la minima, praticamente irrilevante relazione tra due tecniche potrebbe, in linea di principio, produrre un risultato statisticamente significativo di questo tipo. Una correlazione “significativa” in realtà non contiene alcuna informazione sull’entità del disaccordo tra i due tipi di misurazione (3, 4).