Analyse de concordance | Jiotower
Cotes sur une échelle continue
La plupart des mesures physiques sont sur une échelle numérique continue. Souvent, il existe plusieurs techniques ou instruments pour mesurer la quantité en question, et la question se pose de savoir dans quelle mesure ces techniques concordent(1). Si l’on souhaite introduire une nouvelle méthode de mesure d’une variable médicale, il faut d’abord évaluer sa validité en vérifiant dans quelle mesure elle est en accord avec une méthode déjà établie, ou avec un étalon-or.
Dans cette section, nous présenterons des méthodes statistiques pour comparer deux techniques de mesure et les appliquerons à quelques exemples fictifs. Nous supposons qu’un certain nombre n de personnes ou d’objets (peut-être 100 d’entre eux) subissent des mesures avec chacune des deux techniques, ce qui donne un total de n paires de mesures. Dans un premier temps, les mesures obtenues par les deux techniques sont tracées l’une contre l’autre dans un graphique: un point est tracé pour chaque membre de l’échantillon, sa coordonnée x étant la mesure obtenue par la première technique et sa coordonnée y la mesure obtenue par la deuxième technique. Si les deux techniques s’accordent parfaitement ou presque, alors tous les points tracés devraient se trouver sur ou près de la ligne diagonale x = y.
Deux situations distinctes et facilement compréhensibles sont représentées sur les figures 1a et 1b (exemples a et b). Toute paire de mesures exactement égales (Mesure 1 = Mesure 2) serait tracée comme un point situé sur la ligne diagonale x = y, qui est dessinée sur les deux graphiques. Dans l’Exemple a, les deux techniques de mesure concordent étroitement ; dans l’Exemple b, cependant, le tracé révèle tout de suite que la différence entre les Mesures 1 et 2 varie de plus en plus pour des valeurs croissantes et est globalement plus grande que dans l’Exemple a.
Une façon plus informative d’afficher de telles relations est le diagramme dit de Fade-Altman, représenté pour les deux Exemples sur les Figures 2a et 2b. Comme précédemment, chaque paire de mesures est tracée dans le plan x-y, mais d’une manière différente: la moyenne des deux mesures est tracée comme la coordonnée x, et la différence entre elles comme la coordonnée y. De plus, la moyenne de toutes les différences est tracée comme une ligne horizontale continue, et deux lignes horizontales supplémentaires (pointillées) sont tracées au-dessus et au-dessous de cette ligne à une distance de 1,96 fois l’écart-type des différences. Ces deux lignes correspondent aux soi-disant limites d’accord. La ligne moyenne de toutes les différences indique un écart systématique des deux techniques de mesure pour lequel, en général, une correction peut être introduite; les limites d’accord indiquent l’ampleur d’autres écarts qui, en général, ne sont pas corrigibles. Si la quantité mesurée est normalement répartie, alors 5% des différences mesurées doivent se situer au-delà des limites d’accord, c’est-à-dire plus de 1,96 écart-type au-dessus ou en dessous de la moyenne de toutes les différences (2). Le facteur 2 est souvent utilisé, pour simplifier, au lieu de 1,96; ce dernier correspond cependant plus précisément au 97.quantile de 5% de la distribution normale. En résumé, le diagramme de Bland-Altman est une aide utile qui permet une comparaison visuelle des techniques de mesure.
Sur la Figure 2a, le diagramme de Bland-Altman par exemple a confirme que les deux techniques de mesure sont en accord étroit. La ligne de moyenne de toutes les différences est très proche de 0; il ne semble donc pas y avoir d’écart systématique entre les valeurs mesurées des deux techniques. Dans cet exemple, l’écart type de toutes les différences est d’environ 0,05. En supposant que la quantité mesurée est normalement distribuée, on peut conclure que la différence entre les deux mesures sera inférieure à 0,1 dans 95% des cas ; cette différence est faible par rapport aux quantités mesurées elles-mêmes. La distance entre les deux limites d’accord (c’est-à-dire la largeur de la région d’accord) est de 0,2 dans cet exemple.
Lorsque des diagrammes de Bland-Altman sont utilisés dans des situations réelles pour voir dans quelle mesure deux techniques de mesure s’accordent, la question de savoir si le degré d’accord observé est suffisamment bon ne peut être résolue que par rapport à l’application particulière pour laquelle les techniques doivent être utilisées (c’est-à-dire “assez bon pour quoi?”). Les utilisateurs potentiels doivent décider dans quelle mesure les mesures doivent convenir (autrement dit: dans quelle mesure la bande entre les limites de l’accord doit être étroite) pour être acceptable à des fins cliniques. Tetzlaff et coll. (1), par exemple, a comparé l’imagerie par résonance magnétique (IRM) à la spirométrie pour une application clinique spécifique en utilisant des diagrammes de Bland-Altman (entre autres méthodes) et a constaté que le degré d’accord était satisfaisant.
Le diagramme de Bland-Altman par exemple b (Figure 2b) révèle immédiatement plus d’une limitation à l’accord des deux techniques de mesure étudiées. L’écart moyen entre les deux mesures est à nouveau proche de zéro, mais les limites d’accord sont de 1,4 unité au-dessus et au-dessous de la valeur moyenne, c’est-à-dire, on peut s’attendre à ce que 95% de toutes les différences mesurées se situent entre -1,4 et +1,4. Le médecin doit décider si un écart de cette ampleur est acceptable. De plus, la distribution non uniforme des points de ce diagramme indique une distorsion systématique (biais systématique).
Malgré tout, un mauvais accord dans un diagramme Fade-Altman ne devrait pas nous conduire à rejeter prématurément une nouvelle technique de mesure. Sur la figure 3, deux autres cas (exemples c et d) sont représentés dans lesquels les deux techniques de mesure ne sont évidemment pas d’accord (les points tracés sont éloignés de la ligne d’accord), mais ils sont néanmoins fonctionnellement liés, comme le montre la courbe de régression dans chaque cas. La relation entre les deux techniques est linéaire dans l’exemple c (Figure 3c), non linéaire dans l’exemple d (Figure 3d).
Diagrammes de nuages de points pour comparer deux techniques de mesure fonctionnellement liées; Mesure 1 vs Mesure 2 par Exemple c (ci-dessus) et Exemple d (ci-dessous)
Ainsi, il arrive souvent qu’une mesure puisse être prédite avec précision à partir de l’autre car les deux sont clairement fonctionnellement liées, même si les deux mesures elles-mêmes donnent des valeurs très différentes. Dans la figure 3d par exemple, lorsque la mesure 1 donne la valeur 3,0, nous pouvons utiliser la courbe de régression pour estimer que la Mesure 2 donnera la valeur 7,65. L’absence apparente d’accord entre les deux techniques de mesure est donc largement corrigible. Après avoir ainsi “corrigé” la Mesure 2 au moyen de la courbe de régression — qui correspond à notre meilleure estimation de la relation fonctionnelle entre les deux mesures — nous pouvons comparer la Mesure corrigée 2 à la Mesure 1 en utilisant les méthodes déjà décrites, par exemple un nouveau diagramme de Bland-Altman. Cette procédure ressemble beaucoup à l’étalonnage d’un instrument de mesure. La détermination de la relation fonctionnelle elle-même, i.e., la génération de courbes de régression des types vus à la figure 3, nécessite une variété de méthodes statistiques, telles que la régression linéaire et non linéaire, que nous ne pouvons pas discuter ici plus en détail.
Le coefficient de corrélation de Pearson (2) entre les deux techniques de mesure est souvent considéré comme démontrant une relation linéaire (donc un type spécifique de relation fonctionnelle) entre elles. En effet, un coefficient de valeur absolue élevée (proche de 1 ou -1) indique une telle relation. Une erreur courante, cependant, consiste à mal interpréter les implications des tests de signification appliqués aux coefficients de corrélation. Une constatation selon laquelle la corrélation entre deux techniques de mesure diffère significativement de zéro n’indique pas nécessairement que les deux techniques sont en bon accord. Même la moindre relation pratiquement non pertinente entre deux techniques pourrait, en principe, donner une conclusion statistiquement significative de ce type. Une corrélation ” significative” ne contient en fait aucune information sur l’ampleur du désaccord entre les deux types de mesure (3, 4).