Développement et évaluation psychométrique d’échelles pour mesurer la confiance professionnelle en la médecine manuelle: une approche de mesure Rasch
Développement d’échelles
Les données recueillies à partir de diverses entrevues informelles de groupes d’étudiants et d’examens critiques de la littérature ont contribué à façonner le contenu et les objectifs des échelles de confiance en soi et du questionnaire de confiance éventuel. Les éléments et leur format ont été élaborés après un examen minutieux des échelles connexes et des études sur l’éducation à la santé, qui ont démontré différentes façons d’évaluer la confiance en soi professionnelle dans des contextes d’enseignement ou de stage clinique. Bien que ces études ne reflètent pas les objectifs de la présente recherche, elles ont fourni des preuves vitales de l’importance de la confiance en soi professionnelle dans les programmes d’éducation à la santé. Quelques éléments ont également été développés sur la base de la vaste expérience de l’un des auteurs dans les programmes d’entraînement sportif, de chiropratique et de physiothérapie. Il s’agissait de ceux qui se concentraient sur la capacité de discuter des comportements à risque pour la santé (alimentation, consommation de drogues et exercice physique), de l’application de renforts orthopédiques, de soutiens et d’enregistrements, et de la démonstration de procédures de réadaptation.
En conséquence, un instrument préliminaire de 52 éléments ou énoncés a été élaboré avec un accent principal sur la communication avec les patients et les compétences cliniques, et (en raison de leur rôle dans la confiance en soi, qui a été identifié grâce aux entrevues informelles et à l’examen critique de la littérature) un accent secondaire sur la supervision des cliniciens. Un format de réponse de style Likert en six points pour chaque élément a été utilisé. Les catégories de réponses ont été codées de 1 (” pas du tout confiant “) à 6 (” très confiant “). Les questions reflétaient les interactions et les expériences avec les patients que les étudiants étaient susceptibles de rencontrer, et allaient de la discussion de problèmes de santé généraux à l’exécution de procédures d’examen physique de base et ciblées. Par exemple: ” Dans quelle mesure êtes-vous confiant dans votre capacité à discuter de questions personnelles et / ou sensibles avec les nouveaux patients?”; et “Dans quelle mesure êtes-vous confiant dans votre capacité à effectuer des procédures d’examen physique de base telles que la pression artérielle, le pouls et la fréquence respiratoire d’un patient?”La validité du contenu a été évaluée par un panel d’éducateurs et de chercheurs affiliés à des programmes d’éducation et à des programmes de stages en éducation clinique chiropratique en Australie et aux États-Unis. Les membres du comité ont été invités à examiner l’échelle et à commenter chaque point et le format général. Ils ont suggéré des modifications mineures pour quelques éléments et ont recommandé l’inclusion d’une section démographique et d’une section d’auto-réflexion qui invitaient les élèves à qualifier leurs réponses.
L’échelle était divisée en deux parties. Une partie de l’échelle était axée sur la communication avec le patient, appelée l’Échelle de confiance en la communication avec le patient (PCCS). L’autre partie portait sur les compétences cliniques, l’Échelle de confiance des compétences cliniques (CSCS). Les deux échelles représentent différents aspects de la confiance en soi, qui sont tous deux importants, et plus d’informations diagnostiques sur ces deux aspects différents pourraient être obtenues en les mesurant séparément et en étant ainsi en mesure de voir si les niveaux diffèrent. Si les niveaux sur les deux aspects devaient différer, différentes stratégies d’enseignement pourraient viser à développer chaque aspect. Il s’agit d’une question empirique de savoir si les deux échelles peuvent être conçues comme représentant la même construction et, à certaines fins, une seule note peut suffire à prendre des décisions d’enseignement et d’apprentissage. Cependant, dans ce cas, la recherche visait à obtenir des informations sur chacun des deux aspects car ils sont chacun essentiels et nécessiteront probablement des stratégies différentes pour les aborder.
Pour faciliter le processus de validation, deux échelles valides et fiables existantes ont été intégrées, le Rapport personnel d’Appréhension de la communication (PRCA-24) et les échelles Générales d’auto-efficacité (GSE). L’échelle PRCA-24 mesure les sentiments liés à la communication avec les autres. Cependant, une seule sous-catégorie (communication interpersonnelle) a été utilisée dans cette étude, car les autres sous-catégories ne sont généralement pas rencontrées dans des contextes cliniques. Des recherches antérieures ont démontré le contenu, le critère et la validité conceptuelle de la PRCA-24. L’échelle GSE a été ajoutée pour recueillir des données sur l’auto-efficacité généralisée des étudiants et pour comparer leurs mesures d’auto-efficacité générales et d’auto-efficacité liées à des tâches spécifiques. Des recherches antérieures montrent que le GSE est une échelle fiable avec une validité convergente et discriminante, avec des coefficients de fiabilité alpha allant de.75 à.90 . On s’attendait à ce que les PCC et les CSC soient en corrélation positive avec le GSE et négativement avec la sous-échelle de communication interpersonnelle PRCA-24; cependant, ces corrélations ne devraient pas être très élevées parce que le PRCA-24 et le GSE sont conçus pour évaluer des constructions similaires mais non identiques à la confiance en soi. Le questionnaire de confiance final (QC) contenait les éléments suivants:
-
Échelle générale d’auto-efficacité (GSE).
-
Rapport personnel d’Échelle d’Appréhension de la communication (PRCA-24), sous-échelle de communication interpersonnelle.
-
Échelle de confiance de la communication avec le patient (PCCS), 28 éléments, 6 catégories de réponses, pas d’éléments inversés.
-
Échelle de confiance des compétences cliniques (CSCS), 27 éléments, 6 catégories de réponses, aucun élément inverse.
-
Section d’auto-réflexion.
-
Section démographique.
Les éléments du PCCS couvraient neuf aspects de la communication avec les patients, tels que l’encouragement au changement de comportement, la prise d’antécédents, l’explication et le soutien. Les CSC ont abordé huit aspects de la confiance dans les compétences cliniques telles que les procédures de manipulation, de radiographie et d’examen physique.
Participants et administration du questionnaire
Les participants comprenaient sept cohortes d’étudiants en chiropratique (n = 269) inscrits à des stages dans des établissements d’enseignement supérieur en Australie et aux États-Unis. Toutes les cohortes avaient des programmes cliniques comparables offrant des expériences professionnelles similaires, telles que l’enregistrement des antécédents des patients et l’évaluation et le traitement supervisés des patients. L’approbation de l’éthique humaine et le consentement des étudiants ont été obtenus. Le CQ a été administré au début des stages cliniques des étudiants et a été répété cinq mois plus tard (une cohorte — il n’était pas possible de tester à nouveau toutes les cohortes à ce moment) et de nouveau dix mois plus tard (toutes les cohortes). Les données des première et troisième occasions seulement (début de l’étude et dix mois plus tard) ont été utilisées pour examiner la validité et la fiabilité des PCC et des CSC. La combinaison de données de cette manière est une procédure acceptée rendue possible par les propriétés des comparaisons invariantes du modèle de Rasch. La légitimité de la procédure peut être testée empiriquement en utilisant le fonctionnement différentiel des éléments (DIF).
Analyse des données
Les réponses des élèves à 269 questionnaires retournés à deux reprises ont été soumises à une analyse psychométrique à l’aide du modèle de Rasch polytomique (PRM), via le logiciel de modèle de mesure unidimensionnelle de Rasch RUMM2030. Ce modèle a été utilisé pour déterminer si les deux nouvelles échelles avaient été opérationnalisées avec succès et pour évaluer certains aspects de la validité et de la fiabilité des échelles. Le modèle de Rasch a été choisi parce que c’est le seul modèle de mesure en sciences sociales qui possède les propriétés d’échelle souhaitables d’invariance des comparaisons. Le modèle exige qu’une comparaison entre deux personnes quelconques d’une classe donnée de personnes soit indépendante des éléments d’une classe donnée d’articles choisis pour la comparaison, et que la comparaison de deux éléments quelconques d’une classe donnée d’articles soit indépendante des personnes d’une classe donnée de personnes choisies pour effectuer la comparaison. Pour des explications plus détaillées sur le paradigme et les procédures de Rasch, voir, par exemple, Andrich, Andrich et Styles, Bond et Fox et le manuel en ligne du logiciel RUMM2030. Pour de nombreux chercheurs, le paradigme de Rasch représente une avancée sur la théorie des tests classiques. Dans les deux théories, par exemple, le score total d’une personne sur un instrument est la statistique pertinente pour représenter la position d’une personne sur la variable ou la propriété d’intérêt. Cependant, les scores bruts utilisés dans la théorie des tests classiques ne sont pas linéarisés (ils sont linéarisés dans la mesure de Rasch) et ne doivent pas être traités comme des mesures.
Le modèle de Rasch peut être utilisé pour examiner les données à la recherche de défauts ou de problèmes signalés par un défaut d’adaptation au modèle. Montrer que les réponses (données) d’un élément correspondent au modèle est un raccourci pour conclure que l’élément fonctionne de manière cohérente avec les autres éléments dans une échelle pour caractériser une seule variable comme résumé par le modèle de Rasch. Par conséquent, si les réponses à un ensemble d’éléments d’une échelle correspondent au modèle de Rasch, elles sont établies comme étant cohérentes en interne — ce qui est une condition préalable à la confirmation de la validité de la construction. De plus, les mesures pour les personnes peuvent alors être légitimement utilisées dans des opérations mathématiques de base (telles que l’addition) et donc soumises à des procédures statistiques standard. Deux propriétés importantes sont présentes si les données correspondent au modèle: premièrement, les mesures des participants seront à une échelle linéaire; et deuxièmement, les mesures seront invariantes (l’ordre relatif des articles et des personnes sera le même, quels que soient les articles utilisés pour comparer les personnes et quelles que soient les personnes utilisées pour comparer les articles). De plus, l’examen du fonctionnement des éléments différentiels permettra de déterminer si les mesures sont invariantes (essentiellement, si elles représentent la même construction) pour les groupes désignés pour lesquels l’ajustement a été confirmé.
Dans le modèle de Rasch, la statistique pertinente pour toute personne est simplement le score total entre les éléments où les scores sont des entiers successifs attribués à des catégories successives, ce qui est la même statistique que celle utilisée traditionnellement. Certains éléments peuvent être dichotomiques, et certains peuvent avoir plus de deux catégories ordonnées. Cependant, ces scores ne sont pas eux-mêmes linéaires et ne doivent généralement pas être traités comme des mesures. En particulier, ils sont affectés par les effets de plancher et de plafond de sorte qu’une différence d’un score brut de 2, par exemple, à une partie du continuum de la construction ne représente pas la même différence qu’un score de 2 sur une autre partie du continuum. La transformation des scores bruts à l’aide du modèle de Rasch produit des scores linéarisés pour chaque personne qui peuvent être traités comme des mesures et utilisés dans des analyses statistiques standard. Ces scores linéarisés sont appelés emplacements. Plus formellement, le modèle de Rasch fournit des mesures compatibles avec la mesure conjointe fondamentale ou additive étudiée en psychologie mathématique.
Le modèle de Rasch est un modèle probabiliste qui fournit un modèle approprié pour les données typiques des sciences sociales. Pour les éléments polytomiques, l’équation prend la forme:
où (i) X ni, est la variable aléatoire de la réponse de la personne n à l’élément i et où la valeur de cette variable est un entier 0, 1, 2, 3, …, m, β n est la localisation de la personne sur la variable, (δ ik), k = 1, 2, 3, …, m i est un vecteur de seuils de l’élément i auquel la probabilité d’une réponse dans les catégories adjacentes est identique, et γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik est la somme des numérateurs et assure que Eq. (1) sommes à 1 et est une déclaration de probabilité.
Le logiciel RUMM2030 fournit une vaste gamme d’installations pour évaluer la qualité des articles dans une échelle. Les installations comprennent plusieurs tests statistiques différents (tests d’ajustement résiduel du chi carré et du log) et des tests graphiques d’ajustement (Courbes Caractéristiques des catégories et des éléments) entre les données et le modèle, ainsi qu’un indice de fiabilité, connu sous le nom d’Indice de séparation des personnes (PSI). Le programme fournit également de l’information sur le ciblage de la personne et des éléments (si la répartition des emplacements des éléments et des personnes est similaire), ainsi que sur les dépendances des éléments et la possibilité de sous-échelles significatives grâce aux corrélations des éléments résiduels, à l’analyse des composantes principales résiduelles et à l’analyse des sous-échelles. En combinaison, ces informations sont utilisées pour déterminer la qualité d’une échelle et pour identifier les anomalies dans les données, ce qui peut conduire à une compréhension plus approfondie de la construction ou de la propriété mesurée.
Comme mentionné dans l’introduction, l’analyse des données visait trois objectifs principaux, dont le premier était d’établir la cohérence interne et la fiabilité de chaque échelle. En d’autres termes, les ensembles d’éléments représentent-ils chacun une construction unique à ce niveau d’échelle? Si c’est le cas, il est justifié d’ajouter des scores pour obtenir un score total sur chaque échelle, puis d’utiliser ces scores totaux (ou leurs équivalents linéarisés appelés emplacements) pour d’autres tests statistiques tels que des comparaisons de scores moyens entre groupes ou au fil du temps.
Le deuxième objectif était de déterminer si les éléments de chaque échelle ont les mêmes propriétés psychométriques entre différents groupes de participants: c’est ce qu’on appelle le fonctionnement différentiel des éléments (DIF) et il détermine si les éléments ont des propriétés psychométriques similaires entre différents groupes de participants, c’est-à-dire si les éléments ont des propriétés invariantes entre les groupes. Si les éléments affichent DIF entre les groupes, ils ne doivent pas être utilisés pour comparer les performances des personnes, à moins que les individus appartiennent au même groupe. Dans cette étude, les groupes d’intérêt étaient le sexe, l’âge, l’expérience de la profession, la qualification d’entrée (diplôme antérieur ou non) et l’occasion de l’administration.
Le troisième objectif était de fournir des preuves de la validité convergente des PCC et des CSC en examinant leurs corrélations statistiques avec les échelles GSE et PRCA-24 établies qui évaluent certains aspects de la confiance.
Pour répondre au premier objectif, divers aspects des échelles ont été examinés. Le premier aspect était le fonctionnement des catégories de réponses. Les seuils d’articles (les seuils entre chaque paire successive de catégories telles que, Tout à fait d’accord et d’accord) doivent être correctement ordonnés. Le deuxième aspect était l’ajustement de chaque ensemble d’articles au modèle Rasch. Si les éléments correspondent au modèle, ce qui est une preuve de cohérence interne, ils peuvent être acceptés comme mesurant une seule variable à ce niveau d’échelle. Deux tests d’ajustement – un statistique (le chi carré) et un graphique (les courbes caractéristiques de l’élément, ICCs) – ont été utilisés pour juger de cela. Dans le paradigme de Rasch en général, aucun test d’ajustement n’est suffisant pour prendre une décision sur l’ajustement. Un troisième aspect était le ciblage des objets et des personnes les uns par rapport aux autres: ceci est établi en examinant la répartition conjointe des emplacements des objets et des personnes sur le même continuum. Un quatrième aspect, les dépendances des éléments, a été examiné par l’inspection des corrélations résiduelles entre les éléments. Si les éléments affichent une dépendance, un élément de chaque paire est redondant et conserver les deux augmente artificiellement la fiabilité. De telles dépendances peuvent également indiquer la présence de sous-échelles qui peuvent être examinées plus en détail par l’analyse en composantes principales des résidus. Enfin, la fiabilité est évaluée à l’aide de l’Indice de séparation de la personne (PSI), qui est l’équivalent Rasch de l’alpha de Cronbach.
Pour répondre au deuxième objectif – établir si les éléments fonctionnent de manière relativement cohérente entre les différents groupes, le fonctionnement différentiel des éléments entre les groupes pour le sexe, l’âge, l’Expérience antérieure, la qualification d’entrée et l’occasion a été examiné.
Enfin, pour répondre au troisième objectif de fournir une preuve supplémentaire de validité (cette fois, validité convergente), les scores des élèves sur les échelles ont été corrélés avec les scores des mêmes étudiants sur deux échelles existantes qui mesurent des constructions liées à la confiance mais différentes de la confiance et dont la validité a été établie dans la littérature de recherche, à savoir le GSE et le PRCA-24 (communication interpersonnelle).
Les résultats de ces analyses fournissent des informations sur la validité et la fiabilité des deux échelles. Si ceux-ci sont satisfaisants, les emplacements des personnes (les scores bruts linéarisés) peuvent être utilisés pour des analyses plus poussées comme, par exemple, la comparaison des scores moyens (emplacements des personnes) pour les différents groupes d’intérêt et l’étude des changements dans les emplacements moyens au fil du temps.