Desarrollo y evaluación psicométrica de escalas para medir la confianza profesional en medicina manual: un enfoque de medición Rasch

Desarrollo de escalas

Los datos obtenidos de varias entrevistas informales en grupos de estudiantes y revisiones críticas de la literatura ayudaron a dar forma al contenido y los objetivos de las escalas de autoconfianza y el cuestionario de confianza eventual. Los ítems y su formato fueron desarrollados después de una revisión cuidadosa de escalas relacionadas y estudios de educación en salud, que demostraron diferentes formas de evaluar la confianza en sí mismo profesional en entornos educativos o de prácticas clínicas . Si bien estos estudios no reflejaron los objetivos de la presente investigación, proporcionaron evidencia vital sobre la importancia de la autoconfianza profesional en los programas de educación en salud. También se desarrollaron algunos ítems basados en la amplia experiencia de uno de los autores en los currículos de entrenamiento atlético, quiropráctica y terapia física. Fueron aquellos que se centraron en la capacidad de discutir los comportamientos de riesgo para la salud (dieta, consumo de drogas y ejercicio), la aplicación de aparatos ortopédicos, soportes y cintas, y la demostración de procedimientos de rehabilitación.

En consecuencia, se desarrolló un instrumento preliminar de 52 ítems o declaraciones con un enfoque primario en la comunicación del paciente y las habilidades clínicas, y (debido a su papel en la confianza en sí mismo, que se identificó a través de entrevistas informales y revisión crítica de la literatura) un enfoque secundario en la supervisión de los médicos. Se utilizó un formato de respuesta tipo Likert de seis puntos para cada elemento. Las categorías de respuesta se codificaron de 1 (“nada seguro”) a 6 (“muy seguro”). Las preguntas reflejaban interacciones y experiencias con pacientes que los estudiantes probablemente encontrarían, y variaban desde discutir problemas generales de salud hasta realizar procedimientos de examen físico básicos y específicos. Por ejemplo: “¿Qué tan seguro está de su capacidad para discutir temas personales y/o delicados con nuevos pacientes?”; y “¿Qué tan seguro está de su capacidad para realizar procedimientos básicos de examen físico, como la presión arterial, el pulso y la frecuencia respiratoria en un paciente?”La validez de contenido fue evaluada por un panel de educadores e investigadores afiliados a programas educativos y programas de pasantías de educación clínica quiropráctica en Australia y los Estados Unidos. Se pidió a los miembros del panel que revisaran la escala y formularan comentarios sobre cada elemento y el formato general. Sugirieron alteraciones menores para algunos ítems, y recomendaron la inclusión de una sección demográfica y una sección de autorreflexión que invitaran a los estudiantes a calificar sus respuestas.

La escala se dividió en dos partes. Una parte de la escala se centró en la comunicación con el paciente, denominada Escala de Confianza en la Comunicación con el Paciente (PCCS). La otra parte se centró en las habilidades clínicas, etiquetadas como la Escala de Confianza de Habilidades Clínicas (CSCS, por sus siglas en inglés). Las dos escalas representan diferentes aspectos de la confianza en sí mismo, los cuales son importantes, y se podría obtener más información diagnóstica sobre estos dos aspectos diferentes midiéndolos por separado y así poder ver si los niveles difieren. Si los niveles en los dos aspectos fueran diferentes, se podrían dirigir estrategias de enseñanza diferentes para desarrollar cada aspecto. Es una pregunta empírica si las dos escalas podrían concebirse como representando el mismo constructo y, para algunos propósitos, una sola puntuación puede ser todo lo que se requiere para tomar decisiones de enseñanza y aprendizaje. Sin embargo, en este caso, la investigación tuvo como objetivo obtener información sobre cada uno de los dos aspectos, ya que son esenciales y es probable que requieran estrategias diferentes para abordarlos.

Para ayudar con el proceso de validación, se incorporaron dos escalas válidas y confiables existentes, la escala de Informe Personal de Aprehensión de la Comunicación (PRCA-24) y la escala de Autoeficacia General (GSE). La escala PRCA-24 mide los sentimientos acerca de la comunicación con los demás. Sin embargo, solo se utilizó una subcategoría (comunicación interpersonal) en este estudio, ya que las otras subcategorías no se encuentran típicamente en contextos clínicos. Investigaciones previas han demostrado la validez de contenido, criterio y constructo de la PRCA-24 . Se añadió la escala GSE para recopilar datos sobre la autoeficacia generalizada de los estudiantes y comparar sus medidas de autoeficacia general y de autoeficacia relacionada con tareas específicas. Investigaciones previas muestran que el GSE es una escala confiable con validez convergente y discriminante, con coeficientes de confiabilidad alfa que van desde .75 para .90 . Se esperaba que los PCC y los CSC se correlacionaran positivamente con el GSE y negativamente con la subescala de comunicación interpersonal PRCA-24; sin embargo, no se esperaba que estas correlaciones fueran muy altas porque el PRCA-24 y el GSE están diseñados para evaluar construcciones que son similares pero no idénticas a la confianza en sí mismo. El cuestionario de confianza final (CQ) contenía lo siguiente:

  1. Escala General de Autoeficacia (GSE).

  2. Escala de Aprehensión de Informe Personal de Comunicación (PRCA-24), subescala de comunicación interpersonal.

  3. Escala de Confianza en la Comunicación con el Paciente (PCCS), 28 elementos, 6 categorías de respuesta, sin elementos inversos.

  4. Escala de Confianza en Habilidades Clínicas (CSCS), 27 ítems, 6 categorías de respuesta, sin ítems inversos.

  5. Sección de autorreflexión.

  6. Sección demográfica.

Los elementos de PCCS cubrieron nueve aspectos de la comunicación con el paciente, como alentar el cambio de comportamiento, tomar antecedentes, explicar y brindar apoyo. Los CSCS abordaron ocho aspectos de la confianza en las habilidades clínicas, como los procedimientos de manipulación, rayos X y examen físico.

Participantes y administración de cuestionarios

Los participantes incluyeron siete cohortes de estudiantes quiroprácticos (n = 269) matriculados en pasantías en instituciones terciarias en Australia y los Estados Unidos. Todas las cohortes tenían currículos clínicos comparables que proporcionaban experiencias profesionales similares, como el registro de las historias de los pacientes y la evaluación y el tratamiento supervisados de los pacientes. Se obtuvo la aprobación de ética humana y el consentimiento del estudiante. La CQ se administró al comienzo de las prácticas clínicas de los estudiantes y se repitió cinco meses después (una cohorte—no era posible volver a probar todas las cohortes en este momento) y de nuevo diez meses después (todas las cohortes). Solo se utilizaron datos de la primera y tercera ocasión (inicio del estudio y diez meses después) para examinar la validez y confiabilidad de los CCP y CCC. La combinación de datos de esta manera es un procedimiento aceptado que es posible gracias a las propiedades del modelo Rasch de comparaciones invariantes. La legitimidad del procedimiento se puede probar empíricamente utilizando el funcionamiento diferencial de elementos (DIF).

Análisis de datos

Las respuestas de los estudiantes a 269 cuestionarios devueltos en dos ocasiones fueron sometidas a análisis psicométrico utilizando el modelo de Rasch politómico (PRM) , a través del software Rasch Modelo de Medición Unidimensional RUMM2030 . Este modelo se utilizó para establecer si las dos nuevas escalas habían sido operacionalizadas con éxito, y para evaluar aspectos de la validez y confiabilidad de las escalas . El modelo Rasch fue seleccionado porque es el único modelo de medición en las ciencias sociales que tiene las propiedades de escala deseables de invariancia de comparaciones . El modelo requiere que una comparación entre dos personas de una determinada clase de personas deben ser independientes de los elementos en una determinada clase de elementos son los elegidos para la comparación, y la comparación de dos elementos de una clase dada de elementos debe ser independiente de que las personas en una determinada clase de personas son los elegidos para hacer la comparación . Para obtener explicaciones más detalladas del paradigma y los procedimientos de Rasch, consulte, por ejemplo, Andrich, Andrich and Styles, Bond y Fox y el manual en línea para el software RUMM2030 . Para muchos investigadores, el paradigma Rasch representa un avance en la teoría de pruebas clásica . En ambas teorías, por ejemplo, la puntuación total de una persona en un instrumento es la estadística relevante para representar la posición de una persona en la variable o propiedad de interés. Sin embargo, las puntuaciones brutas utilizadas en la teoría de pruebas clásica no están linealizadas (se linealizan en la medición de Rasch) y no deben tratarse como mediciones.

El modelo Rasch se puede utilizar para examinar los datos en busca de defectos o problemas indicados por un fallo en el ajuste del modelo . Mostrar que las respuestas de un elemento (datos) se ajustan al modelo es una forma abreviada para concluir que el elemento funciona de manera coherente con los otros elementos en una escala para caracterizar una sola variable resumida por el modelo Rasch. Por lo tanto, si las respuestas a un conjunto de elementos de una escala se ajustan al modelo Rasch, se establecen como consistentes internamente, lo que es un requisito previo para confirmar la validez de constructo. Además, las medidas para las personas pueden utilizarse legítimamente en operaciones matemáticas básicas (como la suma) y, por lo tanto, someterse a procedimientos estadísticos estándar. Dos propiedades importantes están presentes si los datos se ajustan al modelo: en primer lugar, las medidas de los participantes estarán en una escala lineal; y segundo, las medidas serán invariantes (el orden relativo de los artículos y las personas será el mismo, sin importar qué artículos se usen para comparar personas, y sin importar qué personas se usen para comparar artículos). Además, el examen del funcionamiento diferencial de los elementos proporcionará evidencia de si las medidas son invariantes (esencialmente, si representan el mismo constructo) en los grupos designados para los que se ha confirmado el ajuste .

En el modelo Rasch, la estadística relevante para cualquier persona es simplemente la puntuación total entre los elementos donde las puntuaciones son enteros sucesivos asignados a categorías sucesivas, que es la misma estadística que se usa tradicionalmente. Algunos artículos pueden ser dicotómicos y otros pueden tener más de dos categorías ordenadas. Sin embargo, estas puntuaciones no son lineales en sí mismas y generalmente no deben tratarse como mediciones. En particular, se ven afectados por los efectos de piso y techo, de modo que una diferencia de una puntuación bruta de 2, por ejemplo, en una parte del continuo del constructo no representa la misma diferencia que una puntuación de 2 en otra parte del continuo. La transformación de las puntuaciones brutas utilizando el modelo Rasch produce puntuaciones linealizadas para cada persona que pueden tratarse como mediciones y utilizarse en análisis estadísticos estándar. Estas puntuaciones linealizadas se conocen como localizaciones. Más formalmente, el modelo Rasch proporciona mediciones que son compatibles con la medición conjunta fundamental o aditiva estudiada en psicología matemática .

El modelo de Rasch es un modelo probabilístico que proporciona un modelo apropiado para los datos típicos de las ciencias sociales. Para los artículos politómicos, la ecuación toma la forma:

Pr X ni, = x ; β n, δ i k = exp x β n – ∑ k = 0 x δ ik / γ ni
(1)

donde (i) X ni, es la variable aleatoria de la respuesta de la persona n al elemento i y donde el valor de esta variable es un entero 0, 1, 2, 3, …, m, β n es la ubicación de la persona en la variable, (δ ik ), k = 1, 2, 3, …, m i es un vector de umbrales del elemento i en el que la probabilidad de una respuesta en categorías adyacentes es idéntica, y γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik es la suma de los numeradores y asegura que la Ec. (1) suma a 1 y es una declaración de probabilidad .

El software RUMM2030 proporciona una amplia gama de instalaciones para evaluar la calidad de los artículos en una báscula. Las instalaciones incluyen varias pruebas estadísticas diferentes (chi cuadrado y pruebas residuales de registro de ajuste) y pruebas gráficas de ajuste (Curvas Características de Categoría y Elemento) entre los datos y el modelo, y un índice de confiabilidad, conocido como Índice de Separación de Personas (PSI). El programa también proporciona información sobre el objetivo de personas y elementos (si la propagación de ubicaciones de elementos y personas es similar), y sobre las dependencias de elementos y la posibilidad de subescalas significativas a través de correlaciones de elementos residuales, análisis de componentes principales residuales y análisis de subescalas. En combinación, esta información se utiliza para determinar la calidad de una escala e identificar anomalías en los datos, lo que puede conducir a una comprensión más profunda de la construcción o propiedad que se está midiendo.

Como se mencionó en la introducción, el análisis de los datos tuvo tres objetivos principales, el primero de los cuales fue establecer la consistencia interna y la confiabilidad de cada escala. En otras palabras, ¿los conjuntos de elementos representan cada uno una construcción única a este nivel de escala? Si lo hacen, entonces se justifica agregar puntuaciones para obtener una puntuación total en cada escala y luego usar esas puntuaciones totales (o sus equivalentes linealizados conocidos como ubicaciones) para otras pruebas estadísticas, como comparaciones de puntuaciones medias entre grupos o a lo largo del tiempo.

El segundo objetivo fue determinar si los ítems de cada escala tienen las mismas propiedades psicométricas en diferentes grupos de participantes: esto se denomina Funcionamiento Diferencial de Ítems (DIF) y determina si los ítems tienen propiedades psicométricas similares en diferentes grupos de participantes, es decir, si los ítems tienen propiedades invariantes en todos los grupos. Si los elementos muestran DIFERENCIAS entre grupos, no se deben usar para comparar el rendimiento de las personas, a menos que las personas pertenezcan al mismo grupo. En este estudio, los grupos de interés fueron el género, la edad, la experiencia en la profesión, la titulación de ingreso (título previo o no) y la ocasión de la administración.

El tercer objetivo fue proporcionar evidencia de la validez convergente de los PCC y CSCS mediante el examen de sus correlaciones estadísticas con las escalas GSE y PRCA-24 establecidas que evalúan algunos aspectos de la confianza.

Para abordar el primer objetivo, se examinaron varios aspectos de las escalas. El primer aspecto fue el funcionamiento de las categorías de respuesta. Se requiere que los umbrales de los artículos (los puntos de corte entre cada par de categorías sucesivas, como, Muy de acuerdo y de acuerdo) estén ordenados correctamente. El segundo aspecto fue el ajuste de cada conjunto de artículos al modelo Rasch. Si los elementos se ajustan al modelo, lo que es evidencia de consistencia interna, se pueden aceptar como medición de una sola variable en este nivel de escala. Se utilizaron dos pruebas de ajuste, una estadística (el chi cuadrado) y una gráfica (las Curvas Características del Elemento, ICCs), para juzgar esto. En el paradigma Rasch en general, ninguna prueba de ajuste es suficiente para tomar una decisión sobre el ajuste. Un tercer aspecto fue la orientación de los artículos y las personas entre sí: esto se establece examinando la distribución conjunta de la ubicación de los artículos y las personas en el mismo continuo. Un cuarto aspecto, las dependencias de los ítems, fue examinado mediante la inspección de las correlaciones residuales entre los ítems. Si los elementos muestran dependencia, entonces un elemento en cada par es redundante y retener ambos aumenta artificialmente la fiabilidad. Tales dependencias también pueden indicar la presencia de subescalas que pueden examinarse más a fondo mediante el análisis de componentes principales de los residuos. Por último, la fiabilidad se mide utilizando el Índice de Separación de Personas (PSI), que es el equivalente Rasch del alfa de Cronbach.

Para abordar el segundo objetivo-establecer si los ítems operan de manera relativamente consistente en diferentes grupos, se examinó el funcionamiento diferencial de los ítems entre los grupos por Sexo, Edad, Experiencia Previa, Calificación de Ingreso y Ocasión.

Por último, para abordar el tercer objetivo de proporcionar más evidencia de validez (esta vez, validez convergente), las puntuaciones de los estudiantes en las escalas se correlacionaron con las puntuaciones de los mismos estudiantes en dos escalas existentes que miden constructos relacionados con la confianza pero diferentes de la confianza y cuya validez se ha establecido en la literatura de investigación, a saber, la GSE y la PRCA-24 (comunicación interpersonal).

Los resultados de estos análisis proporcionan información sobre la validez y fiabilidad de las dos escalas. Si estos resultados son satisfactorios, las ubicaciones de las personas (las puntuaciones brutas linealizadas) se pueden utilizar para análisis adicionales, como, por ejemplo, la comparación de las puntuaciones medias (ubicaciones de las personas) para los diferentes grupos de interés, y la investigación de los cambios en las ubicaciones medias a lo largo del tiempo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.