Pruebas Adaptativas por computadora: Antecedentes, beneficios y estudio de caso de un programa nacional de pruebas a gran escala: Evaluación de Superar y potenciar

Las pruebas adaptativas por computadora (CAT) son un tema candente entre la comunidad de evaluaciones, sin embargo, a pesar de sus muchos beneficios, todavía no se utilizan muy ampliamente. En este artículo, vamos a darle una visión general de CAT, un resumen de algunos de los beneficios y, sin demasiada jerga, una visión general de la tecnología detrás de él. Para ayudar a contextualizarlo, vamos a hacer referencia a un estudio de caso reciente sobre cómo se ha utilizado la tecnología CAT en Surpass para ofrecer un innovador programa nacional de evaluación personalizada que está cambiando la forma de la educación nacional.

¿Qué es una Prueba Adaptativa por Computadora?
¿Cómo es una Prueba Adaptativa por Computadora para un candidato?
¿Cómo funciona una Prueba Adaptativa de Computadora en Surpass?
¿Cuáles son los beneficios de CAT sobre las pruebas en papel?
Información precisa para candidatos de todas las capacidades
Disminución de la carga de trabajo de los maestros
Potencial para bajo demanda
Retroalimentación más precisa que se puede accionar inmediatamente
Compromiso del alumno
Uso de CAT para un programa nacional de pruebas a gran escala en el Reino Unido: Un estudio de caso
¿Cómo ha sido recibida esta nueva forma de examen por los maestros?
¿Cómo han recibido los alumnos las evaluaciones personalizadas?
Conclusión

¿Qué es una Prueba Adaptativa por Computadora?

En pocas palabras, una Prueba Adaptativa por computadora (a veces denominada evaluación personalizada) es una prueba que se adapta a la capacidad del candidato en tiempo real seleccionando diferentes preguntas del banco para proporcionar una medida más precisa de su nivel de capacidad en una escala común.

¿Cómo es una Prueba Adaptativa por Computadora para un candidato?

Una evaluación personalizada extrae preguntas de un gran grupo de artículos que se han calibrado cuidadosamente para determinar su nivel de dificultad (más sobre esto en la siguiente sección).

Cuando un candidato comienza su prueba, primero se le presenta un elemento de dificultad media que se considera apropiado para su grupo de años. Si hacen bien esa pregunta, el siguiente elemento que ven será un poco más difícil, si lo hacen mal, verán un elemento un poco más fácil. El sistema calcula constantemente la capacidad estimada del candidato en función de lo que acierta o acierta, y le presenta un conjunto personalizado de elementos hasta que el nivel de confianza en la estimación de la capacidad supera un nivel predefinido (o se ha presentado el número máximo de preguntas) y finaliza la prueba. Como cada alumno toma un camino diferente a través de la prueba, con un conjunto diferente de preguntas, potencialmente pueden recibir pruebas de una longitud diferente.

A diferencia de una prueba lineal que, en algunos casos, solo da resultados útiles para los alumnos con una capacidad media, con una evaluación personalizada, todos los elementos presentados al candidato están diseñados para ser desafiantes; el número de elementos fáciles que se presentan a los candidatos con una capacidad alta se reduce, al igual que el número de preguntas difíciles para los candidatos con una capacidad baja, ya que ninguno de los dos proporciona una indicación clara de la capacidad de esos alumnos.

Como todo se califica en tiempo real, al final de la prueba, el candidato puede recibir comentarios inmediatos en forma de declaraciones de habilidades en lugar de una puntuación o calificación sin procesar, que proporciona información objetiva sobre sus fortalezas y debilidades en función de las preguntas que respondió.

¿Cómo funciona una Prueba Adaptativa de Computadora en Surpass?

Para que un GATO funcione, necesita datos confiables y un banco de artículos completo con una buena distribución de cobertura de contenido y nivel de dificultad. Esto significa que el banco de artículos debe calibrarse primero mediante pruebas previas. Esta es una de las barreras clave para CAT, ya que es un banco de artículos más grande y se requiere un trabajo extenso para obtener datos confiables antes de que se puedan entregar pruebas en vivo. La regla general es que un elemento debe exponerse un mínimo de 200 veces antes de que se puedan generar datos fiables. Utilizando estos datos de exposición, se utiliza la Teoría de Respuesta de elementos (IRT) para calcular los parámetros de IRT para cada uno de los elementos del banco. Estos parámetros IRT incluyen la dificultad del ítem, y la discriminación del ítem, i. e. el factor que determina cuánto tendrá un aumento en la capacidad de un candidato en la probabilidad de que obtenga ese elemento correcto. En Surpass, estos valores se adjuntan a los elementos como etiquetas.

Se genera un “plano” de prueba que determina factores como la cobertura del contenido de la prueba. También se pueden especificar muchos más parámetros, incluido el número mínimo y máximo de elementos a presentar y las condiciones de detención. Se crea un grupo de elementos que contiene todos los elementos que podrían aparecer en la prueba.

Mientras que con una prueba lineal, el sistema sabe qué elementos se entregarán antes de que comience la prueba, con una prueba adaptativa, un algoritmo selecciona el siguiente elemento en tiempo real, en el momento en que el candidato hace clic en el botón “siguiente” en el controlador de prueba. El algoritmo trabaja con el modelo para garantizar una buena cobertura de todas las áreas de contenido y controla la exposición de los artículos en todo el banco (de modo que algunos artículos no se presenten con más frecuencia que otros), lo que significa que todo el banco de artículos se usa de la manera más eficiente. El algoritmo es capaz de soportar hasta tres parámetros IRT: dificultad, discriminación y adivinación.

En Surpass, toda esta lógica inteligente ocurre en solo 300 milisegundos de que el alumno seleccione “Siguiente” para pasar a la siguiente pregunta, lo que significa que nunca hay un retraso para el candidato. El algoritmo continúa hasta que la capacidad del candidato se ha estimado con el nivel de precisión requerido.

El equipo de Surpass ha trabajado arduamente para garantizar que el sistema pueda manejar estos grandes volúmenes de datos sin afectar el rendimiento. Se han utilizado aplicaciones de Microsoft Azure que se escalan automáticamente en función de los volúmenes previstos, y el rendimiento (número de solicitudes por segundo) se ha probado en volúmenes mucho más altos que los que se están entregando actualmente.

Uno de los beneficios clave de la evaluación adaptativa entregada a través de Surpass es que no solo puede hacer uso de la funcionalidad de informes estándar, sino que también se pueden definir y generar informes personalizados a través de la API de Surpass, haciendo uso de todos los datos enriquecidos que se producen a partir de una prueba adaptativa. Los informes pueden mostrar los viajes individuales de los candidatos a lo largo de la prueba, así como informes en un grupo o clase o incluso a nivel nacional.

¿Cuáles son los beneficios de CAT sobre las pruebas en papel?

CAT ofrece numerosos beneficios en comparación con las pruebas en papel para la evaluación formativa (siempre que el banco de artículos se haya calibrado correctamente), que incluyen:

Información precisa para candidatos de todas las capacidades

Las pruebas lineales tradicionales, en las que todos los candidatos reciben el mismo conjunto de artículos, solo desafían realmente al tercio medio de los alumnos. Un GATO está diseñado para desafiar a los estudiantes de todos los niveles de habilidad, proporcionando una imagen precisa y útil de la habilidad más delgada para todos.

Disminución de la carga de trabajo de los maestros

Muchas pruebas de nivel escolar todavía se entregan en papel, lo que presenta una carga de trabajo significativa para los maestros con la calificación y la administración de los resultados. La puntuación inmediata y la retroalimentación precisa específica del alumno le dan a los maestros más tiempo para concentrarse en la enseñanza e implementar la retroalimentación para ayudar a sus estudiantes a progresar.

Potencial para bajo demanda

Con una evaluación personalizada en pantalla, no hay restricción para entregar dentro de la ventana de prueba en papel, lo que significa que se pueden entregar con fines de diagnóstico en cualquier momento del año cuando el profesor lo considere adecuado. Como cada alumno recibe una prueba personalizada, no es necesario que la cohorte se someta a la prueba al mismo tiempo.

Retroalimentación más precisa que se puede accionar inmediatamente

Se puede proporcionar retroalimentación más precisa inmediatamente después de la prueba en forma de declaraciones de habilidades basadas en competencias en lugar de una puntuación. Esto indica a los candidatos áreas en las que han tenido un buen desempeño y áreas en las que pueden necesitar mejorar. Este tipo de retroalimentación es más útil en la evaluación formativa, ya que demuestra a los alumnos que hay áreas en las que progresar u orientación constructiva sobre dónde mejorar. Los maestros también pueden ver el rendimiento de una clase en su conjunto, indicando las áreas en las que pueden necesitar enfocar su enseñanza.

Compromiso del alumno

Con preguntas que desafían a alumnos de todas las habilidades, se mantiene mejor el compromiso del alumno a lo largo de la prueba. Se alienta a los alumnos de bajo rendimiento y se desafía a los de alto rendimiento. Las evaluaciones adaptativas también pueden tardar menos tiempo en completarse que una prueba lineal tradicional, con una medición precisa de la capacidad alcanzada en un tiempo más corto.

Uso de CAT para un programa nacional de pruebas a gran escala en el Reino Unido: Un estudio de caso

En la Conferencia Surpass 2019, Gavin Busuttil-Reynaud de AlphaPlus actualizó a la Comunidad Surpass sobre el uso de pruebas adaptativas integradas en Surpass para un programa nacional de pruebas a gran escala para niños de escuelas primarias y secundarias en Gales. Algunos de los puntos clave se resumen aquí, o puede ponerse al día con la presentación completa viendo este video.

Después de introducir en papel las pruebas nacionales para escolares en Gales (Reino Unido) en 2013, se llevó a cabo un estudio de viabilidad desde el principio para determinar cómo se podría entregar en pantalla. En 2018, comenzó la transición gradual de estas pruebas a pruebas adaptativas por computadora, la primera de las cuales fue la aritmética procedimental, seguida de lectura y razonamiento numérico. Esto se considera revolucionario teniendo en cuenta que las pruebas en papel todavía dominan los programas de pruebas gubernamentales mundiales. En 2004, Ken Boston, entonces jefe de la Autoridad de Calificaciones y Planes de Estudios, declaró que “la evaluación en pantalla tocará en breve la vida de todos los alumnos del país”, y uno de sus objetivos para los próximos 5 años es que “todas las nuevas calificaciones incluyan una opción para la evaluación en pantalla”.”Como sabemos, 15 años después, este no es el caso, ya que muchas cualificaciones siguen entregándose únicamente en papel, lo que hace que los logros del proyecto en Gales sean aún más notables, en particular para la evaluación previa a los 16 años.

Solo en el primer año, 268.000 alumnos se sometieron a una evaluación personalizada en aritmética procedimental, lo que equivale al 96% de la cohorte de alumnos de los años 2 a 9 en Gales, igualando la tasa de finalización de las pruebas en papel.

La introducción de la evaluación en pantalla también redujo significativamente el número de documentos modificados necesarios. En 2018, se ordenaron más de 4000 papeles modificados para esta prueba, que se redujo a solo 357 evaluaciones de letra grande modificada y 12 de braille en 2019.

La evaluación puede programarse automáticamente, lo que da a los profesores la flexibilidad de utilizarla con fines de diagnóstico en cualquier momento del año. Sin embargo, en el primer año, muchas escuelas se adhirieron al período tradicional de pruebas de fin de curso, aunque es posible que esta práctica cambie en el futuro a medida que los maestros se familiaricen con estas pruebas.

¿Cómo ha sido recibida esta nueva forma de examen por los maestros?

Las evaluaciones personalizadas en este escenario ofrecen muchos beneficios, como se detalla en la sección anterior. AlphaPlus ha recibido comentarios positivos de los profesores para el piloto de evaluación de aritmética procesal, que ha sido el foco de este estudio de caso. Un cuestionario para maestros reveló que el 78% pensaba que los alumnos estaban comprometidos, el 83% pensaba que las evaluaciones eran de la longitud correcta y más del 60% consideró que los informes de los alumnos y los comentarios eran útiles.

Sin embargo, durante su presentación en la Conferencia Surpass de 2019, Gavin observó que todavía hay algunas barreras que superar a medida que la mentalidad cambia de las pruebas en papel. Con una evaluación personalizada, el algoritmo se detiene una vez que puede dar una estimación de habilidades con confianza, para que algunos estudiantes vean más preguntas que otros, lo que no ocurriría en una prueba en papel.

“Hay una parte de nuestra cultura del papel que está tan profundamente arraigada en que la justicia consiste en hacer exactamente lo mismo para todas las personas, incluso si es un ajuste terrible para algunas de esas personas the el mensaje de personalización aún no ha llegado a todos los maestros.”

Gavin Busuttil-Reynaud, AlphaPlus

Además, dado que un GATO está diseñado para desafiar a los estudiantes de alta capacidad, se pueden presentar a los candidatos preguntas de grupos de mayor edad que no se les ha enseñado formalmente. Si bien el objetivo de esto es mostrar a los estudiantes a qué pueden avanzar, o incluso demostrar capacidades más allá de su grupo de edad, Gavin continuó observando:

“Algunos maestros aceptan esto others otros piensan que es terrible que a un alumno se le haya preguntado algo que no se le enseñará hasta el próximo año y piensan que su enseñanza está siendo juzgada por algo que aún no se le ha enseñado.Todavía hay un viaje cultural masivo para todos porque estas pruebas son tan diferentes de la práctica actual, pero el propósito principal de todo esto es proporcionar información detallada.”

Gavin Busuttil-Reynaud, AlphaPlus

La prioridad de estas pruebas es informar la enseñanza y el aprendizaje con informes detallados basados en todos los datos disponibles diseñados para ayudar a los maestros a identificar áreas de mejora, y no se utilizan como una medida de responsabilidad escolar. No se da ninguna puntuación en el informe del alumno, solo declaraciones objetivas para resaltar las fortalezas y debilidades.

Se proporciona al profesor un perfil de habilidades para su clase, que le da una indicación de dónde enfocar su enseñanza, proporcionando datos confiables disponibles, así como gráficos de viaje del alumno, que muestran el camino que tomó a través de la prueba y pueden mostrar patrones de comportamiento del alumno.

Rob Nicholson, Director de la Escuela Comunitaria Borras Park, cuyos alumnos se han sentado a estas evaluaciones, comentó:

“Las evaluaciones personalizadas se pueden utilizar junto con otras formas de evaluación que las escuelas have…it se puede usar para solidificar puntajes y evaluaciones y el conocimiento del niño.”

Rob Nicholson, Director de la Escuela Comunitaria Borras Park

¿Cómo han recibido los alumnos las evaluaciones personalizadas?

Para este proyecto, el equipo tuvo en cuenta la corta edad de los alumnos, por lo que el conductor de prueba Surpass se personalizó para simplificar la interfaz y crear la mejor experiencia posible. Las pruebas se podían entregar en computadoras de escritorio, computadoras portátiles o tabletas, lo cual era importante debido a la inconsistencia del hardware disponible en las escuelas de todo el país.

Cada candidato es desafiado por las preguntas que se le presentan, para que pueda demostrar lo que sabe en lugar de lo que no sabe, con el algoritmo diseñado para que los estudiantes obtengan el 50% de los elementos correctos y el 50% incorrectos. Por primera vez, algunos alumnos de alto rendimiento encontraron preguntas con las que no estaban familiarizados, mientras que los alumnos de bajo rendimiento ganaron confianza al poder responder algunas de las preguntas.

“Para los estudiantes en el extremo inferior del espectro de habilidades, por lo general, cuando estaban haciendo la prueba de papel, se equivocaban entre el 90 y el 95% de los elementos. Qué experiencia increíblemente desalentadora. Pero salen de esta prueba adaptativa, ¡podría hacerlo!…Y el alto volantes que sería genio a través de un documento de prueba en diez minutos, de repente dicen ahora, “que fue una prueba difícil, tuve que pensar” …al menos es hacer ayudarles a darse cuenta de que hay algo más para avanzar.”

Gavin Busuttil-Reynaud, AlphaPlus

Los estudiantes generalmente no se inmutan ante el cambio a la pantalla, como observó Jenny Jones, Directora Adjunta de Borras Park Community School:

“Están acostumbrados a trabajar en línea, están acostumbrados a usar sus iPads o las computadoras para que se sientan seguros al usarlos. Es una actividad divertida.”

Jenny Jones, Directora Adjunta de Borras Park Community School

También ha habido beneficios para aquellos estudiantes con discapacidad visual o requisitos de accesibilidad que generalmente significarían que requieren una versión modificada de la prueba impresa. La única diferencia real es dónde se incluyen los diagramas, por lo que se incluye una versión simplificada o braille en un folleto en papel. Las herramientas de accesibilidad, como una lupa y un lector de pantalla, permiten que la prueba en pantalla sea accesible al mayor número de personas posible. AlphaPlus ha trabajado con estudiantes con discapacidad visual y ha llegado a la conclusión de que los estudiantes “prefieren de todo corazón las versiones en línea” y no se inmutan ante las herramientas de accesibilidad, ya que es su forma habitual de trabajar, y aceptan poder trabajar en una computadora como todos los demás.

Conclusión

El estudio de caso de una implementación nacional exitosa de CAT en el Reino Unido demuestra que este tipo de pruebas se puede introducir y puede tener beneficios significativos sobre las pruebas fijas, particularmente en un entorno formativo. Las pruebas más cortas y personalizadas con contenido apropiado para el alumno proporcionan una mayor participación del alumno y una mejor experiencia de aprendizaje. Los resultados se procesan más rápido, por lo que se pueden revisar con el alumno mientras su experiencia de evaluación todavía está fresca en su mente.

Los resultados psicométricamente válidos, junto con datos completos sobre cada candidato, proporcionan una mayor comprensión de lo que los alumnos son capaces de hacer y, utilizados junto con otros indicadores, pueden informar mejor la enseñanza y el aprendizaje y ofrecer las mejores oportunidades posibles para el progreso del alumno.

Al comentar sobre el trabajo con escolares en Gales, Roger Murphy, Profesor Emérito de Educación en la Universidad de Nottingham, declaró:

“Es una característica del sistema educativo en Gales que está siendo vigilada muy de cerca por muchos países de todo el mundo.”

Roger Murphy, Profesor Emérito de Educación en la Universidad de Nottingham

Sin embargo, debe tenerse en cuenta que el CAT no va a ser apropiado en todos los escenarios. El GATO se limita a los tipos de preguntas objetivas, restringiendo el tipo de habilidades que se pueden probar y la opinión generalmente aceptada es que producir un GATO es costoso. Tal vez, a medida que la tecnología de evaluación progrese aún más, la funcionalidad, como la generación automática de artículos, podría mitigar algunas de las implicaciones de costos en torno a la creación de bancos de artículos más grandes. En última instancia, el costo de producción debe sopesarse con los beneficios para determinar si CAT es el camino correcto para su programa de pruebas.

Si está interesado en obtener más información sobre las evaluaciones personalizadas en Surpass, hable con su Gerente de cuenta de Surpass.

Pruebas Adaptativas por computadora: Antecedentes, beneficios y estudio de caso de un programa nacional de pruebas a gran escala