Cómo el análisis de datos ayudó a descubrir a los “maestros tramposos” en las escuelas públicas de Chicago
Me gustaría compartir con ustedes una aplicación interesante de análisis de datos para descubrir las malas prácticas seguidas por algunos maestros en las Escuelas Públicas de Chicago para retratar sus estudiantes son más conocedores para mejorar su propia reputación como profesores.
Esta es una verdadera ocurrencia de finales de los años 90 y se discute elaboradamente en el famoso libro Freakonomics de Steven Levitt. Lo que me sorprende de este incidente no es solo la aplicación inmaculada del análisis de datos, sino también el meticuloso pensamiento sistemático que se puso en la solución del problema.
Las Escuelas Públicas de Chicago son un sistema enorme que educa a más de 400,000 estudiantes al año. Durante la década de 1990, un nuevo concepto de pruebas de “alto riesgo” se estaba debatiendo en el sistema educativo de los Estados Unidos. La prueba se llamó de alto riesgo porque en lugar de solo evaluar a los estudiantes sobre su progreso, las escuelas son responsables de los resultados. El sistema de Escuelas Públicas de Chicago adoptó las pruebas de alto riesgo en 1996. Bajo la nueva política, una escuela con puntajes bajos de lectura sería puesta en libertad condicional y enfrentaría la amenaza de ser cerrada, y su personal sería despedido o reasignado. Los SPI también eliminaron lo que se conoce como promoción social. En el pasado, solo a un estudiante dramáticamente inepto o difícil se le retuvo un grado. Ahora, para ser ascendidos, cada estudiante de tercer, sexto y octavo grado tenía que obtener una puntuación mínima en el examen estandarizado de opción múltiple conocido como el Examen de Habilidades Básicas de Iowa.
Aunque sirvió para elevar los estándares de aprendizaje e incentivar a los estudiantes a estudiar más duro, también tentó a los estudiantes a engañar más, ya que ahora estaba en juego su ascenso al siguiente grado. Los niños, por supuesto, han tenido el incentivo de hacer trampa durante todo el tiempo que han habido pruebas. Pero las pruebas de “alto riesgo” provocaron un cambio radical: proporcionaron un gran incentivo para que los maestros hicieran trampas, ya que ahora su evaluación personal y su crecimiento estaban directamente vinculados a ello. Si su estudiante tiene un rendimiento deficiente en el examen, es posible que un maestro no sea considerado para un aumento o ascenso. Si la escuela entera no da buenos resultados, su financiamiento federal puede ser retenido y el personal despedido. El estado de California en un momento introdujo bonos de 2 25,000 para los maestros que produjeron grandes ganancias en los exámenes.
A medida que surgieron sospechas de que los maestros engañaban, fue necesario idear un medio para descubrir las actividades que se realizaban en las escuelas.
Las Escuelas Públicas de Chicago pusieron a disposición una base de datos de las respuestas de los exámenes para cada estudiante de CPS de tercer grado a séptimo grado de 1993 a 2000. Esto equivale a aproximadamente 30,000 estudiantes por grado por año, más de 700,000 conjuntos de respuestas de prueba y casi 100 millones de respuestas individuales. Los datos, organizados por aula, incluyeron las cadenas de respuestas de cada estudiante, pregunta por pregunta, para las pruebas de lectura y matemáticas.
Permítanme guiarlos a través del proceso de análisis de datos que se siguió, utilizando algunos extractos de estos datos.
Considere ahora las cadenas de respuestas de los estudiantes en dos aulas de sexto grado de Chicago que tomaron el examen de matemáticas idéntico. Cada fila horizontal representa las respuestas de un estudiante.
La letra a, b, c o d indica una respuesta correcta
Un número indica una respuesta incorrecta, con 1 correspondiente a a, 2 correspondiente a b, y así sucesivamente.
Un cero representa una respuesta que se dejó en blanco.
Es casi seguro que una de estas aulas tenía a y la otra no. Trata de notar la diferencia, aunque ten en cuenta que no es fácil a simple vista.
Aula B
Si pensaste en el salón de clases en Una era la de hacer trampa en el aula, felicitaciones!! Aquí de nuevo están las cadenas de respuestas del aula A, ahora reordenadas por una computadora a la que se le ha pedido que aplique el algoritmo de trampa y busque patrones sospechosos.
Aula A (con algoritmo de engaño aplicado)
Como se puede ver en las respuestas marcadas en rojo, el algoritmo de análisis de datos logró llegar a un patrón obvio muy limpio: 15 de los 22 estudiantes han dado exactamente las mismas 6 respuestas consecutivas correctas, lo que parece más que una coincidencia cuando se les golpea con la siguiente información que tenían:
- Estas preguntas, que se acercaban al final de la prueba, eran más difíciles que las preguntas anteriores.
- Este fue un grupo de estudiantes promedio y muy pocos de ellos obtuvieron 6 respuestas correctas consecutivas en cualquier otro lugar de la prueba, por lo que es aún más improbable que obtengan 6 respuestas continuas justo en la parte más difícil de la prueba.
- Hasta este punto de la prueba, las respuestas de los quince estudiantes eran prácticamente no correlacionadas.
- Tres de los estudiantes (números de fila 1, 9 y 12) dejaron más de una respuesta en blanco antes de la cadena sospechosa y luego terminaron la prueba con otra cadena de espacios en blanco. Esto sugiere que una larga e ininterrumpida cadena de respuestas en blanco no fue rota por el estudiante, sino por el maestro.
El algoritmo también descubrió otro patrón importante: seis respuestas correctas están precedidas por otra cadena idéntica, 3-a-1–2, que incluye tres de cuatro respuestas incorrectas. Y en las quince pruebas, las seis respuestas correctas van seguidas de la misma respuesta incorrecta, un 4. ¿Por qué demonios un maestro infiel se tomaría la molestia de borrar la hoja de examen de un estudiante y luego llenar la respuesta incorrecta? Tal vez solo esté siendo estratégica, dejando un rastro de respuestas equivocadas para evitar sospechas de falsificación.
Otra indicación de trampas para maestros en el aula A es el rendimiento general de la clase. Como estudiantes de sexto grado que estaban tomando el examen en el octavo mes del año académico, estos estudiantes necesitaban lograr una puntuación promedio de 6.8 para ser considerados hasta los estándares nacionales. (Los estudiantes de quinto grado que tomaban el examen en el octavo mes del año necesitaban obtener una puntuación de 5.8, los de séptimo grado de 7.8, y así sucesivamente.) Los estudiantes en el aula A promediaron 5.8 en sus exámenes de sexto grado, que es un nivel de grado completo por debajo de donde deberían estar. Son estudiantes pobres. Un año antes, sin embargo, estos estudiantes lo hicieron aún peor, con un promedio de solo 4.1 en sus exámenes de quinto grado. En lugar de mejorar en un punto completo entre quinto y sexto grado, como era de esperar, mejoraron en 1.7 puntos, lo que equivale a casi dos grados.
Es fascinante cómo una aplicación lógica y meticulosa del análisis de datos puede sacar hechos y tendencias de enormes conjuntos de datos de una manera que nunca sería posible a simple vista.
Además de detectar tramposos, el algoritmo también podría identificar a los mejores maestros del sistema escolar. El impacto de un buen maestro era casi tan distintivo como el de un tramposo. En lugar de obtener respuestas aleatorias correctas, sus estudiantes mostrarían una mejora real en los tipos más fáciles de preguntas que habían omitido anteriormente, una indicación de aprendizaje real. Y los estudiantes de un buen maestro llevaron todas sus ganancias al siguiente grado.
A principios de 2002, el nuevo director general de las Escuelas Públicas de Chicago,Arne Duncan, quería pasar por este análisis y tomar algunas medidas contra los maestros tramposos. Duncan había decidido que la mejor manera de deshacerse de los maestros tramposos era readministrar el examen estandarizado. Sin embargo, solo tenía los recursos para volver a probar 120 aulas, por lo que pidió a los creadores del algoritmo de trampas que le ayudaran a elegir qué aulas probar.
Para que los resultados de la repetición de pruebas fueran convincentes, se eligieron 120 aulas para la repetición de pruebas, de modo que más de la mitad de ellas eran las sospechosas, por el algoritmo, de tener maestros engañadores. Los restantes fueron aquellos que se predijo que tendrían maestros excelentes a mediocres que no engañaran.
Cuando se realizó la nueva prueba, los resultados fueron tan convincentes como el algoritmo de engaño había predicho. En las aulas donde no se sospechaba que se hiciera trampa, las puntuaciones se mantuvieron casi iguales o incluso aumentaron. En contraste, los estudiantes de las aulas sospechosos de tener maestros tramposos obtuvieron puntuaciones mucho peores que las puntuaciones “ajustadas” iniciales.
Así es como el análisis de datos, complementado con un enfoque de pensamiento lógico, ayudó al sistema de Escuelas Públicas de Chicago a reunir pruebas suficientes contra los maestros docentes y despedirlos, proporcionando así el beneficio de improvisar el sistema educativo.