Testes Adaptativos a computadores: antecedentes, benefícios e estudo de caso de um Programa Nacional de testes de grande escala-Surpass, Powering Assessment

Computer Adaptive Testing (CAT) é um tema quente entre a comunidade de avaliação, No entanto, apesar dos seus muitos benefícios, ainda não é muito amplamente utilizado. Neste artigo, vamos dar-lhe uma visão geral da CAT, um resumo de alguns dos benefícios, e sem muito jargão, uma visão geral da tecnologia por trás dela. Para ajudar a contextualizá-lo, vamos fazer referência a um estudo de caso recente de como a tecnologia de gatos em Surpass tem sido usada para fornecer um inovador programa de avaliação personalizada nacional que está mudando a forma da Educação Nacional.

o que é um teste adaptativo ao computador?
What is a Computer Adaptive Test like for a candidate?
como funciona um teste adaptativo ao computador no Surpass?
quais são os benefícios do CAT sobre testes baseados em papel?
informações Precisas para os candidatos de todas as capacidade
diminuição da carga de trabalho dos professores
potencial para on-demand
feedback mais preciso que pode ser feito imediatamente
utilizar CAT para um Programa Nacional de testes de grande escala no Reino Unido: Um estudo de caso
como é que esta nova forma de teste foi recebida pelos professores?
como é que as avaliações personalizadas foram recebidas pelos alunos?
conclusão

o que é um teste adaptativo ao computador?

simplificando, um Teste Adaptável do Computador (por vezes referido como diagnóstico personalizado) é um teste que se adapta à capacidade do candidato em tempo real, selecionando diferentes questões do banco, a fim de fornecer uma medida mais precisa de seu nível de habilidade em uma escala comum.

What is a Computer Adaptive Test like for a candidate?

uma avaliação personalizada retira perguntas de um grande conjunto de itens que foram cuidadosamente calibrados a fim de determinar o seu nível de dificuldade (mais sobre isso na próxima seção).

quando um candidato começa o seu teste, eles são apresentados pela primeira vez com um item de dificuldade média considerado apropriado para o seu grupo de ano. Se eles fizerem a pergunta certa, o próximo item que virem será um pouco mais difícil, se eles fizerem mal, eles verão um item um pouco mais fácil. O sistema é constantemente calcular o candidato estimativa de capacidade, dependendo do que eles recebem o certo e o errado, e apresentando-lhes um tratamento personalizado conjunto de itens até que o nível de confiança na capacidade de estimar excedeu um nível pré-definido (ou o número máximo de perguntas que foram apresentadas) e o teste termina. À medida que cada aluno toma um caminho diferente através do teste, com um conjunto diferente de perguntas, eles podem potencialmente receber testes de um comprimento diferente.

ao contrário de um linear de teste que, em alguns cenários de apenas fornecer resultados úteis para os alunos de média capacidade, com um diagnóstico personalizado, todos os itens apresentados para o candidato são projetados para ser um desafio; o número de fácil itens que são apresentados à alta capacidade de candidatos é reduzido, assim como o número de questões difíceis para baixa capacidade candidatos, nem como dar uma indicação clara da capacidade desses alunos.

como tudo é marcado em tempo real, no final do teste o candidato pode receber feedback imediato na forma de declarações de capacidade em oposição a uma pontuação ou grau bruto, que fornece informações factuais sobre os seus pontos fortes e fracos com base nas perguntas que responderam.

como funciona um teste adaptativo ao computador no Surpass?

para que um gato funcione, necessita de dados fiáveis e de um banco de itens abrangente, com uma boa distribuição da cobertura de Conteúdo e nível de dificuldade. Isto significa que o banco de itens deve ser calibrado primeiro através de pré-testes. Esta é uma das principais barreiras para CAT como um banco de itens maior e extenso trabalho é necessário para obter dados confiáveis antes de quaisquer testes ao vivo pode ser entregue. A regra geral é que um item deve ser exposto um mínimo de 200 vezes antes que dados confiáveis possam ser gerados. Usando estes dados de exposição, a teoria de Resposta de Item (IRT) é então usada para calcular OS parâmetros IRT para cada um dos itens no banco. Estes parâmetros IRT incluem a dificuldade do item, e a discriminação do item, i.e. o fator que determina o quanto um aumento na capacidade de um candidato terá na probabilidade de que eles obtenham esse item correto. In Surpass, these values are attached to the items as tags.

é gerado um “modelo” de ensaio que determina factores como a cobertura do conteúdo do ensaio. Muitos outros parâmetros também podem ser especificados, incluindo, o número mínimo e máximo de itens para apresentar e parar condições. Um pool de itens é criado que contém todos os itens que podem aparecer no teste.

enquanto que com um teste linear, o sistema sabe quais itens serão entregues antes do início do teste, com um teste adaptativo, um algoritmo seleciona o próximo item em tempo real, no ponto em que o candidato clica o botão ‘Seguinte’ no driver do teste. O algoritmo trabalha para o projeto para garantir uma boa cobertura de todas as áreas de Conteúdo e controla a exposição de itens em todo o banco como um todo (de modo que alguns itens não são apresentados mais frequentemente do que outros), o que significa que todo o banco de itens é mais eficientemente usado. O algoritmo é capaz de suportar até três parâmetros IRT – dificuldade, discriminação e adivinhação.

in Surpass, all of this clever logic happens in just 300 milliseconds of the learner selecting ‘Next’ to move to the next question, meaning there’s never a delay to the candidate. O algoritmo continua até que a capacidade do candidato tenha sido estimada para o nível necessário de precisão.

a equipa Surpass trabalhou arduamente para garantir que o sistema possa lidar com estes grandes volumes de dados sem afectar o desempenho. Os aplicativos Azure da Microsoft foram utilizados que são automaticamente escaláveis, dependendo dos volumes esperados, e o rendimento (número de pedidos por segundo) foi testado em volumes muito mais elevados do que os que estão sendo entregues atualmente.

um dos principais benefícios da avaliação adaptativa entregue através do Surpass é que não só você pode fazer uso da funcionalidade de relatórios padrão, mas relatórios sob medida podem ser definidos e gerados através da API Surpass, fazendo uso de todos os dados ricos que são produzidos a partir de um teste adaptativo. Os relatórios podem mostrar viagens individuais de candidatos ao longo do teste, bem como relatórios sobre um grupo ou classe ou mesmo a nível nacional.

quais são os benefícios do CAT sobre testes baseados em papel?

Existem inúmeros benefícios para GATO sobre o papel baseado em testes de avaliação formativa (desde que o banco de itens foi devidamente calibrada), incluindo:

informações Precisas para os candidatos de todas as capacidade

lineares Tradicionais testes, onde todos os candidatos recebem o mesmo conjunto de itens, só que nunca realmente desafio o terço médio dos alunos. Um gato é projetado para desafiar os alunos de todos os níveis de capacidade, proporcionando e imagem precisa e útil da capacidade mais magra para todos.

diminuição da carga de trabalho dos professores

muitos testes de nível escolar ainda são entregues no papel, o que representa uma carga de trabalho significativa para os professores com a marcação e administração dos resultados. Pontuação imediata e feedback preciso do aluno específico dá aos professores mais tempo para se concentrar no ensino, e implementar feedback para ajudar seus alunos a progredir.

potencial para on-demand

com uma avaliação personalizada no ecrã, não há restrição para entregar dentro da janela de teste de papel, o que significa que eles podem ser entregues para fins de diagnóstico em qualquer ponto ao longo do ano, quando o professor acha que é adequado. Como todos os alunos recebem um teste personalizado, não há necessidade de que a coorte todos façam o teste exatamente ao mesmo tempo.

feedback mais preciso que pode ser feito imediatamente

feedback mais preciso pode ser fornecido imediatamente após o teste na forma de declarações de capacidade baseadas na competência, em vez de uma pontuação. Isto indica às áreas candidatas que fizeram bem, e áreas que podem precisar de melhorar. Este tipo de feedback é mais útil na avaliação formativa, demonstrando aos aprendentes que existem áreas para progredir ou orientação construtiva sobre onde melhorar. Os professores também podem ver o desempenho de uma classe como um todo, indicando áreas em que eles podem precisar de focar o seu ensino.O envolvimento dos alunos com questões que desafiam os alunos de todas as capacidades é melhor mantido ao longo do teste. Os de baixo desempenho são encorajados, e os de alto desempenho são desafiados. Avaliações adaptativas também podem levar menos tempo para completar do que um teste linear tradicional, com uma medição de capacidade precisa alcançada em um tempo mais curto.

utilizar CAT para um Programa Nacional de testes de grande escala no Reino Unido: Um estudo de caso

na Conferência Surpass de 2019, Gavin Busuttil-Reynaud da AlphaPlus atualizou a comunidade Surpass sobre o uso de Testes Adaptativos construídos em Surpass para um programa de testes nacionais em larga escala de crianças do ensino primário e secundário no País De Gales. Alguns dos pontos-chave estão resumidos aqui, ou você pode alcançar a apresentação na íntegra, assistindo este vídeo.

depois de introduzir testes nacionais para crianças em idade escolar no País de Gales (Reino Unido) no papel, em 2013, foi realizado um estudo de viabilidade para determinar como poderia ser entregue na tela. Em 2018, a transição faseada destes testes para Testes Adaptativos a computadores começou, sendo o primeiro a numeracia processual, e a ser seguido por leitura e raciocínio numérico. Isto é considerado revolucionário, considerando que testes baseados em papel ainda domina os programas de testes do governo global. Em 2004, Ken Boston, então chefe da Autoridade de qualificações e currículos, afirmou que “a avaliação em ecrã tocará em breve a vida de todos os alunos do país”, sendo um dos seus objectivos para os próximos 5 anos que ” todas as novas qualificações incluiriam uma opção para a avaliação em ecrã.”Como sabemos, passados 15 anos, tal não é o caso, com muitas qualificações ainda entregues apenas no papel, o que torna os resultados do projecto no País de Gales ainda mais notáveis, especialmente para a avaliação pré-16. Apenas no primeiro ano, 268 000 alunos fizeram uma avaliação personalizada da numeracia processual, que corresponde a 96% da coorte de estudantes nos anos 2-9 no País De Gales, correspondendo à taxa de conclusão dos testes em papel.

a introdução da avaliação no ecrã também viu uma redução significativa no número de documentos modificados necessários. Em 2018, mais de 4000 artigos modificados foram encomendados para este teste, que foi reduzido para apenas 357 letras grandes modificadas e 12 avaliações em braille em 2019.

a avaliação pode ser auto-programada, dando aos professores a flexibilidade de a utilizar para fins de diagnóstico em qualquer ponto do ano. No entanto, no primeiro ano, muitas escolas mantiveram o tradicional período de teste final do termo, embora seja possível que esta prática venha a mudar no futuro, à medida que os professores se familiarizarem mais com estes testes.

como é que esta nova forma de teste foi recebida pelos professores?

neste cenário, as avaliações personalizadas apresentam muitos benefícios, tal como descrito na secção anterior. AlphaPlus recebeu feedback positivo dos professores para o piloto de avaliação da numeracia processual, que tem sido o foco deste estudo de caso. Um questionário para professores revelou que 78% pensavam que os alunos estavam envolvidos, 83% pensavam que as avaliações eram a duração certa, e mais de 60% consideraram os relatórios do aluno e do feedback úteis.

no entanto, durante sua apresentação da Conferência de 2019, Gavin observou que ainda existem algumas barreiras a serem superadas à medida que a mentalidade muda de testes baseados em papel. Com uma avaliação personalizada, o algoritmo pára uma vez que ele pode dar confiantemente uma estimativa de capacidade, para que alguns alunos vêem mais perguntas do que outros, o que não aconteceria em um teste de papel.

“há uma parte da nossa cultura de papel que está tão profundamente enraizada que a justiça é fazer exatamente o mesmo para todas as pessoas, mesmo que seja um ajuste terrível para algumas dessas pessoas…a mensagem de personalização ainda não chegou a todos os professores.”

Gavin Busuttil-Reynaud, AlphaPlus

adicionalmente, uma vez que um gato é projetado para desafiar os alunos de alta capacidade, os candidatos podem ser apresentados com perguntas de grupos mais velhos que eles não foram formalmente ensinados. Enquanto o objetivo disso é mostrar aos alunos o que eles podem seguir em frente, ou mesmo demonstrar capacidades além de sua faixa etária, Gavin passou a observar:

“Alguns professores adotam esta… outros acham que é terrível que um aluno lhe perguntou algo que eles não serão ensinou até o ano que vem e acho que o seu ensino está sendo julgado em algo que ainda não foi ensinada ainda… ainda Há uma enorme jornada cultural para todo mundo ir, porque esses testes são tão diferentes da prática atual, mas o principal objetivo de tudo isso é para fornecer algum feedback detalhado.”

Gavin Busuttil-Reynaud, AlphaPlus

a prioridade destes testes é informar o ensino e a aprendizagem com relatórios detalhados baseados em todos os dados disponíveis concebidos para ajudar os professores a identificar áreas para melhoria, e eles não são utilizados como uma medida de responsabilidade escolar. Não é dada qualquer pontuação no relatório do aluno, apenas declarações factuais para realçar pontos fortes e pontos fracos.

o professor dispõe de um perfil de competências para a sua classe, dando-lhe uma indicação de onde concentrar o seu ensino, fornecendo dados fiáveis, bem como mapas de viagem dos alunos, que mostram o caminho que percorreram através do teste e podem mostrar padrões de comportamento dos alunos.Rob Nicholson, Director da Escola Comunitária de Borras Park, cujos alunos participaram nestas avaliações, comentou::

“as avaliações personalizadas podem ser utilizadas juntamente com outras formas de avaliação que as escolas have…it pode ser usado apenas para solidificar pontuações e avaliações e conhecimento da criança.”

Rob Nicholson, Director da Escola Comunitária de Borras Park

como é que as avaliações personalizadas foram recebidas pelos alunos?

para este projecto, a equipa estava atenta à idade jovem dos alunos, pelo que o piloto de testes superado foi personalizado para simplificar a interface e criar a melhor experiência possível. Os testes poderiam ser entregues em computadores de mesa, laptops, ou dispositivos tablet, o que era importante devido à inconsistência de hardware disponível em escolas em todo o país.

Cada candidato é desafiado pelas perguntas que lhes são apresentados, para que eles possam demonstrar o que sabem e não o que eles não sabem, com o algoritmo projetado para que os alunos obter 50% dos itens à direita, e 50% de errado. Pela primeira vez, alguns empreendedores encontraram questões que não estavam familiarizados, enquanto os mais fracos ganhavam confiança ao serem capazes de responder algumas das perguntas.

“para os alunos na extremidade inferior do espectro de habilidade, normalmente, quando eles estavam fazendo o teste de papel, eles iriam chegar em algum lugar entre 90-95% dos itens errados. Que experiência incrivelmente desanimadora. Mas eles saem deste teste adaptativo indo, eu poderia fazê-lo!…E os high flyers que passavam por um teste de papel em dez minutos, de repente, dizem: “foi um teste difícil, tive de pensar” …pelo menos, está a fazê-los perceber que há outra coisa para seguir em frente.”

Gavin Busuttil-Reynaud, AlphaPlus

Alunos são geralmente impressionam por um movimento na tela, como Jenny Jones, Vice-Director de Borras, Parque de Escola de Comunidade, observadas:

“Eles são usados para o trabalho on-line, eles estão acostumados a usar seus iPads ou os computadores para que eles se sintam confiantes de usá-los. É uma actividade divertida.”

Jenny Jones, Vice-Director de Borras, Parque de Escola de Comunidade

Há também benefícios para os alunos com deficiência visual ou requisitos de acessibilidade de que normalmente significa que eles requerem uma versão modificada do teste de papel. A única diferença real é onde os diagramas são incluídos de modo que uma versão simplificada ou em braille é incluída em um livreto de papel. Ferramentas de acessibilidade como uma lupa e um leitor de tela significam que o teste na tela é acessível a tantas pessoas quanto possível. A AlphaPlus trabalhou com alunos com deficiência visual e concluiu que os alunos “preferem de todo o coração as versões online” e são desafiados por ferramentas de acessibilidade como é a sua maneira habitual de trabalhar, e bem-vindos sendo capazes de trabalhar em um computador como todos os outros.

conclusão

o estudo de caso de uma implementação nacional de CAT bem sucedida no Reino Unido demonstra que este tipo de testes pode ser introduzido, e pode ter benefícios significativos sobre testes fixos, particularmente num contexto formativo. Testes mais curtos e personalizados com conteúdos adequados ao aluno proporcionam um maior envolvimento do aluno e uma melhor experiência do aluno. Os resultados são processados mais rapidamente, para que possam ser revistos com o aluno enquanto a sua experiência de avaliação Ainda está fresca na sua mente.Os resultados Psicometricamente válidos, juntamente com dados ricos sobre cada candidato, dão uma maior compreensão do que os alunos são capazes e, utilizados em conjunto com outros indicadores, podem informar melhor o ensino e a aprendizagem e dar as melhores oportunidades possíveis para a progressão do aluno.

Comentando sobre o trabalho com crianças em idade escolar no país de Gales, Roger Murphy, Emérito Professor de Educação na Universidade de Nottingham, afirmou:

“É uma característica do sistema de ensino no país de Gales, que está sendo vigiado de perto por muitos países em todo o mundo.”

Roger Murphy, Professor Emérito de Educação na Universidade de Nottingham

no entanto, deve-se notar que CAT não vai ser apropriado em todos os cenários. O CAT limita-se a tipos de perguntas objectivas, restringindo o tipo de competências que podem ser testadas e a opinião geralmente aceite é que a produção de um gato é dispendiosa. Talvez, à medida que a tecnologia de avaliação avança ainda mais, funcionalidade como a geração automática de itens poderia mitigar algumas das implicações de custo em torno da criação de maiores bancos de itens. Em última análise, o custo de produção deve ser ponderado contra os benefícios para determinar se CAT é o caminho certo para ir para o seu programa de testes.

se estiver interessado em aprender mais sobre avaliações personalizadas em Surpass, por favor fale com o seu gestor de conta superado.

Computer Adaptive Testing: Background, benefits and case study of a large – scale national testing programme