Tests adaptatifs par ordinateur: Contexte, avantages et étude de cas d'un programme de tests national à grande échelle - Surpass, Évaluation sous tension

Les tests adaptatifs par ordinateur (TAO) sont un sujet brûlant parmi la communauté de l’évaluation, cependant, malgré ses nombreux avantages, ils ne sont toujours pas très largement utilisés. Dans cet article, nous allons vous donner un aperçu de CAT, un aperçu de certains des avantages, et sans trop de jargon, un aperçu de la technologie qui le sous-tend. Pour aider à la contextualiser, nous allons faire référence à une étude de cas récente sur la façon dont la technologie CAT de Surpass a été utilisée pour fournir un programme national d’évaluation personnalisée innovant qui change la forme de l’éducation nationale.

Qu’est-ce qu’un Test adaptatif informatique?
À quoi ressemble un test adaptatif informatique pour un candidat?
Comment fonctionne un test adaptatif informatique dans Surpass?
Quels sont les avantages du CAT par rapport aux tests sur papier?
Des informations précises pour les candidats de toutes capacités
Diminution de la charge de travail des enseignants
Potentiel à la demande
Rétroaction plus précise qui peut être actionnée immédiatement
Engagement des apprenants
Utilisation de la CAT pour un programme national de tests à grande échelle au Royaume-Uni: Une étude de cas
Comment cette nouvelle façon de tester a-t-elle été reçue par les enseignants ?
Comment les évaluations personnalisées ont-elles été reçues par les apprenants?
Conclusion

Qu’est-ce qu’un Test adaptatif informatique?

En termes simples, un Test Adaptatif informatique (parfois appelé évaluation personnalisée) est un test qui s’adapte aux capacités du candidat en temps réel en sélectionnant différentes questions de la banque afin de fournir une mesure plus précise de son niveau de capacité sur une échelle commune.

À quoi ressemble un test adaptatif informatique pour un candidat?

Une évaluation personnalisée tire les questions d’un grand nombre d’éléments soigneusement calibrés afin de déterminer leur niveau de difficulté (plus d’informations à ce sujet dans la section suivante).

Lorsqu’un candidat commence son test, on lui présente d’abord un élément de difficulté moyenne jugé approprié pour son groupe de l’année. S’ils obtiennent cette question correctement, l’élément suivant qu’ils verront sera légèrement plus difficile, s’ils se trompent, ils verront un élément légèrement plus facile. Le système calcule constamment la capacité estimée du candidat en fonction de ce qu’il a bien et mal, et lui présente un ensemble d’éléments personnalisés jusqu’à ce que le niveau de confiance dans l’estimation de la capacité ait dépassé un niveau prédéfini (ou le nombre maximum de questions a été présenté) et que le test se termine. Comme chaque apprenant suit un chemin différent à travers le test, avec un ensemble de questions différent, il peut potentiellement recevoir des tests d’une durée différente.

Contrairement à un test linéaire qui, dans certains scénarios, ne donne des résultats utiles que pour les apprenants de capacité moyenne, avec une évaluation personnalisée, tous les éléments présentés au candidat sont conçus pour être difficiles; le nombre d’éléments faciles présentés aux candidats à haute capacité est réduit, tout comme le nombre de questions difficiles aux candidats à faible capacité, car aucun ne donne une indication claire de la capacité de ces apprenants.

Comme tout est noté en temps réel, à la fin du test, le candidat peut recevoir une rétroaction immédiate sous la forme d’énoncés de capacité, par opposition à un score brut ou une note, qui fournit des informations factuelles sur ses forces et ses faiblesses en fonction des questions auxquelles il a répondu.

Comment fonctionne un test adaptatif informatique dans Surpass?

Pour qu’un CHAT fonctionne, il a besoin de données fiables et d’une banque d’articles complète avec une bonne couverture du contenu et un niveau de difficulté. Cela signifie que la banque d’articles doit d’abord être étalonnée par des tests préalables. C’est l’un des principaux obstacles au CAT en tant que banque d’articles plus importante et un travail important est nécessaire pour obtenir des données fiables avant que des tests en direct puissent être livrés. La règle générale est qu’un élément doit être exposé au moins 200 fois avant de pouvoir générer des données fiables. À l’aide de ces données d’exposition, la Théorie de la réponse à l’élément (IRT) est ensuite utilisée pour calculer les paramètres de l’IRT pour chacun des éléments de la banque. Ces paramètres IRT incluent la difficulté de l’article, et la discrimination de l’article, c’est-à-dire le facteur qui détermine combien une augmentation de la capacité d’un candidat aura sur la probabilité qu’il obtienne cet élément correct. Dans Surpass, ces valeurs sont attachées aux éléments sous forme de balises.

Un “plan” de test est généré qui détermine des facteurs tels que la couverture du contenu du test. De nombreux autres paramètres peuvent également être spécifiés, y compris le nombre minimum et maximum d’éléments à présenter et les conditions d’arrêt. Un pool d’éléments est créé qui contient tous les éléments pouvant apparaître dans le test.

Alors qu’avec un test linéaire, le système sait quels éléments seront livrés avant le début du test, avec un test adaptatif, un algorithme sélectionne l’élément suivant en temps réel, au moment où le candidat clique sur le bouton “suivant” dans le pilote de test. L’algorithme fonctionne selon le plan directeur pour assurer une bonne couverture de toutes les zones de contenu et contrôle l’exposition des articles dans l’ensemble de la banque (afin que certains articles ne soient pas présentés plus fréquemment que d’autres), ce qui signifie que l’ensemble de la banque d’articles est utilisé le plus efficacement possible. L’algorithme est capable de prendre en charge jusqu’à trois paramètres IRT – difficulté, discrimination et devinettes.

Dans Surpass, toute cette logique intelligente se produit en seulement 300 millisecondes lorsque l’apprenant sélectionne ‘Suivant’ pour passer à la question suivante, ce qui signifie qu’il n’y a jamais de retard pour le candidat. L’algorithme continue jusqu’à ce que la capacité du candidat ait été estimée au niveau de précision requis.

L’équipe Surpass a travaillé dur pour s’assurer que le système peut gérer ces gros volumes de données sans affecter les performances. Des applications Microsoft Azure ont été utilisées, qui sont automatiquement évolutives en fonction des volumes anticipés, et le débit (nombre de requêtes par seconde) a été testé à des volumes beaucoup plus élevés que ceux actuellement livrés.

L’un des principaux avantages de l’évaluation adaptative fournie par Surpass est que non seulement vous pouvez utiliser la fonctionnalité de reporting standard, mais que des rapports sur mesure peuvent être définis et générés via l’API Surpass, en utilisant toutes les données riches produites à partir d’un test adaptatif. Les rapports peuvent montrer les parcours individuels des candidats tout au long du test, ainsi que des rapports sur un groupe ou une classe ou même au niveau national.

Quels sont les avantages du CAT par rapport aux tests sur papier?

Il y a de nombreux avantages à CAT par rapport aux tests sur papier pour l’évaluation formative (à condition que la banque d’éléments ait été correctement calibrée), y compris:

Des informations précises pour les candidats de toutes capacités

Les tests linéaires traditionnels, où tous les candidats reçoivent le même ensemble d’éléments, ne remettent jamais vraiment en question le tiers moyen des apprenants. Un CHAT est conçu pour défier les apprenants de tous les niveaux de capacité, fournissant une image précise et utile de la capacité la plus maigre pour tout le monde.

Diminution de la charge de travail des enseignants

De nombreux tests de niveau scolaire sont encore livrés sur papier, ce qui représente une charge de travail importante pour les enseignants en ce qui concerne la notation et l’administration des résultats. La notation immédiate et la rétroaction précise spécifique à l’apprenant donnent aux enseignants plus de temps pour se concentrer sur l’enseignement et la mise en œuvre de la rétroaction pour aider leurs élèves à progresser.

Potentiel à la demande

Avec une évaluation personnalisée à l’écran, il n’y a aucune restriction à fournir dans la fenêtre du test papier, ce qui signifie qu’ils peuvent être livrés à des fins de diagnostic à tout moment de l’année lorsque l’enseignant le juge approprié. Comme chaque apprenant reçoit un test personnalisé, il n’est pas nécessaire que la cohorte passe tous le test exactement en même temps.

Rétroaction plus précise qui peut être actionnée immédiatement

Une rétroaction plus précise peut être fournie immédiatement après le test sous la forme d’énoncés de capacité basés sur les compétences plutôt que d’un score. Cela indique aux domaines candidats qu’ils ont bien réussi et aux domaines qu’ils pourraient devoir améliorer. Ce type de feedback est plus utile dans l’évaluation formative, démontrant aux apprenants qu’il y a des domaines dans lesquels progresser ou des conseils constructifs sur les points à améliorer. Les enseignants peuvent également voir la performance d’une classe dans son ensemble, en indiquant les domaines sur lesquels ils peuvent avoir besoin de concentrer leur enseignement.

Engagement des apprenants

Avec des questions qui interpellent les apprenants de toutes capacités, l’engagement des apprenants tout au long du test est mieux maintenu. Les personnes peu performantes sont encouragées et les personnes très performantes sont mises au défi. Les évaluations adaptatives peuvent également prendre moins de temps qu’un test linéaire traditionnel, avec une mesure de capacité précise atteinte en un temps plus court.

Utilisation de la CAT pour un programme national de tests à grande échelle au Royaume-Uni: Une étude de cas

Lors de la conférence Surpass 2019, Gavin Busuttil-Reynaud d’AlphaPlus a mis à jour la communauté Surpass sur l’utilisation de tests adaptatifs intégrés à Surpass pour un programme national de tests à grande échelle d’enfants du primaire et du secondaire au Pays de Galles. Certains des points clés sont résumés ici, ou vous pouvez suivre la présentation dans son intégralité en regardant cette vidéo.

Après avoir introduit des tests nationaux pour les écoliers du Pays de Galles (Royaume-Uni) sur papier en 2013, une étude de faisabilité a été menée très tôt pour déterminer comment elle pourrait être livrée à l’écran. En 2018, la transition progressive de ces tests vers des tests adaptatifs informatiques a commencé, le premier étant la numératie procédurale, puis la lecture et le raisonnement numérique. Ceci est considéré comme révolutionnaire étant donné que les tests sur papier dominent toujours les programmes de tests gouvernementaux mondiaux. En 2004, Ken Boston, alors responsable de l’Autorité des qualifications et des programmes d’études, a déclaré que “l’évaluation à l’écran touchera bientôt la vie de tous les apprenants du pays”, l’un de ses objectifs pour les 5 prochaines années étant que “toutes les nouvelles qualifications incluraient une option d’évaluation à l’écran.”Comme nous le savons, 15 ans plus tard, ce n’est pas le cas, de nombreuses qualifications étant encore délivrées uniquement sur papier, ce qui rend les réalisations du projet au Pays de Galles encore plus remarquables, en particulier pour l’évaluation avant 16 ans.

Au cours de la première année seulement, 268 000 apprenants ont passé une évaluation personnalisée en numératie procédurale qui équivaut à 96% de la cohorte d’apprenants des années 2 à 9 au Pays de Galles, correspondant au taux de réussite des tests papier.

L’introduction de l’évaluation à l’écran a également entraîné une réduction significative du nombre de documents modifiés requis. En 2018, plus de 4000 papiers modifiés ont été commandés pour ce test qui a été réduit à seulement 357 gros caractères modifiés et 12 évaluations en braille en 2019.

L’évaluation peut être auto-planifiée, ce qui donne aux enseignants la flexibilité de l’utiliser à des fins de diagnostic à tout moment de l’année. Cependant, au cours de la première année, de nombreuses écoles se sont tenues à la période traditionnelle de test de fin de trimestre, bien qu’il soit possible que cette pratique change à l’avenir à mesure que les enseignants se familiariseront avec ces tests.

Comment cette nouvelle façon de tester a-t-elle été reçue par les enseignants ?

Les évaluations personnalisées présentent de nombreux avantages dans ce scénario, comme détaillé dans la section ci-dessus. AlphaPlus a reçu des commentaires positifs des enseignants pour le projet pilote d’évaluation de la numératie procédurale qui a été au centre de cette étude de cas. Un questionnaire auprès des enseignants a révélé que 78% pensaient que les apprenants étaient engagés, 83% que les évaluations étaient de la bonne longueur et plus de 60% ont trouvé les rapports sur les apprenants et les commentaires utiles.

Cependant, lors de sa présentation à la conférence Surpass 2019, Gavin a observé qu’il restait encore des obstacles à surmonter à mesure que l’état d’esprit s’éloignait des tests sur papier. Avec une évaluation personnalisée, l’algorithme s’arrête une fois qu’il peut donner en toute confiance une estimation des capacités, de sorte que certains apprenants voient plus de questions que d’autres, ce qui ne se produirait pas sur un test papier.

” Il y a une partie de notre culture du papier qui est si profondément enracinée que l’équité consiste à faire exactement la même chose pour tous les gens, même si c’est un ajustement terrible pour certaines de ces personnesthe le message de personnalisation n’a pas encore été transmis à tous les enseignants.”

Gavin Busuttil-Reynaud, AlphaPlus

De plus, comme un CHAT est conçu pour défier les apprenants à haute capacité, les candidats peuvent se voir poser des questions de groupes d’âge plus âgés qui ne leur ont pas été formellement enseignées. Bien que l’objectif de ceci soit de montrer aux apprenants ce vers quoi ils peuvent évoluer, ou même de démontrer des capacités au-delà de leur groupe d’âge, Gavin a poursuivi en observant:

” Certains enseignants embrassent cela others d’autres pensent que c’est terrible qu’on ait demandé à un apprenant quelque chose qu’on ne lui enseignera pas avant l’année prochaine et pensent que son enseignement est jugé sur quelque chose qu’on n’a pas encore enseigné… Il y a encore un énorme voyage culturel à faire pour tout le monde parce que ces tests sont si différents de la pratique actuelle, mais le but principal de tout cela est de fournir un retour détaillé.”

Gavin Busuttil-Reynaud, AlphaPlus

La priorité de ces tests est d’informer l’enseignement et l’apprentissage avec des rapports détaillés basés sur toutes les données disponibles destinés à aider les enseignants à identifier les domaines à améliorer, et ils ne sont pas utilisés comme mesure de responsabilisation de l’école. Aucune note n’est donnée sur le rapport de l’apprenant, juste des énoncés factuels pour mettre en évidence les forces et les faiblesses.

L’enseignant reçoit un profil de compétences pour sa classe, lui donnant une indication de l’orientation de son enseignement, fournissant des données fiables, ainsi que des tableaux de parcours de l’apprenant, qui montrent le chemin qu’il a emprunté à travers le test et peuvent montrer des modèles de comportement de l’apprenant.

Rob Nicholson, directeur de l’école communautaire de Borras Park dont les apprenants ont assisté à ces évaluations a commenté:

” Les évaluations personnalisées peuvent être utilisées avec d’autres formes d’évaluation que les écoles have…it peut être utilisé pour simplement solidifier les scores et les évaluations et les connaissances de l’enfant.”

Rob Nicholson, directeur de l’école communautaire de Borras Park

Comment les évaluations personnalisées ont-elles été reçues par les apprenants?

Pour ce projet, l’équipe a tenu compte du jeune âge des apprenants, et le pilote de test Surpass a donc été personnalisé pour simplifier l’interface et créer la meilleure expérience possible. Les tests pouvaient être livrés sur des ordinateurs de bureau, des ordinateurs portables ou des tablettes, ce qui était important en raison de l’incohérence du matériel disponible dans les écoles à travers le pays.

Les enfants apprennent sur des tablettes

Chaque candidat est mis au défi par les questions qui lui sont présentées, afin qu’il puisse démontrer ce qu’il sait plutôt que ce qu’il ne sait pas, avec l’algorithme conçu pour que les apprenants obtiennent 50% des éléments corrects et 50% des éléments erronés. Pour la première fois, certains grands gagnants ont trouvé des questions qu’ils ne connaissaient pas, tandis que les moins bons ont gagné en confiance en étant capables de répondre à certaines des questions.

” Pour les apprenants à l’extrémité inférieure du spectre des capacités, généralement, lorsqu’ils faisaient le test papier, ils obtenaient quelque part entre 90 et 95% des éléments incorrects. Quelle expérience incroyablement décourageante. Mais ils sortent de ce test adaptatif, je pourrais le faire!AndEt les grands voyageurs qui passaient un test papier en dix minutes disent soudainement: “c’était un test difficile, je devais penser”… au moins, cela leur fait réaliser qu’il y a autre chose à faire.”

Gavin Busuttil-Reynaud, AlphaPlus

Les apprenants sont généralement imperturbables par un passage à l’écran, comme l’a observé Jenny Jones, directrice adjointe de l’école communautaire de Borras Park:

” Ils ont l’habitude de travailler en ligne, ils ont l’habitude d’utiliser leurs iPads ou leurs ordinateurs pour se sentir en confiance. C’est une activité amusante.”

Jenny Jones, directrice adjointe de l’école communautaire de Borras Park

Il y a également eu des avantages pour les apprenants ayant une déficience visuelle ou des exigences d’accessibilité qui nécessiteraient généralement une version modifiée du test papier. La seule vraie différence est que les diagrammes sont inclus, de sorte qu’une version simplifiée ou une version en braille est incluse dans un livret papier. Des outils d’accessibilité tels qu’une loupe et un lecteur d’écran signifient que le test à l’écran est accessible au plus grand nombre possible. AlphaPlus a travaillé avec des apprenants malvoyants et a conclu que les apprenants “préfèrent de tout cœur les versions en ligne” et sont imperturbables par les outils d’accessibilité car c’est leur façon habituelle de travailler, et se félicite de pouvoir travailler sur un ordinateur comme tout le monde.

Conclusion

L’étude de cas d’une mise en œuvre réussie du TAO au Royaume-Uni démontre que ce type de test peut être introduit et peut présenter des avantages significatifs par rapport aux tests fixes, en particulier dans un contexte de formation. Des tests plus courts et personnalisés avec un contenu adapté à l’apprenant offrent un plus grand engagement de l’apprenant et une meilleure expérience de l’apprenant. Les résultats sont traités plus rapidement, de sorte qu’ils peuvent être examinés avec l’apprenant pendant que son expérience d’évaluation est encore fraîche dans son esprit.

Les résultats psychométriquement valides ainsi que des données riches sur chaque candidat permettent de mieux comprendre ce dont les apprenants sont capables et, utilisés conjointement avec d’autres indicateurs, peuvent mieux éclairer l’enseignement et l’apprentissage et offrir les meilleures opportunités possibles de progression de l’apprenant.

Commentant le travail avec les écoliers du pays de Galles, Roger Murphy, professeur émérite d’éducation à l’Université de Nottingham a déclaré:

” C’est une caractéristique du système éducatif au Pays de Galles qui est surveillée de très près par de nombreux pays du monde entier.”

Roger Murphy, Professeur émérite d’éducation à l’Université de Nottingham

Cependant, il convient de noter que le CAT ne sera pas approprié dans tous les scénarios. Le TAO est limité aux types de questions objectives, limitant le type de compétences qui peuvent être testées et l’opinion généralement acceptée est que la production d’un TAO coûte cher. Peut-être, à mesure que la technologie d’évaluation progresse encore, des fonctionnalités telles que la génération automatique d’articles pourraient atténuer certaines des implications de coûts liées à la création de banques d’articles plus importantes. En fin de compte, le coût de production doit être mis en balance avec les avantages pour déterminer si le CAT est la bonne solution pour votre programme de tests.

Si vous souhaitez en savoir plus sur les évaluations personnalisées dans Surpass, veuillez vous adresser à votre responsable de compte Surpass.

Tests adaptatifs par ordinateur: Contexte, avantages et étude de cas d’un programme de tests national à grande échelle