Computer Adaptive Testing: Hintergrund, Nutzen und Fallstudie eines großen nationalen Testprogramms

Computer Adaptive Testing (CAT) ist ein heißes Thema in der Assessment-Community, wird jedoch trotz seiner vielen Vorteile immer noch nicht sehr häufig verwendet. In diesem Artikel geben wir Ihnen einen Überblick über CAT, einen Überblick über einige der Vorteile und ohne zu viel Jargon einen Überblick über die Technologie dahinter. Um dies zu kontextualisieren, werden wir auf eine aktuelle Fallstudie verweisen, in der gezeigt wird, wie die CAT-Technologie in Surpass verwendet wurde, um ein innovatives nationales personalisiertes Bewertungsprogramm bereitzustellen, das die Form der nationalen Bildung verändert.

Was ist ein Computeradaptiver Test?
Wie sieht ein computeradaptiver Test für einen Kandidaten aus?
Wie funktioniert ein computeradaptiver Test in Surpass?
Was sind die Vorteile von CAT gegenüber papierbasierten Tests?
Genaue Informationen für Kandidaten aller Fähigkeiten
Verringerung der Arbeitsbelastung der Lehrer
Potenzial für On-Demand
Genaueres Feedback, das sofort umgesetzt werden kann
Engagement der Lernenden
Einsatz von CAT für ein großangelegtes nationales Testprogramm in Großbritannien: Eine Fallstudie
Wie wurde diese neue Art des Testens von Lehrern aufgenommen?
Wie wurden die personalisierten Bewertungen von den Lernenden erhalten?
Fazit

Was ist ein Computeradaptiver Test?

Einfach ausgedrückt ist ein computeradaptiver Test (manchmal auch als personalisierte Bewertung bezeichnet) ein Test, der sich in Echtzeit an die Fähigkeiten des Kandidaten anpasst, indem verschiedene Fragen aus der Bank ausgewählt werden, um ein genaueres Maß für sein Fähigkeitsniveau auf einer gemeinsamen Skala zu erhalten.

Wie sieht ein computeradaptiver Test für einen Kandidaten aus?

Eine personalisierte Bewertung zieht Fragen aus einem großen Pool von Elementen, die sorgfältig kalibriert wurden, um ihren Schwierigkeitsgrad zu bestimmen (mehr dazu im nächsten Abschnitt).

Wenn ein Kandidat seinen Test beginnt, wird ihm zunächst ein Gegenstand mittlerer Schwierigkeit vorgelegt, der für seine Jahrgangsgruppe als geeignet erachtet wird. Wenn sie diese Frage richtig stellen, wird das nächste Element, das sie sehen, etwas schwieriger, wenn sie es falsch verstehen, werden sie ein etwas einfacheres Element sehen. Das System berechnet ständig die geschätzten Fähigkeiten des Kandidaten, je nachdem, was er richtig und falsch macht, und präsentiert ihm einen personalisierten Satz von Elementen, bis das Vertrauen in die Fähigkeitsschätzung ein vordefiniertes Niveau überschritten hat (oder die maximale Anzahl von Fragen wurde gestellt) und der Test endet. Da jeder Lernende einen anderen Weg durch den Test nimmt, mit einem anderen Satz von Fragen, sie können möglicherweise Tests von unterschiedlicher Länge erhalten.

Im Gegensatz zu einem linearen Test, der in einigen Szenarien nur für Lernende mit durchschnittlichen Fähigkeiten nützliche Ergebnisse liefert, sind bei einer personalisierten Bewertung alle dem Kandidaten vorgelegten Items als herausfordernd ausgelegt; Die Anzahl der einfachen Items, die Kandidaten mit hohen Fähigkeiten präsentiert werden, ist reduziert, ebenso wie die Anzahl der harten Fragen an Kandidaten mit geringen Fähigkeiten, da beide keinen klaren Hinweis auf die Fähigkeiten dieser Lernenden geben.

Da alles in Echtzeit bewertet wird, kann der Kandidat am Ende des Tests sofortiges Feedback in Form von Fähigkeitsaussagen erhalten, im Gegensatz zu einer Rohpunktzahl oder Note, die sachliche Informationen über ihre Stärken und Schwächen basierend auf den von ihnen beantworteten Fragen liefert.

Wie funktioniert ein computeradaptiver Test in Surpass?

Damit eine KATZE funktioniert, benötigt sie zuverlässige Daten und eine umfassende Objektbank mit einer guten Streuung der Inhaltsabdeckung und des Schwierigkeitsgrads. Dies bedeutet, dass die Artikelbank zuerst durch Vorprüfung kalibriert werden muss. Dies ist eines der Haupthindernisse für CAT als größere Objektbank, und es ist umfangreiche Arbeit erforderlich, um zuverlässige Daten zu erhalten, bevor Live-Tests durchgeführt werden können. Die allgemeine Regel lautet, dass ein Element mindestens 200 Mal belichtet werden muss, bevor zuverlässige Daten generiert werden können. Unter Verwendung dieser Expositionsdaten wird dann die Item Response Theory (IRT) verwendet, um die IRT-Parameter für jedes der Elemente in der Bank zu berechnen. Diese IRT-Parameter umfassen die Schwierigkeit des Gegenstands und die Diskriminierung des Gegenstands, d.h. der Faktor, der bestimmt, wie viel eine Steigerung der Fähigkeit eines Kandidaten auf die Wahrscheinlichkeit hat, dass er diesen Gegenstand richtig bekommt. In Surpass werden diese Werte als Tags an die Elemente angehängt.

Es wird ein Test-Blueprint generiert, der Faktoren wie die Inhaltsabdeckung des Tests bestimmt. Viele weitere Parameter können auch angegeben werden, einschließlich, minimale und maximale Anzahl der Elemente zu präsentieren und zu stoppen Bedingungen. Es wird ein Elementpool erstellt, der alle Elemente enthält, die im Test angezeigt werden könnten.

Während bei einem linearen Test das System weiß, welche Artikel geliefert werden, bevor der Test beginnt, wählt bei einem adaptiven Test ein Algorithmus den nächsten Artikel in Echtzeit aus, sobald der Kandidat im Testtreiber auf die Schaltfläche ‘Weiter’ klickt. Der Algorithmus arbeitet nach dem Blueprint, um eine gute Abdeckung aller Inhaltsbereiche sicherzustellen, und steuert die Belichtung der Artikel in der gesamten Bank als Ganzes (so dass einige Artikel nicht häufiger präsentiert werden als andere), was bedeutet, dass die gesamte Artikelbank am effizientesten genutzt wird. Der Algorithmus kann bis zu drei IRT–Parameter unterstützen – Schwierigkeit, Diskriminierung und Erraten.

In Surpass geschieht all diese clevere Logik in nur 300 Millisekunden, wenn der Lernende ‘Weiter’ auswählt, um zur nächsten Frage zu gelangen. Der Algorithmus wird fortgesetzt, bis die Fähigkeiten des Kandidaten auf das erforderliche Genauigkeitsniveau geschätzt wurden.

Das Surpass-Team hat hart gearbeitet, um sicherzustellen, dass das System diese großen Datenmengen verarbeiten kann, ohne die Leistung zu beeinträchtigen. Es wurden Microsoft Azure-Apps verwendet, die abhängig von den erwarteten Volumes automatisch skalierbar sind, und der Durchsatz (Anzahl der Anforderungen pro Sekunde) wurde bei Volumes getestet, die viel höher sind als die derzeit bereitgestellten.

Einer der Hauptvorteile der adaptiven Bewertung durch Surpass besteht darin, dass Sie nicht nur die Standardberichterstattungsfunktionalität nutzen können, sondern auch maßgeschneiderte Berichte über die Surpass-API definiert und generiert werden können, wobei alle umfangreichen Daten verwendet werden, die aus einem adaptiven Test generiert werden. Berichte können einzelne Candidate Journeys während des Tests sowie Berichte auf Gruppen- oder Klassenebene oder sogar auf nationaler Ebene anzeigen.

Was sind die Vorteile von CAT gegenüber papierbasierten Tests?

CAT bietet zahlreiche Vorteile gegenüber papierbasierten Tests für die formative Bewertung (vorausgesetzt, die Objektbank wurde ordnungsgemäß kalibriert), einschließlich:

Genaue Informationen für Kandidaten aller Fähigkeiten

Traditionelle lineare Tests, bei denen alle Kandidaten den gleichen Satz von Elementen erhalten, fordern nur das mittlere Drittel der Lernenden wirklich heraus. Eine KATZE wurde entwickelt, um Lernende aller Leistungsstufen herauszufordern und ein genaues und nützliches Bild der schlankeren Fähigkeiten für alle bereitzustellen.

Verringerung der Arbeitsbelastung der Lehrer

Viele Tests auf Schulebene werden immer noch auf Papier durchgeführt, was die Lehrer mit der Kennzeichnung und Verwaltung der Ergebnisse erheblich belastet. Sofortiges Scoring und genaues lernerspezifisches Feedback geben Lehrern mehr Zeit, sich auf den Unterricht zu konzentrieren und Feedback zu implementieren, um ihren Schülern den Fortschritt zu erleichtern.

Potenzial für On-Demand

Mit einer personalisierten Bewertung auf dem Bildschirm gibt es keine Einschränkung, innerhalb des Papiertestfensters zu liefern, was bedeutet, dass sie zu diagnostischen Zwecken zu jedem Zeitpunkt des Jahres geliefert werden können, wenn der Lehrer dies für geeignet hält. Da jeder Lernende einen personalisierten Test erhält, muss die Kohorte den Test nicht alle genau zur gleichen Zeit ablegen.

Genaueres Feedback, das sofort umgesetzt werden kann

Ein genaueres Feedback kann unmittelbar nach dem Test in Form von kompetenzbasierten Fähigkeitsaussagen anstelle einer Punktzahl gegeben werden. Dies zeigt den Kandidatengebieten, in denen sie gut abgeschnitten haben, und Bereichen, in denen sie möglicherweise verbessert werden müssen. Diese Art von Feedback ist nützlicher für die formative Bewertung, um den Lernenden zu zeigen, dass es Bereiche gibt, in denen Fortschritte erzielt werden können, oder konstruktive Anleitungen, wo sie sich verbessern können. Lehrer können auch die Leistung einer Klasse als Ganzes sehen und Bereiche angeben, auf die sie sich möglicherweise konzentrieren müssen.

Engagement der Lernenden

Mit Fragen, die Lernende aller Fähigkeiten herausfordern, wird das Engagement der Lernenden während des gesamten Tests besser aufrechterhalten. Low-Achievers werden ermutigt und High-Achievers werden herausgefordert. Adaptive Assessments können auch weniger Zeit in Anspruch nehmen als ein herkömmlicher linearer Test, wobei eine genaue Fähigkeitsmessung in kürzerer Zeit erreicht wird.

Einsatz von CAT für ein großangelegtes nationales Testprogramm in Großbritannien: Eine Fallstudie

Auf der Surpass-Konferenz 2019 aktualisierte Gavin Busuttil-Reynaud von AlphaPlus die Surpass-Community über die Verwendung von adaptiven Tests, die in Surpass für ein großes nationales Testprogramm von Grund- und Sekundarschulkindern in Wales entwickelt wurden. Einige der wichtigsten Punkte sind hier zusammengefasst, oder Sie können die Präsentation vollständig nachholen, indem Sie sich dieses Video ansehen.

Nach der Einführung nationaler Tests für Schulkinder in Wales (UK) auf Papier im Jahr 2013 wurde frühzeitig eine Machbarkeitsstudie durchgeführt, um festzustellen, wie diese auf dem Bildschirm bereitgestellt werden könnten. Im Jahr 2018 begann der schrittweise Übergang dieser Tests zu computeradaptiven Tests, wobei der erste das prozedurale Rechnen war und gefolgt von Lesen und numerischem Denken. Dies gilt als revolutionär, wenn man bedenkt, dass papierbasierte Tests nach wie vor die globalen Testprogramme der Regierung dominieren. Bereits im Jahr 2004 erklärte Ken Boston, damals Leiter der Qualifications and Curriculum Authority, dass ‘On-Screen-Assessment in Kürze das Leben jedes Lernenden im Land berühren wird’, wobei eines seiner Ziele für die nächsten 5 Jahre war, dass ‘alle neuen Qualifikationen eine Option für die On-Screen-Assessment beinhalten würden. Wie wir wissen, ist dies 15 Jahre später nicht der Fall, da viele Qualifikationen immer noch nur auf dem Papier erbracht werden, was die Erfolge des Projekts in Wales noch bemerkenswerter macht, insbesondere für die Bewertung vor 16 Jahren.

Allein im ersten Jahr haben 268.000 Lernende eine personalisierte Bewertung in Procedural Numeracy abgelegt, was 96% der Lernenden in den Jahren 2-9 in Wales entspricht und der Abschlussrate der Papiertests entspricht.

Die Einführung der On-Screen-Bewertung führte auch zu einer signifikanten Reduzierung der Anzahl der erforderlichen modifizierten Papiere. Im Jahr 2018 wurden über 4000 modifizierte Papiere für diesen Test bestellt, der 2019 auf nur 357 modifizierte Großdruck- und 12 Braille-Bewertungen reduziert wurde.

Die Bewertung kann selbst geplant werden, was den Lehrern die Flexibilität gibt, sie zu jedem Zeitpunkt des Jahres für diagnostische Zwecke zu verwenden. Im ersten Jahr hielten viele Schulen jedoch an der traditionellen Testphase am Ende des Semesters fest, obwohl es möglich ist, dass sich diese Praxis in Zukunft ändern wird, wenn die Lehrer mit diesen Tests vertrauter werden.

Wie wurde diese neue Art des Testens von Lehrern aufgenommen?

Personalisierte Bewertungen bieten in diesem Szenario viele Vorteile, wie im obigen Abschnitt beschrieben. AlphaPlus hat positive Rückmeldungen von Lehrern für das Pilotprojekt zur Bewertung der prozeduralen Rechenleistung erhalten, das im Mittelpunkt dieser Fallstudie stand. Ein Lehrerfragebogen ergab, dass 78% der Meinung waren, dass die Lernenden engagiert waren, 83% der Meinung waren, dass die Bewertungen die richtige Länge hatten, und über 60% fanden die Lerner- und Feedbackberichte nützlich.

Während seiner Surpass-Konferenzpräsentation 2019 stellte Gavin jedoch fest, dass es noch einige Hindernisse zu überwinden gibt, da sich die Denkweise von papierbasierten Tests abwendet. Bei einer personalisierten Bewertung stoppt der Algorithmus, sobald er sicher eine Fähigkeitsschätzung abgeben kann, sodass einige Lernende mehr Fragen sehen als andere, was bei einem Papiertest nicht der Fall wäre.

” Es gibt einen Teil unserer Papierkultur, der so tief verwurzelt ist, dass es bei Fairness darum geht, für alle Menschen genau das Gleiche zu tun, auch wenn es für einige dieser Menschen schrecklich passt … die Botschaft der Personalisierung ist noch nicht bei allen Lehrern angekommen.”

Gavin Busuttil-Reynaud, AlphaPlus

Da eine CAT die Lernenden mit hohen Fähigkeiten herausfordern soll, können den Kandidaten Fragen aus älteren Altersgruppen gestellt werden, die ihnen nicht offiziell beigebracht wurden. Ziel ist es, den Lernenden zu zeigen, zu was sie übergehen können, oder sogar Fähigkeiten jenseits ihrer Altersgruppe demonstrieren, Gavin fuhr fort zu beobachten:

” Einige Lehrer begrüßen dies … andere finden es schrecklich, dass ein Lernender nach etwas gefragt wurde, das er erst im nächsten Jahr lernen wird, und denken, dass sein Unterricht nach etwas beurteilt wird, das er noch nicht gelernt hat … Es gibt immer noch eine riesige kulturelle Reise für alle, weil diese Tests sich so sehr von der aktuellen Praxis unterscheiden, aber der Hauptzweck all dessen ist es, detailliertes Feedback zu geben.”

Gavin Busuttil-Reynaud, AlphaPlus

Die Priorität dieser Tests besteht darin, das Lehren und Lernen mit detaillierten Berichten auf der Grundlage aller verfügbaren Daten zu informieren, die den Lehrern helfen sollen, Verbesserungsmöglichkeiten zu identifizieren, und sie werden nicht als Maßnahme zur Rechenschaftspflicht der Schule verwendet. Im Lernerbericht wird keine Punktzahl angegeben, sondern nur sachliche Aussagen, um Stärken und Schwächen hervorzuheben.

Der Lehrer erhält ein Kompetenzprofil für seine Klasse, das ihm einen Hinweis darauf gibt, wo er seinen Unterricht konzentrieren soll, zuverlässige Daten zur Verfügung stellt sowie Lernerreisediagramme, die den Weg zeigen, den sie durch den Test genommen haben und Muster des Lernerverhaltens zeigen können.

Rob Nicholson, Schulleiter der Borras Park Community School, deren Lernende diese Bewertungen abgelegt haben, kommentierte:

” Die personalisierten Bewertungen können neben anderen Bewertungsformen verwendet werden, die Schulen have…it kann verwendet werden, um nur Noten und Einschätzungen und Wissen des Kindes zu verfestigen.”

Rob Nicholson, Schulleiter der Borras Park Community School

Wie wurden die personalisierten Bewertungen von den Lernenden erhalten?

Bei diesem Projekt achtete das Team auf das junge Alter der Lernenden, und so wurde der Surpass-Testtreiber angepasst, um die Benutzeroberfläche zu vereinfachen und die bestmögliche Erfahrung zu erzielen. Die Tests konnten auf Desktop-Computern, Laptops oder Tablet-Geräten durchgeführt werden, was aufgrund der Inkonsistenz der in Schulen im ganzen Land verfügbaren Hardware wichtig war.

Jeder Kandidat wird durch die ihm gestellten Fragen herausgefordert, damit er zeigen kann, was er weiß und nicht, was er nicht weiß, wobei der Algorithmus so konzipiert ist, dass die Lernenden 50% der Punkte richtig und 50% falsch machen. Zum ersten Mal fanden einige Leistungsträger Fragen, mit denen sie nicht vertraut waren, während die leistungsschwächeren Vertrauen gewannen, indem sie einige der Fragen beantworten konnten.

” Für die Lernenden am unteren Ende des Fähigkeitsspektrums, in der Regel, wenn sie den Papiertest machten, würden sie irgendwo zwischen 90-95% der Elemente falsch bekommen. Was für eine unglaublich entmutigende Erfahrung. Aber sie kommen aus diesem adaptiven Test gehen, ich könnte es tun!… Und die Überflieger, die in zehn Minuten durch einen Papiertest sausen würden, sagen plötzlich: ‘Das war ein schwieriger Test, ich musste nachdenken’ … zumindest macht es ihnen klar, dass es etwas anderes gibt, zu dem sie übergehen können.”

Gavin Busuttil-Reynaud, AlphaPlus

Die Lernenden sind im Allgemeinen unbeeindruckt von einem Wechsel zum Bildschirm, wie Jenny Jones, stellvertretende Schulleiterin der Borras Park Community School, bemerkte:

” Sie sind es gewohnt, online zu arbeiten, sie sind es gewohnt, ihre iPads oder Computer zu benutzen, damit sie sich sicher fühlen, sie zu benutzen. Es ist eine lustige Aktivität.”

Jenny Jones, stellvertretende Schulleiterin der Borras Park Community School

Es gab auch Vorteile für Lernende mit Sehbehinderung oder Barrierefreiheitsanforderungen, die normalerweise bedeuten würden, dass sie eine modifizierte Version des Papiertests benötigen. Der einzige wirkliche Unterschied besteht darin, wo Diagramme enthalten sind, so dass eine vereinfachte Version oder Braille-Version in einer Papierbroschüre enthalten ist. Eingabehilfen wie eine Lupe und ein Bildschirmleser sorgen dafür, dass der Bildschirmtest für so viele Personen wie möglich zugänglich ist. AlphaPlus hat mit sehbehinderten Lernenden zusammengearbeitet und kommt zu dem Schluss, dass Lernende die Online-Versionen von ganzem Herzen bevorzugen und von Barrierefreiheitswerkzeugen unbeeindruckt sind, da dies ihre übliche Arbeitsweise ist, und begrüßen es, wie alle anderen auch am Computer arbeiten zu können.

Fazit

Die Fallstudie einer erfolgreichen nationalen CAT-Implementierung in Großbritannien zeigt, dass diese Art von Tests eingeführt werden kann und insbesondere in einem prägenden Umfeld erhebliche Vorteile gegenüber festen Tests haben kann. Kürzere, personalisierte Tests mit lernergerechten Inhalten sorgen für ein größeres Engagement der Lernenden und eine bessere Lernerfahrung. Die Ergebnisse werden schneller verarbeitet, sodass sie mit dem Lernenden überprüft werden können, während seine Bewertungserfahrung noch frisch ist.

Psychometrisch valide Ergebnisse zusammen mit Rich-Daten zu jedem Kandidaten geben ein besseres Verständnis dessen, wozu Lernende in der Lage sind, und können in Verbindung mit anderen Indikatoren das Lehren und Lernen besser informieren und die bestmöglichen Möglichkeiten für das Fortschreiten der Lernenden bieten.

Roger Murphy, emeritierter Professor für Pädagogik an der Universität Nottingham, kommentierte die Arbeit mit Schulkindern in Wales wie folgt:

” Es ist ein Merkmal des Bildungssystems in Wales, das von vielen Ländern auf der ganzen Welt sehr genau beobachtet wird.”

Roger Murphy, emeritierter Professor für Pädagogik an der Universität Nottingham

Es sollte jedoch beachtet werden, dass CAT nicht in allen Szenarien angemessen sein wird. CAT ist auf objektive Fragetypen beschränkt, was die Art der Fähigkeiten einschränkt, die getestet werden können, und die allgemein akzeptierte Ansicht ist, dass die Herstellung einer KATZE teuer ist. Mit fortschreitender Bewertungstechnologie könnten Funktionen wie die automatische Artikelgenerierung möglicherweise einige der Kostenauswirkungen beim Erstellen größerer Artikelbanken mindern. Letztendlich müssen die Herstellungskosten gegen die Vorteile abgewogen werden, um festzustellen, ob CAT der richtige Weg für Ihr Testprogramm ist.

Wenn Sie mehr über personalisierte Bewertungen in Surpass erfahren möchten, wenden Sie sich bitte an Ihren Surpass Account Manager.