Computer Adaptive Testing: Achtergrond, voordelen en case study van een grootschalig nationaal testprogramma-Surpass, Power Assessment

Computer Adaptive Testing (CAT) is een hot topic onder de assessment community, echter, ondanks de vele voordelen, wordt het nog steeds niet veel gebruikt. In dit artikel geven we je een overzicht van CAT, een overzicht van enkele van de voordelen, en zonder al te veel jargon, een overzicht van de technologie erachter. Om het te helpen contextualiseren, gaan we verwijzen naar een recente casestudy van hoe de CAT-technologie in Surpass is gebruikt om een innovatief nationaal gepersonaliseerd assessmentprogramma te leveren dat de vorm van Nationaal Onderwijs verandert.

Wat is een Computeradaptieve Test?
Hoe ziet een Computeradaptieve Test eruit voor een kandidaat?
Hoe werkt een Computeradaptieve Test in Surpass?
Wat zijn de voordelen van CAT ten opzichte van testen op papier?
nauwkeurige informatie voor kandidaten van alle capaciteiten
vermindering van de werklast van de leerkrachten
potentieel voor on-demand
nauwkeuriger feedback die onmiddellijk kan worden uitgevoerd
lerende betrokkenheid
gebruik van CAT voor een grootschalig nationaal testprogramma in het Verenigd Koninkrijk: Een Casestudy
Hoe is deze nieuwe manier van testen ontvangen door leraren?
hoe zijn de gepersonaliseerde beoordelingen ontvangen door leerlingen?
conclusie

Wat is een Computeradaptieve Test?

simpel gezegd is een Computeradaptieve Test (soms aangeduid als gepersonaliseerde beoordeling) Een test die zich in realtime aanpast aan de bekwaamheid van de kandidaat door verschillende vragen van de bank te selecteren om een nauwkeuriger meting van hun bekwaamheidsniveau op een gemeenschappelijke schaal te leveren.

Hoe ziet een Computeradaptieve Test eruit voor een kandidaat?

een gepersonaliseerde beoordeling haalt vragen uit een grote pool van items die zorgvuldig zijn gekalibreerd om hun moeilijkheidsgraad te bepalen (meer hierover in de volgende sectie).

wanneer een kandidaat met zijn examen begint, krijgt hij eerst een item van middelzware moeilijkheidsgraad dat passend wordt geacht voor zijn jaargroep. Als ze die vraag goed krijgen, zal het volgende item dat ze zien iets moeilijker zijn, als ze het fout hebben, zullen ze een iets gemakkelijker item zien. Het systeem berekent voortdurend het geschatte vermogen van de kandidaat, afhankelijk van wat hij goed en fout krijgt, en presenteert hem een gepersonaliseerde set items totdat het niveau van vertrouwen in de schatting van het vermogen een vooraf bepaald niveau heeft overschreden (of het maximale aantal vragen is gepresenteerd) en de test eindigt. Omdat elke leerling een ander pad door de test neemt, met een andere reeks vragen, kunnen ze mogelijk tests van een andere lengte ontvangen.

in tegenstelling tot een lineaire test die in sommige scenario ‘ s alleen nuttige resultaten oplevert voor leerlingen met een gemiddelde bekwaamheid, met een gepersonaliseerde beoordeling, zijn alle items die aan de kandidaat worden gepresenteerd, ontworpen om uitdagend te zijn; het aantal eenvoudige items dat wordt gepresenteerd aan kandidaten met een hoge bekwaamheid wordt verminderd, evenals het aantal moeilijke vragen aan kandidaten met een lage bekwaamheid, aangezien geen van beide een duidelijke indicatie geeft van de bekwaamheid van deze leerlingen.

omdat alles in realtime wordt gescoord, kan de kandidaat aan het einde van de test onmiddellijk feedback ontvangen in de vorm van bekwaamheidsverklaringen in plaats van een ruwe score of rang, die feitelijke informatie verschaft over hun sterke en zwakke punten op basis van de vragen die zij beantwoordden.

Hoe werkt een Computeradaptieve Test in Surpass?

om een CAT te laten werken, heeft het betrouwbare gegevens nodig en een uitgebreide itembank met een goede spreiding van inhoud en moeilijkheidsgraad. Dit betekent dat de item bank eerst moet worden gekalibreerd door middel van pre-testing. Dit is een van de belangrijkste barrières voor CAT als een grotere item bank en uitgebreid werk is vereist om betrouwbare gegevens te krijgen voordat live tests kunnen worden geleverd. De algemene regel is dat een item minimaal 200 keer moet worden blootgesteld voordat betrouwbare gegevens kunnen worden gegenereerd. Met behulp van deze blootstellingsgegevens wordt de Postresponstheorie (IRT) vervolgens gebruikt om IRT-parameters te berekenen voor elk van de posten in de bank. Deze IRT parameters omvatten de moeilijkheid van het item, en de discriminatie van het item, d.w.z. de factor die bepaalt hoeveel een toename van het vermogen van een kandidaat zal hebben op de kans dat ze krijgen dat item correct. In Surpass worden deze waarden als tags aan de items bevestigd.

er wordt een “blauwdruk” van de test gegenereerd die factoren zoals de inhoud van de test bepaalt. Veel meer parameters kunnen ook worden gespecificeerd, met inbegrip van, minimum en maximum aantal items te presenteren en stoppen voorwaarden. Er wordt een itempool gemaakt die alle items bevat die in de test kunnen worden weergegeven.

terwijl bij een lineaire test het systeem weet welke items zullen worden geleverd voordat de test begint, selecteert een algoritme bij een adaptieve test het volgende item in real time, op het punt waarop de kandidaat op de knop “Volgende” in de testbestuurder klikt. Het algoritme werkt aan de blauwdruk om een goede dekking van alle inhoud gebieden te garanderen en controleert item exposure over de bank als geheel (zodat Sommige items niet vaker worden gepresenteerd dan andere), wat betekent dat de hele item bank wordt het meest efficiënt gebruikt. Het algoritme kan maximaal drie IRT-parameters ondersteunen-moeilijkheidsgraad, Discriminatie en gissen.

in Surpass gebeurt al deze slimme logica in slechts 300 milliseconden van de leerling die ‘volgende’ selecteert om naar de volgende vraag te gaan, wat betekent dat er nooit een vertraging is voor de kandidaat. Het algoritme gaat door totdat het vermogen van de kandidaat is geschat op het vereiste niveau van nauwkeurigheid.Het Surpass-team heeft hard gewerkt om ervoor te zorgen dat het systeem deze grote hoeveelheden gegevens kan verwerken zonder de prestaties te beïnvloeden. Microsoft Azure apps zijn gebruikt die automatisch schaalbaar zijn afhankelijk van verwachte volumes, en de doorvoer (aantal aanvragen per seconde) is getest bij volumes veel hoger dan die momenteel worden geleverd.

een van de belangrijkste voordelen van de adaptive assessment geleverd door Surpass is dat u niet alleen gebruik kunt maken van de standaard rapportage functionaliteit, maar ook dat op maat gemaakte rapporten kunnen worden gedefinieerd en gegenereerd via de Surpass API, waarbij gebruik wordt gemaakt van alle rijke gegevens die worden geproduceerd door een adaptieve test. Rapporten kunnen individuele kandidaat-reizen tijdens de test laten zien, evenals rapportage op een groep of klasse of zelfs nationaal niveau.

Wat zijn de voordelen van CAT ten opzichte van testen op papier?

er zijn tal van voordelen aan CAT boven op papier gebaseerde testen voor formatieve beoordeling (mits de item bank correct is gekalibreerd) met inbegrip van:

nauwkeurige informatie voor kandidaten van alle capaciteiten

traditionele lineaire tests, waarbij alle kandidaten dezelfde reeks items ontvangen, alleen ooit echt uitdagen het middelste derde van de lerenden. Een kat is ontworpen om leerlingen van alle niveaus uit te dagen, en biedt een accuraat en nuttig beeld van slanker vermogen voor iedereen.

vermindering van de werklast van de leerkrachten

veel tests op schoolniveau worden nog steeds op papier uitgevoerd, wat een aanzienlijke werklast voor de leerkrachten met de waardering en het beheer van de resultaten oplevert. Directe scores en accurate feedback van leerlingen geven docenten meer tijd om zich te concentreren op lesgeven en feedback te implementeren om hun leerlingen te helpen vooruitgang te boeken.

potentieel voor on-demand

met een gepersonaliseerde beoordeling op het scherm, is er geen beperking om te leveren binnen het papieren testvenster, wat betekent dat ze kunnen worden geleverd voor diagnostische doeleinden op elk moment van het jaar wanneer de leraar denkt dat het geschikt is. Aangezien elke leerling een gepersonaliseerde test krijgt, is het niet nodig dat de cohort allemaal op hetzelfde moment de test aflegt.

nauwkeuriger feedback die onmiddellijk kan worden uitgevoerd

nauwkeuriger feedback kan onmiddellijk na de test worden gegeven in de vorm van competentiegebaseerde bekwaamheidsverklaringen in plaats van een score. Dit geeft aan op welke kandidaat-gebieden zij het goed hebben gedaan en welke gebieden zij wellicht moeten verbeteren. Dit soort feedback is nuttiger in formatieve beoordeling, het aantonen aan de leerlingen dat er gebieden zijn om vooruitgang te boeken, of constructieve begeleiding over waar te verbeteren. Leraren kunnen ook de prestaties van een klas als geheel zien, wat aangeeft op welke gebieden ze hun les moeten richten.

lerende betrokkenheid

bij vragen die leerlingen van alle capaciteiten uitdagen, wordt de lerende betrokkenheid gedurende de hele test beter gehandhaafd. Laag-presteerders worden aangemoedigd en hoog-presteerders worden uitgedaagd. Adaptieve assessments kunnen ook minder tijd in beslag nemen dan een traditionele lineaire test, waarbij een nauwkeurige meting van het vermogen in een kortere tijd wordt bereikt.

gebruik van CAT voor een grootschalig nationaal testprogramma in het Verenigd Koninkrijk: Een Casestudy

tijdens de Surpass-Conferentie van 2019 heeft Gavin Busuttil-Reynaud van AlphaPlus de Surpass-gemeenschap bijgewerkt over het gebruik van adaptieve tests die in Surpass zijn ingebouwd voor een grootschalig nationaal testprogramma voor basis-en middelbare schoolkinderen in Wales. Enkele van de belangrijkste punten worden hier samengevat, of u kunt de presentatie volledig inhalen door deze video te bekijken.

na de invoering van nationale tests voor schoolkinderen in Wales (VK) op papier in 2013, werd vroeg een haalbaarheidsstudie uitgevoerd om te bepalen hoe het op het scherm kon worden geleverd. In 2018 begon de gefaseerde overgang van deze tests naar computeradaptieve tests, de eerste was procedurele rekenvaardigheid, en werd gevolgd door lezen en numerieke redenering. Dit wordt beschouwd als revolutionair gezien het feit dat op papier gebaseerde testen nog steeds domineert wereldwijde overheid testen programma ‘ s. In 2004 verklaarde Ken Boston, toenmalig hoofd van de Qualifications and Curriculum Authority dat ‘on-screen assessment binnenkort het leven van elke leerling in het land zal raken’, met als een van zijn doelstellingen voor de komende 5 jaar dat ‘alle nieuwe kwalificaties een optie voor on-screen assessment zouden bevatten.”Zoals we weten, is dit vijftien jaar later niet het geval, met veel kwalificaties die nog steeds uitsluitend op papier worden geleverd, wat de resultaten van het project in Wales nog opmerkelijker maakt, met name voor de pre-16-beoordeling.

alleen al in het eerste jaar hebben 268.000 lerenden een gepersonaliseerde beoordeling van de procedureberekening ondergaan, wat overeenkomt met 96% van het cohort van lerenden in de jaren 2-9 in Wales, wat overeenkomt met het afrondingspercentage van de papieren tests.

bij de invoering van de beoordeling op het scherm is ook het aantal vereiste aangepaste documenten aanzienlijk verminderd. In 2018 werden meer dan 4000 aangepaste papers besteld voor deze test, die in 2019 werd teruggebracht tot slechts 357 aangepaste grote prints en 12 braillebeoordelingen.

de beoordeling kan zelf worden ingepland, zodat leraren de flexibiliteit hebben om het op elk moment van het jaar voor diagnostische doeleinden te gebruiken. Echter, in het eerste jaar, veel scholen vast aan de traditionele einde van de termijn testperiode, hoewel het mogelijk is dat deze praktijk zal veranderen in de toekomst als leraren meer vertrouwd met deze tests.

Hoe is deze nieuwe manier van testen ontvangen door leraren?

er zijn veel voordelen aan gepersonaliseerde beoordelingen in dit scenario, zoals beschreven in de paragraaf hierboven. Alphaplus heeft positieve feedback gekregen van docenten voor de pilot voor de beoordeling van de procedurele rekenkunde, waar deze casestudy zich op richt. Uit een vragenlijst bleek dat 78% vond dat leerlingen betrokken waren, 83% vond dat de beoordelingen de juiste lengte waren, en meer dan 60% vond de leerling-en feedbackrapporten nuttig.

echter, tijdens zijn 2019 Surpass conferentie presentatie, Gavin merkte op dat er nog een aantal obstakels te overwinnen als de mindset verschuift van op papier gebaseerde testen. Met een gepersonaliseerde assessment stopt het algoritme zodra het met vertrouwen een schatting van vaardigheden kan geven, zodat sommige leerlingen meer vragen zien dan anderen, wat niet zou gebeuren op een papieren test.

“er is een deel van onze papiercultuur dat zo diep is ingebakken dat eerlijkheid gaat over precies hetzelfde doen voor alle mensen, zelfs als het een verschrikkelijke pasvorm is voor sommige van die mensen…de personalisatie boodschap is nog niet doorgedrongen tot alle leraren.”

Gavin Busuttil-Reynaud, AlphaPlus

bovendien, aangezien een kat is ontworpen om de hooggeschoolde leerlingen uit te dagen, kunnen kandidaten worden gepresenteerd met vragen van oudere leeftijdsgroepen die ze niet formeel hebben geleerd. Terwijl het doel hiervan is om leerlingen te laten zien wat ze verder kunnen gaan, of zelfs vaardigheden buiten hun leeftijdscategorie kunnen demonstreren, observeerde Gavin verder:

“sommige leraren omarmen dit … anderen denken dat het verschrikkelijk is dat een leerling iets werd gevraagd wat ze pas volgend jaar zullen leren en denken dat hun onderwijs wordt beoordeeld op iets wat ze nog niet geleerd hebben… er is nog steeds een enorme culturele reis voor iedereen om door te gaan omdat deze testen zo verschillend zijn van de huidige praktijk, maar het primaire doel van dit alles is om wat gedetailleerde feedback te geven.”

Gavin Busuttil-Reynaud, AlphaPlus

de prioriteit van deze tests is het onderwijzen en leren te informeren met gedetailleerde rapporten op basis van alle beschikbare gegevens die bedoeld zijn om leraren te helpen gebieden voor verbetering te identificeren, en ze worden niet gebruikt als een schoolverantwoording maatregel. Er wordt geen score gegeven op het rapport van de leerling, alleen feitelijke verklaringen om sterke en zwakke punten te benadrukken.

de leraar wordt voorzien van een vaardigheidsprofiel voor zijn klas, dat hem een indicatie geeft van de plaats waar hij zijn les moet richten, dat betrouwbare gegevens beschikbaar zijn, evenals reisschema ‘ s voor de leerling, die het traject aangeven dat hij tijdens de test heeft afgelegd en patronen van het gedrag van de leerling kunnen weergeven.

Rob Nicholson, hoofdonderwijzer van de Borras Park Community School wiens leerlingen deze beoordelingen hebben gedaan:

“de gepersonaliseerde assessments kunnen worden gebruikt naast andere vormen van assessment die scholen have…it kan worden gebruikt om gewoon stollen scores en beoordelingen en kennis van het kind.”

Rob Nicholson, hoofdonderwijzer van Borras Park Community School

hoe zijn de gepersonaliseerde beoordelingen ontvangen door leerlingen?

bij dit project hield het team rekening met de jonge leeftijd van de leerlingen, en daarom werd de Surpass-testrijder aangepast om de interface te vereenvoudigen en de best mogelijke ervaring te creëren. De tests konden worden geleverd op desktopcomputers, laptops of tablets, wat belangrijk was vanwege de inconsistentie van hardware die beschikbaar is in scholen in het hele land.

elke kandidaat wordt uitgedaagd door de vragen die aan hen worden gesteld, zodat ze kunnen aantonen wat ze weten in plaats van wat ze niet weten, met het algoritme dat is ontworpen zodat leerlingen 50% van de items goed en 50% fout krijgen. Voor de eerste keer vonden sommige hoge presteerders vragen waarmee ze niet vertrouwd waren, terwijl de lagere presteerders vertrouwen kregen door een aantal van de vragen te kunnen beantwoorden.

“voor de leerlingen aan de onderkant van het bekwaamheidsspectrum, meestal, wanneer ze de papieren test deden, zouden ze ergens tussen 90-95% van de items verkeerd. Wat een ongelooflijk ontmoedigende ervaring. Maar ze komen uit deze adaptieve test en gaan, Ik kan het doen!…En de high flyers die in tien minuten door een papieren test zouden suizen, zeggen nu opeens: ‘dat was een moeilijke test, ik moest denken’…Het doet ze tenminste beseffen dat er iets anders is om naar toe te gaan.”

Gavin Busuttil-Reynaud, AlphaPlus

leerlingen zijn over het algemeen niet verrast door een overstap naar het scherm, zoals Jenny Jones, adjunct-hoofdonderwijzer van Borras Park Community School, opmerkte:

“ze zijn gewend om online te werken, ze zijn gewend om hun iPads of de computers te gebruiken, zodat ze er zeker van zijn dat ze ze gebruiken. Het is een leuke activiteit.”

Jenny Jones, adjunct-hoofdonderwijzer van de Borras Park Community School

er zijn ook voordelen voor lerenden met een visuele beperking of toegankelijkheidsvereisten die gewoonlijk zouden betekenen dat zij een aangepaste versie van de papieren test nodig hebben. Het enige echte verschil is waar diagrammen zijn opgenomen, zodat een vereenvoudigde versie of brailleversie is opgenomen in een papieren boekje. Toegankelijkheidstools zoals een vergrootglas en schermlezer zorgen ervoor dat de schermtest toegankelijk is voor zoveel mogelijk mensen. AlphaPlus heeft gewerkt met visueel gehandicapte leerlingen en concluderen dat leerlingen ‘van harte de voorkeur geven aan de online versies’ en zijn niet onder de indruk van toegankelijkheidstools omdat het hun gebruikelijke manier van werken is, en verwelkomen de mogelijkheid om op een computer te werken zoals iedereen.

conclusie

de casestudy van een succesvolle implementatie van nationale CAT ‘ s in het Verenigd Koninkrijk toont aan dat dit type tests kan worden ingevoerd en aanzienlijke voordelen kan hebben ten opzichte van vaste tests, met name in een formatieve setting. Kortere, gepersonaliseerde tests met inhoud die geschikt is voor de leerling, zorgen voor een grotere betrokkenheid van de leerling en een betere leerervaring. De resultaten worden sneller verwerkt, zodat ze kunnen worden beoordeeld met de leerling, terwijl hun evaluatie-ervaring nog vers in hun hoofd is.

psychometrisch geldige resultaten, samen met rijke gegevens over elke kandidaat, geven een beter inzicht in waartoe lerenden in staat zijn, en kunnen, in combinatie met andere indicatoren, het onderwijs en het leren beter informeren en de best mogelijke kansen bieden voor de vooruitgang van de leerling.

in zijn commentaar op het werk met schoolkinderen in Wales verklaarde Roger Murphy, Emeritus hoogleraar onderwijs aan de Universiteit van Nottingham:

“het is een kenmerk van het onderwijssysteem in Wales dat zeer nauwlettend in de gaten wordt gehouden door veel landen over de hele wereld.”

Roger Murphy, Emeritus hoogleraar onderwijs aan de Universiteit van Nottingham

Opgemerkt zij echter dat CAT niet in alle scenario ‘ s geschikt zal zijn. CAT is beperkt tot objectieve vragen types, het beperken van het soort vaardigheden die kunnen worden getest en de algemeen aanvaarde opvatting is dat het produceren van een kat is duur. Misschien, als de assessment technologie vordert nog verder, functionaliteit zoals automatische item generatie zou kunnen verminderen sommige van de kosten implicaties rond het creëren van Grotere item banken. Uiteindelijk moeten de kosten om te produceren worden afgewogen tegen de voordelen om te bepalen of CAT de juiste weg is voor uw testprogramma.

als u meer wilt weten over gepersonaliseerde assessments in Surpass, neem dan contact op met uw Surpass Accountmanager.

Computer Adaptive Testing: Achtergrond, voordelen en case study van een grootschalig nationaal testprogramma