Computer Adaptive Testing: Background, benefits and case study of a large-scale national testing programme

Computer Adaptive Testing (CAT) to gorący temat wśród społeczności oceniającej, jednak pomimo wielu korzyści nadal nie jest szeroko stosowany. W tym artykule przedstawimy przegląd CAT, omówienie niektórych korzyści i bez zbytniego żargonu przegląd technologii stojących za nim. Aby pomóc w jego kontekstualizacji, przedstawimy najnowsze studium przypadku, w jaki sposób technologia CAT W Surpass została wykorzystana do stworzenia innowacyjnego krajowego spersonalizowanego programu oceny, który zmienia kształt Edukacji Narodowej.

co to jest komputerowy Test adaptacyjny?
jak wygląda komputerowy Test adaptacyjny dla kandydata?
jak działa komputerowy Test adaptacyjny w Surpass?
jakie są zalety testów CAT w porównaniu z testami papierowymi?
dokładne informacje dla kandydatów o wszystkich umiejętnościach
zmniejszenie obciążenia pracą nauczycieli
potencjał testów na żądanie
dokładniejsze informacje zwrotne, które można uzyskać natychmiast
zaangażowanie uczniów
Korzystanie z CAT do ogólnokrajowego programu badań na dużą skalę w Wielkiej Brytanii: Studium przypadku
jak ten nowy sposób testowania został przyjęty przez nauczycieli?
w jaki sposób uczniowie otrzymali spersonalizowane oceny?
podsumowanie

co to jest komputerowy Test adaptacyjny?

mówiąc prościej, komputerowy Test adaptacyjny (czasami określany jako spersonalizowana ocena) to test, który dostosowuje się do zdolności kandydata w czasie rzeczywistym, wybierając różne pytania z banku w celu zapewnienia dokładniejszego pomiaru poziomu jego umiejętności na wspólną skalę.

jak wygląda komputerowy Test adaptacyjny dla kandydata?

spersonalizowana ocena wyciąga pytania z dużej puli elementów, które zostały starannie skalibrowane w celu określenia ich poziomu trudności (więcej na ten temat w następnej sekcji).

kiedy kandydat rozpoczyna swój test, najpierw otrzymuje element o średnim stopniu trudności uznany za odpowiedni dla swojej grupy rocznej. Jeśli dobrze zadają to pytanie, następny przedmiot, który zobaczą, będzie nieco trudniejszy, jeśli się myli, zobaczy nieco łatwiejszy przedmiot. System stale oblicza szacowaną zdolność kandydata w zależności od tego, co robi dobrze, a co nie, i przedstawia mu spersonalizowany zestaw elementów, dopóki poziom zaufania do oszacowania zdolności nie przekroczy wcześniej określonego poziomu (lub zostanie przedstawiona Maksymalna liczba pytań) i test się nie skończy. Ponieważ każdy uczeń przechodzi przez test inną ścieżką, z innym zestawem pytań, może potencjalnie otrzymać testy o innej długości.

w przeciwieństwie do testu liniowego, który w niektórych scenariuszach daje tylko przydatne wyniki dla uczniów o średnich umiejętnościach, z indywidualną oceną, wszystkie elementy przedstawione kandydatowi są zaprojektowane tak, aby stanowiły wyzwanie; liczba łatwych elementów, które są prezentowane kandydatom o wysokich umiejętnościach, jest zmniejszona, podobnie jak liczba trudnych pytań dla kandydatów o niskich umiejętnościach, ponieważ żadne z nich nie daje wyraźnego wskazania zdolności tych uczniów.

ponieważ wszystko jest punktowane w czasie rzeczywistym, na koniec testu kandydat może otrzymać natychmiastową informację zwrotną w postaci oświadczeń o umiejętnościach, w przeciwieństwie do surowego wyniku lub oceny, która dostarcza faktycznych informacji na temat swoich mocnych i słabych stron w oparciu o pytania, na które odpowiedział.

jak działa komputerowy Test adaptacyjny w Surpass?

aby kot mógł pracować, potrzebuje wiarygodnych danych i wszechstronnego banku artykułów z dobrym zasięgiem treści i poziomem trudności. Oznacza to, że bank artykułów musi najpierw zostać skalibrowany poprzez wstępne testy. Jest to jedna z kluczowych barier dla CAT, ponieważ jest to większy bank przedmiotów i wymaga intensywnej pracy, aby uzyskać wiarygodne dane przed przeprowadzeniem testów na żywo. Ogólna zasada jest taka, że element musi być wystawiony co najmniej 200 razy, zanim wiarygodne dane mogą być generowane. Korzystając z tych danych ekspozycji, teoria odpowiedzi pozycji (item Response Theory, IRT) jest następnie używana do obliczania parametrów IRT dla każdej z pozycji w banku. Te parametry IRT obejmują trudność elementu i dyskryminację elementu, tj. czynnik, który określa, ile wzrost zdolności kandydata będzie miał na prawdopodobieństwo ich uzyskania tego elementu poprawne. W Surpass wartości te są dołączane do elementów jako znaczniki.

generowany jest “plan testu”, który określa takie czynniki, jak pokrycie treści testu. Można również określić wiele innych parametrów, w tym minimalną i maksymalną liczbę elementów do prezentowania i zatrzymywania warunków. Tworzona jest pula elementów, która zawiera wszystkie elementy, które mogą pojawić się w teście.

podczas gdy w teście liniowym system wie, które elementy zostaną dostarczone przed rozpoczęciem testu, w teście adaptacyjnym algorytm wybiera następny element w czasie rzeczywistym, w momencie, gdy kandydat kliknie przycisk “Następny” w sterowniku testowym. Algorytm działa zgodnie z planem, aby zapewnić dobre pokrycie wszystkich obszarów zawartości i kontroluje ekspozycję przedmiotów w całym banku (tak, że niektóre przedmioty nie są prezentowane częściej niż inne), co oznacza, że cały bank przedmiotów jest najbardziej efektywnie wykorzystywany. Algorytm może obsługiwać do trzech parametrów IRT-trudności, dyskryminacji i zgadywania.

w Surpass cała ta sprytna logika dzieje się w ciągu zaledwie 300 milisekund od wybrania przez ucznia “Next”, aby przejść do następnego pytania, co oznacza, że kandydat nigdy nie ma opóźnienia. Algorytm trwa do momentu oszacowania zdolności kandydata do wymaganego poziomu dokładności.

zespół Surpass ciężko pracował, aby zapewnić, że system może obsługiwać te duże ilości danych bez wpływu na wydajność. Wykorzystano aplikacje Microsoft Azure, które są automatycznie skalowalne w zależności od przewidywanych woluminów, a przepustowość (liczba żądań na sekundę) została przetestowana na woluminach znacznie wyższych niż te, które są obecnie dostarczane.

jedną z kluczowych zalet oceny adaptacyjnej dostarczanej przez Surpass jest to, że nie tylko można korzystać ze standardowej funkcji raportowania, ale również niestandardowe raporty mogą być definiowane i generowane za pośrednictwem interfejsu API Surpass, wykorzystując wszystkie bogate dane uzyskane z testu adaptacyjnego. Raporty mogą pokazywać Indywidualne Podróże kandydata w trakcie testu, a także raportowanie na poziomie grupy lub klasy, a nawet na poziomie krajowym.

jakie są zalety testów CAT w porównaniu z testami papierowymi?

CAT ma wiele zalet w porównaniu z testami papierowymi do oceny formatywnej (pod warunkiem, że bank przedmiotów został odpowiednio skalibrowany), w tym:

dokładne informacje dla kandydatów o wszystkich umiejętnościach

tradycyjne testy liniowe, w których wszyscy kandydaci otrzymują ten sam zestaw przedmiotów, tylko naprawdę stanowią wyzwanie dla środkowej trzeciej osoby uczącej się. Kot został zaprojektowany, aby rzucić wyzwanie uczniom na wszystkich poziomach umiejętności, zapewniając wszystkim dokładny i użyteczny obraz szczuplejszych umiejętności.

zmniejszenie obciążenia pracą nauczycieli

wiele testów na poziomie szkolnym jest nadal dostarczanych w formie papierowej, co przedstawia znaczne obciążenie pracą nauczycieli z oznaczaniem i administrowaniem wynikami. Natychmiastowa Punktacja i dokładne informacje zwrotne od ucznia dają nauczycielom więcej czasu na skupienie się na nauczaniu i wdrażanie informacji zwrotnych, aby pomóc uczniom w postępach.

potencjał testów na żądanie

dzięki spersonalizowanej ocenie na ekranie nie ma żadnych ograniczeń, które można dostarczyć w oknie testu papierowego, co oznacza, że można je dostarczyć do celów diagnostycznych w dowolnym momencie przez cały rok, gdy nauczyciel uzna, że jest to odpowiednie. Ponieważ każdy uczeń otrzymuje spersonalizowany test, nie ma potrzeby, aby kohorta zdawała test dokładnie w tym samym czasie.

dokładniejsze informacje zwrotne, które można uzyskać natychmiast

dokładniejsze informacje zwrotne można uzyskać natychmiast po teście w formie oświadczeń dotyczących umiejętności opartych na kompetencjach, a nie wyniku. Wskazuje to na obszary, w których kandydaci dobrze się spisali i obszary, w których mogą wymagać poprawy. Ten rodzaj informacji zwrotnej jest bardziej przydatny w ocenie formatywnej, pokazując uczniom, że istnieją obszary, w których należy się rozwijać, lub konstruktywne wskazówki dotyczące tego, gdzie należy poprawić. Nauczyciele mogą również zobaczyć wyniki klasy jako całości, wskazując obszary, na których mogą się skupić.

zaangażowanie uczniów

dzięki pytaniom, które rzucają wyzwanie uczniom o wszystkich umiejętnościach, zaangażowanie uczniów podczas testu jest lepiej utrzymywane. Osoby o niskich osiągnięciach są zachęcane, a osoby o wysokich osiągnięciach są kwestionowane. Oceny adaptacyjne mogą również zająć mniej czasu niż tradycyjne testy liniowe, a dokładny pomiar zdolności osiągany jest w krótszym czasie.

Korzystanie z CAT do ogólnokrajowego programu badań na dużą skalę w Wielkiej Brytanii: Studium przypadku

na konferencji Surpass w 2019 roku Gavin Busuttil-Reynaud z AlphaPlus zaktualizował społeczność Surpass na temat stosowania testów adaptacyjnych wbudowanych w Surpass dla ogólnokrajowego programu testowania na dużą skalę dzieci ze szkół podstawowych i średnich w Walii. Niektóre z kluczowych punktów są podsumowane tutaj, lub można dogonić prezentację w całości, oglądając ten film.

po wprowadzeniu testów krajowych dla uczniów w Walii (Wielka Brytania) w wersji papierowej w 2013 r.na wczesnym etapie przeprowadzono studium wykonalności, aby określić, w jaki sposób można je przeprowadzić na ekranie. W 2018 r. rozpoczęto stopniowe przechodzenie tych testów na komputerowe testy adaptacyjne, z których pierwszym jest liczenie proceduralne, a następnie czytanie i rozumowanie numeryczne. Jest to uważane za rewolucyjne, biorąc pod uwagę, że testy papierowe nadal dominują w globalnych rządowych programach testowania. W 2004 r. Ken Boston, ówczesny szef Urzędu ds. kwalifikacji i programów nauczania, stwierdził, że “ocena ekranowa wkrótce dotknie życia każdego ucznia w kraju”, a jednym z jego celów na najbliższe 5 lat jest: “wszystkie nowe kwalifikacje obejmowałyby opcję oceny ekranowej.”Jak wiemy, po 15 latach nie jest tak, ponieważ wiele kwalifikacji nadal jest dostarczanych wyłącznie na papierze, co sprawia, że osiągnięcia projektu w Walii są jeszcze bardziej godne uwagi, szczególnie w przypadku oceny przed 16 rokiem życia.

tylko w pierwszym roku 268 000 uczniów zdało spersonalizowaną ocenę w zakresie liczenia proceduralnego, która odpowiada 96% kohorty uczniów w latach 2-9 w Walii, co odpowiada wskaźnikowi ukończenia testów papierowych.

wprowadzenie oceny ekranowej spowodowało również znaczne zmniejszenie liczby wymaganych zmodyfikowanych prac. W 2018 roku zamówiono do tego testu ponad 4000 zmodyfikowanych prac, które zostały zredukowane do zaledwie 357 zmodyfikowanych dużych druków i 12 ocen brajlowskich w 2019 roku.

ocena może być zaplanowana samodzielnie, co daje nauczycielom elastyczność w wykorzystywaniu jej do celów diagnostycznych w dowolnym momencie roku. Jednak w pierwszym roku wiele szkół trzymało się tradycyjnego okresu testowania na koniec semestru, chociaż jest możliwe, że ta praktyka zmieni się w przyszłości, gdy nauczyciele będą bardziej zaznajomieni z tymi testami.

jak ten nowy sposób testowania został przyjęty przez nauczycieli?

w tym scenariuszu istnieje wiele korzyści płynących ze spersonalizowanych ocen, jak opisano w sekcji powyżej. Firma AlphaPlus otrzymała od nauczycieli pozytywne opinie na temat pilotażowego programu oceny liczenia proceduralnego, który był przedmiotem niniejszego studium przypadku. Ankieta dla nauczycieli wykazała, że 78% osób uważało, że uczniowie byli zaangażowani, 83% uważało, że oceny były odpowiednio długie, a ponad 60% uznało, że uczący się i raporty zwrotne są przydatne.

jednak podczas prezentacji na konferencji Surpass w 2019 roku Gavin zauważył, że nadal istnieją pewne bariery do pokonania, ponieważ sposób myślenia odchodzi od testów papierowych. Dzięki spersonalizowanej ocenie algorytm zatrzymuje się, gdy może śmiało oszacować zdolność, więc niektórzy uczniowie widzą więcej pytań niż inni, co nie zdarzyłoby się na teście papierowym.

“jest część naszej kultury papieru, która jest tak głęboko zakorzeniona, że uczciwość polega na robieniu dokładnie tego samego dla wszystkich ludzi, nawet jeśli jest to straszne dopasowanie do niektórych z tych ludzi…wiadomość personalizacji nie dotarła jeszcze do wszystkich nauczycieli.”

Gavin Busuttil-Reynaud, AlphaPlus

Ponadto, ponieważ kot został zaprojektowany, aby rzucić wyzwanie osobom uczącym się o wysokich umiejętnościach, kandydatom można przedstawić pytania ze starszych grup wiekowych, których formalnie nie uczono. Podczas gdy celem tego jest pokazanie uczniom, do czego mogą się przejść, a nawet wykazać zdolności wykraczające poza ich grupę wiekową, Gavin kontynuował obserwację:

“niektórzy nauczyciele to akceptują… inni uważają, że to straszne, że uczeń został poproszony o coś, czego nie nauczą się do przyszłego roku i myślą, że ich nauczanie jest oceniane na podstawie czegoś, czego jeszcze nie uczono… wciąż istnieje ogromna podróż kulturowa dla wszystkich, ponieważ te testy są tak różne od obecnej praktyki, ale głównym celem tego wszystkiego jest dostarczenie szczegółowych informacji zwrotnych.”

Gavin Busuttil-Reynaud, Alphaplus

priorytetem tych testów jest informowanie nauczania i uczenia się za pomocą szczegółowych raportów opartych na wszystkich dostępnych danych, mających pomóc nauczycielom zidentyfikować obszary wymagające poprawy, i nie są one wykorzystywane jako środek odpowiedzialności szkoły. W raporcie ucznia Nie podano żadnych punktów, tylko fakty, aby podkreślić mocne i słabe strony.

nauczyciel otrzymuje profil umiejętności dla swojej klasy, wskazujący, na czym skupić się na nauczaniu, dostarczający wiarygodnych danych, a także wykresy podróży ucznia, które pokazują ścieżkę, którą przeszedł przez test i mogą pokazać wzorce zachowań ucznia.

Rob Nicholson, dyrektor Borras Park Community School, którego uczniowie siedzieli te oceny skomentował:

“spersonalizowane oceny mogą być stosowane wraz z innymi formami oceny, które szkoły have…it może być używany do utrwalania wyników i ocen oraz wiedzy o dziecku.”

Rob Nicholson, dyrektor Szkoły Społecznej w Borras Park

w jaki sposób uczniowie otrzymali spersonalizowane oceny?

w przypadku tego projektu zespół był świadomy młodego wieku uczniów, więc kierowca testowy Surpass został dostosowany, aby uprościć interfejs i stworzyć najlepsze możliwe wrażenia. Testy mogły być przeprowadzane na komputerach stacjonarnych, laptopach lub tabletach, co było ważne ze względu na niespójność sprzętu dostępnego w szkołach w całym kraju.

każdy kandydat jest kwestionowany przez zadawane mu pytania, aby mógł wykazać, co wie, a nie to, czego nie wie, dzięki algorytmowi zaprojektowanemu tak, aby uczniowie mieli 50% poprawnych, a 50% błędnych elementów. Po raz pierwszy niektórzy ludzie o wysokich osiągnięciach znaleźli pytania, których nie znali, podczas gdy osoby o niższych osiągnięciach zyskały pewność siebie, będąc w stanie odpowiedzieć na niektóre pytania.

“dla uczących się na dolnym końcu spektrum umiejętności, zazwyczaj, gdy robili test papierowy, mieli gdzieś między 90-95% przedmiotów źle. Co za niewiarygodnie przygnębiające doświadczenie. Ale oni wychodzą z tego testu adaptacyjnego, mogę to zrobić!… A high flyers, którzy przeszli przez test papierowy w dziesięć minut, nagle mówią: “to był trudny test, musiałem pomyśleć” … przynajmniej uświadamiają sobie, że jest coś innego do zrobienia.”

Gavin Busuttil-Reynaud, AlphaPlus

uczniowie nie są na ogół zaskoczeni przejściem do ekranu, jak zauważyła Jenny Jones, wicedyrektor szkoły Społecznej w Borras Park:

“są przyzwyczajeni do pracy w Internecie, są przyzwyczajeni do używania swoich iPadów lub komputerów, więc czują się pewnie, korzystając z nich. To zabawne zajęcie.”

Jenny Jones, wicedyrektor szkoły publicznej w Borras Park

dla osób uczących się z wadą wzroku lub wymaganiami dostępności istnieją również korzyści, które zwykle oznaczałyby, że wymagają one zmodyfikowanej wersji testu papierowego. Jedyną rzeczywistą różnicą jest to, że schematy są dołączone, więc wersja uproszczona lub wersja braille ‘ a jest dołączona do papierowej broszury. Narzędzia ułatwiające dostęp, takie jak Lupa i czytnik ekranu, oznaczają, że test na ekranie jest dostępny dla jak największej liczby osób. AlphaPlus współpracował z uczniami niedowidzącymi i doszedł do wniosku, że uczniowie “z całego serca wolą wersje online” i nie są zaskoczeni narzędziami dostępności, ponieważ jest to ich zwykły sposób pracy, i mile widziane jest możliwość pracy przy komputerze tak samo jak wszyscy inni.

podsumowanie

studium przypadku udanego krajowego wdrożenia CAT w Wielkiej Brytanii pokazuje, że ten rodzaj testów można wprowadzić i może przynieść znaczące korzyści w porównaniu z testami stałymi, szczególnie w Warunkach formatywnych. Krótsze, spersonalizowane testy z odpowiednią dla ucznia treścią zapewniają większe zaangażowanie i lepsze wrażenia. Wyniki są przetwarzane szybciej, dzięki czemu mogą być przeglądane z uczniem, podczas gdy ich doświadczenie w ocenie jest jeszcze świeże w ich umyśle.

psychometrycznie poprawne wyniki wraz z bogatymi danymi na temat każdego kandydata dają lepsze zrozumienie tego, do czego są zdolni uczniowie, a także, w połączeniu z innymi wskaźnikami, mogą lepiej informować o nauczaniu i uczeniu się oraz dawać najlepsze możliwe możliwości rozwoju uczącego się.

komentując pracę z uczniami w Walii, Roger Murphy, Emerytowany profesor edukacji na Uniwersytecie w Nottingham stwierdził:

“jest to cecha Systemu Edukacji w Walii, który jest bardzo uważnie obserwowany przez wiele krajów na całym świecie.”

Roger Murphy, Emerytowany profesor edukacji na Uniwersytecie w Nottingham

jednak należy zauważyć, że CAT nie będzie odpowiedni we wszystkich scenariuszach. CAT ogranicza się do obiektywnych typów pytań, ograniczając rodzaj umiejętności, które można przetestować, a ogólnie przyjęty pogląd jest taki, że wyprodukowanie kota jest kosztowne. Być może, gdy technologia oceny postępuje jeszcze dalej, funkcje takie jak automatyczne generowanie artykułów mogłyby złagodzić niektóre konsekwencje kosztowe związane z tworzeniem większych banków artykułów. Ostatecznie, koszty produkcji muszą być porównane z korzyściami, aby określić, czy CAT jest właściwym rozwiązaniem dla Twojego programu testowego.

jeśli chcesz dowiedzieć się więcej o spersonalizowanych ocenach w Surpass, porozmawiaj z menedżerem konta Surpass.