opracowanie i ocena psychometryczna wag do pomiaru zaufania zawodowego w medycynie manualnej: podejście do pomiaru Rasch
opracowanie wag
dane zebrane z różnych nieformalnych wywiadów grup studenckich i krytycznych recenzji literatury pomogły ukształtować treść i cele wag pewności siebie i ostatecznego kwestionariusza zaufania. Elementy i ich format zostały opracowane po dokładnym przeglądzie powiązanych skal i badań nad edukacją zdrowotną, które wykazały różne sposoby oceny pewności siebie w środowisku edukacyjnym lub klinicznym. Chociaż badania te nie odzwierciedlają celów obecnych badań, dostarczyły istotnych dowodów dotyczących znaczenia profesjonalnej pewności siebie w programach edukacji zdrowotnej. Kilka pozycji zostało również opracowanych w oparciu o bogate doświadczenie jednego z autorów w szkoleniu sportowym, chiropraktyce i fizykoterapii. Były to osoby, które skupiały się na możliwości omówienia zachowań zagrażających zdrowiu (dieta, zażywanie narkotyków i ćwiczenia fizyczne), stosowaniu usztywnień ortopedycznych, podpór i tapingu oraz demonstrowaniu procedur rehabilitacyjnych.
w związku z tym opracowano wstępny instrument składający się z 52 pozycji lub stwierdzeń, skupiający się głównie na komunikacji z pacjentem i umiejętnościach klinicznych oraz (ze względu na ich rolę w pewności siebie, co zostało zidentyfikowane poprzez nieformalne wywiady i krytyczny przegląd literatury) drugorzędny nacisk na nadzorowanie klinicystów. Zastosowano sześciopunktowy format odpowiedzi w stylu Likerta dla każdego elementu. Kategorie odpowiedzi zostały zakodowane od 1 (“w ogóle nie pewny siebie”) do 6 (“bardzo pewny siebie”). Pytania odzwierciedlały interakcje i doświadczenia z pacjentami, z którymi uczniowie mogli się spotkać, i wahały się od omówienia ogólnych problemów zdrowotnych do wykonania podstawowych i skoncentrowanych procedur badania fizykalnego. Na przykład: “jak bardzo jesteś pewny swojej zdolności do omawiania osobistych i / lub wrażliwych problemów z nowymi pacjentami?”; i ” jak bardzo jesteś pewny swojej zdolności do wykonywania podstawowych procedur badania fizykalnego, takich jak ciśnienie krwi, tętno i częstość oddechu u pacjenta?”Ważność treści została oceniona przez panel edukatorów i naukowców powiązanych z programami edukacyjnymi i programami stażowymi w zakresie chiropraktyki w Australii i Stanach Zjednoczonych. Członkowie panelu zostali poproszeni o zapoznanie się ze skalą i skomentowanie każdego elementu oraz ogólnego formatu. Zaproponowali drobne zmiany w kilku elementach i zalecili włączenie sekcji demograficznej i sekcji autorefleksji, która zaprosiła uczniów do zakwalifikowania swoich odpowiedzi.
skala została podzielona na dwie części. Jedna część skali koncentrowała się na komunikacji z pacjentem, oznaczona była skalą zaufania do komunikacji z pacjentem (PCCS). Druga część skupiała się na umiejętnościach klinicznych, oznaczała skalę zaufania do umiejętności klinicznych (ang. Clinical Skills Confidence Scale, CSCS). Obie skale reprezentują różne aspekty pewności siebie, z których obie są ważne, a więcej informacji diagnostycznych na temat tych dwóch różnych aspektów można uzyskać, mierząc je osobno, a tym samym będąc w stanie zobaczyć, czy poziomy się różnią. Gdyby poziomy w obu aspektach miały się różnić, różne strategie nauczania mogłyby być ukierunkowane na rozwój każdego aspektu. Jest to empiryczne pytanie, czy dwie skale mogą być pomyślane jako reprezentujące tę samą konstrukcję i dla niektórych celów jeden wynik może być wszystkim, co jest wymagane do podejmowania decyzji w zakresie nauczania i uczenia się. Jednak w tym przypadku badania miały na celu uzyskanie informacji na temat każdego z dwóch aspektów, ponieważ każdy z nich jest niezbędny i może wymagać różnych strategii ich rozwiązania.
aby pomóc w procesie walidacji, zastosowano dwie istniejące ważne i niezawodne skale: osobisty raport z obawy przed komunikacją (PRCA-24) i ogólna Skala własnej skuteczności (GSE). Skala PRCA-24 mierzy uczucia związane z komunikowaniem się z innymi. Jednak tylko jedna Podkategoria (komunikacja interpersonalna) została wykorzystana w tym badaniu, ponieważ inne podkategorie nie są zwykle spotykane w kontekstach klinicznych. Wcześniejsze badania wykazały treść, kryterium i ważność konstrukcji PRCA-24 . Skala GSE została dodana w celu zebrania danych dotyczących ogólnej samowystarczalności uczniów oraz porównania ich ogólnej samowystarczalności i specyficznych, zadaniowych miar samowystarczalności. Poprzednie badania pokazują, że GSE jest wiarygodną skalą o zbieżnej i rozróżniającej ważności, o współczynnikach niezawodności Alfa od .75 do .90 . Spodziewano się, że PCCS i CSCS będą korelować dodatnio z GSE i ujemnie z prca-24 komunikacja interpersonalna sub-scale; jednak, te korelacje nie powinny być bardzo wysokie, ponieważ PRCA-24 i GSE są zaprojektowane do oceny konstruktów, które są podobne, ale nie identyczne do pewności siebie. Ostateczny kwestionariusz zaufania (CQ) zawierał następujące elementy:
-
Ogólna Skala własnej skuteczności (GSE).
-
Personal Report of Communication Apprehension Scale (PRCA-24), subskala komunikacji interpersonalnej.
-
Skala zaufania do komunikacji pacjenta (PCCS), 28 elementów, 6 kategorii odpowiedzi, Brak elementów odwrotnych.
-
Clinical Skills Confidence Scale (CSCS), 27 pozycji, 6 kategorii odpowiedzi, brak pozycji odwrotnych.
-
sekcja autorefleksji.
-
sekcja Demograficzna.
elementy PCCS obejmowały dziewięć aspektów komunikacji z pacjentem, takich jak zachęcanie do zmiany zachowania, historia podejmowania, wyjaśnianie i wspieranie. CSCS dotyczyły ośmiu aspektów zaufania do umiejętności klinicznych, takich jak manipulacja, rentgenowskie i procedury badania fizykalnego.
uczestnicy i administracja kwestionariusza
uczestnicy stanowili siedem kohort studentów chiropraktyki (n = 269) uczestniczących w stażach w uczelniach wyższych w Australii i Stanach Zjednoczonych. Wszystkie kohorty miały porównywalne programy nauczania, które zapewniały podobne doświadczenia zawodowe, takie jak rejestrowanie historii pacjentów oraz nadzorowana Ocena i leczenie pacjentów. Uzyskano akceptację etyki ludzkiej i zgodę ucznia. CQ podano na początku staży klinicznych studentów i powtórzono pięć miesięcy później (jedna kohorta—ponowne badanie wszystkich kohort w tym czasie nie było możliwe) i ponownie dziesięć miesięcy później (wszystkie kohorty). Dane pochodzące tylko z pierwszej i trzeciej okazji (początek badania i dziesięć miesięcy później) zostały wykorzystane do zbadania ważności i wiarygodności PCCS i CSCS. Łączenie danych w ten sposób jest przyjętą procedurą umożliwioną przez właściwości modelu Rasch porównań niezmienniczych. Zasadność procedury można sprawdzić empirycznie przy użyciu funkcji różnicowej (DIF).
analiza danych
odpowiedzi uczniów na 269 przesłanych kwestionariuszy dwukrotnie zostały przekazane do analizy psychometrycznej przy użyciu politomous Rasch model (PRM) , za pośrednictwem oprogramowania rasch Unidimensional Measurement Model RUMM2030 . Model ten został wykorzystany do ustalenia, czy dwie nowe wagi zostały pomyślnie wdrożone, oraz do oceny aspektów ważności i wiarygodności wag . Model Rasch został wybrany, ponieważ jest to jedyny model pomiarowy w naukach społecznych, który ma pożądane właściwości skalowania niezmienności porównań . Model ten wymaga, aby porównanie dowolnych dwóch osób z danej klasy osób było niezależne od tego, które przedmioty z danej klasy przedmiotów są wybrane do porównania, a porównanie dowolnych dwóch przedmiotów z danej klasy przedmiotów powinno być niezależne od tego, które osoby z danej klasy osób są wybrane do porównania . Aby uzyskać bardziej szczegółowe wyjaśnienia paradygmatu i procedur Rasch, zobacz, na przykład, Andrich, Andrich and Styles, Bond I Fox oraz Podręcznik online dla oprogramowania RUMM2030 . Dla wielu badaczy paradygmat Rasch stanowi postęp w klasycznej teorii testów . W obu teoriach, na przykład, całkowity wynik osoby na instrumencie jest odpowiednią statystyką reprezentującą pozycję osoby na zmiennej lub nieruchomości będącej przedmiotem zainteresowania. Wyniki surowe stosowane w klasycznej teorii badań nie są jednak linearyzowane (są linearyzowane w pomiarach Raszla) i nie powinny być traktowane jako pomiary.
Model Rasch może być używany do sprawdzania danych pod kątem wad lub problemów wskazywanych przez brak dopasowania modelu . Wykazanie, że odpowiedzi pozycji (dane) pasują do modelu, jest skrótem do wniosku, że pozycja działa konsekwentnie z innymi pozycjami w skali, aby scharakteryzować pojedynczą zmienną, jak podsumowano w modelu Rasch. W związku z tym, jeśli odpowiedzi na zestaw elementów w skali pasują do modelu Rasch, są one ustalane jako wewnętrznie spójne—co jest warunkiem wstępnym potwierdzenia trafności konstrukcji. Ponadto środki dla osób mogą być następnie legalnie wykorzystywane w podstawowych operacjach matematycznych (takich jak dodawanie), a tym samym poddawane standardowym procedurom statystycznym. Istnieją dwie ważne właściwości, jeśli dane pasują do modelu: po pierwsze, miary uczestników będą w skali liniowej; po drugie, miary będą niezmienne (względna kolejność przedmiotów i osób będzie taka sama, bez względu na to, które przedmioty są używane do porównywania osób, i bez względu na to, które osoby są używane do porównywania przedmiotów). Ponadto badanie funkcjonowania elementu różnicowego dostarczy dowodów na to, czy miary są niezmienne (zasadniczo, czy reprezentują tę samą konstrukcję) w wyznaczonych grupach, dla których potwierdzono dopasowanie .
w modelu Rasch, odpowiednią statystyką dla każdej osoby jest po prostu całkowity wynik w poszczególnych pozycjach, gdzie wyniki są kolejnymi liczbami całkowitymi przypisanymi do kolejnych kategorii, co jest tą samą statystyką, co ta używana tradycyjnie. Niektóre pozycje mogą być dychotomiczne, a niektóre mogą mieć więcej niż dwie uporządkowane kategorie. Wyniki te nie są jednak same w sobie liniowe i na ogół nie powinny być traktowane jako pomiary. W szczególności, na nie wpływają efekty podłogi i sufitu, tak że różnica wyniku surowego wynosząca 2, powiedzmy, w jednej części kontinuum konstruktu nie reprezentuje takiej samej różnicy jak wynik 2 w innej części kontinuum. Transformacja wyników surowych przy użyciu modelu Rasch daje liniowość wyników dla każdej osoby, które mogą być traktowane jako pomiary i wykorzystywane w standardowych analizach statystycznych. Te zlinearyzowane wyniki są znane jako lokalizacje. Bardziej formalnie, Model Rasch zapewnia pomiary, które są zgodne z podstawowym lub addytywnym pomiarem zespolonym badanym w psychologii matematycznej .
Model Rasch jest probabilistyczny, który zapewnia odpowiedni model dla typowych danych z nauk społecznych. Dla elementów politomowych równanie przyjmuje postać:
gdzie (i) x ni, jest zmienną losową odpowiedzi osoby n na pozycję i i gdzie wartość tej zmiennej jest liczbą całkowitą 0, 1, 2, 3, …, m, β n jest położeniem osoby na zmiennej, (δ IK), k = 1, 2, 3,…, m i jest wektorem progów pozycji i, przy których prawdopodobieństwo odpowiedzi w sąsiednich kategoriach jest identyczne, a γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ IK jest sumą liczników i zapewnia, że Eq. (1) sumuje się do 1 i jest stwierdzeniem prawdopodobieństwa .
oprogramowanie RUMM2030 zapewnia szeroki zakres udogodnień do oceny jakości przedmiotów w skali. Obiekty obejmują kilka różnych statystycznych (chi kwadrat i log badania szczątkowe dopasowania) i graficzne testy dopasowania (krzywe charakterystyczne kategorii i elementów) między danymi a modelem, a także wskaźnik niezawodności, znany jako wskaźnik separacji osób (psi). Program dostarcza również informacji na temat kierowania osób i przedmiotów (czy rozprzestrzenianie się pozycji i lokalizacji osób są podobne) oraz na temat zależności pozycji i możliwości znaczących sub-skal poprzez korelacje resztkowe pozycji, szczątkową analizę głównego składnika i analizę podskalową. W połączeniu informacje te są wykorzystywane do ustalenia jakości skali i identyfikacji anomalii w danych, które mogą prowadzić do głębszego zrozumienia konstrukcji lub mierzone właściwości.
jak wspomniano we wstępie, analiza danych dotyczyła trzech głównych celów, z których pierwszym było ustalenie wewnętrznej spójności i wiarygodności każdej skali. Innymi słowy, czy zestawy przedmiotów reprezentują jeden konstrukt na tym poziomie skali? Jeśli tak, to jeden jest uzasadnione w dodawanie wyników w celu uzyskania całkowitego wyniku w każdej skali, a następnie za pomocą tych wyników całkowitych (lub ich zlinearyzowanych odpowiedników znanych jako lokalizacje) dla innych testów statystycznych, takich jak porównania średnich wyników między grupami lub w czasie.
drugim celem było określenie, czy elementy każdej skali mają te same właściwości psychometryczne w różnych grupach uczestników: jest to określane jako funkcja różnicowa (Dif) i określa, czy elementy mają podobne właściwości psychometryczne w różnych grupach uczestników, to znaczy, czy elementy mają niezmienne właściwości w różnych grupach. Jeśli elementy pokazują różnice między grupami, nie należy ich używać do porównywania wyników osób, chyba że osoby pochodzą z tej samej grupy. W badaniu tym, grupy zainteresowań były płeć, wiek, doświadczenie w zawodzie, kwalifikacja wstępna (poprzedni stopień lub nie) i okazja administracji.
trzecim celem było dostarczenie dowodów na zbieżność ważności PCCS i CSCS poprzez zbadanie ich korelacji statystycznych z ustalonymi skalami GSE i PRCA-24, które oceniają niektóre aspekty zaufania.
aby rozwiązać pierwszy cel, zbadano różne aspekty skal. Pierwszym aspektem było działanie kategorii odpowiedzi. Progi pozycji (punkty cięcia między każdą kolejną parą kategorii, takie jak, zdecydowanie zgadzają się i zgadzają) są wymagane do prawidłowego uporządkowania. Drugim aspektem było dopasowanie każdego zestawu elementów do modelu Rasch. Jeśli elementy pasują do modelu, co świadczy o wewnętrznej spójności, można je przyjąć jako pomiar pojedynczej zmiennej na tym poziomie skali. Do oceny wykorzystano dwa testy dopasowania – jeden statystyczny (kwadrat chi) i jeden graficzny (krzywe charakterystyczne elementu, ICCs). W paradygmacie Rasch ogólnie rzecz biorąc, żaden test dopasowania nie jest wystarczający do podjęcia decyzji o dopasowaniu. Trzecim aspektem było kierowanie przedmiotów i osób do siebie: jest to ustalane przez badanie wspólnego podziału pozycji przedmiotu i osoby w tym samym kontinuum. Czwarty aspekt, zależności pozycji, został zbadany przez Inspekcję pozostałych korelacji między pozycjami. Jeśli elementy wykazują zależność, wtedy jeden element w każdej parze jest zbędny i zachowanie obu sztucznie zwiększa niezawodność. Takie zależności mogą również wskazywać na obecność podskali, które mogą być dalej badane poprzez główną analizę składową pozostałości. Wreszcie, niezawodność jest mierzona za pomocą wskaźnika separacji osób (psi), który jest odpowiednikiem rasch Alfa cronbacha.
w celu realizacji drugiego celu – ustalenia, czy pozycje funkcjonują względnie konsekwentnie w różnych grupach, zbadano różną pozycję funkcjonującą w różnych grupach pod względem płci, wieku, wcześniejszego doświadczenia, kwalifikacji i okazji wejścia.
wreszcie, aby rozwiązać trzeci cel, jakim jest dostarczenie dalszych dowodów ważności (tym razem zbieżnej ważności), wyniki uczniów na skalach zostały skorelowane z wynikami tych samych uczniów na dwóch istniejących skalach, które mierzą konstrukcje związane z zaufaniem, ale różne od zaufania i których ważność została ustalona w literaturze badawczej, a mianowicie GSE i PRCA-24 (komunikacja interpersonalna).
wyniki tych analiz dostarczają informacji o ważności i wiarygodności obu skal. Jeśli wyniki te są zadowalające, lokalizacje osób (zlinearyzowane wyniki surowe) można wykorzystać do dalszych analiz, na przykład do porównania średnich wyników (lokalizacje osób) dla różnych grup interesów oraz do badania zmian średnich lokalizacji w czasie.