Vývoj a psychometrické hodnocení váhy pro měření profesionální důvěru v manuální medicíně: Rasch přístup k měření
Vývoj váhy
data sbíral z různých neformální studentská skupina rozhovory a kritické hodnocení literatury pomáhal utvářet obsah a cíle sebevědomí váhy a případné důvěru dotazníku. Položky a jejich formát byly vyvinuty po pečlivém přezkoumání souvisejících stupnic a studií zdravotní výchovy, které prokázaly různé způsoby hodnocení profesní sebedůvěry v prostředí vzdělávacích nebo klinických stáží . I když tyto studie neodrážely cíle tohoto výzkumu, poskytly zásadní důkazy týkající se důležitosti profesionální sebedůvěry v programech výchovy ke zdraví. Několik položek bylo také vyvinuto na základě rozsáhlých zkušeností jednoho z autorů v atletickém tréninku, osnovách chiropraxe a fyzikální terapie. Oni byli ti, se zaměřením na schopnost diskutovat o zdraví, rizikové chování (strava, užívání drog, a cvičení), aplikace ortopedické osvěžující, podporuje a nahrávání, a prokazující, rehabilitační postupy.
Proto, předběžný nástroj z 52 položek nebo prohlášení byl vyvinut s hlavním zaměřením na komunikaci pacienta a klinické dovednosti, a (vzhledem k jejich roli v self-důvěry, která byla identifikována prostřednictvím neformální rozhovory a kritické zhodnocení literatury) sekundární zaměření na dohled nad lékaři. Pro každou položku byl použit šestibodový formát odpovědi ve stylu Likert. Kategorie odpovědí byly kódovány od 1 (“nevěří vůbec”) do 6 (“velmi sebevědomý”). Otázky odráží interakcí a zkušeností s pacienty, že studenti byli pravděpodobně setkáte, a to v rozmezí od diskutují obecné otázky zdraví na základní a zaměřil fyzikální vyšetření. Například: “jak jste si jisti svou schopností diskutovat o osobních a / nebo citlivých otázkách s novými pacienty?”; a “jak jste si jisti, že jste schopni provádět základní fyzikální vyšetření, jako je krevní tlak, puls a respirační frekvence u pacienta?”Platnost obsahu byla posouzena panelem pedagogů a výzkumných pracovníků přidružených ke vzdělávacím programům a programům stáží v chiropraxi v Austrálii a ve Spojených státech. Členové panelu byli požádáni, aby přezkoumali měřítko a komentovali každou položku a celkový formát. Navrhli drobné změny pro několik položek, a doporučil zahrnutí demografické sekce a sekce sebereflexe, která vyzvala studenty, aby kvalifikovali své odpovědi.
stupnice byla rozdělena na dvě části. Jedna část stupnice se zaměřila na komunikaci s pacientem a označila stupnici důvěry v komunikaci s pacientem (PCC). Druhá část se zaměřila na klinické dovednosti, označená jako Clinical Skills Confidence Scale (CSCS). Dvě váhy představují různé aspekty self-důvěry, z nichž oba jsou důležité, a další diagnostické informace o těchto dvou hledisek by mohla být získané měřením nich samostatně, a tak budou moci vidět, zda úrovně se liší. Pokud by se úrovně těchto dvou aspektů lišily, mohly by být různé strategie výuky zaměřeny na rozvoj každého aspektu. Je empirickou otázkou, zda by tyto dvě stupnice mohly být koncipovány jako představující stejný konstrukt a pro některé účely může být jediné skóre vše, co je zapotřebí k rozhodování o výuce a učení. V tomto případě se však výzkum zaměřil na získání informací o každém ze dvou aspektů, protože každý z nich je nezbytný a pravděpodobně bude vyžadovat různé strategie k jejich řešení.
Na pomoc s procesu validace, dvě stávající platné a spolehlivé váhy byly začleněny, Osobní Zprávy, Komunikace, Zadržení (PRCA-24) a Obecné Self-účinnost (GSE) váhy. Stupnice PRCA-24 měří pocity z komunikace s ostatními. V této studii však byla použita pouze jedna podkategorie (interpersonální komunikace), protože ostatní podkategorie se v klinických kontextech obvykle nenacházejí. Předchozí výzkum prokázal obsah, kritérium, a konstruovat platnost PRCA-24 . GSE měřítku bylo přidáno shromáždit údaje o generalizované self-účinnost studentů, a porovnat jejich obecné self-účinnost a konkrétní úkol související s self-účinnost opatření. Předchozí výzkum ukazuje, že GSE je spolehlivá stupnice s konvergentní a diskriminační platností, s koeficienty spolehlivosti alfa v rozmezí od .75 až .90 . Očekávalo se, že PCCS a CSCS by korelují pozitivně s GSE a negativně s PRCA-24 Mezilidské komunikace sub-scale; avšak tyto korelace nebyly očekává, že bude velmi vysoká, protože PRCA-24 a GSE jsou navrženy tak, aby posouzení konstrukce, které jsou podobné, ale ne totožný k sebevědomí. Závěrečný dotazník spolehlivosti (CQ) obsahoval následující:
-
Obecná stupnice vlastní účinnosti (GSE).
-
Personal Report of Communication Apprehension Scale (PRCA-24), interpersonal communication sub-scale.
-
stupnice spolehlivosti komunikace pacientů (PCC), 28 položek, 6 kategorií odpovědí, žádné reverzní položky.
-
stupnice spolehlivosti klinických dovedností (CSCS), 27 položek, 6 kategorií odpovědí, žádné reverzní položky.
-
sekce sebereflexe.
-
demografická sekce.
položky PCC zahrnovaly devět aspektů komunikace s pacienty, jako je podpora změny chování, užívání historie, vysvětlování, a podporovat. CSC se zabývaly osmi aspekty důvěry v klinické dovednosti, jako jsou manipulativní, rentgenové a fyzikální vyšetřovací postupy.
Účastníků a dotazník správy
Účastníci včetně sedmi kohort chiropraxe studentů (n = 269) se zapsal na stáže do institucí terciárního vzdělávání v Austrálii a Spojených Státech. Všechny kohorty měly srovnatelné klinické osnovy, které poskytovaly podobné odborné zkušenosti, jako je záznam historie pacientů, a hodnocení pod dohledem a léčba pacientů. Bylo získáno schválení lidské etiky a souhlas studentů. CQ byl podáván na začátku studentů na klinické stáže a se opakuje o pět měsíců později (jedna kohorta—není možné otestovat všechny kohorty v této době), a zase deset měsíců později (všechny kohorty). Údaje pouze z první a třetí příležitosti (začátek studie a o deset měsíců později) byly použity ke zkoumání platnosti a spolehlivosti PCC a CSC. Kombinace dat tímto způsobem je akceptovaným postupem umožněným vlastnostmi invariantních srovnání modelu Rasch. Legitimita postupu může být testována empiricky pomocí diferenciálního fungování položky (DIF).
analýza Dat
odpovědi Studentů na 269 vrácené dotazníky v průběhu dvou případech byly předloženy k psychometrické analýze pomocí polytomous Rasch model (PRM) , a to prostřednictvím Rasch Zjednodušený Model Měření software RUMM2030 . Tento model byl použit ke zjištění, zda byly obě nové stupnice úspěšně provozovány, a posoudit aspekty platnosti a spolehlivosti vah . Raschův model byl vybrán, protože je to jediný měřicí model ve společenských vědách, který má žádoucí škálovací vlastnosti invariance srovnání . Model vyžaduje, aby srovnání mezi dvěma osobami z dané třídy osob, které by měly být nezávislé na položky, které v dané třídě položky jsou vybrány pro srovnání a srovnání jakýchkoli dvou položek z dané třídy položek, by měly být nezávislé na osoby, které v danou třídu osob, které jsou vybrány, aby se srovnání . Podrobnější vysvětlení paradigmatu a postupů Rasch viz například Andrich, Andrich a Styles, Bond a Fox a online příručka pro software RUMM2030 . Pro mnoho vědců představuje paradigma Rasch pokrok v klasické teorii testů . V obou teoriích, například, celkové skóre osoby na nástroji je relevantní statistika reprezentovat postavení osoby na proměnné nebo majetku zájmu. Nicméně, syrové skóre používané v klasické testové teorie nejsou linearizovaný (jsou linearizovaný v Rasch měření) a neměla by být zacházeno jako měření.
Model Rasch lze použít ke zkoumání chyb nebo problémů indikovaných selháním modelu . Ukazuje, že položka je odpovědí (údajů) fit modelu je zkratka pro závěr, že položka funguje v souladu s ostatními předměty v rozsahu charakterizovat jedinou proměnnou, shrnuté do Rasch model. Proto, pokud odpovědi na sadu položek v měřítku fit Rasch model, jsou stanoveny jako vnitřně konzistentní—což je předpokladem pro potvrzení postavit platnosti. Dále pak mohou být opatření pro osoby oprávněně použita v základních matematických operacích (jako je sčítání) a podrobena tak standardním statistickým postupům. Pokud data odpovídají modelu, jsou přítomny dvě důležité vlastnosti: za prvé, opatření účastníků budou v lineárním měřítku; a za druhé, opatření budou neměnná (relativní uspořádání položek a osob bude stejné bez ohledu na to, které položky se používají k porovnání osob, a bez ohledu na to, které osoby se používají k porovnání položek). Kromě toho zkoumání diferenciálního fungování položky poskytne důkaz o tom, zda jsou opatření invariantní (v podstatě, zda představují stejný konstrukt) napříč určenými skupinami, pro které bylo potvrzeno fit .
V Rasch model, relevantní statistiky pro každou osobu, je prostě celkové skóre napříč předměty, kde výsledky jsou po sobě jdoucí celá čísla přiřazena po sobě jdoucích kategorií, která je stejná statistika, jako tradičně. Některé položky mohou být dichotomické a některé mohou mít více než dvě uspořádané Kategorie. Tato skóre však nejsou sama o sobě lineární a neměla by být obecně považována za měření. Zejména jsou ovlivněny efekty podlahy a stropu, takže rozdíl surového skóre 2, řekněme, v jedné části kontinua konstrukce nepředstavuje stejný rozdíl jako skóre 2 na jiné části kontinua. Transformace surových skóre pomocí modelu Rasch vytváří linearizované skóre pro každou osobu, které lze považovat za měření a použít ve standardních statistických analýzách. Tato linearizovaná skóre jsou známá jako umístění. Formálněji poskytuje Raschův model měření, která jsou kompatibilní se základním nebo aditivním spojovacím měřením studovaným v matematické psychologii .
Raschův model je pravděpodobnostní model, který poskytuje vhodný model pro typická data společenských věd. Pro polytomické položky má rovnice podobu:
kde (i) X ni , je náhodná proměnná odezvy osoby n položka i. a, kde hodnota této proměnné je celé číslo 0, 1, 2, 3, …, m, β n je umístění osoby na proměnné, (δ ik ), k = 1, 2, 3, …, m i je vektor prahových hodnot položky jsem u nichž je pravděpodobnost reakce v sousedních kategorií je totožné, a γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik je součtem čitatele a zajišťuje, že Eq. (1) součty na 1 a je prohlášení o pravděpodobnosti .
software RUMM2030 poskytuje širokou škálu zařízení pro hodnocení kvality položek v měřítku. K vybavení patří několik různých statistických (chi square a log reziduální zkoušky fit) a grafické zkoušky fit (Kategorie a Položky Charakteristické Křivky) mezi daty a model a index spolehlivosti, známý jako Osoba, Oddělení Index (PSI). Program také poskytuje informace o zaměření se na osoby a předměty (ať šíření položky a osoby, místa jsou podobné), a na položku závislosti a možnost smysluplné dílčí váhy přes zbytková položka korelace, reziduální analýza hlavních komponent a sub-scale analýzy. V kombinaci, tyto informace se používají ke zjištění kvality měřítka a k identifikaci anomálií v datech, což může vést k hlubšímu porozumění měřené konstrukci nebo vlastnosti.
jak bylo uvedeno v úvodu, analýza dat se zabývala třemi primárními cíli, z nichž prvním bylo stanovení vnitřní konzistence a spolehlivosti každé stupnice. Jinými slovy, představují sady položek každý jeden konstrukt na této úrovni měřítka? Pokud ano, pak je oprávněné v přidávání skóre, aby se získal celkový skóre na každé úrovni, a pak pomocí těchto celkového skóre (nebo jejich linearizovaný ekvivalenty známý jako míst) pro další statistické testy, jako je srovnání průměrné skóre mezi skupinami nebo v čase.
druhým cílem bylo zjistit, zda položky z každé stupnice mají stejné psychometrické vlastnosti napříč různými skupinami účastníků: to se nazývá Diferenciální Položky Fungování (DIF) a to určuje, zda položky, které mají podobné psychometrické vlastnosti různých skupin účastníků, to znamená, zda položky mají invariantní vlastnosti celé skupiny. Pokud položky ukazují rozdíl mezi skupinami, neměly by být použity k porovnání výkonu osoby, pokud jednotlivci nejsou ze stejné skupiny. V této studii, zájmových skupin byly pohlaví, věk, zkušenosti s profesí, vstupní kvalifikace (předchozí titul nebo ne) a příležitosti správy.
třetím cílem bylo poskytnout důkazy o konvergentní validitu PCCS a CSCS tím, že zkoumá jejich statistických korelací se zavedenými GSE a PRCA-24 škál, které posuzují některé aspekty důvěry.
k řešení prvního cíle byly zkoumány různé aspekty stupnic. Prvním aspektem bylo fungování kategorií odpovědí. Prahové hodnoty položek (mezní body mezi každou následující dvojicí kategorií, jako jsou, silně souhlasí a souhlasí) musí být správně uspořádány. Druhým aspektem bylo přizpůsobení každé sady položek modelu Rasch. Pokud položky odpovídají modelu, což je důkazem vnitřní konzistence, mohou být přijaty jako měření jedné proměnné na této úrovni měřítka. K posouzení byly použity dva testy fit – jeden statistický (chí čtverec) a jeden grafický (charakteristické křivky položky, ICC). V paradigmatu Rasch obecně, žádný test fit nestačí k rozhodnutí o fit. Třetím aspektem bylo vzájemné cílení položek a osob: to je stanoveno zkoumáním společného rozdělení umístění položek a osob na stejném kontinuu. Čtvrtý aspekt, závislosti na položkách, byl zkoumán kontrolou zbytkových korelací mezi položkami. Pokud položky vykazují závislost, pak je jedna položka v každém páru nadbytečná a zachování obou uměle zvyšuje spolehlivost. Tyto závislosti mohou také naznačovat přítomnost dílčích stupnic, které lze dále zkoumat pomocí analýzy hlavních složek reziduí. Nakonec je spolehlivost měřena pomocí indexu separace osob (PSI), což je raschův ekvivalent cronbachovy alfa.
řešit druhý cíl – zjistit, zda položky, které působí relativně konzistentně napříč různými skupinami, diferenciální položky fungování celé skupiny na Pohlaví, Věku, Předchozí Zkušenosti, Vstupní kvalifikace a Příležitosti byla zkoumána.
a Konečně, na adresu třetí cíl poskytnout další důkaz platnosti (tentokrát konvergentní validita), studenta skóre na škálách byly korelovány s výsledky ze stejné studenty na dvě stávající váhy, které měří konstrukty související se ale liší od důvěry a jehož platnost byla stanovena v odborné literatuře, a sice, GSE a PRCA-24 (interpersonální komunikace).
výsledky těchto analýz poskytují informace o platnosti a spolehlivosti obou stupnic. Pokud tyto jsou uspokojivé, osoby, místa (linearizovaný syrové skóre) může být použit pro další analýzy jako například srovnání průměrné skóre (osoby, místa) pro různé zájmové skupiny, a šetření, změny v mysli lokality v průběhu času.