utveckling och psykometrisk utvärdering av skalor för att mäta professionellt förtroende för manuell medicin: a Rasch measurement approach
utveckling av skalor
data som samlats in från olika informella studentgruppsintervjuer och kritiska litteraturgranskningar hjälpte till att forma innehållet och målen för självförtroende skalor och eventuellt förtroende frågeformulär. Objekt och deras format utvecklades efter noggrann granskning av relaterade skalor och hälsoutbildningsstudier, vilket visade olika sätt att bedöma professionellt självförtroende i utbildnings-eller kliniska praktikinställningar . Även om dessa studier inte speglade målen för den nuvarande forskningen, gav de viktiga bevis för vikten av professionellt självförtroende i hälsoutbildningsprogram. Några artiklar utvecklades också baserat på en av författarnas omfattande erfarenhet av idrottsutbildning, kiropraktik och träningsplaner. De var de som fokuserade på förmågan att diskutera hälsoriskbeteenden (kost, droganvändning och motion), tillämpning av ortopedisk stagning, stöd och tejpning och demonstrera rehabiliterande förfaranden.
följaktligen utvecklades ett preliminärt instrument med 52 artiklar eller uttalanden med primärt fokus på patientkommunikation och kliniska färdigheter och (på grund av deras roll i självförtroende, som identifierades genom informella intervjuer och kritisk granskning av litteratur) ett sekundärt fokus på att övervaka kliniker. Ett sexpunkts svarsformat i Likert-stil för varje objekt användes. Svarskategorier kodades från 1 (“inte säker alls”) till 6 (“mycket säker”). Frågorna återspeglade interaktioner och erfarenheter med patienter som eleverna sannolikt skulle stöta på och varierade från att diskutera allmänna hälsofrågor till att utföra grundläggande och fokuserade fysiska undersökningsförfaranden. Till exempel: “hur säker är du på din förmåga att diskutera personliga och/eller känsliga problem med nya patienter?”; och ” hur säker är du på din förmåga att utföra grundläggande fysiska undersökningsförfaranden som blodtryck, puls och andningsfrekvens på en patient?”Innehållsgiltighet bedömdes av en panel av lärare och forskare anslutna till utbildningsprogram och kiropraktik klinisk utbildning praktikprogram i Australien och USA. Panelmedlemmar ombads att granska skalan och kommentera varje objekt och det övergripande formatet. De föreslog mindre förändringar för några objekt, och rekommenderade införandet av en demografisk avsnitt och en självreflektion avsnitt som uppmanade eleverna att kvalificera sina svar.
skalan var uppdelad i två delar. En del av skalan fokuserade på patientkommunikation, märkt Patient Communication Confidence Scale (PCC). Den andra delen fokuserade på kliniska färdigheter, märkt Clinical Skills Confidence Scale (CSCS). De två skalorna representerar olika aspekter av självförtroende, som båda är viktiga, och mer diagnostisk information om dessa två olika aspekter kan erhållas genom att mäta dem separat och därmed kunna se om nivåerna skiljer sig åt. Om nivåerna på de två aspekterna skulle skilja sig, skulle olika undervisningsstrategier kunna syfta till att utveckla varje aspekt. Det är en empirisk fråga om de två skalorna skulle kunna uppfattas som representerar samma konstruktion och för vissa ändamål en enda poäng kan vara allt som krävs för att göra undervisning och lärande beslut. Men i det här fallet syftade forskningen till att få information om var och en av de två aspekterna eftersom de är väsentliga och sannolikt kommer att kräva olika strategier för att ta itu med dem.
för att hjälpa till med valideringsprocessen införlivades två befintliga giltiga och pålitliga skalor, Personal Report of Communication Apprehension (PRCA-24) och General Self-efficacy (GSE) skalor. PRCA – 24-skalan mäter känslor för att kommunicera med andra. Emellertid användes endast en underkategori (interpersonell kommunikation) i denna studie, eftersom de andra underkategorierna vanligtvis inte påträffas i kliniska sammanhang. Tidigare forskning har visat innehåll, kriterium, och konstruera giltigheten av PRCA-24 . GSE-skalan lades till för att samla in data om elevernas generaliserade själveffektivitet och för att jämföra deras allmänna själveffektivitet och specifika uppgiftsrelaterade själveffektivitetsåtgärder. Tidigare forskning visar att GSE är en pålitlig skala med konvergent och diskriminerande giltighet, med alfa-tillförlitlighetskoefficienter som sträcker sig från .75 till .90 . Det förväntades att PCC och CSC skulle korrelera positivt med GSE och negativt med PRCA-24 interpersonell kommunikation delskala; dessa korrelationer förväntades emellertid inte vara mycket höga eftersom PRCA-24 och GSE är utformade för att bedöma konstruktioner som liknar men inte är identiska med självförtroende. Final confidence questionnaire (CQ) innehöll följande:
-
allmän Self-efficacy Scale (GSE).
-
personlig rapport om kommunikation gripande skala (PRCA-24), interpersonell kommunikation sub-skala.
-
patient Communication Confidence Scale (PCC), 28 artiklar, 6 svarskategorier, inga omvända artiklar.
-
Clinical Skills Confidence Scale (CSCS), 27 artiklar, 6 svarskategorier, inga omvända artiklar.
-
självreflektion avsnitt.
-
demografisk sektion.
PCC-artiklarna täckte nio aspekter av patientkommunikation som att uppmuntra beteendeförändring, historiktagande, förklara och vara stödjande. CSCS behandlade åtta aspekter av förtroende för kliniska färdigheter som manipulerande, röntgen och fysiska undersökningsförfaranden.
deltagare och frågeformulär administration
deltagarna inkluderade sju kohorter av kiropraktikstudenter (n = 269) inskrivna i praktikplatser i tertiära institutioner i Australien och USA. Alla kohorter hade jämförbara kliniska läroplaner som gav liknande yrkeserfarenheter som registrering av patienthistorier och övervakad bedömning och behandling av patienter. Godkännande av mänsklig etik och studentsamtycke erhölls. CQ administrerades i början av elevernas kliniska praktikplatser och upprepades fem månader senare (en kohort—det var inte möjligt att testa alla kohorter vid denna tidpunkt) och igen tio månader senare (alla kohorter). Data från endast första och tredje tillfällen (början av studien och tio månader senare) användes för att undersöka giltigheten och tillförlitligheten hos PCC och CSC. Att kombinera data på detta sätt är ett accepterat förfarande som möjliggörs av Rasch-modellens egenskaper för invarianta jämförelser. Procedurens legitimitet kan testas empiriskt med hjälp av differential item functioning (DIF).
dataanalys
Studentsvar på 269 returnerade frågeformulär vid två tillfällen skickades till psykometrisk analys med hjälp av polytomous Rasch model (PRM) , genom Rasch Unidimensional Measurement Model software RUMM2030 . Denna modell användes för att fastställa om de två nya skalorna hade opererats framgångsrikt och för att bedöma aspekter av skalans giltighet och tillförlitlighet . Rasch-modellen valdes eftersom den är den enda mätmodellen inom samhällsvetenskapen som har de önskvärda skalningsegenskaperna för invarians av jämförelser . Modellen kräver att en jämförelse mellan två personer från en viss klass av personer bör vara oberoende av vilka poster i en viss klass av poster som väljs för jämförelsen, och jämförelsen av två poster från en viss klass av poster bör vara oberoende av vilka personer i en viss klass av personer som väljs för att göra jämförelsen . För mer detaljerade förklaringar av Rasch-paradigmet och procedurerna, se till exempel Andrich, Andrich and Styles, Bond and Fox och onlinehandboken för RUMM2030-programvaran . För många forskare representerar Rasch-paradigmet ett framsteg på klassisk testteori . I båda teorierna är till exempel den totala poängen för en person på ett instrument den relevanta statistiken för att representera en persons ställning på variabeln eller egenskapen av intresse. De råa poängen som används i klassisk testteori är dock inte linjäriserade (de linjäriseras i Rasch-mätning) och bör inte behandlas som mätningar.
Rasch-modellen kan användas för att undersöka data för brister eller problem som indikeras av att modellen inte passar . Att visa att ett objekts svar (data) passar modellen är en förkortning för att dra slutsatsen att objektet fungerar konsekvent med de andra objekten i en skala för att karakterisera en enda variabel som sammanfattas av Rasch-modellen. Därför, om svar på en uppsättning objekt i en skala passar Rasch—modellen, fastställs de som internt konsekventa-vilket är en förutsättning för att bekräfta konstruktgiltighet. Vidare kan åtgärder för personer sedan legitimt användas i grundläggande matematiska operationer (såsom tillägg) och därmed underkastas standardstatistiska förfaranden. Två viktiga egenskaper finns om data passar modellen: för det första kommer deltagarnas mått att vara i linjär skala; och för det andra kommer måtten att vara oföränderliga (den relativa ordningen av objekt och personer kommer att vara densamma oavsett vilka objekt som används för att jämföra personer och oavsett vilka personer som används för att jämföra objekt). Dessutom kommer undersökning av differentiell objektfunktion att ge bevis på huruvida åtgärder är invarianta (i huvudsak om de representerar samma konstruktion) över utsedda grupper för vilka passformen har bekräftats .
i Rasch-modellen är den relevanta statistiken för någon person helt enkelt den totala poängen över objekt där poängen är successiva heltal som tilldelas successiva kategorier, vilket är samma statistik som den som traditionellt används. Vissa objekt kan vara dikotom, och vissa kan ha mer än två beställda kategorier. Dessa poäng är emellertid inte linjära och bör i allmänhet inte behandlas som mätningar. I synnerhet påverkas de av golv-och takeffekter så att en skillnad på en rå poäng på 2, säg, vid en del av continuum av konstruktionen inte representerar samma skillnad som en poäng på 2 på en annan del av continuum. Omvandlingen av raw-poängen med Rasch-modellen ger linjäriserade poäng för varje person som kan behandlas som mätningar och användas i standardstatistiska analyser. Dessa linjäriserade poäng kallas platser. Mer formellt ger Rasch-modellen mätningar som är kompatibla med grundläggande eller additiv sammätning studerad i matematisk Psykologi .
Rasch-modellen är en probabilistisk modell som ger en lämplig modell för typiska Samhällsvetenskapliga data. För polytomiska föremål har ekvationen formen:
där (i) X ni , är den stokastiska variabeln i svaret av person n för att vara jag och där värdet för denna variabel är ett heltal 0, 1, 2, 3, …, m, β n är var den person som på variabel, (δ ik ), k = 1, 2, 3, …, m jag är en vektor av tröskelvärdena i artikel jag på vilka sannolikheten för ett svar i närliggande kategorier är identiska, och γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik är summan av de täljare och ser till att Eq. (1) summor till 1 och är en sannolikhets uttalande .
RUMM2030-programvaran erbjuder ett omfattande utbud av faciliteter för att bedöma kvaliteten på artiklar i en skala. Faciliteterna inkluderar flera olika statistiska (chi square och log resttest av passform) och grafiska tester av passform (kategori-och Objektkarakteristiska kurvor) mellan data och modell, och ett index för tillförlitlighet, känt som Person Separationsindex (PSI). Programmet ger också information om inriktning av person och objekt (om spridningen av objekt och person platser är likartade), och på objekt beroenden och möjligheten att meningsfulla underskalor genom Rest objekt korrelationer, Rest huvudkomponentanalys, och underskalan analys. I kombination används denna information för att fastställa kvaliteten på en skala och för att identifiera avvikelser i data, vilket kan leda till en djupare förståelse av konstruktionen eller egenskapen som mäts.
som nämnts i inledningen behandlade dataanalys tre primära mål, varav den första var att fastställa den interna konsistensen och tillförlitligheten för varje skala. Med andra ord, representerar uppsättningarna av objekt var och en en enda konstruktion på denna skala? Om de gör det är man berättigad att lägga till poäng för att få en total poäng på varje skala och sedan använda de totala poängen (eller deras linjäriserade ekvivalenter som kallas platser) för andra statistiska tester som jämförelser av medelvärden mellan grupper eller över tid.
det andra syftet var att avgöra om objekten i varje skala har samma psykometriska egenskaper över olika grupper av deltagare: detta kallas Differential Item Functioning (DIF) och det bestämmer om objekten har liknande psykometriska egenskaper över olika grupper av deltagare, det vill säga om objekten har invarianta egenskaper över grupper. Om objekt visar olika grupper ska de inte användas för att jämföra personprestanda, såvida inte individer kommer från samma grupp. I denna studie var intressegrupperna kön, ålder, erfarenhet av yrket, inträdeskvalifikation (tidigare examen eller inte) och tillfälle för administration.
det tredje syftet var att bevisa den konvergerande giltigheten hos PCC: erna och CSC: erna genom att undersöka deras statistiska korrelationer med de etablerade GSE-och PRCA-24-skalorna som bedömer vissa aspekter av förtroende.
för att ta itu med det första målet undersöktes olika aspekter av skalorna. Den första aspekten var driften av svarskategorierna. Artikeltrösklarna (nedskärningspunkterna mellan varje på varandra följande par av kategorier som, starkt överens och överens) måste beställas korrekt. Den andra aspekten var passformen för varje uppsättning objekt till Rasch-modellen. Om objekten passar modellen, vilket är bevis på intern konsistens, kan de accepteras som att mäta en enda variabel på denna skala. Två tester av passform – en statistisk (chi-torget) och en grafisk (Artikelkarakteristiska kurvor, ICCs) – användes för att bedöma detta. I Rasch-paradigmet i allmänhet är inget test av passform tillräckligt för att fatta ett beslut om passform. En tredje aspekt var inriktningen av objekt och personer till varandra: detta fastställs genom att undersöka den gemensamma fördelningen av objekt och person platser på samma kontinuum. En fjärde aspekt, artikelberoende, undersöktes genom inspektion av de återstående korrelationerna mellan poster. Om objekt visar beroende, då ett objekt i varje par är överflödig och behålla både artificiellt ökar tillförlitligheten. Sådana beroenden kan också indikera närvaron av underskalor som kan undersökas ytterligare genom huvudkomponentanalys av rester. Slutligen mäts tillförlitligheten med hjälp av Personseparationsindex (PSI), vilket är Rasch-ekvivalenten av Cronbachs alfa.
för att ta itu med det andra målet – att fastställa om objekten fungerar relativt konsekvent över olika grupper, differentierade objekt som fungerar över grupperna för kön, ålder, tidigare erfarenhet, inträdeskvalifikation och tillfälle undersöktes.
slutligen, för att ta itu med det tredje målet att ge ytterligare bevis på giltighet (den här gången konvergent giltighet), var studentpoäng på skalorna korrelerade med poäng från samma studenter på två befintliga skalor som mäter konstruktioner relaterade till men skiljer sig från förtroende och vars giltighet har fastställts i forskningslitteraturen, nämligen GSE och PRCA-24 (interpersonell kommunikation).
resultaten av dessa analyser ger information om giltigheten och tillförlitligheten hos de två skalorna. Om dessa är tillfredsställande kan personplatserna (de linjäriserade raw-poängen) användas för ytterligare analyser som till exempel jämförelse av Medelpoäng (personplatser) för de olika intressegrupperna och undersökning av förändringar i medelplatser över tid.