udvikling og psykometrisk evaluering af skalaer til måling af faglig tillid til manuel medicin: en Rasch-målemetode

udvikling af skalaer

dataene fra forskellige uformelle studentergruppesamtaler og kritiske anmeldelser af litteratur hjalp med at forme indholdet og målene for selvtillidsskalaerne og det eventuelle tillidsspørgeskema. Elementer og deres format blev udviklet efter omhyggelig gennemgang af relaterede skalaer og sundhedsuddannelsesstudier, som viste forskellige måder at vurdere professionel selvtillid i uddannelsesmæssige eller kliniske praktikindstillinger . Mens disse undersøgelser ikke afspejlede målene med den nuværende forskning, de leverede vigtige beviser for vigtigheden af professionel selvtillid i sundhedsuddannelsesprogrammer. Et par punkter blev også udviklet baseret på en af forfatternes omfattende erfaring i atletisk træning, kiropraktik og fysioterapi læseplaner. De var dem, der fokuserede på evnen til at diskutere sundhedsrisikoadfærd (kost, stofbrug og motion), anvendelse af ortopædisk afstivning, understøtninger og tapning og demonstration af rehabiliterende procedurer.

derfor blev der udviklet et foreløbigt instrument på 52 emner eller udsagn med primært fokus på patientkommunikation og kliniske færdigheder og (på grund af deres rolle i selvtillid, som blev identificeret gennem de uformelle samtaler og kritisk gennemgang af litteratur) et sekundært fokus på overvågning af klinikere. Et seks-punkts Likert-stil svarformat for hvert element blev brugt. Svarkategorier blev kodet fra 1 (“slet ikke selvsikker”) til 6 (“meget selvsikker”). Spørgsmålene afspejlede interaktioner og erfaringer med patienter, som studerende sandsynligvis ville støde på, og varierede fra at diskutere generelle sundhedsspørgsmål til at udføre grundlæggende og fokuserede fysiske undersøgelsesprocedurer. For eksempel: “hvor sikker er du på din evne til at diskutere personlige og/eller følsomme problemer med nye patienter?”; og “hvor sikker er du i din evne til at udføre grundlæggende fysiske undersøgelsesprocedurer såsom blodtryk, puls og respirationsfrekvens på en patient?”Indholdets gyldighed blev vurderet af et panel af undervisere og forskere tilknyttet uddannelsesprogrammer og kiropraktiske kliniske uddannelsesprogrammer i Australien og USA. Panelmedlemmer blev bedt om at gennemgå skalaen og kommentere hvert emne og det samlede format. De foreslog mindre ændringer for et par punkter, og anbefalede inddragelse af en demografisk sektion og en selvrefleksion sektion, der opfordrede de studerende til at kvalificere deres svar.

skalaen blev opdelt i to dele. En del af skalaen fokuserede på patientkommunikation, mærket Patient Communication Confidence Scale (PCCS). Den anden del fokuserede på kliniske færdigheder, mærket Clinical Skills Confidence Scale (CSCS). De to skalaer repræsenterer forskellige aspekter af selvtillid, som begge er vigtige, og mere diagnostisk information om disse to forskellige aspekter kunne opnås ved at måle dem separat og dermed være i stand til at se, om niveauerne er forskellige. Hvis niveauerne på de to aspekter skulle afvige, kunne forskellige undervisningsstrategier sigte mod at udvikle hvert aspekt. Det er et empirisk spørgsmål, om de to skalaer kunne opfattes som repræsenterer den samme konstruktion, og til nogle formål kan en enkelt score være alt, hvad der kræves for at træffe undervisnings-og læringsbeslutninger. I dette tilfælde havde forskningen imidlertid til formål at få information om hvert af de to aspekter, da de hver især er vigtige og sandsynligvis kræver forskellige strategier for at tackle dem.

for at hjælpe med valideringsprocessen blev to eksisterende gyldige og pålidelige skalaer indarbejdet, personal Report of Communication Apprehension (PRCA-24) og General Self-efficacy (GSE) skalaer. PRCA-24-skalaen måler følelser omkring kommunikation med andre. Imidlertid blev kun en underkategori (interpersonel kommunikation) brugt i denne undersøgelse, da de andre underkategorier typisk ikke findes i kliniske sammenhænge. Tidligere forskning har vist indhold, kriterium, og konstruere gyldigheden af PRCA-24 . GSE-skalaen blev tilføjet for at indsamle data om elevernes generaliserede selveffektivitet og for at sammenligne deres generelle selveffektivitet og specifikke opgaverelaterede selveffektivitetsforanstaltninger. Tidligere forskning viser, at GSE er en pålidelig skala med konvergent og diskriminerende gyldighed, med alfa-pålidelighedskoefficienter, der spænder fra .75 til .90 . Det forventedes, at PCC ‘erne og CSC’ erne ville korrelere positivt med GSE og negativt med PRCA-24 interpersonel kommunikationsunderskala; disse korrelationer forventedes imidlertid ikke at være meget høje, fordi PRCA-24 og GSE er designet til at vurdere konstruktioner, der er ens, men ikke identiske med selvtillid. Det endelige tillidsspørgeskema indeholdt følgende:

  1. generel Selveffektivitetsskala (GSE).

  2. personlig rapport om kommunikation Apprehension Scale (PRCA-24), interpersonel kommunikation sub-scale.

  3. patient Communication Confidence Scale (PCCS), 28 elementer, 6 svar kategorier, ingen omvendte elementer.

  4. Clinical Skills Confidence Scale (CSCS), 27 varer, 6 responskategorier, ingen omvendte varer.

  5. selvrefleksion sektion.

  6. demografisk sektion.

pccs-emnerne dækkede ni aspekter af patientkommunikation, såsom tilskyndelse til adfærdsændring, historieoptagelse, forklaring, og at være støttende. CSC ‘ erne behandlede otte aspekter af tillid til kliniske færdigheder såsom manipulerende, røntgen, og fysiske undersøgelsesprocedurer.

deltagere og spørgeskemaadministration

deltagerne omfattede syv kohorter af kiropraktikstuderende (n = 269) indskrevet i praktikophold i tertiære institutioner i Australien og USA. Alle kohorter havde sammenlignelige kliniske læseplaner, der gav lignende faglige erfaringer såsom registrering af patienthistorier og overvåget vurdering og behandling af patienter. Godkendelse af menneskelig etik og studerendes samtykke blev opnået. CK blev administreret i begyndelsen af elevernes kliniske praktikophold og blev gentaget fem måneder senere (en kohorte—det var ikke muligt at teste alle kohorter på dette tidspunkt) og igen ti måneder senere (alle kohorter). Data fra kun første og tredje gang (begyndelsen af undersøgelsen og ti måneder senere) blev brugt til at undersøge gyldigheden og pålideligheden af PCC ‘erne og CSC’ erne. Kombination af data på denne måde er en accepteret procedure muliggjort af Rasch-modellens egenskaber ved uforanderlige sammenligninger. Procedurens legitimitet kan testes empirisk ved hjælp af differential item functioning (DIF).

dataanalyse

studerendes svar på 269 returnerede spørgeskemaer over to lejligheder blev sendt til psykometrisk analyse ved hjælp af polytom Rasch-modellen (PRM) gennem Rasch Unidimensional Measurement Model programmel RUMM2030 . Denne model blev brugt til at fastslå, om de to nye skalaer var blevet operationaliseret med succes, og at vurdere aspekter af skalaernes gyldighed og pålidelighed . Rasch-modellen blev valgt, fordi den er den eneste målemodel i samfundsvidenskaben, der har de ønskelige skaleringsegenskaber ved invariance af sammenligninger . Modellen kræver, at en sammenligning mellem to personer fra en given klasse af personer skal være uafhængig af, hvilke poster i en given klasse af poster der vælges til sammenligningen, og sammenligningen af to poster fra en given klasse af poster skal være uafhængig af, hvilke personer i en given klasse af personer der vælges til at foretage sammenligningen . For mere detaljerede forklaringer på Rasch-paradigmet og-procedurerne, se for eksempel Andrich, Andrich og Styles, Bond og ræv og online-manualen til RUMM2030-programmet . For mange forskere repræsenterer Rasch-paradigmet et fremskridt på klassisk testteori . I begge teorier er for eksempel den samlede score for en person på et instrument den relevante statistik, der repræsenterer en persons status på variablen eller egenskaben af interesse. De rå scoringer, der anvendes i klassisk testteori, er imidlertid ikke lineariserede (de er lineariserede i Rasch-måling) og bør ikke behandles som målinger.

Rasch-modellen kan bruges til at undersøge data for fejl eller problemer, der er angivet ved, at modellen ikke passer . At vise, at en vares svar (data) passer til modellen, er stenografi for at konkludere, at varen fungerer konsekvent med de andre elementer i en skala for at karakterisere en enkelt variabel som opsummeret af Rasch-modellen. Derfor, hvis svar på et sæt elementer i en skala passer til Rasch—modellen, er de etableret som internt konsistente-hvilket er en forudsætning for at bekræfte konstruktionens gyldighed. Endvidere kan foranstaltninger for personer derefter lovligt anvendes i grundlæggende matematiske operationer (såsom tilføjelse) og dermed underkastes standard statistiske procedurer. To vigtige egenskaber er til stede, hvis data passer til modellen: for det første vil deltagernes mål være i lineær skala; og for det andet vil foranstaltningerne være uforanderlige (den relative rækkefølge af varer og personer vil være den samme, uanset hvilke varer der bruges til at sammenligne personer, og uanset hvilke personer der bruges til at sammenligne varer). Desuden vil undersøgelse af differentieret element funktion dokumentere, om foranstaltninger er invariant (hovedsagelig, om de repræsenterer den samme konstruktion) på tværs af udpegede grupper, for hvilke fit er blevet bekræftet .

i Rasch-modellen er den relevante statistik for enhver person simpelthen den samlede score på tværs af poster, hvor scorerne er successive heltal tildelt successive kategorier, hvilket er den samme statistik som den, der traditionelt blev brugt. Nogle elementer kan være dikotom, og nogle kan have mere end to ordnede kategorier. Disse scoringer er imidlertid ikke i sig selv lineære og bør generelt ikke behandles som målinger. I særdeleshed, de påvirkes af gulv-og lofteffekter, så en forskel på en rå score på 2, sige, på en del af kontinuumet af konstruktionen repræsenterer ikke den samme forskel som en score på 2 på en anden del af kontinuumet. Transformationen af de rå score ved hjælp af Rasch-modellen producerer lineariserede score for hver person, der kan behandles som målinger og bruges i standard statistiske analyser. Disse lineariserede scoringer er kendt som placeringer. Mere formelt giver Rasch-modellen målinger, der er kompatible med grundlæggende eller additiv sammenføjningsmåling studeret i matematisk psykologi .

Rasch-modellen er en probabilistisk model, der giver en passende model til typiske samfundsvidenskabelige data. For polytomiske elementer tager ligningen form:

Pr ni , = ; β n , δ jeg k = exp x β n − ∑ k = 0 x δ ik / γ ni
(1)

hvor: (i) X ni , er den tilfældige variabel respons person n til punkt jeg er, og hvor værdien af denne variabel er et heltal 0, 1, 2, 3, …, m, β n er placeringen af den person, på den variabel, (δ ik ), k = 1, 2, 3, …, m jeg er en vektor af tærskler af emne, jeg ved, hvor sandsynligheden for et svar i tilstødende kategorier er identiske, og γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik er summen af numerators og sikrer, at Eq. (1) beløber sig til 1 og er en sandsynlighedsopgørelse .

RUMM2030-programmet giver en bred vifte af faciliteter til vurdering af kvaliteten af varer i en skala. Faciliteterne omfatter flere forskellige statistiske (chi kvadrat og log resterende test af fit) og grafiske test af fit (kategori og Element karakteristiske kurver) mellem data og model, og et indeks for pålidelighed, kendt som person Separation indeks (PSI). Programmet giver også information om målretning af person og genstande (om spredningen af vare-og personplaceringer er ens) og om vareafhængigheder og muligheden for meningsfulde underskalaer gennem resterende varekorrelationer, resterende hovedkomponentanalyse og underskalaanalyse. I kombination bruges disse oplysninger til at fastslå kvaliteten af en skala og til at identificere uregelmæssigheder i dataene, hvilket kan føre til en dybere forståelse af konstruktionen eller egenskaben, der måles.

som nævnt i indledningen behandlede dataanalyse tre primære mål, hvoraf den første var at fastslå den interne konsistens og pålidelighed af hver skala. Med andre ord, repræsenterer sæt af elementer hver en enkelt konstruktion på dette niveau af skala? Hvis de gør det, er man berettiget til at tilføje scoringer for at opnå en samlet score på hver skala og derefter bruge disse samlede scoringer (eller deres lineariserede ækvivalenter kendt som placeringer) til andre statistiske tests såsom sammenligninger af gennemsnitlige scoringer blandt grupper eller over tid.

det andet mål var at afgøre, om elementerne i hver skala har de samme psykometriske egenskaber på tværs af forskellige grupper af deltagere: dette kaldes differentiel Elementfunktion (DIF), og det bestemmer, om elementerne har lignende psykometriske egenskaber på tværs af forskellige grupper af deltagere, det vil sige, om elementerne har uforanderlige egenskaber på tværs af grupper. Hvis elementer viser DIF på tværs af grupper, bør de ikke bruges til at sammenligne personers ydeevne, medmindre enkeltpersoner er fra samme gruppe. I denne undersøgelse var interessegrupperne køn, alder, erfaring med erhvervet, adgangskvalifikation (tidligere grad eller ej) og anledning til administration.

det tredje mål var at fremlægge bevis for den konvergerende gyldighed af PCC ‘erne og CSC’ erne ved at undersøge deres statistiske korrelationer med de etablerede GSE-og PRCA-24-skalaer, der vurderer nogle aspekter af tillid.

for at løse det første mål blev forskellige aspekter af skalaerne undersøgt. Det første aspekt var driften af svarkategorierne. Varetærsklerne (cut-punkterne mellem hvert på hinanden følgende par kategorier som f.eks. Det andet aspekt var tilpasningen af hvert sæt elementer til Rasch-modellen. Hvis emnerne passer til modellen, hvilket er tegn på intern konsistens, kan de accepteres som måling af en enkelt variabel på dette niveau. To test af fit-en statistisk (chi-firkanten) og en grafisk (elementets karakteristiske kurver, ICC ‘ er) – blev brugt til at bedømme dette. I Rasch-paradigmet generelt er ingen test af pasform tilstrækkelig til at træffe en beslutning om pasform. Et tredje aspekt var målretning af genstande og personer mod hinanden: dette etableres ved at undersøge den fælles fordeling af genstande og personplaceringer på samme kontinuum. Et fjerde aspekt, elementafhængigheder, blev undersøgt ved inspektion af de resterende sammenhænge mellem poster. Hvis elementer viser afhængighed, så et element i hvert par er overflødig og fastholde begge kunstigt øger pålideligheden. Sådanne afhængigheder kan også indikere tilstedeværelsen af underskalaer, som kan undersøges yderligere gennem hovedkomponentanalysen af rester. Endelig måles pålidelighed ved hjælp af Personseparationsindeks (PSI), som er Rasch-ækvivalenten til Cronbachs alfa.

for at tage fat på det andet mål – at fastslå, om emnerne fungerer relativt konsekvent på tværs af forskellige grupper, differentieret element, der fungerer på tværs af grupperne for køn, alder, tidligere erfaring, Adgangskvalifikation og lejlighed blev undersøgt.

endelig for at adressere det tredje mål om at give yderligere bevis for gyldighed (Denne gang konvergent gyldighed) blev studerendes score på skalaerne korreleret med scoringer fra de samme studerende på to eksisterende skalaer, der måler konstruktioner relateret til men forskellig fra tillid, og hvis gyldighed er blevet fastslået i forskningslitteraturen, nemlig GSE og PRCA-24 (interpersonel kommunikation).

resultaterne af disse analyser giver information om gyldigheden og pålideligheden af de to skalaer. Hvis disse er tilfredsstillende, kan personplaceringerne (de lineariserede råscorer) bruges til yderligere analyser som for eksempel sammenligning af gennemsnitlige scoringer (personplaceringer) for de forskellige interessegrupper og undersøgelse af ændringer i gennemsnitlige placeringer over tid.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.