Sviluppo e psicometrici di valutazione di scale per la misura di professionista di fiducia di medicina manuale: un Rasch metodo di misurazione

Sviluppo di scale

I dati raccolto da vari informale gruppo di studenti interviste e recensioni critiche di letteratura hanno contribuito a plasmare il contenuto e gli obiettivi della fiducia scale e l’eventuale fiducia questionario. Gli articoli e il loro formato sono stati sviluppati dopo un’attenta revisione delle scale correlate e degli studi di educazione sanitaria, che hanno dimostrato diversi modi per valutare la fiducia in se stessi professionale in contesti educativi o clinici di stage . Sebbene questi studi non rispecchiassero gli obiettivi della presente ricerca, hanno fornito prove vitali sull’importanza della fiducia in se stessi professionale nei programmi di educazione sanitaria. Alcuni elementi sono stati sviluppati anche sulla base di una vasta esperienza degli autori in programmi di allenamento atletico, chiropratica e terapia fisica. Erano quelli che si concentravano sulla capacità di discutere i comportamenti a rischio per la salute (dieta, uso di droghe ed esercizio fisico), l’applicazione di rinforzi ortopedici, supporti e nastrature e la dimostrazione di procedure riabilitative.

Di conseguenza, è stato sviluppato uno strumento preliminare di 52 articoli o dichiarazioni con un focus primario sulla comunicazione del paziente e sulle abilità cliniche e (a causa del loro ruolo nella fiducia in se stessi, che è stato identificato attraverso le interviste informali e la revisione critica della letteratura) un focus secondario sulla supervisione dei medici. È stato utilizzato un formato di risposta in stile Likert a sei punti per ogni elemento. Le categorie di risposta sono state codificate da 1 (“non fiducioso affatto”) a 6 (“molto fiducioso”). Le domande riflettevano le interazioni e le esperienze con i pazienti che gli studenti potevano incontrare e andavano dalla discussione di problemi di salute generali all’esecuzione di procedure di esame fisico di base e mirate. Ad esempio: “Quanto sei fiducioso nella tua capacità di discutere questioni personali e/o sensibili con nuovi pazienti?”; e ” Quanto sei fiducioso nella tua capacità di eseguire procedure di esame fisico di base come la pressione sanguigna, il polso e la frequenza respiratoria su un paziente?”La validità dei contenuti è stata valutata da un gruppo di educatori e ricercatori affiliati a programmi di istruzione e programmi di stage di formazione clinica chiropratica in Australia e negli Stati Uniti. Ai membri del panel è stato chiesto di rivedere la scala e commentare ogni elemento e il formato generale. Hanno suggerito piccole modifiche per alcuni articoli e raccomandato l’inclusione di una sezione demografica e una sezione di auto-riflessione che invitasse gli studenti a qualificare le loro risposte.

La scala è stata divisa in due parti. Una parte della scala si concentrava sulla comunicazione del paziente, denominata Scala di confidenza della comunicazione del paziente (PCC). L’altra parte si è concentrata sulle competenze cliniche, etichettate come Clinical Skills Confidence Scale (CSCS). Le due scale rappresentano diversi aspetti della fiducia in se stessi, entrambi importanti, e ulteriori informazioni diagnostiche su questi due diversi aspetti potrebbero essere acquisite misurandole separatamente e quindi essere in grado di vedere se i livelli differiscono. Se i livelli sui due aspetti dovessero differire, diverse strategie didattiche potrebbero essere finalizzate allo sviluppo di ciascun aspetto. È una domanda empirica se le due scale potrebbero essere concepite come rappresentanti lo stesso costrutto e per alcuni scopi un singolo punteggio può essere tutto ciò che è necessario per prendere decisioni di insegnamento e apprendimento. Tuttavia, in questo caso, la ricerca mirava a ottenere informazioni su ciascuno dei due aspetti in quanto sono ciascuno essenziale e probabilmente richiedono strategie diverse per affrontarli.

Per facilitare il processo di validazione, sono state incorporate due scale valide e affidabili esistenti, il Rapporto personale di apprensione della comunicazione (PRCA-24) e le scale generali di autoefficacia (GSE). La scala PRCA-24 misura i sentimenti riguardo alla comunicazione con gli altri. Tuttavia, solo una sottocategoria (comunicazione interpersonale) è stata utilizzata in questo studio, poiché le altre sottocategorie non si incontrano tipicamente in contesti clinici. La ricerca precedente ha dimostrato la validità del contenuto, del criterio e del costrutto del PRCA-24 . La scala GSE è stata aggiunta per raccogliere dati sull’autoefficacia generalizzata degli studenti e per confrontare la loro autoefficacia generale e le specifiche misure di autoefficacia legate al compito. Ricerche precedenti dimostrano che il GSE è una scala affidabile con validità convergente e discriminante, con coefficienti di affidabilità alfa che vanno da .75 a .90 . Ci si aspettava che i PCC e i CSC si correlassero positivamente con il GSE e negativamente con la sottoscala di comunicazione interpersonale PRCA-24; tuttavia, queste correlazioni non ci si aspettava che fossero molto alte perché il PRCA-24 e il GSE sono progettati per valutare costrutti simili ma non identici alla fiducia in se stessi. Il questionario di fiducia finale (CQ) conteneva quanto segue:

  1. Scala Generale di autoefficacia (GSE).

  2. Rapporto personale della Scala di apprensione della comunicazione (PRCA-24), sottoscala della comunicazione interpersonale.

  3. Scala di confidenza della comunicazione del paziente (PCCS), 28 elementi, 6 categorie di risposta, nessun elemento inverso.

  4. Clinical Skills Confidence Scale (CSCS), 27 elementi, 6 categorie di risposta, nessun elemento inverso.

  5. Sezione di auto-riflessione.

  6. Sezione demografica.

Gli articoli PCCS coprivano nove aspetti della comunicazione del paziente come incoraggiare il cambiamento del comportamento, l’assunzione di anamnesi, la spiegazione e il supporto. Il CSCS ha affrontato otto aspetti della fiducia nelle abilità cliniche come le procedure di esame manipolativo, radiografico e fisico.

Partecipanti e amministrazione del questionario

I partecipanti includevano sette coorti di studenti chiropratici (n = 269) iscritti a stage in istituti terziari in Australia e negli Stati Uniti. Tutte le coorti avevano curricula clinici comparabili che fornivano esperienze professionali simili come la registrazione delle storie dei pazienti e la valutazione e il trattamento supervisionati dei pazienti. L’approvazione etica umana e il consenso degli studenti sono stati ottenuti. Il CQ è stato somministrato all’inizio degli stage clinici degli studenti ed è stato ripetuto cinque mesi dopo (una coorte—non era possibile ripetere il test di tutte le coorti in questo momento) e di nuovo dieci mesi dopo (tutte le coorti). I dati provenienti solo dalla prima e dalla terza occasione (inizio dello studio e dieci mesi dopo) sono stati utilizzati per esaminare la validità e l’affidabilità dei PCC e dei CSC. Combinare i dati in questo modo è una procedura accettata resa possibile dalle proprietà del modello Rasch di confronti invarianti. La legittimità della procedura può essere testata empiricamente utilizzando differential item functioning (DIF).

Analisi dei dati

Le risposte degli studenti a 269 questionari restituiti in due occasioni sono state sottoposte ad analisi psicometriche utilizzando il modello polytomous Rasch (PRM) , attraverso il software Rasch Unidimensional Measurement Model RUMM2030 . Questo modello è stato utilizzato per stabilire se le due nuove scale erano state operazionalizzate con successo e per valutare gli aspetti della validità e dell’affidabilità delle scale . Il modello Rasch è stato selezionato perché è l’unico modello di misurazione nelle scienze sociali che ha le proprietà di scala desiderabili dell’invarianza dei confronti . Il modello richiede che un confronto tra due persone qualsiasi di una data classe di persone dovrebbe essere indipendente da quali elementi in una data classe di elementi sono scelti per il confronto, e il confronto di due elementi qualsiasi di una data classe di elementi dovrebbe essere indipendente da quali persone in una data classe di persone sono scelti per effettuare il confronto . Per spiegazioni più dettagliate del paradigma e delle procedure Rasch, vedere , ad esempio , Andrich, Andrich and Styles, Bond and Fox e il manuale online per il software RUMM2030 . Per molti ricercatori, il paradigma Rasch rappresenta un progresso sulla teoria classica dei test . In entrambe le teorie, ad esempio, il punteggio totale di una persona su uno strumento è la statistica pertinente per rappresentare la posizione di una persona sulla variabile o sulla proprietà di interesse. Tuttavia, i punteggi grezzi utilizzati nella teoria classica dei test non sono linearizzati (sono linearizzati nella misurazione Rasch) e non devono essere trattati come misurazioni.

Il modello Rasch può essere utilizzato per esaminare i dati per difetti o problemi indicati da un mancato adattamento del modello . Dimostrare che le risposte di un elemento (dati) si adattano al modello è una scorciatoia per concludere che l’elemento opera in modo coerente con gli altri elementi in una scala per caratterizzare una singola variabile come riassunto dal modello Rasch. Pertanto, se le risposte a un insieme di elementi in una scala si adattano al modello Rasch, vengono stabilite come coerenti internamente, il che è un prerequisito per confermare la validità del costrutto. Inoltre, le misure per le persone possono essere legittimamente utilizzate in operazioni matematiche di base (come l’addizione) e quindi sottoposte a procedure statistiche standard. Due proprietà importanti sono presenti se i dati si adattano al modello: in primo luogo, le misure dei partecipanti saranno su una scala lineare; e in secondo luogo, le misure saranno invarianti (l’ordine relativo di articoli e persone sarà lo stesso, indipendentemente dagli articoli utilizzati per confrontare le persone e indipendentemente dalle persone utilizzate per confrontare gli articoli). Inoltre, l’esame del funzionamento differenziale degli elementi fornirà la prova se le misure sono invarianti (essenzialmente, se rappresentano lo stesso costrutto) tra i gruppi designati per i quali l’adattamento è stato confermato .

Nel modello Rasch, la statistica pertinente per qualsiasi persona è semplicemente il punteggio totale tra gli elementi in cui i punteggi sono interi successivi assegnati a categorie successive, che è la stessa statistica utilizzata tradizionalmente. Alcuni elementi possono essere dicotomici, e alcuni possono avere più di due categorie ordinate. Tuttavia, questi punteggi non sono essi stessi lineari e non dovrebbero generalmente essere trattati come misurazioni. In particolare, sono influenzati dagli effetti del pavimento e del soffitto in modo che una differenza di un punteggio grezzo di 2, ad esempio, in una parte del continuum del costrutto non rappresenti la stessa differenza di un punteggio di 2 su un’altra parte del continuum. La trasformazione dei punteggi grezzi utilizzando il modello Rasch produce punteggi linearizzati per ogni persona che possono essere trattati come misurazioni e utilizzati in analisi statistiche standard. Questi punteggi linearizzati sono noti come posizioni. Più formalmente, il modello Rasch fornisce misure compatibili con la misurazione congiunta fondamentale o additiva studiata in psicologia matematica .

Il modello Rasch è probabilistico e fornisce un modello appropriato per i dati tipici delle scienze sociali. Per gli elementi politomici l’equazione assume la forma:

Pr X ni, = x ; β n , δ i k = exp x β n − ∑ k = 0 x δ ik / γ ni
(1)

in cui (i) X ni , è la variabile casuale della risposta di persona n a voce io e il valore di questa variabile è un numero intero 0, 1, 2, 3, …, m, β n è la posizione della persona sul variabile, (δ ik ), k = 1, 2, 3, …, m i è un vettore di soglie di voce che ho a che la probabilità di una risposta in categorie vicine è identico, e γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik è la somma dei numeratori e assicura che l’Eq. (1) somme a 1 ed è una dichiarazione di probabilità .

Il software RUMM2030 offre una vasta gamma di servizi per valutare la qualità degli articoli in una scala. I servizi includono diversi test statistici (chi quadrato e log residual test of fit) e test grafici di fit (Curve caratteristiche di categoria e elemento) tra i dati e il modello, e un indice di affidabilità, noto come indice di separazione persona (PSI). Il programma fornisce anche informazioni sul targeting di persone e oggetti (se la diffusione delle posizioni di oggetti e persone è simile) e sulle dipendenze degli oggetti e sulla possibilità di sub-scale significative attraverso correlazioni di oggetti residui, analisi dei componenti principali residui e analisi sub-scala. In combinazione, queste informazioni vengono utilizzate per accertare la qualità di una scala e per identificare anomalie nei dati, che possono portare a una comprensione più profonda del costrutto o della proprietà da misurare.

Come accennato nell’introduzione, l’analisi dei dati ha affrontato tre obiettivi primari, il primo dei quali è stato quello di stabilire la coerenza interna e l’affidabilità di ciascuna scala. In altre parole, i set di elementi rappresentano ciascuno un singolo costrutto a questo livello di scala? Se lo fanno, allora è giustificato aggiungere punteggi per ottenere un punteggio totale su ciascuna scala e quindi utilizzare quei punteggi totali (o i loro equivalenti linearizzati noti come posizioni) per altri test statistici come il confronto dei punteggi medi tra gruppi o nel tempo.

Il secondo obiettivo era quello di determinare se gli elementi di ogni scala hanno le stesse proprietà psicometriche tra diversi gruppi di partecipanti: questo è chiamato Differential Item Functioning (DIF) e determina se gli elementi hanno proprietà psicometriche simili tra diversi gruppi di partecipanti, cioè se gli elementi hanno proprietà invarianti tra i gruppi. Se gli elementi mostrano DIF tra i gruppi, non dovrebbero essere utilizzati per confrontare le prestazioni delle persone, a meno che gli individui provengano dallo stesso gruppo. In questo studio, i gruppi di interesse erano sesso, età, esperienza con la professione, qualifica di ingresso (laurea precedente o meno) e l’occasione di amministrazione.

Il terzo obiettivo era quello di dimostrare la validità convergente dei PCC e dei CSC esaminando le loro correlazioni statistiche con le scale GSE e PRCA-24 stabilite che valutano alcuni aspetti della fiducia.

Per affrontare il primo obiettivo, sono stati esaminati vari aspetti delle scale. Il primo aspetto è stato il funzionamento delle categorie di risposta. Le soglie degli articoli (i punti di taglio tra ogni coppia successiva di categorie come, Fortemente d’accordo e d’accordo) devono essere ordinate correttamente. Il secondo aspetto era l’adattamento di ogni set di elementi al modello Rasch. Se gli elementi si adattano al modello, che è la prova della coerenza interna, possono essere accettati come misurazione di una singola variabile a questo livello di scala. Due test di fit-uno statistico (il chi quadrato) e uno grafico (le curve caratteristiche dell’elemento, ICs) – sono stati utilizzati per giudicare questo. Nel paradigma Rasch in generale, nessun test di adattamento è sufficiente per prendere una decisione sulla vestibilità. Un terzo aspetto è stato il targeting di oggetti e persone tra loro: questo è stabilito esaminando la distribuzione congiunta di posizioni di oggetti e persone sullo stesso continuum. Un quarto aspetto, le dipendenze degli elementi, è stato esaminato esaminando le correlazioni residue tra gli elementi. Se gli elementi mostrano dipendenza, un elemento in ogni coppia è ridondante e il mantenimento di entrambi aumenta artificialmente l’affidabilità. Tali dipendenze possono anche indicare la presenza di sotto-scale che possono essere ulteriormente esaminate attraverso l’analisi delle componenti principali dei residui. Infine, l’affidabilità viene misurata utilizzando l’indice di separazione della persona (PSI), che è l’equivalente Rasch dell’alfa di Cronbach.

Per affrontare il secondo obiettivo: stabilire se gli articoli operano in modo relativamente coerente tra diversi gruppi, è stato esaminato il funzionamento di articoli differenziali tra i gruppi per sesso, età, esperienza precedente, qualifica di ingresso e Occasione.

Infine, per affrontare il terzo obiettivo è di fornire ulteriori prove di validità (questa volta, la validità convergente), studente punteggi sulle scale erano correlati con i punteggi per gli stessi studenti su due scale esistenti che misura costrutti correlati ma diversi da fiducia e la cui validità è stata stabilita nella letteratura di ricerca, vale a dire, il GSE e il PRCA-24 (comunicazione interpersonale).

I risultati di queste analisi forniscono informazioni sulla validità e l’affidabilità delle due scale. Se questi sono soddisfacenti, le posizioni delle persone (i punteggi grezzi linearizzati) possono essere utilizzate per ulteriori analisi come, ad esempio, il confronto dei punteggi medi (posizioni delle persone) per i diversi gruppi di interesse e l’indagine dei cambiamenti nelle posizioni medie nel tempo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.