Entwicklung und psychometrische Bewertung von Skalen zur Messung des beruflichen Vertrauens in die manuelle Medizin: ein schneller Messansatz

Entwicklung von Skalen

Die Daten, die aus verschiedenen informellen Studentengruppeninterviews und kritischen Literaturüberprüfungen gewonnen wurden, haben den Inhalt und die Ziele der self-confidence Scales und des eventual confidence questionnaire mitgeprägt. Die Items und ihr Format wurden nach sorgfältiger Überprüfung verwandter Skalen und Gesundheitserziehungsstudien entwickelt, die verschiedene Möglichkeiten zur Beurteilung des beruflichen Selbstvertrauens in Bildungs- oder klinischen Praktikumsumgebungen aufzeigten . Diese Studien spiegelten zwar nicht die Ziele der vorliegenden Forschung wider, lieferten jedoch wichtige Beweise für die Bedeutung des beruflichen Selbstvertrauens in Gesundheitserziehungsprogrammen. Einige Artikel wurden auch basierend auf der umfangreichen Erfahrung eines der Autoren in den Lehrplänen für Sporttraining, Chiropraktik und Physiotherapie entwickelt. Sie konzentrierten sich auf die Fähigkeit, Gesundheitsrisikoverhalten (Ernährung, Drogenkonsum und Bewegung), die Anwendung orthopädischer Verstrebungen, Stützen und Bänder sowie die Demonstration rehabilitativer Verfahren zu diskutieren.

Dementsprechend wurde ein vorläufiges Instrument von 52 Items oder Statements mit einem primären Fokus auf Patientenkommunikation und klinische Fähigkeiten entwickelt und (aufgrund ihrer Rolle im Selbstvertrauen, die durch die informellen Interviews und die kritische Überprüfung der Literatur identifiziert wurde) ein sekundärer Fokus auf die Überwachung von Klinikern. Es wurde ein Sechs-Punkte-Antwortformat im Likert-Stil für jedes Element verwendet. Die Antwortkategorien wurden von 1 (“überhaupt nicht zuversichtlich”) bis 6 (“sehr zuversichtlich”) codiert. Die Fragen spiegelten Interaktionen und Erfahrungen mit Patienten wider, denen die Schüler wahrscheinlich begegnen würden, und reichten von der Erörterung allgemeiner Gesundheitsprobleme bis zur Durchführung grundlegender und fokussierter körperlicher Untersuchungsverfahren. Zum Beispiel: “Wie sicher sind Sie in Ihrer Fähigkeit, persönliche und / oder sensible Themen mit neuen Patienten zu besprechen?”; und “Wie sicher sind Sie in Ihrer Fähigkeit, grundlegende körperliche Untersuchungsverfahren wie Blutdruck, Puls und Atemfrequenz an einem Patienten durchzuführen?” Die Gültigkeit des Inhalts wurde von einem Gremium von Pädagogen und Forschern bewertet, die mit Bildungsprogrammen und Chiropraktik-Praktikumsprogrammen für klinische Ausbildung in Australien und den USA verbunden sind. Die Panelmitglieder wurden gebeten, die Skala zu überprüfen und jeden Punkt und das Gesamtformat zu kommentieren. Sie schlugen kleinere Änderungen für einige Punkte vor und empfahlen die Aufnahme eines demografischen Abschnitts und eines Abschnitts zur Selbstreflexion, in dem die Schüler aufgefordert wurden, ihre Antworten zu qualifizieren.

Die Skala wurde in zwei Teile geteilt. Ein Teil der Skala konzentrierte sich auf die Patientenkommunikation und wurde als Patient Communication Confidence Scale (PCCS) bezeichnet. Der andere Teil konzentrierte sich auf klinische Fähigkeiten, die Clinical Skills Confidence Scale (CSCS) genannt. Die beiden Skalen repräsentieren verschiedene Aspekte des Selbstvertrauens, die beide wichtig sind, und mehr diagnostische Informationen über diese beiden verschiedenen Aspekte könnten gewonnen werden, indem man sie separat misst und so sehen kann, ob sich die Ebenen unterscheiden. Wenn sich die Niveaus der beiden Aspekte unterscheiden würden, könnten unterschiedliche Unterrichtsstrategien auf die Entwicklung jedes Aspekts abzielen. Es ist eine empirische Frage, ob die beiden Skalen so konzipiert werden können, dass sie dasselbe Konstrukt darstellen, und für einige Zwecke kann eine einzige Punktzahl alles sein, was erforderlich ist, um Lehr- und Lernentscheidungen zu treffen. In diesem Fall zielte die Forschung jedoch darauf ab, Informationen über jeden der beiden Aspekte zu erhalten, da sie jeweils wesentlich sind und wahrscheinlich unterschiedliche Strategien erfordern, um sie anzugehen.

Um den Validierungsprozess zu unterstützen, wurden zwei gültige und zuverlässige Skalen integriert, der Personal Report of Communication Apprehension (PRCA-24) und die Allgemeine Selbstwirksamkeitsskala (GSE). Die PRCA-24-Skala misst Gefühle in Bezug auf die Kommunikation mit anderen. In dieser Studie wurde jedoch nur eine Unterkategorie (zwischenmenschliche Kommunikation) verwendet, da die anderen Unterkategorien normalerweise nicht im klinischen Kontext anzutreffen sind. Frühere Untersuchungen haben Inhalt, Kriterium und Konstruktvalidität des PRCA-24 gezeigt . Die GSE-Skala wurde hinzugefügt, um Daten zur generalisierten Selbstwirksamkeit der Studierenden zu sammeln und ihre allgemeine Selbstwirksamkeit mit spezifischen aufgabenbezogenen Selbstwirksamkeitsmaßnahmen zu vergleichen. Frühere Untersuchungen zeigen, dass die GSE eine zuverlässige Skala mit konvergenter und diskriminanter Validität ist, mit Alpha-Zuverlässigkeitskoeffizienten im Bereich von .75 zu .90 . Es wurde erwartet, dass die PCCS und CSCS positiv mit der GSE und negativ mit der PRCA-24-Unterskala für zwischenmenschliche Kommunikation korrelieren würden; Es wurde jedoch nicht erwartet, dass diese Korrelationen sehr hoch sind, da die PRCA-24 und die GSE Konstrukte bewerten sollen, die ähnlich, aber nicht identisch mit dem Selbstvertrauen sind. Der abschließende Vertrauensfragebogen (CQ) enthielt Folgendes:

  1. Allgemeine Selbstwirksamkeitsskala (GSE).

  2. Persönlicher Bericht der Communication Apprehension Scale (PRCA-24), Unterskala für zwischenmenschliche Kommunikation.

  3. Patient Communication Confidence Scale (PCCS), 28 Artikel, 6 Antwortkategorien, keine umgekehrten Artikel.

  4. Clinical Skills Confidence Scale (CSCS), 27 Elemente, 6 Antwortkategorien, keine umgekehrten Elemente.

  5. Abschnitt zur Selbstreflexion.

  6. Demographischer Abschnitt.

Die PCCS-Elemente deckten neun Aspekte der Patientenkommunikation ab, z. B. die Förderung von Verhaltensänderungen, Anamnese, Erklärung und Unterstützung. Das CSCS befasste sich mit acht Aspekten des Vertrauens in klinische Fähigkeiten wie Manipulations-, Röntgen- und körperliche Untersuchungsverfahren.

Teilnehmer und Fragebogenverwaltung

Zu den Teilnehmern gehörten sieben Kohorten von Chiropraktikstudenten (n = 269), die an Praktika an Hochschulen in Australien und den USA teilgenommen hatten. Alle Kohorten hatten vergleichbare klinische Lehrpläne, die ähnliche berufliche Erfahrungen wie die Aufzeichnung von Patientengeschichten und die überwachte Beurteilung und Behandlung von Patienten lieferten. Die Zustimmung der menschlichen Ethik und die Zustimmung der Schüler wurden eingeholt. Der CQ wurde zu Beginn der klinischen Praktika der Studenten verabreicht und fünf Monate später wiederholt (eine Kohorte — es war nicht möglich, alle Kohorten zu diesem Zeitpunkt erneut zu testen) und erneut zehn Monate später (alle Kohorten). Daten aus nur der ersten und dritten Gelegenheit (Beginn der Studie und zehn Monate später) wurden verwendet, um die Validität und Zuverlässigkeit der PCCS und CSCS zu untersuchen. Das Kombinieren von Daten auf diese Weise ist ein akzeptiertes Verfahren, das durch die Eigenschaften invarianter Vergleiche des Rasch-Modells ermöglicht wird. Die Legitimität des Verfahrens kann empirisch mittels Differential Item Functioning (DIF) geprüft werden.

Datenanalyse

Die Antworten der Schüler auf 269 zurückgegebene Fragebögen wurden zweimal einer psychometrischen Analyse mit dem Polytomous Rasch Model (PRM) über die Rasch Unidimensional Measurement Model Software RUMM2030 unterzogen . Dieses Modell wurde verwendet, um festzustellen, ob die beiden neuen Skalen erfolgreich operationalisiert wurden, und um Aspekte der Validität und Zuverlässigkeit der Skalen zu bewerten . Das Rasch-Modell wurde ausgewählt, weil es das einzige Messmodell in den Sozialwissenschaften ist, das die wünschenswerten Skalierungseigenschaften der Invarianz von Vergleichen aufweist . Das Modell verlangt, dass ein Vergleich zwischen zwei beliebigen Personen aus einer bestimmten Klasse von Personen unabhängig davon sein sollte, welche Elemente in einer bestimmten Klasse von Elementen für den Vergleich ausgewählt werden, und dass der Vergleich von zwei beliebigen Elementen aus einer bestimmten Klasse von Elementen unabhängig davon sein sollte, welche Personen in einer bestimmten Klasse von Personen ausgewählt werden, um den Vergleich durchzuführen . Nähere Erläuterungen zum Rasch-Paradigma und Verfahren finden Sie z.B. bei Andrich , Andrich und Styles , Bond und Fox sowie im Online-Handbuch zur Software RUMM2030. Für viele Forscher stellt das Rasch-Paradigma einen Fortschritt in der klassischen Testtheorie dar . In beiden Theorien ist beispielsweise die Gesamtpunktzahl einer Person auf einem Instrument die relevante Statistik, um die Stellung einer Person auf der Variablen oder Eigenschaft von Interesse darzustellen. Die in der klassischen Testtheorie verwendeten Rohwerte sind jedoch nicht linearisiert (sie werden in der Rasch-Messung linearisiert) und sollten nicht als Messungen behandelt werden.

Das Rasch-Modell kann verwendet werden, um Daten auf Fehler oder Probleme zu untersuchen, die durch eine Nichtanpassung des Modells angezeigt werden . Das Zeigen, dass die Antworten (Daten) eines Elements zum Modell passen, ist eine Abkürzung für den Schluss, dass das Element konsistent mit den anderen Elementen in einer Skala arbeitet, um eine einzelne Variable zu charakterisieren, wie sie vom Rasch-Modell zusammengefasst wird. Wenn also Antworten auf eine Reihe von Elementen in einer Skala zum Rasch—Modell passen, werden sie als intern konsistent festgelegt – was eine Voraussetzung für die Bestätigung der Konstruktvalidität ist. Darüber hinaus können Maßnahmen für Personen dann in mathematischen Grundoperationen (wie Addition) legitim verwendet und somit statistischen Standardverfahren unterzogen werden. Zwei wichtige Eigenschaften sind vorhanden, wenn die Daten zum Modell passen: Zuerst, Die Maßnahmen der Teilnehmer werden auf einer linearen Skala sein; und zweitens sind die Maße invariant (die relative Reihenfolge von Gegenständen und Personen ist gleich, unabhängig davon, welche Gegenstände zum Vergleichen von Personen verwendet werden und welche Personen zum Vergleichen von Gegenständen verwendet werden). Darüber hinaus wird die Untersuchung der Differentialfunktion des Elements den Nachweis erbringen, ob die Kennzahlen invariant sind (im Wesentlichen, ob sie dasselbe Konstrukt darstellen) über bestimmte Gruppen hinweg, für die die Anpassung bestätigt wurde .

Im Rasch-Modell ist die relevante Statistik für jede Person einfach die Gesamtpunktzahl über Elemente hinweg, wobei die Punktzahlen aufeinanderfolgende ganze Zahlen sind, die aufeinanderfolgenden Kategorien zugewiesen sind. Einige Elemente können dichotom sein, und einige können mehr als zwei geordnete Kategorien haben. Diese Werte sind jedoch selbst nicht linear und sollten im Allgemeinen nicht als Messungen behandelt werden. Insbesondere werden sie von Boden- und Deckeneffekten beeinflusst, so dass eine Differenz einer Rohpunktzahl von beispielsweise 2 an einem Teil des Kontinuums des Konstrukts nicht dieselbe Differenz darstellt wie eine Punktzahl von 2 an einem anderen Teil des Kontinuums. Die Transformation der Rohwerte unter Verwendung des Rasch-Modells erzeugt linearisierte Werte für jede Person, die als Messungen behandelt und in statistischen Standardanalysen verwendet werden können. Diese linearisierten Werte werden als Standorte bezeichnet. Formal bietet das Rasch-Modell Messungen, die mit der in der mathematischen Psychologie untersuchten fundamentalen oder additiven Conjoint-Messung kompatibel sind .

Das Rasch-Modell ist ein probabilistisches Modell, das ein geeignetes Modell für typische sozialwissenschaftliche Daten liefert. Für polytome Elemente hat die Gleichung die Form:

Pr X ni , = x ; β n, δi k = verwendbar bis β n – ∑ k = 0 δi k / γ ni
(1)

wobei (i) X ni die Zufallsvariable der Antwort von Person n auf Element i ist und wobei der Wert dieser Variablen eine ganze Zahl ist 0, 1, 2, 3, …, m, β n ist der Ort der Person auf der Variablen, (δ ik), k = 1, 2, 3, …, m i ist ein Vektor von Schwellenwerten des Elements i, bei dem die Wahrscheinlichkeit einer Antwort in benachbarten Kategorien identisch ist, und γ ni = ∑ x = 0 m exp x β n − ∑ k = 0 x δ ik ist die Summe der Zähler und stellt sicher, dass Gl. (1) summiert sich zu 1 und ist eine Wahrscheinlichkeitsaussage .

Die Software RUMM2030 bietet umfangreiche Möglichkeiten zur Beurteilung der Qualität von Artikeln in einer Waage. Zu den Einrichtungen gehören verschiedene statistische (Chi-Quadrat- und logarithmische Anpassungstests) und grafische Anpassungstests (Kategorie- und Artikelkennlinien) zwischen den Daten und dem Modell sowie ein Zuverlässigkeitsindex, der als Person Separation Index (PSI) bekannt ist. Das Programm bietet auch Informationen über das Targeting von Personen und Gegenständen (ob die Verbreitung von Artikel- und Personenstandorten ähnlich ist) sowie über Artikelabhängigkeiten und die Möglichkeit aussagekräftiger Teilskalen durch Reststückkorrelationen, Resthauptkomponentenanalyse und Teilskalenanalyse. In Kombination werden diese Informationen verwendet, um die Qualität einer Skala zu ermitteln und Anomalien in den Daten zu identifizieren, was zu einem tieferen Verständnis des zu messenden Konstrukts oder der zu messenden Eigenschaft führen kann.

Wie in der Einleitung erwähnt, befasste sich die Datenanalyse mit drei Hauptzielen, von denen das erste darin bestand, die interne Konsistenz und Zuverlässigkeit jeder Skala zu ermitteln. Mit anderen Worten, stellen die Mengen von Elementen jeweils ein einzelnes Konstrukt auf dieser Maßstabsebene dar? Wenn dies der Fall ist, ist es gerechtfertigt, Punktzahlen hinzuzufügen, um eine Gesamtpunktzahl auf jeder Skala zu erhalten, und diese Gesamtpunktzahlen (oder ihre linearisierten Äquivalente, die als Standorte bezeichnet werden) dann für andere statistische Tests zu verwenden, z. B. Vergleiche der mittleren Punktzahlen zwischen Gruppen oder im Laufe der Zeit.

Das zweite Ziel bestand darin, festzustellen, ob die Items jeder Skala über verschiedene Teilnehmergruppen hinweg die gleichen psychometrischen Eigenschaften aufweisen: Dies wird als Differential Item Functioning (DIF) bezeichnet und bestimmt, ob die Items über verschiedene Teilnehmergruppen hinweg ähnliche psychometrische Eigenschaften aufweisen, dh ob die Items über Gruppen hinweg unveränderliche Eigenschaften aufweisen. Wenn Elemente DIF über Gruppen hinweg anzeigen, sollten sie nicht zum Vergleichen der Leistung von Personen verwendet werden, es sei denn, Personen stammen aus derselben Gruppe. In dieser Studie waren die Interessengruppen Geschlecht, Alter, Erfahrung mit dem Beruf, Zugangsqualifikation (vorheriger Abschluss oder nicht) und der Anlass der Verwaltung.

Das dritte Ziel bestand darin, die konvergente Validität der PCCS und CSCS nachzuweisen, indem ihre statistischen Korrelationen mit den etablierten GSE- und PRCA-24-Skalen untersucht wurden, die einige Aspekte des Vertrauens bewerten.

Um das erste Ziel zu erreichen, wurden verschiedene Aspekte der Skalen untersucht. Der erste Aspekt war die Funktionsweise der Antwortkategorien. Die Artikelschwellenwerte (die Grenzwerte zwischen jedem aufeinanderfolgenden Paar von Kategorien wie Stark zustimmen und Zustimmen) müssen korrekt geordnet sein. Der zweite Aspekt war die Anpassung jedes Satzes von Elementen an das Rasch-Modell. Wenn die Elemente zum Modell passen, was ein Beweis für die interne Konsistenz ist, können sie als Messung einer einzelnen Variablen auf dieser Skalenebene akzeptiert werden. Zwei Anpassungstests – ein statistischer (das Chi-Quadrat) und ein grafischer (die Item Characteristic Curves, ICCs) – wurden verwendet, um dies zu beurteilen. Im Allgemeinen reicht im Rasch-Paradigma kein einziger Fit-Test aus, um eine Entscheidung über die Passform zu treffen. Ein dritter Aspekt war die Ausrichtung von Gegenständen und Personen aufeinander: Dies wird durch die Untersuchung der gemeinsamen Verteilung von Gegenständen und Personenorten auf demselben Kontinuum festgestellt. Ein vierter Aspekt, die Artikelabhängigkeiten, wurde durch Untersuchung der verbleibenden Korrelationen zwischen den Artikeln untersucht. Wenn Elemente eine Abhängigkeit aufweisen, ist ein Element in jedem Paar redundant, und das Beibehalten beider Elemente erhöht die Zuverlässigkeit künstlich. Solche Abhängigkeiten können auch auf das Vorhandensein von Teilskalen hinweisen, die durch die Hauptkomponentenanalyse von Residuen weiter untersucht werden können. Schließlich wird die Zuverlässigkeit anhand des Person Separation Index (PSI) gemessen, der das Rasch-Äquivalent von Cronbachs Alpha ist.

Um das zweite Ziel zu erreichen – um festzustellen, ob die Items in verschiedenen Gruppen relativ konsistent funktionieren, wurde die differentielle Itemfunktion in den Gruppen nach Geschlecht, Alter, Vorerfahrung, Eintrittsqualifikation und Anlass untersucht.

Schließlich, um das dritte Ziel zu erreichen, weitere Beweise für die Validität zu liefern (diesmal konvergente Validität), wurden die Schülerergebnisse auf den Skalen mit den Ergebnissen derselben Schüler auf zwei vorhandenen Skalen korreliert, die Konstrukte messen, die mit dem Vertrauen zusammenhängen, sich aber von diesem unterscheiden und deren Gültigkeit in der Forschungsliteratur nachgewiesen wurde, nämlich der GSE und PRCA-24 (interpersonal Communication).

Die Ergebnisse dieser Analysen geben Aufschluss über die Validität und Reliabilität der beiden Skalen. Wenn diese zufriedenstellend sind, können die Personenstandorte (die linearisierten Rohwerte) für weitere Analysen verwendet werden, wie z. B. den Vergleich der mittleren Werte (Personenstandorte) für die verschiedenen Interessengruppen und die Untersuchung von Änderungen der mittleren Standorte im Laufe der Zeit.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.