Desenvolvimento e avaliação psicométrica de escalas para medir profissional de confiança no manual de medicina: um Rasch método de medição

Desenvolvimento de escalas

Os dados obtidas a partir de várias informal grupo de estudantes entrevistas e revisões críticas de literatura ajudou a moldar o conteúdo e objectivos da auto-confiança escalas e eventuais confiança questionário. Itens e seu formato foram desenvolvidos após uma revisão cuidadosa das escalas relacionadas e estudos de educação para a saúde, que demonstraram diferentes maneiras de avaliar a autoconfiança profissional em ambientes educacionais ou clínicos de estágio . Embora estes estudos não espelhem os objetivos da presente pesquisa, eles forneceram evidências vitais sobre a importância da autoconfiança profissional em programas de educação para a saúde. Alguns itens também foram desenvolvidos com base em uma vasta experiência dos autores em treinamento atlético, curricula de quiroprática e fisioterapia. Foram aqueles que se concentraram na capacidade de discutir comportamentos de risco para a saúde (dieta, uso de drogas e exercício físico), aplicação de bracelete ortopédica, suporte e gravação, e demonstrando procedimentos de reabilitação.

assim, um instrumento preliminar de 52 itens ou declarações foi desenvolvido com um foco primário na comunicação do paciente e habilidades clínicas, e (devido ao seu papel na auto-confiança, que foi identificado através das entrevistas informais e revisão crítica da literatura) um foco secundário na supervisão dos clínicos. Foi utilizado um formato de resposta tipo Likert de seis pontos para cada item. As categorias de resposta foram codificadas de 1 (“nada confiante”) a 6 (“Muito confiante”). As questões refletiam interações e experiências com pacientes que os alunos provavelmente encontrariam, e variavam desde a discussão de questões gerais de saúde até a realização de procedimentos básicos e focados de exame físico. Por exemplo: “quão confiante está na sua capacidade de discutir questões pessoais e/ou sensíveis com novos pacientes?”; e ” quão confiante está na sua capacidade de realizar exames físicos básicos, como pressão arterial, pulso e respiração de um paciente?”A validade do conteúdo foi avaliada por um painel de educadores e pesquisadores afiliados com programas de educação e programas de estágio de Educação Clínica quiroprática na Austrália e nos Estados Unidos. Os membros do painel foram convidados a rever a escala e comentar cada item e o formato geral. Eles sugeriram pequenas alterações para alguns itens, e recomendaram a inclusão de uma seção demográfica e uma seção de auto-reflexão que convidava os alunos a qualificarem suas respostas.

a escala foi dividida em duas partes. Uma parte da escala centrou-se na comunicação dos doentes, denominada escala de confiança da comunicação dos doentes (PCCS). A outra parte centrou-se nas competências clínicas, designadas por Escala de confiança das competências clínicas (CSCS). As duas escalas representam diferentes aspectos da autoconfiança, ambos importantes, e mais informações diagnósticas sobre estes dois aspectos diferentes poderiam ser obtidas medindo-os separadamente e, assim, sendo capaz de ver se os níveis diferem. Se os níveis sobre os dois aspectos fossem diferentes, diferentes estratégias de ensino poderiam ser orientadas para o desenvolvimento de cada aspecto. É uma questão empírica saber se as duas escalas podem ser concebidas como representando a mesma construção e, para alguns fins, uma única pontuação pode ser tudo o que é necessário para tomar decisões de ensino e aprendizagem. No entanto, neste caso, a investigação visava obter informações sobre cada um dos dois aspectos, uma vez que cada um deles é essencial e é provável que exijam estratégias diferentes para os abordar.

para auxiliar no processo de validação, foram incorporadas duas escalas válidas e confiáveis, O Relatório pessoal de apreensão de comunicação (PRCA-24) e a auto-eficácia geral (GSE). A escala PRCA-24 mede os sentimentos de comunicação com os outros. No entanto, apenas uma subcategoria (comunicação interpessoal) foi utilizada neste estudo, uma vez que as outras subcategorias não são tipicamente encontradas em contextos clínicos. Pesquisas anteriores demonstraram conteúdo, critério e validade da PRCA-24 . A escala GSE foi adicionada para recolher dados sobre a auto-eficácia generalizada dos alunos e comparar a sua auto-eficácia geral e medidas específicas de auto-eficácia relacionadas com a tarefa. Pesquisas anteriores mostram que o GSE é uma escala confiável com validade convergente e discriminatória, com coeficientes de confiabilidade Alfa variando de .75 para .90 . Esperava-se que os PCC e os CSCS se correlacionassem positivamente com o GSE e negativamente com a sub-escala de comunicação interpessoal do PRCA-24; no entanto, não se esperava que essas correlações fossem muito elevadas porque o PRCA-24 e o GSE são projetados para avaliar construções que são similares, mas não idênticas à auto-confiança. O questionário de confiança final (CQ) continha o seguinte::

  1. escala geral de auto-eficácia (GSE).

  2. relatório pessoal da escala de apreensão de comunicação (PRCA-24), sub-escala de comunicação interpessoal.

  3. escala de confiança de comunicação do paciente (PCCS), 28 itens, 6 categorias de resposta, sem itens invertidos.

  4. escala de confiança de competências clínicas (CSCS), 27 itens, 6 categorias de resposta, sem itens invertidos.

  5. secção de auto-reflexão.

  6. secção demográfica.

os itens PCCS cobriram nove aspectos da comunicação do paciente, tais como incentivar a mudança de comportamento, histórico-exame, explicar e ser favorável. Os CSCS abordaram oito aspectos da confiança nas competências clínicas, tais como procedimentos manipulativos, de Raio-X e de exame físico.

participantes e administração do questionário

participantes incluíram sete coortes de estudantes quiropráticos (n = 269) matriculados em estágios em instituições terciárias na Austrália e nos Estados Unidos. Todas as coortes tinham currículos clínicos comparáveis que proporcionavam experiências profissionais semelhantes, tais como registo de histórias de doentes, e Avaliação e tratamento supervisionados dos doentes. A aprovação ética humana e o consentimento estudantil foram obtidos. O CQ foi administrado no início dos estágios clínicos dos estudantes e foi repetido cinco meses depois (uma coorte—não era possível fazer o teste de todos os coortes nessa época) e novamente dez meses depois (TODOS os coortes). Os dados de apenas a primeira e a terceira ocasiões (início do estudo e dez meses depois) foram utilizados para examinar a validade e fiabilidade dos PCC e dos CSCS. Combinando dados desta forma é um procedimento aceito tornado possível pelas propriedades do modelo Rasch de comparações invariantes. A legitimidade do procedimento pode ser testada empiricamente usando o funcionamento diferencial do item (DIF).

Análise de dados

Respostas estudantis a 269 questionários devolvidos em duas ocasiões foram submetidos a análise psicométrica usando o modelo polytomous Rasch (PRM), através do software Rasch Unidimensional Measurement Model RUMM2030 . Este modelo foi utilizado para determinar se as duas novas escalas tinham sido operacionalizadas com êxito e para avaliar aspectos da validade e fiabilidade das escalas . O modelo Rasch foi selecionado porque é o único modelo de medição nas ciências sociais que tem as propriedades de escala desejáveis de invariância de comparações . O modelo requer que uma comparação entre dois indivíduos de uma determinada classe de pessoas deve ser independente de quais os itens de uma determinada classe de itens que são escolhidos para a comparação, e a comparação de dois itens de uma dada classe de itens deve ser independente do que as pessoas em uma determinada classe de pessoas que são escolhidos para fazer a comparação . Para explicações mais detalhadas sobre o paradigma e procedimentos Rasch, veja, por exemplo, Andrich , Andrich e Styles , Bond e Fox e o manual online para o software RUMM2030 . Para muitos pesquisadores, o paradigma Rasch representa um avanço na teoria clássica dos testes . Em ambas as teorias, por exemplo, a pontuação total de uma pessoa em um instrumento é a estatística relevante para representar a posição de uma pessoa sobre a variável ou propriedade de interesse. Contudo, as pontuações brutas utilizadas na teoria clássica dos ensaios não são linearizadas (são linearizadas na medição Rasch) e não devem ser tratadas como medições.

o modelo Rasch pode ser usado para examinar dados para falhas ou problemas indicados por uma falha em se ajustar ao modelo . Mostrar que as respostas de um item (dados) se encaixam no modelo é abreviado para concluir que o item funciona de forma consistente com os outros itens numa escala para caracterizar uma única variável, como resumido pelo modelo Rasch. Portanto, se as respostas a um conjunto de itens em uma escala se encaixam no modelo Rasch, eles são estabelecidos como sendo internamente consistente—o que é um pré-requisito para confirmar a validade da construção. Além disso, as medidas a favor das pessoas podem então ser legitimamente utilizadas em operações matemáticas de base (como a adição) e, por conseguinte, sujeitas a procedimentos estatísticos normalizados. Duas propriedades importantes estão presentes se os dados se encaixam no modelo: em primeiro lugar, as medidas dos participantes estarão em uma escala linear; e em segundo lugar, as medidas serão invariantes (a ordenação relativa de itens e pessoas será a mesma não importa quais itens são usados para comparar pessoas, e não importa quais pessoas são usadas para comparar itens). Além disso, o exame do funcionamento diferencial do item provará se as medidas são invariantes (essencialmente, se representam a mesma construção) entre grupos designados para os quais a fit foi confirmada .

no modelo Rasch, a estatística relevante para qualquer pessoa é simplesmente a pontuação total entre os itens onde as pontuações são inteiros sucessivos atribuídos a categorias sucessivas, que é a mesma estatística que a usada tradicionalmente. Alguns itens podem ser dicotômicos, e alguns podem ter mais de duas categorias ordenadas. No entanto, estas pontuações não são, elas próprias, lineares e não devem, em geral, ser tratadas como medições. Em particular, eles são afetados por efeitos de chão e teto de modo que uma diferença de uma pontuação raw de 2, digamos, em uma parte do continuum da construção não representa a mesma diferença que uma pontuação de 2 em outra parte do continuum. A transformação das Pontuações em bruto utilizando o modelo Rasch produz pontuações linearizadas para cada pessoa, que podem ser tratadas como medições e utilizadas em análises estatísticas padrão. Estas pontuações linearizadas são conhecidas como locais. Mais formalmente, o modelo Rasch fornece medidas que são compatíveis com a medição conjunta fundamental ou aditiva estudada em psicologia matemática .

o modelo Rasch é um modelo probabilístico que fornece um modelo apropriado para dados típicos de Ciências Sociais. Para os itens politómicos, a equação assume a forma:

Pr X ni, = x ; β n , δ i k = exp x β n − ∑ k = 0 x δ ik / γ ni
(1)

onde (i) X ni , é a variável aleatória da resposta da pessoa n ao item i e onde o valor desta variável é um número inteiro 0, 1, 2, 3, …, m, β n é a localização da pessoa na variável (δ ik ), k = 1, 2, 3, …, m i é um vetor de limiares do item i no qual a probabilidade de uma resposta adjacentes categorias é idêntico, e γ ni = ∑ x = 0 m, exp x β n − ∑ k = 0 x δ ik é a soma dos numeradores e garante que a Eq. (1) somes to 1 and is a probability statement .

o software RUMM2030 fornece uma ampla gama de instalações para avaliar a qualidade de itens em uma escala. As instalações incluem vários testes estatísticos diferentes (chi square e log residual tests of fit) e gráficos de fit (categorias e curvas características do Item) entre os dados e o modelo, e um índice de fiabilidade, conhecido como Person Separation Index (PSI). O programa também fornece informações sobre o alvo de pessoas e itens (se a propagação de itens e locais de pessoas são semelhantes), e sobre dependências de itens e a possibilidade de sub-escalas significativas através de correlações de itens residuais, análise de componentes principais residuais, e análise de sub-escala. Em combinação, esta informação é utilizada para determinar a qualidade de uma escala e identificar anomalias nos dados, o que pode levar a uma compreensão mais profunda da construção ou propriedade a ser medida.Como mencionado na introdução, a análise de dados abordou três objetivos principais, o primeiro dos quais era estabelecer a consistência interna e confiabilidade de cada escala. Em outras palavras, os conjuntos de itens cada um representa uma única construção neste nível de escala? Se o fizerem, justifica-se adicionar pontuações para obter uma pontuação total em cada escala e, em seguida, utilizar essas pontuações totais (ou os seus equivalentes linearizados conhecidos como locais) para outros testes estatísticos, tais como comparações de pontuações médias entre grupos ou ao longo do tempo.

O segundo objetivo foi determinar se os itens de cada escala tem as mesmas propriedades psicométricas através de diferentes grupos de participantes: isso é chamado de Diferencial Item de Funcionamento (DIF) e determina se os itens têm propriedades psicométricas semelhantes em diferentes grupos de participantes, isto é, se os itens têm propriedades invariantes entre os grupos. Se os itens mostrarem DIF entre grupos, eles não devem ser usados para comparar o desempenho da pessoa, a menos que os indivíduos sejam do mesmo grupo. Neste estudo, os grupos de interesse foram gênero, idade, experiência com a profissão, qualificação de entrada (grau anterior ou não) e a ocasião de administração.

o terceiro objectivo era fornecer provas da validade convergente dos PCC e CSCS, examinando as suas correlações estatísticas com as escalas GSE e PRCA-24 estabelecidas que avaliam alguns aspectos da confiança.

para abordar o primeiro objectivo, foram examinados vários aspectos das escalas. O primeiro aspecto foi o funcionamento das categorias de resposta. Os limiares de itens (os pontos de corte entre cada par sucessivo de categorias como, fortemente concordam e concordam) devem ser ordenados corretamente. O segundo aspecto foi o ajuste de cada conjunto de itens para o modelo Rasch. Se os itens se encaixam no modelo, o que é evidência de consistência interna, eles podem ser aceitos como medindo uma única variável a este nível de escala. Dois testes de fit-um estatístico (o Qui quadrado) e um gráfico (as curvas características do Item, ICCs) – foram usados para julgar isso. No paradigma Rasch em geral, nenhum teste de ajuste é suficiente para tomar uma decisão sobre o fit. Um terceiro aspecto foi o direcionamento de itens e pessoas entre si: isso é estabelecido examinando a distribuição conjunta de itens e locais de pessoas no mesmo continuum. Um quarto aspecto, dependências de itens, foi examinado pela inspeção das correlações residuais entre itens. Se os itens mostram dependência, então um item em cada par é redundante e manter ambos artificialmente aumenta a confiabilidade. Essas dependências podem também indicar a presença de sub-escalas que podem ser examinadas posteriormente através da análise dos componentes principais dos resíduos. Finalmente, a confiabilidade é aferida usando o Índice de separação de pessoas (PSI), que é o equivalente Rasch do alfa de Cronbach.

para abordar o segundo objectivo-estabelecer se os itens funcionam de forma relativamente consistente entre diferentes grupos, o diferencial de item a funcionar entre os grupos por sexo, idade, experiência prévia, qualificação de entrada e ocasião foi examinado.

por último, para o endereço do terceiro objectivo de fornecer mais evidências de validade desta vez, validade convergente), estudante de escores nas escalas foram correlacionados com os escores da mesma alunos em duas escalas que medem constructos relacionados, mas diferentes de confiança e cujo prazo de validade tenha sido estabelecido na literatura de pesquisa, a saber, a IGE e PRCA-24 (comunicação interpessoal).

os resultados destas análises fornecem informações sobre a validade e fiabilidade das duas escalas. Se estes forem satisfatórios, as localizações da pessoa (as pontuações brutas linearizadas) podem ser utilizadas para análises adicionais como, por exemplo, a comparação das pontuações médias (localizações da pessoa) para os diferentes grupos de interesse e a investigação de alterações nas localizações médias ao longo do tempo.

Deixe uma resposta

O seu endereço de email não será publicado.