resumos feitos simples

resumo: nem todas as covariações de variáveis de tratamento e resultado num estudo observacional devem ser ajustadas. Por padrão, deve-se duvidar de estudos que se ajustam cegamente para muitos confluentes sem justificar sua escolha por motivos causais.

DISCLAIMER: My knowledge of causal inference is limited enough that I could be saying things that are very wrong. Contacte-me no twitter @jsevillamol se encontrar um erro!Supõe que queres determinar o efeito causal de um tratamento num resultado. A primeira ordem de trabalhos é determinar se existe uma correlação estatística entre elas.Apesar de ainda desafiador, temos boas ferramentas estatísticas para determinar redes de associação estatística entre conjuntos complexos de variáveis.

no entanto, a correlação não é causadora — uma correlação pode ser causada por um confluente, um antecedente causal tanto do tratamento quanto do resultado.

por exemplo, o tratamento pode ser tabágico, o resultado pode ser doença respiratória, e um plausível confunder é a idade; as pessoas mais velhas fumam mais frequentemente e são mais propensas a doenças respiratórias.

podemos ilustrar esta situação com um diagrama causal:

Um diagrama causal para fumar um estudo

Podemos dizer que há uma desbloqueado backdoor caminho, desde o tratamento até o resultado através de anos de idade, ie fumar <= idade => doenças respiratórias.

idealmente, gostaríamos de executar um ensaio controlado randomizado (RCT) que atribui aleatoriamente o tratamento para que possamos desviar o caminho de backdoor.

Um estudo controlado randomizado (RCT) de uma fumar estudo

Mas nem sempre isso é possível; por exemplo, o tratamento pode ser antiético, ou podemos querer tirar conclusões a partir de dados históricos. O que devemos fazer nessas situações?

How not to adjust for confessers

An alternate way of blocking the spurious influence of the confesser is adjusting through for example stratification. No exemplo do tabagismo, podemos dividir nossos dados em jovens e idosos, estudar a correlação entre fumar e doença em cada grupo e, em seguida, relatar a correlação ponderada como uma estimativa do efeito causal.

Isso funciona bem se estamos confiantes de que a covariável é, de fato, seria um fator confundente, ou causal, ancestral tanto do tratamento e o resultado — uma vez que dentro de cada grupo experimental, o confounder variável é fixo, ele não pode mediar um espúrias influência sobre o tratamento e o resultado, e nós vai ser capaz de fazer afirmações sobre o verdadeiro efeito causal do tratamento.Assim, sempre que os investigadores identificam uma variável que se correlaciona com o tratamento e o resultado, tendem a ajustar-se a ela.

mas essa não é a única relação causal possível entre as três variáveis!

Possíveis relações causais entre tratamento X, resultado de Y e covariável Z

Confounder

Mediador

Collider

poderia acontecer que a covariável medeia a interação entre o tratamento e o resultado. Isto é, X = > Z E Z = > Y.Por exemplo, poderíamos estudar o efeito das culturas de OGM na saúde dos consumidores e descobrir que os OGM são menos susceptíveis de serem infectados por um agente patogénico. Nesse caso, a presença de um agente patogénico seria um mediador entre os OGM e a saúde dos consumidores.

Note que o mediador não tem de ser o único mecanismo que explica o efeito — o OGM também pode alterar o perfil alimentar da cultura, independentemente do efeito que tem sobre os agentes patogénicos.

neste caso, ajuste para a covariável Z irá reduzir o efeito aparente do tratamento X sobre o resultado de Y, e o nosso relatório vai ser enganosa (a menos que especificamente tentando medir isoladamente a parte do tratamento do efeito não é mediado pela covariável).

a terceira possibilidade é que o covariato é um colisor de tratamento e resultado. Isto é, tanto X quanto Y causam Z. Por exemplo, podemos ter que tanto pesquisadores de inteligência artificial quanto afitionates de xadrez gostam de ler desenvolvimentos sobre o jogo automatizado de xadrez.O ajuste para um colisor irá aumentar a força aparente do efeito do tratamento no resultado.

No exemplo anterior, se nós examinamos as pessoas que leram um sistema automático de xadrez jogando artigo, podemos encontrar que o xadrez affitionates são menos propensos a ser AI pesquisadores e vice-versa—, mas que não seria surpreendente, uma vez que estamos a filtragem de nossa pesquisa demografia pessoas que não estão nem AI pesquisadores nem de xadrez affitionaties.

portanto, cuidado com o ajuste para Mediadores e colidores!

agora, como podemos distinguir entre os casos em que uma covariação é um confessor dos casos em que é um mediador ou colisor?Resposta curta :não podemos, pelo menos não apenas de observar os dados. Precisamos confiar no conhecimento específico do domínio das relações causais subjacentes.Quando várias covariações estão envolvidas, a história fica mais complicada. Precisamos mapear todo o gráfico causal entre todas as covariantes, o tratamento e o resultado, e justificar nosso mapeamento causal por razões científicas.

então podemos usar as regras do cálculo e princípios como o critério de backdoor para encontrar um conjunto de covariados para ajustar para bloquear a correlação espúria entre tratamento e resultado para que possamos estimar o verdadeiro efeito causal.

em geral, eu esperaria que quanto mais variáveis um estudo ajustar para, mais provável que eles estão introduzindo uma correlação espúria através de um colisor ou bloqueando um caminho de mediação.

O problema dos graus de liberdade

separar Um forte motivo para que a dúvida estudos que ajustar a muitas variáveis em uma desonestas forma é a adição de graus de liberdade sobre como realizar o estudo.

se você medir uma relação entre duas variáveis de 1000 maneiras diferentes e escolher a que mostra a maior correlação, você provavelmente irá sobrestimar a eficácia do tratamento.

ter um conjunto maior de covariáveis permite ajustar para qualquer subconjunto que desejar. Por exemplo, se você tem acesso a 10 covariadas você pode ajustar para qualquer um dos 2^10 ≈ 1000 subconjuntos possíveis.

não tem de ser que um único grupo de investigação esteja sistematicamente a tentar todos os subconjuntos de ajuste possíveis e a escolher o melhor (embora, notavelmente, alguns métodos estatísticos estejam a fazer algo muito semelhante a este — por exemplo, métodos de selecção de subconjuntos stepwise ou best da selecção de variáveis). Pode ser que diferentes pesquisadores estejam tentando diferentes subconjuntos, e o mecanismo que combina seus resultados é tendencioso.Por exemplo, 100 grupos de investigação podem tentar 100 subconjuntos diferentes. 95 deles corretamente identificam que não há efeito, mas por causa do viés de publicação eles não fazem seus resultados amplamente disponíveis, enquanto os 5 grupos que erroneamente identificaram um forte efeito são os únicos que são publicados, criando a impressão de que todos os estudos realizados encontraram um forte efeito onde de fato não há nenhum.

em resumo, quando não se compromete a seguir uma forma de realização de ajustes baseada em princípios no seu estudo, é mais provável que introduza um viés nos seus resultados.

Uma palavra de cautela: você ainda precisa de bons controles

neste artigo vamos nos concentrar no problema de escolha de muitos, controles inadequados, porque essa é uma intuição de que eu ver as pessoas mais falta, mesmo entre aqueles contrário conhecimentos sobre estatística aplicada.

no entanto, tenha em mente que você pode cometer o erro oposto — você pode deixar de se ajustar para confluentes relevantes — e acabar concluindo que o consumo de chocolate causa prêmios nobel.

Especialmente com observações sobre fenômenos complexos, apenas ajustando algumas coisas praticamente garante que você está omitindo coisas que você deve estar ajustando — e você pode ser mais ou atenuando o efeito.

um desafio relacionado vai sob o título de “confusão residual”. Mesmo que você identifique um codificador e ajuste para ele, ele ainda irá influenciar os resultados proporcionais à precisão com que você pode medi — lo-naturalmente nós medimos a maioria das coisas de forma imprecisa ou por proxy.Recapitulando numa frase: controlar para codificadores é a chave Se você quiser inferir efeitos causais a partir de dados observacionais.O que devemos fazer?

como um teste litmus, ser mais duvidoso dos estudos observacionais que se ajustam para variáveis sem justificar a sua escolha de ajuste por motivos causais.No entanto, alguns estudos não fazem o trabalho necessário para justificar a sua escolha de confidentes, o que nos deixa numa posição muito pior para extrair dados fiáveis do seu trabalho. O que podemos fazer nesses casos?

em primeiro lugar, podemos examinar cada um dos confluentes escolhidos isoladamente, e pensar como eles se comportam causalmente em relação ao tratamento e resultado.Por exemplo, suponha que estamos revisando um estudo do efeito do Tratado de não proliferação (X) no nível de investimento em armas nucleares (Y), e estamos nos perguntando se eles deveriam ter ajustado para o PIB (Z).

bem, poderia ser o caso de que os países com um PIB mais elevado também são mais influentes e moldaram o tratado para serem benéficos para eles, então Z = > X. E os países com um PIB maior podem investir mais em armas nucleares, então Z = > Y. neste caso, o PIB seria um confunder, e nós deveríamos ajustar para ele.

Mas poderíamos dizer igualmente uma história convincente, argumentando que os países que assinam o tratado de são susceptíveis de ser percebida como mais cooperativa e obter melhores acordos comerciais, de modo que X => Z. E os países que investem mais em armas nucleares têm melhor segurança para que eles atraem mais investidores, então Y => Z. Sob esta interpretação, o PIB é um acelerador, e não devemos ajustar para ele.

ou poderíamos combinar os dois cenários anteriores para argumentar que X = > Z E Z = > Y, então o PIB seria um colisor e não deveríamos ajustar para ele também.Na ausência de uma razão imperiosa para rejeitar as explicações alternativas, não devemos ajustar-nos ao PIB.No entanto, imagine que o estudo está se ajustando para a participação em outros acordos nucleares. Parece artificial argumentar que a participação em outros tratados causou a participação no TNP; ambos parecem ser mais diretamente causados pela predisposição geral do país para assinar tratados nucleares.

neste caso, a “predisposição para a tratados” seria um fator confundente para o efeito do TNP Nuclear de investimento, mas não podemos observar diretamente a ele. No entanto, podemos bloquear a sua falsa influência ajustando-nos a “outros tratados nucleares” segundo o critério da porta das Traseiras.

o que acontece se o estudo estiver se ajustando tanto para a GPD quanto para a participação em outros tratados nucleares?Por defeito, devemos duvidar da validade causal da sua conclusão.

Podemos usar esta informação para fazer algumas previsões (por exemplo, podemos usar os resultados do estudo acima para adivinhar se um estado que estava indo para assinar o tratado de qualquer maneira vai reduzir os investimentos em arsenal nuclear), mas não podemos fazer recomendações de tratamento (por exemplo, não podemos afirmar que o lobby de um estado de ator em aceitar o NPT é uma forma eficaz para levá-los a reduzir seu arsenal).Se quisermos tentar resgatar os seus resultados, podemos tentar construir um diagrama causal de variáveis relevantes e considerar se a sua escolha de codificadores satisfaz os critérios relevantes.

se as variáveis de ajuste que eles escolheram não bloqueiam corretamente efeitos espúrias ou introduzem novos efeitos através de colidências, e nós temos acesso aos dados, nós podemos querer tentar a nossa mão na repetição do estudo com uma melhor escolha de variáveis de ajuste.

mas é claro que ainda podemos identificar os principais confidentes que os autores não incluíram no conjunto de dados. Nesse caso, sugiro prestar atenção às palavras de John Tukey:

“a combinação de alguns dados e um desejo angustiante de uma resposta não garante que uma resposta razoável possa ser extraída de um dado corpo de dados.”

Conclusões

neste post explicamos os três tipos de relações de causalidade entre a covariável e um tratamento-resultado par: fatores de confusão, os mediadores e os aceleradores. Vimos que, para deduzir os efeitos causais, devemos ajustar-nos aos confluentes, mas não aos mediadores ou aos colidores.

argumentamos que o mais variáveis de um estudo observacional ajusta-se para, o mais provável que eles terão feito um causais de erros ou que os graus de liberdade adicionais e viés de publicação exagerar o efeito relatado.

também Alertamos o leitor para não cometer o erro oposto-ajustar para os confessores de uma forma baseada em princípios é essencial para transformar dados observacionais em informação causal.Como forma de extrair dados de estudos anteriores, sugerimos examinar criticamente sua escolha de co-variáveis de ajuste com base em critérios causais. Se eles se ajustam para variáveis desnecessárias, nós sugerimos a repetição da análise se os dados estão disponíveis, enquanto que se um codificador chave está faltando nos dados nós devemos apenas aceitar que às vezes nós não temos informações suficientes para responder corretamente as questões que nos preocupam.

Deixe uma resposta

O seu endereço de email não será publicado.