A statistical analysis of cervical auscultation signals from adults with unsafe airway protection
Notre protocole de collecte de données, les étapes de traitement du signal et les techniques d’extraction des caractéristiques sont tous identiques à nos travaux précédents avec des sujets dysphagiques non aspirants (Dudik, JM, Kurosu, A, Coyle, JL, Sejdić, E: The effects of dysphagia on swallowing sons et vibrations chez les adultes, à l’étude). Pour être complet, l’ensemble du processus est inclus ci-dessous avec des modifications mineures à la description de nos groupes expérimentaux. Le protocole de l’étude a été approuvé par le Conseil d’examen institutionnel de l’Université de Pittsburgh.
Collecte de données
Notre équipement d’enregistrement consistait en un accéléromètre triaxial et un microphone de contact fixé au col antérieur du participant avec du ruban adhésif double face. L’accéléromètre (ADXL 327, Analog Devices, Norwood, Massachusetts) a été monté dans un boîtier en plastique personnalisé et fixé sur le cartilage cricoïde comme décrit précédemment afin de fournir la meilleure qualité de signal. Les axes principaux de l’accéléromètre ont été alignés approximativement parallèlement au rachis cervical et perpendiculairement au plan coronal et seront appelés axes supérieur-inférieur et antérieur-postérieur, respectivement. Le troisième axe n’a pas été utilisé pour cette étude car un signal comparable n’a pas été utilisé dans notre étude sur des sujets sains. Le capteur était alimenté par une alimentation (modèle 1504, BK Precision, Yorba Linda, Californie) avec une sortie 3V, et les signaux résultants ont été filtrés passe-bande de 0,1 à 3000 Hz avec une amplification dix fois (modèle P55, Grass Technologies, Warwick, Rhode Island). Les signaux de tension pour chaque axe de l’accéléromètre ont tous deux été introduits dans un DAQ 6210 de National Instruments et enregistrés à 20 kHz par le programme LabVIEW Signal Express (National Instruments, Austin, Texas). Cette configuration s’est avérée efficace pour détecter l’activité de déglutition dans des études précédentes. Le microphone (modèle C 411L, AKG, Vienne, Autriche) a été placé sous l’accéléromètre et légèrement vers le côté latéral droit de la trachée afin d’éviter le contact entre les deux capteurs et d’empêcher l’obstruction de la vue radiographique des voies respiratoires supérieures, tout en enregistrant les événements à peu près au même endroit. Cet emplacement a été décrit précédemment comme approprié pour la collecte des signaux sonores de déglutition. Le microphone était alimenté par une alimentation électrique (modèle B29L, AKG, Vienne, Autriche) et réglé sur une impédance “ligne” avec un volume de “9” tandis que le signal de tension résultant était envoyé au DAQ mentionné précédemment. Ce signal n’a pas été filtré, car une limite supérieure à la bande passante des sons de déglutition n’a pas encore été trouvée. Le signal a été échantillonné par Signal Express à 20 kHz. Ces capteurs ont été fixés auparavant et ont permis de collecter des données lors d’une évaluation de la déglutition par vidéofluoroscopie, de sorte que des images de vidéofluoroscopie simultanées ont également été obtenues. Les images produites par la machine à rayons X (Ultimax system, Toshiba, Tustin, CA) ont été entrées sur une carte de capture vidéo (AccuStream Express HD, Foresight Imaging, Chelmsford, MA) et enregistrées avec le même programme Labview.
Un total de 76 patients suspectés de dysphagie devant subir une évaluation de la déglutition par vidéofluoroscopie au Centre médical de l’Université de Pittsburgh (Pittsburgh, Pennsylvanie) a servi d’échantillon. Les participants ont été recrutés parmi la population générale hospitalisée et ambulatoire de personnes référées au service d’orthophonie pour une évaluation instrumentale de la fonction de déglutition oropharyngée par vidéofluoroscopie (VFS). En raison de la prévalence élevée de comorbidités multiples chez les patients atteints de dysphagie et des interactions de ces affections provoquant une dysphagie, il y avait peu de patients pour lesquels un seul diagnostic d’admission ou d’hospitalisation pouvait être identifié comme la seule cause de leur dysphagie. Parmi les diagnostics les plus courants dans notre cohorte figuraient un accident vasculaire cérébral (17), une transplantation d’organes (13 poumons, 3 organes cardiaques, hépatiques, rénaux ou multiples), une dysphagie non spécifiée autrement (19), une insuffisance respiratoire (7), une maladie neurologique non liée à un AVC (6), un cancer du poumon, de l’œsophage, de la tête et du cou (3) et une pneumonie (8). Un total de 17 patients (10 hommes, 7 femmes, âge moyen de 67 ans) avaient un diagnostic actuel d’AVC, tandis que les 59 autres (40 hommes, 19 femmes, âge moyen de 61 ans) présentaient des problèmes médicaux sans rapport avec l’AVC. Les patients qui avaient des antécédents de chirurgie majeure de la tête ou du cou, qui étaient équipés d’appareils fonctionnels obstruant le cou antérieur, comme un tube de trachéotomie, ou qui n’étaient pas suffisamment compétents pour donner un consentement éclairé n’ont pas été inclus dans l’étude, mais aucune autre condition n’a été exclue. Les patients atteints de dysphagie n’ont pas subi de procédure de collecte de données standardisée, car l’examen par vidéofluoroscopie est systématiquement modifié par l’examinateur en fonction du patient. Cette méthode d’acquisition de données représente plus étroitement l’environnement clinique réel. Toutes les hirondelles analysées étaient limitées à celles faites alors que la tête du participant était dans une position de tête neutre. Les hirondelles faites avec des manœuvres telles que l’hirondelle effortful, l’hirondelle supraglottique ou la manœuvre de Mendelsohn ont également été exclues. Les liquides avalés au cours de l’examen comprenaient un liquide fin Varibar refroidi (5 ° C), de consistance < 5 cps, et du nectar Varibar, de consistance ≈300 cps, (Bracco, Milan, ITA) présenté soit comme auto-administré à partir d’une tasse dans des volumes confortables auto-sélectionnés par le patient, soit administré par l’examinateur dans des volumes d’environ 3 mL à partir d’une cuillère de 5 mL. Un total de 468 hirondelles (128 de patients ayant subi un AVC, 340 sans) n’avaient qu’une pénétration mineure du bolus dans le larynx, tandis que 53 hirondelles (19 de patients ayant subi un AVC, 34 sans) avaient une pénétration ou des résidus plus importants. Ces groupes peuvent être classés comme ayant un score d’Aspiration de pénétration de 3 ou moins dans le premier groupe ou un score de 4 ou plus dans le second, dont l’importance est expliquée dans la section suivante.
Traitement et analyse du signal
Les données enregistrées avec l’accéléromètre ont subi plusieurs étapes de traitement pour améliorer la qualité de son signal. Un signal enregistré à partir de l’appareil lorsqu’il est présenté sans entrée à une date antérieure a été utilisé pour générer un modèle auto-régressif du bruit de l’appareil. Les coefficients de ce modèle ont ensuite été utilisés pour générer un filtre à réponse impulsionnelle finie qui a été utilisé pour éliminer le bruit de l’appareil du signal enregistré. Par la suite, des artefacts de mouvement et d’autres bruits de basse fréquence ont été retirés du signal grâce à l’utilisation de cannelures des moindres carrés. Plus précisément, nous avons utilisé des splines de quatrième ordre avec un nombre de nœuds égal à \(\frac{\text{\textit{Nf}}_{l}}{f_{s}}\), où N est le nombre de points de données dans l’échantillon, fs est la fréquence d’échantillonnage originale de 10 kHz de nos données, et f l est égal à 3,77 ou 1,67 Hz pour la direction supérieure-inférieure ou antérieure-postérieure, respectivement. Les valeurs de f l ont été calculées et optimisées dans des études antérieures. Enfin, nous avons tenté de minimiser l’impact du bruit à large bande sur le signal en utilisant des techniques de débruitage en ondelettes. Plus précisément, nous avons choisi d’utiliser des ondelettes de Meyer de dixième ordre avec seuillage doux. La valeur de notre seuil a été choisie égale à \(\sigma\sqrt{2\log N}\), où N est le nombre d’échantillons dans l’ensemble de données et σ, l’écart-type estimé du bruit, est défini comme la médiane des coefficients d’ondelettes sous-échantillonnés divisés par 0,6745. Nous avons appliqué les mêmes techniques de filtrage FIR et de débruitage des ondelettes au signal du microphone après avoir recalculé les coefficients appropriés. Aucune spline ou autre technique d’élimination des basses fréquences n’a été appliquée aux sons de déglutition, car nous n’avions pas étudié si ces fréquences contenaient des informations sonores importantes.
Deux juges, tous deux orthophonistes ayant une expérience en recherche sur la dysphagie et dont la fiabilité inter et intra-évaluateur des mesures utilisées dans cette étude a été établie dans des recherches publiées antérieurement, ont inspecté visuellement les données fluoroscopiques pour mesurer deux paramètres: la durée des segments de déglutition et l’étendue de la pénétration ou de l’aspiration des voies respiratoires pendant les segments de déglutition à l’aide de l’échelle d’aspiration de pénétration. L’un de ces juges est un co-développeur de l’échelle d’aspiration de pénétration qui a développé des règles de prise de décision pour la sélection de cadres spécifiques marquant le début et le décalage de la durée du segment et pour évaluer l’étendue de la protection des voies respiratoires pendant l’hirondelle à l’aide de l’échelle de pénétration-aspiration à huit points. Ils ont ensuite formé le second juge aux méthodes de sélection de ces images vidéo. Après la formation, les deux juges ont évalué un ensemble de vingt-cinq hirondelles enregistrées par vidéo inconnues, dont aucune n’a été incluse dans les données des participants pour la présente étude. La fiabilité du jugement a été évaluée à l’aide du coefficient de corrélation intraclasse. Les coefficients de corrélation intraclasse intra-évaluateur et inter-évaluateur étaient tous deux de 0,998. Après avoir établi une fiabilité intra- et inter-évaluateurs acceptable pour les durées des segments et les scores pénétration-aspiration, le deuxième juge a ensuite évalué les scores d’apparition du segment, de décalage du segment et d’échelle de pénétration-aspiration pour chaque hirondelle décrite dans la présente étude.
Aveuglés par les données d’accélérométrie, ces juges ont segmenté et étiqueté chaque hirondelle individuelle. Le début (début) d’un segment d’hirondelle a été défini comme le moment où le bord d’attaque du bolus avalé a croisé l’ombre projetée sur l’image radiographique par la bordure postérieure du ramus de la mandibule tandis que la fin (décalage) était le moment où l’os hyoïde a terminé son mouvement associé à l’activité pharyngée liée à la déglutition et est revenu à sa position de repos ou de pré-hirondelle. Les points temporels fournis par cette procédure ont été utilisés pour segmenter les signaux vibratoires et acoustiques, obtenant ainsi des données d’hirondelle individuelles. Chaque hirondelle a également été évaluée sur une échelle standard de pénétration-aspiration clinique ordinale à 8 points (échelle PA) et toutes les hirondelles ayant une cote de 3 ou moins ont été incluses dans notre analyse en tant qu’hirondelle non aspirante. Des scores de 3 ou moins sur cette échelle indiquent soit qu’aucun matériau n’est entré dans les voies respiratoires supérieures (score de 1), soit une pénétration superficielle du larynx sans (score de 2) ou avec (score de 3) quelques résidus de matériel avalé restant dans le larynx après l’hirondelle. Ce point de coupure pour les scores sans danger-dangereux tel qu’il a été choisi parce que la pénétration laryngée plus profonde, et en particulier l’aspiration dans la trachée, représentée par des scores d’échelle de 4 et plus, se produisait avec une fréquence négligeable chez les personnes en bonne santé et, aux fins de notre étude, étaient considérées comme des hirondelles “dangereuses”. Ces scores PA ont ensuite été comparés aux signaux acquis par les dispositifs d’auscultation cervicale.
Une fois les signaux d’auscultation filtrés et segmentés, nous avons calculé plusieurs caractéristiques différentes afin de caractériser chaque hirondelle. Dans le domaine temporel, nous avons étudié l’asymétrie et la kurtose du signal, qui peuvent être calculées avec les formules statistiques typiques. Nous avons également calculé plusieurs caractéristiques théoriques de l’information en suivant la procédure décrite dans les publications précédentes. Les signaux ont été normalisés à la moyenne nulle et à la variance unitaire, puis divisés en dix niveaux équidistants, allant de zéro à neuf, qui contenaient toutes les valeurs de signal enregistrées. Nous avons ensuite calculé la caractéristique du taux d’entropie des signaux. Ceci est trouvé en soustrayant la valeur minimale du taux d’entropie normalisé du signal de 1 pour produire une valeur allant de zéro, pour un signal complètement aléatoire, à un, pour un signal complètement régulier. Le taux d’entropie normalisé est calculé comme suit
où perc est le pourcentage d’entrées uniques dans la séquence donnée L. SE est l’entropie de Shannon de la séquence et est calculée comme suit
où ρ(j) est la fonction de masse de probabilité de la séquence donnée. La quantification du signal d’origine à 100 niveaux discrets au lieu de dix nous a permis de calculer la complexité de Lempel-Ziv comme suit
où k est le nombre de séquences uniques dans le signal décomposé et n est la longueur du motif.
Nous avons également étudié plusieurs caractéristiques dans le domaine fréquentiel. La fréquence centrale, parfois appelée centroïde spectral, a été simplement calculée en prenant la transformée de Fourier du signal et en trouvant la moyenne pondérée de toutes les composantes de fréquence positives:
où x(n) est l’amplitude d’une composante fréquentielle et f(n) est la fréquence de cette composante. De même, la fréquence de crête s’est avérée être la composante de fréquence de Fourier avec la plus grande énergie spectrale. Nous avons défini la largeur de bande du signal comme l’écart-type de sa transformée de Fourier.
Enfin, nous avons caractérisé notre signal dans le domaine temps-fréquence. Des contributions antérieures ont révélé que les signaux de déglutition sont dans une certaine mesure non stationnaires, auxquels la décomposition en ondelettes convient mieux qu’une simple analyse de Fourier. Nous avons choisi de décomposer notre signal en utilisant des ondelettes de Meyer du dixième ordre car elles sont continues, ont une fonction de mise à l’échelle connue et ressemblent plus étroitement aux signaux de déglutition dans le domaine temporel qu’aux formes d’ondelettes gaussiennes ou autres. L’énergie dans un niveau de décomposition donné a été définie comme
où x représente un vecteur des coefficients d’approximation ou l’un des vecteurs représentant les coefficients de détail. // ∗ // désigne la norme euclidienne. L’énergie totale du signal est simplement la somme de l’énergie à chaque niveau de décomposition. À partir de là, nous pourrions calculer l’entropie des ondelettes comme suit:
où Er est la contribution relative d’un niveau de décomposition donné à l’énergie totale dans le signal et est donnée comme
Analyse statistique
Après avoir calculé les caractéristiques pertinentes, nous avons effectué diverses comparaisons statistiques sur notre ensemble de données. Tout d’abord, nous avons tenté de tester la normalité de nos données avec le test de Shapiro-Wilk ainsi que l’égalité des variances via le test de Levene afin d’évaluer la viabilité de l’utilisation de tests paramétriques. Cependant, après avoir séparé les données en fonction de nos variables choisies (score PA, sexe du participant, présence d’AVC, viscosité du bolus), nous avons constaté qu’environ 60% de nos distributions de caractéristiques répondaient à ces hypothèses. À ce stade, nous avons choisi d’intégrer des tests non paramétriques pour analyser nos données.
Nous avons utilisé le test de rang signé Wilcoxon pour identifier les différences en ce qui concerne chaque caractéristique des trois signaux pour les hirondelles sûres (scores PA de 1 à 3) et dangereuses (scores PA de 4 à 8) et stratifiées par la consistance du bolus ingéré. Une valeur p ≤0,05 a été utilisée pour déterminer la signification. Ce processus a été répété pour tester les différences entre les patients dysphagiques avec et sans AVC lors d’hirondelles “dangereuses”. Pour refléter les résultats de nos études précédentes, nous avons effectué une autre série de tests de somme de rang pour examiner les différences basées sur le sexe dans les signaux enregistrés à partir de la population dysphagique. Enfin, les effets de la viscosité du bolus sur nos données ont été examinés à l’aide de tests de rang signé Wilcoxon. L’âge des sujets n’a pas été utilisé comme variable car des travaux antérieurs ont montré peu d’effet significatif de l’âge sur les signaux d’auscultation cervicale, même pour de grandes différences d’âge.
Des estimations post hoc de notre puissance statistique ont été réalisées dans le logiciel GPower. Nous avons utilisé la méthode d’estimation de Lehmann avec une puissance cible d’au moins 0,80. Sous forme mathématique:
où c est la valeur critique de la statistique de test et est égale à 1,64, E() et V a r() sont respectivement les opérateurs de valeur attendue et de variance, et Φ est la fonction de distribution cumulative normale. W est la statistique de Mann-Whitney et le nombre d’instances où un point de données d’un groupe a un rang inférieur à celui des points de données du groupe alternatif. Avec de petites variations entre eux en raison de la taille variable de la population, nous avons constaté que nos comparaisons avaient suffisamment de pouvoir pour différencier les effets de taille modérée (d = 0,40 ± 0,05).