Expresión diferencial de ARN circular en poblaciones de células sanguíneas y exploración de la desregulación del ARN circular en leucemia linfoblástica aguda pediátrica
- CircRNAomas de poblaciones de células B, T y monocitos
- Múltiples isoformas circulares y circRNAs de nuevos genes
- Comparación entre los tipos de células reveladas Expresión de ARNc específico de tipo celular y patrones de circularización alternativos
- Expresión de circRNAs en seis subtipos citogenéticos de leucemia linfoblástica aguda de precursores de células B
CircRNAomas de poblaciones de células B, T y monocitos
Se investigó la expresión del ARN circular en poblaciones de células B, T y monocitos de donantes sanos utilizando ARN ribodepleteado de alta profundidad-seq datos de 12 muestras, con 4 réplicas por cada población de células clasificadas a partir de células mononucleares de sangre periférica, PBMC (identificación de la serie GEO: GSE110159; Métodos Suplementarios y Tabla Suplementaria 1).CirComPara25 proporcionó cuantificación y anotación de ARNc
CIRCRNA, que combinó 9 herramientas de software de detección de ARNc (CIRI226 Findcirc27; CIRCexplorer228 en alineadores BWA29, STAR30, Segemehl31 y TopHat232; DCC33; circRNA_finder34 y Segemehl31) para obtener los soportes más confiables. De hecho,se ha demostrado que la salida compartida de dos o más algoritmos para la detección de ARNc reduce las predicciones de falsos positivos35, 36. CirComPara realiza filtros de calidad de preprocesamiento de lectura, como el recorte del adaptador, la selección de calidad media de lectura y el filtrado por longitud de lectura. Además, CirComPara cuenta las lecturas empalmadas linealmente alineadas a las uniones de la lámina posterior de cada circRNA para estimar la expresión de transcripciones lineales expresadas a partir del gen huésped del circRNA. Estos valores se combinaron con los recuentos de lectura con explicación retrospectiva, que miden la expresión circular, para calcular la proporción de expresión entre las isoformas circulares y lineales (Proporción de expresión Circular a Lineal, CLP; ver Métodos). Además, el CLP incorpora el concepto de correlación de expresión circular a lineal, de modo que la variación del CLP a través de las condiciones transmite la tasa de independencia entre un circRNA y la expresión lineal de su gen hospedador33.
En total, se detectaron 68.007 circRNAs de 10.148 genes individuales mediante al menos dos métodos. Según lo informado por Hansen et al.36, los algoritmos en su mayoría estaban de acuerdo en circRNAs altamente expresados, mientras que los detectados por un solo algoritmo tenían generalmente recuentos de lectura bajos (Fig. 1).
Además, se recuperó un subconjunto de 6.228 circRNAs (de 3.323 genes) que mostraban expresión en todas las réplicas biológicas de al menos un tipo de célula y se denominó circRNAs de “alta confianza” (HC) (Tabla suplementaria 2). Comparación de circRNAs reportados en este estudio con los resultados de Nicolet et al.17 concordancias confirmadas para el 83% de los 489 circRNAs de HC recuperados en el estudio anterior y revelaron 5.824 circRNAs de HC adicionales que aún no se habían investigado para la variación de la expresión en poblaciones de células sanguíneas (Suplemento Fig. 2A).
De los 6.228 ARN HC, 5.970 y 5.821 se expresaron en células B y T, y 5.144 en monocitos (Fig. 1a). La mayoría de los circRNAs (4.763; 80%) se detectaron en los tres tipos celulares, incluidos los circZNF60937 ubicuos, circHIPK338 y los nuevos circRNAs. Es probable que los nuevos ARNR (por ejemplo, circípico) sean específicos para el compartimento hematopoyético. Los circRNAs compartidos por dos tipos de células son en su mayoría comunes entre los linfocitos.
El análisis de componentes principales no supervisado mostró una variación relativamente pequeña de los perfiles de expresión de ARNc dentro de réplicas de la misma población celular, y señaló diferencias de ARNC que discriminaban claramente los tipos celulares (Fig. 1b).
La expresión de 21 ARN de HC se validó mediante PCR-RT en CMPB de diferentes donantes sanos (Tabla Suplementaria 3; Tabla 1; Fig. 1c). Esta validación incluyó circRNAs exónicos de 15 genes diferentes, dos isoformas alternativas de IKZF1 y del ZFY específico para hombres del cromosoma Y, un circRNA (18:63280887-63281214: -) derivado de la circularización de 328 pb del único intrón grande BCL2, y un circRNA de un nuevo gen putativo (“intergenic”, ver abajo). La estructura circular de los circRNAs fue corroborada por el enriquecimiento observado de los circRNAs después del tratamiento con RNasa R, y detectada por PCR qRT con cebadores divergentes específicos para la unión de la lámina posterior 14,27. Por otra parte, todas las uniones de la lámina posterior previstas se confirmaron mediante secuenciación de Sanger.
Múltiples isoformas circulares y circRNAs de nuevos genes
Casi todos los circRNAs (99,4%) se derivan de genes anotados, principalmente con uniones backsplice superpuestas a exones conocidos (98,9%). De los 71 circRNAs con ambos extremos en regiones intrónicas, los más abundantes incluyeron el circBCL2 específico para linfocitos, que fue validado, circHLA-E, circRASSF3 y varias isoformas de circMBL1.
Casi la mitad de los genes del huésped del ARNc expresaban múltiples (hasta 20) isoformas circulares cada una (Fig. 1d). Se observó el uso preferencial de la unión de la lámina posterior y la expresión de una o pocas isoformas prevalentes. El mayor número de isoformas se expresó en monocitos por AGTPBP1 (20) y PICALM (15), y en linfocitos por UBAP2 (19) y ATM (17).
Treinta y cuatro circRNAs derivados de regiones intergénicas. Los circRNAs intergénicos que utilizan los mismos extremos de la lámina posterior en diferentes combinaciones identificaron tres loci que expresaban múltiples isoformas. Cinco circRNAs “intergénicos” derivados de un nuevo gen putativo en la región Xq11.2 (chrX:65051462-65113813) (Suplemento Fig. 3). Se validó el circRNA más abundante del locus, circX(intergenic) (X:65051462-65075912:+), detectado previamente en sangre también por Memczak y colegas 12 (Fig. 1c).
A continuación, investigamos hasta qué punto la expresión está a favor de lo circular con respecto a las transcripciones lineales que se superponen a las uniones de la lámina posterior. Los valores de CLP van de 0 a 1: 0 cuando no se detecta una expresión circular, 0 < CLP < 0.5 representa circRNAs expresados menos abundantemente que las isoformas lineales respectivas, 0.5 significa que las transcripciones circulares y lineales tienen abundancia equivalente, 0.5 < CLP ≤ 1 indica isoformas circulares expresadas más abundantemente que las transcripciones lineales respectivas. En particular, CLP = 1 cuando no se detecta la expresión lineal relativa al circRNA. Curiosamente, para 10 circRNAs no se detectó expresión lineal. Además, el CLP fue notablemente alto (>0,95) para 14 ARNs (Tabla Suplementaria 4), incluidos circGUSBP2 y circNBPF10, con una mediana de CLP que osciló entre 0,99 y 1 en todas las poblaciones celulares (Tabla Suplementaria 4), y circAFF2, que mostró un CLP alto en monocitos (0,97). La circularización preferencial de transcripciones en células sanguíneas maduras de genes específicos5, 39 y / o una mayor estabilidad de los ARN circulares en comparación con los lineares16,40 podría explicar estos hallazgos.
Comparación entre los tipos de células reveladas Expresión de ARNc específico de tipo celular y patrones de circularización alternativos
A continuación, nuestro objetivo fue definir las diferencias de los circnaomas de la población de células B, T y monocitos. Las comparaciones en parejas de las tres poblaciones identificaron un total de 1.369 circRNAs (DEC) expresados de manera significativamente diferente entre tipos celulares (Tabla suplementaria 5), que derivaron de 880 genes. La agrupación jerárquica de perfiles de expresión DEC reflejaba los conjuntos de circRNAs regulados al alza en cada tipo de celda (Fig. 2a). DeCS exclusivamente o sobreexpresados en un tipo de célula indicados circRNAs específicos de la población (Fig. 2b): 622 fueron características de las células B, 183 de las células T y 438 de los monocitos (1.243 en total; Tabla suplementaria 5). Además, se elevaron 72 DEC en ambas poblaciones de linfocitos (Fig. 2b–d). No se encontraron vías KEGG significativamente enriquecidas de términos de ontología génica para genes de circRNAs característicos de células B, que, sin embargo, incluían genes involucrados en la vía de señalización del receptor de células B, como SOS2 y NFKB1, o vinculados a funciones de células B. Por el contrario, los genes que expresan los ARN característicos de las células T enriquecieron significativamente la vía de señalización del receptor de células T. Además, los genes de los ARN característicos de los monocitos enriquecieron significativamente varios procesos biológicos y vías relacionadas con las funciones de los monocitos. Otros genes huésped característicos de tipo celular, en cambio, tenían funciones celulares no directamente vinculadas a la célula de origen (Tabla suplementaria 6).
Aunque los conjuntos de ARNc característicos del tipo celular fueron disjuntos, la superposición de conjuntos de genes que expresaban isoformas específicas indicó patrones de circularización alternativos específicos del tipo celular. Cabe destacar que 37 genes expresaban circRNAs característicos de dos tipos celulares y representaban el 14,7% de los genes con circRNAs específicos de múltiples tipos celulares (Fig. 2c). Cuatro isoformas circAKT3 mostraron expresión específica de tipo celular, tres para células B y una para células T; también cuatro circMBNL1 fueron específicas de tipo celular, 3 para células B y una para monocitos. Además, seis isoformas circulares GRK3 diferentes se sobreexpresaron específicamente en células B, mientras que otras dos se sobreexpresaron solo en monocitos.
La cuantificación por PCR-qRT en células B, células T y monocitos clasificados de 5 donantes sanos independientes confirmó los resultados de RNA-seq para los 15 ARCRNAS probados, respaldando la robustez y reproducibilidad de los datos (Fig. 2d y Suplemento Fig. 4).
Se confirmó un aumento significativo de la regulación en células B de 5 circRNAs, incluyendo circAFF3 (exones 4-6), circIL4R (exones 6-7), circSETBP1 (exón 2). Además, la alta expresión del circRNA de la región genómica 9p13.2 incluyendo PAX5 (Suplemento Fig. 5) se validó: circPAX5 (exones 2-5) y circZCCHC7 (exón 2) eran específicos de células B, mientras que una tendencia hacia la regulación ascendente de circGRHPR en células B estaba de acuerdo con la estimación de los datos de ARN-seq. El PAX5 desempeña un papel destacado en el compromiso de las células b41 y se describió la coexpresión de las transcripciones lineales de PAX5 y ZCCHC7 durante la progresión de precursores de linfocitos comunes a células preprob42. Sugestivo de corregulación de la 9p13.2 locus, circPAX5, circZCCHC7 and circGRHPR isoforms were all overexpressed specifically in B-cells. CircPAX5 and circZCCHC7 were previously detected in CD19 + cells14. Both circZCCHC7 and circGRHPR were identified in CD34 + cells and, according to data on RNA base modification promoting efficient initiation of protein translation from circRNAs in human cells, are likely to encode peptides10.
Regarding T-cells, significant overexpression was confirmed for circIKZF1 (exons 2–3), circTNIK (exons 5–7), circTXK (exons 2–6) and, in agreement with previous reports17, for circFBXW7 (exons 3–4). Also an increasing trend for circZFY (exons 2–3) in T-cells and for circAFF2 (exon 3) in monocytes, in agreement with Nicolet et al.17, confirmed RNA-seq results, while significant upregulation of circX(intergenic) and circBCL2(intronic) in lymphocytes and of circHIPK3 (exon 2) in monocytes was validated.
Nicolet et al.17 encontraron 102 circRNAs expresados de manera diferencial entre tipos y estadios de células sanguíneas, 98 de los cuales se detectaron en nuestros datos. En particular, 42 ARN resultaron expresados de manera diferencial también en nuestra comparación, 31 de los cuales eran específicos del tipo celular. En general, nuestros datos coincidieron con los racimos de ARNc previamente asociados a poblaciones de células maduras (Fig. 2b). Los ARN CIRCR previamente asignados a grupos específicos de células linfoides mostraron la expresión más alta en células B o células T, incluyendo circZCCHC7 y circFBXW7 que validamos experimentalmente. Nueve de cada 10 ARN considerados previamente como específicos de monocitos fueron recordados por nuestro análisis siendo más expresados en monocitos, incluyendo Circaf2. Sin embargo, la mayoría de los 1.243 ARNr definidos como específicos de tipo celular en el presente estudio, incluidos 11 de los 15 ARNR para los que la sobreexpresión específica de tipo celular fue confirmada por PCR-qRT en este estudio (Fig. 2d), no estaban representados en los grupos definidos por Nicolet et al.
A continuación, inspeccionamos si la abundancia de isoformas circulares con respecto a la expresión lineal se alteró entre los tipos de células. Las variaciones de CLP a través de las condiciones de la muestra indican la tasa de independencia entre un circRNA y la expresión lineal del gen huésped. En primer lugar, observamos que el número de ARNS con proporción de expresión circular más abundante (CLP > 0,5) fue mayor en las células linfoides (185 en monocitos, 333 y 364 en células B y células T, respectivamente), lo que está de acuerdo con las observaciones anteriores sobre un conjunto más pequeño de ARNS17. A continuación, se identificaron 687 ARNs (de 495 genes) con expresión independiente del gen huésped (Tabla Suplementaria 7). Entre los DEC, 163 tuvieron una variación significativa de la proporción de expresión circular entre los tipos celulares de acuerdo con la expresión absoluta diferencial, lo que indica que las variaciones observadas de este nivel de expresión del circRNA a través de las poblaciones celulares no se deben a una variación correspondiente de la expresión lineal. CircIKZF1, para el que se validó la regulación ascendente en células T, también se expresó con CLP alto en células T. En particular, 25 circRNAs mostraron una proporción de expresión circular alta y significativamente variada(Fig. 6), incluyendo el circX validado(intergénico) y tres circRNAs intergénicos adicionales, todos sobreexpresados en células B y T. CircSMARCA5 tuvo la expresión circular absoluta y relativa más alta en las células B, mientras que fue significativamente menor en las células T y más baja en los monocitos (Suplemento Fig. 7).
Expresión de circRNAs en seis subtipos citogenéticos de leucemia linfoblástica aguda de precursores de células B
A partir del recurso de circRNAs de todo el transcriptoma descrito anteriormente, se examinó la expresión y la posible desregulación de circRNAs en LLA-BCP para un conjunto objetivo de circRNAs. Los ARNs seleccionados mostraron especificidad de linfocitos o derivados de loci relacionados con leucemia. Siguiendo estos criterios, diez de los circRNAs con regulación ascendente validada en células B, células T o en ambas poblaciones de linfocitos (Fig. 2d) se seleccionaron para su cuantificación en LLA-BCP, incluidos los ARNs de genes conocidos (AFF2, AFF3, BCL2, FBXW7, IKZF1, IL4R, PAX5, SETBP1 y ZCCHC7) y el recientemente identificado circX(intergénico) altamente expresado en linfocitos. Además, circZFY, un circRNA expresado a un nivel alto en las células sanguíneas de los sujetos masculinos; Se incluyeron el circHIPK3, para el que se conocen propiedades oncogénicas en los cánceres solidos43; y el Circipvt1, recientemente vinculado a leucemias linfoblásticas agudas22.
La expresión de los 13 ARN seleccionados se midió mediante PCR-qRT en 32 muestras de xenoinjertos (PDX) derivados de TODOS los PCB (Tabla Suplementaria 8).
Todas las muestras leucémicas juntas se compararon primero con células B de donantes sanos (Suplemento Fig. 8 y Fig. 3a) para verificar la expresión desregulada del circRNA en las células leucémicas. Para siete ARN, la expresión fue significativamente diferente en TODAS las muestras en comparación con las células B. CircIL4R, circZCCHC7 and circX(intergenic), all highly expressed in lymphocytes, were less expressed in ALL. Conversely, overexpression of circAFF3, circHIPK3, circPVT1 and circPAX5 in BCP-ALL emerged. Differently from circPVT1 and circHIPK3, a functional characterization of circPAX5 and circAFF3 is still lacking. Thus, custom functional predictions, in terms of possible miRNA- binding sites, RNA binding protein (RBP) binding sites, and coding potential were obtained (Fig. 3b and Supplementary Fig. 9).
Además, exploramos la expresión del conjunto objetivo de circRNAs en los subtipos citogenéticos principales de LLA-BCP (Fig. 3a). Los subtipos citogenéticos se caracterizan por lesiones genéticas específicas, como translocaciones recurrentes (reordenamientos de MLL, BCR/ABL, fusión de ETV6-RUNX1 y TCF3-PBX1) y cariotipo hiperdiploide. La caracterización de subtipos citogenéticos es fundamental para el pronóstico de riesgo y la estratificación del tratamiento de los pacientes con leucemia. Las células leucémicas de diferentes subtipos tienen características biológicas distintas, perfiles de expresión génica y signos específicos de miarn44, 45. En este contexto, se añadió información novedosa sobre la naturaleza heterogénea de las leucemias agudas por las diferencias significativas observadas en la expresión del circRNA entre los subtipos citogenéticos (Fig. 3a). CircAFF2 se expresó altamente en la LLA-BCP TCF3-PBX1 y, en menor medida, en la LLA-BCP de ETV6-RUNX1, en comparación con los subgrupos de células B y otros subgrupos citogenéticos de LLA-BCP. CircBCL2 (intronic) se reguló al alza en LLA con fusiones de ETV6-RUNX1. CircSETBP1 y circX(intergenic) se redujeron mucho en muestras reorganizadas de MLL. CircIKZF1 fue menor en leucemias BCR-ABL e hiperdiploides en comparación con el subtipo ETV6-RUNX1, en el que la expresión se conservó en niveles comparables con las células B.