El borrador del genoma de la sandía (Citrullus lanatus) y la resecuenciación de 20 accesiones diversas

Secuenciación y ensamblaje del genoma
Anotación de secuencia repetida y predicción génica
Evolución del genoma de cucurbitáceas
Evaluación de la diversidad genética en germoplasma de sandía
Evolución de los genes de resistencia a enfermedades en sandía
Análisis de savia del floema de cucurbitáceas y transcriptomas vasculares
Regulación del desarrollo y la calidad de la fruta de sandía

Secuenciación y ensamblaje del genoma

Seleccionamos la línea consanguínea de sandía de élite china 97103 para la secuenciación del genoma. Generamos un total de 46,18 Gb de secuencia genómica de alta calidad utilizando la tecnología de secuenciación Illumina (Tabla Complementaria 1), lo que representa 108.cobertura de 6 veces de todo el genoma de la sandía, que tiene un tamaño de genoma estimado de 4 425 Mb sobre la base de nuestro análisis de distribución de profundidad de 17 mer de las lecturas secuenciadas (Fig. 1)y un análisis de citometría de flujo anterior9. El ensamblaje de novo de las lecturas de Illumina resultó en un ensamblaje final de 353,5 Mb, que representa el 83,2% del genoma de la sandía. La asamblea se compone de 1,793 andamios (≥500 bp) con N50 longitudes de 2.38 Mb y 26.38 kb para los andamios y contigs, respectivamente (Tabla Suplementaria 2). Un total de 234 andamios que cubren aproximadamente 330 Mb (93.el 5% del genoma ensamblado) estaban anclados a los 11 cromosomas de sandía, de los cuales 126 y 94 andamios, que representaban el 70% y el 65% del genoma ensamblado, estaban ordenados y orientados, respectivamente10.

Buscamos determinar por qué el 16,8% del genoma no estaba cubierto por nuestro ensamblaje del genoma alineando las lecturas no ensambladas (17,4% del total de lecturas) con el genoma ensamblado con criterios menos estrictos (Nota Suplementaria y Tabla Suplementaria 3). Encontramos que las regiones del genoma no ensambladas se componen principalmente de secuencias que son similares a las de las regiones ensambladas. La distribución de las lecturas no ensambladas en los cromosomas de sandía mostró el mismo patrón que para los elementos transponibles (Fig. 1a y Suplemento Fig. 2). Identificamos tres unidades de repetición principales de las secuencias no ensambladas sobre la base de sus profundidades de lectura sustanciales y similitudes de secuencia con centrómeros, telómeros y grupos de ADN ribosómico (ADNr). Confirmamos además la naturaleza de estas repeticiones por los PECES (Fig. 1b-d). En conjunto, estos resultados apoyan la idea de que la subestimación de la proporción de repeticiones tiene un papel importante en el componente no ensamblado de los ensamblajes genómicos de novo, especialmente los generados utilizando tecnologías de secuenciación de próxima generación11,12,13,14,15,16,17,18.

figura 1 — Figura 1: Distribución de lecturas no ensambladas en el cromosoma 1 y patrones FISH de sondas de tres unidades repetidas relacionadas con los grupos de centrómeros, telómeros y ADNr 45S.

Además, evaluamos la calidad del genoma ensamblado de la sandía utilizando aproximadamente un millón de ESTs, cuatro BACs completamente secuenciados y secuencias emparejadas de 667 clones de BAC. Nuestros análisis respaldaron la alta calidad del ensamblaje del genoma de la sandía (Nota Complementaria, Tablas Suplementarias 4-6 e Higos Suplementarios). 3 y 4), que es favorablemente comparable a varios otros genomas de plantas recientemente publicados11,12,13,14,15,16,17,18 utilización de tecnologías de secuenciación de última generación (cuadro 1).

Tabla 1 Comparación del ensamblaje del genoma de la sandía con otros genomas de plantas

Anotación de secuencia repetida y predicción génica

Los elementos transponibles son componentes principales de los genomas eucarióticos. Identificamos un total de 159,8 Mb (45,2%) del genoma ensamblado de la sandía como repeticiones de elementos transponibles. Entre estas repeticiones, el 68,3% podrían estar anotadas con familias de repeticiones conocidas. Predominan los retrotransposones de repetición terminal larga (LTR), principalmente de tipo gitano y de tipo Copia. La distribución de las tasas de divergencia de elementos transponibles mostró un pico del 32% (Fig.Suplementaria. 5). Además, identificamos retrotransposones LTR de longitud completa de 920 (7,8 Mb) en el genoma de la sandía. Encontramos que en los últimos 4,5 millones de años, los retrotransposones LTR se acumularon mucho más rápido en la sandía que en el pepino14 (Fig. 6) de modo que la diferencia general en el tamaño de su genoma pueda reflejar la acumulación diferencial de retrotransposones de LTR.

Predijimos 23.440 genes codificadores de proteínas de alta confianza en el genoma de la sandía (Tabla Suplementaria 7), que se aproxima al número de genes predichos en el genoma del pepino19. Aproximadamente el 85% de los genes predecidos de la sandía tenían homólogos conocidos o podían clasificarse funcionalmente (Tabla suplementaria 8). Además, también se identificaron 123 ARN ribosómico (ARNr), 789 ARN de transferencia, 335 ARN nuclear pequeño y 141 genes de microRNA (Tabla suplementaria 9).

De acuerdo con los genomas de plantas notificados anteriormente, los genes codificadores de proteínas de sandía mostraron un patrón de enriquecimiento claro dentro de las regiones subteloméricas. En contraste, la fracción del genoma relacionada con elementos transponibles se localizó principalmente dentro de las regiones pericentromérica y centromérica. Los brazos cortos de los cromosomas 4, 8 y 11 están altamente enriquecidos con secuencias repetidas (Suplemento Fig. 7). El genoma 97103 contenía un grupo de ADNr 5S y dos grupos de ADNr 45S en el brazo corto de los cromosomas 4 y 8(ref. 10). Utilizando PECES, investigamos más a fondo los patrones de ADNr en genomas de 20 accesiones representativas de sandía (Tabla suplementaria 10). El número y la ubicación de los sitios de ADNr 5S y 45S en los genomas de los diez cultivos modernos (C. lanatus subsp. vulgaris) y seis sandías semiwild (C. lanatus subsp. mucosospermo) eran idénticos a los del genoma 97103, mientras que los genomas de las cuatro sandías silvestres más lejanas (C. lanatus subsp. lanatus) contenía un sitio de ADNr 45S y dos sitios de ADNr 5S, con el sitio adicional de ADNr 5S en el brazo corto del cromosoma 11 (Suplemento Fig. 8). Estos resultados indican que la fusión cromosómica, la fisión y la transposición del ADNr podrían ocurrir durante la evolución de las especies de C. lanatus. Nuestro análisis también confirmó la relación filogenética de estas tres subespecies de sandía20 y respaldó la hipótesis de que C. lanatus subsp. mucosospermo es el ancestro reciente de C. lanatus subsp. vulgaris.

Evolución del genoma de cucurbitáceas

La duplicación de todo el genoma en angiospermas es común y representa un importante mecanismo molecular que ha dado forma a los cariotipos de plantas modernas. En el genoma de la sandía, identificamos siete triplicaciones principales que correspondían a 302 relaciones paralógicas que cubrían el 29% del genoma (Fig. 2a). Estos triplicados ancestrales correspondían al evento de paleohexaploidización compartido (referenciado como γ) reportado para eudicots21 que se remonta a 76-130 millones de años atrás. Esto sería mucho antes del evento de especiación del genoma de las cucurbitáceas que ocurrió hace 15-23 millones de años (Fig. 9).

figura 2 — Figura 2: Síntesis genómica, patrones de duplicación e historia evolutiva de sandía, pepino y melón.

Para acceder a la naturaleza de los eventos evolutivos que conducen a las estructuras genómicas modernas de las cucurbitáceas, analizamos las relaciones sintenicas entre la sandía, el pepino19, el melón22 y la vid21. Elegimos la uva como referencia, ya que se sabe que es la pariente más cercana al ancestro eudicot estructurado en siete protocromosomos23. Identificamos un total de 3.543 relaciones ortólogas que cubren el 60% del genoma de la sandía. Luego investigamos las relaciones cromosómicas detalladas dentro de la familia de las cucurbitáceas e identificamos cromosomas ortólogos entre sandía, pepino y melón (Fig. 2b). Los complicados patrones sintenicos ilustrados como relaciones ortólogas de cromosoma a cromosoma en mosaico revelaron un alto grado de complejidad de la evolución y el reordenamiento cromosómicos entre estas tres importantes especies de cultivos de la familia Cucurbitaceae.

La integración de análisis independientes de duplicaciones y sintenías entre los cuatro genomas de eudicot (sandía, pepino, melón y uva) condujo a la caracterización precisa en sandía de las siete paleotriplicaciones identificadas recientemente como la base para la definición de siete grupos cromosómicos ancestrales en eudicots24. Sobre la base de la hexaploidización ancestral (γ) reportada para los eudicots, proponemos un escenario evolutivo que ha dado forma a los 11 cromosomas de sandía de los antepasados de los eudicots de 7 cromosomas a través de los 21 intermedios paleohexaploides. Sugerimos que la transición de los antepasados intermedios eudicot de 21 cromosomas involucró 81 fisiones y 91 fusiones para alcanzar la estructura moderna de 11 cromosomas de la sandía, que se representa como un mosaico de 102 bloques ancestrales (Fig. 2c).

Evaluación de la diversidad genética en germoplasma de sandía

Seleccionamos 20 accesiones representativas de sandía para la resecuenciación del genoma. Estas incluían diez accesiones cultivadas que representaban las principales variedades de C. lanatus subsp. vulgaris (cinco ecotipos de Asia oriental y cinco de América), seis semiwild C. lanatus subsp. mucosospermo y cuatro C. lanatus subsp. lanatus (Tabla Suplementaria 10 y Fig. 10). Secuenciamos estas accesiones a una cobertura de entre 5× y 16× y mapeamos las lecturas cortas al genoma de 97103 (Tabla Suplementaria 11). Identificamos un total de 6,784,860 SNP candidatos y 965,006 inserciones/eliminaciones pequeñas (indels) entre las 20 líneas resecuenciadas y 97103. Las principales variaciones existían entre C. lanatus subsp. lanatus y las otras dos subespecies, mientras que la variación dentro de la sandía cultivada, especialmente C. lanatus subsp. el ecotipo vulgaris America fue relativamente bajo (Tabla Suplementaria 12). Las precisiones de nuestras llamadas SNP e indel fueron del 99,3% y el 98%, respectivamente, según lo indicado por la secuenciación de Sanger (Nota Complementaria y Tabla Complementaria 13). Este extenso conjunto de datos de variación del genoma de la sandía, que abarca un amplio espectro de diversidad genética de la sandía, representa un recurso valioso para el descubrimiento biológico y la mejora del germoplasma.

Se evaluó la diversidad genética de la población de sandías utilizando dos estadísticas sumarias comunes, los valores π y θw25. La cantidad estimada de diversidad en la sandía (Tabla Suplementaria 14) fue sustancialmente menor que la encontrada en la maize26, la soya 27 y el rice28. La sandía silvestre contiene una mayor diversidad genética, lo que indica una oportunidad genética adicional para mejorar la sandía. También investigamos la estructura de la población y las relaciones entre las accesiones de sandía a través de la construcción de un árbol de unión vecino (Fig. 3a) y análisis de componentes principales (PCA) (Fig. 3b). Ambos análisis indicaron la estrecha relación entre C. lanatus subsp. vulgaris y C. lanatus subsp. mucosospermo (Nota Complementaria). Un análisis adicional de la estructura poblacional utilizando el programa FRAPPE 29 con K (el número de poblaciones) de 2 a 5 identificó un nuevo subgrupo dentro de la subsp de C. lanatus. grupo mucosospermo (cuando K = 5)y mezclas entre C. lanatus subsp. vulgaris y C. lanatus subsp. mucosospermo (Fig. 3c y Nota complementaria). El nuevo subgrupo muestra algunas características de la sandía cultivada, como textura de carne suave, color de carne rosa y contenido relativamente alto de azúcar (Tabla Suplementaria 10 y Fig.Suplementaria. 10). En conjunto, estos resultados ofrecen más apoyo para nuestro escenario evolutivo propuesto de C. lanatus subsp. mucosospermo a C. lanatus subsp. vulgaris derivado del análisis FISH de la distribución cromosómica del ADNr.

figura 3 — Figura 3: Estructura poblacional de las accesiones de sandía.

A continuación, escaneamos el genoma en busca de regiones con las mayores diferencias de diversidad genética (nmucosospermo/nvulgaris) entre C. lanatus subsp. mucosospermus y C. lanatus subsp. vulgaris. Estas regiones representan posibles barridos selectivos durante la domesticación de la sandía, ya que se cree que los cultivares modernos de sandía se domesticaron a partir de C. lanatus subsp. mucosospermo. Identificamos un total de 108 regiones (7,78 Mb de tamaño) que contenían 741 genes candidatos (Fig. 4 y Cuadro complementario 15). Aunque los complementos genéticos en estas regiones podrían haberse visto afectados por el autostop genético, identificamos procesos biológicos significativamente enriquecidos en genes candidatos que estaban relacionados con rasgos seleccionados importantes en comparación con el genoma completo, incluida la regulación del uso de carbohidratos, la señalización mediada por el azúcar, el metabolismo de los carbohidratos, la respuesta al estímulo de sacarosa, la regulación del metabolismo de compuestos de nitrógeno, la respuesta celular a la inanición y el crecimiento de nitrógeno (Nota Complementaria y Tablas Complementarias 16-18).

figura 4 — Figura 4: Distribución de la diversidad (π) para C. lanatus subsp. vulgaris (azul) y C. lanatus subsp. mucosospermo (rojo) en los 11 cromosomas de sandía.

Es de destacar que ciertas regiones no centrroméricas, especialmente una región grande en el cromosoma 3 (de ∼3,4 Mb a 5 5,6 Mb), tienen una divergencia de nucleótidos particularmente alta solo entre C. lanatus subsp. Accesiones de mucosospermo (Fig. 4). Un informe anterior describió un hallazgo similar en tres cruces de arroz diferentes, y se sugirió que estas regiones de alta divergencia específicas de la población estaban altamente asociadas con genes involucrados en barreras reproductivas30. Analizamos genes en la gran región de alta diversidad del cromosoma 3 y, de hecho, encontramos que las categorías de genes enriquecidos más significativamente fueron el reconocimiento del polen y la interacción polen-pistilo; ambas categorías de genes están relacionadas con las barreras reproductivas (Tabla Suplementaria 19). Además, se determinó que la región contenía un gran grupo de 12 genes de proteína quinasa del locus S en orden tándem, que están involucrados en barreras reproductivas31. La alta divergencia de nucleótidos de genes de barrera reproductiva en C. lanatus subsp. mucosospermo, el progenitor reciente de la sandía cultivada moderna, indica que la domesticación de la sandía podría ser una posible fuerza responsable de la rápida evolución de las barreras reproductivas, como se ha reportado en el rice30. Además, los genes implicados en las respuestas de las plantas a las tensiones abióticas y bióticas también se enriquecieron significativamente en esta región, además de los genes relacionados con varios rasgos seleccionados conocidos, como el metabolismo de los carbohidratos, el sabor de la fruta (metabolismo de los terpenos) y el contenido de aceite de semilla (metabolismo de los ácidos grasos) (Tabla suplementaria 19).

Evolución de los genes de resistencia a enfermedades en sandía

El cultivo de sandía sufre grandes pérdidas a causa de numerosas enfermedades. Por lo tanto, la mejora de la resistencia a los patógenos es un objetivo permanente de los programas de mejoramiento de sandías. Para investigar la base molecular de la susceptibilidad a los patógenos, buscamos tres clases principales de genes de resistencia en el genoma de la sandía, a saber, el sitio de unión a nucleótidos y la repetición rica en leucina (NBS-LRR), la lipoxigenasa (LOX)32 y las familias de genes similares a los receptores33. Identificamos un total de 44 genes NBS-LRR, incluidos 18 genes codificadores NBS-LRR del receptor de interleucina Toll (TIR) y 26 genes codificadores NBS-LRR de bobina enrollada (CC) (Tabla suplementaria 20). Los genes NBS-LRR de sandía evolucionaron de forma independiente, y no detectamos intercambios de secuencias entre diferentes homólogos. Tales patrones evolutivos son similares a los de los genes de tipo II R en lechuga y Arabidopsis34, lo que indica que la sandía tiene una baja diversidad de genes NBS-LRR. El número de genes NBS-LRR en el genoma de la sandía es similar al de pepino14 y papaya35, pero es considerablemente menor que el de maize36, rice37 y apple12. En contraste, la familia de genes LOX ha experimentado una expansión en el genoma de la sandía con 26 miembros, 19 de los cuales están dispuestos en dos matrices de genes en tándem (Fig. 11). Se han notificado hallazgos similares en el pepino, considerándose la expansión de la familia del gen LOX como un posible mecanismo complementario para hacer frente a la invasión de patógenos 14. Además, identificamos 197 genes similares a receptores en el genoma de la sandía, entre los cuales 35 codifican proteínas similares a receptores que carecen de un dominio de cinasa y 162 codifican quinasas similares a receptores que tienen un dominio de cinasa intracelular además de los dominios extracelulares LRR y transmembrana (Tabla Suplementaria 20). Muchos de estos genes de resistencia se encuentran en los cromosomas en grupos (Suplemento Fig. 11), sugiriendo duplicaciones en tándem como su base evolutiva.

Se ha especulado que la falta de resistencia a una amplia gama de enfermedades en los cultivares modernos de sandía es el resultado de muchos años de cultivo y selección que se han centrado en cualidades de fruta deseables a expensas de la resistencia a las enfermedades8,38. Para probar esta noción, realizamos ensamblajes de novo de lecturas no mapeadas agrupadas, cada una de ellas de cultivos modernos (C. lanatus subsp. vulgaris) y semi-silvestres y silvestres (C. lanatus subsp. mucosospermus y C. lanatus subsp. lanatus, respectivamente). Se identificaron 11 y 69 genes de los grupos cultivados y semi-silvestres y silvestres, respectivamente, que son homólogos de proteínas vegetales conocidas (Tabla Suplementaria 21). Vale la pena mencionar aquí que los 69 nuevos genes identificados del grupo semi-silvestre y silvestre estaban altamente enriquecidos con genes relacionados con la enfermedad, incluidos 6 genes TIR-LRR-NBS, 1 gen PR-1 y 3 genes de lipoxigenasa, mientras que ninguno de los 11 genes identificados en el grupo cultivado estaban relacionados con la enfermedad. Además, todos los 44 genes NBS-LRR identificados en el genoma 97103 también estaban presentes en las accesiones semi-silvestres y silvestres (Nota complementaria). Estos hallazgos apoyan la hipótesis de que una gran parte de los genes de resistencia a enfermedades se ha perdido durante la domesticación de la sandía.

Análisis de savia del floema de cucurbitáceas y transcriptomas vasculares

El sistema de tubo de tamiz enucleado angiospermo contiene ARNm, algunos de los cuales han demostrado funcionar como agente de señalización a larga distancia39,40. Mediante secuenciación de transcriptomas profundos (Tabla Suplementaria 22), identificamos 13.775 y 14.242 especies de ARNm en haces vasculares de sandía y pepino, respectivamente, y 1.519 y 1.012 transcripciones en la savia floema de sandía y pepino, respectivamente (Tablas Suplementarias 23-26). Notablemente, encontramos que los conjuntos de genes en los haces vasculares entre las dos especies de cucurbitáceas eran casi idénticos, mientras que solo el 50-60% de las transcripciones detectadas en la savia del floema eran comunes entre las dos especies (Nota Suplementaria y Tabla Suplementaria 27). El análisis de enriquecimiento de términos de Ontología génica (GO) indicó que las categorías principales entre las transcripciones de floema comunes fueron la respuesta al estrés o al estímulo (Tabla suplementaria 28), lo que es totalmente consistente con el papel central del sistema vascular de la planta, y del floema en particular, en el sistema de comunicación a larga distancia que integra la señalización de estrés abiótico y biótico a nivel de toda la planta41. En contraste, el análisis de las transcripciones de floema que son exclusivas de la sandía identificó el proceso de biosíntesis macromolecular y el proceso metabólico de proteínas como las principales categorías de GO (Tabla Suplementaria 29). Las transcripciones únicas de la savia del floema pueden reflejar funciones especializadas que son únicas para el papel del floema en estas especies. Es de destacar que el floema de sandía contenía 118 factores de transcripción, mientras que identificamos solo 46 factores de transcripción en pepino y 32 factores de transcripción que eran comunes a ambos (Tablas suplementarias 30-32).

La calabaza (Cucurbita máxima) se ha utilizado como sistema modelo para estudios de floema42,43. Desarrollamos catálogos de transcripciones de paquetes vasculares de calabaza y de savia de floema a través de la generación y el ensamblaje de novo de las lecturas de secuenciación de ARN de extremo emparejado Illumina (RNA-Seq). El análisis comparativo de los transcriptomas de floema de sandía, pepino y calabaza indicó que aproximadamente el 36% de sus transcripciones eran comunes (Fig. 12). Estas transcripciones conservadas probablemente llevan a cabo funciones que son centrales para el funcionamiento del sistema de tubos de tamiz en la mayoría de las cucurbitáceas y posiblemente especies adicionales.

Regulación del desarrollo y la calidad de la fruta de sandía

El desarrollo de la fruta de sandía es un proceso complejo que implica cambios importantes en el tamaño, el color, la textura, el contenido de azúcar y los componentes nutricionales. Para obtener una caracterización exhaustiva de los genes involucrados en el desarrollo y la calidad de la fruta de sandía, se realizó el ARN-Seq44 específico de la hebra, tanto de la carne como de la corteza, en cuatro etapas cruciales del desarrollo de la fruta en la línea endogámica 97103 (Tabla Suplementaria 33). Se identificaron 3.046 y 558 genes que se expresaban de forma diferente en la carne y la corteza, respectivamente, durante el desarrollo del fruto y 5.352 genes que se expresaban de forma diferente entre la carne y la corteza en al menos una de las cuatro etapas (Tablas suplementarias 34-36). El análisis de enriquecimiento a término de GO indicó que durante el desarrollo de la fruta tanto en la carne como en la corteza, los procesos biológicos como la biogénesis de la pared celular, el metabolismo de los flavonoides y las respuestas de defensa se alteraron significativamente (tasas de falso descubrimiento (FDR) < 0,01), mientras que los procesos metabólicos de carotenoides, hexosa y monosacáridos solo se alteraron significativamente en la carne, lo que respaldó las principales diferencias fisiológicas, incluido el contenido de azúcar y el color de la fruta, entre la carne y la corteza (Tabla suplementaria 37).

El contenido de azúcar es un factor clave para determinar la calidad de la fruta de sandía. El dulzor de una sandía está determinado tanto por el contenido total de azúcar como por las proporciones entre los principales azúcares acumulados: glucosa, fructosa y sucrosa45. En la pulpa de fruta joven 97103, la fructosa y la glucosa son los azúcares predominantes, mientras que en la pulpa de fruta madura 97103, tanto la sacarosa como el contenido total de azúcar aumentan sustancialmente, convirtiéndose la sacarosa en el azúcar dominante; en la corteza, el contenido de azúcar permanece relativamente bajo (Tabla suplementaria 38). La acumulación final de azúcar en la fruta de sandía se determina por la descarga de azúcar del floema seguida de la absorción y el metabolismo dentro de la pulpa de la fruta. El genoma anotado de la sandía contiene un total de 62 genes de enzimas metabólicas de azúcar y 76 genes transportadores de azúcar, de los cuales 13 genes metabólicos de azúcar y 14 genes transportadores de azúcar se expresaron de manera diferente durante el desarrollo de la carne y entre los tejidos de la carne y la corteza (Tablas suplementarias 39 y 40). Sobre la base de estos resultados y de trabajos publicados previamente de otras especies de plantas46,47, proponemos un modelo para el metabolismo del azúcar en las células de la pulpa de fruta de sandía (Fig. 13). Específicamente, durante el desarrollo de la pulpa de sandía, la α-galactosidasa, la invertasa ácida insoluble, la invertasa neutra, la sacarosa fosfato sintasa, la UDP-glucosa 4-epimerasa, la invertasa ácida soluble y la UDP-galactosa/pirofosforilasa de glucosa funcionan como enzimas clave involucradas en la regulación de la descarga y el metabolismo del azúcar. Además, los 14 transportadores de azúcar expresados diferencialmente son probablemente los responsables de la partición del azúcar (Nota complementaria).

Los factores de transcripción también tienen un papel en la acumulación de azucar48. De los 1.448 genes de los supuestos factores de transcripción identificados en el genoma de la sandía, 193 mostraron cambios significativos de expresión (FDR < 0,01) durante el desarrollo de la carne y también en la carne en comparación con la corteza en etapas posteriores, incluidos los factores de transcripción de familias que se sabe que participan en la regulación de la acumulación de azúcar (Nota Suplementaria y Tablas Suplementarias 41 y 42). Es de destacar que un gen bZIP, Cla014572, se regula a la baja durante el desarrollo de la carne y contiene el marco de lectura abierto aguas arriba controlado por sacarosa (SC-uORF) (Nota Suplementaria y Fig.Suplementaria. 14). Recientemente se informó de que las plantas transgénicas que expresaban constitutivamente el SC-uORF de tabaco que contenía el gen bZIP tbz17, pero que carecían de SC-uORF, habían aumentado las concentraciones de azucar49. Por lo tanto, nuestro análisis es consistente con el papel de Cla014572 como regulador clave de la acumulación de azúcar durante el desarrollo de la fruta.

Genes MADS-box, como MADS-RIN (también conocido como LeMADS-RIN)50 y TAGL1 (ref. 51) en el tomate, se ha informado que regula los procesos de expansión y maduración de la fruta. El análisis filogenético de factores de transcripción MADS-box de sandía, pepino y Arabidopsis, junto con MADS-RIN y TAGL1, identificó dos factores de transcripción MADS-box de sandía en cada uno de los clados RIN y AGL1 (Nota Suplementaria y Fig.Suplementaria. 15). Estos cuatro genes (Cla000691 y Cla010815 en el clado RIN y Cla009725 y Cla019630 en el clado AGL1) se encuentran entre los factores de transcripción MADS-box más expresados durante el desarrollo del fruto (Tabla Suplementaria 43). En particular, a diferencia de MADS-RIN, que se expresa altamente solo en frutas maduras, tanto Cla000691 como Cla010815 se expresan altamente a lo largo del desarrollo de la fruta, lo que indica que podrían haber evolucionado para participar en otras funciones además de la maduración. Es de destacar en este sentido que los homólogos cercanos de plátano y fresa de MADS-RIN también muestran actividades de expresión y/o funcionales que se extienden más allá de la fruta madurada52,53. Los perfiles de expresión de Cla009725 y Cla019630 durante el desarrollo de la fruta son similares a los de TAGL1, lo que concuerda con su papel potencial en la regulación de la expansión y maduración de la fruta 51.

La citrulina es un aminoácido no esencial producido a partir de glutamina y tiene varios beneficios para la salud y el rendimiento deportivo. Su nombre se deriva de citrullus, la palabra latina para sandía, de la que se aisló por primera54. La pulpa y la corteza de la sandía sirven como fuente natural de citrulina, y su abundancia aumenta sustancialmente durante la maduración de la fruta, pero luego disminuye a medida que la fruta se vuelve más madura (Fig. 16). Sobre la base de nuestra anotación del genoma de la sandía, identificamos 14 genes en la vía metabólica de la citrulina (Suplemento Fig. 17). En comparación con la vía metabólica de la citrulina de Arabidopsis, esta vía en la sandía ha experimentado una expansión en las familias de arginosuccinasa y arginosuccinato sintasa. Ambos están involucrados en la conversión de citrulina a L-arginina. Encontramos que un gen de arginosuccinasa y dos genes de arginosuccinato sintasa estaban altamente regulados a la baja durante el desarrollo de la carne de sandía (Tabla Suplementaria 44). Por lo tanto, la acumulación de citrulina en la pulpa de fruta en maduración es probablemente el resultado de la disminución de las actividades de degradación de la citrulina.