Le projet de génome de la pastèque (Citrullus lanatus) et le reséquençage de 20 accessions diverses
- Séquençage et assemblage du génome
- L’annotation des séquences répétées et la prédiction des gènes
- Évolution du génome des cucurbitacées
- Évaluation de la diversité génétique dans le matériel génétique de la pastèque
- Évolution des gènes de résistance aux maladies chez la pastèque
- Analyse de la sève du phloème des cucurbitacées et des transcriptomes vasculaires
- Régulation du développement et de la qualité des fruits de la pastèque
Séquençage et assemblage du génome
Nous avons sélectionné la lignée consanguine élite chinoise de pastèque 97103 pour le séquençage du génome. Nous avons généré un total de 46,18 Go de séquence génomique de haute qualité à l’aide de la technologie de séquençage Illumina (Tableau supplémentaire 1), soit 108 Go.couverture par 6 fois de l’ensemble du génome de la pastèque, dont la taille du génome est estimée à 425 Mo ∼ sur la base de notre analyse de distribution en profondeur de 17 mer des lectures séquencées (Fig. 1) et une analyse antérieure de cytométrie en flux9. L’assemblage de novo des lectures Illumina a abouti à un assemblage final de 353,5 Mo, représentant 83,2% du génome de la pastèque. L’ensemble se compose de 1 793 échafaudages (≥500 pb) avec des longueurs N50 de 2,38 Mo et 26,38 ko pour les échafaudages et les contigs, respectivement (Tableau supplémentaire 2). Un total de 234 échafaudages couvrant environ 330 Mb (93.5% du génome assemblé) ont été ancrés aux 11 chromosomes de la pastèque, parmi lesquels 126 et 94 échafaudages représentant 70% et 65% du génome assemblé ont été ordonnés et orientés, respectivement10.
Nous avons cherché à déterminer pourquoi 16,8% du génome n’était pas couvert par notre assemblage génomique en alignant les lectures non assemblées (17,4% du total des lectures) sur le génome assemblé avec des critères moins stricts (Note supplémentaire et Tableau supplémentaire 3). Nous avons constaté que les régions du génome non assemblées sont principalement composées de séquences similaires à celles des régions assemblées. La distribution des lectures non assemblées sur les chromosomes de la pastèque a montré le même schéma que celui des éléments transposables (Fig. 1a et Fig. supplémentaires. 2). Nous avons identifié trois unités répétées majeures des séquences non assemblées sur la base de leurs profondeurs de lecture importantes et de leurs similitudes de séquence avec les amas de centromères, de télomères et d’ADN ribosomique (ADNr). Nous avons en outre confirmé la nature de ces répétitions par les POISSONS (fig. 1b-d). Ensemble, ces résultats soutiennent l’idée que la sous-estimation de la proportion de répétitions joue un rôle important dans la composante non assemblée des assemblages génomiques de novo, en particulier ceux générés à l’aide de technologies de séquençage de nouvelle génération11,12,13,14,15,16,17,18.
Nous avons également évalué la qualité du génome de la pastèque assemblé en utilisant environ un million d’EST, quatre BAC complètement séquencés et des séquences d’extrémité appariées de 667 clones BAC. Nos analyses ont confirmé la haute qualité de l’assemblage du génome de la pastèque (Note supplémentaire, Tableaux supplémentaires 4-6 et Figs Supplémentaires. 3 et 4), ce qui est favorablement comparable à plusieurs autres génomes végétaux récemment publiés11,12,13,14,15,16,17,18 utilisation de technologies de séquençage de nouvelle génération (tableau 1).
L’annotation des séquences répétées et la prédiction des gènes
Les éléments transposables sont des composants majeurs des génomes eucaryotes. Nous avons identifié un total de 159,8 Mo (45,2%) du génome de la pastèque assemblé en tant que répétitions d’éléments transposables. Parmi ces répétitions, 68,3 % pourraient être annotées avec des familles de répétitions connues. Les rétrotransposons à répétition terminale longue (LTR), principalement des LTR de type Gypsy et de type Copia, sont prédominants. La distribution des taux de divergence des éléments transposables a montré un pic à 32% (Fig. 5). Nous avons également identifié 920 rétrotransposons LTR pleine longueur (7,8 Mo) dans le génome de la pastèque. Nous avons constaté qu’au cours des 4,5 millions d’années écoulées, les rétrotransposons LTR se sont accumulés beaucoup plus rapidement dans la pastèque que dans le concombre14 (Fig. 6) de telle sorte que la différence globale dans la taille de leur génome peut refléter l’accumulation différentielle de rétrotransposons LTR.
Nous avons prédit 23 440 gènes codant des protéines à haute confiance dans le génome de la pastèque (tableau supplémentaire 7), ce qui est proche du nombre de gènes prédits dans le génome du concombre 19. Environ 85 % des gènes prédits par la pastèque avaient des homologues connus ou pouvaient être classifiés fonctionnellement (Tableau supplémentaire 8). De plus, nous avons également identifié 123 ARN ribosomiques (ARNr), 789 ARN de transfert, 335 petits ARN nucléaires et 141 gènes de microARN (Tableau supplémentaire 9).
Conformément aux génomes végétaux précédemment rapportés, les gènes codant pour les protéines de pastèque ont montré un schéma d’enrichissement clair dans les régions subtélomères. En revanche, la fraction du génome liée aux éléments transposables était située principalement dans les régions péricentromériques et centromériques. Les bras courts des chromosomes 4, 8 et 11 sont fortement enrichis de séquences répétées (Fig. 7). Le génome 97103 contenait un amas d’ADNr 5S et deux amas d’ADNr 45S sur le bras court des chromosomes 4 et 8 (réf. 10). En utilisant des POISSONS, nous avons étudié plus en détail les profils d’ADNr dans les génomes de 20 accessions représentatives de pastèques (Tableau supplémentaire 10). Le nombre et l’emplacement des sites d’ADNr 5S et 45S dans les génomes des dix plantes cultivées modernes (C. lanatus subsp. vulgaris) et six pastèques semi-sauvages (C. lanatus subsp. mucosospermus) étaient identiques à ceux du génome 97103, tandis que les génomes des quatre pastèques sauvages (C. lanatus subsp. lanatus) contenait un site d’ADNr 45S et deux sites d’ADNr 5S, avec le site d’ADNr 5S supplémentaire sur le bras court du chromosome 11 (Fig. supplémentaire. 8). Ces résultats indiquent que la fusion chromosomique, la fission et la transposition de l’ADNr pourraient se produire au cours de l’évolution des espèces de C. lanatus. Notre analyse a également confirmé la relation phylogénétique de ces trois sous-espèces de pastèques20 et a soutenu l’hypothèse que C. lanatus subsp. mucosospermus est l’ancêtre récent de C. lanatus subsp. vulgaris.
Évolution du génome des cucurbitacées
La duplication à l’échelle du génome chez les angiospermes est courante et représente un mécanisme moléculaire important qui a façonné les caryotypes de plantes modernes. Dans le génome de la pastèque, nous avons identifié sept triplications majeures qui correspondaient à 302 relations paralogues couvrant 29% du génome (Fig. 2 bis). Ces triplés ancestraux correspondaient à l’événement de paléohexaploidisation partagé (référencé γ) rapporté pour eudicots21 qui remonte à 76-130 millions d’années. Ce serait bien avant l’événement de spéciation du génome des cucurbitacées qui s’est produit il y a 15 à 23 millions d’années (Fig. 9).
Pour accéder à la nature des événements évolutifs menant aux structures modernes du génome des cucurbitacées, nous avons analysé les relations synténiques entre la pastèque, le concombre19, le melon22 et le grape21. Nous avons choisi le raisin comme référence, car il est connu pour être le plus proche parent de l’ancêtre eudicot structuré en sept protochromosomes 23. Nous avons identifié un total de 3 543 relations orthologues couvrant 60% du génome de la pastèque. Nous avons ensuite étudié les relations chromosomiques à chromosomes détaillées au sein de la famille des Cucurbitacées et identifié des chromosomes orthologues entre la pastèque, le concombre et le melon (Fig. 2b). Les schémas synténiques compliqués illustrés sous forme de relations orthologues chromosomiques en mosaïque ont révélé un degré élevé de complexité de l’évolution et du réarrangement chromosomiques parmi ces trois espèces importantes de la famille des Cucurbitacées.
L’intégration d’analyses indépendantes des duplications au sein des quatre génomes d’eudicot (pastèque, concombre, melon et raisin) et des synténies entre ces quatre génomes (pastèque, concombre, melon et raisin) a conduit à la caractérisation précise dans la pastèque des sept paléotriplications identifiées récemment comme la base de la définition de sept groupes chromosomiques ancestraux chez eudicots24. Sur la base de l’hexaploïdisation ancestrale (γ) rapportée pour les eudicots, nous proposons un scénario évolutif qui a façonné les 11 chromosomes de la pastèque des ancêtres eudicots à 7 chromosomes en passant par les 21 intermédiaires paléohexaploïdes. Nous suggérons que la transition des ancêtres intermédiaires eudicot à 21 chromosomes a impliqué 81 fissions et 91 fusions pour atteindre la structure moderne à 11 chromosomes de la pastèque, qui est représentée sous la forme d’une mosaïque de 102 blocs ancestraux (Fig. 2c).
Évaluation de la diversité génétique dans le matériel génétique de la pastèque
Nous avons sélectionné 20 accessions représentatives de la pastèque pour le reséquençage du génome. Celles-ci comprenaient dix accessions cultivées représentant les principales variétés de C. lanatus subsp. vulgaris (cinq écotypes d’Asie de l’Est et cinq d’Amérique), six C. lanatus semiwild subsp. mucosospermus et quatre C. lanatus sauvages subsp. lanatus (Tableau supplémentaire 10 et Fig. 10). Nous avons séquencé ces accessions à une couverture comprise entre 5× et 16× et cartographié les lectures courtes au génome de 97103 (Tableau supplémentaire 11). Nous avons identifié un total de 6 784 860 SNP candidats et 965 006 petites insertions/suppressions (indel) parmi les 20 lignes rééquencées et 97 103. Les principales variations existaient entre C. lanatus subsp. lanatus et les deux autres sous-espèces, tandis que la variation au sein de la pastèque cultivée, en particulier C. lanatus subsp. l’écotype de vulgaris America était relativement faible (Tableau supplémentaire 12). Les précisions de nos appels SNP et indel étaient de 99,3% et 98%, respectivement, comme indiqué par le séquençage de Sanger (Note supplémentaire et Tableau supplémentaire 13). Ce vaste ensemble de données sur la variation du génome de la pastèque, couvrant un large spectre de diversité génétique de la pastèque, représente une ressource précieuse pour la découverte biologique et l’amélioration du matériel génétique.
Nous avons évalué la diversité génétique de la population de pastèques à l’aide de deux statistiques sommaires communes, les valeurs π et θw25. La quantité estimée de diversité dans la pastèque (tableau supplémentaire 14) était nettement inférieure à celle observée dans le maize26, le soya 27 et le riz 28. La pastèque sauvage contient une plus grande diversité génétique, ce qui indique une possibilité génétique supplémentaire d’amélioration de la pastèque. Nous avons également étudié la structure de la population et les relations entre les accessions de pastèques par la construction d’un arbre voisin (Fig. 3a) et analyse en composantes principales (PCA) (Fig. 3b). Les deux analyses indiquent une relation étroite entre C. lanatus subsp. vulgaris et C. lanatus subsp. mucosospermus (Note supplémentaire). Une analyse supplémentaire de la structure des populations à l’aide du programme frappe29 avec K (le nombre de populations) fixé de 2 à 5 a permis d’identifier un nouveau sous-groupe au sein du sous-groupe C. lanatus. groupe des mucosospermus (lorsque K = 5) et mélanges entre C. lanatus subsp. vulgaris et C. lanatus subsp. mucosospermus (Fig. 3c et Note supplémentaire). Le nouveau sous-groupe présente certaines caractéristiques de la pastèque cultivée, telles que la texture de la chair molle, la couleur de la chair rose et une teneur en sucre relativement élevée (Tableau supplémentaire 10 et Fig. 10). Ensemble, ces résultats offrent un soutien supplémentaire pour notre scénario évolutif proposé de C. lanatus subsp. mucosospermus à C. lanatus subsp. vulgaris dérivé de l’analyse de la distribution de l’ADNr chromosomique chez les POISSONS.
Nous avons ensuite analysé le génome à la recherche des régions présentant les différences de diversité génétique les plus élevées (nmucosospermus/nvulgaris) entre C. lanatus subsp. mucosospermus et C. lanatus subsp. vulgaris. Ces régions représentent des balayages sélectifs potentiels lors de la domestication de la pastèque, car on pense que les cultivars modernes de pastèque ont été domestiqués à partir de C. lanatus subsp. mucosospermus. Nous avons identifié un total de 108 régions (7,78 Mb de taille) contenant 741 gènes candidats (Fig. 4 et Tableau supplémentaire 15). Bien que les compléments génétiques dans ces régions aient pu être affectés par l’auto-stop génétique, nous avons identifié des processus biologiques enrichis de manière significative en gènes candidats liés à des traits sélectionnés importants par rapport à l’ensemble du génome, notamment la régulation de l’utilisation des glucides, la signalisation médiée par le sucre, le métabolisme des glucides, la réponse au stimulus du saccharose, la régulation du métabolisme des composés azotés, la réponse cellulaire à la privation et à la croissance d’azote (Note supplémentaire et Tableaux supplémentaires 16-18).
Il est à noter que certaines régions non centromériques, en particulier une grande région sur le chromosome 3 (de ∼3,4 Mb à55,6 Mb), ont une divergence nucléotidique particulièrement élevée uniquement chez C. lanatus subsp. adhésions de mucosospermus (Fig. 4). Un rapport précédent décrivait une découverte similaire dans trois croisements de riz différents, et il a été suggéré que ces régions à forte divergence spécifiques à la population étaient fortement associées à des gènes impliqués dans les barrières reproductrices 30. Nous avons analysé les gènes de la grande région de grande diversité du chromosome 3 et, en effet, nous avons constaté que les catégories de gènes les plus enrichies de manière significative étaient la reconnaissance du pollen et l’interaction pollen-pistil; ces deux catégories de gènes sont liées aux barrières de reproduction (Tableau supplémentaire 19). De plus, nous avons déterminé que la région contenait un grand groupe de 12 gènes de la protéine kinase du locus S en réseau tandemly, qui sont impliqués dans les barrières reproductrices 31. La forte divergence nucléotidique des gènes de la barrière reproductrice chez C. lanatus subsp. mucosospermus, l’ancêtre récent de la pastèque cultivée moderne, indique que la domestication de la pastèque pourrait être une force possible responsable de l’évolution rapide des barrières reproductrices, comme cela a été rapporté dans rice30. De plus, les gènes impliqués dans les réponses des plantes aux stress abiotiques et biotiques ont également été considérablement enrichis dans cette région, en plus des gènes liés à plusieurs traits sélectionnés connus tels que le métabolisme des glucides, la saveur des fruits (métabolisme des terpènes) et la teneur en huile de graines (métabolisme des acides gras) (Tableau supplémentaire 19).
Évolution des gènes de résistance aux maladies chez la pastèque
La culture de pastèque subit des pertes importantes dues à de nombreuses maladies. Par conséquent, l’amélioration de la résistance aux agents pathogènes est un objectif continu des programmes de sélection de pastèques. Pour étudier la base moléculaire de la susceptibilité aux agents pathogènes, nous avons recherché trois grandes classes de gènes de résistance dans le génome de la pastèque, à savoir le site de liaison aux nucléotides et la répétition riche en leucine (NBS-LRR), la lipoxygénase (LOX)32 et les familles de gènes de type récepteur33. Nous avons identifié un total de 44 gènes NBS-LRR, dont 18 gènes codant pour le récepteur de l’interleukine à péage (TIR) – NBS–LRR- et 26 gènes codant pour le coiled-coil (CC)-NBS–LRR (Tableau supplémentaire 20). Les gènes NBS-LRR de la pastèque ont évolué indépendamment, et nous n’avons détecté aucun échange de séquence entre différents homologues. De tels schémas évolutifs sont similaires à ceux des gènes de type II R chez la laitue et l’Arabidopsis34, ce qui indique que la pastèque a une faible diversité de gènes NBS-LRR. Le nombre de gènes NBS-LRR dans le génome de la pastèque est similaire à celui du concombre14 et du papaya35, mais est considérablement inférieur à celui de maize36, de rice37 et d’apple12. En revanche, la famille de gènes LOX a subi une expansion dans le génome de la pastèque avec 26 membres, dont 19 sont disposés en deux réseaux de gènes en tandem (Fig. 11). Des résultats similaires ont été rapportés chez le concombre, l’expansion de la famille des gènes LOX ayant été considérée comme un mécanisme complémentaire possible pour faire face à l’invasion d’agents pathogènes14. Nous avons en outre identifié 197 gènes de type récepteur dans le génome de la pastèque, parmi lesquels 35 codent des protéines de type récepteur dépourvues de domaine kinase et 162 codent des kinases de type récepteur qui ont un domaine kinase intracellulaire en plus des domaines LRR extracellulaire et transmembranaire (Tableau supplémentaire 20). Beaucoup de ces gènes de résistance sont situés sur des chromosomes en grappes (fig. 11), suggérant des duplications en tandem comme base évolutive.
On a émis l’hypothèse que le manque de résistance à un large éventail de maladies chez les cultivars de pastèques modernes est le résultat de nombreuses années de culture et de sélection qui se sont concentrées sur les qualités souhaitables des fruits au détriment de la résistance aux maladies8,38. Pour tester cette notion, nous avons réalisé des assemblages de novo de lectures non mappées regroupées chacune à partir de cultures modernes (C. lanatus subsp. vulgaris) et semi-sauvages et sauvages (C. lanatus subsp. mucosospermus et C. lanatus subsp. lanatus, respectivement) accessions. Nous avons identifié 11 et 69 gènes des groupes cultivé et semi-sauvage, respectivement, homologues aux protéines végétales connues (Tableau supplémentaire 21). Il convient de mentionner ici que les 69 nouveaux gènes identifiés dans le groupe semi-sauvage et sauvage ont été fortement enrichis en gènes liés à la maladie, notamment 6 gènes TIR-LRR-NBS, 1 gène PR-1 et 3 gènes de lipoxygénase, alors qu’aucun des 11 gènes identifiés dans le groupe cultivé n’était lié à la maladie. De plus, tous les 44 gènes NBS-LRR identifiés dans le génome 97103 étaient également présents dans les accessions semi-sauvages et sauvages (Note supplémentaire). Ces résultats soutiennent l’hypothèse selon laquelle une grande partie des gènes de résistance aux maladies a été perdue lors de la domestication de la pastèque.
Analyse de la sève du phloème des cucurbitacées et des transcriptomes vasculaires
Le système de tubes à tamis énucléés des angiospermes contient de l’ARNm, dont certains fonctionnent comme un agent de signalisation à longue distance39,40. Grâce au séquençage profond du transcriptome (Tableau supplémentaire 22), nous avons identifié 13 775 et 14 242 espèces d’ARNm dans les faisceaux vasculaires de pastèque et de concombre, respectivement, et 1 519 et 1 012 transcriptions dans la sève du phloème de pastèque et de concombre, respectivement (Tableaux supplémentaires 23-26). Notamment, nous avons constaté que les ensembles de gènes dans les faisceaux vasculaires entre les deux espèces de cucurbitacées étaient presque identiques, alors que seulement 50 à 60% des transcrits détectés dans la sève du phloème étaient communs entre les deux espèces (Note supplémentaire et Tableau supplémentaire 27). L’analyse d’enrichissement à terme par ontologie génique (GO) a indiqué que les principales catégories parmi les transcrits de phloème communs étaient la réponse au stress ou au stimulus (tableau supplémentaire 28), ce qui est tout à fait compatible avec le rôle central du système vasculaire de la plante, et du phloème en particulier, dans le système de communication à longue distance qui intègre la signalisation du stress abiotique et biotique au niveau de la plante entière41. En revanche, l’analyse des transcrits du phloème qui sont propres à la pastèque a identifié le processus de biosynthèse macromoléculaire et le processus métabolique des protéines comme les principales catégories de GO (tableau supplémentaire 29). Les transcriptions uniques de la sève du phloème peuvent refléter des fonctions spécialisées propres au rôle du phloème chez ces espèces. Il est à noter que le phloème de la pastèque contenait 118 facteurs de transcription, alors que nous n’avons identifié que 46 facteurs de transcription chez le concombre et 32 facteurs de transcription communs aux deux (Tableaux supplémentaires 30-32).
La citrouille (Cucurbita maxima) a été utilisée comme système modèle pour les études de phloem42,43. Nous avons développé des catalogues de transcriptions de paquets vasculaires de citrouille et de sève de phloème grâce à la génération et à l’assemblage de novo des lectures de séquençage d’ARN à extrémité appariée Illumina (RNA-Seq). L’analyse comparative des transcriptomes du phloème de la pastèque, du concombre et de la citrouille a indiqué qu’environ 36 % de leurs transcriptions étaient communes (fig. 12). Ces transcriptions conservées remplissent probablement des fonctions essentielles au fonctionnement du système de tubes à tamis chez la plupart des cucurbitacées et éventuellement d’autres espèces.
Régulation du développement et de la qualité des fruits de la pastèque
Le développement des fruits de la pastèque est un processus complexe impliquant des changements majeurs de taille, de couleur, de texture, de teneur en sucre et de composants nutritionnels. Pour obtenir une caractérisation complète des gènes impliqués dans le développement et la qualité du fruit de la pastèque, nous avons effectué l’ARN-Seq44 spécifique au brin de la chair et de la croûte à quatre étapes cruciales du développement du fruit chez la lignée consanguine 97103 (Tableau supplémentaire 33). Nous avons identifié 3 046 et 558 gènes qui étaient exprimés de manière différentielle dans la chair et la couenne, respectivement, pendant le développement du fruit et 5 352 gènes qui étaient exprimés de manière différentielle entre la chair et la couenne à au moins une des quatre étapes (Tableaux supplémentaires 34-36). L’analyse d’enrichissement à terme GO a indiqué que pendant le développement des fruits dans la chair et la croûte, les processus biologiques tels que la biogenèse de la paroi cellulaire, le métabolisme des flavonoïdes et les réponses de défense étaient significativement modifiés (taux de fausses découvertes (FDR) < 0,01), alors que les processus métaboliques des caroténoïdes, de l’hexose et des monosaccharides n’étaient significativement modifiés que dans la chair, ce qui corrobore les différences physiologiques majeures, y compris la teneur en sucre et la couleur des fruits, entre la chair et la croûte (tableau supplémentaire 37).
La teneur en sucre est un facteur clé pour déterminer la qualité des fruits de la pastèque. La douceur d’une pastèque est déterminée à la fois par la teneur totale en sucre et par les rapports entre les principaux sucres accumulés: glucose, fructose et sucrose45. Dans la chair de fruit 97103 jeune, le fructose et le glucose sont les sucres prédominants, tandis que dans la chair de fruit 97103 mature, le saccharose et la teneur en sucre total sont sensiblement augmentés, le saccharose devenant alors le sucre dominant; dans la croûte, la teneur en sucre reste relativement faible (Tableau supplémentaire 38). L’accumulation finale de sucre dans le fruit de la pastèque est déterminée par le déchargement du sucre du phloème suivi de l’absorption et du métabolisme dans la chair du fruit. Le génome annoté de la pastèque contient un total de 62 gènes d’enzymes métaboliques du sucre et de 76 gènes transporteurs du sucre, parmi lesquels 13 gènes métaboliques du sucre et 14 gènes transporteurs du sucre ont été exprimés de manière différentielle au cours du développement de la chair et entre les tissus de la chair et de la croûte (tableaux supplémentaires 39 et 40). Sur la base de ces résultats et de travaux publiés antérieurement auprès d’autres espèces de plantes46,47, nous proposons un modèle du métabolisme du sucre dans les cellules de la chair des fruits de la pastèque (fig. 13). Plus précisément, lors du développement de la chair de pastèque, l’α-galactosidase, l’invertase acide insoluble, l’invertase neutre, la saccharose phosphate synthase, l’UDP-glucose 4-épimérase, l’invertase acide soluble et l’UDP-galactose / glucose pyrophosphorylase fonctionnent comme des enzymes clés impliquées dans la régulation du déchargement et du métabolisme du sucre. En outre, les 14 transporteurs de sucre exprimés différemment sont probablement responsables du partitionnement du sucre (Note supplémentaire).
Les facteurs de transcription jouent également un rôle dans l’accumulation de sucrier48. Sur les 1 448 gènes de facteurs de transcription putatifs identifiés dans le génome de la pastèque, 193 ont montré des changements d’expression significatifs (FDR < 0,01) au cours du développement de la chair et également dans la chair par rapport à la croûte à des stades ultérieurs, y compris des facteurs de transcription de familles connues pour être impliquées dans la régulation de l’accumulation de sucre (Note supplémentaire et Tableaux supplémentaires 41 et 42). Il est à noter qu’un gène bZIP, Cla014572, est régulé à la baisse pendant le développement de la chair et contient le cadre de lecture ouvert en amont contrôlé par le saccharose (SC-uORF) (Note supplémentaire et Fig. 14). Il a été récemment rapporté que les plantes transgéniques exprimant constitutivement le SC-uORF du tabac contenant le gène BZIP tbz17 mais dépourvu de son SC-uORF avaient augmenté les concentrations de sucrier49. Par conséquent, notre analyse est cohérente avec le rôle du Cla014572 en tant que régulateur clé de l’accumulation de sucre pendant le développement des fruits.
Gènes MADS-box, tels que MADS-RIN (également connu sous le nom de LeMADS-RIN) 50 et TAGL1 (réf. 51) dans la tomate, ont été rapportés pour réguler les processus d’expansion et de maturation des fruits. L’analyse phylogénétique des facteurs de transcription MADS-box de pastèque, de concombre et d’Arabidopsis, avec MADS-RIN et TAGL1, a permis d’identifier deux facteurs de transcription MADS-box de pastèque dans chacun des clades RIN et AGL1 (Note supplémentaire et Fig. 15). Ces quatre gènes (Cla000691 et Cla010815 dans le clade RIN et Cla009725 et Cla019630 dans le clade AGL1) sont parmi les facteurs de transcription MADS-box les plus fortement exprimés au cours du développement des fruits (Tableau supplémentaire 43). Notamment, contrairement à MADS-RIN, qui est fortement exprimé uniquement dans les fruits en maturation, les Cla000691 et Cla010815 sont fortement exprimés tout au long du développement des fruits, ce qui indique qu’ils auraient pu évoluer pour participer à d’autres fonctions en plus de la maturation. Il est à noter à cet égard que les homologues proches de la banane et de la fraise de MADS-RIN montrent également des activités d’expression et / ou fonctionnelles qui s’étendent au-delà du fruit en mûrir52,53. Les profils d’expression de Cla009725 et Cla019630 pendant le développement des fruits sont similaires à ceux de TAGL1, ce qui correspond à leurs rôles potentiels dans la régulation de l’expansion et de la maturation des fruits51.
La citrulline est un acide aminé non essentiel produit à partir de glutamine et présente divers avantages pour la santé et la performance athlétique. Son nom est dérivé de citrullus, le mot latin pour pastèque, dont il a été isolé pour la première fois54. La chair et la croûte de pastèque servent de source naturelle de citrulline, et son abondance augmente considérablement pendant la maturation du fruit, mais diminue ensuite lorsque le fruit devient trop mûr (fig. 16). Sur la base de notre annotation du génome de la pastèque, nous avons identifié 14 gènes dans la voie métabolique de la citrulline (Fig. 17). Par rapport à la voie métabolique de la citrulline d’Arabidopsis, cette voie chez la pastèque a subi une expansion dans les familles de l’arginosuccinase et de l’arginosuccinate synthase. Les deux sont impliqués dans la conversion de la citrulline en L-arginine. Nous avons constaté qu’une arginosuccinase et deux gènes de l’arginosuccinate synthase étaient fortement régulés à la baisse pendant le développement de la chair de la pastèque (Tableau supplémentaire 44). Ainsi, l’accumulation de citrulline dans la chair des fruits à maturité est probablement le résultat d’une diminution des activités de dégradation de la citrulline.