Projekt genomu arbuza (Citrullus lanatus) i resekwencjonowanie 20 różnych akcesji

sekwencjonowanie i montaż genomu
adnotacja sekwencji powtórzeń i przewidywanie genów
Ewolucja genomu dyniowatych
ocena różnorodności genetycznej w plazmie zarodkowej arbuza
Ewolucja genów odporności na choroby u arbuza
analiza soku z dyniowatych i transkryptomów naczyniowych
Regulacja rozwoju i jakości owoców arbuza

sekwencjonowanie i montaż genomu

wybraliśmy chińską elitarną linię arbuzową 97103 do sekwencjonowania genomu. Wygenerowaliśmy łącznie 46,18 Gb Wysokiej Jakości sekwencji genomowej przy użyciu technologii sekwencjonowania Illumina (tabela uzupełniająca 1), reprezentujących 108.6-krotne pokrycie całego genomu arbuza, który ma szacowany rozmiar genomu ∼425 Mb na podstawie naszej analizy rozkładu głębokości 17 mer sekwencjonowanych odczytów(dodatkowe rys. 1) oraz wcześniejszą analizę cytometrii przepływowej9. De novo montaż Illumina reads zaowocował końcowym montażem 353,5 Mb, co stanowiło 83,2% genomu arbuza. Zespół składa się z 1793 rusztowań (≥500 bp) o długościach N50 odpowiednio 2,38 Mb i 26,38 kb dla rusztowań i styków (tabela uzupełniająca 2). Łącznie 234 rusztowania obejmujące około 330 Mb (93.5% zmontowanego genomu) zakotwiczono w 11 chromosomach arbuzowych, wśród których odpowiednio uporządkowano i zorientowano 126 I 94 szkielety stanowiące 70% i 65% zmontowanego genomu.

staraliśmy się ustalić, dlaczego 16,8% genomu nie było objęte naszym zespołem genomu, dostosowując niezmontowane odczyty (17,4% wszystkich odczytów) do zmontowanego genomu przy mniej rygorystycznych kryteriach (Uwaga uzupełniająca i tabela uzupełniająca 3). Odkryliśmy, że niezmontowane regiony genomu składają się głównie z sekwencji podobnych do sekwencji złożonych regionów. Rozkład niezmontowanych odczytów na chromosomach arbuza wykazał taki sam wzór jak dla elementów transponowalnych (rys. 1a i dodatkowe rys. 2). Zidentyfikowaliśmy trzy główne jednostki powtórzeń z niezmontowanych sekwencji na podstawie ich znacznej głębokości odczytu i podobieństw sekwencji do centromerów, telomerów i klastrów rybosomalnego DNA (rDNA). Potwierdziliśmy też naturę tych powtórzeń przez ryby (Fot. 1b-d). Łącznie wyniki te potwierdzają pogląd, że niedoszacowanie proporcji powtórzeń odgrywa ważną rolę w niezmontowanym składniku zespołów genomu de novo, zwłaszcza tych generowanych przy użyciu technologii sekwencjonowania nowej generacji11,12,13,14,15,16,17,18.

figurka1 — Rysunek 1: Rozkład niezmontowanych odczytów na chromosomie 1 i wzorcach ryb sond z trzech jednostek powtórzeń związanych z gromadami centromere, telomere i 45S rDNA.

następnie oceniliśmy jakość zmontowanego genomu arbuza za pomocą około miliona est, czterech całkowicie zsekwencjonowanych Bac i sparowanych sekwencji końcowych 667 klonów BAC. Nasze analizy potwierdziły wysoką jakość zespołu genomu arbuza (Uwaga uzupełniająca, tabele uzupełniające 4-6 i dodatkowe Fig. 3 i 4), co jest korzystnie porównywalne z kilkoma innymi niedawno opublikowanymi genomami roślin11,12,13,14,15,16,17,18 wykorzystanie technologii sekwencjonowania nowej generacji (Tabela 1).

Tabela 1 Porównanie zespołu genomu arbuza z innymi genomami roślinnymi

adnotacja sekwencji powtórzeń i przewidywanie genów

elementy Transponowalne są głównymi składnikami genomów eukariotycznych. Zidentyfikowaliśmy łącznie 159,8 Mb (45,2%) zmontowanego genomu arbuza jako powtarzalne elementy. Wśród tych powtórzeń 68,3% można przypisać do znanych rodzin powtórzeń. Dominują retrotranspozycje typu long terminal repeat (LTR), głównie ltr typu cygańskiego i Copia. Rozkład współczynników dywergencji elementów transponowalnych wykazał wartość szczytową na poziomie 32% (dodatkowe rys. 5). Ponadto zidentyfikowaliśmy 920 (7,8 Mb) retrotranspozonów LTR pełnej długości w genomie arbuza. Odkryliśmy, że w ciągu ostatnich 4,5 miliona lat retrotranspozycje LTR gromadziły się znacznie szybciej w arbuzie niż w ogórku14 (dodatkowe rys. 6) tak, że ogólna różnica w ich rozmiarach genomu może odzwierciedlać różnicową akumulację retrotranspozonu LTR.

przewidzieliśmy 23 440 genów kodujących białka o wysokim zaufaniu w genomie arbuza (tabela uzupełniająca 7), co jest zbliżone do liczby genów przewidywanych w genomie ogórka19. Około 85% przewidywanych genów arbuza miało znane homologi lub mogło być sklasyfikowane funkcjonalnie (tabela uzupełniająca 8). Ponadto zidentyfikowaliśmy 123 rybosomalne RNA (rRNA), 789 transferowy RNA, 335 mały jądrowy RNA i 141 genów mikroRNA (dodatkowa tabela 9).

zgodnie z wcześniej opisanymi genomami roślinnymi geny kodujące białko arbuza wykazywały wyraźny wzór wzbogacania w subtelomerycznych regionach. Natomiast transpozycyjna frakcja genomu związana z pierwiastkami znajdowała się głównie w regionach perycentromerycznych i centromerycznych. Krótkie ramiona chromosomów 4, 8 i 11 są silnie wzbogacone sekwencjami powtarzającymi się (Fig. 7). Genom 97103 zawierał jedno 5s i dwa 45s klastry rDNA na krótkim ramieniu chromosomów 4 i 8 (ref. 10). Przy użyciu ryb zbadaliśmy dalej wzorce rDNA w genomach 20 reprezentatywnych akcesji arbuza (tabela uzupełniająca 10). Liczba i lokalizacja miejsc 5s i 45s rDNA w genomach dziesięciu współczesnych uprawianych (C. lanatus subsp. vulgaris) i sześciu Półkrwi (“C. lanatus” subsp. mucosospermus) były identyczne z tymi w genomie 97103, podczas gdy genomy czterech bardziej odległych spokrewnionych dzikich arbuzów (C. lanatus subsp. lanatus) zawierało jeden 45s i dwa miejsca 5s rDNA, z dodatkowym miejscem 5S rDNA na krótkim ramieniu chromosomu 11 (dodatkowe rys. 8). Wyniki te wskazują, że fuzja chromosomów, rozszczepienie i transpozycja rDNA mogą wystąpić podczas ewolucji gatunków C. lanatus. Nasza analiza potwierdziła również pokrewieństwo filogenetyczne tych trzech podgatunków arbuzów20 i poparła hipotezę, że “C. lanatus” subsp. mucosospermus jest ostatnim przodkiem C. lanatus subsp. vulgaris.

Ewolucja genomu dyniowatych

powielanie całego genomu w okrytonasiennych jest powszechne i stanowi ważny mechanizm molekularny, który ukształtował współczesne kariotypy roślin. W genomie arbuza zidentyfikowaliśmy siedem głównych triplikacji, które odpowiadały 302 paralogicznym związkom obejmującym 29% genomu (Fig. 2A). Te tryplikaty przodków odpowiadały wspólnej paleoheksaploidyzacji (określanej jako γ) opisanej dla eudicots21, która datowana jest na 76-130 milionów lat temu. Byłoby to znacznie wyprzedzające wydarzenie specjacji genomu dyniowatych, które miało miejsce 15-23 miliony lat temu(dodatkowe rys. 9).

figurka2 — Rysunek 2: synteza genomu, wzorce powielania i ewolucyjna historia arbuza, ogórka i melona.

aby uzyskać dostęp do natury zdarzeń ewolucyjnych prowadzących do współczesnych struktur genomu dyniowatych, przeanalizowaliśmy związki synteniczne między arbuzem, ogórek19, melon22 i grape21. Jako punkt odniesienia wybraliśmy winogrona, ponieważ wiadomo, że jest to najbliższy krewny przodka eudicota zbudowanego w siedmiu protochromosomach23. Zidentyfikowaliśmy 3543 związki ortologiczne obejmujące 60% genomu arbuza. Następnie zbadaliśmy szczegółowe relacje między chromosomami w rodzinie dyniowatych (Cucurbitaceae) i zidentyfikowaliśmy ortologiczne chromosomy między arbuzem, ogórkiem i melonem (Fig. 2b). Skomplikowane wzorce synteniczne Ilustrowane jako mozaikowe relacje ortologiczne chromosomu z chromosomem ujawniły wysoki stopień złożoności ewolucji chromosomów i przegrupowania między tymi trzema ważnymi gatunkami roślin z rodziny dyniowatych (Cucurbitaceae).

Integracja niezależnych analiz duplikacji w obrębie i syntenies między czterema genomami eudicot (arbuza, ogórka, melona i winogrona) doprowadziła do precyzyjnej charakterystyki w arbuzie siedmiu paleotriplikacji zidentyfikowanych niedawno jako podstawa do definicji siedmiu przodkowych grup chromosomowych w eudicots24. Na podstawie Ancestral hexaploidyzacji (γ) zgłoszonej dla eudicotów, proponujemy ewolucyjny scenariusz, który ukształtował 11 chromosomów arbuzowych od 7-chromosomowych przodków eudicotów do 21 paleoheksaploidów pośrednich. Sugerujemy, że przejście od pośrednich przodków eudicota z 21 chromosomami obejmowało 81 rozszczepień i 91 fuzji, aby osiągnąć nowoczesną strukturę arbuza z 11 chromosomami, która jest reprezentowana jako mozaika 102 bloków przodków (Fig. 2c).

ocena różnorodności genetycznej w plazmie zarodkowej arbuza

wybraliśmy 20 reprezentatywnych akcesji arbuza do resekwencjonowania genomu. Zaliczano do nich dziesięć odmian uprawnych reprezentujących główne odmiany C. lanatus subsp. vulgaris (pięć ekotypów Azji Wschodniej i pięć Ameryki), sześć semiwildów C. lanatus subsp. mucosospermus i cztery Dzikie C. lanatus subsp. lanatus (dodatkowa Tabela 10 i dodatkowa rys. 10). Zsekwencjonowaliśmy te dostępy do zakresu od 5× do 16× i zmapowaliśmy krótkie odczyty do genomu 97103 (dodatkowa tabela 11). Zidentyfikowaliśmy łącznie 6,784,860 kandydujących SNP i 965,006 małych wstawek / usunięć (INDEL) wśród 20 resekwencjonowanych linii i 97103. Główne odmiany istniały między C. lanatus subsp. lanatus i dwa pozostałe podgatunki, podczas gdy zmienność w obrębie arbuza uprawianego, zwłaszcza C. lanatus subsp. ekotyp vulgaris America był stosunkowo niski (tabela uzupełniająca 12). Dokładności naszego wywołania SNP i indel wynosiły odpowiednio 99,3% i 98%, na co wskazuje sekwencjonowanie Sangera (Uwaga uzupełniająca i tabela uzupełniająca 13). Ten obszerny zbiór danych o zmienności genomu arbuza, obejmujący szerokie spektrum różnorodności genetycznej arbuza, stanowi cenny zasób dla odkryć biologicznych i poprawy plazmy zarodkowej.

oceniliśmy różnorodność genetyczną populacji arbuzów na podstawie dwóch wspólnych statystyk sumarycznych, wartości π i θw25. Szacowana różnorodność arbuzów (tabela uzupełniająca 14) była znacznie niższa niż w maize26, soi27 i rice28. Dziki arbuz zawiera większą różnorodność genetyczną, co wskazuje na dodatkowe możliwości genetyczne poprawy arbuza. Zbadaliśmy również strukturę populacji i zależności między przystąpieniem arbuza poprzez budowę drzewa łączącego sąsiada (rys. 3a) i analiza głównych składników (PCA) (rys. 3b). Obie analizy wskazały na bliskie pokrewieństwo C. lanatus subsp. vulgaris i C. lanatus subsp. mucosospermus (Nota uzupełniająca). Dodatkowa analiza struktury populacji za pomocą programu FRAPPE 29 Z k (liczba populacji) ustawiona od 2 do 5 zidentyfikowała nową podgrupę w obrębie C. lanatus subsp. Grupa mucosospermus (gdy K = 5) i domieszki między C. lanatus subsp. vulgaris i C. lanatus subsp. mucosospermus (Fig. 3c i Uwaga uzupełniająca). Nowa podgrupa pokazuje pewne cechy uprawianego arbuza, takie jak miękka konsystencja miąższu, różowy kolor miąższu i stosunkowo wysoka zawartość cukru (tabela uzupełniająca 10 i Fig.uzupełniająca. 10). Razem te wyniki oferują dalsze wsparcie dla proponowanego przez nas scenariusza ewolucyjnego C. lanatus subsp. mucosospermus do C. lanatus subsp. vulgaris pochodzi z analizy ryb rozkładu chromosomalnego rDNA.

figurka3 — Rysunek 3: Struktura populacji arbuzów.

następnie przeskanowaliśmy Genom w poszukiwaniu regionów o największych różnicach różnorodności genetycznej (nmucosospermus/nvulgaris) między C. lanatus subsp. mucosospermus and C. lanatus subsp. vulgaris. Regiony te reprezentują potencjalne wybiórcze zamiaty podczas udomowienia arbuza, ponieważ uważa się, że współczesne odmiany arbuza zostały udomowione z C. lanatus subsp. mucosospermus. Zidentyfikowaliśmy łącznie 108 regionów (rozmiar 7,78 Mb) zawierających 741 genów kandydujących (rys. 4 i tabela uzupełniająca 15). Chociaż uzupełnienia genów w tych regionach mogły mieć wpływ na Autostop genetyczny, zidentyfikowaliśmy procesy biologiczne znacząco wzbogacone w geny kandydujące, które były związane z ważnymi wybranymi cechami w porównaniu do całego genomu, w tym regulacją zużycia węglowodanów, sygnalizacją za pośrednictwem cukru, metabolizmem węglowodanów, reakcją na bodziec sacharozowy, regulacją metabolizmu związków azotu, odpowiedzią komórkową na głód i wzrost azotu (Uwaga uzupełniająca i tabele uzupełniające 16-18).

figurka4 — Rysunek 4: rozkład różnorodności (π) Dla C. lanatus subsp. vulgaris (niebieski) i C. lanatus subsp. mucosospermus (czerwony) na 11 chromosomach arbuzowych.

warto zauważyć, że niektóre regiony niecentromeryczne, zwłaszcza duży obszar na chromosomie 3 (od ∼3,4 Mb do ∼5,6 Mb), mają szczególnie wysoką rozbieżność nukleotydów tylko u C. lanatus subsp. mucosospermus accessions (rys. 4). W poprzednim raporcie opisano podobne wyniki w trzech różnych krzyżówkach ryżu i zasugerowano, że te specyficzne dla populacji regiony o dużej dywergencji są silnie związane z genami zaangażowanymi w bariery reprodukcyjne30. Przeanalizowaliśmy geny w dużym regionie o wysokiej różnorodności na chromosomie 3 i rzeczywiście odkryliśmy, że najbardziej znacząco wzbogacone kategorie genów to rozpoznawanie pyłku i interakcja pyłek-słupek; obie te kategorie genów są związane z barierami reprodukcyjnymi (dodatkowa tabela 19). Ponadto ustaliliśmy, że region zawiera duży klaster 12 tandemowo ułożonych genów kinazy białkowej s-locus, które są zaangażowane w bariery reprodukcyjne31. Duża rozbieżność nukleotydów genów bariery rozrodczej u C. lanatus subsp. mucosospermus, ostatni przodek współczesnego arbuza uprawianego, wskazuje, że udomowienie arbuza może być potencjalną siłą odpowiedzialną za szybką ewolucję barier rozrodczych, jak opisano w rice30. Ponadto geny biorące udział w odpowiedzi roślin na stresy abiotyczne i biotyczne zostały w tym regionie znacząco wzbogacone, oprócz genów związanych z kilkoma znanymi wybranymi cechami, takimi jak metabolizm węglowodanów, smak owoców (metabolizm terpenów) i zawartość oleju z nasion (metabolizm kwasów tłuszczowych) (tabela uzupełniająca 19).

Ewolucja genów odporności na choroby u arbuza

uprawa arbuza cierpi na poważne straty z powodu licznych chorób. Dlatego poprawa odporności na patogeny jest stałym celem programów hodowli arbuzów. Aby zbadać molekularne podstawy podatności na patogeny, poszukiwaliśmy trzech głównych klas genów oporności w genomie arbuza, a mianowicie miejsca wiązania nukleotydów i powtórzeń bogatych w leucynę (NBS-LRR), lipoksygenazy (LOX) 32 i rodzin genów podobnych do receptora33. Zidentyfikowaliśmy łącznie 44 geny NBS-LRR, w tym 18 genów kodujących receptor Toll interleukin (TIR)-NBS– LRR-i 26 genów kodujących coiled-coil (CC)-NBS–LRR (tabela uzupełniająca 20). Arbuzowe geny NBS-LRR ewoluowały niezależnie i nie wykryliśmy wymiany sekwencji pomiędzy różnymi homologami. Takie wzorce ewolucyjne są podobne do wzorców genów typu II R U sałaty i Arabidopsy34, co wskazuje, że arbuz ma małą różnorodność genów NBS-LRR. Liczba genów NBS-LRR w genomie arbuza jest podobna do tej w cucumber14 i papaya35, ale jest znacznie mniejsza niż w maize36, rice37 i apple12. W przeciwieństwie do tego, rodzina genów LOX Uległa ekspansji w genomie arbuza z 26 członkami, z których 19 jest ułożonych w dwie tandemowe macierze genów(Fig. 11). Podobne wyniki odnotowano w przypadku ogórka, a ekspansję rodziny genów LOX uznano za możliwy mechanizm komplementarny do radzenia sobie z inwazją patogenów14. Ponadto zidentyfikowaliśmy 197 genów podobnych do receptorów w genomie arbuza, wśród których 35 koduje białka podobne do receptorów pozbawione domeny kinazy, a 162 koduje kinazy podobne do receptorów, które mają domenę kinazy wewnątrzkomórkowej oprócz zewnątrzkomórkowych domen LRR i transmembrany (dodatkowa tabela 20). Wiele z tych genów oporności znajduje się na chromosomach w klastrach (Fig. 11), sugerując duplikacje tandemowe jako ich ewolucyjną podstawę.

spekulowano, że brak odporności na szeroki zakres chorób u współczesnych odmian arbuza jest wynikiem wieloletniej uprawy i selekcji,które skupiły się na pożądanych właściwościach owoców kosztem odporności na chorobe8, 38. Aby przetestować to pojęcie, wykonaliśmy de novo zespoły niezmapowanych czytników, które połączyliśmy ze współczesnymi uprawami (“C. lanatus subsp. vulgaris) oraz semiwild i dziki (C. lanatus subsp. mucosospermus and C. lanatus subsp. lanatus, odpowiednio). Zidentyfikowaliśmy 11 i 69 genów z grup uprawnych i półdzikich oraz dzikich, które są homologiczne do znanych białek roślinnych (tabela uzupełniająca 21). Warto w tym miejscu wspomnieć, że 69 nowych genów zidentyfikowanych z grupy półdzikiej i dzikiej zostało silnie wzbogaconych o geny związane z chorobą, w tym 6 genów TIR-LRR-NBS, 1 Gen PR-1 i 3 geny lipoksygenazy, podczas gdy żaden z 11 genów zidentyfikowanych w grupie uprawnej nie był związany z chorobą. Ponadto, wszystkie 44 geny NBS-LRR zidentyfikowane w genomie 97103 były również obecne w półdzietnych i dzikich dostępach (Uwaga uzupełniająca). Odkrycia te potwierdzają hipotezę, że duża część genów oporności na choroby została utracona podczas udomowienia arbuza.

analiza soku z dyniowatych i transkryptomów naczyniowych

system rurek sitowych enukleatowych z bielma zawiera mRNA, z których niektóre okazały się działać jako długodystansowy środek sygnalizacyjny39,40. Poprzez głębokie sekwencjonowanie transkryptomu (tabela uzupełniająca 22) zidentyfikowaliśmy 13 775 i 14 242 gatunki mRNA w wiązkach naczyniowych arbuza i ogórka, odpowiednio, oraz 1519 i 1012 transkryptów w soku arbuza i ogórka, odpowiednio (tabele uzupełniające 23-26). W szczególności odkryliśmy, że zestawy genów w wiązkach naczyniowych między dwoma gatunkami dyniowatych były prawie identyczne, podczas gdy tylko 50-60% transkryptów wykrytych w soku floemowym było wspólnych między dwoma gatunkami (Uwaga uzupełniająca i tabela uzupełniająca 27). Analiza wzbogacenia terminowego ontologii genów (GO) wykazała, że głównymi kategoriami wśród typowych transkryptów floemowych były reakcje na stres lub bodziec (tabela uzupełniająca 28), co jest w pełni zgodne z centralną rolą roślinnego układu naczyniowego, a w szczególności floemu, w systemie komunikacji na duże odległości, który integruje sygnalizację stresu abiotycznego i biotycznego na poziomie całej rośliny41. W przeciwieństwie do analizy transkryptów floemowych, które są unikalne dla arbuza, zidentyfikowano proces biosyntezy makrocząsteczkowej i proces metabolizmu białek jako główne kategorie GO (tabela uzupełniająca 29). Unikalne transkrypty sap floemu mogą odzwierciedlać wyspecjalizowane funkcje, które są unikalne dla roli floemu w tych gatunkach. Warto zauważyć, że arbuz floem zawierał 118 czynników transkrypcyjnych, podczas gdy my zidentyfikowaliśmy tylko 46 czynników transkrypcyjnych w ogórku i 32 czynniki transkrypcyjne, które były wspólne dla obu (tabele uzupełniające 30-32).

Dynia (Cucurbita maxima) została wykorzystana jako system modelowy dla badań phloem42,43. Opracowaliśmy Pumpkin vascular bundle i phloem SAP transcript catalogs poprzez generowanie i de novo montaż Illumina paired-end RNA sekwencing (RNA-Seq) czyta. Analiza porównawcza transkryptomów arbuza, ogórka i dyni floemów wykazała, że około 36% ich transkryptów było wspólnych(Fig. 12). Te zachowane transkrypty prawdopodobnie pełnią funkcje, które są kluczowe dla działania systemu rurek sitowych u większości dyniowatych i prawdopodobnie u innych gatunków.

Regulacja rozwoju i jakości owoców arbuza

rozwój owoców arbuza to złożony proces obejmujący poważne zmiany w wielkości, kolorze, teksturze, zawartości cukru i składników odżywczych. Aby uzyskać kompleksową charakterystykę genów zaangażowanych w rozwój i jakość owoców arbuza, wykonaliśmy specyficzne dla nici RNA-Seq44 zarówno miąższu, jak i skórki na czterech kluczowych etapach rozwoju owoców w linii wsobnej 97103 (tabela uzupełniająca 33). Zidentyfikowaliśmy 3046 i 558 genów, które różnie ulegały ekspresji w miąższu i skórce, odpowiednio, podczas rozwoju owoców oraz 5352 geny, które różnie ulegały ekspresji w miąższu i skórce w co najmniej jednym z czterech etapów (tabele uzupełniające 34-36). Analiza wzbogacenia termicznego GO wykazała, że podczas rozwoju owoców zarówno w miąższu, jak i skórce, procesy biologiczne, takie jak biogeneza ściany komórkowej, metabolizm flawonoidów i odpowiedzi obronne zostały znacząco zmienione (fałszywy wskaźnik wykrycia (FDR) < 0,01), podczas gdy procesy metaboliczne karotenoidów, heksozy i monosacharydów zostały znacząco zmienione tylko w miąższu, wspierając główne różnice fizjologiczne, w tym zawartość cukru i kolor owoców, między miąższem a skórą (tabela uzupełniająca 37).

zawartość cukru jest kluczowym czynnikiem decydującym o jakości owoców arbuza. Słodycz arbuza zależy zarówno od całkowitej zawartości cukru, jak i proporcji między głównymi zgromadzonymi cukrami: glukozą, fruktozą i sukrose45. W miąższu młodych owoców 97103 dominującymi cukrami są fruktoza i glukoza, podczas gdy w miąższu dojrzałych owoców 97103 znacznie zwiększa się zarówno sacharoza, jak i całkowita zawartość cukru, przy czym sacharoza staje się wówczas dominującym cukrem; w skórce zawartość cukru pozostaje stosunkowo niska (tabela uzupełniająca 38). Ostateczne nagromadzenie cukru w owocach arbuza jest określane przez rozładunek cukru z floemu, a następnie wychwyt i metabolizm w miąższu owocu. Opatrzony adnotacją Genom arbuza zawiera łącznie 62 geny enzymu metabolicznego cukru i 76 genów transportera cukru, wśród których 13 genów metabolizmu cukru i 14 genów transportera cukru ulegało różnicowej ekspresji podczas rozwoju miąższu oraz między miąższem a tkankami Skórki (dodatkowe tabele 39 i 40). Na podstawie tych wyników i wcześniej opublikowanych prac z innych gatunków roślin46, 47 proponujemy model metabolizmu cukru w komórkach miąższu owoców arbuza (dodatkowe rys. 13). W szczególności, podczas rozwoju miąższu arbuza, α-galaktozydaza, nierozpuszczalna inwertaza kwasowa, obojętna inwertaza, syntaza fosforanu sacharozy, 4-epimeraza UDP-glukozy, rozpuszczalna inwertaza kwasowa i PIROFOSFORYLAZA UDP-galaktozy / glukozy działają jako kluczowe enzymy zaangażowane w regulację rozładunku cukru i metabolizmu. Ponadto 14 transporterów cukru o różnej ekspresji prawdopodobnie odpowiada za podział cukru (Uwaga uzupełniająca).

czynniki transkrypcyjne również odgrywają rolę w gromadzeniu cukru48. Spośród 1448 domniemanych genów czynnika transkrypcyjnego zidentyfikowanych w genomie arbuza, 193 wykazało znaczące zmiany ekspresji (FDR < 0,01) podczas rozwoju miąższu, a także w miąższu w porównaniu ze skórą w późniejszych stadiach, w tym czynniki transkrypcyjne z rodzin, o których wiadomo, że są zaangażowane w regulację akumulacji cukru (Uwaga uzupełniająca i tabele uzupełniające 41 i 42). Warto zauważyć, że jeden gen bZIP, Cla014572, jest obniżany podczas rozwoju ciała i zawiera kontrolowaną przez sacharozę otwartą ramkę odczytu (SC-UORF) (Uwaga uzupełniająca i dodatkowa Fig. 14). Niedawno doniesiono, że rośliny transgeniczne konstytutywnie wyrażające tytoń SC-uORF zawierający Gen bZIP tbz17, ale pozbawione SC-uORF, miały zwiększone koncentracje cukru49. Dlatego nasza analiza jest zgodna z rolą Cla014572 jako kluczowego regulatora akumulacji cukru podczas rozwoju owoców.

geny MADS-box, takie jak MADS-Rin (znany również jako LeMADS-Rin)50 i TAGL1 (ref. 51) w pomidorach, zostały zgłoszone do regulacji ekspansji owoców i procesów dojrzewania. Analiza filogenetyczna arbuza, ogórka i Arabidopsis MADS-box czynników transkrypcyjnych, wraz z MADS-RIN i TAGL1, zidentyfikowano dwa MADS-box czynników transkrypcyjnych z arbuza w każdym z kladów RIN i Agl1 (Uwaga uzupełniająca i uzupełniająca Fig. 15). Te cztery geny (Cla000691 i Cla010815 w kladzie RIN oraz Cla009725 i Cla019630 w kladzie AGL1) należą do najbardziej ekspresyjnych czynników transkrypcyjnych MADS-box podczas rozwoju owoców (tabela uzupełniająca 43). W przeciwieństwie do MADS-RIN, który jest silnie wyrażony tylko w dojrzewających owocach, zarówno Cla000691, jak i Cla010815 są silnie wyrażane w trakcie rozwoju owoców, co wskazuje, że mogły one ewoluować, aby uczestniczyć w innych funkcjach oprócz dojrzewania. W związku z tym warto zauważyć,że bliskie homologi bananowe i truskawkowe MADS-Rin wykazują również ekspresję i/lub aktywność funkcjonalną wykraczającą poza dojrzewający owoc52, 53. Profile ekspresji Cla009725 i Cla019630 podczas rozwoju owoców są podobne do profili ekspresji TAGL1, co odpowiada ich potencjalnej roli w regulowaniu ekspansji i dojrzewania owoców51.

Cytrulina jest nieistotnym aminokwasem wytwarzanym z glutaminy i ma różne korzyści dla zdrowia i wyników sportowych. Jego nazwa pochodzi od cytrullusa, łacińskiego słowa oznaczającego arbuza, z którego został po raz pierwszy54. Miąższ arbuza i skórka służą jako naturalne źródło cytruliny, a jej obfitość znacznie wzrasta podczas dojrzewania owoców, ale następnie zmniejsza się, gdy owoce stają się nadmiernie dojrzałe(dodatkowe rys. 16). Na podstawie naszej adnotacji genomu arbuza zidentyfikowaliśmy 14 genów w szlaku metabolicznym cytruliny (Fig. 17). W porównaniu do szlaku metabolicznego cytruliny Arabidopsis, ten szlak w arbuzie uległ ekspansji w rodzinach syntazy arginobursztynianowej i arginobursztynianowej. Oba biorą udział w przekształcaniu cytruliny w L-argininę. Odkryliśmy, że geny syntazy arginobursztynianowej i dwóch genów syntazy arginobursztynianowej są silnie obniżone podczas rozwoju miąższu arbuza (tabela uzupełniająca 44). Tak więc akumulacja cytruliny w dojrzewającym miąższu owocu jest prawdopodobnie wynikiem zmniejszonej aktywności degradacji cytruliny.