スイカの草稿ゲノム(Citrullus lanatus)と20種の多様なアクセッションの再配列
ゲノム配列決定とアセンブリ
我々は、ゲノム配列決定のために中国のエリートスイカ近交系97103を選択しました。 Illumina sequencing technology(補足表1)を使用して合計46.18Gbの高品質ゲノム配列を生成し、108を表しました。スイカゲノム全体の6倍のカバレッジは、配列されたリードの17merの深さ分布分析に基づいて≥425Mbの推定ゲノムサイズを持っています(補足図。 1)およびより早い流れのcytometry analysis9。 イルミナ読み取りのDe novoアセンブリは、スイカゲノムの83.2%を表す353.5Mbの最終アセンブリをもたらしました。 アセンブリは1,793の足場(≥500bp)で構成され、n50の長さはそれぞれ足場と連続体のための2.38Mbと26.38kbです(補足表2)。 234の足場の合計約330メガバイト(93。組み立てられたゲノムの5%)は11のスイカの染色体に固定され、そのうち126および94の足場は組み立てられたゲノムの70%および65%を占め、respectively10順序付けられ、方向づけられた。
私たちは、組立てられていない読み取り(全読み取りの17.4%)を、より厳格な基準で組み立てられたゲノムに整列させることにより、ゲノムの16.8%がゲノムアセンブリによってカバーされていない理由を決定しようとしました(補足注および補足表3)。 我々は、未組み立てのゲノム領域は、主に組み立てられた領域のものと同様の配列で構成されていることがわかった。 スイカ染色体上の未組立リードの分布は、転置可能な要素のそれと同じパターンを示した(図。 図1aおよび補足図1Bおよび補足図1b。 2). 我々は、それらの実質的な読み取り深さと動原体、テロメアとリボソームDNA(rDNA)クラスターへの配列の類似性に基づいて未組立配列から三つの主要なリピートユニッ さらに、魚によるこれらの繰り返しの性質を確認した(図10)。 1b-d)。 一緒にこれらの結果は、繰り返しの割合の過小評価は、特に次世代シーケンシング技術を使用して生成されたもの、de novoゲノムアセンブリの未組立コンポーネ,12,13,14,15,16,17,18.
我々はさらに、約百万ESTs、四つの完全に配列されたBacと667BACクローンのペアエンド配列を使用して組み立てられたスイカゲノムの品質を評価しました。 私たちの分析は、スイカゲノムアセンブリの高品質をサポートしています(補足ノート、補足表4-6および補足図。 3および4)、これは他のいくつかの最近出版された植物ゲノムに有利に匹敵する11,12,13,14,15,16,17,18 次世代シーケンシング技術を使用して(表1)。
反復配列注釈と遺伝子予測
トランスポーザブル要素は、真核生物のゲノムの主要な構成要素である。 我々は、トランスポーズ可能な要素の繰り返しとして組み立てられたスイカゲノムの159.8Mb(45.2%)の合計を同定した。 これらの繰り返しのうち、68.3%は既知の繰り返しファミリーで注釈することができます。 Ltr(long terminalrepeat)レトロトランスポゾン,主にジプシー型とコピア型Ltrが優勢である。 転置可能な元素発散率の分布は32%でピークを示した(補足図。 5). 我々はさらにスイカゲノムの920(7.8Mb)全長LTRレトロトランスポゾンを同定しました。 私たちは、過去4.5万年にわたって、LTRレトロトランスポゾンはキュウリよりもスイカではるかに速く蓄積することがわかりました14(補足図。 6)ゲノムサイズの全面的な相違が差動LTRのretrotransposonの蓄積を反映するかもしれないことように。
スイカゲノムには23,440個の高信頼性タンパク質コード遺伝子が予測されており(補足表7)、これはキュウリゲノムで予測されている遺伝子数に近い19。 スイカ予測遺伝子の約8 5%は、既知の同族体を有していたか、または機能的に分類することができた(補足表8)。 さらに、本発明者らはまた、1 2 3個のリボソームRNA(rRNA)、7 8 9個の転移RNA、3 3 5個の小核RNAおよび1 4 1個のmicroRNA遺伝子も同定した(補足表9)。
以前に報告された植物ゲノムによれば、スイカタンパク質コード遺伝子は、サブテロメア領域内で明確な濃縮パターンを示した。 対照的に、ゲノムの転置可能な要素関連画分は、主に動原体周囲および動原体領域内に位置していた。 染色体4、8および1 1の短腕は、反復配列で高度に濃縮されている(補足図1 0A)。 7). 97103ゲノムは、4番染色体と8番染色体の短い腕に一つの5Sと二つの45S rDNAクラスターを含んでいた(ref. 10). 魚を使用して、我々はさらに20代表的なスイカアクセッション(補足表10)のゲノムにおけるrDNAパターンを調べた。 現代栽培されている十種のゲノムにおける5Sおよび45S rDNA部位の数および位置(C.lanatus subsp. 尋常性)および六つの半野生スイカ(C.lanatus subsp。 mucosospermus)は97103ゲノムのものと同一であったが、四つのより遠くに関連する野生のスイカ(C.lanatus subsp。 lanatus)は、1つの45sおよび2つの5S rDNAサイトを含み、11番染色体の短腕に追加の5S rDNAサイトを含んでいた(補足図。 8). これらの結果は,c.lanatus種の進化の間にrdnaの染色体融合,核分裂および転位が起こることを示している。 我々の分析はまた、これら三つのスイカ亜種20の系統発生関係を確認し、C.lanatus subspという仮説を支持した。 mucosospermusはC.lanatussubspの最近の祖先である。 尋常性
Cucurbitゲノム進化
被子植物におけるゲノム全体の重複は一般的であり、現代の植物核型を形成している重要な分子機構を表しています。 スイカゲノムでは、ゲノムの29%をカバーする302パラロガス関係に対応する7つの主要な三重結合を同定しました(図1)。 2a)。 これらの祖先の三倍体は、76-130万年前にさかのぼるeudicots21のために報告された共有古ヘキサプロイド化イベント(μとして参照)に対応していました。 これは、15-23百万年前に発生したcucurbitゲノム種分化イベントの前に十分であろう(補足図。 9).
現代のcucurbitゲノム構造につながる進化のイベントの性質にアクセスするには、我々はスイカ、cucumber19、melon22とgrape21の間のsyntenic関係を分析しました。 7つのプロトクロモソームで構成されたエウディコットの祖先に最も近い相対的なものであることが知られているので、grapeを参照として選択しました23。 我々は、スイカゲノムの60%をカバーする3,543orthologous関係の合計を同定した。 その後、キュウリ科の染色体と染色体の詳細な関係を調べ、スイカ、キュウリ、メロンの間のオルソログ染色体を同定しました(図。 2b)。 モザイク染色体対染色体orthologous関係として示されている複雑なsyntenicパターンは、ウリ科の家族のこれらの三つの重要な作物種の間で染色体進化と再配列の複雑さの高度を明らかにした。
四つのeudicotゲノム(スイカ、キュウリ、メロン、ブドウ)内の重複および間のsynteniesの独立した分析の統合は、eudicotsの七つの祖先染色体グループの定義の基礎として最近同定された七つのpaleotriplicationsのスイカの正確な特徴付けにつながった24。 Eudicotsのために報告された先祖の六倍体化(γ)に基づいて、我々は11染色体eudicot祖先から21paleohexaploid中間体を介して11スイカ染色体を形成している進化のシナリオを提 我々は、21染色体eudicot中間祖先からの移行は、81核分裂と91融合を関与しているスイカの現代の11染色体構造に到達することを示唆している,102先祖ブロ 2c)。
スイカの生殖質における遺伝的多様性の評価
我々は、ゲノム再配列のための20の代表的なスイカのアクセッションを選択しました。 これらには,C.lanatussubspの主要品種を代表する十種の栽培アクセションが含まれていた。 vulgaris(五つの東アジアと五つのアメリカのエコタイプ)、六つのsemiwild C.lanatus subsp。 mucosospermusおよび四つの野生のC.lanatus subsp。 lanatus(補足表10および補足図。 10). 我々は、これらのアクセッションを5×と16×カバレッジの間に配列決定し、短い読み取りを97103のゲノムにマッピングした(補足表11)。 我々は6,784,860候補Snpと965,006小さな挿入/削除(インデル)20再配列された行と97103の合計を同定しました。 主なバリエーションはC.lanatus subspの間に存在していた。 lanatusと他の二つの亜種、栽培スイカ、特にC.lanatus subsp内の変化に対し。 vulgaris America ecotypeは、比較的低かった(補足表12)。 SANGER sequencing(補足注および補足表13)によって示されるように、SNPおよびindel呼び出しの精度はそれぞれ99.3%および98%であった。 スイカの遺伝的多様性の広いスペクトルをカバーするこの広範なスイカのゲノム変異データセットは、生物学的発見と生殖質の改善のための貴重な資源
スイカ個体群の遺伝的多様性を、二つの一般的な要約統計量、σとσ w値25を用いて評価した。 スイカの多様性の推定量(補足表14)は、maize26、soybean27およびrice28に見られるものよりも実質的に低かった。 野生のスイカはスイカの改善のための付加的な遺伝の機会を示すより大きい遺伝の多様性を含んでいます。 また、近隣接合木の構築を通じて、スイカアクセッション間の人口構造と関係を調査しました(図)。 および主成分分析(PCA)(図3A)。 3b)。 両解析はC.lanatussubspとの間に密接な関係を示した。 vulgarisおよびC.lanatus subsp. mucosospermus(補足のノート)。 K(集団数)を2から5に設定したFRAPPEプログラム29を用いた集団構造の追加分析は、C.lanatus subsp内の新しいサブグループを同定した。 mucosospermusグループ(k=5の場合)とC.lanatus subsp間の混和。 vulgarisおよびC.lanatus subsp. ムコソスペルムス(図1)。 3cおよび補足のノート)。 新しいサブグループは、柔らかい肉の質感、ピンクの肉色、比較的高い糖度など、栽培されたスイカのいくつかの特性を示しています(補足表10および補足図。 10). これらの結果は,C.lanatussubspの提案した進化シナリオのさらなる支持を提供する。 c.lanatus subspへのmucosospermus。 尋常性は、染色体rDNA分布のFISH分析から派生した。
次に、C間の遺伝的多様性(nmucosospermus/nvulgaris)の最も高い違いを持つ領域のゲノムをスキャンしました。 ラナトゥス亜科 mucosospermusおよびC.lanatus subsp. 尋常性 これらの地域は、現代のスイカ品種がC.lanatus subspから家畜化されたと考えられているため、スイカの家畜化中の潜在的な選択的スイープを表している。 ムコソスペルムス 本発明者らは、741個の候補遺伝子を含む合計108個の領域(7.78Mbのサイズ)を同定した(図10B)。 図4および補足表15)。 これらの領域における遺伝子補完は、遺伝的ヒッチハイクによって影響されている可能性があるが、我々は、炭水化物の使用の調節、糖を介したシグナリング、炭水化物代謝、ショ糖刺激に対する応答、窒素化合物代謝の調節、窒素飢餓および成長に対する細胞応答を含む全ゲノムと比較して、重要な選択された形質に関連していた候補遺伝子に有意に富む生物学的プロセスを同定した(補足ノートおよび補足表16-18)。
これは、特定の非染色体領域、特に染色体3上の大きな領域(≤3.4Mbから≤5.6Mb)は、C.lanatus subspの間でのみ特に高いヌクレオチド発散を有することは注目に値する。 mucosospermus accessions(Fig. 4). 以前の報告では、三つの異なるイネの交配で同様の発見を記載し、これらの集団特異的な高発散領域は、生殖障壁に関与する遺伝子と高度に関連していたことが示唆された30。 我々は、3番染色体上の大規模な高多様性領域の遺伝子を分析し、実際には、最も有意に濃縮された遺伝子カテゴリは、花粉と花粉-雌しべの相互作用の認識であったことを発見した。これらの遺伝子カテゴリの両方が生殖障壁に関連している(補足表19)。 さらに、我々は、領域が生殖障壁に関与している12タンデムリー配列S遺伝子座プロテインキナーゼ遺伝子の大規模なクラスターを含んでいることを決定31。 C.lanatus subspにおける生殖障壁遺伝子の高いヌクレオチド発散。 現代の栽培スイカの最近の祖先であるmucosospermusは、スイカの家畜化がrice30で報告されているように、生殖障壁の急速な進化の原因となる可能性のある力であ さらに、非生物的および生物的ストレスに対する植物応答に関与する遺伝子も、炭水化物代謝、果実味(テルペン代謝)および種子油content有量(脂肪酸代謝)などの
スイカの耐病性遺伝子の進化
スイカの作物は、多くの病気から大きな損失を被っています。 したがって、病原体抵抗性の改善は、スイカ育種プログラムの継続的な目的である。 病原体感受性の分子基盤を調べるために、我々はスイカゲノムにおける抵抗性遺伝子の三つの主要なクラス、すなわちヌクレオチド結合部位とロイシンリッチリピート(NBS-LRR)、リポキシゲナーゼ(LOX)32と受容体様遺伝子ファミリー33を検索した。 本発明者らは、合計44個のNbs-LRR遺伝子を同定し、18個のトールインターロイキン受容体(TIR)-NBS-LRR–および26個のコイルコイル(CC)-NBS-LRR-コード遺伝子を含む(補足表20)。 スイカNBS-LRR遺伝子は独立して進化し、我々は異なる相同体間の配列交換を検出しなかった。 このような進化パターンは、レタスおよびArabidopsis34のII型R遺伝子のものと同様であり、スイカはNBS-LRR遺伝子の多様性が低いことを示している。 スイカのゲノムのNBS-LRRの遺伝子の数はcucumber14およびpapaya35のそれに類似していますが、maize36、rice37およびapple12のそれよりかなり少数です。 対照的に、LOX遺伝子ファミリーは、26のメンバーとスイカゲノムの拡張を受けており、そのうち19は二つのタンデム遺伝子アレイに配置されている(補足図。 11). キュウリでも同様の知見が報告されており、LOX遺伝子ファミリーの拡大は、病原体の侵入に対処するための補完的なメカニズムとして考えられている14。 さらに、スイカゲノム中の197個の受容体様遺伝子を同定し、そのうち35個はキナーゼドメインを欠いている受容体様タンパク質をコードし、162個は細胞外LRRおよび膜貫通ドメインに加えて細胞内キナーゼドメインを持つ受容体様キナーゼをコードしている(補足表20)。 これらの抵抗性遺伝子の多くは、クラスター内の染色体上に位置している(補足図。 11)、それらの進化の基礎としてタンデム重複を示唆しています。
現代のスイカ品種における広範囲の病気に対する耐性の欠如は、耐病性を犠牲にして望ましい果実品質に焦点を当てた長年の栽培と選択の結果であると推測されている8,38。 この概念をテストするために、我々は近代栽培からそれぞれプールされたマップされていない読み取りのde novoアセンブリを行った(C.lanatus subsp. vulgaris)およびsemiwildおよびwild(C.lanatus subsp. mucosospermusおよびC.lanatus subsp. ラナトゥス(lanatus)とも呼ばれる。 我々は、既知の植物タンパク質に相同である栽培および半野生および野生のグループからそれぞれ11および69の遺伝子を同定した(補足表21)。 ここで言及する価値があるのは、semiwildおよびwild群から同定された69の新しい遺伝子は、6つのTIR-LRR-NBS遺伝子、1つのPR-1遺伝子および3つのリポキシゲナーゼ遺伝子を含む疾患関連遺伝子で高度に濃縮されていたのに対し、栽培群で同定された11の遺伝子のいずれも疾患関連ではなかったことである。 さらに、97103ゲノムで同定された44個のNBS-LRR遺伝子のすべてが、半野生および野生のアクセッションにも存在していた(補足ノート)。 これらの知見は、スイカの家畜化中に疾患抵抗性遺伝子の大部分が失われたという仮説を支持する。
ククルビット師部樹液および血管トランスクリプトームの解析
被子植物の脱核篩管系にはmRNAが含まれており、そのいくつかは長距離シグナリング剤として機能することが示されている39,40。 深いトランスクリプトームシーケンシング(補足表22)を介して、我々はそれぞれスイカとキュウリの維管束で13,775と14,242mRNA種、およびスイカとキュウリの師部樹液で1,519と1,012転写産物を同定した(補足表23-26)。 特に、我々は、師部樹液で検出された転写物の唯一の50-60%が二つの種の間で共通していたのに対し、二つのcucurbit種の間の維管束の遺伝子セットは、ほぼ同一であ 遺伝子オントロジー(GO)用語濃縮分析は、一般的な師部転写物の間の主要なカテゴリは、植物の血管系の中心的な役割と完全に一致しているストレスや刺激(補表28)、 対照的に、スイカに固有の師部転写産物の分析は、主要なGOカテゴリとして高分子生合成プロセスとタンパク質代謝プロセスを同定した(補足表29)。 ユニークな師部sap転写物は、これらの種における師部の役割に固有の特殊な機能を反映している可能性があります。 スイカ師部には118個の転写因子が含まれていたことは注目に値するが、キュウリには46個の転写因子と32個の転写因子のみが同定された(補足表30-32)。
カボチャ(Cucurbita maxima)は師部研究のモデルシステムとして使用されています42,43。 我々は、IlluminaペアエンドRNAシークエンシング(RNA-Seq)読み取りの生成とde novoアセンブリを通じてカボチャ血管束と師部sap転写物カタログを開発しました。 スイカ、キュウリおよびカボチャ師部転写物の比較分析は、それらの転写物の約36%が共通していることを示した(補足図。 12). これらの保存された転写物は、おそらくほとんどのcucurbitとおそらく追加の種でふるい管システムの操作の中心である機能を実行します。
スイカの果実の開発と品質の規制
スイカの果実の開発は、サイズ、色、質感、糖度、栄養成分の大きな変化を伴う複雑なプロセスです。 スイカ果実の開発と品質に関与する遺伝子の包括的な特性評価を得るために、我々は近交系97103(補足表33)の果実の開発の四つの重要な段階で肉と皮の両方のストランド特異的RNA-Seq44を行った。 我々は、果実の発達中にそれぞれ、肉と皮で差動発現された3,046および558遺伝子と、肉と皮の間で差動発現された5,352遺伝子を同定した(補足表34-36)。 GOターム濃縮分析は、肉と皮の両方で果実の開発中に、細胞壁の生物形成、フラボノイド代謝および防御応答などの生物学的プロセスが有意に変化した(偽発見率(FDR)<0.01)が、カロテノイド、ヘキソースおよび単糖代謝プロセスが有意に変化しただけであり、肉と皮の間の糖度および果実色を含む主要な生理学的差異を支持している(補足表37)。
糖度はスイカの果実の品質を決定する重要な要因です。 スイカの甘さは、総糖度と、グルコース、フルクトース、sucrose45の主要な蓄積された糖の比率の両方によって決定されます。 若い97103果実の果肉では、フルクトースとグルコースが優勢な糖であるのに対し、成熟した97103果実の果肉では、ショ糖と総糖含量の両方が実質的に増加し、ショ糖が優勢な糖になり、皮では糖含量が比較的低いままである(補足表38)。 スイカ果実における最終的な糖蓄積は、師部からの糖のアンロードに続いて果実の肉内の取り込みおよび代謝によって決定される。 注釈されたスイカゲノムには、合計62個の糖代謝酵素遺伝子と76個の糖トランスポーター遺伝子が含まれており、そのうち13個の糖代謝遺伝子と14個の糖トランスポーター遺伝子が肉の発達中および肉と皮の組織間で差動的に発現されていた(補足表39および40)。 これらの結果と他の植物種からの以前の発表された研究に基づいて46、47、我々はスイカの果実の肉の細胞における糖代謝のモデルを提案する(補足図。 13). 具体的には、α-ガラクトシダーゼ、不溶性酸インベルターゼ、中性インベルターゼ、ショ糖リン酸シンターゼ、UDP-グルコース4-エピメラーゼ、可溶性酸インベルターゼ、UDP-ガラクトース/グルコースピロホスホリラーゼが糖のアンロードと代謝の調節に関与する重要な酵素として機能する。 さらに、14の特異的に発現された糖トランスポーターは、おそらく砂糖の分配の原因である(補足メモ)。
転写因子も糖の蓄積に関与している48。 スイカゲノムで同定された1,448の推定転写因子遺伝子のうち、193は、糖蓄積の調節に関与することが知られているファミリーからの転写因子を含む、肉の発達中および後の段階で皮と比較して肉の中で有意な発現変化(FDR<0.01)を示した(補足注および補足表41および42)。 1つのBZIP遺伝子、Cla0 1 4 5 7 2が、肉の発育中に下方制御され、ショ糖制御上流開放読取フレーム(SC−UORF)を含むことは注目に値する(補足的注記および補足的な図1 1A)。 14). 最近、bzip遺伝子tbz17を含むタバコSC-uORFを構成的に発現しているが、SC-uORFを欠いているトランスジェニック植物は、糖濃度が増加していたことが報告されている49。 したがって、我々の分析は、果物の開発中の砂糖の蓄積の重要なレギュレータとしてCla014572の役割と一致しています。<6891><3907>MADS-box遺伝子、例えばMADS-RIN(LeMADS-RINとしても知られている)50およびTAGL1(ref. 51)トマトでは、フルーツの拡張および熟すプロセスを調整するために、報告されました。 スイカ、キュウリ、シロイヌナズナのMADS-box転写因子の系統発生解析により、MADS-RINおよびTAGL1とともに、RINおよびAGL1クレードのそれぞれにおいてスイカから二つのMADS-box転写因子を同定した(補足ノートおよび補足図。 15). これらの4つの遺伝子(RINクレードのCla0 0 0 6 9 1およびCla0 1 0 8 1 5およびAGL1クレードのCla0 0 9 7 2 5およびCla0 1 9 6 3 0)は、果実発生中に最も高度に発現されるMADSボックス転写因子の1つで 特に、成熟果実のみで高度に発現されるマッズリンとは異なり、Cla000691とCla010815は果実の発達を通じて高度に発現され、成熟に加えて他の機能に関与するように進化した可能性があることを示している。 この点で、MADS-RINの近いバナナとイチゴの同族体もまた、成熟果実を超えて広がる発現および/または機能的活性を示すことは注目に値する52,53。 果実の開発中のCla009725とCla019630の発現プロファイルは、果実の拡張と熟成を調節する上での潜在的な役割と一致するTAGL1のそれに似ています51。
シトルリンは、グルタミンから生成される非必須アミノ酸であり、健康および運動能力に様々な利点を有する。 名前の由来は、スイカを意味するラテン語のcitrullusに由来しており、最初に分離されたものである。 スイカの果肉と皮はシトルリンの天然源として機能し、その豊富さは果実の成熟中に大幅に増加するが、果実が熟し過ぎると減少する(補足図)。 16). スイカゲノムの注釈に基づいて、我々はシトルリン代謝経路における14の遺伝子を同定した(補足図。 17). シロイヌナズナシトルリン代謝経路と比較して、スイカにおけるこの経路は、アルギノスクシナーゼおよびアルギノスクシネート合成酵素ファミリーで拡張されている。 どちらもシトルリンをL-アルギニンに変換することに関与している。 我々は、スイカの肉の開発中に高度にダウンレギュレートされるアルギノスクシナーゼと二つのアルギノスクシネート合成酵素遺伝子を発見した(補足表44)。 成熟果肉におけるシトルリンの蓄積は,シトルリン分解活性の低下の結果であると考えられた。