RNA-Seq Tabanlı De Novo Transkriptom Düzeneği ve Cistanche Deserticola Etli Kökünün Gen Keşfi-Ⅰ
Jul 24, 2024
Arka planlar
Cistanche Deserticola, büyük tıbbi değeri olan, tamamen fotosentetik olmayan parazit bir bitkidir ve esas olarak Kuzeybatı Çin çölünde dağıtılır. Kurutulmuş etli sapı çok önemli bir toniktir.geleneksel Çin tıbbıesas olarak erkek cinsel fonksiyonunu iyileştirme ve bağışıklığı güçlendirme rolleri vardır, ancak kısmen genomik ve transkriptomik kaynakların eksikliği nedeniyle az sayıda mekanik çalışma yapılmıştır.

DOĞAL CISTANCHE TUBULOSA ÇİN GELENEKSEL TIP PHGS75% ECH 30% ACT 12%
Sonuçlar
Bu çalışmada, C. Deserticola'nın etli gövdesinde derin transkriptom dizilimi gerçekleştirdik ve HiSeq2000 platformunda Illumina çift uç dizilimi kullanılarak yaklaşık 80 milyon okuma üretildi. Üçlü birleştiriciyi kullanarak, transkript uzunlukları 200bp ila 15.698bp arasında değişen, ortalama uzunluğu 950 baz ve N50 uzunluğu 1.519 baz olan 95.787 transkript dizisi elde ettik. 63.957 transkriptin FPKM ile aktif olarak eksprese edildiği 0.5'ten büyük veya eşit olarak tanımlandı; burada 30.098 transkript, çeşitli kamu veri tabanlarına (NCBI'de Uniprot, NR ve Nt ve KEGG) karşı dizi benzerliği analizleri yoluyla gen açıklamaları veya gen ontoloji terimleriyle açıklandı. . Ayrıca, birincil aktif bileşenler olarak bilinen lignin ve feniletanoid glikozitlerin (PhG'ler) biyosentezinde yer alan anahtar enzim genlerini belirledik. Lignin ve PhG biyosentezindeki ilk anahtar enzim olan dört fenilalanin amonyak-liyaz (PAL) geni, dizi karşılaştırması ve filogenetik analize dayanarak tanımlandı. PhG'lerin iki biyosentez yolu da ilk kez önerildi.
Sonuçlar
Toplamda, RNA-seq teknolojisini kullanarak C. Deserticola etli kök transkriptomunun küresel bir analizini tamamladık. Birleştirilmiş ve açıklamalı transkriptlerden lignin ve feniletanoid glikozitlerin biyosenteziyle ilgili bir enzim genleri koleksiyonu tanımlandı ve PAL gen ailesi de tahmin edildi. Bu çalışmadan elde edilen dizi verileri, bu önemli şifalı bitkide gelecekteki feniletanoid glikozit biyosentezi araştırmalarını ve fonksiyonel genomik çalışmaları yürütmek için değerli bir kaynak sağlayacaktır.
giriiş
C. Deserticola, Orobanchaceae familyasına ait çok yıllık çöl bitkilerinin dünya çapındaki bir cinsidir ve tamamen fotosentetik olmayan bir türdür ve genellikle yeraltında holoparazitik bir bitki olarak yetişir. Kuraklığa ve tuzluluğa karşı yüksek toleransı nedeniyle çoğunlukla çöllerde ve yarı çöllerde yaşayan psammofit Haloxylon ammodendron'un (Chenopodiaceae) kökleri üzerinde parazitlenir. C. Deserticola zorlu çevre koşullarına karşı güçlü bir direnç gösterir ve esas olarak Kuzeybatı Çin'de, özellikle İç Moğolistan, Gansu ve Sincan'da dağıtılır. İnsanlar tarafından tüketiminin artması nedeniyle son yıllarda nesli tükenmekte olan yabani bir tür olarak kabul edilmektedir. Genellikle çöl ginseng'i olarak adlandırılan C. Deserticola, yaygın olarak çöl süpürgesi olarak bilinir ve kurutulmuş etli sapı, uzun yıllardır Çin ve Japonya'da geleneksel olarak önemli bir tonik olarak yaygın şekilde kullanılmaktadır. İlk olarak yaklaşık 1800 yıl önce Shen Nong Ben Cao Jing'de (Çin Materia Medica Sözlüğü, 1977) kaydedildi ve Çin'in ana kaynaklarından biri olarak kabul edildi.Çin şifalı bitkisi Cistanche.

CİNSEL FONKSİYONU GELİŞTİREN DOĞAL CISTANCHE TUBULOSA PHGS75% ECH 30% ACT 12%
C. Deserticola'nın ekstraktları, özellikle cinsel fonksiyonun iyileştirilmesi, böbreklerin güçlendirilmesi, karaciğerin korunması, rahatlatıcı aktivite, hafızanın güçlendirilmesi, immünomodülatör, antioksidatif aktivite, anti-inflamatuar, antiviral aktivite vb. kullanım için geniş bir tıbbi fonksiyon yelpazesine sahiptir. C. Deserticola'nın başlıca biyoaktif bileşenleri Feniletanoid glikozitlerdir (PheG'ler, PhG'ler). Bugüne kadar C.deserticola'nın sulu kökünden 20'den fazla feniletanoid glikozit izole edilmiştir. Aralarında,akteozit ve ekinakozitönemli farmakolojik aktivitelere sahip iki ana bileşendir ve Çin farmakopesinde (2005 ve 2010 baskıları) C. Deserticola'nın kalite standartları olarak belgelenmiştir. PhG'lerin üç kimyasal bileşeni organik asit, sakarit ve feniletanoiddir, ancak feniletanoid biyosentetik yolaklarla ilgili ayrıntılar C.deserticola'da yeterince anlaşılmamıştır.
C.deserticola'nın ticari ve tıbbi önemine rağmen bu türün genomik ve transkriptomik verileri oldukça sınırlıdır. NCBI veritabanında mevcut hiçbir EST yoktur ve bu türe ilişkin tam genom bilgisi, kloroplast genom dizisi dışında mevcut değildir. Sınırlı transkriptomik veriler, PhG biyosentetik mekanizmalarının incelenmesini engellemektedir. RNA-seq teknolojisi, hedeflenen genomun ifade edilen kısımlarının dizilerini oluşturabilir ve NGS teknoloji platformlarını (Applied Biosystems SOLiD, Illumina HiSeq ve Roche 454 gibi) kullanarak genleri tanımlayabilir [18]. Özellikle düşük bolluklu transkriptleri keşfetme avantajına sahip olduğundan, yüksek çözünürlük ve geniş dinamik aralığa sahip, uygun maliyetli ve güçlü bir yaklaşım olduğundan, transkriptom de novo derlemesinde giderek daha popüler hale geliyor. Çeşitli avantajlarından dolayı RNA sekansı, sınırlı genetik kaynaklara sahip model olmayan organizmalar için özellikle çekicidir. Ancak C. Deserticola transkriptomunun RNA-seq ile detaylı bir araştırması bulunmamaktadır.
Bu çalışmada Illumina Hiseq2000 platformunu kullanarak C. Deserticola'nın kök transkriptomunu küresel olarak sıraladık ve 7.9G ham veri elde ettik. Birleştirme ve açıklama yoluyla, PhG biyosentezinde yer alan genleri ve tüm lignin biyosentezinden sorumlu genleri çıkardık. RNA-seq analizimiz, ilk C. Deserticola konsensüs transkriptomunu oluşturdu ve C. Deserticola'nın tıbbi değerinin kapsamlı bir şekilde anlaşılmasına yönelik yeni bilgiler sağladı. Ek olarak, burada açıklanan yöntem, çok sınırlı genomik kaynaklara sahip başka bir şifalı bitkide belirli tıbbi bileşen biyosentez yollarında yer alan genlerin keşfedilmesini kolaylaştırmak için profil transkriptomlarına yaygın olarak uygulanabilir.
Malzemeler ve Yöntemler
Bitki materyali toplama
Kazı aşamasındaki C. Deserticola'nın taze etli sapı, Çin'in kuzeybatısındaki İç Moğolistan'daki Alxa Ligi'nin BayanHot Şehrindeki bir bitki tabanından toplandı. Toplama izni tesis üssünün sahibinden (HongKui CongRong Grubu) alınmıştır. Kupon örneği, Çin Bilimler Akademisi Pekin Genomik Enstitüsü'nün Çekirdek Genomik Tesisi'ne bırakıldı. Temizlendikten sonra sulu kök dokuları küçük parçalar halinde kesildi ve hemen sıvı nitrojen içerisinde donduruldu ve daha sonra bir sonraki işleme kadar -80 derecede saklandı.
RNA ekstraksiyonu, cDNA kütüphanesi yapımı ve Illumina dizilimi
Üreticinin talimatlarına göre TRIzol Reaktifi (Invitrogen Inc., California, ABD) kullanılarak etli gövdeden toplam RNA ekstre edildi. Ortaya çıkan numuneler, herhangi bir genomik DNA'yı çıkarmak için DNase I ile işleme tabi tutuldu. Çıkarılan RNA'ların miktarı, bir Agilent 2100 biyoanalizörü (Agilent Technologies) kullanılarak ölçüldü ve etidyum bromür boyama ile denatüre edici agaroz jel elektroforezi kullanılarak bütünlük açısından kontrol edildi. Sonraki analizlerde A260/A280 oranları 1,9 ile 2,1 arasında, RNA 28S:18S oranları 1,0'dan yüksek ve RNA bütünlük sayıları (RIN'ler) -8,5 olan RNA örnekleri kullanıldı.
RNA-seq kütüphaneleri, Illumina Truseq RNA Numune Hazırlama Kitleri kullanılarak üretildi. Poli(A)+ RNA, üreticinin talimatlarına göre Dynal ligo(dT)25 boncukları kullanılarak toplam RNA'dan izole edildi. Saflaştırmanın ardından mRNA'yı kısa parçalara ayırmak için bir parçalanma tamponu eklendi. Birinci iplikçik cDNA, SuperScript III ters transkriptaz ve N6 rastgele heksamer primeri ile birlikte bu kısa fragmanları şablon olarak kullanarak sentezlendi. İkinci iplikçik cDNA daha sonra tampon, dNTP'ler, RNazH ve DNA polimeraz I kullanılarak sentezlendi. Ortaya çıkan çift iplikli cDNA, T4 DNA polimeraz, DNA polimeraz I Klenow fragmanı ve T4 polinükleotit kinaz kullanılarak uç onarıma tabi tutuldu ve bağlandı T4 DNA ligaz kullanan adaptörler. Adaptörle bağlanan fragmanlar, bir QiaQuick PCR ekstraksiyon kiti kullanılarak saflaştırıldı ve EB tamponu ile elüte edildi. Agaroz jel elektroforezi kullanılarak yapılan analizin ardından, PCR amplifikasyonu için şablon olarak uygun parçalar seçildi. Ortaya çıkan cDNA kütüphanesinin dizilimi bir Illumina HiSeq 2000 sistemi ile gerçekleştirildi.
Transkriptler de novo derlemesi ve gen ifadesi ölçümü
Sıralamadan oluşturulan ham okumalar, şirket içi bir yöntem kullanılarak adaptör dizilerinin (ATCTCGTATGCCGTC) kaldırılmasıyla temizlendi. Daha sonra sıkı bir düşük kaliteli filtreleme işlemi gerçekleştirdik. İlk olarak, phred kalite puanı 20'den düşük olan bazlar, daha yüksek kaliteye sahip bir baza (20'den büyük veya eşit) ulaşana kadar dizinin 3' ucundan kesilecektir. Okuma uzunluğu 50bp'den kısaysa atılır. İkinci olarak, okumalar, bir okumadaki bazların %70'inin yüksek kaliteli puanlara (20'den büyük veya eşit) sahip olması kriterine göre daha fazla filtrelenecektir. Üçüncüsü, daha sonraki montaj için yalnızca eşleştirilmiş uç okumalar kullanıldı. De novo transkript derlemesi, birbirini takip eden üç yazılım modülünden oluşan Trinity sürümü_20130216 [30] kullanılarak gerçekleştirildi: Inchworm, Chrysalis ve Butterfly. Derleme parametreleri aşağıdaki gibi ayarlandı: -seqType fq-JM 300G -min_contig_uzunluk 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.
Transkript bolluğunu ölçmek için sıralı çift uçlu okumalar, Trinity'deki bir komut dosyası kullanılarak birleştirilmiş transkriptlere yeniden hizalandı. Haritalanmış okumalar, RSEM (Beklenti Maksimizasyonuna Göre RNA-Seq) yazılımı ile nicelik tespiti için kullanıldı. Gen veya izoform bolluğu, eşlenen milyon parça başına transkriptin kilobaz başına parça (FPKM) değeri ile temsil edildi; FPKM değeri 0.05'e eşit veya daha büyük olan transkriptler ifade edildiği gibi tanımlandı.
İfade edilen transkriptlerin işlevsel açıklaması
C. Deserticola'nın kloroplast genomu dışında hiçbir gen açıklama seti yoktur [1]. İfade edilen transkriptleri, BLAST programını (E) kullanarak Genbank Nt, Genbank Nr ve TAIR10_ pep_20101214_güncellenmiş veri kümeleriyle ayrı ayrı karşılaştırarak açıklama ekledik.< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
Gen Ontolojisi ve KEGG yolu açıklaması Uniprot veritabanına dizi benzerliği hizalaması ile (birleştirilmiş tüm transkriptlerin Gen Ontolojisi (GO) açıklaması (ftp://ftp.ebi.ac.uk/pub/ adresinden indirilen bir ilişkilendirme dosyası kullanılarak elde edilmiştir) veritabanları/GO/goa/UNIPROT/gene_association.goa_uniprot.gz) ifade edilen genlerin GO terimleri kümelenmesi özel komut dosyaları kullanılarak gerçekleştirildi ve genlere dördüncü düzeyde açıklama ekledik. CC, BP ve MF kategorileri ayrı ayrı.
KEGG yol bilgisi, çevrimiçi araç KAAS (KEGG Otomatik Açıklama Sunucusu) kullanılarak tahmin edilen tüm protein dizileri için atanmıştır [34]. Fasta formatındaki diziler KAAS talebine sunuldu ve C. Deserticola kök transkriptomuyla ilgili tüm yol bilgilerinin sonuç dosyaları indirildi. BBH (çift yönlü en iyi isabet) yöntemi kullanılarak açıklama için KEGG'deki 13 bitki organizmasının gen veri seti kullanıldı.

DOĞAL CISTANCHE TUBULOSA CISTANCHE ÖZÜ PHGS75% ECH 30% ACT 12%
RT-qPCR analizi
DNase I ile sindirimden sonra yaklaşık 5ug toplam RNA, oligo(dT)15 primerleri ve GoScript Ters Transkripsiyon Sistemi (Promega) ile ters transkripsiyon reaksiyonu yoluyla birinci iplikçik cDNA'ya dönüştürüldü. Daha sonra cDNA ürünleri, gerçek zamanlı PCR'de şablon olarak kullanılmadan önce nükleaz içermeyen deiyonize suyla 10-kat seyreltildi. Spesifik cDNA'lar, 20 ul'lik bir hacimde GoTaq 2-Step RT-qPCR sistemi (Promega) tarafından çoğaltıldı. PCR amplifikasyonu, üreticinin talimatlarına göre 7500 Real-Time PCR Detection System (Applied Biosystems) ile 60 derecelik tavlama sıcaklığında gerçekleştirildi. Göreceli transkript bollukları, 7500 Manager yazılımı kullanılarak dahili standart olarak "comp10579_c0" geniyle karşılaştırmalı döngü eşik yöntemiyle hesaplandı.
RT-PCR için primer çiftleri çevrimiçi yazılıma (http://primer3.ut.ee/) dayalı olarak tasarlanmıştır ve S1 Veri Kümesinde listelenmiştir.
Sonuçlar
C. Deserticola'nın etli sapının RNA dizilimi ve de novo transkriptom düzeneği
C. Deserticola'nın sapı, uzun yıllardan beri Çin ve Japonya'da geleneksel olarak önemli bir tonik olarak yaygın şekilde kullanılmaktadır. C. Deserticola'nın etli gövdesindeki gen ekspresyonuna genel bir bakış elde etmek için, aynı bitki bazındaki C. Deserticola kök örneklerini sırasıyla 2013 ve 2014'te topladık. Toplam RNA'lar ekstre edildi ve çift uçlu RNA-seq kitaplıklarının oluşturulması için poliA+ RNA'lar saflaştırıldı. Illumina HiSeq 2000 dizilimi kullanılarak dizinin yaklaşık 8 milyar ve 8,6 milyar bazına karşılık gelen 79,433,734 ve 86,019,176 çift uç okuması elde edildi

2013-yıl ve 2014-yıllık örneklerde platform (Tablo 1). Bağdaştırıcı dizilerini çıkardıktan ve düşük kaliteli okumaları filtreledikten sonra (Yöntemlerdeki ayrıntılara bakın), 2013-yıl örneğindeki 64.831.040 yüksek kaliteli çift uçlu okuma, de novo transkriptom montajı için kullanıldı. Trinity dizi birleştiricisi [30] kullanılarak, transkript uzunlukları 200 bp ila 15.698 bp arasında değişen 51.719 gen ve 95.787 transkript dizisi üretildi. Birleştirilmiş transkriptlerin ortalama uzunluğu 950 baz ve N50 uzunluğu 1.519 bazdır. Farklı uzunluklardaki transkriptlerin sayısı, bir araya getirilen transkriptlerin %57,32'sinin yaklaşık 500 bp veya daha uzun olduğunu ortaya çıkardı (Şekil 1A). 2014-yıllık örnekteki yüksek kaliteli çift uçlu okumalar, birleştirilmiş transkriptomla eşlendi. Ayrıca, birleştirilmiş her gen için transkript sayısının değiştiğini ve genlerin %69'unun bir izoform ifade ettiğini, genlerin %31'inin ise iki veya daha fazla transkript ifade ettiğini bulduk (Şekil 1B).
Birleştirilmiş transkriptlerin ifade miktarının belirlenmesi ve işlevsel açıklaması
Gen veya transkript bolluğu, sıralı okumaların Bowtie kullanılarak birleştirilmiş genlere veya transkript dizilerine yeniden hizalandığı RSEM paketi kullanılarak ölçüldü ve bu haritalanmış okumalar, nicelik belirleme için kullanıldı. Her gen veya transkript için FPKM değeri hesaplandı ve son olarak, 2{{17}'deki C. Deserticola etli kök örneklerinde 63.957 ve 52.857 aktif olarak eksprese edilmiş transkript (FPKM değeri 0.5'ten büyük veya eşit) belirledik. }13 ve 2014, sırasıyla. 44.776 transkript (2013-yıllık örnekte %70,01, 2014-yıllık örnekte %84,71) iki kopyada yaygın olarak ifade edildi ve ifade verilerinin korelasyonu (Pearson korelasyon katsayısı: 0,91979) şu şekildeydi: Şekil S1'de gösterilmektedir. Sıralama ham verileri NCBI SRA veri tabanına yüklenmiştir (erişim numaraları: SRX857402 ve SRX858938). Daha ileri analizler için 2013-yıl örneğinde tanımlanan eksprese edilmiş genleri kullandık. İfade edilen tüm transkriptler için fonksiyonel açıklama bilgileri iki yöntem kullanılarak elde edildi. İlk olarak, eksprese edilen tüm transkriptler, BLAST algoritması ile ayrı ayrı bilinen nükleotid (GenBank nt) ve peptid dizisi veritabanlarına (GenBank nr ve Arabidopsis peptidi) hizalandı. 63.957 ifade edilen transkriptten,

29.220'ye (%45,7) açıklama eklendi ve üç konu veri tabanından herhangi birindeki E değeri kesme noktası 1e-20 olan dizilerle homoloji gösterdi. Bu arada, ifade edilen tüm transkript dizileri için aday kodlama bölgeleri, TransDecoder yazılımı kullanılarak tahmin edildi ve her transkript için en uzun ORF'ler, Pfam alanı araması için kullanıldı. Sonuç olarak, 21.358 (%33,4) transkripte Pfam veri tabanına dayalı olarak açıklama eklendi. Genel olarak, 30.098 (%47,1) transkript, yukarıdaki iki yöntemin birleştirilmesiyle halka açık veritabanlarındaki bilinen genlerle önemli ölçüde eşleştirildi. Fonksiyon açıklamasıyla birlikte tam ifade edilen transkript listesi, ek verilerde (S2 Veri Seti) gösterilmiştir.
Tüm sıralama okumalarının %18,99'una karşılık gelen en yüksek oranda ifade edilen ilk 20 transkripti (Tablo 2) araştırdık ve bunların çoğunun abiyotiklere yanıt veren genler olduğunu bulduk.

stres uyaranı. Grup II Geç Embriyojenez Bol (LEA) ailesine ait, yüksek sayıda yüklü amino asit içeren, hidrofilik ve ısıya dayanıklı stres proteinlerinin bir sınıfı olan Dehidrin (DHN'ler), en yüksek oranda eksprese edilen gendir. Üç farklı Dehyrin transkriptinin (comp28713_c0_seq1/2/4), hücrelerin kuraklık stresinin neden olduğu hasardan korunmasında rol oynayabilecek etli gövdelerde yüksek düzeyde eksprese edildiği tespit edildi. Isı şoku proteini, patojenle ilişkili protein ve metalotiyonein gibi diğer stresle ilişkili genlerin de yüksek düzeyde eksprese edildiği bulundu; bu, şiddetli hayatta kalma ortamıyla ilişkili olabilir. Ek olarak, 26S ribozomal RNA geni (comp22329_c2_seq1), oksinle baskılanmış/dormansi ile ilişkili protein (comp20999_c0_seq1), ADP-ribosilasyon faktörü (comp20499_ c0_seq1) de yüksek düzeyde kopyalanmıştır.

BAĞIŞIKLIĞI GELİŞTİRMEK İÇİN DOĞAL CISTANCHE TUBULOSA PHGS75% ECH 30% ACT 12%







