Chapter核苷酸序列分析_第1頁
Chapter核苷酸序列分析_第2頁
Chapter核苷酸序列分析_第3頁
Chapter核苷酸序列分析_第4頁
Chapter核苷酸序列分析_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、核苷酸序列分析核苷酸序列分析胡松年胡松年 2005 基因表達序列標簽基因表達序列標簽(EST)數據分析手冊)數據分析手冊第七第七章章吳祖建等吳祖建等 2011 生物信息學分析實踐生物信息學分析實踐第第4.3節(jié)節(jié)重復序列分析開放讀碼框(open reading frame, ORF)的識別基因結構分析內含子/外顯子剪切位點識別選擇性剪切分析CpG 島的識別核心啟動子/轉錄因子結合位點/轉錄啟始位點的識別轉錄終止信號的預測GC含量/密碼子偏好性分析核苷酸序列分析重復序列分析重復序列分析原核基因組中除rRNA、tRNA基因有多個拷貝外,重復序列(repetitive sequences)不多。哺乳動

2、物基因組中則存在大量重復序列,分為3類:1. 高度重復序列。一般較短,長10300bp,重復106次左右,占基因組10%60%,在人類基因組中約占20%,功能還不明確。核苷酸序列分析重復序列分析重復序列分析2. 中度重復序列。長10300bp,重復10105次,占基因組1040%。哺乳類中含量最多的一種稱為Alu的序列,長約300bp,重復3105次,在人類基因組中約占7%,功能不是很清楚。3. 單拷貝序列。這類序列基本上不重復,占哺乳類基因組的50%80%,在人類基因組中約占65%。由于大量重復序列影響序列分析,因此在對真核基因分析前,最好把重復序列屏蔽掉。核苷酸序列分析http:/www.

3、/cgi-bin/WEBRepeatMaskerArabidopsis thaliana chromosome 2, part sequence (NC_003071.1)Output開放讀碼框的識別開放讀碼框的識別 開放讀碼框(open reading frame, ORF) 是一段起始密碼子(ATG)和終止密碼子(TAA, TAG, TGA)之間的堿基序列 ORF 是潛在的蛋白質編碼區(qū) 原核生物中多數基因的編碼序列在100氨基酸以上;真核生物的編碼區(qū)由內含子和外顯子組成,其外顯子的平均長度約為50個氨基酸。 預測ORF的方法有兩類:基于統(tǒng)計分析和模式識別(如

4、GENSCAN, GeneMark, GRAIL II 等),基于同源比對。核苷酸序列分析開放讀碼框的識別開放讀碼框的識別 Kozak規(guī)則規(guī)則: ORF中起始密碼子ATG前后的堿基具有特定的偏好性。若將第一個ATG中的堿基分別標為1、2、3位,則Kozak規(guī)則可描述如下:1. 第4位的偏好堿基為G;2. ATG的5端的15bp范圍內的側翼序列內不含堿基T;3. 第3、6、9位G為偏好堿基;4. 除第3、6、9位,在整個側翼序列區(qū)中,C為偏好堿基。核苷酸序列分析基因開放閱讀框基因開放閱讀框/ /基因結構分析識別工具基因結構分析識別工具Getorfhttp:/bioweb.pasteur.fr/s

5、eqanal/interfaces/getorf.htmlWeb/LinuxPlotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlWeb/LinuxORF Finder /gorf/gorf.html WebBestORFhttp:/ /GeneMark/WebGene Finder/tools/genefinder/(Dr. Michael Zhang )WebFGENESH

6、http:/ LinuxFgeneSB/ FgeneSVhttp:/ /generation/WebGeneBuilder http:/r.it/webgene/genebuilder.html WebFGENESH+ /+http:/ Web/LinuxGenomeScan /genomescan.html WebGeneWise http:/www.sanger.ac.uk/Software/Wise2/ WebGRAIL/grailexp/Web/Linux/

7、WindowsBCM Gene Finder/seq-search/gene-search.htmlWeb核苷酸序列分析開放讀碼框的識別開放讀碼框的識別 預測ORF的方法都是針對特定物種而設計的,如GENSCAN最初是針對人類的,后擴展對脊椎動物、果蠅、擬南芥、玉米基因的預測。 GlimerM適于惡性瘧原蟲、擬南芥、曲霉菌和水稻 對mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等核苷酸序列分析應用應用ORF Finder預測水稻瘤矮病毒預測水稻瘤矮病毒(RGDV)S

8、8片斷的片斷的ORF ORF Finder: /gorf/gorf.html 水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮病是中國及東南亞國家水稻上的一種重要病毒病害. 為構建融合蛋白的表達載體,需要對RGDV S8片斷的基因序列(GenBank登陸號:AY216767)進行ORF分析并確定其位置,為設計表達引物提供信息.提交序列:以登陸號或直接粘貼FASTA格式的序列.參數設置:可設置待分析序列片斷的起始和結束位置;ORF Finder提供了22種遺傳密碼表可供選擇。這里選擇默認參數.核苷酸序列分析T

9、he Genetic Codes點擊點擊結果驗證 采用數據庫搜索方法對選定的ORF進行驗證 BLASTB比對搜索到多個顯著相似的序列, 因此所預測的ORF可信度比較高點擊GetOrf http:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aa

10、caaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg輸出結果輸出結果GENSCAN /GENSCAN.htmlggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctcca

11、agacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg輸出結果輸出結果啟動子及轉錄因子結合位點分析啟動子及轉錄因子結合位點分析啟動子啟動子(Promoter)是RNA聚合酶識別、結合并開始轉錄所必需的一段DNA序列。原核生物啟動子序列包括:1.CAP序列序列(增強聚合酶的結合和轉錄的起始序列,-70-40)2.-10序列序列:在-4到-13bp處,有保守序列TATAAT,稱為Pribnow框,各堿基頻率:T89 A89 T

12、50 A65 A65 T1003.-35序列序列:約在-35處有保守序列TTGACA, 其中TTG十分保守,各堿基頻率:T85 T83 G81 A61 C69 A52核苷酸序列分析啟動子及轉錄因子結合位點分析啟動子及轉錄因子結合位點分析真核生物啟動子是在基因轉錄起始位點(+1)及其5上游大約100200bp或下游100bp的一組具有獨立功能的DNA序列,包括:1. 核心啟動子核心啟動子( core promoter): 轉錄起始位點(+1)一般是A或G及轉錄起始位點上游-25-30的TATA框2. 上游啟動子元件上游啟動子元件(upstream promoter element, UPE):

13、包括通常-70bp附近的CAAT框(GGCCAATCT)和GC框(GGGCGG)等核苷酸序列分析PromoterScan:80/molbio/proscan粘貼粘貼AY684193AY684193輸出結果輸出結果內含子內含子/外顯子剪切位點識別外顯子剪切位點識別對基因組序列的讀碼框區(qū)域進行預測內含子5端供體位點(donor splice site): GT內含子3端受體位點(acceptor splice site): AG內含子區(qū)域核苷酸組分是識別編碼區(qū)的重要依據核苷酸序列分析不同的序列通常采用不同的分析方法NetGene2和Splice Vi

14、ew用于分析基因組核苷酸序列編碼區(qū)的剪切位點和內含子mRNA/cDNA序列可用Spidey,SIM4,BLAT和BLAST等分析工具內含子內含子/外顯子剪切位點識別外顯子剪切位點識別如何分析mRNA/cDNA的外顯子組成?RNASPL與相應的基因組序列比對,分析比對片段的分布位置預測工具:Spidey,SIM4,BLAT,BLAST,FASTA 核苷酸序列分析基因開放閱讀框基因開放閱讀框/基因結構分析工具基因結構分析工具對基因組序列的讀碼框區(qū)域進行預測對基因組序列的讀碼框區(qū)域進行預測NNSplice/seq_tools/splice.htmlWeb

15、Splice Viewhttp:/r.it/webgene/wwwspliceview.htmlWeb NetGene2http:/www.cbs.dtu.dk/services/NetGene2/WebSPL/SPLM/RNASPL/FSPLICEhttp:/ Web/LinuxSpidey/spideyWebPROT_MAPhttp:/ Sim4http:/gamay.univ-perp.fr/analyse_seq/sim4/Web/LinuxBLAT/

16、kent/src/unzipped/blat/LinuxBLAST/BLAST/ExecutablesWeb/Windows/LinuxFASTA/pub/fasta/win32_fasta/fasta34t21b5d.zipWeb/Windows/Linux核苷酸序列分析NetGene2http:/www.cbs.dtu.dk/services/NetGene2/ 用于人類、線蟲和擬南芥的基因序列分用于人類、線蟲和擬南芥的基因序列分析析 報告受體位點和供體位點信息,對報告受體位點和供體位點信息,對DN

17、A正負兩條鏈分析正負兩條鏈分析 圖形顯示可能的編碼區(qū)、受體位點和供圖形顯示可能的編碼區(qū)、受體位點和供體位點信息體位點信息ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGG

18、GGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATC

19、ATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTAT

20、ATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAATSpidey/IEB/Research/Ostell/Spidey/q可對可對cDNA或或EST序列分析序列分析qNCBI開發(fā),基于開發(fā),基于BLAST和和Dot View局部局部比對算法比對算法q優(yōu)勢在于能同時將多條優(yōu)勢在于能同時將多條mRNA/cDNA或或EST序列與基因組序列進行比對序列與基因組序列進行比對輸入基因組序列輸入基因組序列Z83819輸入序列輸入序列:

21、AF166326AF166327選擇性剪切選擇性剪切(Alternative splicing)分析分析核苷酸序列分析選擇性剪切選擇性剪切(Alternative splicing)分析分析 選擇性剪接是調控基因表達的重要機制 了解不同物種、細胞、發(fā)育階段、環(huán)境壓力下基因的調控表達機制 分析方法: 查詢選擇性剪切相關的網站 多序列比對查詢選擇性剪切相關的網站查詢選擇性剪切相關的網站http:/www.ebi.ac.uk/asd/index.html綜合綜合http:/splicenest.molgen.mpg.de/綜合綜合/new_alt_exon

22、_db2/綜合綜合5/AsMamDB/哺乳動物哺乳動物/tigr-scripts/tgi/splnotes.pl?species=human.tw/.au/altExtron人人/kent/intronerator/altsplice.html線蟲線蟲http:/ AF166327, AF166328, NM_013955, 與Seq1比對,可判斷Seq1的剪切機制。Seq1與AF1

23、66327最為相似,與AF166327在基因的5相匹配,而缺失了第1013號外顯子區(qū)域。Seq1與與AF166317比對結果比對結果基于序列比對分析選擇性剪切基于序列比對分析選擇性剪切在序列上高度相似的在序列上高度相似的mRNA/cDNA/EST序列序列相匹配的基因組序列相匹配的基因組序列序列比對序列比對對分布位置進行分析對分布位置進行分析cDNA/mRNA/EST 序列比對序列比對收集序列收集序列核苷酸序列分析評判的標準:評判的標準:來自來自Unigene的高質量數據的高質量數據Exon至少有至少有3條條ESTs覆蓋覆蓋Exon周圍有周圍有GT-AG信號信號Blast比對比對Score值值1

24、00相似度相似度95%S.Gupta et al., Genome wide identification and classification of alternative splicing based on EST data, Bioinformatics 2004, 20(16): 2579-2585基因周圍調控序列分析基因周圍調控序列分析 CpG島位于真核生物基因轉錄起始位點上游,GC含50% ,長度幾百到幾千“p”表示“C”和“G”以磷酸二酯鍵連接一般CpG島出現在脊椎動物看家基因(house keeping gene)或頻繁表達基因中活性基因的CpG島具有抵抗序列甲基化的作用80%

25、的人類基因的轉錄起始位點存在CpG島,因而搜索CpG島可為發(fā)現基因提供重要線索核苷酸序列分析http:/www.ebi.ac.uk/emboss/cpgplot/CpgplotCpgreportIsochoreAF129756.1Results ForCpgplotCpgreportIsochoreExample基因周圍調控序列分析基因周圍調控序列分析轉錄終止信號的預測q真核生物編碼基因中,轉錄終止信號是在mRNA序列的3端終止密碼子下游置上加尾的信號,主要標志為出現AATAAA序列,可以重復出現,在其后的10-15 bp處開始合成PolyA.q在基因預測軟件中,轉錄終止信號也被化定基因的范圍

26、,以便對ORF區(qū)域進行更好的識別和分析核苷酸序列分析轉錄終止信號預測轉錄終止信號預測Hcpolyahttp:/r.it/webgene/wwwHC_polya.htmlWeb POLYAHhttp:/ /tools/polyadq/polyadq_form.htmlWebPolyadq/tools/polyadq/polyadq_form.html粘貼粘貼AF129756.1.txt中的序列中的序列密碼子使用偏性分析密碼子使用偏性分析遺傳密碼子表遺傳密碼子表UCAGU苯丙氨酸苯丙氨酸 Phe絲氨酸絲氨酸 Ser酪氨

27、酸酪氨酸 Tyr 半胱氨酸半胱氨酸 CysU苯丙氨酸苯丙氨酸絲氨酸絲氨酸酪氨酸酪氨酸半胱氨酸半胱氨酸C亮氨酸亮氨酸 Leu絲氨酸絲氨酸終止子終止子 Ter 終止子終止子 TerA亮氨酸亮氨酸絲氨酸絲氨酸終止子終止子色氨酸色氨酸 TrpGC亮氨酸亮氨酸脯氨酸脯氨酸 Pro組氨酸組氨酸 His 精氨酸精氨酸 ArgU亮氨酸亮氨酸脯氨酸脯氨酸組氨酸組氨酸精氨酸精氨酸C亮氨酸亮氨酸脯氨酸脯氨酸谷氨酰胺谷氨酰胺 Gln 精氨酸精氨酸A亮氨酸亮氨酸脯氨酸脯氨酸谷氨酰胺谷氨酰胺精氨酸精氨酸GA異亮氨酸異亮氨酸 ILe蘇氨酸蘇氨酸 Thr天冬酰胺天冬酰胺Asn絲氨酸絲氨酸 SerU異亮氨酸異亮氨酸蘇氨酸蘇氨酸

28、天冬酰胺天冬酰胺絲氨酸絲氨酸 C異亮氨酸異亮氨酸蘇氨酸蘇氨酸賴氨酸賴氨酸 Lys 精氨酸精氨酸 ArgA甲硫氨酸甲硫氨酸 Met蘇氨酸蘇氨酸賴氨酸賴氨酸精氨酸精氨酸GG纈氨酸纈氨酸 Val丙氨酸丙氨酸 Ala天冬氨酸天冬氨酸Asp甘氨酸甘氨酸 GlyU纈氨酸纈氨酸丙氨酸丙氨酸天冬氨酸天冬氨酸甘氨酸甘氨酸 C纈氨酸纈氨酸丙氨酸丙氨酸谷氨酸谷氨酸 Glu 甘氨酸甘氨酸 A纈氨酸纈氨酸丙氨酸丙氨酸谷氨酸谷氨酸甘氨酸甘氨酸 GSecond PositionFirst Position (5 end)Third Position (3 end)密碼子使用偏性分析密碼子使用偏性分析q生物體內普遍存在同義密

29、碼子非均衡使用的現象, 例如: 某一物種或某一基因通常傾向于使用一種或幾種特定的同義密碼子, 這些密碼子被稱為最優(yōu)密碼子(optimal codon), 此現象被稱為密碼子偏性(codon bias)。.q不同物種的基因、不同功能的基因在密碼子使用上存在著明顯的偏性核苷酸序列分析密碼子使用偏性分析密碼子使用偏性分析意義意義q 基因異源表達q 與某些物種的蛋白表達水平相關q 揭示有關物種間或某一物種的基因家族間的基因進化規(guī)律q 基因的翻譯調控q 其他應用 密碼子偏性的分析也常對許多實驗操作起指導和輔助作用, 如: 鑒定編碼區(qū), 制備基因克隆的寡核苷酸探針, 基因芯片設計等核苷酸序列分析密碼子使用

30、偏性分析密碼子使用偏性分析密碼子使用指標(密碼子使用指標(Codon usage indices)q (1) 密碼子適應性指標CAI (codon adaption index)q (2) 最優(yōu)密碼子使用頻率FOP (frequency of optimal codons)q (3)密碼子偏性指標CBI (codon bias index)q (4) 有效密碼子數ENC (effective number of codons)q (5)GC含量 (GC content of gene)q (6)密碼子第三位GC含量 (GC of silent 3rd codon position)核苷酸序列分

31、析密碼子使用偏性分析密碼子使用偏性分析密碼子使用指標(密碼子使用指標(Codon usage indices)q(7) 密碼子第三位A、T、C、G含量( silent base composition)q (8) 同義密碼子數目 (Number of synonymous codons)q (9) 序列氨基酸總數 (Total number of amino acids)q (10)蛋白質疏水性 (Hydrophobicity of protein)q (11) 蛋白質芳香性 (Aromaticity of protein)核苷酸序列分析密碼子適應性指標CAI (codon adaption

32、index) CAI is a measurement of the relative adaptedness of the codon usage of a gene towards the codon usage of highly expressed genes. The relative adaptedness () of each codon is the ratio of the usage of each codon, to that of the most abundant codon within the same synonymous family. L is the nu

33、mber of synonymouscodons in the gene. 常用于基因表達水平的測量,此值為01 ,越接近1 表示基因的表達水平越高。1 11 1l n l nL Lk kk kC A IE xpC A IE xpL Lw w= =驏驏琪琪= =琪琪琪琪琪琪桫桫 最優(yōu)密碼子使用頻率FOP (frequency of optimal codons) Fop is the fraction of synonymous codons which are optimal codons. If rare synonymous codons have been identified, th

34、ere is a choice of calculating the original Fop index or a modified Fop index_ _ _o op pc co od do on ns ss sy yc co od do on ns sN NF Fo op pN N= =_ _ _ _o op p c co od do on ns sr ra ar re e c co od do on ns ss sy y c co od do on ns sN NN NF Fo op pN N- -= =密碼子偏性指標CBI (codon bias index) CBI is a m

35、easure of directional codon bias, and is a measure of the extent to which a gene uses a subset of optimal codons Where Nopt = number of optimal codons; Ntot = number of synonymous codons; Nran = expected number of optimal codons if codons were assigned randomly.o op pt tr ra an nt to ot tr ra an nN

36、NN NC C B B I IN NN N- -= =- -有效密碼子數ENC (effective number of codons) 取值范圍在2061之間,即如果每種氨基酸只使用一種密碼子則有效密碼子數為20,如果各種同義密碼子的使用機會完全均等,則有效密碼子數為61,越靠近20偏性越強。 ENC值越小,基因的密碼子偏愛程度越大。 單子葉植物玉米、高粱、大麥、小麥、水稻的ENC值均小于40,而雙子葉植物擬南芥、豌豆的ENC分別為52.33和51.39,表明5種單子葉植物的waxy基因具有較強的密碼子偏好,而雙子葉植物的偏好性則相對較低。 7個物種waxy基因密碼子的ENC值和GC3含量

37、相對同義密碼子使用頻率RSCU (relative synonymous codonusage)1 11 1i iijijn nijijj ji ix xR SC UR SC Ux xn n= = = xij表示編碼第i個氨基酸的第j個密碼子的出現次數, ni表示編碼第i個氨基酸的同義密碼子的數量。 密碼子使用偏性分析工具CodonW http:/www.molbiol.ox.ac.uk/cuWindows/Web/LinuxSYCOhttp:/bioweb.pasteur.fr/seqanal/interfaces/syco/htmlWeb /LinuxCHIPhttp:/bioweb.pa

38、steur.fr/seqanal/interfaces/chips.htmlWeb /LinuxCodon usage/sms/index.htmlWeb密碼子使用偏性分析工具CodonW使用 Input.dat數據詳見Tutorial.txt Check the input data codonw input.dat -nomenu codonw input.dat all_indices nomenu 輸出文件input.out和input.blk codonw input.dat all_indices c_type 2 f_type 4 -nomenu密碼子使用偏性分析工具CodonW使用 Correspondence Analysis (COA, 對應分析) codonw input.dat -coa_cu -nomenu silent 輸出文件cai.coa cbi.coa coa_raw codon.coa cusort.coa e

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論