生物信息學第五章核酸序列分析_第1頁
生物信息學第五章核酸序列分析_第2頁
生物信息學第五章核酸序列分析_第3頁
生物信息學第五章核酸序列分析_第4頁
生物信息學第五章核酸序列分析_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第五章核酸序列分析生物科學與技術學院基因結構及功能的預測和分析PromoterPromoterEnhancerEnhancerTerminatorTerminatorRegulatory elementRegulatory elementGC boxGC boxCAAT boxCAAT boxTATA boxTATA boxPribnow boxPribnow box-35 region-35 regionExonExonExonExonIntronIntronORFORF5533T TG GG GA AT TA AT TT TA AT TA AG GC CT TA AG GA AGC CG

2、GG GA AT TA AStem-loopStem-loop一、核苷酸頻率分析(單鏈單鏈)核苷酸頻率:核苷酸頻率:對于一個給定的基因組,最簡單的計算就是統(tǒng)計DNA序列中各類核苷酸出現(xiàn)的頻率。對于隨機分布的DNA序列來說,每種核苷酸的出現(xiàn)是均勻分布的,即出現(xiàn)頻率各為0.25。而真實基因組的核苷酸分布則是非均勻的,如酵母基因組核苷酸出現(xiàn)頻率如下左表。單雙鏈的區(qū)別:單雙鏈的區(qū)別:同時計算DNA的正反兩條鏈,根據(jù)堿基配對原則,A和T、G和C的出現(xiàn)頻率應該是相同的。相同的。但實際上A和T、G和C的出現(xiàn)頻率不同,但是卻非常接近非常接近,如酵母單鏈核苷酸出現(xiàn)頻率如下右表。 (單鏈單鏈)核苷酸頻率核苷酸頻率

3、同時計算同時計算DNA的正反的正反兩條鏈兩條鏈核核苷苷酸酸頻頻率率例:例:(單鏈單鏈)核苷酸頻率核苷酸頻率核苷酸關聯(lián)性分析核苷酸關聯(lián)性分析-雙聯(lián)核苷酸頻率:雙聯(lián)核苷酸頻率:不同基因組中兩個連續(xù)核苷酸出現(xiàn)的頻率也是不相同的4種核苷酸可以組合成16種兩聯(lián)核苷酸核苷酸對核苷酸對頻率頻率AAAA0.11934006818000.1193400681800ACAC0.05206053302030.0520605330203AGAG0.05585178905460.0558517890546ATAT0.09753133739250.0975313373925CACA0.05830609674920.058

4、3060967492CCCC0.03256461990510.0325646199051CGCG0.02839095840520.0283909584052CTCT0.05585178905460.0558517890546GAGA0.05576221792820.0557622179282GCGC0.03480507469700.0348050746970GGGG0.03256461990510.0325646199051GTGT0.05206053302030.0520605330203TATA0.09150197983080.0915019798308TCTC0.055762217928

5、20.0557622179282TGTG0.05830609674920.0583060967492TTTT0.11934006818000.1193400681800酵母基因組兩聯(lián)核苷酸頻率表設:Pij代表兩聯(lián)核苷酸(i,j)的出現(xiàn)頻率;Pi代表核苷酸i的出現(xiàn)頻率則:Sij= Pij/(PiPj), S Sij ij反應了核苷酸反應了核苷酸i i和和j j的的關聯(lián)關系,若關聯(lián)關系,若S Sij ij=1=1,則在兩個連續(xù)的位,則在兩個連續(xù)的位置上,核苷酸置上,核苷酸i i和和j j的出現(xiàn)是相對獨立的。的出現(xiàn)是相對獨立的。若若S Sij ij11,則兩個連續(xù)位置上,核苷酸,則兩個連續(xù)位置上,核

6、苷酸i i和和j j的出現(xiàn)是相關的。的出現(xiàn)是相關的。如:酵母基因組P(A)=0.3248,P(AA)=0.1193,則S(AA)=0.1193/(0.324820.32482)=1.131 1,這表明在兩個連續(xù)位置上“A”的出現(xiàn)不是獨立的,而是相關的。6三聯(lián)核苷酸頻率三聯(lián)核苷酸頻率 基因密碼子基因密碼子 常常需要對三聯(lián)核苷酸進行統(tǒng)計分析,這實際上是分析密碼子的使用偏性。 密碼子用法:在基因中,同義密碼子用法(如出現(xiàn)頻率等)并不是完全一致的,不同物種、不同個體的密碼子用法存在差異。 蛋白三級結構、功能與密碼子用法有關。 通過聚類分析(cluster AnAlysis),發(fā)現(xiàn)具有相似三級結構蛋白相

7、似三級結構蛋白的編碼基因大致聚在同一聚在同一類中類中,對于同一類型的基因,由物種引起的同義密碼子使用偏性的差異較小。AAAAAACAACAAGAAGAATAATAAAACAACCACCACGACGACTACTACAAGAAGCAGCAGGAGGAGTAGTAGAATAATCATCATGATGATTATTATACAACACCACCAGCAGCATCATCAACCACCCCCCCCGCCGCCTCCTCCACGACGCCGCCGGCGGCGTCGTCGACTACTCCTCCTGCTGCTTCTTCTAGAAGACGACGAGGAGGATGATGAAGCAGCCGCCGCGGCGGCTGCTGCAG

8、GAGGCGGCGGGGGGGGTGGTGGAGTAGTCGTCGTGGTGGTTGTTGTATAATACTACTAGTAGTATTATTAATCATCCTCCTCGTCGTCTTCTTCATGATGCTGCTGGTGGTGTTGTTGATTATTCTTCTTGTTGTTTTTTTT密碼子的簡并密碼子的簡并(degenerAcy):氨基酸都對應2種以上密碼子(M,W除外),最多有6種對應的密碼子。氨基酸有2021種,三聯(lián)核苷酸有43=64種。20種氨基酸的密碼子表種氨基酸的密碼子表二、密碼子偏好性分析密碼子使用偏好密碼子使用偏好 (Codon usAge biAs):p不同生物常常偏好使用編碼

9、同一個氨基酸的多個密碼子中的一個;p偏好的產生是一個分子進化分子進化的爭論熱點,一般認為密碼子偏好反映了變異偏好和自然選擇的平衡,在生長快的微生物中,如大腸桿菌和酵母,偏好反映了該物種tRNA的組成;p偏好的密碼子往往翻譯更快更精確,研究tRNA進化較少。異常起始密碼子異常起始密碼子GUGUUGAUAAcinetobacter calcoaceticus,乙酸鈣不動桿菌Alcaligenes eutrophus,真養(yǎng)產堿桿菌Bacillus amylolique faciens,解淀粉芽孢桿菌Bacillus brevis,短芽孢桿菌Agrobacterium rhizogenes,發(fā)根土壤桿

10、菌Bacillus cereus,蠟樣芽孢桿菌Clostridium acetobutylicum,丙酮丁醇梭菌Escherichia coli,大腸埃希氏菌Strephylococcus aureus,金黃色葡萄球菌Escherichia coli,大腸埃希氏菌Sequence=“ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATCCCGTCAGGCCCCCTCAAAGCCGAGATCGCGCAGAAACTTGAAGATGTCTTTGCAGGGAAGAACACCGATCTCGAGGC”Translation(Standard Genetic Code)=

11、“MSLLTEVETYVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”Translation(Plant Mitochondrial Code)=“MSLLTEVETYVLSIIPSGPLKTEIAQKLEDVFAGKNTDLE”Translation(Vertebrate Mitochondrial Code)=“MSLLTEVETTVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”例例密碼子使用偏好性分析工具(在線):Codon Usage DatabaseCodon Usage AnalyzerCodonW密碼子分析數(shù)據(jù)庫:密碼子分析數(shù)據(jù)庫: Codon Usa

12、ge Databasehttp:/www.kazusa.or.jp/codon/查詢物種名稱查詢物種名稱Codon Usage Database查詢結果查詢結果Codon Usage Analyzer/codon/cgi-bin/codon.cgiGC含量含量 (GC content):是基因組的基本參數(shù),即DNA分子或基因組中GC堿基對所占的比例,通常用百分比表示,如1575%。物種的GC含量存在兩頭少中間多的正態(tài)分布情況。GC含量可用分光計測量,DNA的解鏈溫度(解鏈時260nm光的吸收率猛增),因GC間為3個氫鍵,因此,(超)嗜熱菌

13、GC含量高(GC-rich)。GC含量被用于分類學,也對PCR重要,一般基因內GC含量高于基因組,外顯子高于內含子(原因不明)。三、GC含量分析ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCC

14、GACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTATotal bases=437A=98 A=22.43%C=141 C=32.27%T=66 T=15.10%G=132 G=30.21%A+T=164 A+T=37.53%C+G=

15、273 C+G=62.47%ORF(Open read frame)ORF(Open read frame):開放閱讀框是基因序列中的一段無終止序列打斷的堿基序列,可編碼相應的蛋白。ORF的識別是證明一個新的DNA序列為特定的蛋白質編碼基因的部分或全部的先決條件。例如,對于序列ATTCGATCGCAA,一種可能的密碼子閱讀順序為ATT、CGA、TCG、CAA,另外兩種可能的密碼子閱讀順序分別為A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。這三種順序被稱為開放閱讀框。實現(xiàn)方法:實現(xiàn)方法: 掃描給定的DNA序列,在3個不同的閱讀框中尋找較長的ORF。 當遇到終止密碼子后,回頭

16、尋找起始密碼子,以確定完整的編碼區(qū)域。四、開放閱讀框分析基因開放閱讀框基因開放閱讀框/ /基因結構分析識別工具基因結構分析識別工具Getorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用Plotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用ORF Finder /gorf/gorf.html NCBI通用通用BestORFhttp:/ Finderhttp:/rulai.cshl

17、.org/tools/genefinder/Zhang lab人、小鼠、擬南芥、酵母FGENESHhttp:/ Maryland原核FgeneSBhttp:/ /generation/ORNL原核FGENESH+http:/ Softberry原核GenomeScan /genomescan.html MIT脊椎、擬南芥、玉米GeneWise http:/www.ebi.ac.uk/Wise2/EBI人、蠕蟲GRAIL/grailexp/ORNL人、小鼠、擬南芥、果

18、蠅例:胰島素由A、B兩個肽鏈組成。人胰島素(Insulin Human)A鏈有11種21個氨基酸,B鏈有15種30個氨基酸,共16種51個氨基酸組成。 Accession:NM_000207“AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCT

19、TCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGCAAAA”O(jiān)RF Finder 是一個圖形的序列分析工具,分析并找到序列的是一

20、個圖形的序列分析工具,分析并找到序列的ORF區(qū)區(qū)(開放讀碼框架開放讀碼框架),這,這個工具使用標準的或其它特殊的遺傳密碼子列出所有可能的個工具使用標準的或其它特殊的遺傳密碼子列出所有可能的ORF區(qū),并推出氨基酸序列。區(qū),并推出氨基酸序列。點擊點擊結果出現(xiàn)六個圖形,這是根據(jù)六結果出現(xiàn)六個圖形,這是根據(jù)六種不同的編碼方式得到的(包括種不同的編碼方式得到的(包括正反鏈)。右邊出現(xiàn)各個預測的正反鏈)。右邊出現(xiàn)各個預測的ORF區(qū)的長度與編碼方式。點其區(qū)的長度與編碼方式。點其中一個就可以看該區(qū)域的序列,中一個就可以看該區(qū)域的序列,并且有推導的氨基酸序列。一般并且有推導的氨基酸序列。一般來講,長的來講,長的

21、ORF區(qū)基本上都是正區(qū)基本上都是正確的,有可能編碼基因。確的,有可能編碼基因。五、啟動子分析原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC區(qū) CAAT區(qū)mRNA14025110增強子增強子上游啟動子元件,上游啟動子元件,UPE核心啟動子元件核心啟動子元件轉錄起始轉錄起始位點位點啟動子預測:啟動子預測:1、CpGProD(CpG Island Promoter Detection) , 預測哺乳動物 CpG 島相關啟動子序列的程序。http:/pbil.univlyonl.fr/software/cpgprod_query.html 2、D

22、ragon Promoter Finder 啟動子預測工具,適用于預測脊椎動物啟動子,支持多種序列格式。 .sg/promoter/promoter1_5/DPF.hm3、McPromoter,麻省理工大學開發(fā)的真核生物 ( 主要是脊椎動物 / 果蠅 )DNA 轉錄起始位點預測工具,其目標是盡量精確地預測 RNA 轉錄酶 II 的啟示轉錄位點,需要提供一個 Email 來接收預測結果,可以特異的選擇脊椎動物或是果蠅。 /generegulation/McPromoter/4、 Prom

23、oterScan,啟動子區(qū)預測工具,其預測基于比較所提交的序列與真核生物 RNA 聚合酶 II 啟動子序列同源性。/molbio/proscan/ 5、TESS, Transcription Element Search System 是一款預測啟動子上轉錄因子結合位點的工具,通過所提交的序列與 TRANSFAC, JASPAR, IMD, CBIL-GibbsMat 數(shù)據(jù)庫相比對,獲得啟動子上可能存在結合位點。/cgi-bin/tess/tess?RQ=SEA-FR-Query 推薦:推薦:

24、 丹麥技術大學的生物序列分析中心丹麥技術大學的生物序列分析中心 http:/www.cbs.dtu.dk/services/Promoter/啟動子預測是一個復雜的,十分有技術含量的工作,需要大量的推斷和演算,還需要用啟動子預測是一個復雜的,十分有技術含量的工作,需要大量的推斷和演算,還需要用實驗去驗證。因此對于啟動子的預測,一個、兩個軟件或者算法都是不全面的,需要綜實驗去驗證。因此對于啟動子的預測,一個、兩個軟件或者算法都是不全面的,需要綜合去考慮。合去考慮。另一個很好用的啟動子預測網(wǎng)站另一個很好用的啟動子預測網(wǎng)站 /seq_tools/promo

25、ter.html利用神經網(wǎng)絡算法預測真核及原核生物啟動子利用神經網(wǎng)絡算法預測真核及原核生物啟動子例:Human obese protein (ob) gene U43589對于分析的結果要結合起始密碼子前的非編碼區(qū)序列進行綜合分析,啟動子區(qū)存在對于分析的結果要結合起始密碼子前的非編碼區(qū)序列進行綜合分析,啟動子區(qū)存在CAAG box,TATA box,-10,-35等特征區(qū)等特征區(qū) Promoter prediction practical exerciseRegulation of Human obese protein genePractical exerciseEnrique Blanco

26、 - eblancoimim.es Abstract: In this exercise, the previously annotated promoter region of the Leptin gene(瘦素,(瘦素,obese protein gene(肥胖基因)肥胖基因)) will be used to test different methods for predicting regulatory elements.First of all, a matrix will be constructed from a real collection of sites. Second

27、ly, the TRANSFAC database will be accessed to extract real matrices and then, the promoter sequence will be scanned searching for promoter motifs. Finally, due to the number of false positives that will be obtained, a phylogenetic approach(系統(tǒng)系統(tǒng)發(fā)育樹發(fā)育樹) will be suggested. Both human and mouse homologu

28、es will be aligned to elucidate(解釋解釋) the coordinates of the actual binding sites. 自學,不做要求自學,不做要求A. Description of the geneStep 1. Retrieve(檢索) the annotation and the sequence of the gene (EMBL database) Go to EMBL database at EBI mRNA sequence: Type U43653 in Nucleotide sequences On top, click over

29、 the EMBL:HS436531 entry Have a look at the description: IDs, references, attributes, sequences Search the Feature of Coding Sequence (FT CDS). Click over and check the ORF correctness: the beginning and the end of the sequence correspond respectively to the Start and Stop codons? Accession: U43653h

30、ttp://nuccore/1226243?report=fastaStep 2. Learn more about the Leptin geneUsing a genome browserGo back to the initial screen that contained the result of your first query. On the left, you will find the Display Options box. Select the FastaSeqs view and press the button Apply Di

31、splay Options Open the UCSC genome browser Select the alignment program Blat (human genome) Paste the Fasta sequence of the Leptin gene and submit the query Browse the first hit in the list of matches Have a look at the different displaying options. We recommend to zoom out 10 x the initial picture

32、to explore the genomic landscape around the gene. For instance, try to: obtain the RefSeq gene sequence check the presence of a CpG island in the promoter examine the mRNAs supporting the gene annotation evaluate the conservation between orthologues(同源)RefSeq gene sequenceCpG islandmRNAsParameterCon

33、trol itTask1: What do you have to do if you want to see the computationally predicted transcription factor binding sites? Task2: Try to locate the sequence in other genomes using BLAT (e.g. mouse)Go to LocusLink database at NCBI Type U43653 in Query Click on the entry LEP (leptin) Identify main fiel

34、ds in the entry: functional description, NM and NP annotationsevaluate the conservationCLICKStep 3. PROMOTER information: sequence and experimental annotation This track describes the location of transcription start sites (TSS) throughout the human genome along with a confidence measure for each TSS

35、 based on experimental evidence. 實際上,我們實際上,我們query的的序列(序列(U43653)是)是mRNA,不是,不是DNA,因為,因為mRNA是已經轉錄并是已經轉錄并剪接過的序列剪接過的序列,無法從,無法從mRNA上預測出啟動子區(qū),要上預測出啟動子區(qū),要預測啟動子需要的是預測啟動子需要的是DNA(基因組(基因組或者染色體序列)或者染色體序列),前面的演示是希望通過,前面的演示是希望通過mRNA序列定位到染色體序列定位到染色體上,從而找到真正上,從而找到真正的基因組的基因組DNA序列,為啟動子的預測提供基礎。序列,為啟動子的預測提供基礎。點擊進入點擊進入d

36、etails頁面頁面DNAmRNA定位啟動子區(qū)(定位啟動子區(qū)(TSS+TPBS)Human Chromosome 7:127880000-127882000SCANchr7:127880000-127882000chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGT

37、AGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGC

38、GGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAACCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCA

39、GTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGGGGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG gb|U43589.1|HSU43589:1922-2922 Human obese protein (ob) gene, partial

40、 gb|U43589.1|HSU43589:1922-2922 Human obese protein (ob) gene, partial promoter sequencepromoter sequence /seq_tools/promoter.htmlchr7:127880000-127882000chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCT

41、GCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGTAGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGCGCAGTGGGGACCAGAATAGGCCTGGGTTCCTAGCCCATTGCTATTCCTTACCAGCTGTGGATTCTAAGG

42、AAAGTCATTTAACCTCGCTGGACCTTAGATTCCTCATCCCTGAAGCCCAAGGGTAAAACAAAACAAAACAAAACAAAACAAACCAACCCATCATGTAAAGCGGGGAACTACAAACGATACAGGTGAAACATGCCTACCACACCACTCACAGGCTATGATGACAAAAACGTGGCTACATCTGGGACCACCCCCCAACCCCCACTTTGTACGTAGGAAATACGGAGTTGAGGATGGAGACCCACAGTATGTCCAGAGTGTCCCCAAAGGCCACAGTGCCCGCCTGGAGCCCTCCAGAGAGCG

43、TGCACTCCCTGGGGTGCCAGCCAGAGACAACTTGCCCTGAGGCTTGGAACTCGATTCTCCGCGTGCCAGAGAAGGGGTGGGACTTCAGAACCCCCAACCCCGCAATCTGGGTCGGGGAGCCTGGCGCACTGCGGGCCGCTCCCTCTAACCCTGGGCTTCCCTGGCGTCCAGGGCCGTCGGGGCCGAGTCCCGATTCGCTCCCACCCCGAAGCCGCGCCAGGACCAACGAGGGCGCAGCCGTATGCCCCAGCCCGCTCCGCGGAGCCCCTCACAGCCACCCCCgCCCCGACCGCGCCCCGC

44、GCGGCTCGAAGCACCTTCCCAAGGGGCTGGTCCTTGCGCCATAGTCGCGCCGGAGCCTCTGGAGGGACATCAAGGATTTCTCGCTCCTACCAGCCACCCCCAAATTTTTGGGAGGTACCCAAGGGTGCGCGCGTGGCTCCTGGCGCGCCGAGGCCCTCCCTCGAGGCCCCGCGAGGTGCACACTGCGGGCCCAGGGCTAGCAGCCGCCCGGCACGTCGCTACCCTGAGGGGCGGGGCGGGAGCTGGCGCTAGAAATGCGCCGGGGCCTGCGGGGCAGTTGCGCAAGTTGTGATCGGGCCG

45、CTATAAGAGGGGCGGGCAGGCATGGAGCCCCGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGCGGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAA

46、CCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCAGTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGG

47、GGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG B. Building representations of binding sitesStep 4. Accessing Transfac databaseGo to TRANSFAC database Note: TRANSFAC is free for users from non-profit organizations but requires a registrationIn TR

48、ANSFAC 6.0: choose Search action Select the table of Factor Enter the factor name TBP (tata binding protein) Set Factor Name (FA) as searching field and submit the query Select (T00794): you will find a description of the factor in human (On the left) Find these fields: (BS) for binding sites, (MX)

49、for matrices Select one of the sites for inspection B-E, require a registration.Step 5. Building a model from a set of actual sitesThis is a collection of real TBP sites extracted from TRANSFAC. Observe the different characteristics and the conservation of the core Open the CLUSTALW webserver at EBI

50、 Paste the collection of 23 TBP sites Switch on the boxes: ALIGNMENT = fast COLOR ALIGNMENT = yes OUTPUT FORMAT = aln wo/numbers Press the Run button Open the WebLogo webserver Paste the CLUSTAL alignment into the corresponding box Activate DNA/RNA in the Sequence type box Submit the query (Create l

51、ogo) to obtain a representation for the collection of TBP sites as the following. Notice the highligthed core of the binding site (TATAAAA) Figure 2. Graphical representation of the alignment of 23 real TATA binding sitesStep 6. Obtaining the TRANSFAC position weight matricesGo to TRANSFAC database

52、In TRANSFAC 6.0: choose Search action Select the table of Matrix Enter the factor name TATA Set Factor Name (FA) as searching field and submit the query There are two entries: M00252 and M00216 Select M00252 matrix Repeat the procedure to recover the SP1 (M00008) and c/EBP (M00159) matrices Conserve

53、 the windows containing the three matrices Alternative solution: PROMO is a database of pre-computed matrices that allows you to select the species or group of species from which a new weight matrix will be constructed for a given factor, using TRANSFAC binding sites. C. Computational prediction of

54、regulatory elements (binding sites)Step 7. Searching for the annotated regulatory elements with current matricesOpen RSA tools webserver On the left frame, click on Pattern matching - patser (matrices) Paste the Human obese protein gene promoter (1000 bps)Select transfac as Matrix Format and paste t

55、he Transfac TATA matrix (including matrix header) Set Origin to start (of the sequence) and press GO Check the results: one of these two putative TATA sites is the real one (use the annotations) To obtain a graphical representation of predictions, press feature map Set as Display limits from 0 to 10

56、00 and press GO Repeat the procedure using the SP1 and cEBP matrices, trying to find the real sites into the predictions. Notice the amount of false positives predicted only using one matrixStep 8. Ab initio promoter predictionGo to TRANSFAC applications Choose the program Match to scan promoter seq

57、uences searching for sites using the complete library of TRANSFAC matrices Paste the Human obese protein gene promoter in the text area Set cut-offs: 0.75 (matrix similarity) and 0.85 (core similarity) Submit the query Find the real annotations (e.g. TBP and CEBP) in this text output. Notice the hug

58、e number of false positive predictions Figure 3. Graphical representation of predicted binding sites using MATCH + TRANSFAC in the promoter sequence U43589 (all of the predictions are not shown)D. Comparative promoter prediction (human/mouse)Step 9. Human-Mouse comparisonsWe have obtained the homolo

59、gous gene promoter (FASTA, 1000 bps upstream the TSS) in mouse Entry: U36238 Now, these are the annotations (promoter elements) in both sequences (human and mouse) This is a graphical comparison of both promoter annotations. Observe the phylogenetic footprinting or conservation in the regulatory ele

60、mentsStep 10. Locating short conserved regulatory elements Connect to Blast 2 Sequences web server Paste both sequences human promoter and mouse promoter in the corresponding text boxes To detect short conserved stretches of DNA, set the following parameters: Mismatch = -5 Gap extension = 0 Notice t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論