版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、102生物信息學資料生物信息學102緒論 1.HGP 通過國際合作,用15年時間(19902005)至少投入30億美元,構(gòu)建詳細的人類基因組遺傳圖和物理圖 ,確定人類DNA的全部核苷酸序列,定位約2.5萬基因,并對其它生物進行類似研究。2. 我國自主產(chǎn)權(quán)的全基因組測序計劃水稻 (2002) 家雞 (2004) 家蠶 (2004) 家豬 (2012) 大熊貓 (2009)3.生物信息學的概念 采用信息科學技術(shù),借助數(shù)學、生物學的理論、方法,對各種生物信息(包括核酸、蛋白質(zhì)等)的收集、加工、儲存、分析、解釋的一門學科。收集、加工、儲存:計算機科學家分析、解釋:生物學家4.生物信息學的發(fā)展歷史20世
2、紀50年代,生物信息學開始孕育20世紀60年代,生物分子信息在概念上將計算 生物學和計算機科學聯(lián)系起來20世紀70年代,生物信息學的真正開端(序列比對算法)20世紀80年代初期,生物信息分析方法的發(fā)展20世紀80年代以后,生物信息服務(wù)機構(gòu)和數(shù)據(jù)庫20世紀90年代后 ,HGP促進生物信息學的迅速發(fā)展1956: 美國田納西州首次召開了“生物學中的理論研討會”;1962: Zucherkandl和Pauling研究了序列變化與進化的關(guān)系,開創(chuàng)了一個新的領(lǐng)域分子進化;1967: Dayhoff研制出蛋白質(zhì)序列圖集,即后來著名的蛋白質(zhì)信息源PIR;1970: Needleman和Wunsch提出了著名的
3、序列比對算法,是生物信息學發(fā)展中最重要的貢獻;1970: Gibbs和McIntyre發(fā)表著名的矩陣打點做圖法;1978: Gingeras等人研制了核酸序列中酶切位點識別程序;1981: Smith和Waterman提出了著名的公共子序列識別算法,同年Doolittle提出了關(guān)于序列模式的概念;1982: GenBank第3版本正式發(fā)行;1983: Wilbur和Lipman發(fā)表了數(shù)據(jù)庫相似序列搜索算法;1986: 日本核酸序列數(shù)據(jù)庫DDBJ誕生;1986: 蛋白質(zhì)數(shù)據(jù)庫SWISS-PROT誕生;1988: 美國國家生物技術(shù)信息中心NCBI誕生;1988: 成立歐洲分子生物學網(wǎng)絡(luò)(EMBNe
4、t),EMBL數(shù)據(jù)庫誕生;1988: Person和Lipman發(fā)表了著名的序列比較算法FASTA;1990: 快速相似性序列搜索算法BLAST問世,1987年BLAST的改進版本PSI-BLAST投入使用1996: Affymetrix生產(chǎn)出第1塊DNA芯片。5.生物信息學主要研究內(nèi)容1) 生物分子數(shù)據(jù)的收集與管理2) 數(shù)據(jù)庫搜索及序列比較 3) 基因組序列分析 4) 基因表達數(shù)據(jù)的分析與處理 5) 蛋白質(zhì)結(jié)構(gòu)預(yù)測 6.生物信息學概念廣義:概念(狹義):生物分子信息的獲取、存貯、分析和利用7. 生物信息學主要研究兩種信息載體n 核酸分子n 蛋白質(zhì)分子8.生物分子數(shù)據(jù)及其關(guān)系8.第一部遺傳密碼
5、已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少對于第二部密碼,目前則只能用統(tǒng)計學的方法進行分析無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。9.生物分子數(shù)據(jù)類型10.生物分子信息的特征生物分子信息數(shù)據(jù)量大 生物分子信息復(fù)雜 生物分子信息之間存在著密切的聯(lián)系11. 生物分子數(shù)據(jù)的收集與管理12.13.數(shù)據(jù)庫搜索及序列比較 l 搜索同源序列在一定程度上就是通過序列比較尋找相似序列(Blast搜索工具)l 序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進行對比
6、排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述l 多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進化關(guān)系。 14.基因組序列分析 l 遺傳語言分析天書 l 基因組結(jié)構(gòu)分析l 基因識別l 基因功能注釋l 基因調(diào)控信息分析l 基因組比較15.基因表達數(shù)據(jù)的分析與處理l 基因表達數(shù)據(jù)分析是目前生物信息學研究的熱點和重點 l 目前對基因表達數(shù)據(jù)的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能 16.蛋白質(zhì)結(jié)構(gòu)預(yù)測 l 蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定 ,蛋白質(zhì)結(jié)構(gòu)預(yù)測
7、成為了解蛋白質(zhì)功能的重要途徑l 蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測 17. 復(fù)雜結(jié)構(gòu)分析:X射線晶體結(jié)構(gòu)分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(gòu)(電子晶體學,EC)等物理方法18. 生物信息學當前的主要任務(wù)l 基因組l 轉(zhuǎn)錄組l 蛋白質(zhì)組l 蛋白質(zhì)結(jié)構(gòu)l 藥物設(shè)計19. 生物信息學研究意義n 認識生物本質(zhì)n 了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系n 改變生物學的研究方式 n 改變傳統(tǒng)研究方式,引進現(xiàn)代信息學方法n 在醫(yī)學上的重要意義n 為疾病的診斷和治療提供依據(jù)n 為設(shè)計新藥提供依據(jù)第三章 生物信息學數(shù)據(jù)庫資源-數(shù)據(jù)庫查詢GenB
8、ank:/PubMed:/pubmed/1. PubMed的特點 收錄的文獻多!大部分生命科學相關(guān) 自動詞語匹配 鏈接點多,部分在網(wǎng)上免費獲得全文 也可以直接定購原文2檢索規(guī)則3.復(fù)雜檢索1. 限制字段類別 常用的有: author: Bao YMau Title: stressti Tilte/Abstract: stresstitle/abstract date: 1999:2009dp2. 2布爾邏輯運算:AND、OR、NOT必須大寫。邏輯符的運算次序是從左至右,括號內(nèi)的檢索式可作為
9、一個單元,優(yōu)先運行。布爾邏輯檢索允許在檢索詞后面附加字段標識例如:riceti AND Bao YMau AND 2008:2009dp4. 如何查找由Zhu J實驗室于2005以后發(fā)表的, 與水稻有關(guān)的文獻.(1)在PubMed頁面上選擇Advanced Search:5. 如何獲取GenBank中的序列?同樣存在限制字段:常用的有: Author: Bao YMau title: SNAREti organism: riceorganism或者直接輸入: Accession: AY077725Accession Gene Name: ZFP15Gene Name Protein Name:
10、 ZFP15Protein Name如: Bao YMau AND SNAREti AND riceorganism如果沒有限定,就是任意字段。6. 從小鼠中查找Bao實驗室發(fā)布的p53蛋白相關(guān)的DNA序列.直接錄入注冊號查詢:7. 查找蛋白質(zhì)序列:8. 查找EST序列:9. 查找Structure:查找UnigeneUniGene 是非冗余的某個基因的集合,包含了該基因所有的經(jīng)過實驗證明的轉(zhuǎn)錄本及其表達信息第四章 DNA與蛋白質(zhì)序列分析什么是序列分析? 拿到一個基因/蛋白質(zhì)序列,我能做什么?序列分析的內(nèi)容 -為了功能的分析在數(shù)據(jù)庫中進行序列相似性搜索基因結(jié)構(gòu)分析/啟動子序列分析Motif的尋
11、找與序列的模式識別(含亞細胞定位,跨膜區(qū)的預(yù)測等)第1節(jié) 序列比對序列的相似性相似性(similarity) 是指一種很直接的數(shù)量關(guān)系。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。通常在某些位點上有一些氨基酸被另外一些化學物理特性相近的氨基酸所代替,這種突變可稱為保守突變。將保守突變的因素考慮在內(nèi),就可以對兩序列的相似程度打分,所得分值即代表其相似的程度。一致性(identity): 兩個蛋白質(zhì)有一定數(shù)量的氨基酸在排比的位點上是相同的,即如果38個氨基酸的蛋白質(zhì)中15個位點相同,我們說它們一致性為39.4%.所以,相似性的數(shù)值一定比一致性的要( )大 or 相等 or
12、小同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80都是不科學的。相似性和同源性關(guān)系一般來說,序列間的相似性越高的話,它們是同源序列的可能性就更高。注意不要等價混用這兩個名詞。A序列和B序列的同源性為80,記住這種說法是錯誤的!序列相似性比較和序列同源性分所以,我們說,序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有B
13、LAST等;序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間是否存在同源關(guān)系。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;序列比較的基本操作是比對(Alignment)兩個序列的比對是指這兩個序列中各個字符的一種一一對應(yīng)關(guān)系,或字符的對比排列 。設(shè)有兩個序列:GACGGATTAG,GATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAGAlignment2: GA CGGATTAGGATCGGAATAG編輯距離(Edit Distance)GCATGACGAATCAG
14、TATGACAAACAGCGCATGACGAATCAG TATGAC-AAACAGC說明兩條序列的相似程度 定量計算兩條序列的相似程度的定量計算相似度,它是兩個序列的函數(shù),其值越大,表示兩個序列越相似 兩個序列之間的距離。距離越大,則兩個序列的相似度就越小 字符編輯操作(Edit Operation)字符編輯操作可將一個序列轉(zhuǎn)化為一個新序列 Match(a,a)Delete(a,-) Replace(a,b)Insert(-,b)進行序列比較的方法1通過點矩陣進行序列比較“矩陣作圖法” 或 “對角線作圖” 滑動窗口技術(shù)兩條序列中有很多匹配的字符對,因而在點矩陣中會形成很多點標記?;瑒哟翱诩夹g(shù)
15、使用滑動窗口代替一次一個位點的比較是解決這個問題的有效方法。 假設(shè)窗口大小為10,相似度閾值為8,則每次比較取10個連續(xù)的字符,如相同的字符超過8個,則標記 基于滑動窗口的點矩陣方法可以明顯地降低點陣圖的噪聲,并且明確無誤的指示出了兩條序列間具有顯著相似性的區(qū)域。(a)對人類(Homo sapiens)與黑猩猩(Pongo pygmaeus)的球蛋白基因序列進行比較的完整點陣圖。(b)利用滑動窗口對以上的兩種球蛋白基因序列進行比較的點陣圖,其中窗口大小為10個核苷酸,相似 度閾值為8。 進行序列比較的方法2最長公共子序列問題(Longest common subsequence, LCS)問題
16、描述:給定兩個序列P, Q,當一個序列R既是P由是Q的子序列時,為P和Q的公共子序列。如P=“ABCBDAB”, Q=“BDCABA”則BCA為P與Q的一個公共子序列,但是BCBA也是公共子序列,而且是最長公共子序列。因此,關(guān)鍵是尋找最長公共子序列。 AB- C- BDAB BDCAB- A* * * *不同編輯操作的代價不同為編輯操作定義函數(shù)w,它表示“代價(cost)”或“權(quán)重(weight)”。對字母表A中的任意字符a、b,定義 w (a, a) = 0 w (a, b) = 1 a不等于 bw (a, -) = w ( -, b) = 1依據(jù),配對得0分,不匹配扣1分。 也可以使用得分
17、(score)函數(shù)來評價編輯操作 p (a, a) = 1 p (a, b) = 0 a b p (a, -) = p ( -, b) = -1空位罰分。 依據(jù),配對得1分,不匹配不得分,插入1個gap扣1分。例如:s:AGCACAC-At:A-CACACTA cost=2 s:AGCACAC-A t:A-CACACTA score (s,t)= 5序列比對的目的是尋找一個得分最大(或代價最?。┑谋葘?。s:AGCACAC-AAG-CACACA t:A-CACACTAACACACT-A(A) (B)對于(A), score=7-2=5對于(B), score=5-2=3序列比對的目的是尋找一個得
18、分最大(或代價最小)的比對。Questions: CAAGCAC-AGGCA CAA- GCAC-AGGCA t: CAA-CACTAGGCA C-AA -CACTAGGCA(A) (B)1.這兩個序列的cost和score值分別為多少?2.在序列比對運算時最終結(jié)果是哪種運算方式?給定一個DNA打分矩陣:ATCGA1-1-1-1T-11-1-1C-1-11-1G-1-1-11假設(shè)空位罰分為2, 按照以上的打分矩陣,對于下列對齊方案的記分值為多少?GCGACTCG CTTGACT-AGATAGAGACG CT-ACTGTGA * * * * *序列比較的方法有哪些?第2節(jié) Blast的應(yīng)用BLA
19、ST 是基于序列相似性的數(shù)據(jù)庫搜索程序。 BLAST是“局部相似性基本查詢工具” (Basic Local Alignment Search Tool)的縮寫。Blast程序評價序列相似性的兩個數(shù)據(jù)Score:使用打分矩陣對匹配的片段進行打分求和的結(jié)果,一般來說,匹配片段越長、 相似性越高則Score值越大。E value: 氨基酸殘基(或堿基)隨機排列得到上述Score值的概率的大小。E值越小表示越匹配。E=0表示完全配對,不存在隨機配對。BLAST檢索中采用的數(shù)據(jù)庫類別:蛋白數(shù)據(jù)庫: nr: 無冗余數(shù)據(jù)庫,匯集了GenBank中所有的蛋白序列+PDB+Swissprot+PIR等匯集;核酸
20、數(shù)據(jù)庫: nr/nt: 無冗余數(shù)據(jù)庫,匯集了GenBank+DDBJ+EMBL中所有的核甘酸序列(不包括EST)具體步驟1.登陸blast主頁 /BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果Blastn1的作用:對于已知的基因,可以分析其相似基因;對于未知的基因片段,可以分析其屬于什么基因。有什么作用?對于新基因,可以了解基因的結(jié)構(gòu)特征, 5-UTR和3-UTR 的大小. Blastp的作用:對于已知的蛋白,可以分析其相似蛋白;對于未知的蛋白片段,可以分析其屬于什么蛋白。Blastx: 分析你的基
21、因編碼什么產(chǎn)物? 分析你的基因是否是新基因?tBLASTn的作用:1已知一種蛋白序列,在另一物種中進行其同源蛋白基因的電子克隆(in silico cloning);2尋找一個新的蛋白質(zhì)序列(如雙向電泳得到的)是否已有核酸序列,是否可以克隆。1. 我剛剛分離一個水稻基因片段序列,大概250bp,我想初步分析一下它是什么基因,編碼什么產(chǎn)物以及是否已經(jīng)被別人克隆,應(yīng)該采用什么工具和數(shù)據(jù)庫?A.Blastn B.Blastp C.tblastn, D.tblastx, E. blastx F. nr G. EST H. nr/nt第三節(jié) 序列功能分析序列分析的目的是什么?為了功能分析拿到一個基因/蛋
22、白質(zhì)序列我能做什么?序列的組成/分子量/等電點分析BioEditBioEdit是一個序列編輯器與分析工具軟件。功能包括:序列編輯、外掛分析程序、RNA分析、尋找特征序列、支持超過20000個序列的多序列文件、基本序列處理功能、質(zhì)粒圖繪制等等1)基因結(jié)構(gòu)分析: 了解基因的內(nèi)含子/外顯子排列方式;例子1: 水稻6PGDH基因進化分析的結(jié)果表明其可能來源于內(nèi)共生(基因結(jié)構(gòu)分析表明其沒有內(nèi)含子). 例子2:NHX基因1)基因結(jié)構(gòu)分析: 用softberry預(yù)測基因結(jié)構(gòu) http:/www.bio-什么是HMM?Hidden Markov Models (HMMs, 隱馬爾可夫模型) 最早是在上個世紀6
23、0年代末70年代初提出來的一種概率論模型。進入80年代以后,逐漸被利用在各個領(lǐng)域。主要的應(yīng)用領(lǐng)域:語音識別系統(tǒng)。生物學中的DNA/protein序列的分析。機器人的控制。文本文件的信息提取。什么是HMM對于給定的核苷酸序列,我們在位置p處出現(xiàn)的概率依賴于它后核苷酸序列。即任何一個核苷酸的出現(xiàn)并不是完全獨立的。對于基因識別而言,HMM可以分為2種:1按內(nèi)容搜索:即根據(jù)核苷酸和密碼子在編碼區(qū)內(nèi)的分布規(guī)律來確定蛋白質(zhì)的編碼區(qū);2按信號搜索:即通過分析編碼區(qū)周圍的信號(啟動子終止子各種cis-element等來確定蛋白質(zhì)的編碼區(qū)。大家只要知道HMM是目前生物信息學中應(yīng)用非常廣泛的概率論模型,廣泛應(yīng)用于
24、基因識別,其基本原理基于任何一個序列的出現(xiàn)都不是獨立的。例子: 用softberry預(yù)測基因結(jié)構(gòu)2)啟動子序列分析: 什么是啟動子?啟動子序列,一般在TSS之前2000bp,了解哪個位點是TSS,哪個是起始ATG? TATA TSS ATG所以,我們必須得到TSS的位置.如何通過生物信息學方法確定TSS? 首先截取包括ATG之前3000bp和基因的序列采用以下兩種方法 1)軟件預(yù)測,如Softberry; 2)搜索EST數(shù)據(jù)庫;分析的目的: 2)首先找到ATG前面約3000: 如何通過生物信息學方法確定TSS? 以AF486280為例.首先要找到包含AF486280的基因組序列.首先截取ATG
25、之前3000bp序列以AF486280為例.首先要找到包含AF486280的基因組序列. 方法一: 用softberry預(yù)測.方法二: 用Fruitfly網(wǎng)站的promoter預(yù)測程序預(yù)測.序列功能分析的內(nèi)容序列組成/分子量/等電點-初級分析酶切位點分析(載體構(gòu)建)基因結(jié)構(gòu)分析/啟動子序列分析回顧和討論:什么是HMM?如何進行基因結(jié)構(gòu)的預(yù)測?Promoter的位置在哪里?什么是TSS, 為什么要預(yù)測TSS?預(yù)測TSS有哪些方法?以下哪些是RefSeq中mRNA【或蛋白質(zhì)】條目的索引號碼?(a)J01536;(b)NM_15392(c)NP_52280(d)AAB134506序列比對序列比對基本
26、概念、打分矩陣與算法1,序列比對的概念:序列比對是生物信息學中最基本的操作序列比對可以用來預(yù)測兩條序列(基因或者蛋白)是否具有相似的結(jié)構(gòu)或者功能。通過分析許多DNA和蛋白質(zhì)序列,我們有可能確定一群分子之間共享的結(jié)構(gòu)域(domain)或模體(motif)。當更多的基因組被測序,尋找物種內(nèi)和物種間蛋白質(zhì)的相關(guān)性對于我們理解生命來說變得越來越重要。雙序列比對是BLAST(搜索數(shù)據(jù)庫)的基礎(chǔ)。其他很多基因組的分析都基于雙序列比對。蛋白質(zhì)序列比對包含更多的信息1蛋白質(zhì)包含更多的信息(20 vs 4 characters); 許多氨基酸有相近的理化性質(zhì)。2密碼子具有簡并性質(zhì)( degenerate )密碼
27、子第三位改變而氨基酸不改變。3蛋白序列可回溯更久遠的祖先。4 DNA序列可以翻譯成蛋白質(zhì)序列再比對。Lipocalin蛋白質(zhì)家族的兩個蛋白1.retinol-binding protein 4視黃醇結(jié)合蛋白(NP_006735)2.b-lactoglobulinb-乳球蛋白(P02754)兩個相似的蛋白,它們有非常相似的三維結(jié)構(gòu),包括一配體的結(jié)合口袋和八個反平行的貝塔鏈組成的貝塔片層。但是,兩個蛋白質(zhì)氨基酸序列的雙序列比對表明它們只有非常有限的氨基酸一致性。DNA比對當然,有些場合需要進行DNA比對:分析克隆的cDNA片段的一致性的時候分析基因的非編碼區(qū)的時候研究DNA的多態(tài)性的時候檢驗輸入D
28、NA序列是否正確2,生物序列之間的關(guān)系雙序列比對( Pairwise alignment ):兩行排列兩條序列,以獲得最大的一致性(對于氨基酸而言是保守性),目的是可以評估兩條序列的相似程度和同源性。定義 同源性(Homology):如果兩條序列有一個共同的進化祖先,那么它們是同源的。直系同源(Ortholog ):不同物種間的具有共同進化祖先的同源序列,可以沒有共同的功能。旁系同源(Paralog ):同一物種內(nèi)通過基因復(fù)制產(chǎn)生的同源序列。相似度(Similarity)The extent to which nucleotide or protein sequences are relate
29、d. It is based upon identity plus conservation。一致性(Identity)The extent to which two sequences are invariant。保守性(Conservation) Changes at a specific position of an amino acid or (less commonly, DNA) sequence that preserve the physico-chemical properties of the original residue.空位:如果某個位置是一個字符不匹配別的字符就叫
30、一個Gap。 空位的得分一般是負分(罰分)。一次突變可能引發(fā)多個殘基的插入或者刪除,所以,空位的引入比空位的長度顯得更加注目。比對的最基本概念字符串:由一些字母組成的一維數(shù)組。字母表(alphabet),核酸序列(DNA序列)的字母表為ATGC,再加一個gap(-)。字符串長度:AT-GGCC的長度為7。子串(substring)或【子序列subsequence (可以非連續(xù))】:原序列中任意連續(xù)的一段序列,包括0長度和全長的序列。隨機序列:每個位置出現(xiàn)ATGC中任何一個字符的概率都是1/4。也就沒有什么生物學方面的意義。非隨機序列也就是有生物學意義的序列。gap空位。距離:兩序列之間差異程度
31、的一個量化數(shù)字,如兩個序列完全相同則距離為0。記分矩陣(scoring matrix)。全局比對:序列全長進行比對,尋找一個最佳的配對。局部比對:子序列比對,只需要尋找局部的最佳匹配。比對的統(tǒng)計顯著性E值。Raw Score和Bit score:比對得分。Algorithm算法。一個ORF就是一個潛在的蛋白質(zhì)編碼區(qū)六種翻譯方式同源性與相似性的異同相似度(Similarity)The extent to which nucleotide or protein sequences are related. It is based upon identity plus conservation。同源
32、性(Homology):如果兩條序列有一個共同的進化祖先,那么它們是同源的。二、序列比對的得分系統(tǒng):序列比對的一般方法選擇兩條序列選擇一個算法,通過該算法進行序列比對并對比對打分。允許空位(插入或者刪除)得分反應(yīng)兩條序列的相似程度可以是全局比對,也可以是局部比對 估計比對是隨機產(chǎn)生的概率。二、序列比對的得分系統(tǒng)1,核酸的得分矩陣(Weight Matrices)核酸打分矩陣設(shè)DNA序列所用的字母表為 = A,C,G,T 比對需要一個量化的分數(shù)。1,核酸的得分矩陣(Weight Matrices)a. 等價矩陣ATCGA1000T0100C0O10G0001AGTCGAAATCGT4b. BLA
33、ST矩陣ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45AGTCGAAATCGT ?c. 轉(zhuǎn)換顛換矩陣(transition,transversion) (嘌呤:腺嘌呤A,鳥嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)AGTCGAAATCGT ?2,蛋白質(zhì)打分矩陣i)等價矩陣(ii) 氨基酸突變代價矩陣GCM (iii)疏水矩陣 (iv)PAM矩陣(Point Accepted Mutation)(v) BLOSUM矩陣(Blocks Amino Acid Substitution Matrices)PAM矩陣PAM(Point Accepted Matrix)矩陣叫做可接受點
34、突變矩陣,基于氨基酸進化的點突變模型,即如果兩種氨基酸替換頻繁,說明自然界易接受這種替換,那么這對氨基酸替換得分就應(yīng)該高。PAM矩陣是目前蛋白質(zhì)序列比對中最廣泛使用的計分方法之一,基礎(chǔ)的PAM1矩陣反映的是進化產(chǎn)生的每百個氨基酸平均發(fā)生一個突變的量值。PAM1自乘n次得到PAMn,比較常用的是PAM70,PAM90。針對不同的進化距離采用PAM 矩陣序列相似度 = 40% 50% 60% 打分矩陣 = PAM120 PAM80 PAM 60PAM250 14% - 27%人RBP4蛋白質(zhì)序列:NP_006735牛-乳球蛋白序列:P02754三、點陣法與動態(tài)規(guī)劃法比對兩條序列兩條序列的比對常見有
35、三種方法:點陣法,動態(tài)規(guī)劃法,詞或k串法(BLAST或FASTA中采用)。點陣法:如果兩條序列相似度不是很高,因為點陣法能將所有可能的比對結(jié)果用該矩陣的(次)對角線表現(xiàn)出來。點陣法還能顯示插入/缺失及序列內(nèi)部正向和反向重復(fù)的存在,這是其它比對方法很難做到的。這種方法的局限在于大部分的點陣分析程序無法給出一個真正的比對結(jié)果。動態(tài)規(guī)劃法:首先由計算機科學家提出來的一種算法,它從數(shù)學意義上保證結(jié)果是最優(yōu)的。詞或k串法:通過搜索序列間完全相同的一短串字符,然后通過動態(tài)規(guī)劃法把這些詞語連接成比對結(jié)果。這類方法的優(yōu)點是速度快,適合搜索整個數(shù)據(jù)庫,尋找與待查序列比對結(jié)果最好的序列,得到比對結(jié)果在統(tǒng)計上是可靠
36、的。點陣法點陣法是最基本的,也是很重要的一種可視化序列比對方法。 “矩陣作圖法” 或 “對角線作圖” 。首先建立一個矩陣,兩條序列的長度分別為矩陣的行數(shù)和列數(shù),一條序列置于矩陣的頂部,一條序列置于矩陣的左側(cè)。把具有相同字符的單元做標記?;瑒哟翱诩夹g(shù)1由于序列可能很長,而字符只有4個(核酸),所以會有很多隨機性的沒有生物學意義的相似性,這些是比對中的噪聲。2使用滑動窗口代替一次一個位點的比較是解決噪聲問題的有效方法。3 假設(shè)窗口大小為10,相似度閾值為8,則每次比較取10個連續(xù)的字符,如相同的字符超過8個,則標記。4 基于滑動窗口的點矩陣方法可以明顯地降低點陣圖的噪聲,并且明確無誤的指示出了兩條
37、序列間具有顯著相似性的區(qū)域?;瑒哟翱诘倪^濾不連續(xù)的匹配可能是噪聲,需要用滑動窗口過濾,滑動窗口有兩個參數(shù),一是窗口大小,二是閾值,也就是不匹配的字符個數(shù)。例如我們這個例子由于字符個數(shù)很少,用(3,0)的參數(shù)。動窗口是這樣使用的:從(1,1)位置出發(fā),將序列1的13個字符與序列2的13個字符比較,如果都相同,則在(1,1)位置處做標記,一直到完成整個表。例如上表中的(1,5)位置做了標記,是因為序列1的13個元素和序列2的57個元素是相同的。(a)對人類(Homo sapiens)與黑猩猩(Pongo pygmaeus)的球蛋白基因序列進行比較的完整點陣圖。(b)利用滑動窗口對以上的兩種球蛋白基
38、因序列進行比較的點陣圖,其中窗口大小為10個核苷酸,相似度閾值為8。對角線上的元素如果兩個序列完全相同,則對角線上每個位置都會出現(xiàn)標記其它位置的元素其它位置如果出現(xiàn)連續(xù)的相同字符,同樣可以在表中體現(xiàn)出來。點陣圖可以很直觀的發(fā)現(xiàn)兩條序列所有可能的匹配,這些匹配可能是某種功能域。也可用于尋找蛋白質(zhì)或者DNA內(nèi)部的重復(fù)或者反向重復(fù)區(qū)域反向重復(fù)序列點陣圖的一個例子 1 AAGGTCAGGAACAAAGAAACAGCTGAATACCAAACAGGATATCTGTGGTAAGCGGTTCCT 61 GCCCCGGCTCAGGGCCAAGAACAGATGAGACAGCTGAGTGATGGGCCAAACAGG
39、ATATCT 121 GTGGTAAGCAGTTCCTGCCCCGGCTCGGGGCCAAGAACAGATGGTCCCCAGATGCGGTCC課堂練習GGGATCACGTATGCATTAGCATACATCACGCGCCGCGTGATGTATGCTAATGCATACGTGATCCC第二條序列是第一條序列的反向互補序列,通過點陣圖分析尋找序列可能的發(fā)夾狀結(jié)構(gòu)。思考:點陣法為什么可以發(fā)現(xiàn)RNA序列的發(fā)夾狀結(jié)構(gòu)?作業(yè):點陣法中窗口過濾技術(shù)的方法和意義。海龜和鳥類中哪個與鱷魚的相關(guān)性比較接近?首先,嘗試用PubMed尋找答案,然后選擇一個基因或者蛋白,使用BLAST2 Sequences比對。河馬與豬、
40、鯨魚中誰的相關(guān)性更近?為回答這個問題,首先從每種生物中尋找血紅蛋白(hemoglobin)序列,然后進行雙序列比對,記錄氨基酸一致性百分比。假如你有兩條遠相關(guān)的蛋白,為了比較它們,最好使用下列哪個記分矩陣( )A. BLOSUM45或PAM250B. BLOSUM45或PAM1 C. BLOSUM80或PAM250 D. BLOSUM10或PAM1雙序列比對的動態(tài)規(guī)劃算法進行雙序列比對最直接的方法是生成兩序列的所有可能的比對,分別計算得分,然后挑選一個得分最高的比對作為最終結(jié)果。但可能的比對是序列長度的指數(shù)函數(shù)。Needleman-Wunsch算法N-W算法是一種全局比對動態(tài)規(guī)劃算法,于197
41、0年被提出,得到了非常廣泛的應(yīng)用。首先假設(shè)我們要對兩條序列V和W進行比對,它們的長度分別為M和N,動態(tài)規(guī)劃算法由3部分組成:1)最優(yōu)化的遞歸計算方法; 2)給出子問題最優(yōu)解的矩陣填充過程和3)尋找最優(yōu)化比對路徑的回溯方法。序列W: AAGGTCAGGAA 序列W前5個字符的前綴字串 W4=G AAGGT用來存儲子問題的最優(yōu)化動態(tài)規(guī)劃矩陣1)最優(yōu)化的遞歸計算方法兩條長i和j的序列V和W比對結(jié)束的方式有3種,兩個字符vi和wj出現(xiàn)在同一列中; vi與一個空位出現(xiàn)在同一列中;或者wj與一個空位gap出現(xiàn)同一列中。采用簡單打分系統(tǒng)為了量化,我們必須對各種配對情況給一個分數(shù)。4 -3 -4匹配得4分,不
42、匹配得3分,空隙得4分,或者用前面講過的計分矩陣。1)最優(yōu)化的遞歸計算方法假設(shè)我們已經(jīng)得到了幾個子問題的最優(yōu)比對,分別是V序列長i-1的前綴和W序列長j-1的前綴的最優(yōu)比對,V序列長i的前綴和W序列長j-1的前綴的最優(yōu)比對,V序列長i-1的前綴和W序列長j的前綴的最優(yōu)比對,那么對于V序列長i的前綴和W序列長j的前綴的最優(yōu)比對能否簡單的(例如線性關(guān)系式)得到呢?1)最優(yōu)化的遞歸計算方法3)矩陣回溯以尋找最有比對路徑一旦整個矩陣填充完畢,就可以得到最優(yōu)比對得分,即矩陣中最后一個得分,要找出最優(yōu)比對方式,我們還需要對整個矩陣進行回溯。從矩陣的最后一個單元(M,N)開始,根據(jù)填充記錄的路徑,直到回溯到
43、第一個單元(0,0)。根據(jù)回溯路徑,就得到了兩條序列的最優(yōu)比對結(jié)果。作業(yè)找出例題中其它的最佳比對結(jié)果(總共4個比對,還有2個)。用動態(tài)規(guī)劃法找出兩序列的所有最佳比對,要求寫出詳細過程。打分矩陣采用(4,3,4,即匹配得4分,不匹配得3分,空位得4分。序列1:AAAG,序列2:ACG ??偨Y(jié)動態(tài)規(guī)劃算法是一種高效的給出最優(yōu)比對的算法。它的基本思想就是將待解決問題分成若干個子問題,先求解子問題,并存儲子問題的解而避免重復(fù)計算,然后從這些子問題的解得到原問題的解。動態(tài)規(guī)劃算法能保證在給定得分系統(tǒng)下產(chǎn)生最優(yōu)的比對結(jié)果(optimal alignment)。但是這種方法對參數(shù)非常敏感,記分系統(tǒng)參數(shù)的選擇
44、在很大程度上決定著比對的結(jié)果。最優(yōu)比對結(jié)果往往不止一個,次優(yōu)結(jié)果也有可能更具有生物學意義,最優(yōu)只是數(shù)學上的概念,而且是跟記分系統(tǒng)參數(shù)相關(guān)的。了解:其他比對算法1多重序列的加權(quán)平均序列2隱Markov模型比對第五章 基因組與系統(tǒng)發(fā)育分析1.系統(tǒng)發(fā)育學說 建立分類系統(tǒng)和確定親緣關(guān)系的理論 在和分類學層次上出現(xiàn)了多種理論 傳統(tǒng)分類學派 支序分類學(cladistics) 數(shù)值分類學(numerical taxonomy) 綜合系統(tǒng)學(synthetic systematics)分類學:種的描述和命名. 分類學:將物種安排于包括低級和高級分類階元的自然系統(tǒng)內(nèi). 分類學:研究種內(nèi)居群的變異和演化及種下階
45、元問題的分類學(1)傳統(tǒng)分類學派 該派雖然支持進化論 也努力尋求系統(tǒng)發(fā)育關(guān)系 但又認為難于重建全面反映進化實際的系統(tǒng)關(guān)系 常依研究者個人的經(jīng)驗和體會進行歸類 缺少統(tǒng)一的準則和方法 在學術(shù)上持這一觀點的分類學者已日漸稀少(2)支序分類學(cladistics) 認為最能體現(xiàn)系統(tǒng)發(fā)育關(guān)系的依據(jù)是分類單元之間的親緣關(guān)系 而反映血緣關(guān)系的最確切辦法是共同祖先的相對近度 主張以共同祖先的相對近度作為衡量類群間親緣關(guān)系的唯一標準,而相對近度的確定需要通過對特征的分析進行推知 這一學派因具有嚴謹?shù)倪壿嫽A(chǔ)和研究方法,受到不少系統(tǒng)學家,特別是年輕一代的熱烈擁護 參考文獻: Cladistics(1998,2n
46、d ed) (3)數(shù)值分類學(numerical taxonomy) 是根據(jù)性狀狀態(tài)而用數(shù)值方法將生物的分類單位歸成類元的一種方法 該學派認為: 真正的系統(tǒng)發(fā)育關(guān)系是無法重建的。 人們只能基于生物表現(xiàn)型性狀的總體相似性去對生物進行歸類和編級 由于性狀的相似反映了共同基因,所有性狀具有同等的重要性 該學派將物種之間的親緣關(guān)系表達為相似性的數(shù)值指數(shù)(4) 綜合系統(tǒng)學(synthetic systematics) 也稱進化系統(tǒng)學(evolutionary systematics) 基本認同支序分類學派對特征的加權(quán)處理 但它運用 同源相似性比較 的特征分析方法,對生物進行等級分類 通過 分類等級 而不
47、是 分層次分類 的方法來反映生物的進化過程(5) Cladistics支序分類學的定義、原理和基本方法 Claclistics is a method of classification;Cladistics can be used to organize any comparative data (eg linguistics) but its greatest application has been in the field of biological systematics支序分類學(英語:Cladistics)又稱親緣分支分類學,是一種生物分類的哲學,其指只依據(jù)演化樹分支的順序,而不
48、參考形態(tài)上的相似性來排列物種。此一學派的主要貢獻者一般認為是德國昆蟲學家威利漢寧根,他稱此為種系發(fā)生系統(tǒng)學。became widely known to English speakers in 1965 and 1966 under the name phylogenetic systematics The aim of cladistics is to establish sister-group relationships Sister-groups are hypothesized through the analysis of character 此學派認為一個新單元的出現(xiàn),一定伴隨一
49、些新性狀的產(chǎn)生。 反之,某一新性狀的演變產(chǎn)生,可以代表新分類單元的出現(xiàn), 也即可以通過性狀分析來反映系統(tǒng)發(fā)育或種系發(fā)生的過程。 3、Types of character 在一個類群中,某些同源特征常在類群的進化過程中發(fā)生順序性變化。 這種特征演變的順序是claclistics確立類群系統(tǒng)發(fā)育的依據(jù)。 在一個同源特征序列中 新出現(xiàn)的特征稱為“衍征”或“派生特征”(apomorphic characters或derived characters)。更為近代的共同祖先因進化產(chǎn)生的性狀。( eg. 現(xiàn)代馬的單趾 原有的特征稱為“祖征”或“原始特征” (plesiomorphic characters,
50、或ancestral characters)。一群生物的遠古祖先所具有的性狀稱為祖征。 ( eg. 脊椎動物的五指特征)n 趨同進化(convergent evolution)或平行演化(homoplasy),在種系的進化過程中出現(xiàn)相同的性狀。(eg. 蝙蝠和鳥類的翅膀) 而只為某一個支系所獨有的衍征稱為“獨征”或“自有新征”(autapomorphy)。 如某一特征存在于兩個以上的分類單元中,并且源于比最近的共祖更早的祖先,則此特征稱為“共同祖征”或“近祖共性(symplesiomorphy)。 如此特征源于最近共祖本身,則此特征稱為“共同衍征”或“近裔共性(Symapomorphy)。4、
51、特征序列的極性確定 一個特征序列中,怎么確定特征序列的極性(polarity)(或極向) 即那一端代表祖征狀態(tài),那一端代表衍征狀態(tài)呢? 一般可參考下列原則確定:1)化石順序 在地層系列中,祖征出現(xiàn)的時間總是早于衍征 2)外群比較(outgroup comparison) 根據(jù)共同衍征確定單系群的推演,即所謂”普通即原始”原則,與已知的姐妹群或其他鄰近群的同源特征系列比較。如某狀態(tài)為外群所共有,則為祖征;反之,即為該群所獨有,則應(yīng)視為衍征。3)類群系列對比 如所分析的同一分類單元的成員之間存在著幾組不同特征的演變系列(所謂“形態(tài)梯變” ) 例如一組特征為AAA”系列,另一組為BBB系列等,則常認為這些系列之間是相互相關(guān)的。 因此,如能確定其中某一個系列的極性,則其他系列的極性也可被推知。4)類群趨勢(group trends) 在一個的大類群中,常在許多亞群中多次出現(xiàn)一些共同的性狀演變趨向。 這種特點可作為確定平行系列極性的參考依據(jù)。5)個體發(fā)育證據(jù) 在一個單系群中,各特征的歷史發(fā)展或演變過程,常常在個體發(fā)育的時間順序上得到反映。歷史上出現(xiàn)較早的祖征常出現(xiàn)于個體發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初等教育的自主與合作學習考核試卷
- 智能農(nóng)業(yè)中的農(nóng)業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)考核試卷
- 農(nóng)藥制造與農(nóng)村新型經(jīng)營主體培育考核試卷
- 肉制品加工業(yè)的供應(yīng)與需求分析考核試卷
- 中國汽車隔音棉行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報告(2024-2030版)
- 中國殯葬市場差異化戰(zhàn)略與發(fā)展規(guī)模建議研究報告(2024-2030版)
- 中國機械離合器行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報告(2024-2030版)
- 中國成人用化妝品行業(yè)營銷狀況及競爭態(tài)勢分析研究報告(2024-2030版)
- 中國富馬酸依美斯汀行業(yè)發(fā)展形式及投資動態(tài)預(yù)測研究報告(2024-2030版)
- 中國嬰幼兒護理書籍行業(yè)市場前景分析及發(fā)展趨勢與投資戰(zhàn)略研究報告(2024-2030版)
- 高二上學期化學人教版(2019)選擇性必修1實驗計劃
- 六年級下冊音樂教案第六單元《畢業(yè)歌》人教新課標
- 世界咖啡介紹 PPT
- 中醫(yī)藥膳學全套課件
- 馬王堆出土文物藝術(shù)欣賞-課件
- 初中語文人教六年級下冊《專題閱讀:概括主要事件》PPT
- 13、停電停水等突發(fā)事件的應(yīng)急預(yù)案以及消防制度
- DB42T1811-2022西瓜設(shè)施育苗技術(shù)規(guī)程
- 早教托育園招商加盟商業(yè)計劃書
- 醫(yī)療HRP整體解決方案課件
- 分布式光伏安裝清包合同
評論
0/150
提交評論