計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用_第1頁(yè)
計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用_第2頁(yè)
計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用_第3頁(yè)
計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用_第4頁(yè)
計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩145頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章 計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用,DNA雙鏈模型,51 計(jì)算機(jī)在分子生物學(xué)中應(yīng)用的簡(jiǎn)介,分子生物學(xué)研究的對(duì)象往往是大規(guī)模的實(shí)驗(yàn)數(shù)據(jù),利用手工計(jì)算來(lái)處理這些數(shù)據(jù)顯然是力不從心. 例如越來(lái)越多的物種的基因組將基本上完全地測(cè)定。那種傾畢生精力研究一個(gè)基因、一條代謝途徑、一種生理周期的時(shí)代已經(jīng)過(guò)去,genbank數(shù)據(jù)增長(zhǎng)示意圖,那種傾畢生精力研究一個(gè)基因、一條代謝途徑、一種生理周期的時(shí)代已經(jīng)過(guò)去。人們正在闡明細(xì)胞內(nèi)的全部互相耦合的調(diào)控網(wǎng)絡(luò)和代謝網(wǎng)絡(luò),細(xì)胞間的全部信號(hào)傳導(dǎo)過(guò)程,從受精卵到成體的全部生理和病理的基因表達(dá)的變化等等。這一切都超出手工分析的可能性,數(shù)據(jù)的產(chǎn)生、搜集和分析,都必須依靠計(jì)算機(jī)和網(wǎng)

2、絡(luò),都必須發(fā)展數(shù)據(jù)庫(kù)、算法和程序,計(jì)算機(jī)科學(xué)的發(fā)展及其在生物學(xué)領(lǐng)域的應(yīng)用,已經(jīng)成為生物學(xué)發(fā)展和進(jìn)步過(guò)程中不可替代的重要力量。計(jì)算機(jī)在分子生物學(xué)發(fā)展中的作用是無(wú)可替代的,在分子生物學(xué)中,DNA、RNA和蛋白質(zhì)都是表現(xiàn)為特定的序列。不同生物的DNA或蛋白質(zhì)的相似性是多方面的,可能是核酸或氨基酸序列的相似性,也有可能是結(jié)構(gòu)的相似性,生物功能分子的序列測(cè)序與功能預(yù)測(cè)是從序列中發(fā)現(xiàn)基因的兩個(gè)層次。測(cè)序的大致步驟如下: 取DNA目標(biāo)序列 ; 查找開(kāi)放閱讀框架(ORF)并將目標(biāo)序列翻譯成蛋白質(zhì)序列; 據(jù)庫(kù)中進(jìn)行序列搜索; 進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線(global alignment) ; 查

3、找基因家族 查找目標(biāo)序列中的特定模序 預(yù)測(cè)目標(biāo)序列結(jié)構(gòu) 獲取相關(guān)蛋白質(zhì)的功能信息把目標(biāo)序列輸入“提醒”服務(wù)器,521序列比較中的計(jì)算機(jī)技術(shù) 從生物學(xué)的角度而言,一個(gè)普遍的規(guī)律是:序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能。序列的比較一般不考慮空間結(jié)構(gòu)或功能的相似性。研究序列的相似性的另一個(gè)目的是通過(guò)序列的相似性,判別序列間的同源性,推測(cè)序列間的進(jìn)化關(guān)系。 序列比較的作用是:發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的信息,從而發(fā)現(xiàn)其中的相似性,找出序列間的共同區(qū)域,同時(shí)辨別序列之間的差異,5211、序列的相似性 臺(tái)戲在計(jì)算機(jī)內(nèi)部,不管是DNA、RNA還是蛋白質(zhì),都是用特定的字符集來(lái)表示的。對(duì)于一種未知功能的生物分子,則

4、可以通過(guò)將它的序列與已知功能的分子的序列進(jìn)行比較來(lái)推斷。序列的相似性可以用定性的方法來(lái)描述,也可以用定量的方法表示,在討論到序列相似性的關(guān)系時(shí),經(jīng)常會(huì)遇到同源(homology)和相似(similarity)兩個(gè)概念。 所謂同源序列,簡(jiǎn)單地說(shuō),是指從某一共同祖先經(jīng)趨異進(jìn)化而形成的不同序列,相似性(similarity)和同源性(homology)是兩個(gè)完全不同的概念。 相似性概念的含義比較廣泛,除了上面提到的兩個(gè)序列之間相同堿基或殘基所占比例外,在蛋白質(zhì)序列比對(duì)中,有時(shí)也指兩個(gè)殘基是否具有相似的特性,如側(cè)鏈基團(tuán)的大小、電荷性、親疏水性等,序列比較的基本操作是比對(duì)(align),它是一種關(guān)于序列

5、相似性的定性描述,反映的主要是在什么部位兩條序列相似或差異。如果一個(gè)比對(duì)方法能夠揭示兩條序列的最大相似程度或根本差異,就稱這個(gè)比對(duì)是最優(yōu)比對(duì),1.字符表和序列: 在計(jì)算機(jī)中處理生物功能分子的序列比對(duì)時(shí),將其序列抽象為字符串,這些字符串從一個(gè)特定的字符集合中抽取,這個(gè)字符集合稱為:字符表。 如教材中的表5.1和表5.2,在分子生物學(xué)研究的一些場(chǎng)合,常常要用到子序列,如:分析功能基因或是保守序列,重復(fù)序列。生物序列中的子序列在形式上看起來(lái)同計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)中的子串的概念很相近,但實(shí)際上子序列和子串還是有些不同的:子序列的范圍包含了子串,所有的子串都是子序列,但子序列不一定是子串。子序列可以通過(guò)對(duì)序列

6、進(jìn)行選擇,刪除等操作或取。例如,基因片段1的序列為:ATTTTGCCCTTA,基因片段2的序列是:AGCT,基因片段3的序列是:TTGC。則片段2是片段1的子序列,但2不是1的子串,片段3是片段1的子串。 如果有兩個(gè)生物分子序列分別為t和s,則當(dāng)t為s的子串時(shí),稱s是t 的超串。如果t是s 的子串,也稱t是s的連續(xù)子序列,生物功能分子中的序列比對(duì)根據(jù)比較的范圍不同可以分成全局比較和局部比較兩種。全局比較指的是比較兩條完整的序列,而局部比較指的是找出最大相似的子序列。對(duì)于兩條序列的比對(duì),根據(jù)不同的應(yīng)用場(chǎng)合,常常將序列比較分成以下幾種基本操作,1)判斷一個(gè)序列是不是另一個(gè)序列的子序列; (2)尋找

7、兩個(gè)序列中的最大相似子序列; (3)尋找兩個(gè)相似序列中的細(xì)微差別; (4)判斷一個(gè)序列的特定部份(如前綴或后綴)與另一個(gè)序列的特定部份是否相同。 其中,(1)和(3)是全局比較,(2)和(4)是局部比較,2編輯距離 對(duì)于兩條DNA序列,有時(shí)很難看出它們有相似的地方,但是只要對(duì)其中的一條序列進(jìn)行了一些簡(jiǎn)單的操作,就會(huì)發(fā)現(xiàn)它們之間有很多的相似之處。例如,有以下兩個(gè)英文單詞“tomorrow”和“sorrow”,我們可以很清楚的看到,只要將sorry錯(cuò)移3個(gè)位置,并對(duì)起來(lái),就可以發(fā)現(xiàn)它們的相似性。 tomorrow tomorrow sorrow -sorrow 移位前 移位后,對(duì)于生物序列,有兩種

8、方法可以用來(lái)定量的表示兩條序列的相似程度: 一種方法是利用相似度函數(shù)來(lái)說(shuō)明,相似度越大,說(shuō)明兩條序列相似的程度越大; 另一種方法就是利用兩個(gè)序列間的距離來(lái)說(shuō)明,距離越大,說(shuō)明兩個(gè)序列的相似程序越小。 一般說(shuō)來(lái),相似度較為靈活,所以應(yīng)用的較多,兩個(gè)序列間的距離,可以用海明距離表示。但對(duì)于不同長(zhǎng)度的序列用海明距離表示起來(lái)不是很精確。而且在實(shí)際的實(shí)驗(yàn)中,一些生物功能分子如DNA往往會(huì)發(fā)生像刪除或插入一個(gè)堿基這樣的錯(cuò)誤,這時(shí)如果用海明距離來(lái)表示時(shí),就會(huì)產(chǎn)生較大的誤差。為了克服海明距離的缺陷,引入了編輯距離的概念,所謂編輯距離(edit distance),指的是:一個(gè)字符串變到另一個(gè)字符串時(shí)插入、刪除

9、和替換的最少的字符個(gè)數(shù),利用編輯距離來(lái)表示兩個(gè)序列的比對(duì)時(shí),一般說(shuō)來(lái)有如下的字符編輯操作: 設(shè)有兩個(gè)序列s和t,用-代表空位(或空缺,space)則有如下的操作: Match(a,a)-字符匹配; Delete(a,-)-從s序列中刪除一個(gè)字符或在t序列中插入一個(gè)空位; Replace(a,b)-以t中的字符b替換s中的字符a,ab; Insert(-,b)-在s序列中插入空位字符,或在t序列中刪除一個(gè)字符b,進(jìn)行序列比較最簡(jiǎn)單的方法就是利用點(diǎn)標(biāo)法(Fitch,1969)來(lái)實(shí)現(xiàn)。這種比較方法的原理是: 將兩條待比較的序列分別放在二維作標(biāo)的X軸上(序列的方向是自左向右)和Y軸上(序列的方向是自下

10、而上)。當(dāng)對(duì)應(yīng)的行與列的字符匹配時(shí),則在作標(biāo)軸上給出相應(yīng)的記號(hào),逐個(gè)比較所有的字符對(duì),最終形成若干個(gè)匹配子串。 如下所示,如有兩個(gè)序列s,t,序列分別為: s: ATCG t:ATGC,4.序列比對(duì)的數(shù)學(xué)方法 (1)打分矩陣 打分矩陣被廣泛的用于評(píng)價(jià)序列比對(duì)的質(zhì)量,通常采用得分(+)、無(wú)分(0)和罰分(-)來(lái)進(jìn)行綜合的評(píng)價(jià)。可以定義一個(gè)打分函數(shù),用它來(lái)表示在序列比對(duì)中不同類型的編輯操作所需要的代價(jià),假定有一字符表,字符a,b滿足:a, b;則有如下定義: 分別對(duì)應(yīng)于得分、無(wú)分和失分的情況,在兩條序列s和t進(jìn)行比對(duì)時(shí)的得分等于將s轉(zhuǎn)化為t所用的編輯操作的得分總和;它們間的最優(yōu)比對(duì)是可能的比對(duì)中得

11、分最高的一個(gè)比對(duì);s和t的真實(shí)的編輯距離應(yīng)當(dāng)是在打分函數(shù)值最大時(shí)的距離。 這樣,進(jìn)行序列比對(duì)的目的就是尋找一個(gè)打分函數(shù)值最大的比對(duì),2)核酸打分矩陣與蛋白質(zhì)打分矩陣: 核酸與蛋白質(zhì)都是常見(jiàn)的生物功能分子,在分子生物學(xué)研究中,經(jīng)常遇到要對(duì)它們的序列進(jìn)行比對(duì)的場(chǎng)合。前面所說(shuō)的打分矩陣方法過(guò)于簡(jiǎn)單,不能考慮到字符替換后實(shí)際的生物意義。 特別對(duì)于蛋白質(zhì)序列,有些氨基酸的取代是很容易產(chǎn)生而且不會(huì)對(duì)蛋白質(zhì)的特性造成太大的影響。也就是說(shuō),不同情況下的替代是不等效的。所以,為了區(qū)分不同情況下替代對(duì)生物功能分子所起的作用,人們提出了核酸與蛋白質(zhì)的打分矩陣,核酸打分矩陣 (i)等價(jià)矩陣 給出了一種最簡(jiǎn)單的核酸打分

12、矩陣(等價(jià)矩陣),它的設(shè)計(jì)的原理是,只有相同核苷酸匹配的情況下打分為“1”,其它的情況下,打分均為“0”。這種矩陣過(guò)于簡(jiǎn)單,在實(shí)際的應(yīng)用中很少用到,核酸的等價(jià)矩陣,ii)轉(zhuǎn)換-顛換矩陣 眾所周知,核酸的堿基可以分成兩大類:一類是嘌呤,一類是嘧啶。嘌呤的堿基有兩個(gè)環(huán)狀結(jié)構(gòu),而嘧啶的堿基只有一個(gè)環(huán)。根據(jù)這個(gè)特點(diǎn),如果DNA堿基的變化保持環(huán)數(shù)不變,則稱為轉(zhuǎn)換(transition),如G變成A,如果環(huán)數(shù)發(fā)生變化,則稱為顛換(transversion),如A轉(zhuǎn)成C,根據(jù)這個(gè)特性,當(dāng)兩個(gè)堿基的替換發(fā)生顛換時(shí),它的打分是-5分;當(dāng)發(fā)生轉(zhuǎn)換時(shí),它的打分是-1分;發(fā)生匹配時(shí)為1分。從而,也可以得到一個(gè)矩陣,通

13、常稱它為轉(zhuǎn)換-顛換矩陣,轉(zhuǎn)移-顛換矩陣,iii)BLAST矩陣 BLAST(basic local alignment search tool)是一種基本的局部對(duì)位排列搜索工具,這里也提供了一個(gè)相似性記分矩陣。這個(gè)矩陣也相對(duì)簡(jiǎn)單,如果等比較的兩個(gè)核酸序列是相同的,則打5分,反之,得分為-4分,BLAST矩陣,2)蛋白質(zhì)打分矩陣 (i)等價(jià)矩陣: 假設(shè)蛋白質(zhì)的字符表如教材上表5.1所示,則可以構(gòu)建如下的等價(jià)矩陣(如教材上表5-6所示)。它的規(guī)則是當(dāng)組成蛋白質(zhì)的兩種氨基酸相匹配時(shí),打分為“1”,反之,均為“0,ii)疏水矩陣 蛋白質(zhì)由于它的氨基酸殘基上的電荷不同,可以分成極性氨基酸、帶電氨基酸和疏

14、水氨基酸三大類。所謂的疏水指的是氨基酸與水的親和力的很小,這主要是因?yàn)槭杷詮?qiáng)的氨基酸中的原子間僅靠非極性共價(jià)鍵相連,所以,這類氨基酸分子缺少與水分子共同作用的基礎(chǔ)。而與疏水性氨基酸相對(duì)應(yīng)的是親水性氨基酸,這些氨基酸中的原子存在極性的共價(jià)鍵,從而可以與水互相溶解,根據(jù)氨基酸的親水或疏水,也可以生成一個(gè)矩陣,稱為疏水矩陣,它的設(shè)計(jì)思想是:如果一個(gè)氨基酸殘基取代另一個(gè)氨基酸殘基后,疏水性沒(méi)有發(fā)生太大的變化,就打分高些;反之,如果替換后,疏水性發(fā)生了較大的變化,打分就低些。如下圖所示,蛋白質(zhì)疏水矩陣示意圖,iii)GCM矩陣 生命是不斷進(jìn)化的,在研究分子水平的進(jìn)化時(shí),常常用到GCM矩陣,它可以方便地

15、描述分子的進(jìn)化距離,并可以用來(lái)繪制進(jìn)化樹(shù)。但在蛋白質(zhì)比對(duì)中較少直接用到。 GCM矩陣的設(shè)計(jì)思想是:計(jì)算一個(gè)氨基酸殘基轉(zhuǎn)變成另一個(gè)氨基酸殘基所需的密碼子變化的次數(shù),將變化的次數(shù)作為對(duì)應(yīng)矩陣的元素的值。如果一個(gè)氨基酸的殘基只要有一個(gè)堿基發(fā)生變化,那么這兩個(gè)氨基酸的替換代價(jià)即為1;如果是發(fā)生了兩個(gè)堿基的變化,則為2,其它依此類推,iv)Dayhoff突變數(shù)據(jù)矩陣(PAM矩陣,一個(gè)PAM的進(jìn)化距離定義為每100個(gè)氨基酸中發(fā)生一個(gè)點(diǎn)突變的概率。 在這個(gè)矩陣中,大于0的值表明發(fā)生的突變的可能性較大,等于0是中性的(隨機(jī)突變),小于0的則表示發(fā)生突變的可能性較小。 一個(gè)PAM就是一個(gè)進(jìn)化的變異單位,即1%的

16、氨基酸發(fā)生改變,但實(shí)際上并不可能說(shuō)經(jīng)過(guò)100次變化,每個(gè)氨基酸都會(huì)發(fā)生變化。 PAM有一系列的的替換矩陣,每個(gè)矩陣用于特定的進(jìn)化距離的序列。但是一般說(shuō)來(lái),只有當(dāng)置換速率通過(guò)至少具有85%一致性的序列對(duì)位排列才能獲取,PAM250矩陣,V)模塊替換矩陣(BLOSUM矩陣) Henikoff(1992)首先從BLOCKS數(shù)據(jù)庫(kù)的對(duì)位排序列塊中導(dǎo)出了一級(jí)置換矩陣,稱為BLOSUM矩陣。它是從蛋白質(zhì)序列塊(短序列)比對(duì)而推導(dǎo)出來(lái)的,它用關(guān)系較遠(yuǎn)的序列來(lái)獲取矩陣元素;而低階BLOSUM矩陣更多是用來(lái)比較親緣較遠(yuǎn)的序列,BLOSUM62矩陣圖,小結(jié): (I)基于“等價(jià)矩陣”的記分 這種記分方法,只考慮序列

17、是否匹配,匹配的位點(diǎn)記正分(通常為1),非匹配的位點(diǎn)記0分。這種方法的優(yōu)點(diǎn)是:簡(jiǎn)單明了,適用于高度相似性序列;這種方法的缺點(diǎn)是:沒(méi)有考慮非匹配位點(diǎn)間的不等價(jià)問(wèn)題,在對(duì)相似性較低的序列進(jìn)行對(duì)位排列時(shí),效果尤差,II)基于“化學(xué)相似性”的記分方式 該方法是對(duì)一致性記分方法的局部改進(jìn)。例如,Mclachlan(1972)和Feng et al。(1984)結(jié)合氨基酸的性質(zhì)(如極性、電荷、大小和結(jié)構(gòu)特征),對(duì)不同的氨基酸進(jìn)行了加權(quán)。這種方法的優(yōu)點(diǎn)是考慮了氨基酸和蛋白質(zhì)的結(jié)構(gòu)與性質(zhì);缺點(diǎn)是并非所有的蛋白質(zhì)的結(jié)構(gòu)與功能的改變都可以用簡(jiǎn)單的記分描述,III)基于“遺傳密碼”的記分 該方法考慮到當(dāng)一個(gè)氨基酸轉(zhuǎn)

18、換成另一個(gè)氨基酸時(shí),在基因組水平上堿基變化的最小數(shù)目。這種方法的優(yōu)點(diǎn)是它充分考慮到了在分子水平上的變化,具有一定的分子生物學(xué)基礎(chǔ)。但是,它忽略了隨機(jī)因素,例如:堿基變化的數(shù)目并不是氨基酸序列間相似性的惟一決定因素,IV)基于“實(shí)驗(yàn)觀察”的記分 這種方法考慮了對(duì)位排序中所實(shí)際觀察的頻率,從而更有助于解釋序列間的進(jìn)化關(guān)系。Dayhoff和BLOSUM矩陣就屬于這樣的矩陣。Dayhoff矩陣基于進(jìn)化的突變模型基于蛋白質(zhì)家族進(jìn)化過(guò)程中從一個(gè)共同祖先分化的蛋白質(zhì)的首次變化的。而B(niǎo)LOSUM矩陣忽略近端和遠(yuǎn)端的關(guān)系,這稱為蛋白質(zhì)進(jìn)化的星狀模型,Dayhoff對(duì)相關(guān)序列中所有氨基酸位置進(jìn)行計(jì)分,而B(niǎo)LOSU

19、M矩陣則是基于區(qū)塊中置換和保守位置。因而,Dayhoff模型可用于尋找蛋白質(zhì)的進(jìn)化起源,而B(niǎo)LOSUM模型用于發(fā)現(xiàn)蛋白質(zhì)的保守域,計(jì)算機(jī)在生物序列比對(duì)處理中起到的作用,計(jì)算機(jī)在生物序列比對(duì)中起到的作用是顯著的: 1.比對(duì)算法是比效率高低的重要基礎(chǔ) 全局比對(duì)和局部比對(duì)各有其相應(yīng)的算法 2.數(shù)據(jù)存儲(chǔ)的形式和數(shù)據(jù)壓縮 三角形矩陣,稀疏矩陣還有序列的壓縮算法可以節(jié)省空間,降低大量數(shù)據(jù)存放時(shí)要占用的大量空間,5212 序列的兩兩比對(duì) 在生物學(xué)中,對(duì)各種生物功能分子的序列進(jìn)行分析是一件非常基本的工作。在遺傳物質(zhì)長(zhǎng)期的演化過(guò)程中,一些序列在進(jìn)化的過(guò)程中不免發(fā)生一些變化。在進(jìn)行比對(duì)時(shí),這些序列就不能進(jìn)行精確的

20、匹配,但是他們具有一定的相似性。我們應(yīng)該如何判定序列之間的這種相似程度?對(duì)于這種情況,生物學(xué)家提出了一種用來(lái)評(píng)定序列相似性的方法,稱為記分函數(shù)的方法,1、兩兩比對(duì)的基本算法 進(jìn)行序列的兩兩比對(duì)最直接的方法就是先生成兩條待比較序列的所有可能比對(duì),然后分別計(jì)算得分函數(shù)的值,在這些結(jié)果中尋找一個(gè)值最大的比對(duì)(也就是代價(jià)最小的比對(duì),生物序列比對(duì)算法實(shí)際上常常用到的算法是著名的N-W算法與S-W算法,它們都是動(dòng)態(tài)規(guī)劃算法。其中,N-W算法常用于序列的全局比對(duì),S-W算法常用于序列的局部比對(duì),1)N-W算法 1970年,Needleman和Wunsch提出了著名的Needleman-Wunsch算法,簡(jiǎn)稱

21、為:N-W算法。Needleman-Wunsch算法是一種整體聯(lián)配(global alignment)算法,最佳聯(lián)配(兩條蛋白質(zhì)序列具有最多匹配殘基)中包括了全部的最短匹配序列。這一算法是為氨基酸序列發(fā)展的,算法最初尋求的是使兩條序列間的距離最小。盡管這類距離的元素是以一種特定的方式定義的,但該算法的良好特性在于它確定了最短距離。這是一個(gè)動(dòng)態(tài)規(guī)劃(dynamic programming)的方法,該算法可以用代數(shù)形式加以描述。設(shè)有兩個(gè)序列S和T,Si和Tj(0iLength(S),0jlength(j),length表示求序列的長(zhǎng)度)都屬于某個(gè)字符集,這兩個(gè)序列間的距離可以用記分函數(shù)(S,T)表

22、示。通過(guò)評(píng)價(jià)序列S中的前i個(gè)位置和序列T中的前j位置的距離(Si,Tj),遞歸得到距離(S,T)。由于S和T的長(zhǎng)度為m=Length(S)和n=Length(T),所以它的期望距離是(Sm,Tn,在單元(i,j)內(nèi),到達(dá)該單元距離增加的三種可能事件是: 從單元(i-1,j)向(i,j)方向垂直移動(dòng),相當(dāng)于在T序列中插入一個(gè)空位使相似序列延伸,即:T序列由S序列中的缺失產(chǎn)生,這一事件的權(quán)重記作W_(Si); 從單元(i,j-1)向(i,j)方向水平移動(dòng),相當(dāng)于在序列T中增加一個(gè)空位使得序列延伸,即:T序列由Tj插入到S序列產(chǎn)生,這一事件權(quán)重記作W+(Tj); 從單元(i-1,j-1)向(i,j)

23、對(duì)角線移動(dòng),相當(dāng)于增加Si與Tj使得相似序列延伸,即: S序列的Si由T序列的Tj取代所得。這一事件的權(quán)重記為W_(Si,Tj); 所以,單元(i,j)的距離可以看作是三個(gè)相鄰單元的距離和相應(yīng)的權(quán)重的和的最小者,初始條件為: (S0,T0)=0,S-W例題 將待比較的兩條序列放在矩陣的兩個(gè)維上,并按照公式對(duì)矩陣進(jìn)行初始化打分。第一行分別表示S序列的前綴空位與T序列的前面連續(xù)j個(gè)字符組成的前綴的比對(duì)得分;第一列則表示T序列的前綴空位與S序列的前面連續(xù)i個(gè)字符組成的前綴的比對(duì)得分,如下圖示,待比較序列,在這里規(guī)定,當(dāng)不匹配時(shí)分?jǐn)?shù)為0,匹配時(shí)的分?jǐn)?shù)為1,產(chǎn)生空位時(shí)分?jǐn)?shù)為-1。 表中的一個(gè)單元可以從(

24、至多)三個(gè)相鄰的單元達(dá)到。我們把到右下角單元距離最大的方向看作相似序列延伸的方向。等距離時(shí)意味著存在兩種可能的方向。將這些方向記錄下來(lái),并在研究了所有的單元之后,沿著記錄的方向就有一條路徑可從右下角(兩個(gè)序列的末端)追蹤到左上角 (兩個(gè)序列的起點(diǎn)),由此所產(chǎn)生的路徑將給出的最優(yōu)序列聯(lián)配,本例中的路徑如下圖中的箭頭方向所示,這里,對(duì)角線表示匹配或替換發(fā)生的情況;水平線表示插入;垂直線表示刪除。則本例的路徑可以讓我們得到如下的序列比對(duì),如圖所示,我們可以看出,N-W算法是一種動(dòng)態(tài)規(guī)劃算法。這種算法是在打分矩陣的基礎(chǔ)上進(jìn)行推導(dǎo)的,得分值表示序列間的相似程序,它是一種全局性的比對(duì)算法。對(duì)于兩條序列的比

25、對(duì)采用N-W算法時(shí),序列的長(zhǎng)度也有著很大的影響,設(shè)MARK(S,T)表示兩個(gè)長(zhǎng)度各為m和n的序列的相似性打分,如果MARK(S,T)=99,則兩條序列共有99個(gè)字符是一致的,如果m=n=100的話,說(shuō)明這兩條序列是很相似的;反之,如果m=n=1000,則僅有10%的字符相同。所以,在實(shí)際序列比較時(shí),使用相對(duì)的長(zhǎng)度得分就更加的有意義了,可以定義如式: 用Sim(s,t)作為衡量序列相似性的指標(biāo),2)S-W算法 Smith和Waterman在Needleman-Wunsch算法的基礎(chǔ)上進(jìn)行改進(jìn),提出序列局部比對(duì)算法;后來(lái)其他人又進(jìn)一步改進(jìn),形成改良Smith-Waterman算法,該算法將尋找多種

26、最好的但不相互交叉的比對(duì)方式作為結(jié)果,對(duì)于兩個(gè)序列S和T,Si和Tj(0iLength(S),0jlength(j),length表示求序列的長(zhǎng)度)都屬于某個(gè)字符集,對(duì)于中的任何元素和空符號(hào),它們之間都有一個(gè)記分值,用記分函數(shù)(x,y)表示,F(xiàn)(i,j)表示序列S的前綴S1S2Si-1Si和序列T的前綴T1T2。Tj-1Tj之間的最優(yōu)相似性比較得分,則有如下公式,Smith-Waterman算法先用迭代方法計(jì)算出兩個(gè)序列的所有可能相似性比較的分值,然后通過(guò)動(dòng)態(tài)規(guī)劃的方法回溯尋找最優(yōu)相似性比較,從而我們最終可以找出i*和j*,使得F(i*,j*)=maxF(i,j,例如有如下問(wèn)題: 例 設(shè)有S

27、= “ a b c x d e x ”,T= “ x x x c d e ” ,其對(duì)應(yīng)的記分函數(shù)(x,y)分別如下: 發(fā)生匹配時(shí):(x,x)=2, 不匹配或產(chǎn)生空位: (x,y)= (x,-)= (-,y)=-1。 試求解S和T的最優(yōu)局部子序列,初始化矩陣圖,最終,可以反推出它的最佳路徑,結(jié)果是: S = “ a b c x d e x ”,T= “ x x x c d e ”的局部最優(yōu)聯(lián)配是: c x d e 和 c - d e 或 x - d e 和 x c d e,3)MUMmer算法 MUMmer算法是Delcher于1999年提出的,它是一種基于后綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)的比對(duì)算法。MUM的意

28、思是最大唯一匹配(Maximal Unique Match,4)PattenHunter算法 2002年Bin Ma等人提出了序列搜索的PatternHunter算法,該算法創(chuàng)建了一個(gè)新穎的匹配模型,不僅提高了匹配的敏感度,而且大大降低了同源搜索的匹配時(shí)間,2序列兩兩比對(duì)的啟發(fā)式算法,1)BLAST算法 BLAST 是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫(kù)搜索程序。它是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫(xiě)。 它包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的。比如說(shuō)查詢的序

29、列為核酸,查詢數(shù)據(jù)庫(kù)亦為核酸序列數(shù)據(jù)庫(kù),那么就應(yīng)該選擇blastn程序,主要的BLAS程序,BLAST算法的基本思想是:通過(guò)產(chǎn)生數(shù)量較少的但質(zhì)量更好的匹配片段來(lái)提高速度 其算法描述如下:首先是在數(shù)據(jù)庫(kù)中找出與查詢序列相同的匹配片段(也叫命中片段HIT),且這一局部片段中不含空位,并建立查詢表記錄下該片段的位置; 一個(gè)匹配字串選中后,程序會(huì)進(jìn)行沒(méi)有空位的局部延伸,根據(jù)匹配情況計(jì)算分值,當(dāng)比對(duì)延伸時(shí)遇到不匹配片段則賦予負(fù)分,使得比對(duì)的分值下降,直到用動(dòng)態(tài)規(guī)劃算法得到某個(gè)局部最大分值為止,也即高分片段對(duì)HPS(high sequence pairs); 設(shè)定一個(gè)統(tǒng)計(jì)顯著性閥值E,統(tǒng)計(jì)顯著性大于E的H

30、SP將被舍棄,剩下的HSP即為高質(zhì)量的匹配片段對(duì),BLAST算法流程圖,2)FastA算法 FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識(shí)別與代查序列相匹配的很短的序列片段,稱為k-tuple,3、空位處罰的處理算法,所謂空位指的是序列中任意連續(xù)的盡可能長(zhǎng)的空格,空位的引入是為了補(bǔ)償那些插入或缺失,但是在序列的比對(duì)中引入的空位不能太多,否則會(huì)使序列的排列變得面目全非。 每引入一個(gè)空位,比對(duì)的分值都會(huì)有所扣除,常見(jiàn)的罰分規(guī)則主要有兩種:空位權(quán)值恒定模型和仿射空位處罰模型,空位權(quán)值恒定模型:在每個(gè)空位中的空格的分

31、值為零, 即:(x,-)= (-,y) = 0。 其中S和T分別為S和T加入空位后的序列, |S| = |T| = l,Wg為開(kāi)放一個(gè)空位的罰分,II) 仿射空位處罰模型: 這是最常用的一種罰分規(guī)則??瘴惶幜P函數(shù)依賴于空位中空格的數(shù)量:用一個(gè)附加的罰分比例去乘空位的長(zhǎng)度,其中有兩個(gè)參數(shù),Wg表示空位開(kāi)放處罰,Ws表示空位延伸處罰。仿射處罰函數(shù)可表示為:Wg+qWs,q表示某一個(gè)空位的長(zhǎng)度。這樣比對(duì)的相似度: 其中S和T分別為S和T加入空位后的序列,|S| = |T| = l。實(shí)際上空位權(quán)值恒定模型是仿射空位處罰模型的一個(gè)特例,即Ws = 0,空位處理的算法 初始條件: V(0, 0) = 0;

32、 V(i, 0) = E(i, 0) = Wg + iWs; V(0, j) = F(0, j) = Wg + jWs; 遞歸條件: V(i, j) = max G(i, j), E(i, j), F(i, j); G(i, j) = V(i-1, j-1) +(Si, Tj); E(i, j) = max E(i, j-1) + Ws, V(i, j-1) + Wg + Ws F(i, j) = max F(i-1, j) + Ws, V(i-1, j) + Wg + Ws,公式E(i, j)可以理解為從以下兩項(xiàng)中取最大值:在已存在的空位后面添加一個(gè)空格或者重新開(kāi)放一個(gè)空位。公式F(i, j

33、)的表示與此相似。 從算法里可以看出,利用動(dòng)態(tài)規(guī)劃計(jì)算序列最優(yōu)聯(lián)配的算法的復(fù)雜度分析:時(shí)間復(fù)雜度為O(nm),空間復(fù)雜度為O(n+m,多序列比對(duì)有時(shí)用來(lái)區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對(duì)一個(gè)基因家族的特征有一個(gè)簡(jiǎn)明扼要的了解。與雙序列比對(duì)一樣,多序列比對(duì)的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上,三個(gè)序列的最佳比對(duì),利用標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃算法,則每個(gè)節(jié)點(diǎn)的計(jì)算量為2k-1,多序列比對(duì)時(shí)每個(gè)節(jié)點(diǎn)計(jì)算量的示意圖,1)漸進(jìn)比對(duì)算法 多序列比對(duì)的絕大多數(shù)方法都是基于漸進(jìn)比對(duì)(progressive alignment)的概念。 漸進(jìn)比對(duì)的思想依賴于使用者用作比對(duì)的蛋白質(zhì)序列之

34、間確實(shí)存在的生物學(xué)上的或者更準(zhǔn)確地說(shuō)是系統(tǒng)發(fā)生學(xué)上的相互關(guān)聯(lián)。 漸進(jìn)比對(duì)是最常用的多序列比對(duì)方法,其基本思想是:要比對(duì)的序列是進(jìn)化相關(guān)的,因此可以按著序列的進(jìn)化順序,由近至遠(yuǎn)將序列或子比對(duì)結(jié)果按雙重比對(duì)(pairwise alignment)算法逐步進(jìn)行比對(duì),重復(fù)這一過(guò)程直到所有序列都加入為止 這類算法的主要優(yōu)點(diǎn)是:簡(jiǎn)單、快速; 缺點(diǎn)是:在比對(duì)初期引進(jìn)的空位插入錯(cuò)誤無(wú)法在比對(duì)后期因加入其它序列而改正,易于陷入局部最優(yōu)解,I)CLUSTAL算法 CLUSTAL算法是一個(gè)最廣泛使用的多序列比對(duì)程序,已經(jīng)有十多年的歷史。CLUSTAL算法所提供的是全局序列比對(duì)算法,這種算法同最初的啟發(fā)式算法有所不同

35、。CLUSTAL W是這個(gè)算法較新的的應(yīng)用軟件系統(tǒng),CLUSTAL X則提供了圖形用戶界面,便于用戶使用,下面是CLUSTAL W算法的大至步驟 對(duì)所有序列進(jìn)行兩兩比對(duì),并由此計(jì)算出距離矩陣; 基于距離矩陣,利用NJ(neighbour-join-method)方法構(gòu)建系統(tǒng)先導(dǎo)樹(shù); 依據(jù)指導(dǎo)樹(shù)的分支順序,由關(guān)系最近的兩個(gè)序列開(kāi)始進(jìn)行比對(duì),出現(xiàn)在比對(duì)中的空位保持固定不變;由近至遠(yuǎn),逐步添加序列,直到所有序列全部加入為止,從而構(gòu)成一個(gè)系統(tǒng)發(fā)育樹(shù),Clustal W 對(duì)于親緣關(guān)系較近的序列比對(duì)效果較好,但是對(duì)于分歧較大的序列,比對(duì)的準(zhǔn)確率明顯降低,II)TCoffe算法 TCoffee是另一個(gè)有代表

36、性的漸進(jìn)比對(duì)算法,它的主要特點(diǎn)是將序列的兩兩局域及全局比對(duì)結(jié)果收集在一起,做成一個(gè)擴(kuò)展比對(duì)信息庫(kù)再利用擴(kuò)展比對(duì)信息庫(kù)中提取的信息取代替代矩陣進(jìn)行漸近比對(duì),使得在每一步漸近比對(duì)過(guò)程中用到的是所有序列之間的關(guān)系信息,而不只是僅考慮當(dāng)前要比對(duì)的序列信息,從而在一定程度上提高了比對(duì)準(zhǔn)確率,尤其是對(duì)于存在大量空位插入的情況,效果更為明顯,T-coffee算法中最關(guān)關(guān)鍵的兩個(gè)因素是:構(gòu)建擴(kuò)展比對(duì)信息庫(kù)和優(yōu)化。它的算法示意圖如下,其中,基本庫(kù)是建立在一系列待比較序列的兩兩比對(duì)的基礎(chǔ)上的(這種比對(duì)有可能是全局的比對(duì),也有可能是局部的比對(duì))。每種比對(duì)結(jié)果在基本庫(kù)中的權(quán)重是不同的,我們需要對(duì)所得的比對(duì)結(jié)果進(jìn)行分析

37、,并對(duì)每種結(jié)果給出一個(gè)權(quán)重。 T-coffee的時(shí)間復(fù)雜度大至在O(N3L)(其中,L是序列的平均長(zhǎng)度,III)DIALIGN算法 DIALIGN算法 是基于片斷一片斷的局域多序列比對(duì)算法,它首先找出無(wú)空位的保守片段對(duì)(相當(dāng)于點(diǎn)矩陣中的對(duì)角線);然后為每一保守片段對(duì)賦予一個(gè)權(quán)重w 用以評(píng)價(jià)其生物意義,并找出具有最大加權(quán)總和的相容片斷對(duì)搜集(consistent collection of diagonals),這些片段都滿足相容性準(zhǔn)則,即這些片段對(duì)可以被排序,而不會(huì)相互重疊;利用貪婪法將對(duì)角線依據(jù)分值高低逐步聯(lián)配(assemble)成多序列比對(duì);在序列中加入空位直到所有對(duì)角線相關(guān)的殘基都被適當(dāng)

38、安置 由于以保守片斷作為考慮問(wèn)題的出發(fā)點(diǎn),自然形成比對(duì)的空位位數(shù)及空位位置,從而避免了序列比對(duì)中的一個(gè)最為困擾的問(wèn)題:空位罰分的設(shè)定,I)基于遺傳算法的多序列比對(duì)SAGA算法 基于遺傳算法的多序列比對(duì)SAGA算法 將序列集中不等長(zhǎng)的序列以兩端加空位方式補(bǔ)齊,構(gòu)造初始群體中的個(gè)體;共設(shè)有交叉,加空位,移動(dòng)空位等22個(gè)遺傳算子,并根據(jù)上一代算子所起的作用,給其以一定的權(quán)值,根據(jù)權(quán)值的大小動(dòng)態(tài)決定這一代是否使用該算子;選用WSP度量作為適應(yīng)度函數(shù) 該算法的優(yōu)點(diǎn)是:可以對(duì)任意多個(gè)序列同時(shí)比對(duì),而不會(huì)受到限制主要缺點(diǎn)是速度慢,易于陷入局域優(yōu)化解,II)Prrp迭代比對(duì)算法 Prrp這是一個(gè)著名的迭代比對(duì)

39、算法,其基本思想是:將一個(gè)序列集隨機(jī)地分為兩組,然后用雙重動(dòng)態(tài)規(guī)劃比對(duì)算法再將這兩組序列合并起來(lái)對(duì)于不同的隨機(jī)分組重復(fù)這種兩組比對(duì)過(guò)程,直到滿足終止條件為止 具體算法為:從一個(gè)多序列比對(duì)開(kāi)始(這一比對(duì)可以由任意簡(jiǎn)單方法而得到,并做為這個(gè)算法的種子),以該比對(duì)中任意兩個(gè)序列的距離構(gòu)造一棵系統(tǒng)發(fā)育樹(shù),并計(jì)算所有序列的的權(quán)重;以WSP分值優(yōu)化兩組比對(duì);再以該比對(duì)作為種子重復(fù)進(jìn)行上述過(guò)程,直到權(quán)重w 收斂為止,III)Muscle算法 Muscle算法 以系統(tǒng)發(fā)育樹(shù)作為分組依據(jù),使得分組迭代更為合理,該算法主要由三部分組成): 首先初步、快速地利用漸進(jìn)比對(duì)算法構(gòu)建一個(gè)多序列比對(duì)結(jié)果MSA1; 然后以這

40、個(gè)比對(duì)為基礎(chǔ),計(jì)算兩兩序列的距離,重新用漸進(jìn)比對(duì)算法構(gòu)建多序列比對(duì)MSA2; 最后根據(jù)指導(dǎo)樹(shù)的分支點(diǎn),將序列分為兩組(profile),通過(guò)重新比對(duì)這兩個(gè)profile,構(gòu)建一個(gè)新的多序列比對(duì)MSA3,若該比對(duì)的SP分值有改善則保留,否則刪除該比對(duì)結(jié)果; 重復(fù)執(zhí)行第三部分,直到滿足事先規(guī)定的結(jié)束條件為止由于有導(dǎo)向的分組,使得Muscle算法的準(zhǔn)確率高于Prrp,53分子生物學(xué)信息中心及其數(shù)據(jù)庫(kù),近20年來(lái),有關(guān)分子生物學(xué)的大規(guī)模研究合作項(xiàng)目(如HGP等)在世界范圍內(nèi)開(kāi)展起來(lái)。這些跨單位,跨地區(qū)甚至跨國(guó)的科研協(xié)作均要求在保證實(shí)驗(yàn)數(shù)據(jù)可靠性與完整性的前提下,及時(shí)進(jìn)行信息的共享,分子生物學(xué)數(shù)據(jù)庫(kù)中數(shù)

41、據(jù)的增長(zhǎng)速度是十分迅速的,作為分子生物學(xué)的數(shù)據(jù)庫(kù),應(yīng)當(dāng)要滿足以下的特點(diǎn): 時(shí)間性 注釋 支撐數(shù)據(jù) 數(shù)據(jù)質(zhì)量 集成性,生物分子數(shù)據(jù)庫(kù)可以分成一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)兩大類: 一級(jí)數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋 二級(jí)數(shù)據(jù)庫(kù):對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的,1、 世界上主要的分子生物學(xué)信息中心與它們的數(shù)據(jù)庫(kù)介紹 現(xiàn)階段建立的分子數(shù)據(jù)庫(kù)種類繁多,內(nèi)容廣泛;并且隨著網(wǎng)絡(luò)技術(shù)的普及,分子生物學(xué)信息系統(tǒng)大都實(shí)現(xiàn)了網(wǎng)絡(luò)化;數(shù)據(jù)庫(kù)中的信息量也呈爆炸性的增長(zhǎng);數(shù)據(jù)庫(kù)的相關(guān)數(shù)據(jù)操作算法也不斷增

42、加,1)歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL(The European Molecular Biology Laboratory) EMBL的主頁(yè):http:/www.embl-heidelberg.de/ExternalInfo/public_relations/contents.html如圖示,EMBL主頁(yè),EMBL的數(shù)據(jù)庫(kù)主要是EMBLEBI, EBI是一個(gè)非營(yíng)利性的學(xué)術(shù)機(jī)構(gòu),它是European Molecular Biology Laboratory(EMBL)組成的一部分。 BI的網(wǎng)址是:http:/www.ebi.ac.uk/embl/ ,它的主頁(yè)如圖示,EBI 數(shù)據(jù)庫(kù),2)美國(guó)國(guó)立生物

43、技術(shù)信息中心(National Center for Biotechnology In-formation,NCBI) 網(wǎng)址:,Ncbi主頁(yè),NCBI的主要數(shù)據(jù)庫(kù)是GeneBank, 它由美國(guó)衛(wèi)生與人類服務(wù)部注冊(cè)。在1992年10月,NCBI承擔(dān)起對(duì)GenBank DNA序列數(shù)據(jù)庫(kù)的責(zé)任。NCBI受過(guò)分子生物學(xué)高級(jí)訓(xùn)練的工作人員通過(guò)來(lái)自各個(gè)實(shí)驗(yàn)室遞交的序列和同國(guó)際核酸序列數(shù)據(jù)庫(kù)(EMBL和DDBJ)交換數(shù)據(jù)建立起數(shù)據(jù)庫(kù),GeneBank中的EnterZ主頁(yè),3) 日本國(guó)立遺傳研究所(National Institute of Genetics

44、,NIG) 日本國(guó)立遺傳研究所作為一所日本國(guó)內(nèi)進(jìn)行遺傳多樣性研究的中央研究機(jī)構(gòu)始建于1949年,國(guó)立遺傳研究所還逐漸成為日本國(guó)內(nèi)遺傳學(xué)(如突變研究、克隆,致病菌等)的信息資源中心,而且,還是著名的核酸數(shù)據(jù)庫(kù)DDBJ的開(kāi)發(fā)與維護(hù)單位。它的主頁(yè)是:http:/www.nig.ac.jp/section/index.html,日本國(guó)立遺傳研究所主頁(yè),日本國(guó)立遺傳研究中最著名的數(shù)據(jù)庫(kù)當(dāng)屬DDBJ(DNA Data Bank of Japan),它的主頁(yè)是:http:/www.ddbj.nig.ac.jp,DDBJ數(shù)據(jù)庫(kù)主頁(yè),54 計(jì)算機(jī)在HGP中的應(yīng)用,541有關(guān)基因的概念 從分子生物學(xué)的角度出發(fā),基

45、因指的是負(fù)載特定生物遺傳信息的DNA分子片段,基因在一定條件下能夠表達(dá)這種遺傳信息,產(chǎn)生特定的生命功能,1)基因的分類: 基因的分類根據(jù)不同的劃分標(biāo)準(zhǔn)可以劃分成不同的種類。按照基因的功能分,可以將基因分成: 結(jié)構(gòu)基因(可被轉(zhuǎn)錄形成mRNA,并進(jìn)而翻譯成多肽鏈,構(gòu)成各種結(jié)構(gòu)蛋白質(zhì)、催化各種生化反應(yīng)的酶和激素等) 調(diào)控基因(可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因) 只轉(zhuǎn)錄而不翻譯的基因(如rRNA基因、tRNA基因,2)人類基因的結(jié)構(gòu): 一般認(rèn)為,人類結(jié)構(gòu)基因的結(jié)構(gòu)包括4個(gè)區(qū)域: 外顯子(在轉(zhuǎn)錄時(shí),一些被轉(zhuǎn)錄形成RNA的序列叫外顯子); 內(nèi)含子(在轉(zhuǎn)錄時(shí),基因中一些間隔序列的轉(zhuǎn)錄物在RNA成熟過(guò)程中被切除了

46、; 前導(dǎo)區(qū)(位于編碼區(qū)上游,相當(dāng)于mRNA5端非編碼區(qū)(非翻譯區(qū)); 調(diào)節(jié)區(qū)(包括啟動(dòng)子和增強(qiáng)子等基因編碼區(qū)的兩側(cè),也稱為側(cè)翼序列,人類基因結(jié)構(gòu)示意圖,542 HGP(人類基因組計(jì)劃)簡(jiǎn)介 1984年,正式啟動(dòng)了人類基因組計(jì)劃,也就是HGP(Human Genome Project)。有關(guān)HGP發(fā)展的情況大致如下,1984.12 猶他州阿爾塔組織會(huì)議,初步研討測(cè)定人類整個(gè)基因組DNA序列的意義 1985 Dulbecco在Science撰文 “腫瘤研究的轉(zhuǎn)折點(diǎn):人類基因組的測(cè)序” 美國(guó)能源部(DOE)提出“人類基因組計(jì)劃”草案 1987 美國(guó)能源部和國(guó)家衛(wèi)生研究院(NIH)聯(lián)合為“人類基因組計(jì)

47、劃”下?lián)軉?dòng)經(jīng)費(fèi)約550萬(wàn)美元 1989 美國(guó)成立“國(guó)家人類基因組研究中心”,Watson擔(dān)任第一任主任 1990.10 經(jīng)美國(guó)國(guó)會(huì)批準(zhǔn),人類基因組計(jì)劃正式啟動(dòng),HGP的最初目標(biāo)是通過(guò)國(guó)際合作,用15年時(shí)間(19902005)至少投入30億美元,構(gòu)建詳細(xì)的人類基因組遺傳圖和物理圖,確定人類DNA的全部核苷酸序列,定位約10萬(wàn)基因,并對(duì)其它生物進(jìn)行類似研究,研究的結(jié)果是得到4張圖:遺傳圖、物理圖、序列圖、基因圖,HGP的終極目標(biāo)是: 闡明人類基因組全部DNA序列; 識(shí)別基因; 建立儲(chǔ)存這些信息的數(shù)據(jù)庫(kù); 開(kāi)發(fā)數(shù)據(jù)分析工具; 研究HGP實(shí)施所帶來(lái)的倫理、法律和社會(huì)問(wèn)題,人類基因組組成示意圖,一般認(rèn)

48、為功能基因組研究的核心問(wèn)題有: 基因組的多樣性; 基因組的表達(dá)及其時(shí)空調(diào)節(jié); 模式生物基因組研究 倫理學(xué)問(wèn)題等,543基因芯片的簡(jiǎn)介 基因芯片(又稱 DNA 芯片、生物芯片)指將大量(通常每平方厘米點(diǎn)陣密度高于 400 )探針?lè)肿庸潭ㄓ谥С治锷虾笈c標(biāo)記的樣品分子進(jìn)行雜交,通過(guò)檢測(cè)每個(gè)探針?lè)肿拥碾s交信號(hào)強(qiáng)度進(jìn)而獲取樣品分子的數(shù)量和序列信息,該技術(shù)應(yīng)用領(lǐng)域主要有基因表達(dá)譜分析、新基因發(fā)現(xiàn)、基因突變及多態(tài)性分析、基因組文庫(kù)作圖、疾病診斷和預(yù)測(cè)、藥物篩選、基因測(cè)序等,1 基因芯片的主要類型 芯片種類較多,制備方法也不盡相同,但基本上可分為兩大類:一類是原位合成;一種是直接點(diǎn)樣。原位合成適用于寡核苷酸;

49、直接點(diǎn)樣多用于大片段DNA,有時(shí)也用于寡核苷酸,甚至mRNA。原位合成有兩種途徑,一是光刻法;一是壓電打印法,樣品的準(zhǔn)備及靶基因的雜交檢測(cè) 待分析基因在與芯片結(jié)合探針雜交之前必需進(jìn)行分離、擴(kuò)增及標(biāo)記。根據(jù)樣品來(lái)源、基因含量及檢測(cè)方法和分析目的不同,采用的基因分離、擴(kuò)增及標(biāo)記方法各異。由于靈敏度所限,多數(shù)方法需要在標(biāo)記和分析前對(duì)樣品進(jìn)行適當(dāng)程序的擴(kuò)增,可在一個(gè)樣品中同時(shí)對(duì)數(shù)以萬(wàn)計(jì)的 DNA 片段進(jìn)行克隆,且無(wú)需單獨(dú)處理和分離每個(gè)克隆,基因芯片技術(shù)的主要應(yīng)用 可同時(shí)、快速、準(zhǔn)確地分析數(shù)以千計(jì)基因組信息的本領(lǐng)而顯示出了巨大的威力。這些應(yīng)用主要包括基因表達(dá)檢測(cè)、突變檢測(cè)、基因組多態(tài)性分析和基因文庫(kù)作圖以及雜交測(cè)序等方面。此外,基因芯片技術(shù)還被廣泛地應(yīng)用于臨床疾病診斷、藥物篩選和新藥開(kāi)發(fā)、環(huán)境保護(hù)、農(nóng)業(yè)和畜牧業(yè)、軍事和司法等領(lǐng)域,基因芯片技術(shù)的研究方向及當(dāng)前面臨的困難 困難: 技術(shù)成本昂貴、復(fù)雜、檢測(cè)靈敏度較低、重復(fù)性差、分析泛圍較狹

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論