計(jì)算機(jī)在生物學(xué)中的應(yīng)用課件

上傳人：石*** IP屬地：廣東上傳時(shí)間：2021-10-21 格式：PPT 頁數(shù)：183 大?。?82KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩178頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)算機(jī)在生物學(xué)中的應(yīng)用Excel計(jì)算和作圖；序列數(shù)據(jù)應(yīng)用于試驗(yàn)室技術(shù)改良（計(jì)算和作圖；序列數(shù)據(jù)應(yīng)用于試驗(yàn)室技術(shù)改良（8）；）；第一章第一章、生物信息數(shù)據(jù)庫（生物信息數(shù)據(jù)庫（12）第二章第二章、數(shù)據(jù)庫檢索（數(shù)據(jù)庫檢索（25）第三章第三章、序列比對(duì)（序列比對(duì)（30）一一序列比對(duì)策略序列比對(duì)策略（二二算法算法（34）；三；三序列雙重比對(duì)（序列雙重比對(duì)（42）；四；四多序列比對(duì)（多序列比對(duì)（47）。）。第四章第四章在系統(tǒng)發(fā)生分析中的應(yīng)用（在系統(tǒng)發(fā)生分析中的應(yīng)用（51）第五章第五章、生物信息學(xué)在基因組構(gòu)建中的應(yīng)用；、生物信息學(xué)在基因組構(gòu)建中的應(yīng)用；一一基因的識(shí)別和基因的識(shí)別和鑒定（鑒定

2、（62）二）二蛋白質(zhì)功能的預(yù)測(cè)（蛋白質(zhì)功能的預(yù)測(cè)（73）；三；三蛋白質(zhì)結(jié)構(gòu)預(yù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)（測(cè)（78）；四；四基因組中非編碼區(qū)的研究（基因組中非編碼區(qū)的研究（96）；五；五人類基人類基因組多樣性計(jì)劃（因組多樣性計(jì)劃（102）。第六章第六章、計(jì)算機(jī)在其他方面的應(yīng)用（計(jì)算機(jī)在其他方面的應(yīng)用（107）；藥物開發(fā)（）；藥物開發(fā)（110）。）。第七章第七章、生物信息學(xué)在組學(xué)中的應(yīng)用；一生物信息學(xué)在組學(xué)中的應(yīng)用；一基因組學(xué)研究（基因組學(xué)研究（119）；）；二二功能基因組研究（功能基因組研究（128）；三；三蛋白質(zhì)組研究（蛋白質(zhì)組研究（137）；四；四蛋白質(zhì)的功能確定（蛋白質(zhì)的功

3、能確定（140）；五）；五代謝組（代謝組（142）；六）；六網(wǎng)絡(luò)研究網(wǎng)絡(luò)研究（145）；七）；七細(xì)胞計(jì)劃（細(xì)胞計(jì)劃（157）。第八章第八章、生物醫(yī)學(xué)信息資源（生物醫(yī)學(xué)信息資源（160）計(jì)算機(jī)在生物學(xué)中的應(yīng)用計(jì)算機(jī)是生物研究的工具。為了了解計(jì)算計(jì)算機(jī)是生物研究的工具。為了了解計(jì)算機(jī)工具在生物研究中的應(yīng)用，首先需要了解機(jī)工具在生物研究中的應(yīng)用，首先需要了解生物研究的現(xiàn)狀。生物研究的現(xiàn)狀。l基因決定論基因決定論由于由于DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)，基因決定論雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)，基因決定論成為主要觀點(diǎn)。人們嘗試尋找決定生物功能成為主要觀點(diǎn)。人們嘗試尋找決定生物功能的基因，但是受到挫折。的基因，但是

4、受到挫折。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l一是由于美國能源部用一是由于美國能源部用30多年研究多年研究“核輻射核輻射對(duì)人類基因突變作用對(duì)人類基因突變作用”，未取得實(shí)質(zhì)性突破，未取得實(shí)質(zhì)性突破進(jìn)展，受害者已表現(xiàn)進(jìn)展，受害者已表現(xiàn) 出明顯的突變性狀，但出明顯的突變性狀，但檢測(cè)不出其基因突變與對(duì)照組存在顯著性差檢測(cè)不出其基因突變與對(duì)照組存在顯著性差異。異。l二是美國于二是美國于1975年巨額投資啟動(dòng)的年巨額投資啟動(dòng)的“腫瘤十腫瘤十年計(jì)劃年計(jì)劃”基本以失敗告終。基本以失敗告終。 R. Dulbecco 于于1986在在science上發(fā)表上發(fā)表癌癥癌癥研究的轉(zhuǎn)折點(diǎn)：測(cè)序人類基因組研究的轉(zhuǎn)折點(diǎn)：測(cè)序人類基因組，

5、認(rèn)為要，認(rèn)為要徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的機(jī)制，必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序。機(jī)制，必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序。美國政府與美國政府與1990年正式啟動(dòng)年正式啟動(dòng)HGP。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l基因組學(xué)基因組學(xué) 由于基因組是物種所有遺傳信息的儲(chǔ)藏由于基因組是物種所有遺傳信息的儲(chǔ)藏庫，從根本上決定著物種個(gè)體的發(fā)育和生庫，從根本上決定著物種個(gè)體的發(fā)育和生理，因此，在研究遺傳、發(fā)育、進(jìn)化、功能理，因此，在研究遺傳、發(fā)育、進(jìn)化、功能調(diào)控等基本生物學(xué)問題方面，調(diào)控等基本生物學(xué)問題方面，基因組學(xué)基因組學(xué)關(guān)注關(guān)注的是基因組整體的作用，而不是個(gè)別基因。的

6、是基因組整體的作用，而不是個(gè)別基因。功能基因組學(xué)功能基因組學(xué)（后基因組學(xué)）的中心任務(wù)是（后基因組學(xué)）的中心任務(wù)是通過了解基因組表達(dá)與環(huán)境的關(guān)系，以及其通過了解基因組表達(dá)與環(huán)境的關(guān)系，以及其在基本生物學(xué)方面和人類健康和疾病相關(guān)的在基本生物學(xué)方面和人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題方面的意義。生物醫(yī)學(xué)問題方面的意義。l后基因組學(xué)后基因組學(xué)l轉(zhuǎn)錄組學(xué)轉(zhuǎn)錄組學(xué)：關(guān)注：關(guān)注mRNA的組成和細(xì)胞功能的的組成和細(xì)胞功能的關(guān)系。關(guān)系。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l蛋白質(zhì)組學(xué)蛋白質(zhì)組學(xué)：其中心任務(wù)是通過比較不同時(shí)間：其中心任務(wù)是通過比較不同時(shí)間或不同細(xì)胞的蛋白質(zhì)組成，以揭示蛋白質(zhì)變化或不同細(xì)胞的蛋白質(zhì)組成，以揭示蛋白質(zhì)

7、變化的生物學(xué)意義。的生物學(xué)意義。l結(jié)構(gòu)基因組學(xué)結(jié)構(gòu)基因組學(xué)：了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì)：了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì)功能的關(guān)系。功能的關(guān)系。l蛋白質(zhì)相互作用網(wǎng)絡(luò)蛋白質(zhì)相互作用網(wǎng)絡(luò)：了解蛋白質(zhì)相互作用。：了解蛋白質(zhì)相互作用。l代謝組學(xué)代謝組學(xué)：其中心任務(wù)是通過比較不同時(shí)間或：其中心任務(wù)是通過比較不同時(shí)間或不同細(xì)胞的小分子組成，揭示生物學(xué)意義。不同細(xì)胞的小分子組成，揭示生物學(xué)意義。l系統(tǒng)生物學(xué)系統(tǒng)生物學(xué)：以一個(gè)理論模式為基礎(chǔ)，與基因：以一個(gè)理論模式為基礎(chǔ)，與基因組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進(jìn)行比較，判斷生物組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進(jìn)行比較，判斷生物在分子水平上復(fù)雜的相互作用。在分子水平上復(fù)雜的相互作用。計(jì)算

8、機(jī)在生物學(xué)中的應(yīng)用生物學(xué)發(fā)展的展望生物學(xué)發(fā)展的展望W. Gilbert （80年諾年諾貝爾化學(xué)獎(jiǎng)）貝爾化學(xué)獎(jiǎng)）91年專門在年專門在“nature”撰文討論撰文討論生物學(xué)研究形式的變化：生物學(xué)研究形式的變化：正在興起的新的范式在于，所有的正在興起的新的范式在于，所有的基因基因?qū)⒈恢獣裕ㄔ诳捎秒娮臃绞綇臄?shù)據(jù)庫里讀取將被知曉（在可用電子方式從數(shù)據(jù)庫里讀取的意義上），今后生物學(xué)研究項(xiàng)目的起點(diǎn)將的意義上），今后生物學(xué)研究項(xiàng)目的起點(diǎn)將是理論的。一位科學(xué)家將從理論猜測(cè)開始，是理論的。一位科學(xué)家將從理論猜測(cè)開始，然后才轉(zhuǎn)向?qū)嶒?yàn)去繼續(xù)或檢驗(yàn)該假設(shè)。然后才轉(zhuǎn)向?qū)嶒?yàn)去繼續(xù)或檢驗(yàn)該假設(shè)。新的范式：從機(jī)理出發(fā)，推

9、論在一定條件新的范式：從機(jī)理出發(fā)，推論在一定條件下細(xì)胞的表現(xiàn)，再用實(shí)驗(yàn)去驗(yàn)證。下細(xì)胞的表現(xiàn)，再用實(shí)驗(yàn)去驗(yàn)證。現(xiàn)代，生物學(xué)已分為兩個(gè)部分：現(xiàn)代，生物學(xué)已分為兩個(gè)部分：計(jì)算機(jī)在生物學(xué)中的應(yīng)用l試驗(yàn)生物學(xué)：傳統(tǒng)的、依靠實(shí)踐發(fā)現(xiàn)事物的試驗(yàn)生物學(xué)：傳統(tǒng)的、依靠實(shí)踐發(fā)現(xiàn)事物的性質(zhì)和活動(dòng)規(guī)律的學(xué)科。性質(zhì)和活動(dòng)規(guī)律的學(xué)科。研究對(duì)象是組成生研究對(duì)象是組成生物體的元件。研究手段是物質(zhì)分離和檢測(cè)技物體的元件。研究手段是物質(zhì)分離和檢測(cè)技術(shù)。當(dāng)前主要在于建立高通量檢測(cè)技術(shù)。術(shù)。當(dāng)前主要在于建立高通量檢測(cè)技術(shù)。l理論生物學(xué)：根據(jù)事物已知性質(zhì)和活動(dòng)規(guī)律理論生物學(xué)：根據(jù)事物已知性質(zhì)和活動(dòng)規(guī)律推導(dǎo)其可能性質(zhì)和活動(dòng)規(guī)律的學(xué)科

10、。推導(dǎo)其可能性質(zhì)和活動(dòng)規(guī)律的學(xué)科。研究對(duì)研究對(duì)象是生物體整體。研究手段是邏輯分析和推象是生物體整體。研究手段是邏輯分析和推導(dǎo)。導(dǎo)。l計(jì)算機(jī)作為生物研究的工具，在前期生物學(xué)計(jì)算機(jī)作為生物研究的工具，在前期生物學(xué)研究工作中作為計(jì)算和存儲(chǔ)工具起輔助作用。研究工作中作為計(jì)算和存儲(chǔ)工具起輔助作用。在當(dāng)前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。在當(dāng)前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。數(shù)據(jù)處理是高通量檢測(cè)技術(shù)和理論生物學(xué)數(shù)據(jù)處理是高通量檢測(cè)技術(shù)和理論生物學(xué)研究的主要方法。產(chǎn)生研究的主要方法。產(chǎn)生生物信息學(xué)生物信息學(xué)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用：表格處理；圖表功能；數(shù)據(jù)庫管理功能。表格處理；圖表功能；數(shù)據(jù)庫管理功能

11、。1 圖表制作圖表制作建立圖表，激活和修改圖表項(xiàng)。建立圖表，激活和修改圖表項(xiàng)。2 計(jì)算計(jì)算引用：相對(duì)引用（引用：相對(duì)引用（=(a1-b1)/c1*d1）絕對(duì)引用（絕對(duì)引用（$ a$1-$b$1)/$c$1*$d$1 ）函數(shù)：函數(shù)：chitest（檢驗(yàn)相關(guān)性）；（檢驗(yàn)相關(guān)性）；slope（斜率）；（斜率）；intercept（截距）。（截距）。 ISIS DRAW2的應(yīng)用的應(yīng)用l下載軟件：下載軟件：/ 計(jì)算機(jī)在生物學(xué)中的應(yīng)用背景：背景：1 數(shù)據(jù)分析技術(shù)的發(fā)展：數(shù)據(jù)分析技術(shù)的發(fā)展：1962年年Zuckerkandl和和Pauling將序列變異分析與其演化關(guān)系聯(lián)系起將序列變異分析與其演化關(guān)系聯(lián)系起

12、來，開辟了分子演化的研究領(lǐng)域；來，開辟了分子演化的研究領(lǐng)域；1964年年Davies開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究；開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究；1970年年Needoeman和和Wunsch發(fā)表了兩序列比較算發(fā)表了兩序列比較算法；法；1974年年Ratner運(yùn)用理論方法對(duì)分子遺傳調(diào)運(yùn)用理論方法對(duì)分子遺傳調(diào)控系統(tǒng)進(jìn)行分析；控系統(tǒng)進(jìn)行分析；1975年年P(guān)ipas和和McMahon用用計(jì)算機(jī)技術(shù)預(yù)測(cè)二級(jí)結(jié)構(gòu)。計(jì)算機(jī)技術(shù)預(yù)測(cè)二級(jí)結(jié)構(gòu)。1976年后生物學(xué)數(shù)年后生物學(xué)數(shù)據(jù)分析技術(shù)大量涌現(xiàn)。據(jù)分析技術(shù)大量涌現(xiàn)。2 人類基因組計(jì)劃產(chǎn)生了大量基因信息（圖人類基因組計(jì)劃產(chǎn)生了大量基因信息（圖0）計(jì)算機(jī)在生物學(xué)中的應(yīng)用生物

13、信息學(xué)（生物信息學(xué)（bioinformatics）：利用計(jì)算機(jī)）：利用計(jì)算機(jī)技術(shù)并參照現(xiàn)代信息技術(shù)，對(duì)生物信息進(jìn)行儲(chǔ)技術(shù)并參照現(xiàn)代信息技術(shù)，對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和綜合分析。及一是對(duì)海量數(shù)據(jù)的收存、檢索和綜合分析。及一是對(duì)海量數(shù)據(jù)的收集、整理與服務(wù)。二是使用數(shù)據(jù)。集、整理與服務(wù)。二是使用數(shù)據(jù)。生物信息學(xué)是把生物信息學(xué)是把DNA序列分析作為源頭，找序列分析作為源頭，找到基因組序列中代表蛋白質(zhì)和到基因組序列中代表蛋白質(zhì)和mRNA的編碼的編碼區(qū)；同時(shí)，闡明基因組中大量存在的非編碼區(qū)區(qū)；同時(shí)，闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì)，破譯隱藏在的信息實(shí)質(zhì)，破譯隱藏在DNA序列中的遺傳語序列中的遺傳語

14、言規(guī)律；在此基礎(chǔ)上，歸納、整理與基因組遺言規(guī)律；在此基礎(chǔ)上，歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù)，從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的的數(shù)據(jù)，從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的規(guī)律。規(guī)律。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l生物信息學(xué)基本方法：生物信息學(xué)基本方法：1 數(shù)據(jù)庫信息檢索；數(shù)據(jù)庫信息檢索；2 用序列比對(duì)（用序列比對(duì)（alignment，對(duì)位排列）方法進(jìn)，對(duì)位排列）方法進(jìn)行數(shù)據(jù)庫序列檢索；行數(shù)據(jù)庫序列檢索；3 網(wǎng)絡(luò)分析，計(jì)算機(jī)模擬。網(wǎng)絡(luò)分析，計(jì)算機(jī)模擬。問題：你對(duì)生物信息學(xué)的認(rèn)識(shí)問題：你對(duì)生物信息學(xué)的認(rèn)識(shí)計(jì)算機(jī)在生物學(xué)中的應(yīng)用生物信息

15、數(shù)據(jù)庫分類保存各種生物信息，生物信息數(shù)據(jù)庫分類保存各種生物信息，為大家提供計(jì)算機(jī)分析的基本材料。例文獻(xiàn)為大家提供計(jì)算機(jī)分析的基本材料。例文獻(xiàn)數(shù)據(jù)庫、序列數(shù)據(jù)庫。數(shù)據(jù)庫、序列數(shù)據(jù)庫。：維護(hù)和提供數(shù)據(jù)庫服務(wù)。：維護(hù)和提供數(shù)據(jù)庫服務(wù)。主要工作：在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算主要工作：在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問題；為科科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問題；為科學(xué)和醫(yī)學(xué)界開發(fā)、維護(hù)和分享一系列的生物學(xué)和醫(yī)學(xué)界開發(fā)、維護(hù)和分享一系列的生物信息學(xué)數(shù)據(jù)庫；開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)信息學(xué)數(shù)據(jù)庫；開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫、數(shù)據(jù)存儲(chǔ)、交換以及生物學(xué)命名規(guī)則的庫、數(shù)據(jù)存儲(chǔ)、交換以及生物學(xué)命名

16、規(guī)則的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化。計(jì)算機(jī)在生物學(xué)中的應(yīng)用重要的生物信息中心：重要的生物信息中心：1 美國國家生物技術(shù)信息中心（美國國家生物技術(shù)信息中心（NCBI）（管理著包括（管理著包括GenBank在內(nèi)的一批數(shù)據(jù)在內(nèi)的一批數(shù)據(jù)庫）庫）2 歐洲生物信息學(xué)研究所（歐洲生物信息學(xué)研究所（EBI） (主網(wǎng)頁，可鏈接到其他項(xiàng)目主網(wǎng)頁，可鏈接到其他項(xiàng)目) (各種數(shù)據(jù)庫和分析工具各種數(shù)據(jù)庫和分析工具) (公眾服務(wù)網(wǎng)頁公眾服務(wù)網(wǎng)頁)計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 日本核酸數(shù)據(jù)庫（日本核酸數(shù)據(jù)庫（DDBJ）：）： 4 北京大學(xué)生物信息中心北京大學(xué)生物信息中心（CBI或或PKUCBI，是，是EMBnet的中國節(jié)點(diǎn)，也是的中國

17、節(jié)點(diǎn)，也是APBionet的中國的中國節(jié)點(diǎn)）節(jié)點(diǎn)）計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 一級(jí)數(shù)據(jù)庫：記錄實(shí)驗(yàn)結(jié)果和初步的解釋一級(jí)數(shù)據(jù)庫：記錄實(shí)驗(yàn)結(jié)果和初步的解釋2 二級(jí)數(shù)據(jù)庫：從一級(jí)數(shù)據(jù)庫提取的信息構(gòu)建二級(jí)數(shù)據(jù)庫：從一級(jí)數(shù)據(jù)庫提取的信息構(gòu)建的數(shù)據(jù)庫的數(shù)據(jù)庫l 一級(jí)核酸序列數(shù)據(jù)庫：一級(jí)核酸序列數(shù)據(jù)庫：（A）GenBank：（B）EMBL（歐洲分子生物學(xué)實(shí)驗(yàn)室的（歐洲分子生物學(xué)實(shí)驗(yàn)室的DNA和和RNA數(shù)據(jù)庫）：數(shù)據(jù)庫）：計(jì)算機(jī)在生物學(xué)中的應(yīng)用（C）DDBJ(日本核酸數(shù)據(jù)庫日本核酸數(shù)據(jù)庫)：翻譯編碼的翻譯編碼的DNA序列（根據(jù)序列（根據(jù)ORF，數(shù)據(jù)庫，數(shù)據(jù)庫中搜索）中搜索）（D）GeneBuilder：

18、r.it/webgene/genebuilder.html（E）上海生命科學(xué)中心：）上海生命科學(xué)中心：l 一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫：一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫：（A） PIR-PSD：序列來自于：序列來自于GenBank/EMBL/ DDBJ的編碼序列的翻譯、文獻(xiàn)中的和用戶的編碼序列的翻譯、文獻(xiàn)中的和用戶計(jì)算機(jī)在生物學(xué)中的應(yīng)用直接提交的序列。目前最大的公共蛋白質(zhì)序列直接提交的序列。目前最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。衍生出數(shù)據(jù)庫。衍生出iProClass（描述蛋白質(zhì)家族（描述蛋白質(zhì)家族的關(guān)系及結(jié)構(gòu)的關(guān)系及結(jié)構(gòu)/功能特征），還有功能特征），還有PIR-NREF ，PIR-ASDB，IESA，PIR-NRL3

19、D，RESID，PIR-ALN等其他輔助數(shù)據(jù)庫。等其他輔助數(shù)據(jù)庫。 /pirwww/（B）SWISS-PROT/TrEMBL：經(jīng)注釋的蛋白：經(jīng)注釋的蛋白質(zhì)數(shù)據(jù)庫。每個(gè)條目包括蛋白質(zhì)序列、引用質(zhì)數(shù)據(jù)庫。每個(gè)條目包括蛋白質(zhì)序列、引用文獻(xiàn)、分類學(xué)信息、注釋等。注釋包括蛋白文獻(xiàn)、分類學(xué)信息、注釋等。注釋包括蛋白質(zhì)功能、轉(zhuǎn)錄后修飾位點(diǎn)、特殊位點(diǎn)和區(qū)質(zhì)功能、轉(zhuǎn)錄后修飾位點(diǎn)、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其他序列的形域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其他序列的形式性、序列殘缺與疾病的關(guān)系、序列變異體式性、序列殘缺與疾病的關(guān)系、序列變異體等信息。等信息。計(jì)算機(jī)在生物學(xué)中的

20、應(yīng)用l 二級(jí)核酸序列數(shù)據(jù)庫二級(jí)核酸序列數(shù)據(jù)庫CUTG：密碼子使用頻度表：密碼子使用頻度表 EPD：真核生物啟動(dòng)子數(shù)據(jù)庫：真核生物啟動(dòng)子數(shù)據(jù)庫 OOTFD：轉(zhuǎn)錄因子和基因表達(dá)數(shù)據(jù)庫：轉(zhuǎn)錄因子和基因表達(dá)數(shù)據(jù)庫 RepBase：真核生物：真核生物DNA中重復(fù)序列數(shù)據(jù)庫中重復(fù)序列數(shù)據(jù)庫 MPDB：外顯子和內(nèi)含子數(shù)據(jù)庫：外顯子和內(nèi)含子數(shù)據(jù)庫計(jì)算機(jī)在生物學(xué)中的應(yīng)用HGMD(可用于預(yù)測(cè)基因疾病可用于預(yù)測(cè)基因疾病)： PDD(人類體液中蛋白質(zhì)與疾病關(guān)系人類體液中蛋白質(zhì)與疾病關(guān)系)： HIV(愛滋病分子免疫學(xué)愛滋病分子免疫學(xué))： /immunology/immuno-main.

21、html WIT(重構(gòu)代謝重構(gòu)代謝) ：/wit2/ CSNDB(細(xì)胞信號(hào)網(wǎng)絡(luò)細(xì)胞信號(hào)網(wǎng)絡(luò))：geo.nihs.go.jp/csndb/ 計(jì)算機(jī)在生物學(xué)中的應(yīng)用AgDB(農(nóng)業(yè)數(shù)據(jù)庫和信息資源總清單農(nóng)業(yè)數(shù)據(jù)庫和信息資源總清單)： PharmGKB( 藥物遺傳學(xué)和藥物基因組學(xué)藥物遺傳學(xué)和藥物基因組學(xué))： GBIF(全球生物多樣性信息機(jī)構(gòu)全球生物多樣性信息機(jī)構(gòu))： l模式生物：模式生物：計(jì)算機(jī)在生物學(xué)中的應(yīng)用人（人（Homo sapiens)；小鼠（小鼠（Mus musculus）；）；大腸桿菌（大腸桿菌（Escherichia coli）；）；釀酒酵母（釀酒酵

22、母（Saccharomyces cerevisiae）；）；果蠅（果蠅（Drosophila melanogaster）：遺傳；）：遺傳；秀麗線蟲（秀麗線蟲（Caenorhabitedis elegans）：只有約）：只有約千個(gè)細(xì)胞的動(dòng)物，研究千個(gè)細(xì)胞的動(dòng)物，研究RNAi的模式生物；的模式生物；海膽（海膽（Strongylocentrotus purpuratus）：研究）：研究發(fā)育和基因調(diào)控的模式生物；發(fā)育和基因調(diào)控的模式生物；擬南芥（擬南芥（Arabidopsis thaliana）：生活周期）：生活周期6周周的十字花科植物，研究植物的模式生物。的十字花科植物，研究植物的模式生物。

23、計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 各種生物信息中心各種生物信息中心2 大腸桿菌大腸桿菌K12完全基因組序列：完全基因組序列： 3 MYGD(酵母基因組酵母基因組蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫) 4 BDGP(果蠅基因組中心果蠅基因組中心)：計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 PubMed：生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫：生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫2 OMIM（Online Mendelian inheritance in Man)：保存所有已知的人類生物學(xué)和疾病信：保存所有已知的人類生物學(xué)和疾病信息的數(shù)據(jù)庫息的數(shù)據(jù)庫3 GeneCard：保存注釋過（定性）基因的數(shù)據(jù)庫保存注釋過（定性）基因的數(shù)據(jù)庫4 LocusL

24、ink：同：同3計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 核酸研究核酸研究(每年第一期是數(shù)據(jù)庫專集每年第一期是數(shù)據(jù)庫專集) ：2 NAR (核酸研究數(shù)據(jù)庫總匯核酸研究數(shù)據(jù)庫總匯) ：3 DBcat (法國生物信息中心法國生物信息中心)：4 nature(介紹基因組測(cè)序進(jìn)展的新聞介紹基因組測(cè)序進(jìn)展的新聞)： l問題：生物信息數(shù)據(jù)庫的作用問題：生物信息數(shù)據(jù)庫的作用計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 序列檢索工具：序列檢索工具：Entrez：Batch Entrez (批處理批處理) ，NCBI提提供的集成檢索工具?？梢酝ㄟ^一次檢索而查供的集成檢索工具。可以通過一次檢索而查詢到多個(gè)子系統(tǒng)中的所有信息。詢到多個(gè)子系統(tǒng)中的所有信

25、息。主頁面有兩個(gè)窗口主頁面有兩個(gè)窗口1) 下拉式菜單：選擇下拉式菜單：選擇14個(gè)數(shù)據(jù)庫個(gè)數(shù)據(jù)庫2) 搜索：關(guān)鍵詞、作者、雜志、名、物種、搜索：關(guān)鍵詞、作者、雜志、名、物種、檢索號(hào)等。檢索號(hào)等。3) 查詢結(jié)果右上角的查詢結(jié)果右上角的link表示與其他數(shù)據(jù)庫的表示與其他數(shù)據(jù)庫的超級(jí)連接。超級(jí)連接。計(jì)算機(jī)在生物學(xué)中的應(yīng)用SRS：Sequence Retrieval System，EBI的檢索的檢索工具。工具。有三種查詢方式：有三種查詢方式：1）Quick Sequence：快速查詢。選擇數(shù)據(jù)庫查：快速查詢。選擇數(shù)據(jù)庫查關(guān)鍵詞。關(guān)鍵詞。2） Standard：標(biāo)準(zhǔn)查詢。由用戶限定查詢條：標(biāo)準(zhǔn)查詢。

26、由用戶限定查詢條件。件。3） Extended：擴(kuò)展查詢?？梢詫⑤斎腙P(guān)鍵詞的：擴(kuò)展查詢。可以將輸入關(guān)鍵詞的查尋范圍限定在物種、說明、作者、文獻(xiàn)等范查尋范圍限定在物種、說明、作者、文獻(xiàn)等范圍內(nèi)，也可以先定日期和序列長度。圍內(nèi)，也可以先定日期和序列長度。計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 GBFF格式（格式（ GenBank flatfile， GenBank平平面文件）。面文件）。（圖（圖 1，圖，圖2，圖，圖3）BACs（bacterial artificial chromosomes）細(xì)菌人）細(xì)菌人工染色體：攜帶人類基因工染色體：攜帶人類基因DNA片段的細(xì)菌載體片段的細(xì)菌載體YACs（yeast a

27、rtificial chromosomes）酵母人工）酵母人工染色體：攜帶人類基因染色體：攜帶人類基因DNA片段的酵母載體片段的酵母載體STS（sequence tagged site）序列標(biāo)簽位點(diǎn)：染）序列標(biāo)簽位點(diǎn)：染色體上獨(dú)特的色體上獨(dú)特的DNA序列短片段序列短片段ESTs（expressed sequence tags）表達(dá)序列標(biāo)）表達(dá)序列標(biāo)簽：簽：cDNA 5端的短片段端的短片段計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 FASTA格式格式：第一行：第一行：打頭的文字說明，主要為標(biāo)記序列打頭的文字說明，主要為標(biāo)記序列用。用。第二行開始是序列，每行不超過第二行開始是序列，每行不超過80個(gè)字母（核個(gè)字母

28、（核酸大小寫均可，氨基酸一般大寫）。酸大小寫均可，氨基酸一般大寫）。由于由于FASTA沒有特殊的結(jié)束標(biāo)志，建議最后留沒有特殊的結(jié)束標(biāo)志，建議最后留一空行。一空行。gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsgatcct 計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 EPD格式和格式和PDB數(shù)據(jù)格式：數(shù)據(jù)格式：（圖（圖4）問題：自己設(shè)計(jì)一個(gè)檢索路徑。問題：自己設(shè)計(jì)一個(gè)檢索路

29、徑。計(jì)算機(jī)在生物學(xué)中的應(yīng)用用戶提交一個(gè)核酸或蛋白質(zhì)序列，同指定用戶提交一個(gè)核酸或蛋白質(zhì)序列，同指定數(shù)據(jù)庫的全部序列做比較，尋找一個(gè)得分最數(shù)據(jù)庫的全部序列做比較，尋找一個(gè)得分最高（或代價(jià)最?。┑谋葘?duì)。通過相似序列的高（或代價(jià)最?。┑谋葘?duì)。通過相似序列的種類和功能，確定其種類和功能。種類和功能，確定其種類和功能。l序列比對(duì)的基本思想基于一條分子生物學(xué)規(guī)序列比對(duì)的基本思想基于一條分子生物學(xué)規(guī)則：當(dāng)兩個(gè)分子享有相似的序列時(shí)，由于進(jìn)則：當(dāng)兩個(gè)分子享有相似的序列時(shí)，由于進(jìn)化關(guān)系和物理化學(xué)限制，它們將很有可能具化關(guān)系和物理化學(xué)限制，它們將很有可能具有相似的三維結(jié)構(gòu)和生物學(xué)功能。有相似的三維結(jié)構(gòu)和生物學(xué)功能

30、。計(jì)算機(jī)在生物學(xué)中的應(yīng)用分兩種（圖分兩種（圖5）1 最簡單的操作：提交一個(gè)核酸或蛋白質(zhì)序最簡單的操作：提交一個(gè)核酸或蛋白質(zhì)序列，同一級(jí)數(shù)據(jù)庫的序列做比較，人工判列，同一級(jí)數(shù)據(jù)庫的序列做比較，人工判斷同源性?；驹瓌t：尋找一個(gè)最佳對(duì)齊斷同源性?；驹瓌t：尋找一個(gè)最佳對(duì)齊方式。方式。2 基于知識(shí)的預(yù)測(cè)：將已知樣本抽象成代表基于知識(shí)的預(yù)測(cè)：將已知樣本抽象成代表序列序列-結(jié)構(gòu)或序列結(jié)構(gòu)或序列-功能相關(guān)性的經(jīng)驗(yàn)規(guī)則，功能相關(guān)性的經(jīng)驗(yàn)規(guī)則，由其判斷同源性（如由其判斷同源性（如motif庫）。此方法的庫）。此方法的首要任務(wù)是找出可以擴(kuò)展到結(jié)構(gòu)和功能性首要任務(wù)是找出可以擴(kuò)展到結(jié)構(gòu)和功能性質(zhì)的序列特征。質(zhì)的序列

31、特征。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l兩條序列相似程度的量化表示：相似度（表兩條序列相似程度的量化表示：相似度（表示相似程度的函數(shù)）；距離（表示不相似程示相似程度的函數(shù)）；距離（表示不相似程度的函數(shù)，有海明距離和編輯距離）度的函數(shù)，有海明距離和編輯距離）l代價(jià)（代價(jià)（cost）或權(quán)重（）或權(quán)重（weight）：）： w（a，a）= 0 w（a，b）= 1 （a w（a，-）= w（-，b）= 1 l得分（得分（score）：）：p （a，a）= 1 p （a，b）= 0 （ab） p （a，-）= w（-，b）= -1 計(jì)算機(jī)在生物學(xué)中的應(yīng)用例例1：兩條字符串：兩條字符串AIMS和和AMOS的最佳對(duì)齊

32、方式的最佳對(duì)齊方式 A I M S A MOS 例例2：兩個(gè)氨基酸序列：兩個(gè)氨基酸序列ARRSG和和ARKTVG。 ARRS G ARKTVG計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 點(diǎn)陣分析：用兩條序列為點(diǎn)陣分析：用兩條序列為X和和Y軸構(gòu)建二維矩陣，用軸構(gòu)建二維矩陣，用點(diǎn)表現(xiàn)兩條序列的相似部分。點(diǎn)所包含的片段長度點(diǎn)表現(xiàn)兩條序列的相似部分。點(diǎn)所包含的片段長度叫叫窗口窗口，匹配長度叫，匹配長度叫相似度閾值相似度閾值。2 動(dòng)態(tài)規(guī)劃算法：最優(yōu)對(duì)位排列方法動(dòng)態(tài)規(guī)劃算法：最優(yōu)對(duì)位排列方法對(duì)兩個(gè)序列對(duì)兩個(gè)序列a=a1a2an和和b=b1b2bn，當(dāng)，當(dāng)S=S(a1a2ai，b1b2bi)時(shí)有：時(shí)有： Sij= maxS

33、i-1, j-1+s(ai , bj), max (Si-x, j+Wx), max(Si, j-y+Wy) Sij：ij位置的分值；位置的分值；s(ai , bj)： Sij的打分分值；的打分分值； Wx ：長度為：長度為x的空位的空位(間隔間隔)罰分。罰分。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l蛋白質(zhì)打分矩陣：蛋白質(zhì)打分矩陣： PAM1矩陣矩陣：根據(jù)：根據(jù)71組相似性在組相似性在85%以上的蛋以上的蛋白質(zhì)序列中的白質(zhì)序列中的1572種變化來估計(jì)氨基酸在蛋白種變化來估計(jì)氨基酸在蛋白質(zhì)進(jìn)化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每質(zhì)進(jìn)化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每108年年一個(gè)突變的替換頻率（假定每一個(gè)特定位點(diǎn)的一個(gè)

34、突變的替換頻率（假定每一個(gè)特定位點(diǎn)的每一個(gè)變化都是獨(dú)立的）。每一個(gè)變化都是獨(dú)立的）。不同的不同的PAM 矩陣可應(yīng)用于不同相似性水平矩陣可應(yīng)用于不同相似性水平序列比對(duì)。例：序列比對(duì)。例：PAM 250、PAM120、 PAM80和和PAM60分別用于分別用于1427%、40%、50%、和、和60%相似性的序列比對(duì)。相似性的序列比對(duì)。 PAM250由由PAM1自自乘乘250次產(chǎn)生，代表次產(chǎn)生，代表25億年中億年中250%的預(yù)期變化的預(yù)期變化水平。水平。(PAM250的矩陣，圖的矩陣，圖7) 計(jì)算機(jī)在生物學(xué)中的應(yīng)用 BLOSUM矩陣矩陣：在有：在有500個(gè)蛋白質(zhì)家族的數(shù)據(jù)個(gè)蛋白質(zhì)家族的數(shù)據(jù)庫（庫（

35、PROSITE）中針對(duì)）中針對(duì)2000個(gè)保守氨基酸模式個(gè)保守氨基酸模式進(jìn)行替換頻率鑒定。進(jìn)行替換頻率鑒定。具有具有60%同一性的模式聚在一起構(gòu)造一個(gè)矩同一性的模式聚在一起構(gòu)造一個(gè)矩陣就是陣就是BLOSUM60，依此類推。，依此類推。 PAM模型可用于尋找蛋白質(zhì)的進(jìn)化起源，模型可用于尋找蛋白質(zhì)的進(jìn)化起源，BLOSUM模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。l核酸打分矩陣：核酸打分矩陣： PAM矩陣矩陣單位矩陣：相同堿基為單位矩陣：相同堿基為1，不同為，不同為0。轉(zhuǎn)換轉(zhuǎn)換-顛換矩陣：相同堿基為正顛換矩陣：相同堿基為正1分，轉(zhuǎn)換為分，轉(zhuǎn)換為-1分，顛換為分，顛換為-5分。分

36、。計(jì)算機(jī)在生物學(xué)中的應(yīng)用在不知道序列間的相似性大小時(shí)，需用在不知道序列間的相似性大小時(shí)，需用H（相對(duì)平均信息量）判斷選擇合適的矩陣。一（相對(duì)平均信息量）判斷選擇合適的矩陣。一般來說，若其他因素相同，般來說，若其他因素相同，H值高的合適。值高的合適。 20 i H=qij*Sij i=1 j=1 q：每個(gè)氨基酸對(duì)出現(xiàn)的頻率，：每個(gè)氨基酸對(duì)出現(xiàn)的頻率，S：每個(gè)氨基酸：每個(gè)氨基酸對(duì)的分值（以對(duì)的分值（以log2為單位，稱比特為單位，稱比特bit）。）。l空位罰分：空位罰分：wx=g+rx 或或 wx=g+r( x 1) 。 g：空位窗，單個(gè)空位的罰分；：空位窗，單個(gè)空位的罰分；r：空位擴(kuò)展罰：空

37、位擴(kuò)展罰分，多個(gè)空位的追加罰分；分，多個(gè)空位的追加罰分；x：空位長度。：空位長度。計(jì)算機(jī)在生物學(xué)中的應(yīng)用A 全局比對(duì)：全局比對(duì)是兩條序列從頭到尾的全局比對(duì)：全局比對(duì)是兩條序列從頭到尾的比對(duì)，有比對(duì)，有Needleman-Wunsch算法。算法。第一步：用兩條序列為第一步：用兩條序列為X和和Y軸構(gòu)建二維軸構(gòu)建二維矩陣，矩陣中只有元素矩陣，矩陣中只有元素S0,0=0，從，從S0,0開始，開始，對(duì)每一個(gè)位點(diǎn)賦值。賦值由出發(fā)點(diǎn)的分值對(duì)每一個(gè)位點(diǎn)賦值。賦值由出發(fā)點(diǎn)的分值+打分（罰分）組成。在所有路徑中選分最高打分（罰分）組成。在所有路徑中選分最高的。的。第二步：當(dāng)矩陣中所有位點(diǎn)的賦值完成第二步：當(dāng)

38、矩陣中所有位點(diǎn)的賦值完成后，從最高分值位點(diǎn)回溯，找出的分值最高后，從最高分值位點(diǎn)回溯，找出的分值最高的路徑就是最優(yōu)化的序列對(duì)位排列方式。的路徑就是最優(yōu)化的序列對(duì)位排列方式。（圖（圖6）計(jì)算機(jī)在生物學(xué)中的應(yīng)用B 局部比對(duì)：是一條序列的片斷與一條完整序列局部比對(duì)：是一條序列的片斷與一條完整序列之間的比對(duì)，有之間的比對(duì)，有Smith-Waterman算法。算法。對(duì)于矩陣中所有對(duì)于矩陣中所有j，令，令D0,j=0，對(duì)于矩陣中所，對(duì)于矩陣中所有有i，令，令D0,i=0，就可能實(shí)現(xiàn)兩條序列的局部比，就可能實(shí)現(xiàn)兩條序列的局部比對(duì)。這對(duì)于在由多個(gè)區(qū)域組成的序列中發(fā)現(xiàn)多對(duì)。這對(duì)于在由多個(gè)區(qū)域組成的序列中發(fā)現(xiàn)

39、多個(gè)匹配有用。個(gè)匹配有用。C 高分值片段對(duì)（高分值片段對(duì)（HSP）判斷：）判斷： P(Sx)=1-exp(-Kmne-x)； X：片段長度。：片段長度。 P(Sx)是最大片段的分大于是最大片段的分大于X的概率。的概率。l顯著性評(píng)價(jià)：顯著性評(píng)價(jià)：E(S)=log(Kmn)/ E：期望分值：期望分值(序列最長匹配的期望值序列最長匹配的期望值)；K：錯(cuò)：錯(cuò)配數(shù)；配數(shù)；m和和n：序列長度；：序列長度； = loge(1/p)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 散列算法：不是比較兩個(gè)序列中單個(gè)的殘基，散列算法：不是比較兩個(gè)序列中單個(gè)的殘基，而是搜索匹配序列模式或而是搜索匹配序列模式或k-串。串。在該方法中，需

40、要為每個(gè)序列建立一個(gè)查詢?cè)谠摲椒ㄖ?，需要為每個(gè)序列建立一個(gè)查詢表來標(biāo)明每個(gè)長度為表來標(biāo)明每個(gè)長度為k的單詞的單詞(k-串串)的位置。的位置。每每個(gè)單詞在兩個(gè)序列中的相對(duì)位置可用第二個(gè)序個(gè)單詞在兩個(gè)序列中的相對(duì)位置可用第二個(gè)序列中的位置減去第一個(gè)得到。列中的位置減去第一個(gè)得到。k-串長度由用戶串長度由用戶指定。指定。例：在二個(gè)序列中查找長度為例：在二個(gè)序列中查找長度為3的的k-串串位置位置 1 2 3 4 5 6 7 8 9 10 11序列序列1 n c s p t a 序列序列2 a c s p r k計(jì)算機(jī)在生物學(xué)中的應(yīng)用 Position in offset 序列序列1 序列序列2 序列

41、序列2-序列序列1 a 6 6 0 c 2 7 5 k - 11 n 1 - p 4 9 5 r - 10 s 3 8 5 t 5 -快速發(fā)現(xiàn)一個(gè)可能的對(duì)位排列快速發(fā)現(xiàn)一個(gè)可能的對(duì)位排列序列序列1 n c s p t a序列序列2 a c s p t a計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 BLAST(Basic Local Alignment Search Tool)：基本局域聯(lián)配搜尋工具，將所查詢的序列打斷基本局域聯(lián)配搜尋工具，將所查詢的序列打斷成為許多小序列片段（叫做字成為許多小序列片段（叫做字“W”），然后），然后用小序列片段逐步與數(shù)據(jù)庫序列進(jìn)行無空隙比用小序列片段逐步與數(shù)據(jù)庫序列進(jìn)行無空隙比對(duì)

42、。挑出分值大于閾值對(duì)。挑出分值大于閾值T的所有相似片段。對(duì)的所有相似片段。對(duì)目標(biāo)序列和挑出的數(shù)據(jù)庫序列進(jìn)行無空隙局部目標(biāo)序列和挑出的數(shù)據(jù)庫序列進(jìn)行無空隙局部比對(duì)。從字開始向兩邊延伸。用統(tǒng)計(jì)置信度檢比對(duì)。從字開始向兩邊延伸。用統(tǒng)計(jì)置信度檢驗(yàn)找到驗(yàn)找到HSP的組合。的組合。 E-value(expect value)：E=mn2-S m：目標(biāo)序列的有效長度：目標(biāo)序列的有效長度 n：數(shù)據(jù)庫的有效長度（總堿基數(shù)）：數(shù)據(jù)庫的有效長度（總堿基數(shù)） S ：標(biāo)準(zhǔn)比值（：標(biāo)準(zhǔn)比值（bit score）。）。計(jì)算機(jī)在生物學(xué)中的應(yīng)用 R-mnK S= ln2 和和K是正規(guī)化參數(shù)是正規(guī)化參數(shù) R：前期加工分值（：前

43、期加工分值（raw score） R=aI+bX+cO+dGa：對(duì)每個(gè)完全匹配的加分，：對(duì)每個(gè)完全匹配的加分，I：完全匹配的個(gè)數(shù)：完全匹配的個(gè)數(shù)b：對(duì)每個(gè)錯(cuò)配的加分，：對(duì)每個(gè)錯(cuò)配的加分，X：錯(cuò)配的核苷酸數(shù)：錯(cuò)配的核苷酸數(shù)c：每開發(fā)一個(gè)：每開發(fā)一個(gè)gap的罰分，的罰分，O： gap的數(shù)目的數(shù)目d： gap中每個(gè)中每個(gè)“-”的罰分，的罰分，G：總的：總的 “-”的數(shù)的數(shù)目目計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 FASTA：對(duì)角線方法，原理基于散列算法：對(duì)角線方法，原理基于散列算法3 比對(duì)步驟：比對(duì)步驟： l比對(duì)基因：選擇比對(duì)基因：選擇megaBLAST、數(shù)據(jù)庫，選擇濾、數(shù)據(jù)庫，選擇濾過程序，如濾過低復(fù)雜度區(qū)域

44、（過程序，如濾過低復(fù)雜度區(qū)域（low complexity region，LCR）即重復(fù)元件；選擇相似度）即重復(fù)元件；選擇相似度/字長字長(SCORES/ALIGN ) 、空位設(shè)置、空位設(shè)置(GAPOPEN)、空位擴(kuò)展空位擴(kuò)展(GAPTEXT)。設(shè)定。設(shè)定E的閾值（的閾值（S，缺，缺省值為省值為10）。）。l比對(duì)蛋白質(zhì)：選擇比對(duì)蛋白質(zhì)：選擇BLASTp、數(shù)據(jù)庫，選擇濾、數(shù)據(jù)庫，選擇濾過程序，設(shè)定過程序，設(shè)定E的閾值（缺省值為的閾值（缺省值為10）。）。l通常先用通常先用BLAST，結(jié)果不理想時(shí)再用，結(jié)果不理想時(shí)再用FASTA。l應(yīng)先做蛋白質(zhì)，再做核酸的序列比較。應(yīng)先做蛋白質(zhì)，再做核酸的序列比較

45、。計(jì)算機(jī)在生物學(xué)中的應(yīng)用序列比對(duì)結(jié)果：最佳匹配序列描述序列比對(duì)結(jié)果：最佳匹配序列描述所使用程序的描述、版本及相關(guān)信息所使用程序的描述、版本及相關(guān)信息, 所要檢索所要檢索的序列長度的序列長度, 所要檢索的數(shù)據(jù)庫信息，包括序列所要檢索的數(shù)據(jù)庫信息，包括序列記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果 Score ESequences producing significant alignments: (bits) Valuegi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0gi|18854963|AC093532.2| Homo sapiens

46、 862 e-167 Query: 616 gag gaannnnnnngtaata 675 | | | | | | | | | | | |Subjct: 616gag gaat t t t t t t gtaata 675計(jì)算機(jī)在生物學(xué)中的應(yīng)用例：假肥大性肌營養(yǎng)不良癥（例：假肥大性肌營養(yǎng)不良癥（DMD）基因分析）基因分析 DMD是一種隱性遺傳疾?。ǜ秷D是一種隱性遺傳疾?。ǜ秷D10.2）。前）。前期實(shí)驗(yàn)工作證明該疾病是期實(shí)驗(yàn)工作證明該疾病是X和和6號(hào)染色體重組所號(hào)染色體重組所至。在重組部位找到引起至。在重組部位找到引起DMD的基因的基因/蛋白質(zhì)蛋白質(zhì)dystrophin。 Dystrophin

47、在連接細(xì)胞骨架與外在連接細(xì)胞骨架與外骨架上起著重要作用。通過骨架上起著重要作用。通過BLAST2搜索，發(fā)搜索，發(fā)現(xiàn)另一種蛋白現(xiàn)另一種蛋白u(yù)trophin，其與，其與dystrophin有一有一個(gè)高度保守的序列個(gè)高度保守的序列DVQKKTFTKW，該序列，該序列參與形成參與形成螺旋。通過免疫定位，顯示螺旋。通過免疫定位，顯示utrophin位于骨骼肌中，并且聚集在神經(jīng)位于骨骼肌中，并且聚集在神經(jīng)-肌肉接點(diǎn)處。肌肉接點(diǎn)處。到目前為止，還沒有發(fā)現(xiàn)任何一種由到目前為止，還沒有發(fā)現(xiàn)任何一種由utrophin引起的疾病，使引入引起的疾病，使引入utrophin作為治療作為治療DMD的的手段被考慮。（付圖

48、手段被考慮。（付圖10.3-10.8）計(jì)算機(jī)在生物學(xué)中的應(yīng)用l多序列比對(duì)的目標(biāo)是發(fā)現(xiàn)多條序列的共性。多序列比對(duì)的目標(biāo)是發(fā)現(xiàn)多條序列的共性。l應(yīng)用于：應(yīng)用于：（1）基因組測(cè)序）基因組測(cè)序;（2）提供相似區(qū)域的信息）提供相似區(qū)域的信息;（3）揭示結(jié)構(gòu)和功能的關(guān)系）揭示結(jié)構(gòu)和功能的關(guān)系;（4）預(yù)測(cè)相同或不同有機(jī)體的相似家族或同）預(yù)測(cè)相同或不同有機(jī)體的相似家族或同一類群的其他成員。一類群的其他成員。計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 全局比對(duì)全局比對(duì)（1）逐對(duì)加和（）逐對(duì)加和（sum-of-pairs， SP）方法）方法三條序列三條序列A、B、C，分別進(jìn)行，分別進(jìn)行A-B、A- C、B-C比對(duì)，產(chǎn)生三個(gè)二維距

49、陣，尋找其中比對(duì)，產(chǎn)生三個(gè)二維距陣，尋找其中的最優(yōu)排列。計(jì)算的最優(yōu)排列。計(jì)算SP函數(shù)（一列中所有字符函數(shù)（一列中所有字符對(duì)得分之和）對(duì)得分之和） k-1 k SP-score(c1,c2,c,ck k)=p(c)=p(ci i,c,cj j) ) i=1 j=i+1 i=1 j=i+1 （c是列中的字符；是列中的字符；k是序列個(gè)數(shù)；是序列個(gè)數(shù)；p p是相似性是相似性打分函數(shù)打分函數(shù)。）。）加和所有列的得分。該方法比對(duì)的序列不加和所有列的得分。該方法比對(duì)的序列不能太多。程序：能太多。程序：MSA（）（）計(jì)算機(jī)在生物學(xué)中的應(yīng)用（2）動(dòng)態(tài)規(guī)劃算法）動(dòng)態(tài)規(guī)劃算法首先使用動(dòng)態(tài)規(guī)劃法獲得多重排列，從

50、最首先使用動(dòng)態(tài)規(guī)劃法獲得多重排列，從最相關(guān)序列開始，逐步疊加相關(guān)性小的序列。相關(guān)序列開始，逐步疊加相關(guān)性小的序列。程序：程序： CLUSTALW（圖）（圖）主要步驟：主要步驟： A 對(duì)所有序列進(jìn)行比對(duì)；對(duì)所有序列進(jìn)行比對(duì)； B 生成系統(tǒng)發(fā)生樹；生成系統(tǒng)發(fā)生樹； C 通過加權(quán)，依次排列序列。通過加權(quán)，依次排列序列。（3）其他方法：）其他方法：聚類方法；構(gòu)樹方法。聚類方法；構(gòu)樹方法。計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 序列中的局部比對(duì)：序列中的局部比對(duì)：（1）可以鑒定排列中高度保守的部分并產(chǎn)生一）可以鑒定排列中高度保守的部分并產(chǎn)生一類稱為概型（類稱為概型（profile）的記分矩陣。）的記分矩陣。概

51、型由更像小的多重比對(duì)的列構(gòu)成，包括概型由更像小的多重比對(duì)的列構(gòu)成，包括匹配、錯(cuò)配、插入和缺失?？捎糜趯ふ乙粋€(gè)匹配、錯(cuò)配、插入和缺失?？捎糜趯ふ乙粋€(gè)可能與之匹配的目標(biāo)序列?？赡芘c之匹配的目標(biāo)序列。程序：程序：GCG軟件包中的軟件包中的PILEUP（2）區(qū)塊分析：區(qū)塊（）區(qū)塊分析：區(qū)塊（block）也是在多重比）也是在多重比對(duì)中代表一個(gè)保守區(qū)域。與概形不同之處在對(duì)中代表一個(gè)保守區(qū)域。與概形不同之處在于序列中缺乏插入和缺失的位置。于序列中缺乏插入和缺失的位置。（BLOCKS）（3）基序搜索：）基序搜索：（EMOTIF）計(jì)算機(jī)在生物學(xué)中的應(yīng)用進(jìn)化樹：有一系列節(jié)點(diǎn)和分支組成。每個(gè)節(jié)點(diǎn)進(jìn)化樹：有一系

52、列節(jié)點(diǎn)和分支組成。每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元（物種或序列）。一般情況代表一個(gè)分類單元（物種或序列）。一般情況下，外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元，內(nèi)部下，外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元，內(nèi)部節(jié)點(diǎn)為分支點(diǎn)，他代表了進(jìn)化事件發(fā)生的位置，節(jié)點(diǎn)為分支點(diǎn)，他代表了進(jìn)化事件發(fā)生的位置，或代表分類單元進(jìn)化歷程中的祖先。或代表分類單元進(jìn)化歷程中的祖先。進(jìn)化樹類型：二元樹，無根樹，有根樹。進(jìn)化樹類型：二元樹，無根樹，有根樹。直系同源：不同物種之間擁有共同的功能的基直系同源：不同物種之間擁有共同的功能的基因。因。旁系同源：在同一生命體中，因復(fù)制過程中發(fā)旁系同源：在同一生命體中，因復(fù)制過程中發(fā)生歧異而產(chǎn)生的功能不

53、同的基因。生歧異而產(chǎn)生的功能不同的基因。蛋白質(zhì)超家族：具有某種共同結(jié)構(gòu)域的所有分蛋白質(zhì)超家族：具有某種共同結(jié)構(gòu)域的所有分子組成的分子集合。子組成的分子集合。計(jì)算機(jī)在生物學(xué)中的應(yīng)用分子進(jìn)化論：分子進(jìn)化論：20世紀(jì)世紀(jì)60年代，年代，Zucherkandl等等發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究物種間的分歧時(shí)間接近正線性關(guān)系，進(jìn)而將分子物種間的分歧時(shí)間接近正線性關(guān)系，進(jìn)而將分子水平的這種恒速變異稱為水平的這種恒速變異稱為“分子鐘分子鐘”。支持分子。支持分子鐘存在的證據(jù)來自免疫學(xué)的定量比較。但分子序鐘存在的證據(jù)來自免疫學(xué)的定量比較。但分子序列證據(jù)與

54、化石證據(jù)在人類起源時(shí)間上存在差異。列證據(jù)與化石證據(jù)在人類起源時(shí)間上存在差異。分子進(jìn)化原則：分子進(jìn)化原則： 1) 每個(gè)位點(diǎn)進(jìn)化速率恒定；每個(gè)位點(diǎn)進(jìn)化速率恒定； 2) 進(jìn)化速率進(jìn)化速率=突變替換數(shù)突變替換數(shù)/每位點(diǎn)每位點(diǎn)/每年；每年； 3) 破壞小的比破壞大的突變進(jìn)化頻繁；破壞小的比破壞大的突變進(jìn)化頻繁； 4) 基因復(fù)制在基因獲得新功能前發(fā)生?；驈?fù)制在基因獲得新功能前發(fā)生。計(jì)算機(jī)在生物學(xué)中的應(yīng)用（1）分子序列或特征數(shù)據(jù)的分析；）分子序列或特征數(shù)據(jù)的分析；（2）進(jìn)化樹構(gòu)造；）進(jìn)化樹構(gòu)造；（3）結(jié)果檢驗(yàn)。）結(jié)果檢驗(yàn)。應(yīng)用的分子數(shù)據(jù)分兩類：應(yīng)用的分子數(shù)據(jù)分兩類：（1）距離數(shù)據(jù)。由相似度打分的比對(duì)，

55、需轉(zhuǎn)化）距離數(shù)據(jù)。由相似度打分的比對(duì)，需轉(zhuǎn)化為距離：為距離： d(i,j)=1-(S(i,j)-Sr(i,j)/(Smax(i,j)- Sr(i,j)計(jì)算機(jī)在生物學(xué)中的應(yīng)用lS (i,j)：序列：序列i和和j各個(gè)比對(duì)位置得分的加權(quán)和各個(gè)比對(duì)位置得分的加權(quán)和;lSr (i,j)：序列：序列i和和j隨機(jī)化后的比對(duì)得分的加權(quán)隨機(jī)化后的比對(duì)得分的加權(quán)和和;lSmax(i,j)：序列：序列i和和j所有可能比對(duì)的最大值。所有可能比對(duì)的最大值。兩個(gè)序列歸一化距離的值處于兩個(gè)序列歸一化距離的值處于0和和1之間，之間，當(dāng)兩個(gè)序列完全一致時(shí)，距離為當(dāng)兩個(gè)序列完全一致時(shí)，距離為0；當(dāng)兩個(gè)序；當(dāng)兩個(gè)序列差異很大時(shí)，

56、距離接近于列差異很大時(shí)，距離接近于1。（2）離散特征數(shù)據(jù)：能夠表現(xiàn)序列特征的數(shù)據(jù)。）離散特征數(shù)據(jù)：能夠表現(xiàn)序列特征的數(shù)據(jù)。分為：分為：二態(tài)特征：即具有和不具有，常用二態(tài)特征：即具有和不具有，常用0和和1表示；表示；多態(tài)特征：具有兩種以上可能的狀態(tài)。多態(tài)特征：具有兩種以上可能的狀態(tài)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用用距離矩陣描述。用距離矩陣描述。常用距離方法：常用距離方法：（1）連鎖聚類方法和非加權(quán)分組平均方法（除）連鎖聚類方法和非加權(quán)分組平均方法（除權(quán)配對(duì)法，權(quán)配對(duì)法，UPGMA）：從最近的兩個(gè)樹葉開：從最近的兩個(gè)樹葉開始，定義一個(gè)新節(jié)點(diǎn)。不斷重復(fù)，最終產(chǎn)生樹始，定義一個(gè)新節(jié)點(diǎn)。不斷重復(fù)，最終產(chǎn)生

57、樹根。前提是替換速度均等且一致。根。前提是替換速度均等且一致。例：序列例：序列A ACGCGTTGGGCGATGGCAAC B ACGCGTTGGGCGACGGTAAT C ACGCATTGAATGATGATAAT E ACACATTGAGTGATAATAATl找出一個(gè)序列變成另一個(gè)序列所需的步驟數(shù)找出一個(gè)序列變成另一個(gè)序列所需的步驟數(shù) nAB=3，nAC=7，nAD=8，nBC=6，nBD=7，nCD=3計(jì)算機(jī)在生物學(xué)中的應(yīng)用l構(gòu)建距離表構(gòu)建距離表 A B C D A - 3 7 8 B - - 6 7 C - - - 3 D - - - -l根據(jù)序列之間的距離構(gòu)建樹根據(jù)序列之間的距離構(gòu)建樹

58、連鎖聚類法連鎖聚類法：（：（A）初始化：分別用）初始化：分別用n個(gè)葉節(jié)個(gè)葉節(jié)點(diǎn)代表每個(gè)類（分類單元的集合）；（點(diǎn)代表每個(gè)類（分類單元的集合）；（B）執(zhí)）執(zhí)行下列循環(huán)：尋找具有最小距離行下列循環(huán)：尋找具有最小距離dxy的兩個(gè)類的兩個(gè)類x,y；建立一個(gè)新的聚類；建立一個(gè)新的聚類z，以，以z為一個(gè)新的內(nèi)部為一個(gè)新的內(nèi)部節(jié)點(diǎn)，節(jié)點(diǎn)， z到到 x和和y的分支的長度為的分支的長度為d(x,y )/2；計(jì)算機(jī)在生物學(xué)中的應(yīng)用按按 d(z,u)=(d(x,u)+d(y,u)/2 計(jì)算新的分類到其計(jì)算新的分類到其他類的距離；從距離矩陣中刪除與他類的距離；從距離矩陣中刪除與x和和y相應(yīng)的相應(yīng)的行和列，加入與行

59、和列，加入與z相應(yīng)的行和列。從頭循環(huán)，相應(yīng)的行和列。從頭循環(huán)，直到僅剩一個(gè)類為止。直到僅剩一個(gè)類為止。 UPGMA：一個(gè)新類到其他類：一個(gè)新類到其他類(u)之間的距離就之間的距離就是簡單的原距離平均值；計(jì)算：是簡單的原距離平均值；計(jì)算： d(x,y),u=(nx/(nx+ny)dx,u+(ny/(nx+ny)dy,u n是每個(gè)類的元素個(gè)數(shù)。是每個(gè)類的元素個(gè)數(shù)。 2 1 A 4 C B D 1 2計(jì)算機(jī)在生物學(xué)中的應(yīng)用（2）距離變換法：考慮了不同家族的不同進(jìn)化）距離變換法：考慮了不同家族的不同進(jìn)化速率，利用外部參考種幫助確定正確的樹。設(shè)速率，利用外部參考種幫助確定正確的樹。設(shè)D為外部參考種，其就

60、作為變換其他物種之間為外部參考種，其就作為變換其他物種之間距離的參考：距離的參考： dij=(dij-diD-djD)/2+dD (i,j=A,B,C) dij是是i和和j之間的變換后距離，之間的變換后距離，dD是利用外部參是利用外部參考種與全體內(nèi)部物種之間的平均距離。在此，考種與全體內(nèi)部物種之間的平均距離。在此， dD =(dAD-dBD-dCD)/3。（3）鄰位相連法（）鄰位相連法（NJ）：在進(jìn)行類的合并時(shí)，）：在進(jìn)行類的合并時(shí)，不僅要求待合并的類是相近的，同時(shí)，還要求不僅要求待合并的類是相近的，同時(shí)，還要求待合并的類遠(yuǎn)離其他的類。待合并的類遠(yuǎn)離其他的類。計(jì)算機(jī)在生物學(xué)中的應(yīng)用（1）簡約法

人人文庫> 全部分類> 教育資料 > 課設(shè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)在生物學(xué)中的應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

計(jì)算機(jī)在生物學(xué)中的應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔