




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、計(jì)算機(jī)在生物學(xué)中的應(yīng)用Excel計(jì)算和作圖;序列數(shù)據(jù)應(yīng)用于試驗(yàn)室技術(shù)改良(計(jì)算和作圖;序列數(shù)據(jù)應(yīng)用于試驗(yàn)室技術(shù)改良(8););第一章第一章、生物信息數(shù)據(jù)庫(生物信息數(shù)據(jù)庫(12)第二章第二章、數(shù)據(jù)庫檢索(數(shù)據(jù)庫檢索(25)第三章第三章、序列比對(duì)(序列比對(duì)(30) 一一 序列比對(duì)策略序列比對(duì)策略(二二 算法算法(34) ;三;三 序列雙重比對(duì)(序列雙重比對(duì)(42) ;四;四 多序列比對(duì)(多序列比對(duì)(47)。)。第四章第四章 在系統(tǒng)發(fā)生分析中的應(yīng)用(在系統(tǒng)發(fā)生分析中的應(yīng)用(51)第五章第五章、生物信息學(xué)在基因組構(gòu)建中的應(yīng)用;、生物信息學(xué)在基因組構(gòu)建中的應(yīng)用;一一 基因的識(shí)別和基因的識(shí)別和鑒定(鑒定
2、(62)二)二 蛋白質(zhì)功能的預(yù)測(cè)(蛋白質(zhì)功能的預(yù)測(cè)(73) ;三;三 蛋白質(zhì)結(jié)構(gòu)預(yù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)(測(cè)(78) ;四;四 基因組中非編碼區(qū)的研究(基因組中非編碼區(qū)的研究(96) ;五;五 人類基人類基因組多樣性計(jì)劃(因組多樣性計(jì)劃(102) 。第六章第六章、計(jì)算機(jī)在其他方面的應(yīng)用(計(jì)算機(jī)在其他方面的應(yīng)用(107);藥物開發(fā)();藥物開發(fā)(110)。)。第七章第七章、生物信息學(xué)在組學(xué)中的應(yīng)用;一生物信息學(xué)在組學(xué)中的應(yīng)用;一 基因組學(xué)研究(基因組學(xué)研究(119););二二 功能基因組研究(功能基因組研究(128) ;三;三 蛋白質(zhì)組研究(蛋白質(zhì)組研究(137) ;四;四 蛋白質(zhì)的功能確定(蛋白質(zhì)的功
3、能確定(140);五);五 代謝組(代謝組(142);六);六 網(wǎng)絡(luò)研究網(wǎng)絡(luò)研究(145);七);七 細(xì)胞計(jì)劃(細(xì)胞計(jì)劃(157) 。第八章第八章、生物醫(yī)學(xué)信息資源(生物醫(yī)學(xué)信息資源(160)計(jì)算機(jī)在生物學(xué)中的應(yīng)用 計(jì)算機(jī)是生物研究的工具。為了了解計(jì)算計(jì)算機(jī)是生物研究的工具。為了了解計(jì)算機(jī)工具在生物研究中的應(yīng)用,首先需要了解機(jī)工具在生物研究中的應(yīng)用,首先需要了解生物研究的現(xiàn)狀。生物研究的現(xiàn)狀。l基因決定論基因決定論 由于由于DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),基因決定論雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),基因決定論成為主要觀點(diǎn)。人們嘗試尋找決定生物功能成為主要觀點(diǎn)。人們嘗試尋找決定生物功能的基因,但是受到挫折。的基因,但是
4、受到挫折。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l一是由于美國能源部用一是由于美國能源部用30多年研究多年研究“核輻射核輻射對(duì)人類基因突變作用對(duì)人類基因突變作用”,未取得實(shí)質(zhì)性突破,未取得實(shí)質(zhì)性突破進(jìn)展,受害者已表現(xiàn)進(jìn)展,受害者已表現(xiàn) 出明顯的突變性狀,但出明顯的突變性狀,但檢測(cè)不出其基因突變與對(duì)照組存在顯著性差檢測(cè)不出其基因突變與對(duì)照組存在顯著性差異。異。l二是美國于二是美國于1975年巨額投資啟動(dòng)的年巨額投資啟動(dòng)的“腫瘤十腫瘤十年計(jì)劃年計(jì)劃”基本以失敗告終。基本以失敗告終。 R. Dulbecco 于于1986在在science上發(fā)表上發(fā)表癌癥癌癥研究的轉(zhuǎn)折點(diǎn):測(cè)序人類基因組研究的轉(zhuǎn)折點(diǎn):測(cè)序人類基因組,
5、認(rèn)為要,認(rèn)為要徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的機(jī)制,必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序。機(jī)制,必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序。美國政府與美國政府與1990年正式啟動(dòng)年正式啟動(dòng)HGP。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l基因組學(xué)基因組學(xué) 由于基因組是物種所有遺傳信息的儲(chǔ)藏由于基因組是物種所有遺傳信息的儲(chǔ)藏庫,從根本上決定著物種個(gè)體的發(fā)育和生庫,從根本上決定著物種個(gè)體的發(fā)育和生理,因此,在研究遺傳、發(fā)育、進(jìn)化、功能理,因此,在研究遺傳、發(fā)育、進(jìn)化、功能調(diào)控等基本生物學(xué)問題方面,調(diào)控等基本生物學(xué)問題方面,基因組學(xué)基因組學(xué)關(guān)注關(guān)注的是基因組整體的作用,而不是個(gè)別基因。的
6、是基因組整體的作用,而不是個(gè)別基因。功能基因組學(xué)功能基因組學(xué)(后基因組學(xué))的中心任務(wù)是(后基因組學(xué))的中心任務(wù)是通過了解基因組表達(dá)與環(huán)境的關(guān)系,以及其通過了解基因組表達(dá)與環(huán)境的關(guān)系,以及其在基本生物學(xué)方面和人類健康和疾病相關(guān)的在基本生物學(xué)方面和人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題方面的意義。生物醫(yī)學(xué)問題方面的意義。l后基因組學(xué)后基因組學(xué)l轉(zhuǎn)錄組學(xué)轉(zhuǎn)錄組學(xué):關(guān)注:關(guān)注mRNA的組成和細(xì)胞功能的的組成和細(xì)胞功能的關(guān)系。關(guān)系。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l蛋白質(zhì)組學(xué)蛋白質(zhì)組學(xué):其中心任務(wù)是通過比較不同時(shí)間:其中心任務(wù)是通過比較不同時(shí)間或不同細(xì)胞的蛋白質(zhì)組成,以揭示蛋白質(zhì)變化或不同細(xì)胞的蛋白質(zhì)組成,以揭示蛋白質(zhì)
7、變化的生物學(xué)意義。的生物學(xué)意義。l結(jié)構(gòu)基因組學(xué)結(jié)構(gòu)基因組學(xué):了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì):了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì)功能的關(guān)系。功能的關(guān)系。l蛋白質(zhì)相互作用網(wǎng)絡(luò)蛋白質(zhì)相互作用網(wǎng)絡(luò):了解蛋白質(zhì)相互作用。:了解蛋白質(zhì)相互作用。l代謝組學(xué)代謝組學(xué):其中心任務(wù)是通過比較不同時(shí)間或:其中心任務(wù)是通過比較不同時(shí)間或不同細(xì)胞的小分子組成,揭示生物學(xué)意義。不同細(xì)胞的小分子組成,揭示生物學(xué)意義。l系統(tǒng)生物學(xué)系統(tǒng)生物學(xué):以一個(gè)理論模式為基礎(chǔ),與基因:以一個(gè)理論模式為基礎(chǔ),與基因組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進(jìn)行比較,判斷生物組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進(jìn)行比較,判斷生物在分子水平上復(fù)雜的相互作用。在分子水平上復(fù)雜的相互作用。計(jì)算
8、機(jī)在生物學(xué)中的應(yīng)用 生物學(xué)發(fā)展的展望生物學(xué)發(fā)展的展望W. Gilbert (80年諾年諾貝爾化學(xué)獎(jiǎng))貝爾化學(xué)獎(jiǎng))91年專門在年專門在“nature”撰文討論撰文討論生物學(xué)研究形式的變化:生物學(xué)研究形式的變化: 正在興起的新的范式在于,所有的正在興起的新的范式在于,所有的基因基因?qū)⒈恢獣裕ㄔ诳捎秒娮臃绞綇臄?shù)據(jù)庫里讀取將被知曉(在可用電子方式從數(shù)據(jù)庫里讀取的意義上),今后生物學(xué)研究項(xiàng)目的起點(diǎn)將的意義上),今后生物學(xué)研究項(xiàng)目的起點(diǎn)將是理論的。一位科學(xué)家將從理論猜測(cè)開始,是理論的。一位科學(xué)家將從理論猜測(cè)開始,然后才轉(zhuǎn)向?qū)嶒?yàn)去繼續(xù)或檢驗(yàn)該假設(shè)。然后才轉(zhuǎn)向?qū)嶒?yàn)去繼續(xù)或檢驗(yàn)該假設(shè)。 新的范式:從機(jī)理出發(fā),推
9、論在一定條件新的范式:從機(jī)理出發(fā),推論在一定條件下細(xì)胞的表現(xiàn),再用實(shí)驗(yàn)去驗(yàn)證。下細(xì)胞的表現(xiàn),再用實(shí)驗(yàn)去驗(yàn)證。 現(xiàn)代,生物學(xué)已分為兩個(gè)部分:現(xiàn)代,生物學(xué)已分為兩個(gè)部分:計(jì)算機(jī)在生物學(xué)中的應(yīng)用l試驗(yàn)生物學(xué):傳統(tǒng)的、依靠實(shí)踐發(fā)現(xiàn)事物的試驗(yàn)生物學(xué):傳統(tǒng)的、依靠實(shí)踐發(fā)現(xiàn)事物的性質(zhì)和活動(dòng)規(guī)律的學(xué)科。性質(zhì)和活動(dòng)規(guī)律的學(xué)科。 研究對(duì)象是組成生研究對(duì)象是組成生物體的元件。研究手段是物質(zhì)分離和檢測(cè)技物體的元件。研究手段是物質(zhì)分離和檢測(cè)技術(shù)。當(dāng)前主要在于建立高通量檢測(cè)技術(shù)。術(shù)。當(dāng)前主要在于建立高通量檢測(cè)技術(shù)。l理論生物學(xué):根據(jù)事物已知性質(zhì)和活動(dòng)規(guī)律理論生物學(xué):根據(jù)事物已知性質(zhì)和活動(dòng)規(guī)律推導(dǎo)其可能性質(zhì)和活動(dòng)規(guī)律的學(xué)科
10、。推導(dǎo)其可能性質(zhì)和活動(dòng)規(guī)律的學(xué)科。 研究對(duì)研究對(duì)象是生物體整體。研究手段是邏輯分析和推象是生物體整體。研究手段是邏輯分析和推導(dǎo)。導(dǎo)。l計(jì)算機(jī)作為生物研究的工具,在前期生物學(xué)計(jì)算機(jī)作為生物研究的工具,在前期生物學(xué)研究工作中作為計(jì)算和存儲(chǔ)工具起輔助作用。研究工作中作為計(jì)算和存儲(chǔ)工具起輔助作用。在當(dāng)前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。在當(dāng)前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。 數(shù)據(jù)處理是高通量檢測(cè)技術(shù)和理論生物學(xué)數(shù)據(jù)處理是高通量檢測(cè)技術(shù)和理論生物學(xué)研究的主要方法。產(chǎn)生研究的主要方法。產(chǎn)生生物信息學(xué)生物信息學(xué)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用:表格處理;圖表功能;數(shù)據(jù)庫管理功能。表格處理;圖表功能;數(shù)據(jù)庫管理功能
11、。1 圖表制作圖表制作建立圖表,激活和修改圖表項(xiàng)。建立圖表,激活和修改圖表項(xiàng)。2 計(jì)算計(jì)算引用:相對(duì)引用(引用:相對(duì)引用(=(a1-b1)/c1*d1) 絕對(duì)引用(絕對(duì)引用($ a$1-$b$1)/$c$1*$d$1 )函數(shù):函數(shù):chitest(檢驗(yàn)相關(guān)性);(檢驗(yàn)相關(guān)性);slope(斜率);(斜率);intercept(截距)。(截距)。 ISIS DRAW2的應(yīng)用的應(yīng)用l下載軟件:下載軟件:/ 計(jì)算機(jī)在生物學(xué)中的應(yīng)用背景:背景:1 數(shù)據(jù)分析技術(shù)的發(fā)展:數(shù)據(jù)分析技術(shù)的發(fā)展:1962年年Zuckerkandl和和Pauling將序列變異分析與其演化關(guān)系聯(lián)系起將序列變異分析與其演化關(guān)系聯(lián)系起
12、來,開辟了分子演化的研究領(lǐng)域;來,開辟了分子演化的研究領(lǐng)域;1964年年Davies開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究;開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究;1970年年Needoeman和和Wunsch發(fā)表了兩序列比較算發(fā)表了兩序列比較算法;法;1974年年Ratner運(yùn)用理論方法對(duì)分子遺傳調(diào)運(yùn)用理論方法對(duì)分子遺傳調(diào)控系統(tǒng)進(jìn)行分析;控系統(tǒng)進(jìn)行分析;1975年年P(guān)ipas和和McMahon用用計(jì)算機(jī)技術(shù)預(yù)測(cè)二級(jí)結(jié)構(gòu)。計(jì)算機(jī)技術(shù)預(yù)測(cè)二級(jí)結(jié)構(gòu)。1976年后生物學(xué)數(shù)年后生物學(xué)數(shù)據(jù)分析技術(shù)大量涌現(xiàn)。據(jù)分析技術(shù)大量涌現(xiàn)。2 人類基因組計(jì)劃產(chǎn)生了大量基因信息(圖人類基因組計(jì)劃產(chǎn)生了大量基因信息(圖0)計(jì)算機(jī)在生物學(xué)中的應(yīng)用生物
13、信息學(xué)(生物信息學(xué)(bioinformatics):利用計(jì)算機(jī)):利用計(jì)算機(jī)技術(shù)并參照現(xiàn)代信息技術(shù),對(duì)生物信息進(jìn)行儲(chǔ)技術(shù)并參照現(xiàn)代信息技術(shù),對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和綜合分析。及一是對(duì)海量數(shù)據(jù)的收存、檢索和綜合分析。及一是對(duì)海量數(shù)據(jù)的收集、整理與服務(wù)。二是使用數(shù)據(jù)。集、整理與服務(wù)。二是使用數(shù)據(jù)。生物信息學(xué)是把生物信息學(xué)是把DNA序列分析作為源頭,找序列分析作為源頭,找到基因組序列中代表蛋白質(zhì)和到基因組序列中代表蛋白質(zhì)和mRNA的編碼的編碼區(qū);同時(shí),闡明基因組中大量存在的非編碼區(qū)區(qū);同時(shí),闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在的信息實(shí)質(zhì),破譯隱藏在DNA序列中的遺傳語序列中的遺傳語
14、言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的的數(shù)據(jù),從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的規(guī)律。規(guī)律。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l生物信息學(xué)基本方法:生物信息學(xué)基本方法:1 數(shù)據(jù)庫信息檢索;數(shù)據(jù)庫信息檢索;2 用序列比對(duì)(用序列比對(duì)(alignment,對(duì)位排列)方法進(jìn),對(duì)位排列)方法進(jìn)行數(shù)據(jù)庫序列檢索;行數(shù)據(jù)庫序列檢索;3 網(wǎng)絡(luò)分析,計(jì)算機(jī)模擬。網(wǎng)絡(luò)分析,計(jì)算機(jī)模擬。問題:你對(duì)生物信息學(xué)的認(rèn)識(shí)問題:你對(duì)生物信息學(xué)的認(rèn)識(shí)計(jì)算機(jī)在生物學(xué)中的應(yīng)用生物信息
15、數(shù)據(jù)庫分類保存各種生物信息,生物信息數(shù)據(jù)庫分類保存各種生物信息,為大家提供計(jì)算機(jī)分析的基本材料。例文獻(xiàn)為大家提供計(jì)算機(jī)分析的基本材料。例文獻(xiàn)數(shù)據(jù)庫、序列數(shù)據(jù)庫。數(shù)據(jù)庫、序列數(shù)據(jù)庫。:維護(hù)和提供數(shù)據(jù)庫服務(wù)。:維護(hù)和提供數(shù)據(jù)庫服務(wù)。 主要工作:在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算主要工作:在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問題;為科科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問題;為科學(xué)和醫(yī)學(xué)界開發(fā)、維護(hù)和分享一系列的生物學(xué)和醫(yī)學(xué)界開發(fā)、維護(hù)和分享一系列的生物信息學(xué)數(shù)據(jù)庫;開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)信息學(xué)數(shù)據(jù)庫;開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫、數(shù)據(jù)存儲(chǔ)、交換以及生物學(xué)命名規(guī)則的庫、數(shù)據(jù)存儲(chǔ)、交換以及生物學(xué)命名
16、規(guī)則的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化。計(jì)算機(jī)在生物學(xué)中的應(yīng)用重要的生物信息中心:重要的生物信息中心:1 美國國家生物技術(shù)信息中心(美國國家生物技術(shù)信息中心(NCBI) (管理著包括(管理著包括GenBank在內(nèi)的一批數(shù)據(jù)在內(nèi)的一批數(shù)據(jù)庫)庫)2 歐洲生物信息學(xué)研究所(歐洲生物信息學(xué)研究所(EBI) (主網(wǎng)頁,可鏈接到其他項(xiàng)目主網(wǎng)頁,可鏈接到其他項(xiàng)目) (各種數(shù)據(jù)庫和分析工具各種數(shù)據(jù)庫和分析工具) (公眾服務(wù)網(wǎng)頁公眾服務(wù)網(wǎng)頁)計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 日本核酸數(shù)據(jù)庫(日本核酸數(shù)據(jù)庫(DDBJ):): 4 北京大學(xué)生物信息中心北京大學(xué)生物信息中心 (CBI或或PKUCBI,是,是EMBnet的中國節(jié)點(diǎn),也是的中國
17、節(jié)點(diǎn),也是APBionet的中國的中國節(jié)點(diǎn))節(jié)點(diǎn)) 計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 一級(jí)數(shù)據(jù)庫:記錄實(shí)驗(yàn)結(jié)果和初步的解釋一級(jí)數(shù)據(jù)庫:記錄實(shí)驗(yàn)結(jié)果和初步的解釋2 二級(jí)數(shù)據(jù)庫:從一級(jí)數(shù)據(jù)庫提取的信息構(gòu)建二級(jí)數(shù)據(jù)庫:從一級(jí)數(shù)據(jù)庫提取的信息構(gòu)建的數(shù)據(jù)庫的數(shù)據(jù)庫l 一級(jí)核酸序列數(shù)據(jù)庫:一級(jí)核酸序列數(shù)據(jù)庫:(A)GenBank: (B)EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室的(歐洲分子生物學(xué)實(shí)驗(yàn)室的DNA和和RNA數(shù)據(jù)庫):數(shù)據(jù)庫): 計(jì)算機(jī)在生物學(xué)中的應(yīng)用(C)DDBJ(日本核酸數(shù)據(jù)庫日本核酸數(shù)據(jù)庫): 翻譯編碼的翻譯編碼的DNA序列(根據(jù)序列(根據(jù)ORF,數(shù)據(jù)庫,數(shù)據(jù)庫中搜索)中搜索)(D)GeneBuilder:
18、r.it/webgene/genebuilder.html(E)上海生命科學(xué)中心:)上海生命科學(xué)中心:l 一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫:一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫:(A) PIR-PSD:序列來自于:序列來自于GenBank/EMBL/ DDBJ的編碼序列的翻譯、文獻(xiàn)中的和用戶的編碼序列的翻譯、文獻(xiàn)中的和用戶計(jì)算機(jī)在生物學(xué)中的應(yīng)用 直接提交的序列。目前最大的公共蛋白質(zhì)序列直接提交的序列。目前最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。衍生出數(shù)據(jù)庫。衍生出iProClass(描述蛋白質(zhì)家族(描述蛋白質(zhì)家族的關(guān)系及結(jié)構(gòu)的關(guān)系及結(jié)構(gòu)/功能特征),還有功能特征),還有PIR-NREF ,PIR-ASDB,IESA,PIR-NRL3
19、D,RESID,PIR-ALN等其他輔助數(shù)據(jù)庫。等其他輔助數(shù)據(jù)庫。 /pirwww/(B)SWISS-PROT/TrEMBL:經(jīng)注釋的蛋白:經(jīng)注釋的蛋白質(zhì)數(shù)據(jù)庫。每個(gè)條目包括蛋白質(zhì)序列、引用質(zhì)數(shù)據(jù)庫。每個(gè)條目包括蛋白質(zhì)序列、引用文獻(xiàn)、分類學(xué)信息、注釋等。注釋包括蛋白文獻(xiàn)、分類學(xué)信息、注釋等。注釋包括蛋白質(zhì)功能、轉(zhuǎn)錄后修飾位點(diǎn)、特殊位點(diǎn)和區(qū)質(zhì)功能、轉(zhuǎn)錄后修飾位點(diǎn)、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其他序列的形域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其他序列的形式性、序列殘缺與疾病的關(guān)系、序列變異體式性、序列殘缺與疾病的關(guān)系、序列變異體等信息。等信息。 計(jì)算機(jī)在生物學(xué)中的
20、應(yīng)用l 二級(jí)核酸序列數(shù)據(jù)庫二級(jí)核酸序列數(shù)據(jù)庫CUTG:密碼子使用頻度表:密碼子使用頻度表 EPD:真核生物啟動(dòng)子數(shù)據(jù)庫:真核生物啟動(dòng)子數(shù)據(jù)庫 OOTFD:轉(zhuǎn)錄因子和基因表達(dá)數(shù)據(jù)庫:轉(zhuǎn)錄因子和基因表達(dá)數(shù)據(jù)庫 RepBase:真核生物:真核生物DNA中重復(fù)序列數(shù)據(jù)庫中重復(fù)序列數(shù)據(jù)庫 MPDB:外顯子和內(nèi)含子數(shù)據(jù)庫:外顯子和內(nèi)含子數(shù)據(jù)庫 計(jì)算機(jī)在生物學(xué)中的應(yīng)用HGMD(可用于預(yù)測(cè)基因疾病可用于預(yù)測(cè)基因疾病): PDD(人類體液中蛋白質(zhì)與疾病關(guān)系人類體液中蛋白質(zhì)與疾病關(guān)系): HIV(愛滋病分子免疫學(xué)愛滋病分子免疫學(xué)): /immunology/immuno-main.
21、html WIT(重構(gòu)代謝重構(gòu)代謝) :/wit2/ CSNDB(細(xì)胞信號(hào)網(wǎng)絡(luò)細(xì)胞信號(hào)網(wǎng)絡(luò)):geo.nihs.go.jp/csndb/ 計(jì)算機(jī)在生物學(xué)中的應(yīng)用AgDB(農(nóng)業(yè)數(shù)據(jù)庫和信息資源總清單農(nóng)業(yè)數(shù)據(jù)庫和信息資源總清單): PharmGKB( 藥物遺傳學(xué)和藥物基因組學(xué)藥物遺傳學(xué)和藥物基因組學(xué)): GBIF(全球生物多樣性信息機(jī)構(gòu)全球生物多樣性信息機(jī)構(gòu)): l模式生物:模式生物:計(jì)算機(jī)在生物學(xué)中的應(yīng)用 人(人(Homo sapiens); 小鼠(小鼠(Mus musculus);); 大腸桿菌(大腸桿菌(Escherichia coli);); 釀酒酵母(釀酒酵
22、母(Saccharomyces cerevisiae);); 果蠅(果蠅(Drosophila melanogaster):遺傳;):遺傳; 秀麗線蟲(秀麗線蟲(Caenorhabitedis elegans):只有約):只有約千個(gè)細(xì)胞的動(dòng)物,研究千個(gè)細(xì)胞的動(dòng)物,研究RNAi的模式生物;的模式生物; 海膽(海膽(Strongylocentrotus purpuratus):研究):研究發(fā)育和基因調(diào)控的模式生物;發(fā)育和基因調(diào)控的模式生物; 擬南芥(擬南芥(Arabidopsis thaliana):生活周期):生活周期6周周的十字花科植物,研究植物的模式生物。的十字花科植物,研究植物的模式生物。
23、計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 各種生物信息中心各種生物信息中心2 大腸桿菌大腸桿菌K12完全基因組序列:完全基因組序列: 3 MYGD(酵母基因組酵母基因組蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫) 4 BDGP(果蠅基因組中心果蠅基因組中心): 計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 PubMed:生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫:生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人類生物學(xué)和疾病信:保存所有已知的人類生物學(xué)和疾病信息的數(shù)據(jù)庫息的數(shù)據(jù)庫3 GeneCard: 保存注釋過(定性)基因的數(shù)據(jù)庫保存注釋過(定性)基因的數(shù)據(jù)庫4 LocusL
24、ink:同:同3計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 核酸研究核酸研究(每年第一期是數(shù)據(jù)庫專集每年第一期是數(shù)據(jù)庫專集) :2 NAR (核酸研究數(shù)據(jù)庫總匯核酸研究數(shù)據(jù)庫總匯) :3 DBcat (法國生物信息中心法國生物信息中心):4 nature(介紹基因組測(cè)序進(jìn)展的新聞介紹基因組測(cè)序進(jìn)展的新聞): l問題:生物信息數(shù)據(jù)庫的作用問題:生物信息數(shù)據(jù)庫的作用計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 序列檢索工具:序列檢索工具:Entrez:Batch Entrez (批處理批處理) ,NCBI提提供的集成檢索工具??梢酝ㄟ^一次檢索而查供的集成檢索工具。可以通過一次檢索而查詢到多個(gè)子系統(tǒng)中的所有信息。詢到多個(gè)子系統(tǒng)中的所有信
25、息。 主頁面有兩個(gè)窗口主頁面有兩個(gè)窗口1) 下拉式菜單:選擇下拉式菜單:選擇14個(gè)數(shù)據(jù)庫個(gè)數(shù)據(jù)庫2) 搜索:關(guān)鍵詞、作者、雜志、名、物種、搜索:關(guān)鍵詞、作者、雜志、名、物種、檢索號(hào)等。檢索號(hào)等。3) 查詢結(jié)果右上角的查詢結(jié)果右上角的link表示與其他數(shù)據(jù)庫的表示與其他數(shù)據(jù)庫的超級(jí)連接。超級(jí)連接。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用SRS:Sequence Retrieval System,EBI的檢索的檢索工具。工具。有三種查詢方式:有三種查詢方式:1)Quick Sequence:快速查詢。選擇數(shù)據(jù)庫查:快速查詢。選擇數(shù)據(jù)庫查關(guān)鍵詞。關(guān)鍵詞。2) Standard:標(biāo)準(zhǔn)查詢。由用戶限定查詢條:標(biāo)準(zhǔn)查詢。
26、由用戶限定查詢條件。件。3) Extended:擴(kuò)展查詢??梢詫⑤斎腙P(guān)鍵詞的:擴(kuò)展查詢。可以將輸入關(guān)鍵詞的查尋范圍限定在物種、說明、作者、文獻(xiàn)等范查尋范圍限定在物種、說明、作者、文獻(xiàn)等范圍內(nèi),也可以先定日期和序列長度。圍內(nèi),也可以先定日期和序列長度。計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 GBFF格式(格式( GenBank flatfile, GenBank平平面文件)。面文件)。 (圖(圖 1,圖,圖2,圖,圖3)BACs(bacterial artificial chromosomes)細(xì)菌人)細(xì)菌人工染色體:攜帶人類基因工染色體:攜帶人類基因DNA片段的細(xì)菌載體片段的細(xì)菌載體YACs(yeast a
27、rtificial chromosomes)酵母人工)酵母人工染色體:攜帶人類基因染色體:攜帶人類基因DNA片段的酵母載體片段的酵母載體STS(sequence tagged site)序列標(biāo)簽位點(diǎn):染)序列標(biāo)簽位點(diǎn):染色體上獨(dú)特的色體上獨(dú)特的DNA序列短片段序列短片段ESTs(expressed sequence tags)表達(dá)序列標(biāo))表達(dá)序列標(biāo)簽:簽:cDNA 5端的短片段端的短片段計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 FASTA格式格式 : 第一行:第一行:打頭的文字說明,主要為標(biāo)記序列打頭的文字說明,主要為標(biāo)記序列用。用。第二行開始是序列,每行不超過第二行開始是序列,每行不超過80個(gè)字母(核個(gè)字母
28、(核酸大小寫均可,氨基酸一般大寫)。酸大小寫均可,氨基酸一般大寫)。由于由于FASTA沒有特殊的結(jié)束標(biāo)志,建議最后留沒有特殊的結(jié)束標(biāo)志,建議最后留一空行。一空行。gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsgatcct 計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 EPD格式和格式和PDB數(shù)據(jù)格式:數(shù)據(jù)格式: (圖(圖4)問題:自己設(shè)計(jì)一個(gè)檢索路徑。問題:自己設(shè)計(jì)一個(gè)檢索路
29、徑。計(jì)算機(jī)在生物學(xué)中的應(yīng)用 用戶提交一個(gè)核酸或蛋白質(zhì)序列,同指定用戶提交一個(gè)核酸或蛋白質(zhì)序列,同指定數(shù)據(jù)庫的全部序列做比較,尋找一個(gè)得分最數(shù)據(jù)庫的全部序列做比較,尋找一個(gè)得分最高(或代價(jià)最?。┑谋葘?duì)。通過相似序列的高(或代價(jià)最?。┑谋葘?duì)。通過相似序列的種類和功能,確定其種類和功能。種類和功能,確定其種類和功能。l序列比對(duì)的基本思想基于一條分子生物學(xué)規(guī)序列比對(duì)的基本思想基于一條分子生物學(xué)規(guī)則:當(dāng)兩個(gè)分子享有相似的序列時(shí),由于進(jìn)則:當(dāng)兩個(gè)分子享有相似的序列時(shí),由于進(jìn)化關(guān)系和物理化學(xué)限制,它們將很有可能具化關(guān)系和物理化學(xué)限制,它們將很有可能具有相似的三維結(jié)構(gòu)和生物學(xué)功能。有相似的三維結(jié)構(gòu)和生物學(xué)功能
30、。計(jì)算機(jī)在生物學(xué)中的應(yīng)用分兩種(圖分兩種(圖5)1 最簡單的操作:提交一個(gè)核酸或蛋白質(zhì)序最簡單的操作:提交一個(gè)核酸或蛋白質(zhì)序列,同一級(jí)數(shù)據(jù)庫的序列做比較,人工判列,同一級(jí)數(shù)據(jù)庫的序列做比較,人工判斷同源性?;驹瓌t:尋找一個(gè)最佳對(duì)齊斷同源性?;驹瓌t:尋找一個(gè)最佳對(duì)齊方式。方式。2 基于知識(shí)的預(yù)測(cè):將已知樣本抽象成代表基于知識(shí)的預(yù)測(cè):將已知樣本抽象成代表序列序列-結(jié)構(gòu)或序列結(jié)構(gòu)或序列-功能相關(guān)性的經(jīng)驗(yàn)規(guī)則,功能相關(guān)性的經(jīng)驗(yàn)規(guī)則,由其判斷同源性(如由其判斷同源性(如motif庫)。此方法的庫)。此方法的首要任務(wù)是找出可以擴(kuò)展到結(jié)構(gòu)和功能性首要任務(wù)是找出可以擴(kuò)展到結(jié)構(gòu)和功能性質(zhì)的序列特征。質(zhì)的序列
31、特征。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l兩條序列相似程度的量化表示:相似度(表兩條序列相似程度的量化表示:相似度(表示相似程度的函數(shù));距離(表示不相似程示相似程度的函數(shù));距離(表示不相似程度的函數(shù),有海明距離和編輯距離)度的函數(shù),有海明距離和編輯距離)l代價(jià)(代價(jià)(cost)或權(quán)重()或權(quán)重(weight):): w(a,a)= 0 w(a,b)= 1 (a w(a,-)= w(-,b)= 1 l得分(得分(score):):p (a,a)= 1 p (a,b)= 0 (ab) p (a,-)= w(-,b)= -1 計(jì)算機(jī)在生物學(xué)中的應(yīng)用例例1:兩條字符串:兩條字符串AIMS和和AMOS的最佳對(duì)齊
32、方式的最佳對(duì)齊方式 A I M S A MOS 例例2:兩個(gè)氨基酸序列:兩個(gè)氨基酸序列ARRSG和和ARKTVG。 ARRS G ARKTVG計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 點(diǎn)陣分析:用兩條序列為點(diǎn)陣分析:用兩條序列為X和和Y軸構(gòu)建二維矩陣,用軸構(gòu)建二維矩陣,用點(diǎn)表現(xiàn)兩條序列的相似部分。點(diǎn)所包含的片段長度點(diǎn)表現(xiàn)兩條序列的相似部分。點(diǎn)所包含的片段長度叫叫窗口窗口,匹配長度叫,匹配長度叫相似度閾值相似度閾值。2 動(dòng)態(tài)規(guī)劃算法:最優(yōu)對(duì)位排列方法動(dòng)態(tài)規(guī)劃算法:最優(yōu)對(duì)位排列方法 對(duì)兩個(gè)序列對(duì)兩個(gè)序列a=a1a2an和和b=b1b2bn,當(dāng),當(dāng)S=S(a1a2ai,b1b2bi)時(shí)有:時(shí)有: Sij= maxS
33、i-1, j-1+s(ai , bj), max (Si-x, j+Wx), max(Si, j-y+Wy) Sij:ij位置的分值;位置的分值;s(ai , bj): Sij的打分分值;的打分分值; Wx :長度為:長度為x的空位的空位(間隔間隔)罰分。罰分。計(jì)算機(jī)在生物學(xué)中的應(yīng)用l蛋白質(zhì)打分矩陣:蛋白質(zhì)打分矩陣: PAM1矩陣矩陣:根據(jù):根據(jù)71組相似性在組相似性在85%以上的蛋以上的蛋白質(zhì)序列中的白質(zhì)序列中的1572種變化來估計(jì)氨基酸在蛋白種變化來估計(jì)氨基酸在蛋白質(zhì)進(jìn)化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每質(zhì)進(jìn)化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每108年年一個(gè)突變的替換頻率(假定每一個(gè)特定位點(diǎn)的一個(gè)
34、突變的替換頻率(假定每一個(gè)特定位點(diǎn)的每一個(gè)變化都是獨(dú)立的)。每一個(gè)變化都是獨(dú)立的)。 不同的不同的PAM 矩陣可應(yīng)用于不同相似性水平矩陣可應(yīng)用于不同相似性水平序列比對(duì)。例:序列比對(duì)。例:PAM 250、PAM120、 PAM80和和PAM60分別用于分別用于1427%、40%、50%、和、和60%相似性的序列比對(duì)。相似性的序列比對(duì)。 PAM250由由PAM1自自乘乘250次產(chǎn)生,代表次產(chǎn)生,代表25億年中億年中250%的預(yù)期變化的預(yù)期變化水平。水平。(PAM250的矩陣,圖的矩陣,圖7) 計(jì)算機(jī)在生物學(xué)中的應(yīng)用 BLOSUM矩陣矩陣:在有:在有500個(gè)蛋白質(zhì)家族的數(shù)據(jù)個(gè)蛋白質(zhì)家族的數(shù)據(jù)庫(庫(
35、PROSITE)中針對(duì))中針對(duì)2000個(gè)保守氨基酸模式個(gè)保守氨基酸模式進(jìn)行替換頻率鑒定。進(jìn)行替換頻率鑒定。 具有具有60%同一性的模式聚在一起構(gòu)造一個(gè)矩同一性的模式聚在一起構(gòu)造一個(gè)矩陣就是陣就是BLOSUM60,依此類推。,依此類推。 PAM模型可用于尋找蛋白質(zhì)的進(jìn)化起源,模型可用于尋找蛋白質(zhì)的進(jìn)化起源,BLOSUM模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。l核酸打分矩陣:核酸打分矩陣: PAM矩陣矩陣 單位矩陣:相同堿基為單位矩陣:相同堿基為1,不同為,不同為0。 轉(zhuǎn)換轉(zhuǎn)換-顛換矩陣:相同堿基為正顛換矩陣:相同堿基為正1分,轉(zhuǎn)換為分,轉(zhuǎn)換為-1分,顛換為分,顛換為-5分。分
36、。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用 在不知道序列間的相似性大小時(shí),需用在不知道序列間的相似性大小時(shí),需用H(相對(duì)平均信息量)判斷選擇合適的矩陣。一(相對(duì)平均信息量)判斷選擇合適的矩陣。一般來說,若其他因素相同,般來說,若其他因素相同,H值高的合適。值高的合適。 20 i H=qij*Sij i=1 j=1 q:每個(gè)氨基酸對(duì)出現(xiàn)的頻率,:每個(gè)氨基酸對(duì)出現(xiàn)的頻率,S:每個(gè)氨基酸:每個(gè)氨基酸對(duì)的分值(以對(duì)的分值(以log2為單位,稱比特為單位,稱比特bit)。)。l空位罰分:空位罰分:wx=g+rx 或或 wx=g+r( x 1) 。 g:空位窗,單個(gè)空位的罰分;:空位窗,單個(gè)空位的罰分;r:空位擴(kuò)展罰:空
37、位擴(kuò)展罰分,多個(gè)空位的追加罰分;分,多個(gè)空位的追加罰分;x:空位長度。:空位長度。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用A 全局比對(duì):全局比對(duì)是兩條序列從頭到尾的全局比對(duì):全局比對(duì)是兩條序列從頭到尾的比對(duì),有比對(duì),有Needleman-Wunsch算法。算法。 第一步:用兩條序列為第一步:用兩條序列為X和和Y軸構(gòu)建二維軸構(gòu)建二維矩陣,矩陣中只有元素矩陣,矩陣中只有元素S0,0=0,從,從S0,0開始,開始,對(duì)每一個(gè)位點(diǎn)賦值。賦值由出發(fā)點(diǎn)的分值對(duì)每一個(gè)位點(diǎn)賦值。賦值由出發(fā)點(diǎn)的分值+打分(罰分)組成。在所有路徑中選分最高打分(罰分)組成。在所有路徑中選分最高的。的。 第二步:當(dāng)矩陣中所有位點(diǎn)的賦值完成第二步:當(dāng)
38、矩陣中所有位點(diǎn)的賦值完成后,從最高分值位點(diǎn)回溯,找出的分值最高后,從最高分值位點(diǎn)回溯,找出的分值最高的路徑就是最優(yōu)化的序列對(duì)位排列方式。的路徑就是最優(yōu)化的序列對(duì)位排列方式。(圖(圖6) 計(jì)算機(jī)在生物學(xué)中的應(yīng)用B 局部比對(duì):是一條序列的片斷與一條完整序列局部比對(duì):是一條序列的片斷與一條完整序列之間的比對(duì),有之間的比對(duì),有Smith-Waterman算法。算法。 對(duì)于矩陣中所有對(duì)于矩陣中所有j,令,令D0,j=0,對(duì)于矩陣中所,對(duì)于矩陣中所有有i,令,令D0,i=0,就可能實(shí)現(xiàn)兩條序列的局部比,就可能實(shí)現(xiàn)兩條序列的局部比對(duì)。這對(duì)于在由多個(gè)區(qū)域組成的序列中發(fā)現(xiàn)多對(duì)。這對(duì)于在由多個(gè)區(qū)域組成的序列中發(fā)現(xiàn)
39、多個(gè)匹配有用。個(gè)匹配有用。C 高分值片段對(duì)(高分值片段對(duì)(HSP)判斷:)判斷: P(Sx)=1-exp(-Kmne-x); X:片段長度。:片段長度。 P(Sx)是最大片段的分大于是最大片段的分大于X的概率。的概率。l顯著性評(píng)價(jià):顯著性評(píng)價(jià):E(S)=log(Kmn)/ E:期望分值:期望分值(序列最長匹配的期望值序列最長匹配的期望值);K:錯(cuò):錯(cuò)配數(shù);配數(shù);m和和n:序列長度;:序列長度; = loge(1/p)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用3 散列算法:不是比較兩個(gè)序列中單個(gè)的殘基,散列算法:不是比較兩個(gè)序列中單個(gè)的殘基,而是搜索匹配序列模式或而是搜索匹配序列模式或k-串。串。 在該方法中,需
40、要為每個(gè)序列建立一個(gè)查詢?cè)谠摲椒ㄖ?,需要為每個(gè)序列建立一個(gè)查詢表來標(biāo)明每個(gè)長度為表來標(biāo)明每個(gè)長度為k的單詞的單詞(k-串串)的位置。的位置。 每每個(gè)單詞在兩個(gè)序列中的相對(duì)位置可用第二個(gè)序個(gè)單詞在兩個(gè)序列中的相對(duì)位置可用第二個(gè)序列中的位置減去第一個(gè)得到。列中的位置減去第一個(gè)得到。k-串長度由用戶串長度由用戶指定。指定。例:在二個(gè)序列中查找長度為例:在二個(gè)序列中查找長度為3的的k-串串位置位置 1 2 3 4 5 6 7 8 9 10 11序列序列1 n c s p t a 序列序列2 a c s p r k計(jì)算機(jī)在生物學(xué)中的應(yīng)用 Position in offset 序列序列1 序列序列2 序列
41、序列2-序列序列1 a 6 6 0 c 2 7 5 k - 11 n 1 - p 4 9 5 r - 10 s 3 8 5 t 5 -快速發(fā)現(xiàn)一個(gè)可能的對(duì)位排列快速發(fā)現(xiàn)一個(gè)可能的對(duì)位排列序列序列1 n c s p t a序列序列2 a c s p t a計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 BLAST(Basic Local Alignment Search Tool): 基本局域聯(lián)配搜尋工具,將所查詢的序列打斷基本局域聯(lián)配搜尋工具,將所查詢的序列打斷成為許多小序列片段(叫做字成為許多小序列片段(叫做字“W”),然后),然后用小序列片段逐步與數(shù)據(jù)庫序列進(jìn)行無空隙比用小序列片段逐步與數(shù)據(jù)庫序列進(jìn)行無空隙比對(duì)
42、。挑出分值大于閾值對(duì)。挑出分值大于閾值T的所有相似片段。對(duì)的所有相似片段。對(duì)目標(biāo)序列和挑出的數(shù)據(jù)庫序列進(jìn)行無空隙局部目標(biāo)序列和挑出的數(shù)據(jù)庫序列進(jìn)行無空隙局部比對(duì)。從字開始向兩邊延伸。用統(tǒng)計(jì)置信度檢比對(duì)。從字開始向兩邊延伸。用統(tǒng)計(jì)置信度檢驗(yàn)找到驗(yàn)找到HSP的組合。的組合。 E-value(expect value):E=mn2-S m:目標(biāo)序列的有效長度:目標(biāo)序列的有效長度 n:數(shù)據(jù)庫的有效長度(總堿基數(shù)):數(shù)據(jù)庫的有效長度(總堿基數(shù)) S :標(biāo)準(zhǔn)比值(:標(biāo)準(zhǔn)比值(bit score)。)。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用 R-mnK S= ln2 和和K是正規(guī)化參數(shù)是正規(guī)化參數(shù) R:前期加工分值(:前
43、期加工分值(raw score) R=aI+bX+cO+dGa:對(duì)每個(gè)完全匹配的加分,:對(duì)每個(gè)完全匹配的加分,I:完全匹配的個(gè)數(shù):完全匹配的個(gè)數(shù)b:對(duì)每個(gè)錯(cuò)配的加分,:對(duì)每個(gè)錯(cuò)配的加分,X:錯(cuò)配的核苷酸數(shù):錯(cuò)配的核苷酸數(shù)c:每開發(fā)一個(gè):每開發(fā)一個(gè)gap的罰分,的罰分,O: gap的數(shù)目的數(shù)目d: gap中每個(gè)中每個(gè)“-”的罰分,的罰分,G:總的:總的 “-”的數(shù)的數(shù)目目計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 FASTA:對(duì)角線方法,原理基于散列算法:對(duì)角線方法,原理基于散列算法3 比對(duì)步驟:比對(duì)步驟: l比對(duì)基因:選擇比對(duì)基因:選擇megaBLAST、數(shù)據(jù)庫,選擇濾、數(shù)據(jù)庫,選擇濾過程序,如濾過低復(fù)雜度區(qū)域
44、(過程序,如濾過低復(fù)雜度區(qū)域(low complexity region,LCR)即重復(fù)元件;選擇相似度)即重復(fù)元件;選擇相似度/字長字長(SCORES/ALIGN ) 、空位設(shè)置、空位設(shè)置(GAPOPEN)、空位擴(kuò)展空位擴(kuò)展(GAPTEXT)。設(shè)定。設(shè)定E的閾值(的閾值(S,缺,缺省值為省值為10)。)。l比對(duì)蛋白質(zhì):選擇比對(duì)蛋白質(zhì):選擇BLASTp、數(shù)據(jù)庫,選擇濾、數(shù)據(jù)庫,選擇濾過程序,設(shè)定過程序,設(shè)定E的閾值(缺省值為的閾值(缺省值為10)。)。l通常先用通常先用BLAST,結(jié)果不理想時(shí)再用,結(jié)果不理想時(shí)再用FASTA。l應(yīng)先做蛋白質(zhì),再做核酸的序列比較。應(yīng)先做蛋白質(zhì),再做核酸的序列比較
45、。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用序列比對(duì)結(jié)果:最佳匹配序列描述序列比對(duì)結(jié)果:最佳匹配序列描述所使用程序的描述、版本及相關(guān)信息所使用程序的描述、版本及相關(guān)信息, 所要檢索所要檢索的序列長度的序列長度, 所要檢索的數(shù)據(jù)庫信息,包括序列所要檢索的數(shù)據(jù)庫信息,包括序列記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果 Score ESequences producing significant alignments: (bits) Valuegi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0gi|18854963|AC093532.2| Homo sapiens
46、 862 e-167 Query: 616 gag gaannnnnnngtaata 675 | | | | | | | | | | | |Subjct: 616gag gaat t t t t t t gtaata 675計(jì)算機(jī)在生物學(xué)中的應(yīng)用例:假肥大性肌營養(yǎng)不良癥(例:假肥大性肌營養(yǎng)不良癥(DMD)基因分析)基因分析 DMD是一種隱性遺傳疾?。ǜ秷D是一種隱性遺傳疾?。ǜ秷D10.2)。前)。前期實(shí)驗(yàn)工作證明該疾病是期實(shí)驗(yàn)工作證明該疾病是X和和6號(hào)染色體重組所號(hào)染色體重組所至。在重組部位找到引起至。在重組部位找到引起DMD的基因的基因/蛋白質(zhì)蛋白質(zhì)dystrophin。 Dystrophin
47、 在連接細(xì)胞骨架與外在連接細(xì)胞骨架與外骨架上起著重要作用。通過骨架上起著重要作用。通過BLAST2搜索,發(fā)搜索,發(fā)現(xiàn)另一種蛋白現(xiàn)另一種蛋白u(yù)trophin,其與,其與dystrophin有一有一個(gè)高度保守的序列個(gè)高度保守的序列DVQKKTFTKW,該序列,該序列參與形成參與形成螺旋。通過免疫定位,顯示螺旋。通過免疫定位,顯示utrophin位于骨骼肌中,并且聚集在神經(jīng)位于骨骼肌中,并且聚集在神經(jīng)-肌肉接點(diǎn)處。肌肉接點(diǎn)處。到目前為止,還沒有發(fā)現(xiàn)任何一種由到目前為止,還沒有發(fā)現(xiàn)任何一種由utrophin引起的疾病,使引入引起的疾病,使引入utrophin作為治療作為治療DMD的的手段被考慮。(付圖
48、手段被考慮。(付圖10.3-10.8)計(jì)算機(jī)在生物學(xué)中的應(yīng)用l多序列比對(duì)的目標(biāo)是發(fā)現(xiàn)多條序列的共性。多序列比對(duì)的目標(biāo)是發(fā)現(xiàn)多條序列的共性。l應(yīng)用于:應(yīng)用于:(1)基因組測(cè)序)基因組測(cè)序;(2)提供相似區(qū)域的信息)提供相似區(qū)域的信息;(3)揭示結(jié)構(gòu)和功能的關(guān)系)揭示結(jié)構(gòu)和功能的關(guān)系;(4)預(yù)測(cè)相同或不同有機(jī)體的相似家族或同)預(yù)測(cè)相同或不同有機(jī)體的相似家族或同一類群的其他成員。一類群的其他成員。計(jì)算機(jī)在生物學(xué)中的應(yīng)用1 全局比對(duì)全局比對(duì)(1)逐對(duì)加和()逐對(duì)加和(sum-of-pairs, SP)方法)方法 三條序列三條序列A、B、C,分別進(jìn)行,分別進(jìn)行A-B、A- C、B-C比對(duì),產(chǎn)生三個(gè)二維距
49、陣,尋找其中比對(duì),產(chǎn)生三個(gè)二維距陣,尋找其中的最優(yōu)排列。計(jì)算的最優(yōu)排列。計(jì)算SP函數(shù)(一列中所有字符函數(shù)(一列中所有字符對(duì)得分之和)對(duì)得分之和) k-1 k SP-score(c1,c2,c,ck k)=p(c)=p(ci i,c,cj j) ) i=1 j=i+1 i=1 j=i+1 (c是列中的字符;是列中的字符;k是序列個(gè)數(shù);是序列個(gè)數(shù);p p是相似性是相似性打分函數(shù)打分函數(shù)。)。) 加和所有列的得分。該方法比對(duì)的序列不加和所有列的得分。該方法比對(duì)的序列不能太多。程序:能太多。程序:MSA()() 計(jì)算機(jī)在生物學(xué)中的應(yīng)用(2)動(dòng)態(tài)規(guī)劃算法)動(dòng)態(tài)規(guī)劃算法 首先使用動(dòng)態(tài)規(guī)劃法獲得多重排列,從
50、最首先使用動(dòng)態(tài)規(guī)劃法獲得多重排列,從最相關(guān)序列開始,逐步疊加相關(guān)性小的序列。相關(guān)序列開始,逐步疊加相關(guān)性小的序列。 程序:程序: CLUSTALW(圖)(圖)主要步驟:主要步驟: A 對(duì)所有序列進(jìn)行比對(duì);對(duì)所有序列進(jìn)行比對(duì); B 生成系統(tǒng)發(fā)生樹;生成系統(tǒng)發(fā)生樹; C 通過加權(quán),依次排列序列。通過加權(quán),依次排列序列。(3)其他方法:)其他方法: 聚類方法;構(gòu)樹方法。聚類方法;構(gòu)樹方法。計(jì)算機(jī)在生物學(xué)中的應(yīng)用2 序列中的局部比對(duì):序列中的局部比對(duì): (1)可以鑒定排列中高度保守的部分并產(chǎn)生一)可以鑒定排列中高度保守的部分并產(chǎn)生一類稱為概型(類稱為概型(profile)的記分矩陣。)的記分矩陣。 概
51、型由更像小的多重比對(duì)的列構(gòu)成,包括概型由更像小的多重比對(duì)的列構(gòu)成,包括匹配、錯(cuò)配、插入和缺失??捎糜趯ふ乙粋€(gè)匹配、錯(cuò)配、插入和缺失??捎糜趯ふ乙粋€(gè)可能與之匹配的目標(biāo)序列??赡芘c之匹配的目標(biāo)序列。 程序:程序:GCG軟件包中的軟件包中的PILEUP(2)區(qū)塊分析:區(qū)塊()區(qū)塊分析:區(qū)塊(block)也是在多重比)也是在多重比對(duì)中代表一個(gè)保守區(qū)域。與概形不同之處在對(duì)中代表一個(gè)保守區(qū)域。與概形不同之處在于序列中缺乏插入和缺失的位置。于序列中缺乏插入和缺失的位置。(BLOCKS)(3)基序搜索:)基序搜索: (EMOTIF)計(jì)算機(jī)在生物學(xué)中的應(yīng)用 進(jìn)化樹:有一系列節(jié)點(diǎn)和分支組成。每個(gè)節(jié)點(diǎn)進(jìn)化樹:有一系
52、列節(jié)點(diǎn)和分支組成。每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列)。一般情況代表一個(gè)分類單元(物種或序列)。一般情況下,外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元,內(nèi)部下,外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元,內(nèi)部節(jié)點(diǎn)為分支點(diǎn),他代表了進(jìn)化事件發(fā)生的位置,節(jié)點(diǎn)為分支點(diǎn),他代表了進(jìn)化事件發(fā)生的位置,或代表分類單元進(jìn)化歷程中的祖先。或代表分類單元進(jìn)化歷程中的祖先。 進(jìn)化樹類型:二元樹,無根樹,有根樹。進(jìn)化樹類型:二元樹,無根樹,有根樹。直系同源:不同物種之間擁有共同的功能的基直系同源:不同物種之間擁有共同的功能的基因。因。旁系同源:在同一生命體中,因復(fù)制過程中發(fā)旁系同源:在同一生命體中,因復(fù)制過程中發(fā)生歧異而產(chǎn)生的功能不
53、同的基因。生歧異而產(chǎn)生的功能不同的基因。蛋白質(zhì)超家族:具有某種共同結(jié)構(gòu)域的所有分蛋白質(zhì)超家族:具有某種共同結(jié)構(gòu)域的所有分子組成的分子集合。子組成的分子集合。 計(jì)算機(jī)在生物學(xué)中的應(yīng)用 分子進(jìn)化論:分子進(jìn)化論:20世紀(jì)世紀(jì)60年代,年代,Zucherkandl等等發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究物種間的分歧時(shí)間接近正線性關(guān)系,進(jìn)而將分子物種間的分歧時(shí)間接近正線性關(guān)系,進(jìn)而將分子水平的這種恒速變異稱為水平的這種恒速變異稱為“分子鐘分子鐘”。支持分子。支持分子鐘存在的證據(jù)來自免疫學(xué)的定量比較。但分子序鐘存在的證據(jù)來自免疫學(xué)的定量比較。但分子序列證據(jù)與
54、化石證據(jù)在人類起源時(shí)間上存在差異。列證據(jù)與化石證據(jù)在人類起源時(shí)間上存在差異。 分子進(jìn)化原則:分子進(jìn)化原則: 1) 每個(gè)位點(diǎn)進(jìn)化速率恒定;每個(gè)位點(diǎn)進(jìn)化速率恒定; 2) 進(jìn)化速率進(jìn)化速率=突變替換數(shù)突變替換數(shù)/每位點(diǎn)每位點(diǎn)/每年;每年; 3) 破壞小的比破壞大的突變進(jìn)化頻繁;破壞小的比破壞大的突變進(jìn)化頻繁; 4) 基因復(fù)制在基因獲得新功能前發(fā)生?;驈?fù)制在基因獲得新功能前發(fā)生。計(jì)算機(jī)在生物學(xué)中的應(yīng)用(1)分子序列或特征數(shù)據(jù)的分析;)分子序列或特征數(shù)據(jù)的分析;(2)進(jìn)化樹構(gòu)造;)進(jìn)化樹構(gòu)造;(3)結(jié)果檢驗(yàn)。)結(jié)果檢驗(yàn)。 應(yīng)用的分子數(shù)據(jù)分兩類:應(yīng)用的分子數(shù)據(jù)分兩類:(1)距離數(shù)據(jù)。由相似度打分的比對(duì),
55、需轉(zhuǎn)化)距離數(shù)據(jù)。由相似度打分的比對(duì),需轉(zhuǎn)化為距離:為距離: d(i,j)=1-(S(i,j)-Sr(i,j)/(Smax(i,j)- Sr(i,j)計(jì)算機(jī)在生物學(xué)中的應(yīng)用lS (i,j):序列:序列i和和j各個(gè)比對(duì)位置得分的加權(quán)和各個(gè)比對(duì)位置得分的加權(quán)和;lSr (i,j):序列:序列i和和j隨機(jī)化后的比對(duì)得分的加權(quán)隨機(jī)化后的比對(duì)得分的加權(quán)和和;lSmax(i,j):序列:序列i和和j所有可能比對(duì)的最大值。所有可能比對(duì)的最大值。 兩個(gè)序列歸一化距離的值處于兩個(gè)序列歸一化距離的值處于0和和1之間,之間,當(dāng)兩個(gè)序列完全一致時(shí),距離為當(dāng)兩個(gè)序列完全一致時(shí),距離為0;當(dāng)兩個(gè)序;當(dāng)兩個(gè)序列差異很大時(shí),
56、距離接近于列差異很大時(shí),距離接近于1。(2)離散特征數(shù)據(jù):能夠表現(xiàn)序列特征的數(shù)據(jù)。)離散特征數(shù)據(jù):能夠表現(xiàn)序列特征的數(shù)據(jù)。分為:分為: 二態(tài)特征:即具有和不具有,常用二態(tài)特征:即具有和不具有,常用0和和1表示;表示; 多態(tài)特征:具有兩種以上可能的狀態(tài)。多態(tài)特征:具有兩種以上可能的狀態(tài)。計(jì)算機(jī)在生物學(xué)中的應(yīng)用用距離矩陣描述。用距離矩陣描述。常用距離方法:常用距離方法:(1)連鎖聚類方法和非加權(quán)分組平均方法(除)連鎖聚類方法和非加權(quán)分組平均方法(除權(quán)配對(duì)法,權(quán)配對(duì)法,UPGMA) :從最近的兩個(gè)樹葉開:從最近的兩個(gè)樹葉開始,定義一個(gè)新節(jié)點(diǎn)。不斷重復(fù),最終產(chǎn)生樹始,定義一個(gè)新節(jié)點(diǎn)。不斷重復(fù),最終產(chǎn)生
57、樹根。前提是替換速度均等且一致。根。前提是替換速度均等且一致。例:序列例:序列A ACGCGTTGGGCGATGGCAAC B ACGCGTTGGGCGACGGTAAT C ACGCATTGAATGATGATAAT E ACACATTGAGTGATAATAATl找出一個(gè)序列變成另一個(gè)序列所需的步驟數(shù)找出一個(gè)序列變成另一個(gè)序列所需的步驟數(shù) nAB=3,nAC=7,nAD=8,nBC=6,nBD=7,nCD=3計(jì)算機(jī)在生物學(xué)中的應(yīng)用l構(gòu)建距離表構(gòu)建距離表 A B C D A - 3 7 8 B - - 6 7 C - - - 3 D - - - -l根據(jù)序列之間的距離構(gòu)建樹根據(jù)序列之間的距離構(gòu)建樹
58、 連鎖聚類法連鎖聚類法:(:(A)初始化:分別用)初始化:分別用n個(gè)葉節(jié)個(gè)葉節(jié)點(diǎn)代表每個(gè)類(分類單元的集合);(點(diǎn)代表每個(gè)類(分類單元的集合);(B)執(zhí))執(zhí)行下列循環(huán):尋找具有最小距離行下列循環(huán):尋找具有最小距離dxy的兩個(gè)類的兩個(gè)類x,y;建立一個(gè)新的聚類;建立一個(gè)新的聚類z,以,以z為一個(gè)新的內(nèi)部為一個(gè)新的內(nèi)部節(jié)點(diǎn),節(jié)點(diǎn), z到到 x和和y的分支的長度為的分支的長度為d(x,y )/2;計(jì)算機(jī)在生物學(xué)中的應(yīng)用 按按 d(z,u)=(d(x,u)+d(y,u)/2 計(jì)算新的分類到其計(jì)算新的分類到其他類的距離;從距離矩陣中刪除與他類的距離;從距離矩陣中刪除與x和和y相應(yīng)的相應(yīng)的行和列,加入與行
59、和列,加入與z相應(yīng)的行和列。從頭循環(huán),相應(yīng)的行和列。從頭循環(huán),直到僅剩一個(gè)類為止。直到僅剩一個(gè)類為止。 UPGMA:一個(gè)新類到其他類:一個(gè)新類到其他類(u)之間的距離就之間的距離就是簡單的原距離平均值;計(jì)算:是簡單的原距離平均值;計(jì)算: d(x,y),u=(nx/(nx+ny)dx,u+(ny/(nx+ny)dy,u n是每個(gè)類的元素個(gè)數(shù)。是每個(gè)類的元素個(gè)數(shù)。 2 1 A 4 C B D 1 2計(jì)算機(jī)在生物學(xué)中的應(yīng)用(2)距離變換法:考慮了不同家族的不同進(jìn)化)距離變換法:考慮了不同家族的不同進(jìn)化速率,利用外部參考種幫助確定正確的樹。設(shè)速率,利用外部參考種幫助確定正確的樹。設(shè)D為外部參考種,其就
60、作為變換其他物種之間為外部參考種,其就作為變換其他物種之間距離的參考:距離的參考: dij=(dij-diD-djD)/2+dD (i,j=A,B,C) dij是是i和和j之間的變換后距離,之間的變換后距離,dD是利用外部參是利用外部參考種與全體內(nèi)部物種之間的平均距離。在此,考種與全體內(nèi)部物種之間的平均距離。在此, dD =(dAD-dBD-dCD)/3。(3)鄰位相連法()鄰位相連法(NJ):在進(jìn)行類的合并時(shí),):在進(jìn)行類的合并時(shí),不僅要求待合并的類是相近的,同時(shí),還要求不僅要求待合并的類是相近的,同時(shí),還要求待合并的類遠(yuǎn)離其他的類。待合并的類遠(yuǎn)離其他的類。計(jì)算機(jī)在生物學(xué)中的應(yīng)用(1)簡約法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)租賃管理合同協(xié)議
- 專柜裝修合同裝修合同協(xié)議
- 房屋轉(zhuǎn)讓協(xié)議合同書
- 聘請(qǐng)勞務(wù)合同
- 安置房買賣協(xié)議合同
- 小學(xué)六英語試卷答案
- 賣魚銷售合同范本
- 個(gè)人一周工作計(jì)劃
- 冷凍品供貨合同范本
- 三年級(jí)下冊(cè)音樂教案
- 外科病人體液失衡-課件
- 醫(yī)學(xué)課件-耳穴壓豆教學(xué)課件
- 生物氧化 Biological Oxidation課件
- 電力拖動(dòng)自動(dòng)控制系統(tǒng)-運(yùn)動(dòng)控制系統(tǒng)(第5版)習(xí)題答案
- 贛美版四年級(jí)美術(shù)下冊(cè)全冊(cè)課件匯總
- 工會(huì)專業(yè)知識(shí)考試題庫
- 2023年山東水利職業(yè)學(xué)院單招綜合素質(zhì)考試筆試題庫及答案解析
- 小學(xué)數(shù)學(xué)最新人教版三年級(jí)下冊(cè)第一單元《位置與方向(一)》單元測(cè)試題(答案解析)
- 《英語閱讀4》課程教案(下)
- 大班數(shù)學(xué)活動(dòng)有趣的鐘表
- 剪映入門教程PPT
評(píng)論
0/150
提交評(píng)論