版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Good is good, but better carries it.精益求精,善益求善。生物信息學學生復(fù)習資料-生物信息學復(fù)習資料陳芳宋東光教材:生物信息學簡明教程(鐘揚編)1緒論分子生物學與計算機、信息科學的結(jié)合生物信息學(Bioinformatics);Bioinformaticsisthescienceofstoring,extracting,organizing,analyzing,interpreting,andutilizinginformationfrombiologicalsequencesandmolecules.生物信息學及其分支學科分子生物信息學(moleculari
2、nformatics)即狹義的生物信息學,指應(yīng)用信息技術(shù)儲存和分析基因組測序所產(chǎn)生的分子序列及其相關(guān)數(shù)據(jù);生物信息學(bioinformatics)廣義的生物信息學指生命科學與數(shù)學、計算機科學和信息科學等交叉形成的一門邊緣學科,對各種生物信息(主要是分子生物學信息)的獲取、儲存、處理、分析和闡釋;生物信息學是廣義的計算生物學的分支,在為生物學系統(tǒng)建模中應(yīng)用了量化分析技術(shù);計算分子生物學(computationalmolecularbiology)-開發(fā)和使用數(shù)學和計算機技術(shù)以幫助解決分子生物學中的問題,側(cè)重于發(fā)展理論模型和有效算法;分子計算(molecularcomputing)將DNA作為一
3、種信息儲存器,應(yīng)用PCR技術(shù)和生物芯片等來進行計算。生物信息學的主要目的不是分子發(fā)展最精致的算法,其目的是發(fā)現(xiàn)生物體以怎樣的方式生存。生物信息學和計算生物學研究包括從生物系統(tǒng)的性質(zhì)抽象出為數(shù)學或物理模型,到實現(xiàn)數(shù)據(jù)分析的新算法,以及開發(fā)數(shù)據(jù)庫和訪問數(shù)據(jù)庫的Web工具。生物信息學的功能是表示、存儲和分布數(shù)據(jù)。開發(fā)從數(shù)據(jù)中發(fā)現(xiàn)知識的分析工具處于第二位。生物信息學發(fā)展階段與研究方向前基因組時代數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析;基因組時代基因?qū)ふ液妥R別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等;后基因組時代大規(guī)?;蚪M分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。面臨的主要挑戰(zhàn):1)互操作
4、的生物信息系統(tǒng)及相關(guān)數(shù)據(jù)挖掘技術(shù);2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計分析方法和優(yōu)化算法;3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測模型;4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。我國生物信息學研究的發(fā)展方向建立國家生物醫(yī)學數(shù)據(jù)庫與服務(wù)系統(tǒng)人類基因組的信息結(jié)構(gòu)分析功能基因組相關(guān)信息分析研究遺傳密碼起源與生物進化(尤其是分子進化)的過程與機制生物信息學基本方法與前沿技術(shù)基本方法1)建立生物數(shù)據(jù)庫2)數(shù)據(jù)庫檢索3)序列分析4)統(tǒng)計模型5)算法前沿技術(shù)1)數(shù)據(jù)管理技術(shù)2)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(shù)3)圖像處理與可視化技術(shù)生物信息學的應(yīng)用生物信息的經(jīng)濟價值與生物信息學市場基因組分析
5、基因芯片藥物開發(fā)其他應(yīng)用領(lǐng)域生物信息學的主要研究領(lǐng)域及其應(yīng)用前景生物信息學(bioinformatics)廣義的生物信息學指生命科學與數(shù)學、計算機科學和信息科學等交叉形成的一門邊緣學科,對各種生物信息(主要是分子生物學信息)的獲取、儲存、處理、分析和闡釋;生物信息學是廣義的計算生物學的分支,在為生物學系統(tǒng)建模中應(yīng)用了量化分析技術(shù);生物信息學發(fā)展階段與研究方向前基因組時代數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析;基因組時代基因?qū)ふ液妥R別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等;后基因組時代大規(guī)?;蚪M分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。面臨的主要挑戰(zhàn):1)互操作的生物信息系統(tǒng)及相
6、關(guān)數(shù)據(jù)挖掘技術(shù);2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計分析方法和優(yōu)化算法;3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測模型;4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。我國生物信息學研究的發(fā)展方向建立國家生物醫(yī)學數(shù)據(jù)庫與服務(wù)系統(tǒng)人類基因組的信息結(jié)構(gòu)分析功能基因組相關(guān)信息分析研究遺傳密碼起源與生物進化(尤其是分子進化)的過程與機制生物信息學的應(yīng)用前景生物信息的經(jīng)濟價值與生物信息學市場基因組分析基因芯片藥物開發(fā)其他應(yīng)用領(lǐng)域2生物信息學的計算機基礎(chǔ)數(shù)據(jù)管理與數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫是以一種能夠保存持久并可以被操作的方式來保存的數(shù)據(jù)集合。包括文本文件、電子數(shù)據(jù)表格和圖象。數(shù)據(jù)庫系統(tǒng)由一個數(shù)據(jù)庫和周圍的環(huán)境,包括
7、軟件、操作系統(tǒng)、硬件和使用它的用戶所組成。計算機網(wǎng)絡(luò)與Internet計算機網(wǎng)絡(luò)是為了資源共享和信息交流的目的而互相連接起來的計算機的集合?;ヂ?lián)網(wǎng)絡(luò)(Internetwork)是指通過中間設(shè)備連接的多個網(wǎng)絡(luò)的集合,形成覆蓋范圍更廣的計算機網(wǎng)絡(luò)。網(wǎng)絡(luò)分類根據(jù)距離分類:局域網(wǎng)(LAN,LocalAreaNetwork)連接小范圍內(nèi)的計算機,一般系統(tǒng)覆蓋半徑為幾百米到幾公里,是隨著PC機的發(fā)展而發(fā)展起來的;廣域網(wǎng)(WAN,WideAreaNetwork)可以連接地理位置比較分散的計算機,Internet是最大的WAN,連接了不同大洲的數(shù)百萬個網(wǎng)絡(luò).介于二者的是城域網(wǎng)(MAN,Metropolitan
8、AreaNetwork).Internet提供的服務(wù)Telnet:主機遠程登錄;FTP:文件傳輸;Email:電子郵件;Usenet:新聞組;WWW:萬維網(wǎng).數(shù)據(jù)倉庫和數(shù)據(jù)挖掘Datawarehouse:面向主題的、集成的、持久的、歷史的數(shù)據(jù)集合。從各種數(shù)據(jù)資源中獲得原始數(shù)據(jù)按輔助決策的主題要求形成當前基本數(shù)據(jù)層按綜合決策要求形成綜合數(shù)據(jù)層由時間機制轉(zhuǎn)為歷史數(shù)據(jù)層;KDD:knowledgediscoveryindatabase,從數(shù)據(jù)中發(fā)現(xiàn)有用信息和模式的過程,包括數(shù)據(jù)選擇預(yù)處理轉(zhuǎn)換數(shù)據(jù)挖掘解釋或評價knowledge;Datamining:利用算法對KDD過程獲得的信息和模式進行提取,對隱
9、藏信息進行預(yù)測性的或描述性的模型匹配.數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification),回歸(regression),時序分析(timeseriesanalysis),預(yù)測(prediciton),聚類(clustering),概括(summarization),關(guān)聯(lián)(association),順序發(fā)現(xiàn)(sequencediscovery)等.3生物信息學資源與數(shù)據(jù)挖掘生物信息學資源基因組信息蛋白質(zhì)信息整合生物學信息分子數(shù)據(jù)挖掘工具序列相似性查詢軟件BLAST序列查詢和模式識別數(shù)據(jù)挖掘工具生物信息學資源查找科學文獻幾乎每種主要的期刊都有自己的Web站點,網(wǎng)上也有很多文獻數(shù)據(jù)庫,如NC
10、BI的Medline數(shù)據(jù)庫(PubMed)等。PubMed介紹PubMed系統(tǒng)是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的用于檢索MEDLINE、Pre-MEDLINE數(shù)據(jù)庫的網(wǎng)上檢索系統(tǒng)(/entrez)。MEDLINE是美國國立醫(yī)學圖書館(U.S.NationalLibraryofMedicine)最重要的書目文摘數(shù)據(jù)庫,內(nèi)容涉及醫(yī)學、護理學、牙科學、獸醫(yī)學、衛(wèi)生保健和基礎(chǔ)醫(yī)學。收錄了全世界70多個國家和地區(qū)的4000余種生物醫(yī)學期刊,現(xiàn)有書目文摘條目1000萬余條,時間起自1966年。雖然是世界范圍的,但是大多數(shù)記錄是從英語資料(87%)或有英文摘要(72%)的文獻中獲得的。PubMe
11、d使用以關(guān)鍵詞為基礎(chǔ)的搜索策略,允許邏輯運算符AND/OR/NOT,用戶可以使用Mesh(MedicalSubjectHeading)查找。Mesh是一個標準詞庫,可用來幫助查找用不同名稱代表同一概念的文獻??捎肕esh瀏覽器查詢相關(guān)的Mesh詞?;蚪M信息DNA測序雙脫氧測序(ddNTPs)(Sanger1977)自動測序(熒光標記引物)毛細管測序:提高100倍(2005)基因組測序1)YAC,BAC(100Kb)文庫作圖找到重疊片段,測序2)鳥槍法測序:對所有克隆進行測序然后通過計算機進行片段重疊連接。cDNA文庫測序:ESTs(expressedsequencetags).提交序列到數(shù)據(jù)
12、庫BankIt:submittoGenBankbyWebSequin:localPCprogramGenBankEmail:gbsubGenBankGenBank是美國國立衛(wèi)生研究院(NIH)維護的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統(tǒng)發(fā)生學劃分,另外一些則按照生成這些序列數(shù)據(jù)的技術(shù)方法劃分。目前GenBank中所有的記錄均來自于最初作者向DNA序列數(shù)據(jù)庫的直接提交。這些作者將序列數(shù)據(jù)作為論文的一部分來發(fā)表,或?qū)?shù)據(jù)直接公開。GenBank由位于馬里蘭州Bethesda的美國
13、國立衛(wèi)生研究院下屬國立生物技術(shù)信息中心(NCBI)建立,與日本DNA數(shù)據(jù)庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學實驗室核苷酸數(shù)據(jù)庫(EMBL)一起,都是國際核苷酸序列數(shù)據(jù)庫合作的成員。所有這三個中心都可以獨立地接受數(shù)據(jù)提交,而三個中心之間則逐日交換信息,并制作相同的充分詳細的數(shù)據(jù)庫向公眾開放分類檢索:用accessionnumber,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術(shù)語來查詢。同源性(homology):定性。同源序列指從某一共同祖先經(jīng)趨異進化而形成得不同序列。相似性(similariy)::定量。通過序列比對過程中用來描述檢測序列和目標序列之間相同DNA堿基或氨
14、基酸殘基序列所占比例的高低。相似性檢索:用BLAST來在GenBank和其他數(shù)據(jù)庫中進行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過Query和BLAST服務(wù)器。用FTP下載整個的GenBank和更新數(shù)據(jù)。序列格式GenBankflatfile(GBFF)是GenBank數(shù)據(jù)庫的基本信息單位.GBFF可以分成三個部分,頭部包含關(guān)于整個記錄的信息(描述符)。第二部分包含了注釋這一記錄的特性,第三部分是核苷酸序列自身。蛋白質(zhì)信息蛋白質(zhì)序列和結(jié)構(gòu)分為3個層次:氨基酸序列-一級數(shù)據(jù)庫,基序(motif)-二級數(shù)據(jù)庫,結(jié)構(gòu)域(domain)-結(jié)構(gòu)數(shù)據(jù)庫。二級和三級數(shù)據(jù)庫為Deriv
15、edDatabases。蛋白質(zhì)數(shù)據(jù)庫先于核苷酸數(shù)據(jù)庫。在60年代初,Dayhoff和他的同事們收集了所有當時已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊”。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(ProteinInformationResource).一級數(shù)據(jù)庫記錄了實驗結(jié)果,以及一些初步的解釋。在DNA序列記錄中的一種常見的注釋是編碼序列(CDS).大多數(shù)蛋白質(zhì)序列都不是直接由實驗確定的,而是通過DNA序列得到的。蛋白質(zhì)一級數(shù)據(jù)庫主要包括:PIR,MIPS,SWISS-PROT,TrEMBL,NRDB,OWL,MIPSX等。二級數(shù)據(jù)庫(SecondaryDB或PatternDB):包括PROSIT
16、E,PRINTS,Pfam,BLOCKS,IDENITIFY等。三級數(shù)據(jù)庫:包括SCOP,CATH,PDBsum等。分子數(shù)據(jù)挖掘工具大量的序列和文獻數(shù)據(jù)必須經(jīng)過人工或計算機的處理分析才能提取出有用的信息,因而近年來數(shù)據(jù)挖掘技術(shù)的應(yīng)用在基因表達分析等領(lǐng)域得到了廣泛的開展。數(shù)據(jù)挖掘不同于傳統(tǒng)的數(shù)據(jù)庫查詢語言,數(shù)據(jù)庫的數(shù)據(jù)須經(jīng)過調(diào)整以利于進行知識挖掘,提取的結(jié)果不是數(shù)據(jù)庫中的元數(shù)據(jù),因此,數(shù)據(jù)挖掘采用多種算法去完成一定的任務(wù),可以對隱藏信息進行預(yù)測性的或描述性的模型匹配。數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification),回歸(regression),時序分析(timeseriesanaly
17、sis),預(yù)測(prediciton),聚類(clustering),概括(summarization),關(guān)聯(lián)(association),順序發(fā)現(xiàn)(sequencediscovery)等。序列相似性查詢軟件Globalsimilaralgorithmswhichoptimizeoverallalignmentbetweentwosequences(dynamicprogramming)Localsimilaralgorithmswhichseeonlyrelativelyconservedpiecesofsequence(FASTA,BLAST)BLAST:BasicLocalAlignmen
18、tSearchToolBLASTN,BLASTP,BLASTX,tBLASTN,tBLASTPblastn:核酸序列對核酸庫的比對,直接比較核酸序列的同源性。blastp:蛋白序列與蛋白庫做比對,直接比對蛋白序列的同源性。blastx:核酸序列對蛋白庫的比對,先將核酸序列翻譯成蛋白序列(根據(jù)相位可以翻譯為6種可能的蛋白序列),然后再與蛋白庫做比對。tblastn:蛋白序列對核酸庫的比對,將庫中的核酸翻譯成蛋白序列,然后進行比對。tblastx:核酸序列對核酸庫在蛋白級別的比對,將庫和待查序列都翻譯成蛋白序列,然后對蛋白序列進行比對。4DNA序列分析基因結(jié)構(gòu)與DNA序列分析EST分析cDNA文庫
19、EST數(shù)據(jù)庫EST聚類分析電子克隆全長cDNA序列比對分析全局和局部排列CLUSTAL軟件基因結(jié)構(gòu)與DNA序列分析電子克隆cDNA全長序列Virtualcloning:利用重疊EST序列通過計算機EST數(shù)據(jù)庫搜索進行拼接獲得全長cDNA.通常使用BLAST進行檢索,然后進行重疊片段拼接。Sequencealignment序列比對是比較兩個(pair-wisealignment)或多個序列(multiplesequencealignment)找出單一字符或字符模式在序列中處于相同的順序。將兩序列排成兩行,相同字符按列對齊,錯配字符亦可按列或以空格對齊。很容易對齊的序列認為是相似的(similia
20、r).全局比對(globalalignment):用于比較十分相似且長度幾乎相等的序列,比對大部分堿基.局部比對(localaligment):比較序列中的最高密度配對字符,獲得一個或多個亞比對順序(subalignment),用于比較有部分相似的序列,其他部分不相似、長度不同、或具有保守區(qū)段或結(jié)構(gòu)域的序列。序列比對的重要性序列比對用于發(fā)現(xiàn)生物序列的功能、結(jié)構(gòu)和進化的信息,獲得最佳比對(optimalalignment)才能做到.很相似的序列往往可能具有相同的功能,如DNA分子的調(diào)控作用,蛋白質(zhì)分子的相似生化功能或三維結(jié)構(gòu)。來自不同生物相似的兩個序列可能具有相同的祖先序列,或稱為同源的。新的基
21、因進化認為是通過基因復(fù)制(geneduplication)產(chǎn)生前后兩個拷貝并發(fā)生突變,極少的機會其中的一個拷貝的新突變功能上可能更有利,然后沿不同途徑進化,形成的兩個基因家族仍是相關(guān)的且很相似因為具有共同的祖先,由于基因重排(generearrangement)會引起蛋白質(zhì)結(jié)構(gòu)域進行重新配對而導致形成更復(fù)雜的蛋白質(zhì)其進化關(guān)系可能難以辨認。Orthologs(垂直進化直系同源):具有共同祖先及功能的同源基因但找不到基因如何復(fù)制的證據(jù)(有復(fù)制證據(jù)而同源基因來自一個具有相同功能的拷貝時亦稱Orthologs);Paralogs(平行進化并系同源):復(fù)制產(chǎn)生的兩個拷貝及其各自進化的后裔;Analogo
22、us(類似):不具有相同祖先但通過獨立進化途徑而聚合了相同的功能稱為聚合進化(convergentevolution),如chymotrypsin和subtilisin的空間結(jié)構(gòu)和折疊完全不同但其活性部位具有相似的結(jié)構(gòu)特征;Xenologous(外源的異同源):通過基因水平轉(zhuǎn)移(共生、病毒轉(zhuǎn)導)而產(chǎn)生的相似序列。DotMatrix序列比對點陣比對方法應(yīng)作為序列比對的首選,因為它可以很快反映序列的插入/缺失和正向/反向重復(fù)。但多數(shù)程序(DOTTER,DNAStrider,DOTPLOT,COMPARE)不能很好確切的表示比對。比對采用對角線來比對兩個序列,用滑動窗口來過濾隨機的配對,窗口大小可以
23、改變。DynamicProgramming許多計算機科學的問題都可以簡化為通過圖表尋求最優(yōu)路徑,對每一種路徑都有必要對其進行某種意義上的打分,通常是對沿這一途徑的每一步的增量進行加和.假定相同殘基加正分,有插入或缺失的殘基就加負分(扣分)根據(jù)這一定義,最合適的比對方法會得到最高分,也就是我們尋找的最佳路徑。動態(tài)規(guī)劃的思想是這樣的,如果一條路徑終止于最佳路徑上的一點,那么這條路徑本身就是起點到這個中間點的最佳路徑,即任何一個終止于最佳路徑上的一點的次級路徑必然就是終止于這一點的最佳路徑本身.這樣,最佳路徑就可以通過把各個最佳的次級路徑連接而成。Needleman-Wunsch算法:最佳比對必然對
24、每個序列都由始至終,就是說從搜索空間的左上角直至右下角。換句話說,它搜索全程比對。Smith&Waterman算法:把尋找K種最好的但不相互交叉的比對方式為目標,尋求局部比對時可能會發(fā)現(xiàn)若干個重要的比對。PAM記分矩陣序列比較往往希望找到序列的共同祖先是如何經(jīng)過突變和選擇的。基本的突變過程認為是取代(substitutions)序列中的殘基改變,以及插入或缺失(insertionsanddeletions).自然選擇過程篩選突變因而某些突變比其他較為常見。PAM120,PAM80,PAM60分別用來比對序列間有40%,50%及60%相似性。PAM250用來比較較遠如只有1427%相似性的蛋白質(zhì)
25、較合適。用PAM矩陣進行比對可以統(tǒng)計地區(qū)分偶然或具有生物學意義的比對。通常不需要先知道序列相似程度,而無空格比對在使用合適PAM矩陣時達到最佳。有時可以使用幾種矩陣的組合,或使用一個矩陣而調(diào)整打分的參數(shù)可以比對相距較遠序列(主要用于數(shù)據(jù)庫搜索)。PAM矩陣比一些簡單的矩陣可能更遜色如基于側(cè)鏈化學基團的矩陣,而且PAM用于構(gòu)建進化樹關(guān)系方面不理想。BLOSUM矩陣用于比較較遠蛋白質(zhì)序列更為有用,因為其基于大量蛋白質(zhì)的數(shù)據(jù)。BLOSUM取代矩陣BLOSUM62取代矩陣(Blocksaminoacidsubstitutionmatrices)基于大量約2000種保守氨基酸patterns(block
26、s,來自Prosite數(shù)據(jù)庫)中出現(xiàn)的氨基酸取代而獲得的記分矩陣(Henikoff1992)。60%相同的patterns獲得的稱為BLOSUM60,80%相同的稱為BLOSUM80.BLOSUM62代表了信息含量與數(shù)據(jù)大小的平衡,即聚類比率升高,區(qū)分真實與偶然的比對的能力亦提高。PAM模型用于追溯蛋白質(zhì)的進化途徑,而BLOSUM模型用于發(fā)現(xiàn)保守結(jié)構(gòu)域。同源性分析中常常要通過多序列比對來找出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。Clustal的漸進比對:在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據(jù)相似性分值將它們分成
27、若干組,并在每組之間進行比對,計算相似性分值。根據(jù)相似性分值繼續(xù)分組比對,直到得到最終比對結(jié)果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠的序列添加在后面。CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關(guān)系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。世界上最權(quán)威的三大生物數(shù)據(jù)平臺GenBank數(shù)據(jù)庫:1979年歐洲分子生物學實驗室(EMBL):1982年日本核酸序列數(shù)據(jù)庫(DDBJ):1984年5分子系統(tǒng)發(fā)育分析分子進化的基本概
28、念核酸或蛋白質(zhì)譜系的系統(tǒng)發(fā)育分析是推測同一譜系是如何通過進化而來的。序列的進化關(guān)系可以描述為樹的分枝,枝條反應(yīng)進化關(guān)系遠近,很相似的兩個序列放在鄰近并由共同祖先分枝連接。這個進化樹描述了同一譜系的進化關(guān)系,包括了分子進化(基因樹)、物種進化以及分子進化和物種進化的綜合。同源性當兩個序列具有進化關(guān)系時,兩序列同源(homologous).類群(group)祖先類群(ancestralgroup)單系類群(monophyleticgroup)并系/復(fù)系類群(paraphyletic/polyphyleticgroup)內(nèi)/外類群(ingroup/outgroup)姊妹群(sistergroup)基
29、因組復(fù)雜性與系統(tǒng)發(fā)育分析進行系統(tǒng)發(fā)育分析時,需考慮大多數(shù)基因組的起源是很復(fù)雜的,基因組的部分可能是通過正常生殖循環(huán)垂直進化的,其他部分可能由遺傳物質(zhì)的水平轉(zhuǎn)移如病毒、DNA轉(zhuǎn)化、共生和其他轉(zhuǎn)移機制而來的。進行發(fā)育樹分析時,選擇的基因應(yīng)該在所有生物體中出現(xiàn)且在多數(shù)物種中可以通過序列保守性來辨認,同時有足夠的序列變異將不同生物體劃分為相同系統(tǒng)發(fā)育的類群,另外最好該基因不處在選擇壓力下即不易丟失變異.符合以上條件的序列只有小rRNA亞基和線粒體序列。其他基因家族的系統(tǒng)發(fā)育分析則復(fù)雜些因而提出了不同的模型。進化樹:是一個反映生物體或不同生物體的某些基因的進化關(guān)系的二維圖。進化樹均是二分樹(binary
30、),分開的序列稱為類群(taxa),是系統(tǒng)發(fā)育樹的明確單位。樹由向外伸展的枝條或葉片代表taxa,節(jié)點和枝干代表taxa間的關(guān)系。每個節(jié)點代表基因經(jīng)過分開的進化途徑進入兩個不同生殖隔離的物種。枝干長度代表序列的差異數(shù)目.建樹方法常用的有:maximumparsimony(簡約法),distance(距離法),maximumlikelihood(最大似然法).Maximumparsimonymethod(MP,最大簡約法)也稱最小進化法(minimumevolutionmethod),通過減少產(chǎn)生序列觀察差異的步驟來預(yù)測進化樹。多序列比對是必要的,利用盡可能少比對序列上各個位置的改變預(yù)測發(fā)育樹,
31、并找到最好的發(fā)育樹。主要用于序列數(shù)較少且很相似的序列。Distancemethod(距離法)距離法根據(jù)一組序列中的每對序列差異的數(shù)目產(chǎn)生發(fā)育樹。具有最小差異的序列對稱為“鄰居(neighbors)”,它們在樹上的同一節(jié)點或具有相同祖先,分別以樹枝表示。距離法找到組內(nèi)最近的鄰居的方法亦是multiplesequencealignment使用的第一步。距離法最早由Feng&Doolittle(1991)提出,可以同時產(chǎn)生蛋白質(zhì)序列的比對和發(fā)育樹。CLUSTALW程序利用neighbor-joiningdistancemethod,PAUP和PHYLIP亦有使用距離法獲得發(fā)育樹。Distanceme
32、thod將序列間距離相加以獲得樹枝長度,樹枝上的改變數(shù)目對應(yīng)于序列間的距離。Fitch&MargoliashMethodF&M(1987)使用距離表(distancetable),將序列以3個一組進行處理計算分枝長度預(yù)測發(fā)育樹.樹枝長度亦是加性的,對于短樹枝樹來說是最準確的。較長樹枝則降低可靠性。Neighbor-joiningmethod(NJ,鄰接法)NJ法與FM法相似但利用不同算法找出序列對,用于預(yù)測不同譜系進化速率不同時的發(fā)育樹比較可靠。首先計算序列間的距離然后計算樹枝長度總和,獲得星狀樹,求得總和最小的樹的兩個序列即可以認為是鄰居.UPGMA(算術(shù)平均不加權(quán)對群法)UPGMA(unw
33、eightedpairgroupmethodwitharithmeticmean)是聚類常用的方法。UPGMA認為樹枝的改變速率是一個常數(shù)其距離近乎相等(ultrametric)。將序列配對或聚類的方法很多且各異,通常首先計算最相關(guān)的序列將其樹枝長度(branchlength)平均,再與另一序列或cluster平均,直到所有序列都進行了計算并得到樹根。當樹枝的突變率不一致時得到的樹容易出錯。選擇外類群(outgroup)如果已知某些序列相關(guān)程度較遠,可以將其加在最后接近樹根,這樣可以提高預(yù)測的準確性。這些序列稱為外類群。但是,外類群序列必須與其他序列密切相關(guān),又與其他序列保持顯著的差異(其他序
34、列本身則較近)。將序列相似性轉(zhuǎn)換成距離分值大多數(shù)序列比對只是確定序列間的相似程度而不是距離,最簡單的打分體系即相似性(similarity)描述了序列比對中匹配的位置而距離為不匹配位置的數(shù)目,是可以通過轉(zhuǎn)換為另一個序列的位置。說明這些改變是共同祖先序列分枝產(chǎn)生的。Maximumlikelihoodapproach(ML,最大似然法)ML利用概率計算找出差異序列的最佳發(fā)育樹。ML分析多序列比對的每個列,考慮所有可能的樹,因而只能對少數(shù)序列有效。對于每個樹,引起序列變異的序列改變或突變是要考慮的,由于出現(xiàn)新突變的頻率是很低的,因而需要更多的突變樹才能與數(shù)據(jù)吻合的樹是不太可能的。進化樹構(gòu)建的主要方法
35、、各自的原理及優(yōu)缺點距離建樹方法:利用雙重序列比對的差異程度進行建樹;最大簡約法:進化往往會走最短的路-DNA序列發(fā)生的堿基替換數(shù)量最少最大似然法:進化會走可能性最大的路1)距離建樹方法(非加權(quán)組平均法UPGMA,相鄰歸并法Neighbor-joining,NJ(優(yōu)點:快速),F(xiàn)itch-Margoliash(FM)(優(yōu)點:允許OTU(操作分類單位)間存在不同的進化速率))原理:根據(jù)雙重序列比對的差異程度(距離)優(yōu)點:使用序列進化模型、計算強度較小缺點:屏蔽了真實的特征符數(shù)據(jù)。2)最大簡約法原理:最能反映進化歷史的樹具有最短的樹長(treelength),即進化步數(shù)(性狀在系統(tǒng)樹中狀態(tài)改變的次
36、數(shù))最少。即:DNA序列發(fā)生的堿基替換數(shù)最少。3)最大似然法原理:首先選定一個進化模型,計算該模型下,各種分支樹產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性。具有最大可能性的系統(tǒng)樹為最優(yōu)。即一個樹的似然性(likelihood)等于每一個性狀的似然性之和或每一個性狀的似然性對數(shù)之和。優(yōu)點:完全基于統(tǒng)計,在每組序列比對中考慮了每個核苷酸替換的概率,使用越來越普遍缺點:計算量非常大,缺乏普遍適用的替換模型(不同的替換模型給出不同的結(jié)果)基因進化樹與物種進化樹的區(qū)別基因樹(genetree):基于一種或少數(shù)幾種同源基因(蛋白)的比較分析而構(gòu)建的系統(tǒng)發(fā)生樹,其實質(zhì)是基因的進化歷史。物種樹(speciestree):綜合考察物
37、種多方面的進化證據(jù)而構(gòu)建的系統(tǒng)發(fā)生樹。物種樹一般最好是從多個基因數(shù)據(jù)的分析中得到。例如最近的一項的研究表明,高等植物進化研究需要采用100種不同的基因來構(gòu)建物種樹,才有較高的可信度。6基因組分析Introduction自90年代全基因組測序如微生物、酵母(Saccharomycescerevisiae)、秀麗線蟲(Caenorhabditiselegans)、擬南芥菜(Arabidopsisthaliana)、果蠅(Drosophila)和人類(Homosapiens)開展以來,生物信息學的一個主要任務(wù)即是進行全基因組分析。其他的基因組計劃亦已開展。經(jīng)典遺傳學和分子生物學只是研究某個單一基因的
38、作用、對其測序并預(yù)測其功能或?qū)ζ浔磉_進行控制。而獲得基因組全序列則可以鑒定控制代謝、細胞分化和發(fā)育、動植物病理過程等的重要基因及其相關(guān)基因。多年來對模式生物E.coli,S.cerevisiae,A.thaliana,D.melangogaster的遺傳和生化研究已積累了大量的關(guān)于基因結(jié)構(gòu)和功能的信息,老鼠Musmusculus則是研究人類基因的主要動物模型因其在進化上密切相關(guān)。Prokaryoticgenomes:原核基因組測序前提:1)已進行過很好的生物學分析,如E.coli;2)為重要的人類病原菌;3)具有發(fā)育樹重要性(rRNA-Archaea,Bacteria,Eukarya)。Euk
39、aryoticgenomes真核基因組特點:順序重復(fù)(sequencerepeats):5-200bp,衛(wèi)星DNA,端粒和著絲粒DNA,小衛(wèi)星DNA(minisatellites,25bp),微衛(wèi)星DNA(micro,4bp或更少)。轉(zhuǎn)座因子(transposableelements,TEs):從一個染色體移到另一染色體,其不斷增加數(shù)目可占基因組的很大部分。Retroposons:SINEs(shortinterspersednuclearelements,80300bp)&LINEs(longinterspersednuclearelements,68kbp)。人類一個典型的SINEs即Al
40、u(1.2millioncopies),一個LINE1(593,000copies,14.6%)。脊椎動物染色體具有長的區(qū)段(300bp)其富含GC,重復(fù),基因密集稱為isochores(等容線),亦即基因組由特異的確定(distinct)區(qū)段組成。如人和鼠有富含AT并有較多的Alu或B1/B2(SINEs),以及具有高基因密度的富含GC區(qū)段。真核生物基因結(jié)構(gòu)內(nèi)含子:蛋白質(zhì)編碼基因均有不同長度和數(shù)目的內(nèi)含子插入且位置一般是固定的,酵母很少整個基因組僅含239個內(nèi)含子,而人類基因可能含100個內(nèi)含子占基因長度的95%。Comparativegenomics比較基因組學包括對原核和真核生物的基因數(shù)
41、目、基因容量、基因位置進行比較分析,全基因組序列的獲得可以將其編碼的蛋白質(zhì),蛋白質(zhì)組與其他物種比較。序列比較可以獲得基因關(guān)系的信息具有相同功能和進化歷史,稱為orthologs。如果一套基因歸屬一組并集中在染色體的特定位置,且另一物種的一套相似基因亦歸于一組,則它們具有相同進化歷史。HorizontalGeneTransfer(HT)垂直傳遞(verticaltransmission):大多數(shù)物種的基因組由父母的染色體傳遞給子代?;蛩睫D(zhuǎn)移(horizontaltransfer-HT,orlateraltransfer):從其他物種獲得遺傳物質(zhì)典型例子如線粒體和葉綠體的內(nèi)共生。HT不經(jīng)常發(fā)生
42、,有時經(jīng)歷了上千萬年。基因的功能分析(Functionalclassification)Geneannotation:精確基因注釋是基因組分析重要的第一步,注釋通常是通過數(shù)據(jù)庫相似性搜索找到與已知功能序列的顯著比對。不很顯著的匹配只能作為一種假設(shè)的預(yù)測并作為一種功能的假說(MAGPIE,GENEQUIZ)。功能注釋:同一物種內(nèi)很相似基因稱為paralogous序列通常具有相關(guān)的生物學功能。說明paralogs通過geneduplication其中一個拷貝保留原來的功能而另一拷貝在進化壓力下經(jīng)過選擇獲得了新的功能但不太遠。E.coli的90%以上基因初步歸于8個相關(guān)的組包括enzymes,tra
43、nsportelements,regulators,membranes,structuralelements,proteinfactors,leaderpeptidesandcarriers.GeneOntology(GO)分類:molecularfunctions,biologicalprocesses,andcellularcomponentsGlobalGeneRegulationMicroarrayanalysis:了解基因在細胞周期、發(fā)育時期、環(huán)境脅迫下誘導表達或抑制的情況,在相同條件下表達的升或降的基因系列其常常是相關(guān)的。Microchip將物種的所有基因制備成寡核苷酸探針鋪于80
44、 x80載玻片上(也可以直接合成于載玻片上,密度達到1million/cm2),然后與標記的cDNA雜交,標記的量可反映基因表達情況。獲得共表達基因序列芯片結(jié)果后,進一步分析這些基因的啟動子區(qū)段找出保守模式并推測哪些轉(zhuǎn)錄因子參與基因表達的調(diào)節(jié)?;蛐酒╣enechip),又稱DNA微陣列(microarray),是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是通過雜交檢測信息。7蛋白質(zhì)組分析蛋白質(zhì)組一個基因組所編碼的全部蛋白質(zhì)成分。蛋白質(zhì)組分析的主要內(nèi)容有:1)蛋白質(zhì)組作圖、蛋白質(zhì)組成分鑒定、蛋白質(zhì)組數(shù)據(jù)庫構(gòu)建、新型蛋白質(zhì)發(fā)掘、蛋白質(zhì)差異顯示、同工型(isoform)比較;2)功能基因組計劃、基因產(chǎn)物識別、基因功能鑒定、基因調(diào)控機制分析;3)重要生命活動的分子機制;4)醫(yī)學靶分子尋找與分析;5)疾病診斷。蛋白質(zhì)組分析技術(shù)技術(shù)路線:主要包括樣品制備、圖象分析、蛋白質(zhì)成分分析與鑒定。數(shù)據(jù)處理:氨基酸分析、肽質(zhì)指紋圖譜(PMF)、氨基酸分析與PMF聯(lián)合、序列標簽途徑、N端EDMAN降解蛋白與微量測序、蛋白質(zhì)內(nèi)肽微量測序、MS(MALDI-TOF,ESI)微量測序、“LADDER”測序等。2-DE雙向電泳技術(shù)2-DE蛋白質(zhì)組研究中分離復(fù)雜蛋白質(zhì)混合物的核心技術(shù),能夠同時分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 聲控藍牙音響課程設(shè)計
- 戰(zhàn)略傳播課程設(shè)計
- 2024年度雙排腳手架租賃與安裝一體化服務(wù)合同3篇
- 幼兒園情境創(chuàng)意課程設(shè)計
- 柜式空調(diào)課程設(shè)計
- 2024年科研合作知識產(chǎn)權(quán)共享協(xié)議樣本解析版
- 文章管理系統(tǒng)課程設(shè)計
- 大班建構(gòu)國旗課程設(shè)計
- 機械原理課程設(shè)計輪系
- 支教課程設(shè)計小學黨史
- 《風險評估培訓》課件
- DB13-T 5931-2024 珍珠棉生產(chǎn)企業(yè)安全生產(chǎn)技術(shù)條件
- 腫瘤科介入治療及護理
- 心理統(tǒng)計與SPSS應(yīng)用學習通超星期末考試答案章節(jié)答案2024年
- SVG圖形渲染性能提升
- 華南理工大學《固體理論II》2023-2024學年第一學期期末試卷
- 女性學:女性精神在現(xiàn)代社會中的挑戰(zhàn)學習通超星期末考試答案章節(jié)答案2024年
- 《孟子》精讀學習通超星期末考試答案章節(jié)答案2024年
- 廣中醫(yī)藥理學期末重點
- 自貢市重點中學2025屆高二數(shù)學第一學期期末統(tǒng)考試題含解析
- 2024年資格考試-機動車檢測維修工程師考試近5年真題附答案
評論
0/150
提交評論