2生物信息數(shù)據(jù)庫與查詢_第1頁
2生物信息數(shù)據(jù)庫與查詢_第2頁
2生物信息數(shù)據(jù)庫與查詢_第3頁
2生物信息數(shù)據(jù)庫與查詢_第4頁
2生物信息數(shù)據(jù)庫與查詢_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1 概述 當前人類基因組研究已進入一個重要時期,2000年將獲得人類基因組的全部序列,這是基因組研究的轉(zhuǎn)折點和關(guān)鍵時刻,意味著人類基因組的研究將全面 進入信息提取和數(shù)據(jù)分析階段,即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達 46億5千萬,DNA序列數(shù)目達到535萬;其中EST序列超過339萬條; UniGene的數(shù)目已達到7萬個;已有25個模式生物的完整基因組被測序完成,另外的70個模式生物基因組正在測序當中;到2000年1月28日為止, 人類基因組已有16%的序列完成測定,另外37.7%的序列已經(jīng)初步完成;同時功能基因組和

2、蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生 物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。生物信息學(xué)是在此背景下發(fā)展起來的綜合運用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計算機科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非 常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲、分配和解釋?;蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染 色體上的確切位置以及各DNA片段的功能;同時在發(fā)現(xiàn)了新基因信息之后進行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進行藥物設(shè)計。了解基因表 達的調(diào)控機理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在

3、基因調(diào)控中的作用,描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標是揭示基因組信息結(jié)構(gòu)的復(fù)雜 性及遺傳語言的根本規(guī)律,解釋生命的遺傳語言。生物信息學(xué)已成為整個生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。近來的研究表明,基因組不僅是基因的簡單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語言的關(guān)鍵。目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個人類染色體全序列-第22號染色體的測序工作已經(jīng)在1999年12月完成,整個人類 基因組計劃工作草圖將在最近完成。這無疑給基因

4、組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時也為基因組研究取得突破性進展提供了可能。人 類對基因的認識,將從以往的對單個基因的了解,上升到在整個基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。從目前生物信息學(xué)的研究情況來看,國際上公認的生物信息學(xué)的研究內(nèi)容,大致包括以下幾個方面:1. 生物信息的收集、存儲、管理與提供。包括建立國際基本生物信息庫和生物信息傳輸?shù)膰H聯(lián)網(wǎng)系統(tǒng);建立生物信息數(shù)據(jù)質(zhì)量的評估與檢測系統(tǒng);生物信息的在線服務(wù);生物信息可視化和專家系統(tǒng)。2. 基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國際EST 數(shù)據(jù)庫 (db

5、EST) 和各自實驗室測定的相應(yīng)數(shù)據(jù),經(jīng)過大規(guī)模 并行計算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點;基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,提出理論模型,闡明該區(qū)域的重要生物學(xué)功能;進行模式生物完整基因組 的信息結(jié)構(gòu)分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進化關(guān)系等生物學(xué)的 重大問題。3. 功能基因組相關(guān)信息分析。包括與大規(guī)?;虮磉_譜分析相關(guān)的算法、軟件研究,基因表達調(diào)控網(wǎng)絡(luò)的研究;與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測和模擬,以及蛋白質(zhì)功能預(yù)測的研究。4. 生物大分子結(jié)構(gòu)模擬和藥物設(shè)計。包括RNA(核糖核酸)的結(jié)構(gòu)模擬

6、和反義RNA的分子設(shè)計;蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計;具有不同 功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計;生物活性分子的電子結(jié)構(gòu)計算和設(shè)計;納米生物材料的模擬與設(shè)計;基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細胞表面受體結(jié)構(gòu)的藥物設(shè) 計;基于DNA結(jié)構(gòu)的藥物設(shè)計等。5. 生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,諸如電子網(wǎng)絡(luò)等遠程通 訊工具;改進現(xiàn)有的理論分析方法,如統(tǒng)計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法 等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息

7、系統(tǒng)分析技術(shù)等;建立嚴格的多序列比較方法;發(fā)展與應(yīng)用密碼學(xué)方法以 及其他算法和分析技術(shù),用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等;發(fā)展生物大 分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計的新方法與新技術(shù)。6. 應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息,發(fā)展患者樣品序列信息檢測技術(shù)和基于序列信息選擇表達載體、引物的技術(shù),建立與動植物良種繁育相關(guān)的數(shù)據(jù)庫以及與大分子設(shè)計和藥物設(shè)計相關(guān)的數(shù)據(jù)庫。利用生物信息學(xué)方法進行結(jié)構(gòu)功能預(yù)測要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把

8、 算法當作一個“黑箱”。因為一種方法可能對特定實例很合適,而對另一個則完全不對。因此,本章采用原理和實用方法并重的原則進行介紹。因生物信息學(xué)覆蓋面 廣,限于篇幅,本章并未將生物信息學(xué)的全部內(nèi)容詳細加以講述,僅針對與目前分子生物學(xué)實驗數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實用工具進行扼要介紹,文中 涉及問題的更詳細信息可參考相關(guān)網(wǎng)站。生物信息學(xué)是新興發(fā)展中的學(xué)科,該領(lǐng)域的研究日新月異,書中的描述可能滯后于生物信息學(xué)的最新發(fā)展為在所難免,作者 期望本章的介紹對讀者的研究工作有所助益。2 生物信息數(shù)據(jù)庫與查詢近年來大量生物學(xué)實驗的數(shù)據(jù)積累,形成了當前數(shù)以百計的生物信息數(shù)據(jù)庫。它們各自按一定的目標收集和整

9、理生物學(xué)實驗數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問,或者通過網(wǎng)絡(luò)下載。一般而言,這些生物信息數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫 和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針 對特定目標衍生而來,是對生物學(xué)知識和信息的進一步整理。國際上著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國際上二級生物學(xué)數(shù)據(jù)庫非常多,它們因針對不同的研究內(nèi)容和需要而各具特色,

10、如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。下面將順序簡要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。2.1 基因和基因組數(shù)據(jù)庫1. GenbankGenbank 庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻著作和生物學(xué)注釋。它是由美國國立生物技術(shù)信息中心(NCBI)建立和維護的。它的數(shù)據(jù)直 接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數(shù)據(jù);以及與其它數(shù)據(jù)機構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會與歐洲分子 生物學(xué)實驗室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個數(shù)據(jù)庫的數(shù)據(jù)

11、同步。到1999年8月,Genbank中收集的序 列數(shù)量達到460萬條,34億個堿基,而且數(shù)據(jù)增長的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費下載完整的庫,或下載積 累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁上找到這些服務(wù)。Genbank庫里的數(shù)據(jù)按來源于約55,000 個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對序列的簡要描述,它的科學(xué)命名,物 種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學(xué)特征注釋如:編碼區(qū)、

12、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等。所有數(shù) 據(jù)記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個文件。(1)Genbank數(shù)據(jù)檢索NCBI 的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索 Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié) 構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的

13、文獻數(shù)據(jù)。Entrez提供了方便實用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引 (Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現(xiàn)復(fù)雜的檢索查詢工作。對于檢索獲得的記錄,用戶可以選擇需要顯示 的數(shù)據(jù),保存查詢結(jié)果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。(2)向Genbank提交序列數(shù)據(jù)測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個任務(wù)可以由基于Web界面的BankIt或獨立程序Sequin來完成。BankIt

14、是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數(shù) 據(jù)條目,Genbank的新序列編號,以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨立 測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說明和對 序列的要求可詳見其主頁面。大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設(shè)計 用

15、于提交來自系統(tǒng)進化、種群和突變研究的序列,可以加入比對的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以 FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運行的Sequin程序都可以在 /sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。NCBI的網(wǎng)址是:。Entrez的網(wǎng)址是:/entrez/。BankIt的網(wǎng)址是:http:/www.ncbi.nlm.ni

16、/BankIt。Sequin的相關(guān)網(wǎng)址是:/Sequin/。2. EMBL核酸序列數(shù)據(jù)庫EMBL 核酸序列數(shù)據(jù)庫由歐洲生物信息學(xué)研究所(EBI)維護的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個全面的核酸序列數(shù)據(jù) 庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以 通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。數(shù)據(jù)庫網(wǎng)址是:http:/www.ebi.ac.uk/embl/。SRS的網(wǎng)址是:h

17、ttp:/srs.ebi.ac.uk/。WEBIN的網(wǎng)址是:http:/www.ebi.ac.uk/embl/Submission/webin.html。3. DDBJ數(shù)據(jù)庫日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。可以使用其主頁上提供的SRS工具進行數(shù)據(jù)檢索和序列分析。可以用Sequin軟件向該數(shù)據(jù)庫提交序列。DDBJ的網(wǎng)址是:http:/www.ddbj.nig.ac.jp/。4. GDB基 因組數(shù)據(jù)庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之

18、外,還開 發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標記、斷點breakpoints、細胞遺傳標記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區(qū)域syndromic regions、contigs和重復(fù)序列);人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對象模型來保存數(shù)據(jù),提供基于Web的 數(shù)據(jù)對象檢索

19、服務(wù),用戶可以搜索各種類型的對象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:。GDB的國內(nèi)鏡像是:2.2 蛋白質(zhì)數(shù)據(jù)庫1. PIR和PSDPIR 國際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護 的國際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其 中包括來自幾十個完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進

20、行了分類。PSD的 注釋中還包括對許多序列、結(jié)構(gòu)、基因組和文獻數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶底物相互作用、活 化和調(diào)控級聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。PSD數(shù)據(jù)庫有幾個輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務(wù):基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、 FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。PIR和PSD的網(wǎng)址是:http:/pir.georgetown.

21、edu/。數(shù)據(jù)庫下載地址是:/pir/。2. SWISS-PROTSWISS- PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維護。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個條目包含蛋白質(zhì)序列、引用文獻信息、分 類學(xué)信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和 沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。利用序列提取系統(tǒng)(SRS)可以方便地

22、檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。SWISS-PROT只接受直接測序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。SWISS-PROT的網(wǎng)址是:http:/www.ebi.ac.uk/swissprot/。3. PROSITEPROSITE 數(shù)據(jù)庫收集了生物學(xué)有顯著意義的蛋白質(zhì)位點和序列模式,并能根據(jù)這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個蛋白質(zhì)家族。有的 情況下,某個蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關(guān)的序列模式,這樣就可能通過PROSITE的搜索找到隱 含的功能motif,因此是序列分析的有效工具。P

23、ROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨 酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile 的相似性。PROSITE的主頁上提供各種相關(guān)檢索服務(wù)。PROSITE的網(wǎng)址是:http:/www.expasy.ch/prosite/。4. PDB蛋 白質(zhì)數(shù)據(jù)倉庫(PDB)是國際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁 共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認后存檔而成。目前PDB

24、數(shù)據(jù)庫的維護由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負責(zé)。RCSB的主服務(wù)器和世界各地 的鏡像服務(wù)器提供數(shù)據(jù)庫的檢索和下載服務(wù),以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以 在計算機上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:/pdb/。5. SCOP蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次:家族,描述相近的進化關(guān)系;超家族,描述遠源的進化關(guān)系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關(guān)系;折疊類,所有折疊子被歸于全、全、/、和多

25、結(jié)構(gòu)域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結(jié)構(gòu)序列遠緣的已知結(jié)構(gòu)序列。SCOP的網(wǎng)址是:http:/scop.mrc-lmb.cam.ac.uk/scop/。6. COG蛋 白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關(guān)系分類構(gòu)建而成。COG庫對于預(yù)測單個蛋白質(zhì)的 功能和整個新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個蛋白質(zhì)與所有COGs中的蛋白質(zhì)進行比對,并把它

26、歸入適當?shù)腃OG簇。 COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務(wù),系統(tǒng)進化模式的查詢服務(wù)等。COG庫的網(wǎng)址是:/COG。下載COG庫和COGNITOR程序在:/pub/COG。2.3 功能數(shù)據(jù)庫1. KEGG京 都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫?;蚪M信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的 基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細胞生化過程如代謝、膜轉(zhuǎn)運、信號傳遞、細胞周期

27、,還包括同系保守的子通路等信 息;KEGG的另一個數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖 譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。KEGG的網(wǎng)址是:http:/www.genome.ad.jp/kegg/。2. DIP相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實驗驗證的蛋白質(zhì)蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實驗技術(shù)三個部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實驗技術(shù)或引用文獻來查詢DIP數(shù)據(jù)庫。DIP的網(wǎng)址是:http:

28、//。3. ASDB可 變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列, 搜索相關(guān)可變剪接的序列,經(jīng)過序列比對、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供 了方便的搜索服務(wù)。ASDB的網(wǎng)址是:/asdb。4. TRRD轉(zhuǎn) 錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)功能特性信息基礎(chǔ)上構(gòu)建的。每一個TRRD的條目里包含特定基因各種結(jié)構(gòu)功能特性

29、: 轉(zhuǎn)錄因子結(jié)合位點、啟動子、增強子、靜默子、以及基因表達調(diào)控模式等。TRRD包括五個相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本 信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結(jié)合的調(diào)控因子的具體 信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數(shù)據(jù)表的檢索服 務(wù)。TRRD的網(wǎng)址是:http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。5. TRANSFACTRANSFAC 數(shù)據(jù)庫是

30、關(guān)于轉(zhuǎn)錄因子、它們在基因組上的結(jié)合位點和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、 MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個與TRANSFAC密切相關(guān)的擴展庫:PATHODB庫收集了 可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點;S/MART DB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號傳遞的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類 轉(zhuǎn)錄因子在各個器官、細胞類型、生理系統(tǒng)和發(fā)育時期的表達狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫可以免費下載,也可以通過Web進行

31、檢索和查詢。TRANSFAC的網(wǎng)址是:http:/transfac.gbf.de/TRANSFAC/。2.4 其它數(shù)據(jù)庫資源1. DBCatDBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個生物信息學(xué)數(shù)據(jù)庫的信息,并根據(jù)它們的應(yīng)用領(lǐng)域進行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻著作等基本類型。數(shù)據(jù)庫可以免費下載或在網(wǎng)絡(luò)上檢索查詢。DBCat的網(wǎng)址是:biogen.fr/services/dbcat/。下載DBCat在:biogen.fr/pub/db/dbcat。2. PubMedPubMed是NCBI維護

32、的文獻引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLINE等文獻數(shù)據(jù)庫的引用查詢和對大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對PubMed進行方便的查詢檢索。PubMed的網(wǎng)址是:/。除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信 息數(shù)據(jù)庫,涉及了目前生物學(xué)研究的各個層面和領(lǐng)域,由于篇幅所限無法一一詳述。國內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生 物學(xué)網(wǎng)絡(luò)組織EMBNet中國節(jié)點北京大學(xué)分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時 國家

33、級的生物信息學(xué)中心也在籌建之中。我們期待國內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動我國生物信息學(xué)和整個生命科學(xué)的發(fā)展。清華大學(xué)生物信息學(xué)研究所網(wǎng)址:北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:3 序列比對和數(shù)據(jù)庫搜索比較是科學(xué)研究中最常見的方法,通過將研究對象相互比較來尋找對象可能具備的特性。在生物信息學(xué)研究中,比對是最常用和最經(jīng)典的研究手段。最常見的比對是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進化關(guān)系。進一步的比對是將多 個蛋白質(zhì)或核酸同時進行比較,尋找這些有進化關(guān)系的序列之間共同的保守區(qū)域、位點和profile,從而探索導(dǎo)致它們產(chǎn)生共同

34、功能的序列模式。此外,還可 以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。比對還是數(shù)據(jù)庫搜索算法的基礎(chǔ),將查詢序列與整個數(shù)據(jù)庫的所有序列進行比對,從數(shù)據(jù)庫中獲得與其最相似序列的已有的數(shù)據(jù),能最快速的獲得有關(guān)查詢序列的 大量有價值的參考信息,對于進一步分析其結(jié)構(gòu)和功能都會有很大的幫助。近年來隨著生物信息學(xué)數(shù)據(jù)大量積累和生物學(xué)知識的整理,通過比對方法可以有效地分析 和預(yù)測一些新發(fā)現(xiàn)基因的功能。3.1 序列兩兩比對序 列比對的理論基礎(chǔ)是進化學(xué)說,如果兩個序列之間具有足夠的相似性,就推測二者可能有共同的進化祖先,經(jīng)過

35、序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序 列重組等遺傳變異過程分別演化而來。序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進化事實的驗證。在殘基 殘基比對中,可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守,這些信息揭示了這些保守位點上的殘基對蛋白質(zhì)的結(jié)構(gòu)和功能是至關(guān)重要的,例如 它們可能是酶的活性位點殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有 保守的殘基都一定是結(jié)構(gòu)功能重要的,可能它們只是由于歷史的原因被保留下來,而不是由于進化壓力而保留下來。因此,如果兩個

36、序列有顯著的保守性,要確定二 者具有共同的進化歷史,進而認為二者有近似的結(jié)構(gòu)和功能還需要更多實驗和信息的支持。通過大量實驗和序列比對的分析,一般認為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具 有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。早期的序列比對是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部比對會更加合理。通常用打分矩陣描述序列兩 兩比對,兩條序列分別作為矩陣的兩維,矩陣點是兩維上對應(yīng)兩個殘基的相似性分數(shù),分數(shù)越高則說明兩個殘基越相似。因此,序列比對問題變成在矩陣里尋找最佳 比對路徑,目前最有效的方法是Needleman-

37、Wunsch動態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在 FASTA程序包中可以找到用動態(tài)規(guī)劃算法進行序列比對的工具LALIGN,它能給出多個不相互交叉的最佳比對結(jié)果。在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。粗糙的比對方法僅僅用相同/不同來描述兩個殘基的關(guān)系,顯然這種方法無法描 述殘基取代對結(jié)構(gòu)和功能的不同影響效果,纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代應(yīng)該給予不同的打分。因此如果用一個取代矩陣來描述氨基酸殘基兩 兩取代的分值會大大提高比對的敏感性和生物學(xué)意義。雖然針對不同的研究目標和對象應(yīng)該構(gòu)建適宜的取代矩陣,

38、但國際上常用的取代矩陣有PAM和BLOSUM 等,它們來源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對于不同的對象可以采用不 同的取代矩陣以獲得更多信息,例如對同源性較高的序列可以采用BLOSUM90矩陣,而對同源性較低的序列可采用BLOSUM30矩陣??瘴涣P分是為了補償插入和缺失對序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一 般的處理方法是用兩個罰分值,一個對插入的第一個空位罰分,如1015;另一個對空位的延伸罰分,如12。對于具體的比對問題,采用不同的罰分

39、方法會 取得不同的效果。對于比對計算產(chǎn)生的分值,到底多大才能說明兩個序列是同源的,對此有統(tǒng)計學(xué)方法加以說明,主要的思想是把具有相同長度的隨機序列進行比對,把分值與最初的 比對分值相比,看看比對結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機比對分值不低于實際比對分值的概率。對于嚴格的比對,必須E值低于一定閾值才能說明比對 的結(jié)果具有足夠的統(tǒng)計學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比對得分的可能。Genbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序列搜索服務(wù)都是以序列兩兩比對為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜 索算法都進行了一定程度的優(yōu)化,如最常見的FASTA工具和BL

40、AST工具。FASTA是第一個被廣泛應(yīng)用的序列比對和搜索工具包,包含若干個獨立的程 序。FASTA為了提供序列搜索的速度,會先建立序列片段的“字典”,查詢序列先會在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺 省的ktup=2。FASTA的結(jié)果報告中會給出每個搜索到的序列與查詢序列的最佳比對結(jié)果,以及這個比對的統(tǒng)計學(xué)顯著性評估E值。FASTA工具包可以 在大多提供下載服務(wù)的生物信息學(xué)站點上找到。BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進,速度更快,并建立在嚴格的統(tǒng)計學(xué)基礎(chǔ)之上。NCBI提供了基于Web的 BLAST服務(wù),用戶可以把序列填入網(wǎng)頁上

41、的表單里,選擇相應(yīng)的參數(shù)后提交到數(shù)據(jù)服務(wù)器上進行搜索,從電子郵件中獲得序列搜索的結(jié)果。BLAST包含五個 程序和若干個相應(yīng)的數(shù)據(jù)庫,分別針對不同的查詢序列和要搜索的數(shù)據(jù)庫類型。其中翻譯的核酸庫指搜索比對時會把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉(zhuǎn)換成 蛋白質(zhì)序列。表1. BLAST程序:程序 數(shù)據(jù)庫 查 詢 簡 述 blastpblastnblastxtblastntblastx 蛋白質(zhì)核酸蛋白質(zhì)核苷酸(翻譯)核酸(翻譯) 蛋白質(zhì)核苷酸核酸(翻譯)蛋白質(zhì)核酸(翻譯) 可能找到具有遠源進化關(guān)系的匹配序列適合尋找分值較高的匹配,不適合遠源關(guān)系適合新DNA序列和EST序列的分析適合尋找數(shù)據(jù)庫中尚未標

42、注的編碼區(qū)適合分析EST序列 表2. BLAST的蛋白質(zhì)數(shù)據(jù)庫:數(shù)據(jù)庫 簡 述 nr monthswissprotpdbyeastE.coliKabatalu 匯集了SWISS-PROT,PIR,PRF以及從GenBank序列編碼區(qū)中得到的蛋白質(zhì)和PDB中擁有原子坐標的蛋白質(zhì),并去除了冗余的序列nr中過去30天內(nèi)的最新序列SWISS-PROT數(shù)據(jù)庫PDB結(jié)構(gòu)數(shù)據(jù)庫中的蛋白質(zhì)序列酵母基因組中編碼的全部蛋白質(zhì)大腸桿菌基因組中編碼的全部蛋白質(zhì)Kabat的免疫學(xué)相關(guān)蛋白質(zhì)序列由REPBASE中的Alu重復(fù)序列翻譯而來,用來遮蔽查詢序列中的重復(fù)片段 表3. BLAST的核酸數(shù)據(jù)庫:數(shù)據(jù)庫 簡 述 nrm

43、onthdbestdbstshtgsyeastE.colipdbkabatvectormitoalugss 非冗余的GenBankEMBLDDBJPDB序列,除了EST、STS、GSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的GenbankEMBLDDBJPDB的EST部分非冗余的GenbankEMBLDDBJPDB的STS部分0,1,2階段的高產(chǎn)量基因組序列(3階段完成的HTG序列在nr庫里)酵母的全基因組序列大腸桿菌的全基因組序列由三維結(jié)構(gòu)庫來的核酸序列Kabat的免疫學(xué)相關(guān)序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復(fù)序列翻譯而來,用來遮蔽查

44、詢序列中的重復(fù)片段基因組勘測序列(Genome Survey Sequence) BLAST對序列格式的要求是常見的FASTA格式。FASTA格式第一行是描述行,第一個字符必須是“”字符;隨后的行是序列本身,一般每行序 列不要超過80個字符,回車符不會影響程序?qū)π蛄羞B續(xù)性的看法。序列由標準的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會全部轉(zhuǎn)換成大寫;單個 “-”號代表不明長度的空位;在氨基酸序列里允許出現(xiàn)“U”和“*”號;任何數(shù)字都應(yīng)該被去掉或換成字母(如,不明核酸用“N”,不明氨基酸用“X”)。 此外,對于核酸序列,除了A、C、G、T、U分別代表各種核酸之外,R代表G或A(嘌呤);Y代

45、表T或C(嘧啶);K代表G或T(帶酮基);M代表A或 C(帶氨基);S代表G或C(強);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、 T中任意一種。對于氨基酸序列,除了20種常見氨基酸的標準單字符標識之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任 意氨基酸;“*”代表翻譯結(jié)束標志。BLAST的當前版本是2.0,它的新發(fā)展是位點特異性反復(fù)BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù) 庫后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜

46、索數(shù)據(jù)庫,如此反復(fù)直至沒有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空 位的BLAST搜索數(shù)據(jù)庫,將獲得的序列通過多序列比對來構(gòu)建第一個profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中 的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白,甚至可以與一些結(jié)構(gòu)比對方法,如threading相媲美。 PSI-BLAST服務(wù)可以在NCBI的BLAST主頁上找到,還可以從NCBI的FTP服務(wù)器上下載PSI-BLAST的獨立程序。NCBI的BLUST網(wǎng)址是:/BLAST/。下載BLUST的

47、網(wǎng)址是:/blast/。下載FASTA的網(wǎng)址是:/pub/fasta/。3.2 多序列比對顧 名思義,多序列比對就是把兩條以上可能有系統(tǒng)進化關(guān)系的序列進行比對的方法。目前對多序列比對的研究還在不斷前進中,現(xiàn)有的大多數(shù)算法都基于漸進的比對的 思想,在序列兩兩比對的基礎(chǔ)上逐步優(yōu)化多序列比對的結(jié)果。進行多序列比對后可以對比對結(jié)果進行進一步處理,例如構(gòu)建序列模式的profile,將序列聚類 構(gòu)建分子進化樹等等。目前使用最廣泛的多序列比對程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進

48、的比對方法,先將多個序列兩兩比對構(gòu) 建距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導(dǎo)樹,對關(guān)系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序 列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。CLUSTALW的程序可以自由使用,在NCBI的FTP服務(wù)器上可以找到下載的軟件包。CLUSTALW程序用選項單逐步指導(dǎo)用戶進行操作,用戶可根據(jù) 需要選擇打分矩陣、設(shè)置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務(wù),用戶可以把序列和各種要求通過表單提交到服務(wù)器上,服務(wù)器把 計算的結(jié)果用Email返回用戶。CLUSTALW對輸入序列的格式比較靈活,可以

49、是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用CLUSTALW得到的多序列比對結(jié)果中,所有序列排列在一起,并以特定的符號代表各個位點上殘基的保守性,“*”號表示保守性極高的殘基位點;“.”號代表保守性略低的殘基位點。EBI的CLUSTALW網(wǎng)址是:http:/www.ebi.ac.uk/clustalw/。下載CLUSTALW的網(wǎng)址是:ftp:/ftp.ebi.ac.uk/pub/software/。4 核酸與蛋

50、白質(zhì)結(jié)構(gòu)和功能的預(yù)測分析人 們獲得各種核酸和蛋白質(zhì)序列的目的是了解這個序列在生物體中充當了怎樣的角色。例如,DNA序列中重復(fù)片段、編碼區(qū)、啟動子、內(nèi)含子/外顯子、轉(zhuǎn)錄調(diào)控因 子結(jié)合位點等信息;蛋白質(zhì)的分子量、等電點、二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)、膜蛋白的跨膜區(qū)段、酶的活性位點、以及蛋白質(zhì)之間相互作用等結(jié)構(gòu)和功能信息。 雖然用實驗的方法是多年以來解決這類問題的主要途徑,但新的思路是利用已有的對生物大分子結(jié)構(gòu)和功能特性的認識,用生物信息學(xué)的方法通過計算機模擬和計算 來“預(yù)測”出這些信息或提供與之相關(guān)的輔助信息。由于生物信息學(xué)的特點,可以用較低的成本和較快的時間就能獲得可靠的結(jié)果。近10年來生物學(xué)序

51、列信息的爆 炸性增長大大促進了各種序列分析和預(yù)測技術(shù)的發(fā)展,目前已經(jīng)可以用理論預(yù)測的方法獲得大量的結(jié)構(gòu)和功能信息。要注意的是,盡管各種預(yù)測方法都基于現(xiàn)有的生 物學(xué)數(shù)據(jù)和已有的生物學(xué)知識,但在不同模型或算法基礎(chǔ)上建立的不同分析程序有其一定的適用范圍和相應(yīng)的限制條件,因此最好對同一個生物學(xué)問題盡量多用幾種 分析程序,綜合分析各種方法得到的結(jié)果和結(jié)果的可靠性。此外,生物信息學(xué)的分析只是為生物學(xué)研究提供參考,這些信息能提高研究的效率或提供研究的思路,但 很多問題還需要通過實驗的方法得到驗證。4.1 針對核酸序列的預(yù)測方法針 對核酸序列的預(yù)測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及

52、標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因 需要有多個證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DNA片段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其它 基因的產(chǎn)物具有較高序列相似性的話,那么這個DNA片段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也 是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其它的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。一般而言,確定基因的位置和結(jié)構(gòu)需要多個方法綜合運用,而且需要遵循一定的規(guī)則:對于真核生物序列,在進行預(yù)測之前先要進

53、行重復(fù)序列分 析,把重復(fù)序列標記出來并除去;選用預(yù)測程序時要注意程序的物種特異性;要弄清程序適用的是基因組序列還是cDNA序列;很多程序?qū)π蛄虚L度也有要求,有 的程序只適用于長序列,而對EST這類殘缺的序列則不適用。1. 重復(fù)序列分析對 于真核生物的核酸序列而言,在進行基因辨識之前都應(yīng)該把簡單的大量的重復(fù)序列標記出來并除去,因為很多情況下重復(fù)序列會對預(yù)測程序產(chǎn)生很大的擾亂,尤其是 涉及數(shù)據(jù)庫搜索的程序。常見的重復(fù)序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用這些程序,或者用Email來進行。 如果有大量序列需要處理,可以使用XBLAST程序,它可以從Intern

54、et上下載得到。XBLAST中以及包含了由程序作者收集整理的一些重復(fù)序列, 此外還可以從Repbase中找到更多的重復(fù)序列。還可以把克隆載體也加入重復(fù)序列中,這樣就可以在處理重復(fù)序列時順便把克隆載體也一同除去。經(jīng)處理的序 列中重復(fù)序列所在位置會一律由“X”代替。CENSOR和Repbase的網(wǎng)址是:/。CENSOR的Email服務(wù)地址是:。RepeatMasker的網(wǎng)址是:/cgi-bin/RepeatMasker。下載XBLAST的網(wǎng)址是:ftp:/

55、/pub/jmc。下載Repbase的網(wǎng)址是:ftp:/ncbi//repository/repbase/REF。2. 數(shù)據(jù)庫搜索把未知核酸序列作為查詢序列,在數(shù)據(jù)庫里搜索與之 相似的已有序列是序列分析預(yù)測的有效手段,在上一節(jié)中已經(jīng)專門介紹了序列比對和搜索的原理和技術(shù)。但值得注意的是,由相似性分析作出的結(jié)論可能導(dǎo)致錯誤的 流傳;有一定比例的序列很難在數(shù)據(jù)庫里找到合適的同源伙伴。對于EST序列而言,序列搜索將是非常有效的預(yù)測手段。3. 編碼區(qū)統(tǒng)計特性分析統(tǒng)計獲得的經(jīng)驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用而

56、另一些則較少出現(xiàn)。這樣就使得編碼區(qū)的序列呈現(xiàn)出可察覺的 統(tǒng)計特異性,即所謂的“密碼子偏好性”。利用這一特性對未知序列進行統(tǒng)計學(xué)分析可以發(fā)現(xiàn)編碼區(qū)的粗略位置。這一類技術(shù)包括:雙密碼子計數(shù)(統(tǒng)計連續(xù)兩個密 碼子的出現(xiàn)頻率);核苷酸周期性分析(分析同一個核苷酸在3,6,9,.位置上周期性出現(xiàn)的規(guī)律);均一/復(fù)雜性分析(長同聚物的統(tǒng)計計數(shù));開放可 讀框架分析等。常見的編碼區(qū)統(tǒng)計特性分析工具將多種統(tǒng)計分析技術(shù)組合起來,給出對編碼區(qū)的綜合判別。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服務(wù)。GRAIL的網(wǎng)址是:/Grail-1.3/

57、。4. 啟動子分析啟動子是基因表達所必需的重要序列信號,識別出啟 動子對于基因辨識十分重要。有一些程序根據(jù)實驗獲得的轉(zhuǎn)錄因子結(jié)合特性來描述啟動子的序列特征,并依次作為啟動子預(yù)測的依據(jù),但實際的效果并不十分理想, 遺漏和假陽性都比較嚴重??偟膩碚f,啟動子仍是值得繼續(xù)研究探索的難題。5. 內(nèi)含子/外顯子剪接位點剪接位點一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數(shù)據(jù)庫里的注釋非常不完整,因此很難評估剪接位點識別程序預(yù)測剪接位點的敏感性和精度。如果把剪接位點和兩側(cè)的編碼特性結(jié)合起來分析則有助于提供剪接位點的識別效果。常見的基因識別工具很多都包含了剪接位點識別功能,獨立的剪接位點

58、識別工具有NetGene等。NetGene服務(wù)的Email地址是:netgenecbs.dtu.dk。6. 翻譯起始位點對于真核生物,如果已知轉(zhuǎn)錄起始點,并且沒有內(nèi)含 子打斷5非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困 難。這時由于多順反操縱子的存在,啟動子定位不象在真核生物中起關(guān)鍵作用。對于原核生物,關(guān)鍵是核糖體結(jié)合點的定位,可以由多個程序提供解決方案,可以參 考下面的綜述。Gelfand, M. S. (1995). Prediction of function in DNA sequence analyi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論