生物信息學發(fā)展概況及研究進展_第1頁
生物信息學發(fā)展概況及研究進展_第2頁
生物信息學發(fā)展概況及研究進展_第3頁
生物信息學發(fā)展概況及研究進展_第4頁
生物信息學發(fā)展概況及研究進展_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學發(fā)展概況及研究進展韓龍生物化學與分子生物學20102005311概述生物信息學是在生命科學、計算機科學和數(shù)學的基礎上逐步發(fā)展而形成的一門新興的邊緣學科,它以核酸和蛋白質為主要研究對象,以數(shù)學、計算機科學為主要研究手段,對生物學實驗數(shù)據(jù)進行獲取、加工、存儲、檢索與分析,從而達到揭示數(shù)據(jù)所蘊含的生物學意義的目的[1]。生物信息學的發(fā)展大致經(jīng)歷了前基因組時代、基因組時代和后基因組時代。目前,它的主要研究內容已經(jīng)從對DNA和蛋白質序列比較、編碼區(qū)分析、分子進化轉移到大規(guī)模的數(shù)據(jù)整合、可視化,轉移到比較基因組學、代謝網(wǎng)絡分析、基因表達譜網(wǎng)絡分析、蛋白質技術數(shù)據(jù)分析處理、蛋白質結構與功能分析以及藥物靶點篩選等[1]。在后基因組時代的今天,生物信息學已經(jīng)成為目前極其熱門的系統(tǒng)生物學研究的重要手段。利用各種功能的軟件系統(tǒng)平臺,目前生物信息學方法主要通過序列比對與分析、功能基因組與基因表達數(shù)據(jù)的分析、蛋白質結構預測以及基于結構的藥物設計等方面應用于各個生命科學研究領域。1.1序列比對與分析序列比對是生物信息學的基礎,是比較兩個或兩個以上符號序列的相似性或不相似性。兩個序列的比對現(xiàn)在已有較成熟的動態(tài)規(guī)劃算法,以及在此基礎上編寫的比對軟件包——BLAST和FASTA;兩個以上序列的多重序列是生物信息學中尚未解決的一個NP完全的組合優(yōu)化問題,是目前研究的熱點[2]。比較經(jīng)典的算法有SAGA算法[3]、CLUSTAL算法以及隱馬爾可夫模型(HiddenMarkovModels,HMM)多重序列比對算法,另外,如Notredame等[4]開發(fā)的T-Coffee算法、Timo等[5]設計的Kalign算法、張琎等[6]設計的基于GC-GM多序列比對窮舉遺傳算法,是通過窮舉某個特定范圍內的所有序列的長度取值,來確定最終最佳比對長度的一種多序列比對算法。這些算法已應用于各種多序列比對軟件,并在應用中不斷得到優(yōu)化。1.2功能基因組學在后基因時代的今天,基因組學的研究已從結構基因組學(Structuralgenomics)轉向功能基因組學(Functionalgenomics)[1]。功能基因組的任務是進行基因組功能注釋(Genomeannotation),了解基因功能、認識基因與疾病的關系、掌握基因的產(chǎn)物及其在生命活動中的作用?;虻臅r空差異表達是功能基因組學研究的理論基礎。經(jīng)典的減法雜交、差式篩選、cDNA替代差異分析以及mRNA差異顯示等技術已被廣泛應用于鑒定和克隆差異表達的基因。近年來應用較熱的主要是基因表達系列分析(Serialanalysisofgeneexpression,SAGE)、cDNA微陣列(cDNAmicroarray)和DNA芯片(DNAchip)等差異表達分析技術。如由Liang和Pardee等發(fā)明的差異顯示反轉錄PCR(Differentialdisplay-reversetranscriptasePCR,DDRT-PCR)技術[8]。1.3蛋白質結構預測蛋白質結構預測是生物信息學的重要應用,分為二級結構預測和空間結構預測。二級結構預測的目標就是預測某一個片段中心的殘基是α螺旋,還是β折疊,或是其他結構,常用的方法有立體化學方法、圖論方法、統(tǒng)計方法、最鄰近決策方法、基于規(guī)則的專家系統(tǒng)方法、分子動力學方法和人工神經(jīng)網(wǎng)絡方法。在空間結構預測方面,比較成功的理論方法是同源模型法。運用同源模型法可以完成所有蛋白質10%到30%的空間結構預測工作[7]。目前尚沒有普遍可行的方案實現(xiàn)蛋白質結構的準確預測,大多數(shù)方案為啟發(fā)式的。1.4基于結構的藥物設計基于生物大分子結構的藥物設計是生物信息學研究的熱點。利用現(xiàn)有的海量生物數(shù)據(jù)進行潛在藥物靶點定位是生物信息學藥物設計的主要策略。目前研究比較熱的是計算機輔助藥物設計(Computeraideddrugdesign)。計算機輔助藥物設計就是通過模擬和計算受體與配體的這種相互作用,進行先導化合物的優(yōu)化設計,大致包括活性位點分析法、數(shù)據(jù)庫搜索、全新藥物設計。目前活性位點分析軟件主要有DRID、GREEN、HSITE等[7]。通過搜索數(shù)據(jù)庫來獲得藥物靶點是其中一個手段,主要分為基于配體的方法和基于受體的分析方法;另外,全新藥物設計的方法越來越受到人們的重視,現(xiàn)已開發(fā)出一批實用性較強的軟件,主要有LUDI[9]、Leapfrog[10]、GROW、SPROU等,其中LUDI最為常用。2生物信息學的研究方法生物信息學是計算機科學、數(shù)學和生物學界面的一門多學科的交叉學科。生物信息學數(shù)據(jù)庫主要分為兩大類,包括基本數(shù)據(jù)庫和二級數(shù)據(jù)庫。基本數(shù)據(jù)庫是對原始生物實驗數(shù)據(jù)進行簡單的整理和歸類。主要包括核酸數(shù)據(jù)庫,如GenBank、EMBL、DDBJ等;基因組數(shù)據(jù)庫,如GDB、GenCards等;蛋白質序列數(shù)據(jù)庫,如SWISS-PROT、PRI、TrEMBL等;蛋白質結構數(shù)據(jù)庫PDB。二級庫是在一級庫的基礎上,結合工作的需要將部分數(shù)據(jù)從一級庫中取出,經(jīng)過重新組合(包括一定的修正或調整)而成的數(shù)據(jù)庫。由于其專一性強,數(shù)據(jù)量相對較少,但質量高,數(shù)據(jù)庫結構設計精制。目前生物信息學的研究對象主要是核酸序列和蛋白質序列,其主要任務是分析研究序列數(shù)據(jù)庫中所含的各種信息,特別是DNA序列中的遺傳及調控信息以及研究蛋白質序列與結構及功能的關系\o"刁雪濤,2008#20"ADDINEN.CITE<EndNote><Cite><Author>刁雪濤</Author><Year>2008</Year><RecNum>20</RecNum><DisplayText><styleface="superscript">16</style></DisplayText><record><rec-number>20</rec-number><foreign-keys><keyapp="EN"db-id="pxrpevra6pxrznestptxapvq0e9xe9tvt9ar">20</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">刁雪濤,張小芳,宋潔,金梅</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">生物信息學研究進展</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">安徽農(nóng)學通報</style></secondary-title></titles><periodical><full-title>安徽農(nóng)學通報</full-title></periodical><pages>160-1162</pages><volume>14</volume><number>22</number><dates><year>2008</year></dates><urls></urls></record></Cite></EndNote>16。GenBank(/genbank)是由位于Bethesda的美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation,NCBI)成立和維護的DNA和RNA序列數(shù)據(jù)庫,是國際核酸序列數(shù)據(jù)庫合作項目的一部分,它與歐洲分子生物學實驗室(EuropenaMolecularBiologyLaboratory,EMBL)(http://www.ebi.ac.uk/)和日本核酸序列數(shù)據(jù)庫(DNADataBankofJapan,DDBJ)(http://www.ddbj.nig.ac.jp/)一起構成當今世界上最權威最廣泛的核酸序列數(shù)據(jù)庫。收錄的序列包括基因組DNA序列、互補脫氧核糖核酸(complementarydeoxyribonucleicacid,cDNA)序列、表達序列標簽(expressedsequencetagsEST)序列、序列標簽位點(sequencetaggedsite,STS)、載體序列以及專利序列等,每條記錄都有編碼(codingsequence,CDS)特征的注釋,還包括氨基酸的翻譯。它是一個有來自于16500多種生物且以每月2000多種新物種的速度增長的巨大核酸數(shù)據(jù)庫。具體訪問GenBank的方式可通過Entrez搜索引擎、基本局部比對搜索工具(BasicLocalAlignmentSearchTool,BLAST)進行序列同源性搜索、dbEST搜索以及dbSTS搜索。每種搜索方式又可以通過關鍵詞、作者、GenBank接受號、種類分類等進行查詢。SWISS-PROT(/sprot/sprot-top.html)蛋白序列數(shù)據(jù)庫是由日內瓦大學醫(yī)學生物化學系與EMBL于1987年共同開發(fā)維護,現(xiàn)由EMBL的分支機構歐洲生物信息學研究所(EuropeanBioinformaticsInstitute,EBI)進行維護,旨在向基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質序列的最新信息。SWISS-PROT涉及已知蛋白質的功能、序列、結構域的結構、翻譯后修飾及其位點、突變體等。具體訪問SWISS-PRO時,可通過關鍵詞、SWISS-PROT接受號、作者等方式進行查詢。為了保持高質量的注解,使序列盡快地有效變得至關重要。因此,TrEMBL于1996年成立,它是對SWISS-PROT的計算機注解的補充,這樣使SWISS-PROT蛋白質序列數(shù)據(jù)庫變得更加充實和重要。PDB()創(chuàng)建于1971年。其是美國自然科學基金會、能源部和國立衛(wèi)生研究院共同投資,由美國布魯克海文國家實驗室(BrookhavenNationalLaboratory)建立的,主要由X射線晶體衍射和核磁共振測得的生物大分子的三維結構所組成的全世界最完整的蛋白質結構數(shù)據(jù)庫。它位于美國結構生物信息學聯(lián)合研究所(ResearchCollaboratoryforStructuralBioinformatics,RCSB),受美國國家科學基金等7種政府基金的資助。PDB主要可應用于蛋白質結構預測和結構同源性比較,是進行生物分子結構研究的基本數(shù)據(jù)依據(jù)。3生物信息學展望近兩年來的生物信息學研究論文統(tǒng)計結果分析表明,在后基因組時代,生物信息學的主要研究內容已經(jīng)從對DNA和蛋白質序列進行比較,編碼區(qū)分析,分子進化轉移到大規(guī)模的數(shù)據(jù)整合,可視化,轉移到比較基因組學,代謝網(wǎng)絡分析,基因表達譜網(wǎng)絡分析,蛋白質組技術數(shù)據(jù)分析處理,蛋白質結構與功能分析以及藥物靶點篩選等,分別與功能基因組,蛋白質組,結構基因組等研究領域互相配合,緊密相關,成為目前極其熱門的系統(tǒng)生物學研究的重要的基石[17]。生物信息學的前景是誘人的,是我們了解生命科學的一個簡單快速的手段作為一個數(shù)學、計算機和生物的交叉學科,數(shù)學、計算機學科的發(fā)展對于生物信息學的發(fā)展是至關重要的。在生物信息學發(fā)展的過程中,面對越來越龐大的數(shù)據(jù)的積累,如何去挖掘這些數(shù)據(jù)的信息,以及數(shù)據(jù)庫的維持和建立和相關軟件的研發(fā)的利用,都將左右著生物信息學的發(fā)展。像目前對于蛋白質或RNA的高級結構還很難預測,而且對于不同的軟件得出的結論也缺乏一致性,生物信息學所研究的結果也許并不能反應生物的真實信息,如何提高它的可信度和準確性也是研究人員所要思考的。雖然軟件的使用是快捷的,但是它并不是萬能的,在生物信息學探索的道路中還有很多盲區(qū),探索才剛剛開始[18]。參考文獻[1]RoosDS.Bioinformatics-TryingtoSwiminaSeaofData[J].Sciences,2001,291(5507):1260-1261.[2]DemkinVV.BioinformaticanalysisofnucleotidesequencesrecordsretrievedfromGenBank[J].MolGeneMikrobiolVirusol,2009,2:36-39.[3]NotredameC,HigginsDG.SAGA:sequencealignmentbygeneticalgorithm[J].NucleicAcidsRes,1996,24(8):1515-1524.[4]NotredameC,HigginsDG,HeringaJ.T-Coffee:Anovelmethodforfastandaccuratemultiplesequencealignment[J].JMolBio,2000,302(1):205-217.[5]LassmannT,SonnhammerE.Kalign-anaccurateandfastmultiplesequencealignmentalgorithm[J].BMCBioinformatics,2005,6(1):298.[6]張琎,張遠.基于GC-GM的多序列比對窮舉遺傳算法[J].計算機應用,2010,30(1):146-149.[7]馮思玲.生物信息學技術研究[J].信息技術,2009,5:20-22.[8]高銳,臧春龍,張傳東.功能基因組學研究進展[J].畜牧獸醫(yī)科技信息,2008,3:12-20.[9]BohmHJ.LUDI:rule-basedautomaticdesignofnewsubstituentsforenzymeinhibitorleads[J].JComputAidedMolDes,1992,6(6):593-606.[10]XiaoMJ,HuangLS,DongQF,etal.Leapfrog:OptimalOpportunisticRoutinginProbabilisticallyCon

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論