生物信息學(xué)與計算機學(xué)科的新課題_第1頁
生物信息學(xué)與計算機學(xué)科的新課題_第2頁
生物信息學(xué)與計算機學(xué)科的新課題_第3頁
生物信息學(xué)與計算機學(xué)科的新課題_第4頁
生物信息學(xué)與計算機學(xué)科的新課題_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)與計算機學(xué)科的新課題

生物信息是一門跨學(xué)科的學(xué)科,使用計算機科學(xué)和數(shù)學(xué)應(yīng)用于生物信息的獲取、加工、存儲、分類、搜索和分析,以了解這些生物信息的生物學(xué)意義。但目前生物信息學(xué)領(lǐng)域面臨數(shù)據(jù)增長過快,各種各樣數(shù)據(jù)庫的種類愈來愈多的困境。第一,信息結(jié)構(gòu)復(fù)雜性高,在生物信息的概念復(fù)雜性和確認(rèn)生物信息之間的關(guān)聯(lián)性困難;第二,信息的儲存方式及結(jié)構(gòu)是異質(zhì)的;第三,信息庫的儲存資料的格式是變動的;第四,生物信息的數(shù)據(jù)量是激增的,以Genbank中的DNA堿基數(shù)為例,其增長速度呈指數(shù)性增長,大約每14個月就會增長一倍。這種生物信息數(shù)據(jù)的快速增加和大量積累,在人類的科學(xué)研究歷史中是空前的,給計算機科學(xué)帶來了前所未有的機遇與挑戰(zhàn)。1生物信息數(shù)據(jù)庫生物信息數(shù)據(jù)庫具有數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量增長迅速等特點。很多數(shù)據(jù)庫涉及非結(jié)構(gòu)化的數(shù)據(jù),如PDB中的蛋白質(zhì)三級結(jié)構(gòu)等,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已不能適應(yīng)其發(fā)展,因此必須要采用面向?qū)ο蟮臄?shù)據(jù)庫技術(shù)來處理復(fù)雜結(jié)構(gòu)的生物數(shù)據(jù)。生物信息數(shù)據(jù)庫具有種類繁多的特點,目前各種生物信息數(shù)據(jù)庫有500多種,分布在全球各個數(shù)據(jù)庫服務(wù)器中。這些數(shù)據(jù)庫的結(jié)構(gòu)各異,這使很多從事生物學(xué)研究的人一籌莫展,有必要采用分布式數(shù)據(jù)庫技術(shù)對這些數(shù)據(jù)庫進行集成與整合。另外,生物數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量并不能完全保證,因而有必要采用ETL技術(shù)對生物信息數(shù)據(jù)庫進行清洗、轉(zhuǎn)換與裝載。生物信息數(shù)據(jù)庫是面向?qū)ο髷?shù)據(jù)庫技術(shù)、演繹數(shù)據(jù)庫與分布式數(shù)據(jù)庫一個很好的應(yīng)用領(lǐng)域和試驗場地。Oracle10i版本包含對BIOINFORMATICS技術(shù)的特定支持。包括對Double和Float數(shù)據(jù)類型的Native支持。內(nèi)建的統(tǒng)計函數(shù)支持常見的ANOVA分析等。對生物信息技術(shù)的支持也必將是廣大數(shù)據(jù)庫廠商在市場競爭很重要的一點。生物信息具有增長迅速的特點,隨著人類基因組計劃和人類腦計劃等大型的科學(xué)工程的相繼實施,如何處理海量數(shù)據(jù)是一個迫在眉睫的問題,這也帶動了一個巨大的海量存儲的市場。關(guān)鍵的問題是如何設(shè)計生物信息專用的海量存儲技術(shù)。由于技術(shù)發(fā)展的滯后,生物信息資源的有效使用率十分低,嚴(yán)重影響了生物信息的利用。信息存取已經(jīng)成為生物學(xué)界一個具有挑戰(zhàn)性的問題,同時也是對計算機科學(xué)的一個挑戰(zhàn)。生物信息中的很多算法的研究對計算機科學(xué)有很大的應(yīng)用價值,如DNA序列的拼接與比對。2蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用蛋白質(zhì)分子是由20種不同氨基酸通過肽鍵連接而成的共價多肽鏈,天然蛋白質(zhì)在生理條件下都有著自己特定的空間結(jié)構(gòu)。遺傳信息由DNA到RNA再到蛋白質(zhì)的過程,一直是分子生物學(xué)研究的中心,通常稱之為中心法則。經(jīng)過多年的努力,由DNA到RNA再到多肽鏈合成的基本過程已經(jīng)基本清楚。但是以一定氨基酸序列連接形成的多肽鏈?zhǔn)侨绾涡纬捎幸欢臻g結(jié)構(gòu)的具有生理功能的蛋白質(zhì)分子仍然是分子生物學(xué)中心法則中目前尚未解決的問題。早在20世紀(jì)60年代,White和Anfinsen進行的牛胰核糖核酸酶復(fù)性的經(jīng)典實驗表明:某些蛋白質(zhì)在體外的一定條件下解聚失活后可以自動折疊而恢復(fù)其原有高級結(jié)構(gòu)與活性,也即意味著蛋白質(zhì)的氨基酸序列及環(huán)境決定其三維構(gòu)象。蛋白質(zhì)的一級結(jié)構(gòu)決定高級結(jié)構(gòu)是進行蛋白質(zhì)結(jié)構(gòu)預(yù)測的理論基礎(chǔ)。蛋白質(zhì)結(jié)構(gòu)預(yù)測是生物信息學(xué)的核心問題,在這方面主要的研究在于如何通過已知的蛋白質(zhì)一級結(jié)構(gòu)序列和其對應(yīng)的三級結(jié)構(gòu)序列來挖掘知識,從而形成蛋白質(zhì)一級結(jié)構(gòu)序列與三級結(jié)構(gòu)的對應(yīng)關(guān)系的知識。機器學(xué)習(xí)的主要任務(wù)是如何從一些觀測數(shù)據(jù)(樣本)出發(fā)得出目前尚不能通過原理分析或試驗得到的規(guī)律。利用這些規(guī)律去分析客觀對象,對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進行預(yù)測(圖1)。目前機器學(xué)習(xí)方法包括:神經(jīng)網(wǎng)絡(luò)法、決策樹法、基于事例學(xué)習(xí)法、符號性知識優(yōu)化法及基于邏輯的歸納學(xué)習(xí)法。但現(xiàn)在的問題是從蛋白質(zhì)一級結(jié)構(gòu)序列預(yù)測蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)的準(zhǔn)確率較低,統(tǒng)計學(xué)習(xí)理論和支持向量機技術(shù)在這方面有廣闊的應(yīng)用前景。數(shù)據(jù)挖掘與聚類分析的方法在蛋白質(zhì)的結(jié)構(gòu)預(yù)測中也有廣闊的應(yīng)用空間。現(xiàn)在生物學(xué)的發(fā)展產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)中蘊涵著不少自然的規(guī)律性的東西。但生物學(xué)現(xiàn)在還主要是以實驗為主,如何從這些海量數(shù)據(jù)中挖掘出一些重大的生物學(xué)規(guī)律是數(shù)據(jù)挖掘技術(shù)令人心動的應(yīng)用領(lǐng)域。如從各種生物的DNA數(shù)據(jù)中挖掘一些DNA序列自身的規(guī)律和DNA序列進化的規(guī)律,可以使我們從分子層次認(rèn)識生命的本質(zhì)及其進化規(guī)律,并開發(fā)生物數(shù)據(jù)處理分析方法庫和知識庫。DNA序列實際上是一種用4種字母表達(dá)的“語言”,只是其“詞法”和“語法”規(guī)則在目前仍不清楚。如何從DNA序列中挖掘序列的語法規(guī)則也需要計算機編譯原理的許多知識,同時也對計算機語言學(xué)有很大的促進作用。3神經(jīng)生物學(xué)研究了解腦及其全部功能是21世紀(jì)重大挑戰(zhàn)之一。人類腦計劃開始于1993年。這項行動的主要目標(biāo):創(chuàng)立以web為基礎(chǔ)的神經(jīng)科學(xué)所有數(shù)據(jù)的數(shù)據(jù)庫,并提供數(shù)據(jù)分析、整合、合成、建模與模擬的先進工具,有助于實現(xiàn)了解健康與有病神經(jīng)系統(tǒng)功能的最終目標(biāo)。腦是生物體內(nèi)結(jié)構(gòu)和功能最復(fù)雜的組織,人腦內(nèi)有神經(jīng)細(xì)胞上千億,神經(jīng)突觸超過1014個,是接受外界信號、產(chǎn)生感覺、形成意識、進行邏輯思維、發(fā)出指令產(chǎn)生行為的指揮部。人腦是極為精巧和完善的信息處理系統(tǒng),是人體內(nèi)外環(huán)境信息獲得、存儲、處理、加工和整合的中樞。人腦的結(jié)構(gòu)和功能極其復(fù)雜,需要從不同的層次對其進行研究,包括:從DNA、RNA、蛋白、神經(jīng)元、神經(jīng)網(wǎng)絡(luò)到全腦。其中對神經(jīng)網(wǎng)絡(luò)和全腦功能的研究近年來發(fā)展很快,成為神經(jīng)信息學(xué)研究的重點。神經(jīng)信息學(xué)主要從信息和信息處理的觀點來研究人腦,研究神經(jīng)系統(tǒng)信息的載體形式,神經(jīng)信息的產(chǎn)生、傳輸與加工,以及神經(jīng)信息的編碼、存儲與提取機理等,并從系統(tǒng)和信息的觀點建立以生物學(xué)實際為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。以生物學(xué)實際為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型的研究對仿腦計算的研究具有極大的促進作用。人工智能正在最新神經(jīng)科學(xué)與心理科學(xué)成果的啟發(fā)下朝著人工心智、情感計算與仿腦計算的方向發(fā)展。4adleman的實驗科學(xué)家普遍認(rèn)為,目前計算機的縮微化己接近極限。要在高性能計算上有所突破,從原理上創(chuàng)新是一條出路。DNA計算作為其中一個代表之一正受到人們的普遍關(guān)注。自1994年Adleman在《科學(xué)》期刊上發(fā)表了第一篇關(guān)于DNA分子算法的開創(chuàng)性文章以來,DNA計算迅速成為活躍的研究領(lǐng)域。DNA計算機被證明是通用計算機系統(tǒng).自Watson—Crick揭開DNA的奇妙結(jié)構(gòu)以來,生物、化學(xué)和基因工程技術(shù)正處在日新月異的巨大進步和發(fā)展中.它將提供更多的、新的供計算使用的人工合成酶。Adleman的實驗就是這個正在蓬勃興起的科學(xué)新領(lǐng)域的一次展示,生物計算機能徹底實現(xiàn)現(xiàn)有計算機所無法真正實現(xiàn)的大規(guī)模并行處理和組合運算功能,是徹底解決包括NP等困難問題的突破口之一。DNA計算解決問題的基本思想:利用DNA特殊的雙螺旋結(jié)構(gòu)和堿基互補配對原則對問題進行編碼,運算對象映射成DNA分子鏈,在DNA溶液的試管里,在生物酶的作用下,生成各種數(shù)據(jù)池,然后按照一定的規(guī)則將原始問題的數(shù)據(jù)運算高度并行地映射成DNA分子鏈的可控的生化過程。最后,利用分子生物技術(shù)如聚合酶鏈反應(yīng)PCR、聚合重疊放大技術(shù)PoA、超聲波降解、親和層析、克隆、誘變、分子純化、電泳、磁珠分離等,破獲運算結(jié)果。雖然DNA計算機目前還只能解決一些極其簡單的問題實例,并且存在許多不足和障礙(如可靠性、靈活性、運輸和邏輯等方面),但它在特定的復(fù)雜問題或領(lǐng)域,已顯示出極大的潛力,這一新領(lǐng)域的巨大潛力值得重視和培育。DNA計算機的研究必將對傳統(tǒng)的計算機體系結(jié)構(gòu)與并行計算的研究產(chǎn)生推動作用。5在生物生態(tài)學(xué)方面的應(yīng)用生物信息的研究者能夠下載大量的數(shù)據(jù),但如何集成這些數(shù)據(jù)不是一件容易的事。XML(eXtensibleMarkupLanguage)采用結(jié)構(gòu)化的格式來提高對文檔內(nèi)容和上下文可以使信息的交換規(guī)范化。XML是一種元語言,可以用來定義和描述結(jié)構(gòu)化數(shù)據(jù),它是WebServices得以實現(xiàn)的語言基礎(chǔ)。WebServices的其它協(xié)議規(guī)范都是以XML形式來描述和表達(dá)的。VisualGenomics開發(fā)了一種用于生物學(xué)信息處理的XML標(biāo)記語言BSML(BioinformaticSequenceMarkupLanguage),它使基因數(shù)據(jù)能以動態(tài)的和可重用的方式傳遞給BSML瀏覽器。公共的和私有的數(shù)據(jù)庫和應(yīng)用能以BSML的格式傳遞。免費的BSML瀏覽器使研究人員能夠以可視化的和交互式的方法來存取BSML數(shù)據(jù)和注釋。Fenyo開發(fā)了一種BiopolymerMarkupLanguage(BioML)用來對蛋白質(zhì)和核酸的序列數(shù)據(jù)的復(fù)雜注釋的表達(dá)。BioML用DTD的方式獲得各種信息源(核酸、蛋白質(zhì)數(shù)據(jù)庫)的數(shù)據(jù)的集成。歐洲生物信息研究所也開發(fā)了XEMBL來發(fā)布基于XML的EMBL數(shù)據(jù)庫信息。WebServices技術(shù)由于使用標(biāo)準(zhǔn)的Web協(xié)議(HTTP、SMTP等)和一系列標(biāo)準(zhǔn)協(xié)議(XML、SOAP、WSDL等)為生物信息集成提供了一種嶄新的方法。當(dāng)把WebServices應(yīng)用到生物數(shù)據(jù)庫中時,所有生物數(shù)據(jù)庫系統(tǒng)都成了一個松散結(jié)構(gòu)中的組件,系統(tǒng)接口、應(yīng)用通信、數(shù)據(jù)轉(zhuǎn)換和目錄信息都是建立在開放的、被廣為接受的標(biāo)準(zhǔn)之上,用戶能迅速地訪問到他們所需要的信息。WebServices的最大特點是具有真正意義上的平臺獨立性和語言獨立性。基于WebServices技術(shù)的生物信息集成方案,可以方便地實現(xiàn)各種已有生物數(shù)據(jù)庫系統(tǒng)、新開發(fā)的WebServices應(yīng)用等各種系統(tǒng)的集成,必將廣泛地應(yīng)用于生物信息的研究領(lǐng)域中。6我國生物信息專用計算機使用情況生物信息學(xué)為高性能計算提供了一個大的應(yīng)用領(lǐng)域。生物信息中的計算面臨巨大的計算量與海量的數(shù)據(jù),僅利用分子動力學(xué)模擬一個蛋白質(zhì)的折疊就需要一個巨型機幾個星期的運算。這給高性能計算、并行計算和網(wǎng)格計算提出了挑戰(zhàn)。研究生物信息專用高性能計算機已經(jīng)成為一個重要的課題。2003年8月18日,作為國內(nèi)服務(wù)器品牌三甲之一的曙光信息產(chǎn)業(yè)有限公司與國內(nèi)著名的基因組、生物信息研究中心華大基因聯(lián)合推出國內(nèi)第一款完全擁有自主知識產(chǎn)權(quán)的生物信息專用計算機,采用先進的基因數(shù)據(jù)庫架構(gòu)技術(shù)、數(shù)據(jù)定制可視化技術(shù)、數(shù)據(jù)密集技術(shù)、網(wǎng)格技術(shù)、在線擴展技術(shù)及機群系統(tǒng)等技術(shù),為國內(nèi)用戶搭建了一套與國際生物信息研究主流趨勢相接軌的系統(tǒng)平臺。人類、水稻、SARS基因的成功測序證明,生物信息專用計算機是華大多年生物信息研究實踐與曙光的高性能計算能力的完美結(jié)晶。生物信息學(xué)承擔(dān)著生命科學(xué)研究的基礎(chǔ)重任,不僅為醫(yī)學(xué)界中醫(yī)藥的開發(fā)、醫(yī)療保健設(shè)計提供精準(zhǔn)快速的數(shù)據(jù)依據(jù),而且也將是國力的又一體現(xiàn),生物信息專用計算機加速了生物工程研究,為我國的生命科學(xué)研究更快地趕超世界前列水平提供了有利的武器。IBM公司表示,到2004年,生命科學(xué)領(lǐng)域的IT銷售每年將達(dá)到30億美元。這也正是IBM下一代超級計算機針對于生命科學(xué)領(lǐng)域而開發(fā)的原因。這臺計算機被稱為“BlueGene”,它的運行速度比“深藍(lán)”計算機快10倍以上。7z曲線的計算按照某種規(guī)則可以將DNA序列轉(zhuǎn)換為一條Z曲線,該Z曲線與所表示的DNA序列是一一對應(yīng)的。即給定一DNA序列,存在唯一的一條Z曲線與之對應(yīng);反之,給定一Z曲線,可找到唯一的一個DNA序列與之對應(yīng)。換言之,Z曲線包含了DNA序列的全部信息。Z曲線是與符號DNA等價的另一種表示形式。這樣就可將復(fù)雜的DNA序列轉(zhuǎn)換為一條空間中的曲線。Z曲線曲率和撓率的計算和分析,對于識別DNA序列的不同的功能區(qū)等的研究將成為一個重要的研究工具。DNA序列的幾何學(xué)研究是建立在計算機圖形學(xué)的基礎(chǔ)上的,對DNA序列幾何學(xué)的研究必將為計算機圖形學(xué)的研究提出一些新的課題。同時對蛋白質(zhì)空間結(jié)構(gòu)的比對、顯示也將促進計算幾何與計算機圖形學(xué)的發(fā)展。8提高生物生態(tài)學(xué)的水平人類科學(xué)研究史表明,科學(xué)數(shù)據(jù)的大量積累將導(dǎo)致重大的科學(xué)規(guī)律的發(fā)現(xiàn)。例如:對數(shù)百顆天體運行數(shù)據(jù)的分析導(dǎo)致了開普勒三大定律和萬有引力定律的發(fā)現(xiàn);數(shù)十種元素和上萬種化合物數(shù)據(jù)的積累導(dǎo)致了元素周期表的發(fā)現(xiàn);氫原子光譜學(xué)數(shù)據(jù)的積累促成了量子理論的提出,為量子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論