版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二節(jié)生物信息學(xué)及其發(fā)展歷史
第二節(jié)生物信息學(xué)及其發(fā)展歷史
11、生物信息學(xué)的概念1、生物信息學(xué)的概念2生物信息學(xué)(Bioinformatics)這一名詞的來由八十年代末期,林華安博士認(rèn)識到將計算機科學(xué)與生物學(xué)結(jié)合起來的重要意義,開始留意要為這一領(lǐng)域構(gòu)思一個合適的名稱。起初,考慮到與將要支持他主辦一系列生物信息學(xué)會議的佛羅里達(dá)州立大學(xué)超型計算機計算研究所的關(guān)系,他使用的是“CompBio”;之后,又將其更改為兼具法國風(fēng)情的“bioinformatique”,看起來似乎有些古怪。因此不久,他便進(jìn)一步把它更改為“bio-informatics(或bio/informatics)”。但由于當(dāng)時的電子郵件系統(tǒng)與今日不同,該名稱中的-或/符號經(jīng)常會引起許多系統(tǒng)問題,于是林博士將其去除,今天我們所看到的“bioinformatics”就正式誕生了,林博士也因此贏得了“生物信息學(xué)之父”的美譽。生物信息學(xué)(Bioinformatics)八十年代末期3生物信息學(xué)HGP生物數(shù)據(jù)的激增(每15個月翻一番)生物學(xué)家數(shù)學(xué)家計算機科學(xué)家生物信息學(xué)(bioinfomatics)的誕生生物信息學(xué)HGP生物學(xué)家數(shù)學(xué)家計算機生物信息學(xué)4三種科學(xué)文化的融合生物學(xué)家(生物學(xué)問題)數(shù)學(xué)物理學(xué)家計算機科學(xué)家(基礎(chǔ)理論問題)工程師(技術(shù)應(yīng)用)三種科學(xué)文化的融合生物學(xué)家數(shù)學(xué)物理學(xué)家工程師5生物信息學(xué)(bioinformatics)是80年代未隨著人類基因組計劃(Humangenomeproject)的啟動而興起的一門新的交叉學(xué)科。它涉及生物學(xué)、數(shù)學(xué)、計算機科學(xué)和工程學(xué),依賴于計算機科學(xué)、工程學(xué)和應(yīng)用數(shù)學(xué)的基礎(chǔ),依賴于生物實驗和衍生數(shù)據(jù)的大量儲存。生物信息學(xué)(bioinformatics)是80年代未6概念(廣義)生物體系和過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)
概念(廣義)生物體系和過程中信息細(xì)胞、組織、器官的生理、病理7廣義的說,生物信息不僅包括基因組信息,如基因的DNA序列、染色體定位,也包括基因產(chǎn)(蛋白質(zhì)或RNA)的結(jié)構(gòu)和功能及各生物種間的進(jìn)化關(guān)系等其他信息資源。生物信息學(xué)既涉基因組信息的獲取、處理、貯存、傳遞、分析和解釋,又涉及蛋白質(zhì)組信息學(xué)如蛋白質(zhì)的序列、結(jié)構(gòu)、功能及定位分類、蛋白質(zhì)連鎖圖、蛋白質(zhì)數(shù)據(jù)庫的建立、相關(guān)分析軟件的開發(fā)和應(yīng)用等方面,還涉及基因與蛋白質(zhì)的關(guān)系如蛋白質(zhì)編碼基因的識別及算法研究、蛋白質(zhì)結(jié)構(gòu)、功能預(yù)測等,另外,新藥研制、生物進(jìn)化也是生物信息學(xué)研究的熱點。廣義的說,生物信息不僅包括基因組信息,如基因的DNA序列、染8概念(狹義)生物分子數(shù)據(jù)深層次生物學(xué)知識分子生物信息學(xué)MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用概念(狹義)生物深層次分子生物信息學(xué)挖掘獲取生物分子信息的獲9由于當(dāng)前生物信息學(xué)發(fā)展的主要推動力來自分子生物學(xué),生物信息學(xué)的研究主要集中于核苷酸和氨基酸序列的存儲、分類、檢索和分析等方面,所以目前生物信息學(xué)可以狹義地定義為:將計算機科學(xué)和數(shù)學(xué)應(yīng)用于生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達(dá)到理解這些生物大分子信息的生物學(xué)意義的交叉學(xué)科。由于當(dāng)前生物信息學(xué)發(fā)展的主要推動力來自分子生物學(xué),生物101995年,在美國人類基因組計劃(HGP)第一個五年總結(jié)報告
中給出了一個較為完整的生物信息學(xué)的定義:生信息學(xué)是包含生物信息的獲取、處理、貯存、分發(fā)、分析和解釋的所有方面的一門學(xué)科,它綜合運用數(shù)學(xué)、計算機科學(xué)和生物學(xué)的各種工具進(jìn)行研究,目的在于了解大量的生物學(xué)意義。1995年,在美國人類基因組計劃(HGP)第一個11Bioinformatics生物分子數(shù)據(jù)計算機計算+Bioinformatics生物分子計算機+122、生物分子信息2、生物分子信息13細(xì)胞分子存貯、復(fù)制、傳遞和表達(dá)遺傳信息的系統(tǒng)生物信息的載體細(xì)胞分子存貯、復(fù)制、傳遞和表達(dá)生物信息的載體14生物信息學(xué)主要研究兩種信息載體DNA分子蛋白質(zhì)分子生物信息學(xué)和其發(fā)展歷史課件15生物信息學(xué)和其發(fā)展歷史課件16ProteinMachines
ProteinMachines17FromtheCelltoProteinMachines
FromtheCelltoProteinMachi18生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息生物分子至少攜帶著三種信息19(1)遺傳信息的載體——DNA遺傳信息的載體主要是DNA控制生物體性狀的基因是一系列DNA片段生物體生長發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達(dá)(1)遺傳信息的載體——DNA遺傳信息的載體主要是DNA20DNA通過自我復(fù)制,在生物體的繁衍過程中傳遞遺傳信息基因通過轉(zhuǎn)錄和翻譯,使遺傳信息在生物個體中得以表達(dá),并使后代表現(xiàn)出與親代相似的生物性狀。
基因控制著蛋白質(zhì)的合成DNARNA蛋白質(zhì)轉(zhuǎn)錄翻譯DNA通過自我復(fù)制,在生物體的繁衍過基因通過轉(zhuǎn)錄和翻譯,使遺21基因的DNA序列DNA前體RNAmRNA多肽鏈蛋白質(zhì)序列對應(yīng)關(guān)系遺傳密碼基因的DNA序列DNA前體RNAmRNA多肽鏈蛋白質(zhì)序列對遺22(2)蛋白質(zhì)的結(jié)構(gòu)決定其功能蛋白質(zhì)功能取決于蛋白質(zhì)的空間結(jié)構(gòu)
蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的序列(這是目前基本共認(rèn)的假設(shè)),蛋白質(zhì)結(jié)構(gòu)的信息隱含在蛋白質(zhì)序列之中。(2)蛋白質(zhì)的結(jié)構(gòu)決定其功能23(3)DNA分子和蛋白質(zhì)分子
都含有進(jìn)化信息
通過比較相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復(fù)制而產(chǎn)生的分子進(jìn)化證據(jù)。通過比較來自于不同種屬的同源蛋白質(zhì),即直系同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測它們共同的祖先蛋白質(zhì)。(3)DNA分子和蛋白質(zhì)分子
都含有進(jìn)化信息通過比24生物分子信息DNA序列數(shù)據(jù)蛋白質(zhì)序列數(shù)據(jù)生物分子結(jié)構(gòu)數(shù)據(jù)生物分子功能數(shù)據(jù)最基本直觀復(fù)雜生物分子數(shù)據(jù)類型生DNA序列數(shù)據(jù)蛋白質(zhì)序列數(shù)據(jù)生物分子結(jié)構(gòu)數(shù)據(jù)生物分子25
DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動的機器第一部遺傳密碼第二部遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系
DNA蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)最基本的維持生命活動的機器第一部26第一部遺傳密碼已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少對于第二部密碼,目前則只能用統(tǒng)計學(xué)的方法進(jìn)行分析無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等待我們?nèi)ネ诰蚝屠?。第一部遺傳密碼已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)27生物分子信息的特征生物分子信息數(shù)據(jù)量大生物分子信息復(fù)雜生物分子信息之間存在著密切的聯(lián)系生物分子信息的特征生物分子信息數(shù)據(jù)量大283、生物信息學(xué)的發(fā)展歷史生物信息學(xué)基本思想的產(chǎn)生生物信息學(xué)的迅速發(fā)展二十世紀(jì)50年代二十世紀(jì)80-90年代生物科學(xué)和技術(shù)的發(fā)展人類基因組計劃的推動3、生物信息學(xué)的發(fā)展歷史生物信息學(xué)生物信息學(xué)二十世紀(jì)二十世紀(jì)2920世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計算生物學(xué)和計算機科學(xué)聯(lián)系起來20世紀(jì)70年代,生物信息學(xué)的真正開端20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展生物信息學(xué)和其發(fā)展歷史課件30關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,請參見下面兩個網(wǎng)站的介紹:/Education/BLASTinfo/milestones.html、/bioinformatics/。關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,31第三節(jié)生物信息學(xué)主要研究內(nèi)容生物信息學(xué)和其發(fā)展歷史課件32生物信息學(xué)主要研究內(nèi)容1、
生物分子數(shù)據(jù)的收集與管理2、數(shù)據(jù)庫搜索及序列比較3、基因組序列分析4、基因表達(dá)數(shù)據(jù)的分析與處理5、蛋白質(zhì)結(jié)構(gòu)預(yù)測生物信息學(xué)主要研究內(nèi)容1、生物分子數(shù)據(jù)的收集與管理33基因組數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫DDBJEMBLGenBankSWISS-PROT
PDBPIR1、生物分子數(shù)據(jù)的收集與管理基因組蛋白質(zhì)蛋白質(zhì)DDBJEMBLGenBankSWISS-342、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進(jìn)行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。2、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過35發(fā)現(xiàn)同源分子發(fā)現(xiàn)同源分子363、基因組序列分析
遺傳語言分析——天書基因組結(jié)構(gòu)分析基因識別基因功能注釋基因調(diào)控信息分析基因組比較3、基因組序列分析遺傳語言分析——天書374、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點和重點目前對基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能所用方法主要有:相關(guān)分析方法模式識別技術(shù)中的層次式聚類方法人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)主元分析方法4、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)38基因芯片基因芯片39生物信息學(xué)和其發(fā)展歷史課件40生物信息學(xué)和其發(fā)展歷史課件41層次式聚類層次式聚類42二維電泳圖二維電泳圖435、蛋白質(zhì)結(jié)構(gòu)預(yù)測
蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測蛋白質(zhì)折疊5、蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,44二級結(jié)構(gòu)預(yù)測在一定程度上二級結(jié)構(gòu)的預(yù)測可以歸結(jié)為模式識別問題
在二級結(jié)構(gòu)預(yù)測方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測準(zhǔn)確率超過70%的第一個軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)二級結(jié)構(gòu)預(yù)測45空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是同源模型法
該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)運用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測工作空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是同源模型46第四節(jié)生物信息學(xué)當(dāng)前的主要任務(wù)
第四節(jié)47縱觀當(dāng)今生物信息學(xué)界的現(xiàn)狀,可以發(fā)現(xiàn),大部分人都把注意力集中在基因組、蛋白質(zhì)組、蛋白質(zhì)結(jié)構(gòu)以及與之相結(jié)合的藥物設(shè)計上縱觀當(dāng)今生物信息學(xué)界的現(xiàn)狀,可以發(fā)現(xiàn),大部分人都把注意481.基因組
1.1新基因的發(fā)現(xiàn)
通過計算分析從EST(ExpressedSequenceTags)序列庫中拼接出完整的新基因編碼區(qū),也就是通俗所說的“電子克隆”;通過計算分析從基因組DNA序列中確定新基因編碼區(qū),經(jīng)過多年的積累,已經(jīng)形成許多分析方法,如根據(jù)編碼區(qū)具有的獨特序列特征、根據(jù)編碼區(qū)與非編碼區(qū)在堿基組成上的差異、根據(jù)高維分布的統(tǒng)計方法、根據(jù)神經(jīng)網(wǎng)絡(luò)方法、根據(jù)分形方法和根據(jù)密碼學(xué)方法等。1.基因組1.1新基因的發(fā)現(xiàn)通過計算分析從E491.2非蛋白編碼區(qū)生物學(xué)意義的分析
1.2非蛋白編碼區(qū)生物學(xué)意義的分析50非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚不是很清楚,但從演化觀點來看,其中必然蘊含著重要的生物學(xué)功能,由于它們并不編碼蛋白,一般認(rèn)為,它們的生物學(xué)功能可能體現(xiàn)在對基因表達(dá)的時空調(diào)控上。對非蛋白編碼區(qū)進(jìn)行生物學(xué)意義分析的策略有兩種,一種是基于已有的已經(jīng)為實驗證實的所有功能已知的DNA元件的序列特征,預(yù)測非蛋白編碼區(qū)中可能含有的功能已知的DNA元件,從而預(yù)測其可能的生物學(xué)功能,并通過實驗進(jìn)行驗證;另一種則是通過數(shù)理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預(yù)測其可能的信息含義,最后同樣通過實驗驗證。非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚511.3基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握
把握生命的本質(zhì),僅僅掌握基因組中部分基因的表達(dá)調(diào)控是遠(yuǎn)遠(yuǎn)不夠的,因為生命現(xiàn)象是基因組中所有功能單元相互作用共同制造出來的?;蛐酒夹g(shù)由于可以監(jiān)測基因組在各種時間斷面上的整體轉(zhuǎn)錄表達(dá)狀況,因此成為該領(lǐng)域中一項非常重要和關(guān)鍵的實驗技術(shù),對該技術(shù)所產(chǎn)生的大量實驗數(shù)據(jù)進(jìn)行高效分析,從中獲得基因組運轉(zhuǎn)以及調(diào)控的整體系統(tǒng)的機制或者是網(wǎng)絡(luò)機制,便成了生物信息學(xué)在該領(lǐng)域中首先要解決的問題。1.3基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握把握生命521.4基因組演化與物種演化
1.4基因組演化與物種演化53盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現(xiàn)象,就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結(jié)構(gòu)基因和蛋白質(zhì)是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯(lián)想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但基礎(chǔ)的部件組成卻是幾乎一樣的,差別就在于這些基礎(chǔ)部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發(fā)育和生理,因此,從基因組整體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表征現(xiàn)象,進(jìn)行基因組整體的演化研究,將是揭示物種真實演化歷史的最佳途徑。盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠542、蛋白質(zhì)組
2、蛋白質(zhì)組55基因組對生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到RNA的轉(zhuǎn)錄水平上的表達(dá)情況,由于從RNA到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者——蛋白質(zhì)的整體表達(dá)狀況;因此,近幾年在發(fā)展基因芯片的同時,人們也發(fā)展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況——蛋白質(zhì)組研究技術(shù),從技術(shù)上來講包括二維凝膠電泳技術(shù)和質(zhì)譜測序技術(shù)。通過二維凝膠電泳技術(shù)可以獲得某一時間截面上蛋白質(zhì)組的表達(dá)情況,通過質(zhì)譜測序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。這些都是技術(shù)實現(xiàn)問題,最重要的就是如何運用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中還原出生命運轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機制?;蚪M對生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來56基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋白序列涌現(xiàn)出來,然而要想了解它們的功能,只有氨基酸序列是遠(yuǎn)遠(yuǎn)不夠的,因為蛋白質(zhì)的功能是通過其三維高級結(jié)構(gòu)來執(zhí)行的,而且蛋白質(zhì)三維結(jié)構(gòu)也不一定是靜態(tài)的,在行使功能的過程中其結(jié)構(gòu)也會相應(yīng)的有所改變。因此,得到這些新蛋白的完整、精確和動態(tài)的三維結(jié)構(gòu)就成為擺在我們面前的緊迫任務(wù)。目前除了通過諸如X射線晶體結(jié)構(gòu)分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(gòu)(電子晶體學(xué),EC)等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)之外3、蛋白質(zhì)結(jié)構(gòu)
基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋白序列涌現(xiàn)出來57另外一種廣泛使用的方法就是通過計算機輔助預(yù)測的方法,目前,一般認(rèn)為蛋白質(zhì)的折疊類型只有數(shù)百到數(shù)千種,遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)所具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能直接從蛋白質(zhì)的氨基酸序列通過計算機輔助方法預(yù)測出蛋白質(zhì)的三維結(jié)構(gòu)另外一種廣泛使用的方法就是通過計算機輔助預(yù)測的方法,目前584、新藥設(shè)計
4、新藥設(shè)計59近年來隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)獲得精確測定,基于生物大分子結(jié)構(gòu)知識的藥物設(shè)計成為當(dāng)前的熱點。生物信息學(xué)的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級、表面電荷分布、分子軌道相互作用等以及動力學(xué)行為的信息,如生物化學(xué)反應(yīng)中的能量變化、電荷轉(zhuǎn)移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境的復(fù)雜體系和生物分子的量子效應(yīng)。近年來隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些60但生物信息學(xué)的任務(wù)遠(yuǎn)不止于此。在以上工作的基礎(chǔ)上,最重要的是如何運用數(shù)理理論成果對生物體進(jìn)行完整系統(tǒng)的數(shù)理模型描述,使得人類能夠從一個更加明確的角度和一個更加易于操作的途徑來認(rèn)識和控制自身以及所有其他的生命體但生物信息學(xué)的任務(wù)遠(yuǎn)不止于此。在以上工作的基礎(chǔ)上,最重61生物信息學(xué)不僅僅是一門科學(xué)學(xué)科,它更是一種重要的研究開發(fā)工具。
從科學(xué)的角度來講,它是一門研究生物和生物相關(guān)系統(tǒng)中信息內(nèi)容物和信息流向的綜合系統(tǒng)科學(xué),只有通過生物信息學(xué)的計算處理,我們才能從眾多分散的生物學(xué)觀測數(shù)據(jù)中獲得對生命運行機制的詳細(xì)和系統(tǒng)的理解。從工具的角度來講,它是今后幾乎進(jìn)行所有生物(醫(yī)藥)研究開發(fā)所必需的舵手和動力機,只有基于生物信息學(xué)通過對大量已有數(shù)據(jù)資料的分析處理所提供的理論指導(dǎo)和分析,我們才能選擇正確的研發(fā)方向,同樣,只有選擇正確的生物信息學(xué)分析方法和手段,我們才能正確處理和評價新的觀測數(shù)據(jù)并得到準(zhǔn)確的結(jié)論。生物信息學(xué)不僅僅是一門科學(xué)學(xué)科,62生物信息學(xué)研究意義生物信息學(xué)將是21世紀(jì)生物學(xué)的核心
認(rèn)識生物本質(zhì)了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系改變生物學(xué)的研究方式改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計新藥提供依據(jù)生物信息學(xué)研究意義生物信息學(xué)將是21世紀(jì)生物學(xué)的核心認(rèn)識生63第五節(jié)生物信息學(xué)所用的方法和技術(shù)
1、數(shù)學(xué)統(tǒng)計方法2、動態(tài)規(guī)劃方法3、機器學(xué)習(xí)與模式識別技術(shù)4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)6、專家系統(tǒng)7、分子模型化技術(shù)8、量子力學(xué)和分子力學(xué)計算9、生物分子的計算機模擬10、因特網(wǎng)(Internet)技術(shù)第五節(jié)生物信息學(xué)所用的方法和技術(shù)1、數(shù)學(xué)統(tǒng)計方法641、數(shù)學(xué)統(tǒng)計方法生物活動常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)在因素的制約,又受到外界環(huán)境的隨機干擾。因此概率論和數(shù)學(xué)統(tǒng)計是現(xiàn)代生物學(xué)研究中一種常用的分析方法數(shù)據(jù)統(tǒng)計、因素分析、多元回歸分析是生物學(xué)研究必備的工具隱馬爾科夫模型(HiddenMarkovModels)在序列分析方面有著重要的應(yīng)用。與隱馬爾科夫模型相關(guān)的技術(shù)是馬爾科夫鏈(MarkovChain)1、數(shù)學(xué)統(tǒng)計方法生物活動常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)652、動態(tài)規(guī)劃方法動態(tài)規(guī)劃(DynamicProgramming)是一種解決多階段決策過程的最優(yōu)化方法或復(fù)雜空間的優(yōu)化搜索方法動態(tài)規(guī)劃解決問題的基本過程是:將一個問題的全局解分解為局部解,逆序遞推求出局部最優(yōu)解,隨著執(zhí)行過程的推進(jìn),“局部”逐漸接近“全局”,最終獲得全局最優(yōu)解2、動態(tài)規(guī)劃方法動態(tài)規(guī)劃(DynamicProgrammi663、機器學(xué)習(xí)與模式識別技術(shù)機器學(xué)習(xí)機器學(xué)習(xí)是模擬人類的學(xué)習(xí)過程,以計算機為工具獲取知識、積累經(jīng)驗1、遺傳算法采用隨機搜索方法,具有自適應(yīng)能力和便于并行計算2、神經(jīng)網(wǎng)絡(luò)的理論是基于人腦的結(jié)構(gòu),其目的是揭示一個系統(tǒng)是如何向環(huán)境學(xué)習(xí)的,這一種方法被稱為聯(lián)接主義。模式識別模式識別是機器學(xué)習(xí)的一個主要任務(wù)。模式是對感興趣客體定量的或者結(jié)構(gòu)的描述,而模式識別就是利用計算機對客體進(jìn)行鑒別,將相同或者相似的客體歸入同種類別中模式識別主要有兩種方法:根據(jù)對象的統(tǒng)計特征進(jìn)行識別,根據(jù)對象的結(jié)構(gòu)特征進(jìn)行識別
3、機器學(xué)習(xí)與模式識別技術(shù)機器學(xué)習(xí)67環(huán)境學(xué)習(xí)知識庫執(zhí)行機器學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)
反饋環(huán)境學(xué)習(xí)知識庫執(zhí)行機器學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)反饋684、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)數(shù)據(jù)倉庫虛擬數(shù)據(jù)庫技術(shù)(VirtualDatabase,簡稱VDB)數(shù)據(jù)挖掘(datamining)又稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),它是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),它能自動分析數(shù)據(jù),對它們進(jìn)行歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中發(fā)掘出潛在的、對信息預(yù)測和決策行為起著十分重要作用的模式數(shù)據(jù)挖掘過程一般分為4個基本步驟:數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)695、人工神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,簡稱ANN)是通過模擬神經(jīng)元的特性以及腦的大規(guī)模并行結(jié)構(gòu)、信息的分布式和并行處理等機制建立的一種數(shù)學(xué)模型在生物信息學(xué)中,使用得最多的是反向傳播神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNetwork,簡稱BP網(wǎng))。BP網(wǎng)被認(rèn)為是穩(wěn)定性和魯棒性較強的人工神經(jīng)網(wǎng)絡(luò)之一,而且屬于有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)模型。標(biāo)準(zhǔn)的BP網(wǎng)由三層神經(jīng)元組成:輸入層、隱藏層和輸出層5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNe70輸入層隱藏層輸出層反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意輸入層隱藏層輸反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意71使用界面解釋機構(gòu)推理機知識獲取知識庫數(shù)據(jù)庫使用界面727、分子模型化技術(shù)分子模型化(Molecularmodeling)是利用計算機模擬分子結(jié)構(gòu)、研究分子之間相互作用的一種技術(shù)分子模型化是進(jìn)行分子設(shè)計的基礎(chǔ)。分子圖形學(xué)(MolecularGraphics)是進(jìn)行分子模型化的一項重要技術(shù),正是由于分子圖形學(xué)和其它計算化學(xué)方法(如分子力學(xué)、分子動力學(xué))的相互結(jié)合,才使得分子模型化方法取得成功7、分子模型化技術(shù)分子模型化(Molecularmodel73生物信息學(xué)和其發(fā)展歷史課件748、量子力學(xué)和分子力學(xué)計算
量子力學(xué)主要研究原子、分子、凝聚態(tài)物質(zhì)、以及原子核和基本粒子的結(jié)構(gòu)、性質(zhì)的基礎(chǔ)理論,在化學(xué)等有關(guān)學(xué)科中得到了廣泛的應(yīng)用分子力學(xué)(MolecularMechanics)方法是一種非量子力學(xué)的計算分子結(jié)構(gòu)、能量與性質(zhì)的方法,該方法應(yīng)用經(jīng)驗勢能函數(shù),即經(jīng)驗力場方法模擬分子的結(jié)構(gòu),計算分子的性質(zhì)在進(jìn)行分子結(jié)構(gòu)分析、構(gòu)象優(yōu)化、分子間相互作用研究及分子模擬時需要應(yīng)用量子力學(xué)或分子力學(xué)8、量子力學(xué)和分子力學(xué)計算量子力學(xué)主要研究原子、分子、凝聚759、生物分子的計算機模擬
所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計算機進(jìn)行模擬實驗,預(yù)測生物分子的結(jié)構(gòu)和功能,預(yù)測動力學(xué)及熱力學(xué)等方面的性質(zhì)分子動力學(xué)和蒙特卡羅方法(MonteCarlomethod)是兩種最常用的技術(shù),另一種模擬方法是模擬退火方法9、生物分子的計算機模擬所謂生物分子的計算機模擬就是從分子76
反饋,改進(jìn)模型
實驗實驗現(xiàn)象數(shù)學(xué)模型計算機模擬模擬結(jié)果分析新的設(shè)想反饋,改進(jìn)模型實驗實驗現(xiàn)象數(shù)學(xué)7710、因特網(wǎng)(Internet)技術(shù)Internet已經(jīng)成為生物學(xué)研究的平臺,同時也成為分子生物學(xué)研究人員進(jìn)行信息交流特別是生物分子數(shù)據(jù)的交流的場所通過網(wǎng)絡(luò)查詢或搜索所需要的生物信息,使用分析工具將所要處理的數(shù)據(jù)直接送到相應(yīng)的網(wǎng)絡(luò)服務(wù)器上,服務(wù)器接受你的處理請求,并將處理結(jié)果返回10、因特網(wǎng)(Internet)技術(shù)Internet已經(jīng)成為78
第二節(jié)生物信息學(xué)及其發(fā)展歷史
第二節(jié)生物信息學(xué)及其發(fā)展歷史
791、生物信息學(xué)的概念1、生物信息學(xué)的概念80生物信息學(xué)(Bioinformatics)這一名詞的來由八十年代末期,林華安博士認(rèn)識到將計算機科學(xué)與生物學(xué)結(jié)合起來的重要意義,開始留意要為這一領(lǐng)域構(gòu)思一個合適的名稱。起初,考慮到與將要支持他主辦一系列生物信息學(xué)會議的佛羅里達(dá)州立大學(xué)超型計算機計算研究所的關(guān)系,他使用的是“CompBio”;之后,又將其更改為兼具法國風(fēng)情的“bioinformatique”,看起來似乎有些古怪。因此不久,他便進(jìn)一步把它更改為“bio-informatics(或bio/informatics)”。但由于當(dāng)時的電子郵件系統(tǒng)與今日不同,該名稱中的-或/符號經(jīng)常會引起許多系統(tǒng)問題,于是林博士將其去除,今天我們所看到的“bioinformatics”就正式誕生了,林博士也因此贏得了“生物信息學(xué)之父”的美譽。生物信息學(xué)(Bioinformatics)八十年代末期81生物信息學(xué)HGP生物數(shù)據(jù)的激增(每15個月翻一番)生物學(xué)家數(shù)學(xué)家計算機科學(xué)家生物信息學(xué)(bioinfomatics)的誕生生物信息學(xué)HGP生物學(xué)家數(shù)學(xué)家計算機生物信息學(xué)82三種科學(xué)文化的融合生物學(xué)家(生物學(xué)問題)數(shù)學(xué)物理學(xué)家計算機科學(xué)家(基礎(chǔ)理論問題)工程師(技術(shù)應(yīng)用)三種科學(xué)文化的融合生物學(xué)家數(shù)學(xué)物理學(xué)家工程師83生物信息學(xué)(bioinformatics)是80年代未隨著人類基因組計劃(Humangenomeproject)的啟動而興起的一門新的交叉學(xué)科。它涉及生物學(xué)、數(shù)學(xué)、計算機科學(xué)和工程學(xué),依賴于計算機科學(xué)、工程學(xué)和應(yīng)用數(shù)學(xué)的基礎(chǔ),依賴于生物實驗和衍生數(shù)據(jù)的大量儲存。生物信息學(xué)(bioinformatics)是80年代未84概念(廣義)生物體系和過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)
概念(廣義)生物體系和過程中信息細(xì)胞、組織、器官的生理、病理85廣義的說,生物信息不僅包括基因組信息,如基因的DNA序列、染色體定位,也包括基因產(chǎn)(蛋白質(zhì)或RNA)的結(jié)構(gòu)和功能及各生物種間的進(jìn)化關(guān)系等其他信息資源。生物信息學(xué)既涉基因組信息的獲取、處理、貯存、傳遞、分析和解釋,又涉及蛋白質(zhì)組信息學(xué)如蛋白質(zhì)的序列、結(jié)構(gòu)、功能及定位分類、蛋白質(zhì)連鎖圖、蛋白質(zhì)數(shù)據(jù)庫的建立、相關(guān)分析軟件的開發(fā)和應(yīng)用等方面,還涉及基因與蛋白質(zhì)的關(guān)系如蛋白質(zhì)編碼基因的識別及算法研究、蛋白質(zhì)結(jié)構(gòu)、功能預(yù)測等,另外,新藥研制、生物進(jìn)化也是生物信息學(xué)研究的熱點。廣義的說,生物信息不僅包括基因組信息,如基因的DNA序列、染86概念(狹義)生物分子數(shù)據(jù)深層次生物學(xué)知識分子生物信息學(xué)MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用概念(狹義)生物深層次分子生物信息學(xué)挖掘獲取生物分子信息的獲87由于當(dāng)前生物信息學(xué)發(fā)展的主要推動力來自分子生物學(xué),生物信息學(xué)的研究主要集中于核苷酸和氨基酸序列的存儲、分類、檢索和分析等方面,所以目前生物信息學(xué)可以狹義地定義為:將計算機科學(xué)和數(shù)學(xué)應(yīng)用于生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達(dá)到理解這些生物大分子信息的生物學(xué)意義的交叉學(xué)科。由于當(dāng)前生物信息學(xué)發(fā)展的主要推動力來自分子生物學(xué),生物881995年,在美國人類基因組計劃(HGP)第一個五年總結(jié)報告
中給出了一個較為完整的生物信息學(xué)的定義:生信息學(xué)是包含生物信息的獲取、處理、貯存、分發(fā)、分析和解釋的所有方面的一門學(xué)科,它綜合運用數(shù)學(xué)、計算機科學(xué)和生物學(xué)的各種工具進(jìn)行研究,目的在于了解大量的生物學(xué)意義。1995年,在美國人類基因組計劃(HGP)第一個89Bioinformatics生物分子數(shù)據(jù)計算機計算+Bioinformatics生物分子計算機+902、生物分子信息2、生物分子信息91細(xì)胞分子存貯、復(fù)制、傳遞和表達(dá)遺傳信息的系統(tǒng)生物信息的載體細(xì)胞分子存貯、復(fù)制、傳遞和表達(dá)生物信息的載體92生物信息學(xué)主要研究兩種信息載體DNA分子蛋白質(zhì)分子生物信息學(xué)和其發(fā)展歷史課件93生物信息學(xué)和其發(fā)展歷史課件94ProteinMachines
ProteinMachines95FromtheCelltoProteinMachines
FromtheCelltoProteinMachi96生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息生物分子至少攜帶著三種信息97(1)遺傳信息的載體——DNA遺傳信息的載體主要是DNA控制生物體性狀的基因是一系列DNA片段生物體生長發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達(dá)(1)遺傳信息的載體——DNA遺傳信息的載體主要是DNA98DNA通過自我復(fù)制,在生物體的繁衍過程中傳遞遺傳信息基因通過轉(zhuǎn)錄和翻譯,使遺傳信息在生物個體中得以表達(dá),并使后代表現(xiàn)出與親代相似的生物性狀。
基因控制著蛋白質(zhì)的合成DNARNA蛋白質(zhì)轉(zhuǎn)錄翻譯DNA通過自我復(fù)制,在生物體的繁衍過基因通過轉(zhuǎn)錄和翻譯,使遺99基因的DNA序列DNA前體RNAmRNA多肽鏈蛋白質(zhì)序列對應(yīng)關(guān)系遺傳密碼基因的DNA序列DNA前體RNAmRNA多肽鏈蛋白質(zhì)序列對遺100(2)蛋白質(zhì)的結(jié)構(gòu)決定其功能蛋白質(zhì)功能取決于蛋白質(zhì)的空間結(jié)構(gòu)
蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的序列(這是目前基本共認(rèn)的假設(shè)),蛋白質(zhì)結(jié)構(gòu)的信息隱含在蛋白質(zhì)序列之中。(2)蛋白質(zhì)的結(jié)構(gòu)決定其功能101(3)DNA分子和蛋白質(zhì)分子
都含有進(jìn)化信息
通過比較相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復(fù)制而產(chǎn)生的分子進(jìn)化證據(jù)。通過比較來自于不同種屬的同源蛋白質(zhì),即直系同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測它們共同的祖先蛋白質(zhì)。(3)DNA分子和蛋白質(zhì)分子
都含有進(jìn)化信息通過比102生物分子信息DNA序列數(shù)據(jù)蛋白質(zhì)序列數(shù)據(jù)生物分子結(jié)構(gòu)數(shù)據(jù)生物分子功能數(shù)據(jù)最基本直觀復(fù)雜生物分子數(shù)據(jù)類型生DNA序列數(shù)據(jù)蛋白質(zhì)序列數(shù)據(jù)生物分子結(jié)構(gòu)數(shù)據(jù)生物分子103
DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動的機器第一部遺傳密碼第二部遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系
DNA蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)最基本的維持生命活動的機器第一部104第一部遺傳密碼已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少對于第二部密碼,目前則只能用統(tǒng)計學(xué)的方法進(jìn)行分析無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等待我們?nèi)ネ诰蚝屠?。第一部遺傳密碼已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)105生物分子信息的特征生物分子信息數(shù)據(jù)量大生物分子信息復(fù)雜生物分子信息之間存在著密切的聯(lián)系生物分子信息的特征生物分子信息數(shù)據(jù)量大1063、生物信息學(xué)的發(fā)展歷史生物信息學(xué)基本思想的產(chǎn)生生物信息學(xué)的迅速發(fā)展二十世紀(jì)50年代二十世紀(jì)80-90年代生物科學(xué)和技術(shù)的發(fā)展人類基因組計劃的推動3、生物信息學(xué)的發(fā)展歷史生物信息學(xué)生物信息學(xué)二十世紀(jì)二十世紀(jì)10720世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計算生物學(xué)和計算機科學(xué)聯(lián)系起來20世紀(jì)70年代,生物信息學(xué)的真正開端20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展生物信息學(xué)和其發(fā)展歷史課件108關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,請參見下面兩個網(wǎng)站的介紹:/Education/BLASTinfo/milestones.html、/bioinformatics/。關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,109第三節(jié)生物信息學(xué)主要研究內(nèi)容生物信息學(xué)和其發(fā)展歷史課件110生物信息學(xué)主要研究內(nèi)容1、
生物分子數(shù)據(jù)的收集與管理2、數(shù)據(jù)庫搜索及序列比較3、基因組序列分析4、基因表達(dá)數(shù)據(jù)的分析與處理5、蛋白質(zhì)結(jié)構(gòu)預(yù)測生物信息學(xué)主要研究內(nèi)容1、生物分子數(shù)據(jù)的收集與管理111基因組數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫DDBJEMBLGenBankSWISS-PROT
PDBPIR1、生物分子數(shù)據(jù)的收集與管理基因組蛋白質(zhì)蛋白質(zhì)DDBJEMBLGenBankSWISS-1122、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進(jìn)行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。2、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過113發(fā)現(xiàn)同源分子發(fā)現(xiàn)同源分子1143、基因組序列分析
遺傳語言分析——天書基因組結(jié)構(gòu)分析基因識別基因功能注釋基因調(diào)控信息分析基因組比較3、基因組序列分析遺傳語言分析——天書1154、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點和重點目前對基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能所用方法主要有:相關(guān)分析方法模式識別技術(shù)中的層次式聚類方法人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)主元分析方法4、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)116基因芯片基因芯片117生物信息學(xué)和其發(fā)展歷史課件118生物信息學(xué)和其發(fā)展歷史課件119層次式聚類層次式聚類120二維電泳圖二維電泳圖1215、蛋白質(zhì)結(jié)構(gòu)預(yù)測
蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測蛋白質(zhì)折疊5、蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,122二級結(jié)構(gòu)預(yù)測在一定程度上二級結(jié)構(gòu)的預(yù)測可以歸結(jié)為模式識別問題
在二級結(jié)構(gòu)預(yù)測方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測準(zhǔn)確率超過70%的第一個軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)二級結(jié)構(gòu)預(yù)測123空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是同源模型法
該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)運用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測工作空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是同源模型124第四節(jié)生物信息學(xué)當(dāng)前的主要任務(wù)
第四節(jié)125縱觀當(dāng)今生物信息學(xué)界的現(xiàn)狀,可以發(fā)現(xiàn),大部分人都把注意力集中在基因組、蛋白質(zhì)組、蛋白質(zhì)結(jié)構(gòu)以及與之相結(jié)合的藥物設(shè)計上縱觀當(dāng)今生物信息學(xué)界的現(xiàn)狀,可以發(fā)現(xiàn),大部分人都把注意1261.基因組
1.1新基因的發(fā)現(xiàn)
通過計算分析從EST(ExpressedSequenceTags)序列庫中拼接出完整的新基因編碼區(qū),也就是通俗所說的“電子克隆”;通過計算分析從基因組DNA序列中確定新基因編碼區(qū),經(jīng)過多年的積累,已經(jīng)形成許多分析方法,如根據(jù)編碼區(qū)具有的獨特序列特征、根據(jù)編碼區(qū)與非編碼區(qū)在堿基組成上的差異、根據(jù)高維分布的統(tǒng)計方法、根據(jù)神經(jīng)網(wǎng)絡(luò)方法、根據(jù)分形方法和根據(jù)密碼學(xué)方法等。1.基因組1.1新基因的發(fā)現(xiàn)通過計算分析從E1271.2非蛋白編碼區(qū)生物學(xué)意義的分析
1.2非蛋白編碼區(qū)生物學(xué)意義的分析128非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚不是很清楚,但從演化觀點來看,其中必然蘊含著重要的生物學(xué)功能,由于它們并不編碼蛋白,一般認(rèn)為,它們的生物學(xué)功能可能體現(xiàn)在對基因表達(dá)的時空調(diào)控上。對非蛋白編碼區(qū)進(jìn)行生物學(xué)意義分析的策略有兩種,一種是基于已有的已經(jīng)為實驗證實的所有功能已知的DNA元件的序列特征,預(yù)測非蛋白編碼區(qū)中可能含有的功能已知的DNA元件,從而預(yù)測其可能的生物學(xué)功能,并通過實驗進(jìn)行驗證;另一種則是通過數(shù)理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預(yù)測其可能的信息含義,最后同樣通過實驗驗證。非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚1291.3基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握
把握生命的本質(zhì),僅僅掌握基因組中部分基因的表達(dá)調(diào)控是遠(yuǎn)遠(yuǎn)不夠的,因為生命現(xiàn)象是基因組中所有功能單元相互作用共同制造出來的?;蛐酒夹g(shù)由于可以監(jiān)測基因組在各種時間斷面上的整體轉(zhuǎn)錄表達(dá)狀況,因此成為該領(lǐng)域中一項非常重要和關(guān)鍵的實驗技術(shù),對該技術(shù)所產(chǎn)生的大量實驗數(shù)據(jù)進(jìn)行高效分析,從中獲得基因組運轉(zhuǎn)以及調(diào)控的整體系統(tǒng)的機制或者是網(wǎng)絡(luò)機制,便成了生物信息學(xué)在該領(lǐng)域中首先要解決的問題。1.3基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握把握生命1301.4基因組演化與物種演化
1.4基因組演化與物種演化131盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現(xiàn)象,就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結(jié)構(gòu)基因和蛋白質(zhì)是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯(lián)想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但基礎(chǔ)的部件組成卻是幾乎一樣的,差別就在于這些基礎(chǔ)部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發(fā)育和生理,因此,從基因組整體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表征現(xiàn)象,進(jìn)行基因組整體的演化研究,將是揭示物種真實演化歷史的最佳途徑。盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠1322、蛋白質(zhì)組
2、蛋白質(zhì)組133基因組對生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到RNA的轉(zhuǎn)錄水平上的表達(dá)情況,由于從RNA到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者——蛋白質(zhì)的整體表達(dá)狀況;因此,近幾年在發(fā)展基因芯片的同時,人們也發(fā)展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況——蛋白質(zhì)組研究技術(shù),從技術(shù)上來講包括二維凝膠電泳技術(shù)和質(zhì)譜測序技術(shù)。通過二維凝膠電泳技術(shù)可以獲得某一時間截面上蛋白質(zhì)組的表達(dá)情況,通過質(zhì)譜測序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。這些都是技術(shù)實現(xiàn)問題,最重要的就是如何運用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中還原出生命運轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機制。基因組對生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來134基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋白序列涌現(xiàn)出來,然而要想了解它們的功能,只有氨基酸序列是遠(yuǎn)遠(yuǎn)不夠的,因為蛋白質(zhì)的功能是通過其三維高級結(jié)構(gòu)來執(zhí)行的,而且蛋白質(zhì)三維結(jié)構(gòu)也不一定是靜態(tài)的,在行使功能的過程中其結(jié)構(gòu)也會相應(yīng)的有所改變。因此,得到這些新蛋白的完整、精確和動態(tài)的三維結(jié)構(gòu)就成為擺在我們面前的緊迫任務(wù)。目前除了通過諸如X射線晶體結(jié)構(gòu)分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(gòu)(電子晶體學(xué),EC)等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)之外3、蛋白質(zhì)結(jié)構(gòu)
基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋白序列涌現(xiàn)出來135另外一種廣泛使用的方法就是通過計算機輔助預(yù)測的方法,目前,一般認(rèn)為蛋白質(zhì)的折疊類型只有數(shù)百到數(shù)千種,遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)所具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能直接從蛋白質(zhì)的氨基酸序列通過計算機輔助方法預(yù)測出蛋白質(zhì)的三維結(jié)構(gòu)另外一種廣泛使用的方法就是通過計算機輔助預(yù)測的方法,目前1364、新藥設(shè)計
4、新藥設(shè)計137近年來隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)獲得精確測定,基于生物大分子結(jié)構(gòu)知識的藥物設(shè)計成為當(dāng)前的熱點。生物信息學(xué)的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級、表面電荷分布、分子軌道相互作用等以及動力學(xué)行為的信息,如生物化學(xué)反應(yīng)中的能量變化、電荷轉(zhuǎn)移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境的復(fù)雜體系和生物分子的量子效應(yīng)。近年來隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些138但生物信息學(xué)的任務(wù)遠(yuǎn)不止于此。在以上工作的基礎(chǔ)上,最重要的是如何運用數(shù)理理論成果對生物體進(jìn)行完整系統(tǒng)的數(shù)理模型描述,使得人類能夠從一個更加明確的角度和一個更加易于操作的途徑來認(rèn)識和控制自身以及所有其他的生命體但生物信息學(xué)的任務(wù)遠(yuǎn)不止于此。在以上工作的基礎(chǔ)上,最重139生物信息學(xué)不僅僅是一門科學(xué)學(xué)科,它更是一種重要的研究開發(fā)工具。
從科學(xué)的角度來講,它是一門研究生物和生物相關(guān)系統(tǒng)中信息內(nèi)容物和信息流向的綜合系統(tǒng)科學(xué),只有通過生物信息學(xué)的計算處理,我們才能從眾多分散的生物學(xué)觀測數(shù)據(jù)中獲得對生命運行機制的詳細(xì)和系統(tǒng)的理解。從工具的角度來講,它是今后幾乎進(jìn)行所有生物(醫(yī)藥)研究開發(fā)所必需的舵手和動力機,只有基于生物信息學(xué)通過對大量已有數(shù)據(jù)資料的分析處理所提供的理論指導(dǎo)和分析,我們才能選擇正確的研發(fā)方向,同樣,只有選擇正確的生物信息學(xué)分析方法和手段,我們才能正確處理和評價新的觀測數(shù)據(jù)并得到準(zhǔn)確的結(jié)論。生物信息學(xué)不僅僅是一門科學(xué)學(xué)科,140生物信息學(xué)研究意義生物信息學(xué)將是21世紀(jì)生物學(xué)的核心
認(rèn)識生物本質(zhì)了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系改變生物學(xué)的研究方式改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計新藥提供依據(jù)生物信息學(xué)研究意義生物信息學(xué)將是21世紀(jì)生物學(xué)的核心認(rèn)識生141第五節(jié)生物信息學(xué)所用的方法和技術(shù)
1、數(shù)學(xué)統(tǒng)計方法2、動態(tài)規(guī)劃方法3、機器學(xué)習(xí)與模式識別技術(shù)4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)6、專家系統(tǒng)7、分子模型化技術(shù)8、量子力學(xué)和分子力學(xué)計算9、生物分子的計算機模擬10、因特網(wǎng)(Internet)技術(shù)第五節(jié)生物信息學(xué)所用的方法和技術(shù)1、數(shù)學(xué)統(tǒng)計方法1421、數(shù)學(xué)統(tǒng)計方法生物活動常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)在因素的制約,又受到外界環(huán)境的隨機干擾。因此概率論和數(shù)學(xué)統(tǒng)計是現(xiàn)代生物學(xué)研究中一種常用的分析方法數(shù)據(jù)統(tǒng)計、因素分析、多元回歸分析是生物學(xué)研究必備的工具隱馬爾科夫模型(HiddenMarkovModels)在序列分析方面有著重要的應(yīng)用。與隱馬爾科夫模型相關(guān)的技術(shù)是馬爾科夫鏈(MarkovChain)1、數(shù)學(xué)統(tǒng)計方法生物活動常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)1432、動態(tài)規(guī)劃方法動態(tài)規(guī)劃(DynamicProgramming)是一種解決多階段決策過程的最優(yōu)化方法或復(fù)雜空間的優(yōu)化搜索方法動態(tài)規(guī)劃解決問題的基本過程是:將一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 茶園互換合同
- 財務(wù)合同管理崗位風(fēng)險
- 貝雷片租賃合同范本
- 保險合同十句話
- 山西省2024八年級物理上冊第六章質(zhì)量與密度專題訓(xùn)練12.理解質(zhì)量和密度課件新版新人教版
- 深圳市中薈高級中學(xué)2024-2025學(xué)年高三上學(xué)期期中考試數(shù)學(xué)試卷
- 《船用鋼質(zhì)斜梯》
- 貴州省貴陽市觀觀山湖區(qū)美的中學(xué)2024-2025學(xué)年九年級上學(xué)期11月期中考試化學(xué)試題
- 無鹵低煙阻燃電纜料相關(guān)項目投資計劃書
- 石英玻璃管(棒)相關(guān)行業(yè)投資規(guī)劃報告
- 04S519小型排水構(gòu)筑物1
- 腎病綜合征業(yè)務(wù)學(xué)習(xí)
- 關(guān)于交通運輸局自查報告范文
- 人工智能(基礎(chǔ)版)高職人工智能基礎(chǔ)課程PPT完整全套教學(xué)課件
- 《嬰幼兒行為觀察、記錄與評價》習(xí)題庫(項目五)0 ~ 3 歲嬰幼兒社會性發(fā)展觀察、記錄與評價
- 國家開放大學(xué)一網(wǎng)一平臺電大《可編程控制器應(yīng)用實訓(xùn)》形考任務(wù)1及3試題答案
- 勞動教育知到章節(jié)答案智慧樹2023年麗水學(xué)院
- 中小學(xué)課外輔導(dǎo)機構(gòu)創(chuàng)業(yè)計劃書
- 群落的結(jié)構(gòu)++第1課時++群落的物種組成課件 高二上學(xué)期生物人教版(2019)選擇性必修2
- DBJ15302023年廣東省鋁合金門窗工程設(shè)計、施工及驗收規(guī)范
- 涉及人血液、尿液標(biāo)本采集知情同意書模板
評論
0/150
提交評論