第一章-生物信息學(xué)緒論_第1頁
第一章-生物信息學(xué)緒論_第2頁
第一章-生物信息學(xué)緒論_第3頁
第一章-生物信息學(xué)緒論_第4頁
第一章-生物信息學(xué)緒論_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章生物信息學(xué)緒論金萍南京師范大學(xué)比較基因組學(xué)與生物信息學(xué)實(shí)驗(yàn)室1內(nèi)容一、生物信息學(xué)定義二、生物信息學(xué)的開展歷史三、生物信息學(xué)的主要研究?jī)?nèi)容四、生物信息學(xué)的研究意義五、生物信息學(xué)所用的方法和技術(shù)六、生物信息學(xué)學(xué)習(xí)方法七、研究生物信息學(xué)的一般步驟八、生物信息學(xué)的展望2一、生物信息學(xué)定義3生物信息學(xué)〔Bioinformatics〕名詞的由來八十年代末期,林華安博士認(rèn)識(shí)到將計(jì)算機(jī)科學(xué)與生物學(xué)結(jié)合起來的重要意義,開始留意要為這一領(lǐng)域構(gòu)思一個(gè)適宜的名稱。起初,考慮到與將要支持他主辦一系列生物信息學(xué)會(huì)議的佛羅里達(dá)州立大學(xué)超型計(jì)算機(jī)計(jì)算研究所的關(guān)系,他使用的是“CompBio〞;之后,又將其更改為兼具法國(guó)風(fēng)情的“bioinformatique〞,看起來似乎有些古怪。因此不久,他便進(jìn)一步把它更改為“bio-informatics〔bio/informatics〕〞。但由于當(dāng)時(shí)的電子郵件系統(tǒng)與今日不同,該名稱中的-或/符號(hào)經(jīng)常會(huì)引起許多系統(tǒng)問題,于是林博士將其去除,今天我們所看到的“bioinformatics〞就正式誕生了,林博士也因此贏得了“生物信息學(xué)之父〞的美譽(yù)。4生物信息學(xué)之父——林華安Dr.HwaA.Lim〔林華安〕1987年提出“Bio-informatique〞→“Bioinformatics〞1955年出生于馬來西亞。聯(lián)合國(guó)Bioinformatics專家,UniversityofTexasatDallas分子與細(xì)胞生物學(xué)AdjunctProfessor、中國(guó)科學(xué)院基因遺傳研究所客座教授。1981年英國(guó)倫敦大學(xué)帝國(guó)學(xué)院(ImperialCollege,LondonUniversity)畢業(yè),1986年獲得美國(guó)RochesterUniversity生化物理學(xué)博士學(xué)位,30歲取得佛羅里達(dá)州立大學(xué)終生教授。1992年受聘擔(dān)任美國(guó)國(guó)家癌癥中心及美國(guó)國(guó)家科學(xué)基金會(huì)審核委員。1995年后,歷任多家生物科技公司生化信息執(zhí)行長(zhǎng)、副總裁等高層管理職位。1997年,創(chuàng)立結(jié)合軟件與數(shù)據(jù)分析的專業(yè)參謀公司D’Trends,效勞生物技術(shù)、制藥及衛(wèi)生保健等機(jī)構(gòu)。5什么是生物信息學(xué)

?6背景人類基因組方案(HumanGenomeProject,HGP):1990年正式啟動(dòng),旨在完成人類基因組約30億個(gè)堿基的全序列測(cè)定。海量生物數(shù)據(jù)的迅速膨脹:DNA、RNA和蛋白質(zhì)序列,蛋白質(zhì)二級(jí)結(jié)構(gòu)和三維結(jié)構(gòu)數(shù)據(jù),蛋白質(zhì)相互作用數(shù)據(jù)等。對(duì)大量生物數(shù)據(jù)的管理、分析和信息化需求促進(jìn)了生物信息學(xué)的迅速開展。7生命信息的組織、傳遞、表達(dá)物理化學(xué)分子生物學(xué)遺傳學(xué)信息技術(shù)各學(xué)科參與、協(xié)作:生命科學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)、材料科學(xué)以及倫理、法律等社會(huì)科學(xué)……生物信息學(xué)誕生8生物信息學(xué)定義的歷史演變定義一:生物信息學(xué)是一門收集、分析遺傳數(shù)據(jù)以及分發(fā)給研究機(jī)構(gòu)的新學(xué)科〔Bioinformaticsisanewsubjectofgeneticdatacollection,analysisanddisseminationtotheresearchcommunity〕。(Dr.HwaA.Lim,1987)定義二:生物信息學(xué)特指數(shù)據(jù)庫類的工作,包括持久穩(wěn)固的在一個(gè)穩(wěn)定的地方提供對(duì)數(shù)據(jù)的支持〔Bioinformaticsreferstodatabase-likeactivities,involvingpersistentsetsofdatathataremaintainedinaconsistentstateoveressentiallyindefiniteperiodsoftime〕。(Dr.HwaA.Lim,1994)定義三:生物信息學(xué)是在大分子方面的概念型的生物學(xué),并且使用了信息學(xué)的技術(shù),這包括了從應(yīng)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及統(tǒng)計(jì)學(xué)等學(xué)科衍生而來各種方法,并以此在大尺度上來理解和組織與生物大分子相關(guān)的信息。(Luscombe,2001)9生物信息學(xué)說文解字:生物+信息+學(xué)(bioinformatics)biology+information+theory廣義:

應(yīng)用信息科學(xué)的方法和技術(shù),研究生物體系和生物過程中信息的存貯、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細(xì)胞、組織、器官的生理、病理、藥理過程中的各種生物信息,或者也可以說成是生命科學(xué)中的信息科學(xué)。狹義:

應(yīng)用信息科學(xué)的理論、方法和技術(shù),管理、分析和利用生物分子數(shù)據(jù)。

10“生物信息學(xué)和計(jì)算生物學(xué)〞方案NIH于2003年形成了一個(gè)通向生命科學(xué)未來的“中長(zhǎng)期開展規(guī)劃〞--國(guó)立衛(wèi)生研究院路線圖〔NIH

Roadmap〕。NIH路線圖中啟動(dòng)了一個(gè)“生物信息學(xué)和計(jì)算生物學(xué)〞方案,希望通過這個(gè)工程的實(shí)施而鋪設(shè)一條通向生命科學(xué)未來的“信息高速公路〞。該工程方案從2004年開始,建立數(shù)個(gè)“國(guó)立生物醫(yī)學(xué)計(jì)算中心〞,以便開發(fā)相關(guān)軟件和數(shù)據(jù)管理工具。11計(jì)算生物學(xué)計(jì)算生物學(xué)〔ComputationalBiology〕是生物學(xué)的一個(gè)分支。根據(jù)美國(guó)國(guó)家衛(wèi)生研究所〔NIH〕的定義,它是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等,用于生物學(xué)、行為學(xué)和社會(huì)群體系統(tǒng)的研究的一門學(xué)科。12生物信息學(xué)與計(jì)算生物學(xué)區(qū)別與聯(lián)系有些人將計(jì)算生物學(xué)作為生物信息學(xué)的同義詞處理;但是另外一些人認(rèn)為計(jì)算生物學(xué)和生物信息學(xué)應(yīng)當(dāng)被作為不同的條目處理。生物信息學(xué)主要側(cè)重于對(duì)生物學(xué)中所得信息的采集、存貯、分析處理與可視化方面,而計(jì)算生物學(xué)主要側(cè)重于使用計(jì)算技術(shù)對(duì)生物學(xué)問題進(jìn)行研究方面。13生物信息學(xué)根本思想的產(chǎn)生生物信息學(xué)的迅速開展二十世紀(jì)50年代二十世紀(jì)80-90年代生物科學(xué)和技術(shù)的開展人類基因組方案的推動(dòng)二、生物信息學(xué)的開展歷史14〔一〕前基因組時(shí)代的生物信息學(xué)屬于生物物理學(xué)范疇的傳統(tǒng)生物信息學(xué)可以追溯到很久以前,如研究生物發(fā)光、生物電、生物磁和激素等信息物質(zhì)的傳遞現(xiàn)象及其相應(yīng)測(cè)定技術(shù)。以研究序列比對(duì)為標(biāo)志的現(xiàn)代生物信息學(xué)那么起源于20世紀(jì)70~80年代。這一階段的主要成就包括核酸和蛋白質(zhì)序列的初步分析、生物學(xué)數(shù)據(jù)庫的建立以及檢索工具的開發(fā)。例如Dayhoff的替換矩陣、Neelleman和Wunsch的序列比對(duì)〔sequencealignment〕及GenBank〔由美國(guó)國(guó)立生物技術(shù)信息中心建立和維護(hù)的核酸與蛋白質(zhì)序列數(shù)據(jù)庫〕等大型數(shù)據(jù)庫的建立,形成了生物信息學(xué)的雛形。1520世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來20世紀(jì)70年代,生物信息學(xué)的真正開端(序列比對(duì)算法)20世紀(jì)80年代初期,生物信息分析方法的開展20世紀(jì)80年代以后,生物信息效勞機(jī)構(gòu)和數(shù)據(jù)庫20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速開展生物信息學(xué)的孕育和初步形成161956:美國(guó)田納西州首次召開了“生物學(xué)中的理論研討會(huì)〞;1962:Zucherkandl和Pauling研究了序列變化與進(jìn)化的關(guān)系,開創(chuàng)了一個(gè)新的領(lǐng)域——分子進(jìn)化;1967:Dayhoff研制出蛋白質(zhì)序列圖集,即后來著名的蛋白質(zhì)信息源PIR;1970:Needleman和Wunsch提出了著名的序列比對(duì)算法,是生物信息學(xué)開展中最重要的奉獻(xiàn);1970:Gibbs和McIntyre發(fā)表著名的矩陣打點(diǎn)做圖法;1978:Gingeras等人研制了核酸序列中酶切位點(diǎn)識(shí)別程序;1981:Smith和Waterman提出了著名的公共子序列識(shí)別算法,同年Doolittle提出了關(guān)于序列模式的概念;171982:GenBank第3版本正式發(fā)行;1983:Wilbur和Lipman發(fā)表了數(shù)據(jù)庫相似序列搜索算法;1986:日本核酸序列數(shù)據(jù)庫DDBJ誕生;1986:蛋白質(zhì)數(shù)據(jù)庫SWISS-PROT誕生;1988:美國(guó)國(guó)家生物技術(shù)信息中心NCBI誕生;1988:成立歐洲分子生物學(xué)網(wǎng)絡(luò)(EMBNet),EMBL數(shù)據(jù)庫誕生;1988:Person和Lipman發(fā)表了著名的序列比較算法FASTA;1990:快速相似性序列搜索算法BLAST問世,1987年BLAST的改進(jìn)版本PSI-BLAST投入使用18〔二〕基因組時(shí)代的生物信息學(xué)以基因組方案的實(shí)施為標(biāo)志的基因組時(shí)代〔1990年至2001年〕是生物信息學(xué)成為一個(gè)較完整的新興學(xué)科并得到高速開展的時(shí)期。這一時(shí)期生物信息學(xué)確立了自身的研究領(lǐng)域和學(xué)科特征,成為生命科學(xué)的熱點(diǎn)學(xué)科和重要前沿領(lǐng)域之一。這一階段的主要成就包括大分子序列以及表達(dá)序列標(biāo)簽〔expressedsequencetag,EST〕數(shù)據(jù)庫的高速開展、BLAST〔basiclocalalignmentsearchtool〕和FASTA〔fastalignment〕等工具軟件的研制和相應(yīng)新算法的提出、基因的尋找與識(shí)別、電子克隆〔insilicocloning〕技術(shù)等,大大提高了管理和利用海量數(shù)據(jù)的能力。19人類基因組方案(HGP,HumanGenomeProject)目標(biāo):整體上破解人類遺傳信息的奧秘由美國(guó)NIH和能源部提出和帶頭,美、英、德、法、日、中共同參與的國(guó)際合作工程。重大國(guó)際研究工程:測(cè)定人類基因組全部DNA序列,構(gòu)建人類基因組遺傳圖譜和物理圖譜。1990年:正式啟動(dòng),30億美元。2001年:人類基因組草圖公開發(fā)表。2003年:美國(guó)宣布該工程完成。20HGP的歷史回憶1984.12猶他州阿爾塔組織會(huì)議,初步研討測(cè)定人類整個(gè)基因組DNA序列的意義1985Dulbecco在《Science》撰文“腫瘤研究的轉(zhuǎn)折點(diǎn):人類基因組的測(cè)序〞美國(guó)能源部(DOE)提出“人類基因組方案〞草案1987美國(guó)能源部和國(guó)家衛(wèi)生研究院〔NIH〕聯(lián)合為“人類基因組方案〞下?lián)軉?dòng)經(jīng)費(fèi)約550萬美元1989美國(guó)成立“國(guó)家人類基因組研究中心〞,Watson擔(dān)任第一任主任1990.10經(jīng)美國(guó)國(guó)會(huì)批準(zhǔn),人類基因組方案正式啟動(dòng)21第一個(gè)自由生物體流感嗜血菌(H.inf)的全基因組測(cè)序完成1996完成人類基因組方案的遺傳作圖啟動(dòng)模式生物基因組方案H.inf全基因組Saccharomycescerevisiae釀酒酵母Caenorhabditiselegans秀麗線蟲221997大腸桿菌(E.coli)全基因組測(cè)序完成1998完成人類基因組方案的物理作圖開始人類基因組的大規(guī)模測(cè)序Celera公司參加,與公共領(lǐng)域競(jìng)爭(zhēng)啟動(dòng)水稻基因組方案1999.7第5屆國(guó)際公共領(lǐng)域人類基因組測(cè)序會(huì)議,加快測(cè)序速度大腸桿菌及其全基因組水稻基因組方案231999.7第5屆國(guó)際公共領(lǐng)域人類基因組測(cè)序會(huì)議,加快測(cè)序速度2000Celera公司宣布完成果蠅基因組測(cè)序國(guó)際公共領(lǐng)域宣布完成第一個(gè)植物基因組——擬南芥全基因組的測(cè)序工作Drosophilamelanogaster果蠅Arabidopsisthaliana擬南芥242001年2月15日《Nature》封面2001年2月16日《Science》封面2000.6.26公共領(lǐng)域和Celera公司同時(shí)宣布完成人類基因組工作草圖2001.2.15《Nature》刊文發(fā)表國(guó)際公共領(lǐng)域結(jié)果2001.2.16《Science》刊文發(fā)表Celera公司及其合作者結(jié)果2526我國(guó)對(duì)人類基因組方案的奉獻(xiàn)27人類基因組方案準(zhǔn)備用15年時(shí)間投入30億美元,完成人全部24(22+X+Y)條染色體中3.2×109個(gè)堿基對(duì)的序列測(cè)定,主要任務(wù)包括做圖〔遺傳圖譜\物理圖譜以及轉(zhuǎn)錄圖譜的繪制〕、測(cè)序和基因識(shí)別,其根本任務(wù)是解讀和破譯生物體的生老病死以及與疾病相關(guān)的遺傳信息。28人類基因組人類基因組的組成線粒體基因組(16.6kb)細(xì)胞核基因組(3200Mb)基因外序列基因和基因有關(guān)序列約10%約90%專一或中等重復(fù)序列Non-codingDNA假基因內(nèi)含子基因片段<10%>90%專一的或低拷貝數(shù)序列中度至高度重復(fù)序列20~30%70~80%分散重復(fù)序列串聯(lián)重復(fù)序列/成簇重復(fù)序列約60%約40%蛋白編碼基因rRNA基因tRNA基因CodingDNA估計(jì)10萬→最初公布3.5萬→目前研究確定2.45萬29籠統(tǒng)的說,人類基因組方案為我們研究生物信息的組織、結(jié)構(gòu)、遺傳、表達(dá)帶來了極大的方便,使人類對(duì)自身有一個(gè)根本的了解。人類是最高級(jí)、最復(fù)雜、最重要的生物,如果搞清楚人類基因組,那么再研究其它的生物就容易得多。研究多種模式生物基因組將有助于研究地球生物的進(jìn)化史。人類基因組方案的實(shí)施意義引言30HGP帶來的科學(xué)挑戰(zhàn)隨著實(shí)驗(yàn)數(shù)據(jù)和可利用信息急劇增加,信息的管理和分析成為HGP的一項(xiàng)重要的工作發(fā)現(xiàn)生物學(xué)規(guī)律解讀生物遺傳密碼認(rèn)識(shí)生命的本質(zhì)研究基因組數(shù)據(jù)之間的關(guān)系分析現(xiàn)有的基因組數(shù)據(jù)利用數(shù)學(xué)模型和計(jì)算技術(shù)31基因組方案帶來的科學(xué)挑戰(zhàn)隨著實(shí)驗(yàn)數(shù)據(jù)和可利用信息急劇增加,信息的管理和分析成為基因組方案的一項(xiàng)重要的工作。1、信息的整合2、信息的儲(chǔ)存3、信息的比較4、信息的分析5、信息的分解基因組學(xué)功能基因組學(xué)3233生物信息學(xué)的研究結(jié)構(gòu)基因組學(xué)時(shí)期34基因組數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫DDBJEMBLGenBankSWISS-PROT

PDBPIR1生物分子數(shù)據(jù)的收集與管理352數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個(gè)根本操作就是比對(duì)〔Alignment〕,即將兩個(gè)序列的各個(gè)字符〔代表核苷酸或者氨基酸殘基〕按照對(duì)應(yīng)等同或者置換關(guān)系進(jìn)行比照排列,其結(jié)果是兩個(gè)序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對(duì)研究的是多個(gè)序列的共性。序列的多重比對(duì)可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。363運(yùn)用計(jì)算機(jī)軟件進(jìn)行序列拼接374基因識(shí)別與定位385基因相關(guān)的SNP研究SingleNucleotidePolymorphisms(SNP),是指在基因組上單個(gè)核苷酸的變異,一般而言,SNP是指變異頻率大于1%的單核苷酸變異3940基因變異與疾病40與以前的該RILs的重組圖譜比較分析,在150個(gè)RILs中鑒定出2334個(gè)重組框,平均每個(gè)框的大小約164kb利用slidingwindow方法分析SNP位點(diǎn)與表型間的關(guān)系與重組位點(diǎn)利用全基因組重測(cè)序分析表型差異Slidingwindow方法416非編碼區(qū)信息結(jié)構(gòu)分析在微生物中,非編碼區(qū)只占整個(gè)基因組序列的10%~20%;但在高等生物和人類基因組中,非編碼序列那么占了基因組序列的絕大局部。在人的基因組中,非編碼序列超過95%42非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚不是很清楚,但從演化觀點(diǎn)來看,其中必然蘊(yùn)含著重要的生物學(xué)功能,由于它們并不編碼蛋白,一般認(rèn)為,它們的生物學(xué)功能可能表達(dá)在對(duì)基因表達(dá)的時(shí)空調(diào)控上。對(duì)非蛋白編碼區(qū)進(jìn)行生物學(xué)意義分析的策略有兩種,一種是基于已有的已經(jīng)為實(shí)驗(yàn)證實(shí)的所有功能的DNA元件的序列特征,預(yù)測(cè)非蛋白編碼區(qū)中可能含有的功能的DNA元件,從而預(yù)測(cè)其可能的生物學(xué)功能,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證;另一種那么是通過數(shù)理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預(yù)測(cè)其可能的信息含義,最后同樣通過實(shí)驗(yàn)驗(yàn)證。436比較基因組學(xué)比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測(cè)序根底上,對(duì)的基因和基因組結(jié)構(gòu)進(jìn)行比較,來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。44比較基因組分析各類功能基因中氨基酸在物種間差異比例差異同源蛋白GO分類進(jìn)化關(guān)系分析457基因組演化與物種演化(生命之樹)46生物進(jìn)化譜系樹大鼠、小鼠、狗、大熊貓、?!译u、火雞……斑馬魚……擬南芥、水稻、楊樹、釀酒葡萄、短柄草、黃瓜、高粱、玉米……1535個(gè)細(xì)菌基因組、49個(gè)真菌基因組和78個(gè)古細(xì)菌……

利什曼原蟲、椎體蟲……四類藍(lán)藻……隱藻……蜜蜂……47盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現(xiàn)象,就想說明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結(jié)構(gòu)基因和蛋白質(zhì)是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯(lián)想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但根底的部件組成卻是幾乎一樣的,差異就在于這些根底部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個(gè)別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲(chǔ)藏庫,從根本上決定著物種個(gè)體的發(fā)育和生理,因此,從基因組整體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表征現(xiàn)象,進(jìn)行基因組整體的演化研究,將是揭示物種真實(shí)演化歷史的最正確途徑。488基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點(diǎn)和重點(diǎn)目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能所用方法主要有:相關(guān)分析方法、模式識(shí)別技術(shù)中的層次式聚類方法、人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)、主元分析方法等表達(dá)數(shù)據(jù)缺點(diǎn):僅反映mRNA豐度,噪聲,…49蛋白質(zhì)三維結(jié)構(gòu)測(cè)定主要方法:X射線晶體結(jié)構(gòu)分析、多維核磁共振〔NMR〕波譜分析和電子顯微鏡二維晶體三維重構(gòu)〔電子晶體學(xué),EC〕等物理方法9蛋白質(zhì)結(jié)構(gòu)及功能預(yù)測(cè)50基因組和蛋白質(zhì)組研究的迅猛開展,使許多新蛋白序列涌現(xiàn)出來,然而要想了解它們的功能,只有氨基酸序列是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)榈鞍踪|(zhì)的功能是通過其三維高級(jí)結(jié)構(gòu)來執(zhí)行的,而且蛋白質(zhì)三維結(jié)構(gòu)也不一定是靜態(tài)的,在行使功能的過程中其結(jié)構(gòu)也會(huì)相應(yīng)的有所改變。因此,得到這些新蛋白的完整、精確和動(dòng)態(tài)的三維結(jié)構(gòu)就成為擺在我們面前的緊迫任務(wù)。目前除了通過諸如X射線晶體結(jié)構(gòu)分析、多維核磁共振〔NMR〕波譜分析和電子顯微鏡二維晶體三維重構(gòu)〔電子晶體學(xué),EC〕等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)蛋白質(zhì)結(jié)構(gòu)51另外一種廣泛使用的方法就是通過計(jì)算機(jī)輔助預(yù)測(cè)的方法,目前,一般認(rèn)為蛋白質(zhì)的折疊類型只有數(shù)百到數(shù)千種,遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)所具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能直接從蛋白質(zhì)的氨基酸序列通過計(jì)算機(jī)輔助方法預(yù)測(cè)出蛋白質(zhì)的三維結(jié)構(gòu)52基因組對(duì)生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到RNA的轉(zhuǎn)錄水平上的表達(dá)情況,由于從RNA到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者——蛋白質(zhì)的整體表達(dá)狀況;近幾年在開展基因芯片的同時(shí),人們也開展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況——蛋白質(zhì)組研究技術(shù),從技術(shù)上來講包括二維凝膠電泳技術(shù)和質(zhì)譜測(cè)序技術(shù)。通過二維凝膠電泳技術(shù)可以獲得某一時(shí)間截面上蛋白質(zhì)組的表達(dá)情況,通過質(zhì)譜測(cè)序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。這些都是技術(shù)實(shí)現(xiàn)問題,最重要的就是如何運(yùn)用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中復(fù)原出生命運(yùn)轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機(jī)制。10蛋白質(zhì)組研究

53蛋白質(zhì)組研究541〕、診斷類藥物:生物芯片設(shè)計(jì)遺傳病:基因診斷感染性疾?。嚎贵w、基因芯片、PCR技術(shù)11藥物設(shè)計(jì):55病人/健康人基因芯片診斷及早治療,對(duì)癥下藥562〕、預(yù)防類藥物:計(jì)算機(jī)輔助疫苗設(shè)計(jì)計(jì)算機(jī)預(yù)測(cè)抗原表位57

所謂基因組藥物(Genomicdrug)是指利用基因序列數(shù)據(jù),經(jīng)生物信息學(xué)分析、高通量基因表達(dá)、高通量功能篩選和體內(nèi)外藥效研究開發(fā)得到的新藥候選物.實(shí)際上利用了反向生物學(xué)的原理.沿著從基因序列一蛋白質(zhì)一功能一藥物的途徑研制新藥,其優(yōu)勢(shì)是取自龐大的人類基因資源及其編碼蛋白質(zhì)做為原材料,具有巨大的開發(fā)潛力。3〕、開發(fā)基因組藥物58美國(guó)的人類基因組科學(xué)公司(HGS公司)。根據(jù)其1999年2月公布的消息,在功能基因組研究領(lǐng)域,HGS公司己發(fā)現(xiàn)95%的人類cDNA;克隆了9000個(gè)人類分泌蛋白質(zhì)的全長(zhǎng)cDNA;發(fā)現(xiàn)了3000個(gè)基因的可能醫(yī)學(xué)應(yīng)用;發(fā)現(xiàn)了35個(gè)新的白細(xì)胞介素類分子和40個(gè)新的生長(zhǎng)因子類分子;已有3個(gè)基因組藥物進(jìn)入臨床。594〕、尋找藥物作用新靶點(diǎn)基因組比較:抗微生物同源性搜索表達(dá)差異分析60理想的抗生素靶標(biāo)應(yīng)為微生物細(xì)胞存活所必須,在病原體中高度保守,且在人體中不存在或與人類基因有根本差異?;蚪M研究促進(jìn)了新靶標(biāo)的發(fā)現(xiàn):61生物信息學(xué)和人類基因組方案為藥物靶標(biāo)的發(fā)現(xiàn)和新藥的研制開創(chuàng)了新天地,未來的藥物設(shè)計(jì)將是基于生物信息學(xué)的知識(shí)挖掘的過程.通過數(shù)據(jù)分析首先確立靶標(biāo)分子預(yù)測(cè)蛋白質(zhì)分子結(jié)構(gòu)設(shè)計(jì)藥物分子與靶標(biāo)分子相互作用62計(jì)算機(jī)輔助分子建模,分子三維結(jié)構(gòu)可視化。1982年,Dock程序已成功的有HIV蛋白酶抑制劑、二氫葉酸復(fù)原酶抑制劑等5〕、計(jì)算機(jī)輔助藥物設(shè)計(jì)63開發(fā)階段:藥物基因組學(xué)減少藥物副作用防止開發(fā)風(fēng)險(xiǎn)646566〔三〕后基因組時(shí)代的生物信息學(xué)隨著人類基因組方案的順利進(jìn)行,人類全基因組測(cè)序工作已經(jīng)完成。測(cè)序工作的完成并不代表基因組方案的結(jié)束,相反標(biāo)志著“后基因組信息學(xué)〞的開始?;蚪M學(xué)研究也由結(jié)構(gòu)基因組轉(zhuǎn)向了功能基因組的研究,通過對(duì)基因組的分析來了解生物體的功能成為后基因組時(shí)代的主要目標(biāo)。后基因組時(shí)代,生物綜合論將成為生物學(xué)的主流研究方法。人們?cè)诰W(wǎng)絡(luò)觀點(diǎn)下、在分子相互作用網(wǎng)絡(luò)水平理解生物學(xué)的根本原理。后基因組生物信息學(xué)有時(shí)也稱為功能基因組系統(tǒng)學(xué)。功能基因組系統(tǒng)學(xué)的出現(xiàn),是生物信息學(xué)領(lǐng)域的一個(gè)重大變化,它由主要以整理、儲(chǔ)存、分析生物學(xué)數(shù)據(jù)或知識(shí)轉(zhuǎn)變?yōu)榫C合多種生物分子及其相互作用的知識(shí)來了解生物系統(tǒng)的功能。67后基因組研究對(duì)象的多層次性后基因組研究對(duì)象是多層次的,人們從包括基因組〔Genome〕、轉(zhuǎn)錄組〔Transcriptome〕、蛋白質(zhì)組〔Proteome〕、相互作用組〔Interactome)、定位組〔Localizome〕、折疊子組〔foldome〕、代謝組〔Metabolome〕、表型組〔Phenome〕等方面,從組的角度研究各類生物學(xué)過程。如果說基因組問題涉及遺傳圖譜〔Geneticmap〕、限制性圖譜〔Restrictionmap〕和物理圖譜〔Physicalmap〕,那么其它的組學(xué)涉及功能圖譜〔Functionalmaps〕。68但現(xiàn)在更加合理的看法是基因組只是細(xì)胞中分子之間相互作用的整個(gè)網(wǎng)絡(luò)的一局部。基因組只是細(xì)胞指令的大倉庫,相互作用網(wǎng)絡(luò)本身才是那個(gè)所謂的指令系統(tǒng),這個(gè)系統(tǒng)遵循固有程序引導(dǎo)發(fā)育過程,并產(chǎn)生生殖細(xì)胞。后基因組生物信息學(xué)是以對(duì)一系列生物學(xué)知識(shí)的綜合為特征的,是在網(wǎng)絡(luò)觀點(diǎn)下、在分子網(wǎng)絡(luò)層次上研究和理解生命的根本規(guī)律。69功能基因組學(xué)開展趨勢(shì)功能基因組學(xué)開展的一個(gè)最新和重要領(lǐng)域是系統(tǒng)生物學(xué)〔SystemsBiology〕,系統(tǒng)生物學(xué)研究問題有如下三個(gè)特點(diǎn):1、更好整合生物過程不同階段的分散數(shù)據(jù)如整合基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組的數(shù)據(jù),得到對(duì)生物學(xué)過程的總體認(rèn)識(shí)。另外一個(gè)方面是為了滿足整合數(shù)據(jù)庫的復(fù)雜查詢。2、對(duì)復(fù)雜生物過程的更好模擬包括蛋白質(zhì)折疊和復(fù)雜系統(tǒng)建?!踩缧盘?hào)/代謝通路和發(fā)病機(jī)理〕3、生物過程動(dòng)態(tài)研究從一個(gè)通路的成分到一個(gè)通路的動(dòng)力學(xué)70功能基因組系統(tǒng)學(xué)正如前面所述,在相互作用網(wǎng)絡(luò)背景下闡釋“功能〞是功能基因組系統(tǒng)學(xué)的一個(gè)主要特點(diǎn)。另外一個(gè)特點(diǎn)是復(fù)雜系統(tǒng)的思想,把生物體看作一個(gè)復(fù)雜系統(tǒng)進(jìn)行研究。主要有三個(gè)特征:1多層次數(shù)據(jù)整合整合包括基因組、蛋白質(zhì)組、轉(zhuǎn)錄、表達(dá)和調(diào)控路徑等方面數(shù)據(jù)2系統(tǒng)的復(fù)雜性特點(diǎn)具有復(fù)雜系統(tǒng)的自組織、自調(diào)控和突變等特點(diǎn)3信息學(xué)分析采用信息學(xué)方法對(duì)多種數(shù)據(jù)進(jìn)行分析是功能基因組系統(tǒng)學(xué)的又一特點(diǎn)71傳統(tǒng)生物學(xué)關(guān)注的是一個(gè)一個(gè)的通路,而后基因組生物信息學(xué)那么希望研究各個(gè)通路之間的相互作用,構(gòu)成一個(gè)復(fù)雜的相互作用網(wǎng)絡(luò),從而從更高的層面上理解生命過程。通俗地說:傳統(tǒng)生物學(xué)看到的是樹木,后基因組生物信息學(xué)那么看到的是森林。72圖中顯示了基于信息學(xué)方法、整合多層次數(shù)據(jù)在網(wǎng)絡(luò)層面研究細(xì)胞內(nèi)復(fù)雜生物過程的根本思想?;谥R(shí)的網(wǎng)絡(luò)預(yù)測(cè)73一切從基因組開始…

—“基因組到生命〞〔Genomes

to

Life,GTL〕方案7475高通量測(cè)序在組學(xué)中的應(yīng)用從頭測(cè)序基因組重測(cè)序轉(zhuǎn)錄組測(cè)序SmallRNA測(cè)序Listeretal.CurrentOpinioninPlantBiology(2023)12:10776777879分子生物網(wǎng)絡(luò)的分類分子生物網(wǎng)絡(luò)的分類標(biāo)準(zhǔn)基于分子生物學(xué)的分類標(biāo)準(zhǔn)。分子生物網(wǎng)絡(luò)分類基因調(diào)控網(wǎng)絡(luò)信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)表觀遺傳調(diào)控網(wǎng)絡(luò)疾病基因網(wǎng)絡(luò)代謝網(wǎng)絡(luò)蛋白質(zhì)互作網(wǎng)絡(luò)801.信號(hào)傳導(dǎo)網(wǎng)絡(luò)cAMP與蛋白激酶對(duì)細(xì)胞活性的影響812.基因調(diào)控網(wǎng)絡(luò)823.蛋白質(zhì)互作網(wǎng)絡(luò)人類蛋白質(zhì)互作網(wǎng)絡(luò)834.代謝網(wǎng)絡(luò)84855.疾病基因網(wǎng)絡(luò)866.表觀遺傳調(diào)控網(wǎng)絡(luò)87888990三、生物信息學(xué)的主要研究?jī)?nèi)容生物信息的存儲(chǔ)與查詢;序列比對(duì);基因預(yù)測(cè)及基因組分析;比較基因組與系統(tǒng)發(fā)育分析;RNA結(jié)構(gòu)預(yù)測(cè);蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);分子設(shè)計(jì)與藥物設(shè)計(jì);生物網(wǎng)絡(luò);生物芯片。91生物信息學(xué)系統(tǒng)化概圖92四、生物信息學(xué)的研究意義生物信息學(xué)將是21世紀(jì)生物學(xué)的核心

認(rèn)識(shí)生物本質(zhì)了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,說明生物信息之間的關(guān)系改變生物學(xué)的研究方式改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計(jì)新藥提供依據(jù)93五、生物信息學(xué)所用的方法和技術(shù)

1、數(shù)學(xué)統(tǒng)計(jì)方法(高維、樣本量的問題)2、動(dòng)態(tài)規(guī)劃方法3、機(jī)器學(xué)習(xí)與模式識(shí)別技術(shù)〔從數(shù)據(jù)中學(xué)習(xí)〕4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)6、專家系統(tǒng)7、分子模型化技術(shù)8、量子力學(xué)和分子力學(xué)計(jì)算9、生物分子的計(jì)算機(jī)模擬10、因特網(wǎng)〔Internet〕技術(shù)(Grid計(jì)算)。。。94生物信息學(xué)的相關(guān)雜志95六、生物信息學(xué)學(xué)習(xí)方法〔一〕采用多學(xué)科交叉的方法來學(xué)習(xí)例如,一個(gè)生物信息學(xué)問題的解決,可能需要在實(shí)驗(yàn)生物學(xué)充分的實(shí)驗(yàn)證據(jù)根底之上進(jìn)行計(jì)算生物學(xué)的算法與理論推導(dǎo),加上高效的編程和簡(jiǎn)明的界面設(shè)計(jì)才能最終完成。生物學(xué),計(jì)算機(jī)科學(xué)和數(shù)學(xué)等多個(gè)相關(guān)學(xué)科。96〔二〕以網(wǎng)絡(luò)作為平臺(tái)和工具進(jìn)行學(xué)習(xí)例如,大量的序列數(shù)據(jù)保存在網(wǎng)絡(luò)的生物信息學(xué)效勞器中,生物信息數(shù)據(jù)的提交、發(fā)布、提取、查詢相關(guān)、比對(duì)和其他計(jì)算等都需要通過網(wǎng)絡(luò)實(shí)現(xiàn),也可以通過網(wǎng)絡(luò)共享數(shù)據(jù)乃至進(jìn)行生物信息學(xué)方面的并行計(jì)算,大量生物信息學(xué)工具軟件、教學(xué)課件、參考資料、論壇和新聞組等資源都是存在于網(wǎng)絡(luò)之中,因此,必須熟練掌握以網(wǎng)絡(luò)作為平臺(tái)和工具的方法學(xué)習(xí)生物信息學(xué)。97〔三〕在理論和實(shí)踐的高度互動(dòng)中學(xué)習(xí)例如蛋白質(zhì)和核酸序列等生物信息學(xué)的研究對(duì)象來自于試驗(yàn)研究,而算法那么屬于理論研究,所以生物信息學(xué)屬于一門理論性和實(shí)踐性高度互動(dòng)的學(xué)科,即具有很強(qiáng)的理論性,又具有很強(qiáng)的實(shí)踐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論