生物信息學(xué)簡介(1)幻燈片_第1頁
生物信息學(xué)簡介(1)幻燈片_第2頁
生物信息學(xué)簡介(1)幻燈片_第3頁
生物信息學(xué)簡介(1)幻燈片_第4頁
生物信息學(xué)簡介(1)幻燈片_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)簡介(1)幻燈片本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!主講教師:高昇Cell:Email:Office:教三樓803-模式識別實(shí)驗(yàn)室助教:莫能斌Cell:Email:Office:教三樓803-模式識別實(shí)驗(yàn)室參考資料孫嘯等編著,?生物信息學(xué)根底?,清華大學(xué)出版社,2005年5月.王勇獻(xiàn)等編著,?生物信息學(xué)導(dǎo)論——面向高性能計(jì)算的算法與應(yīng)用?,清華大學(xué)出版社,2021年6月.陳寶林,最優(yōu)化理論與算法(第二版),清華大學(xué)出版社,2005年10月.課件存放郵箱:bioinfo_bupt@163 passwd:bioinfo考核方式期末成績40%大作業(yè)or考試平時(shí)成績40%小作業(yè)開放工程,鼓勵(lì)自由參與日??记?0%課程定位IntroductiontoLifeScienceandArtificialLife生物信息根底生命科學(xué)中的信息科學(xué)利用信息科學(xué)的方法和技術(shù),研究生物體系和生物過程中信息的存儲(chǔ)、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細(xì)胞、組織、器官的生理、病理、藥理過程中的各種生物信息。Bioinformatics:分析復(fù)雜生物學(xué)數(shù)據(jù)的學(xué)科:應(yīng)用信息科學(xué)的理論、方法和技術(shù),管理、分析和利用生物分子數(shù)據(jù)。分子生物信息學(xué)〔MolecularBioinformatics〕內(nèi)容提要生物信息學(xué)產(chǎn)生的背景什么是生物信息學(xué)生物信息學(xué)的研究意義生物信息學(xué)的開展歷史生物信息學(xué)主要研究內(nèi)容生物信息學(xué)所用的方法和技術(shù)生命信息的組織、傳遞、表達(dá)物理化學(xué)分子生物學(xué)遺傳學(xué)信息技術(shù)引言歷史回憶(1)1866年,神父GregorMendel通過對豌豆的雜交和遺傳學(xué)研究,提出了傳遞遺傳特征的根本單位---遺傳因子(基因)的概念1944年,Avery&McCarty第一次發(fā)現(xiàn)了遺傳信息的載體是染色體上的DNA(而不是先前認(rèn)為的蛋白質(zhì)).歷史回憶(2)1953年,JamesWatson&FrancisCrick發(fā)現(xiàn)了DNA的雙螺旋空間構(gòu)造并推斷出了DNA的復(fù)制方式,由此揭開了分子生物學(xué)研究的序幕。1990年,人類基因組方案啟動(dòng)人類歷史上的三大科技工程曼哈頓原子彈研制計(jì)劃人類基因組計(jì)劃阿波羅登月計(jì)劃羅斯福批準(zhǔn)耗資20億美元原子半徑 10-10m原子體積 10-30m3克林頓、布萊爾批準(zhǔn)耗資30億美元肯尼迪批準(zhǔn)耗資240億美元人體半徑 100m人體體積 100m3太陽系半徑 1012m太陽系體積 1034m3人類基因組方案人類基因組方案(HumanGenomeProject,HGP)1986年R.Dulbeccol在Science上撰文,建議對人類基因組進(jìn)展全測序。1990年美國政府正式啟動(dòng)人類基因組方案耗資30億美元、為期15年的方案,預(yù)期到2005年完成人類基因組大約30億個(gè)堿基的全序列測定美、英、日、法、德、中六國科學(xué)家共同參與HGP的主要任務(wù)是:人類基因組以及一些模式生物體(細(xì)菌、酵母、線蟲、果蠅等)基因組的作圖、測序和基因識別。人類基因組方案的開展歷程前期準(zhǔn)備1984年 DOE(DepartmentofEnergy)委托Alta,WhiteR.,MendelsonhmM科學(xué)家專業(yè)會(huì)議;1985年提出人類基因組方案的動(dòng)議1986年 McKusickV稱從整個(gè)基因組層次上研究遺傳的科學(xué)為基因組學(xué)1986年 DulbeccoR在Science上發(fā)表文章〞腫瘤研究的轉(zhuǎn)折人類基因組的全序列分析〞,提出人類基因組方案1986年 GilbertW&BergP主持人類基因組方案專家會(huì)議1987年 DOE(能源部)和NIH(國家安康研究院)下?lián)苎芯拷?jīng)費(fèi)1988年 NRC(原子能調(diào)整委員會(huì))的專家發(fā)表mappingandsequencingthehumangenome報(bào)告1988年 成立了國家人類基因組研究中心。Watson第一任主任。人類基因組方案的開展歷程正式啟動(dòng)1990年 經(jīng)過5年辯論,美國國會(huì)通過“人類基因組方案〞

1990年10月1日啟動(dòng)

方案15年,30億美元

多國參與(英國1989,法國1990,德國1995,中國1999)1990年 6月,歐共體通過“歐洲人類基因組方案〞。

此外,丹麥,日本,韓國,俄羅斯和澳大利亞也參加行動(dòng)行列1999年 9月1日,楊煥明教授在第五次倫敦國際人類基因組戰(zhàn)略討論會(huì)上介紹情況。會(huì)議正式承受中國參加國際合作,劃定了測序區(qū)域,正式承擔(dān)1%的測序任務(wù)2000年 6月26日各國科學(xué)家公布了人類基因組工作草圖2004年 精度大于99%的完成圖公布人類基因組方案參與HGP的國家美國〔54%〕英國〔33%〕日本〔7%〕法國〔2.8%〕德國〔2.2%〕中國〔1%〕目標(biāo):測定人類基因組DNA序列中的30億個(gè)堿基順序,獲取四張圖譜:遺傳圖譜物理圖譜序列圖譜基因圖譜HGP負(fù)責(zé)人柯林斯(Collins)種類數(shù)目備注古細(xì)菌(Archaea)16真細(xì)菌(Bacteria)120其中有的測定了2個(gè)以上的菌株真核生物(Eukaryo)15包括酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus)885包括不同亞類或不同株系類病毒(Viroid)40包括不同亞類或不同株系噬菌體(Phage)114包括不同亞類或不同株系細(xì)胞器(Organelle)308包括線粒體和葉綠體質(zhì)粒(Plasmid)282103Kilo106Mega109Giga1012Tera1015Peta1018Exa1021Zetta1024Yotta

一個(gè)普通生物實(shí)驗(yàn)室每年產(chǎn)生的數(shù)據(jù)量 100Terra-bytes(1014)

人類迄今為止所說過的話(詞語量) ~5exa-bytes(5

1018)生物信息量至少是所有人類說過的話的200倍!巨量的數(shù)據(jù)GenBankDataYearBasePairsSequences1982680,33860619832,274,0292,42719843,368,7654,17519855,204,4205,70019869,615,3719,978198715,514,77614,584198823,800,00020,579198934,762,58528,791199049,179,28539,533199171,947,42655,6271992101,008,48678,6081993157,152,442143,4921994217,102,462215,2731995384,939,485555,6941996651,972,9841,021,21119971,160,300,6871,765,84719982,008,761,7842,837,89719993,841,163,0114,864,570200011,101,066,28810,106,023200115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,319蛋白質(zhì)序列四種數(shù)據(jù)原始數(shù)據(jù)(Originaldata)科學(xué)文獻(xiàn)(Scientificliterature)數(shù)據(jù)組合(Datasets)綜合性數(shù)據(jù)(Organizeddata)后基因組時(shí)代的呼喚傳統(tǒng)生物學(xué):實(shí)驗(yàn)科學(xué)現(xiàn)代生物學(xué)的開展:數(shù)據(jù)獲取日益實(shí)現(xiàn)自動(dòng)化、半工業(yè)化從數(shù)據(jù)庫中實(shí)現(xiàn)數(shù)據(jù)挖掘、知識發(fā)現(xiàn)海量數(shù)據(jù)難以完全依賴實(shí)驗(yàn)手段對新數(shù)據(jù)進(jìn)展分析,必須借助計(jì)算機(jī)實(shí)現(xiàn)分析和篩選更復(fù)雜層次的生物學(xué)問題復(fù)雜的基因調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò);細(xì)胞間信號轉(zhuǎn)導(dǎo)過程;生物個(gè)體全部基因表達(dá)變化……面對堆積如山的生物學(xué)數(shù)據(jù)……HGP生物數(shù)據(jù)的激增(每15個(gè)月翻一番)生物學(xué)家數(shù)學(xué)家信息科學(xué)家生物信息學(xué)(bioinfomatics)的誕生生物信息學(xué)概念“Wearenotlimitedbythenumberofexperimentsthatwecando,wearelimitedbyourabilitytounderstandtheinformationthatisgeneratedasaresultoftheseexperiments.“Biologyisquicklybecominganinformationscience.生物學(xué)日益成為一門信息科學(xué)Biologyeasilyhas500yearsofexcitingproblemstoworkon.生物學(xué)中有著至少500年也解決不完的有趣問題?!狣onaldE.KnuthLet’sbeginourexplorationofcomputationalandtheoreticalbiology!什么是生物信息學(xué)生物信息學(xué)是現(xiàn)代生命科學(xué)與信息科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)、化學(xué)等學(xué)科相互滲透而形成的穿插學(xué)科,是應(yīng)用計(jì)算機(jī)技術(shù)和信息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、存儲(chǔ)、傳遞、檢索、分析和解讀,以幫助了解生物學(xué)信息的科學(xué)。從研究涉及的學(xué)科來看:多學(xué)科穿插從研究內(nèi)容來看:基因組信息學(xué)、蛋白質(zhì)組信息學(xué)、構(gòu)造模擬與分子設(shè)計(jì)等構(gòu)成其主要組成局部生物體系和生物過程中信息的存儲(chǔ)、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)概念〔廣義〕生物分子數(shù)據(jù)深層次生物學(xué)知識分子生物信息學(xué)MolecularBioinformatics挖掘獲取概念〔狹義〕生物分子信息的獲取、存儲(chǔ)、分析和利用生物分子數(shù)據(jù)信息計(jì)算

+Bioinformatics細(xì)胞分子存儲(chǔ)、復(fù)制、傳遞和表達(dá)遺傳信息的系統(tǒng)生物信息的載體生物分子信息主要研究兩種信息載體DNA分子蛋白質(zhì)分子生物分子至少攜帶三種信息遺傳信息與功能相關(guān)的構(gòu)造信息進(jìn)化信息遺傳信息的載體---DNA遺傳信息的載體主要是DNA控制生物體性狀的基因是---系列DNA片段生物體生長發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達(dá)DNA生物體(人)人體由上億個(gè)細(xì)胞組成每個(gè)細(xì)胞都有著相同的染色體組染色體對每條染色體是一個(gè)DNA分子,基因是DNA的功能區(qū)域DNA雙螺旋結(jié)構(gòu)7.5-10

101223對2.8-3.5萬蛋白質(zhì)的構(gòu)造決定其功能蛋白質(zhì)功能取決于蛋白質(zhì)的空間構(gòu)造蛋白質(zhì)構(gòu)造決定于蛋白質(zhì)的序列〔這是目前根本共認(rèn)的假設(shè)〕,蛋白質(zhì)構(gòu)造的信息隱含在蛋白質(zhì)序列之中。DNA分子和蛋白質(zhì)分子

都含有進(jìn)化信息通過比較相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復(fù)制而產(chǎn)生的分子進(jìn)化證據(jù)。通過比較來自于不同種屬的同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測它們共同的祖先蛋白質(zhì)。生物分子信息DNA序列數(shù)據(jù)蛋白質(zhì)序列數(shù)據(jù)生物分子結(jié)構(gòu)數(shù)據(jù)生物分子功能數(shù)據(jù)最基本直觀復(fù)雜DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動(dòng)的機(jī)器第一部:遺傳密碼第二部:遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系生物分子信息的特征生物分子信息數(shù)據(jù)量大生物分子信息復(fù)雜生物分子信息之間存在著密切的聯(lián)系生物信息學(xué)的目標(biāo)和任務(wù)收集和管理生物分子數(shù)據(jù)數(shù)據(jù)分析和挖掘開發(fā)分析工具和實(shí)用軟件生物分子序列比較工具基因識別工具生物分子構(gòu)造預(yù)測工具基因表達(dá)數(shù)據(jù)分析工具實(shí)驗(yàn)

數(shù)據(jù)

信息知識收集表示分析建??坍嬏卣鞅容^推理應(yīng)用基因工程蛋白質(zhì)設(shè)計(jì)疾病診斷疾病治療開發(fā)新藥生物分子信息處理流程數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列11.5百萬條序列125.0億個(gè)堿基分離編碼與非編碼區(qū)域識別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測基因功能注釋基因調(diào)控信息分析蛋白質(zhì)序列40.0萬條序列(每條序列平均有300氨基酸)序列比較多重序列比對識別保守的序列模式進(jìn)化分析數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)大分子結(jié)構(gòu)1.5萬個(gè)結(jié)構(gòu)(每個(gè)結(jié)構(gòu)平均1000個(gè)原子坐標(biāo))二級結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)比對蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計(jì)算分子間相互作用分析分子模擬基因組300個(gè)基因組標(biāo)注重復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語言分析數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)基因表達(dá)酵母6000個(gè)基因在約20時(shí)間點(diǎn)表達(dá)值表達(dá)模式相關(guān)分析基因基因調(diào)控網(wǎng)絡(luò)分析表達(dá)調(diào)控信息分析分子生物學(xué)的三大核心數(shù)據(jù)庫GenBank核酸序列數(shù)據(jù)庫SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫PDB生物大分子構(gòu)造數(shù)據(jù)庫生物信息學(xué)研究意義認(rèn)識生物本質(zhì)了解生物分子信息的組織和構(gòu)造,破譯基因組信息,說明生物信息之間的關(guān)系。改變生物學(xué)的研究方式改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計(jì)新藥提供依據(jù)生物信息學(xué)基本思想的產(chǎn)生生物信息學(xué)的迅速發(fā)展二十世紀(jì)50年代二十世紀(jì)80-90年代生物科學(xué)和技術(shù)的發(fā)展人類基因組計(jì)劃的推動(dòng)生物信息學(xué)的開展歷史20世紀(jì)50年代,生物信息學(xué)開場孕育20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來20世紀(jì)70年代,生物信息學(xué)的真正開端20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀(jì)80年代以后,出現(xiàn)一批生物信息效勞機(jī)構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速開展生物信息學(xué)主要研究內(nèi)容序列分析/SequenceanalysisSequencealignmentStructureandfunctionpredictionGenefinding構(gòu)造分析/StructureanalysisProteinstructurecomparisonProteinstructurepredictionRNAstructuremodeling表達(dá)分析/ExpressionanalysisGeneclusteringGenexpressionanalysis蛋白質(zhì)組學(xué)/ProteomicsProtein-ProteinInteraction基因組數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫DDBJEMBLGenBankSWISS-PROTPDBPIR生物分子數(shù)據(jù)的收集與管理序列分析從DNA序列與蛋白質(zhì)序列中進(jìn)展信息及模式發(fā)現(xiàn)尋找進(jìn)化聯(lián)系尋找基因組的編碼區(qū)尋找序列中的功能信號區(qū)全基因組序列的拼接與組裝識別非編碼區(qū),探索其功能單核苷酸多態(tài)性SNP(Singlenucleotidepolymorphism)序列比對/alignment序列分析分子進(jìn)化和比較基因組學(xué)構(gòu)造分析蛋白質(zhì)構(gòu)造和功能的預(yù)測分析蛋白質(zhì)家族保守序列尋找從氨基酸組成辨識蛋白質(zhì)蛋白質(zhì)二級構(gòu)造預(yù)測蛋白質(zhì)的三維構(gòu)造蛋白質(zhì)的物理性質(zhì)預(yù)測其他特殊局部信息:其它特殊局部構(gòu)造包括膜蛋白的跨膜螺旋、信號肽、卷曲螺旋(CoiledCoils)等,具有明顯的序列特征和構(gòu)造特征,也可以用計(jì)算方法加以預(yù)測基因表達(dá)數(shù)據(jù)分析基因表達(dá)數(shù)據(jù):近年來biochips,microarray技術(shù)迅速開展起來,使得我們可能得到同一時(shí)間成千上萬個(gè)基因的表達(dá)水平的數(shù)據(jù)。上述基因表達(dá)數(shù)據(jù)為我們提供了深入研究基因功能,基因相互作用,基因網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)問題的有力工具?;虮磉_(dá)數(shù)據(jù)分析面臨維數(shù)極高,噪聲大而且相關(guān),數(shù)據(jù)重復(fù)度低等問題,對數(shù)理統(tǒng)計(jì)等學(xué)科提出了新問題。目前對基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)展聚類分析,將表達(dá)模式相似的基因聚為一類,在此根底上尋找相關(guān)基因,分析基因的功能?;蛘{(diào)控網(wǎng)絡(luò)與信號轉(zhuǎn)導(dǎo)基因的表達(dá)受到蛋白的調(diào)控,一個(gè)基因的表達(dá)與否,表達(dá)量,均受到細(xì)胞中各種蛋白的調(diào)控。所以基因的調(diào)控可以看作是細(xì)胞中各基因?qū)?yīng)的mRNA與各種蛋白的一個(gè)相互作用網(wǎng)絡(luò)。信號轉(zhuǎn)導(dǎo)指當(dāng)細(xì)胞受到某種影響,其中某個(gè)蛋白的含量發(fā)生變化,而引起一系列的蛋白的表達(dá)變化的過程和路徑。它對于研究藥理、病理、細(xì)胞的分化、發(fā)育、進(jìn)化等重大問題都十分重要。信號轉(zhuǎn)導(dǎo)、基因網(wǎng)絡(luò)與基因表達(dá)的數(shù)據(jù)分析是嚴(yán)密相關(guān)的。生物信息處理并行算法生物信息學(xué)主要研究內(nèi)容序列分析/SequenceanalysisSequencealignmentStructureandfunctionpredictionGenefinding構(gòu)造分析/StructureanalysisProteinstructurecomparisonProteinstructurepredictionRNAstructuremodeling表達(dá)分析/ExpressionanalysisGeneclusteringGenexpressionanalysis蛋白質(zhì)組學(xué)/ProteomicsProtein-ProteinInteraction生物信息學(xué)所用的方法和技術(shù)1、數(shù)學(xué)統(tǒng)計(jì)方法2、動(dòng)態(tài)規(guī)劃方法3、機(jī)器學(xué)習(xí)與模式識別技術(shù)4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)6、專家系統(tǒng)7、分子模型化技術(shù)8、生物分子的計(jì)算機(jī)模擬9、因特網(wǎng)〔Internet〕技術(shù)數(shù)學(xué)統(tǒng)計(jì)方法生物活動(dòng)常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)在因素的制約,又受到外界環(huán)境的隨機(jī)干擾。因此概率論和數(shù)學(xué)統(tǒng)計(jì)是現(xiàn)代生物學(xué)研究中一種常用的分析方法數(shù)據(jù)統(tǒng)計(jì)、因素分析、多元回歸分析是生物學(xué)研究必備的工具隱馬爾科夫模型〔HiddenMarkovModels〕在序列分析方面有著重要的應(yīng)用。與隱馬爾科夫模型相關(guān)的技術(shù)是馬爾科夫鏈〔MarkovChain〕動(dòng)態(tài)規(guī)劃方法動(dòng)態(tài)規(guī)劃〔DynamicProgramming〕是一種解決多階段決策過程的最優(yōu)化方法或復(fù)雜空間的優(yōu)化搜索方法動(dòng)態(tài)規(guī)劃解決問題的根本過程是:將一個(gè)問題的全局解分解為局部解,逆序遞推求出局部最優(yōu)解,隨著執(zhí)行過程的推進(jìn),“局部〞逐漸接近“全局〞,最終獲得全局最優(yōu)解機(jī)器學(xué)習(xí)與模式識別技術(shù)機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是模擬人類的學(xué)習(xí)過程,以計(jì)算機(jī)為工具獲取知識、積累經(jīng)歷遺傳算法采用隨機(jī)搜索方法,具有自適應(yīng)能力和便于并行計(jì)算神經(jīng)網(wǎng)絡(luò)的理論是基于人腦的構(gòu)造,其目的是提醒一個(gè)系統(tǒng)是如何向環(huán)境學(xué)習(xí)的,這一種方法被稱為聯(lián)接主義。機(jī)器學(xué)習(xí)與模式識別技術(shù)模式識別模式識別是機(jī)器學(xué)習(xí)的一個(gè)主要任務(wù)。模式是對感興趣客體定量的或者構(gòu)造的描述,而模式識別就是利用計(jì)算機(jī)對客體進(jìn)展鑒別,將一樣或相似的客體歸入同類中模式識別主要有兩種方法:根據(jù)對象的統(tǒng)計(jì)特征進(jìn)展識別,根據(jù)對象的構(gòu)造特征進(jìn)展識別環(huán)境學(xué)習(xí)知識庫執(zhí)行反饋機(jī)器學(xué)習(xí)系統(tǒng)的根本構(gòu)造數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)挖掘〔datamining〕又稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),它是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),它能自動(dòng)分析數(shù)據(jù),對它們進(jìn)展歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中開掘出潛在的、對信息預(yù)測和決策行為起著十分重要作用的模式數(shù)據(jù)挖掘過程一般分為4個(gè)根本步驟:數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析人工神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)〔ArtificialNeuralNetwork,簡稱ANN〕是通過模擬神經(jīng)元的特性以及腦的大規(guī)模并行構(gòu)造、信息的分布式和并行處理等機(jī)制建立的一種數(shù)學(xué)模型輸入層隱藏層輸出層專家系統(tǒng)專家系統(tǒng)〔ExpertSystem〕是一種基于知識的智能系統(tǒng),它將領(lǐng)域?qū)<业慕?jīng)歷用一定的知識表示方法表示出來,并放入知識庫中,供推理機(jī)使用.使用界面解釋機(jī)構(gòu)推理機(jī)知識獲取知識庫數(shù)據(jù)庫領(lǐng)域?qū)<矣脩鬉I專家專家系統(tǒng)的基本結(jié)構(gòu)分子模型化技術(shù)分子模型化〔Molecularmodeling〕是利用計(jì)算機(jī)模擬分子構(gòu)造、研究分子之間相互作用的一種技術(shù)分子模型化是進(jìn)展分子設(shè)計(jì)的根底。分子圖形學(xué)〔MolecularGraphics〕是進(jìn)展分子模型化的一項(xiàng)重要技術(shù),正是由于分子圖形學(xué)和其它計(jì)算化學(xué)方法〔如分子力學(xué)、分子動(dòng)力學(xué)〕的相互結(jié)合,才使得分子模型化方法取得成功生物分子的計(jì)算機(jī)模擬傳統(tǒng)的生物分子研究主要是實(shí)驗(yàn)方法,如利用測序技術(shù)確定DNA分子的序列,通過分子遺傳學(xué)方法確定基因的多態(tài)性,通過X-射線晶體衍射確定蛋白質(zhì)分子的構(gòu)造,通過生化實(shí)驗(yàn)研究生物大分子之間的相互作用、藥物分子與靶分子的結(jié)合。所謂生物分子的計(jì)算機(jī)模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計(jì)算機(jī)進(jìn)展模擬實(shí)驗(yàn),預(yù)測生物分子的構(gòu)造和功能,預(yù)測動(dòng)力學(xué)及熱力學(xué)等方面的性質(zhì)反饋,改進(jìn)模型實(shí)驗(yàn)實(shí)驗(yàn)現(xiàn)象數(shù)學(xué)模型計(jì)算機(jī)模擬模擬結(jié)果分析新的設(shè)想產(chǎn)生設(shè)計(jì)解釋因特網(wǎng)〔Internet〕技術(shù)Internet已經(jīng)成為生物學(xué)研究的平臺,同時(shí)也成為分子生物學(xué)研究人員進(jìn)展信息交流特別是生物分子數(shù)據(jù)的交流的場所通過網(wǎng)絡(luò)查詢或搜索所需要的生物信息,使用分析工具將所要處理的數(shù)據(jù)直接送到相應(yīng)的網(wǎng)絡(luò)效勞器上,效勞器承受你的處理請求,并將處理結(jié)果返回復(fù)雜網(wǎng)絡(luò)分析理論社會(huì)網(wǎng):社交網(wǎng),演員合作網(wǎng),姻親關(guān)系網(wǎng),科研合作網(wǎng),Email網(wǎng)生物網(wǎng):食物鏈網(wǎng),神經(jīng)網(wǎng),新陳代謝網(wǎng),蛋白質(zhì)網(wǎng),基因網(wǎng)絡(luò)信息網(wǎng)絡(luò):WWW,專利使用,論文引用,計(jì)算機(jī)共享技術(shù)網(wǎng)絡(luò):電力網(wǎng),Internet,線路網(wǎng)交通運(yùn)輸網(wǎng):航線網(wǎng),鐵路網(wǎng),公路網(wǎng),自然河流網(wǎng)中藥方劑網(wǎng)雖然中藥方劑的數(shù)量很大,但目前還沒有統(tǒng)計(jì)用的數(shù)據(jù)庫。不得不用手工進(jìn)展統(tǒng)計(jì),因此統(tǒng)計(jì)的數(shù)據(jù)量受到很大限制。選用了1536付藥方,681種藥物進(jìn)展了統(tǒng)計(jì)。節(jié)點(diǎn):藥物,邊:在一付方劑中藥物的相互作用。方劑:藥物、藥物的相互作用構(gòu)成的固定完全圖局域網(wǎng),同時(shí)也可以看作是節(jié)點(diǎn)〔藥物〕的合作成果。各個(gè)完全圖通過共用的節(jié)點(diǎn)〔藥物〕架起橋梁,構(gòu)成網(wǎng)絡(luò)。網(wǎng)絡(luò)由完全圖連接而成,如下圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論