版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第九講
生物信息學將給生命科學帶來變革性的變化!Biologyisshiftingfrombeinganobservationalsciencetobeingaquantitativemolecularscience第九講
生物信息學將給生命科學帶來變革性的變化!1學習目的1、了解生物信息學的發(fā)展背景、定義2、理解生物信息學在生命科學研究中的作用3、理解數(shù)學、計算機科學如何在生物信息中的地位和作用4、了解基因芯片的檢測原理和制備方法學習目的1、了解生物信息學的發(fā)展背景、定義2第一節(jié)生物信息學
(Bioinformatics)一、生物學基礎(chǔ)(復習)二、發(fā)展背景與定義三、研究內(nèi)容四、研究現(xiàn)狀五、發(fā)展前景第一節(jié)生物信息學
(Bioinformatics)一、生物3一、生物學基礎(chǔ)表型與基因型(phenotypevs.genotype)遺傳信息的流動基因的表達與調(diào)控分子進化DNA序列分析:基因識別、調(diào)控元件識別、進化分析mRNA:剪切位點識別、基因表達分析蛋白質(zhì):結(jié)構(gòu)預測、蛋白質(zhì)間相互作用、亞細胞定位基因組:基因預測、進化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細胞:系統(tǒng):一、生物學基礎(chǔ)表型與基因型(phenotypevs.ge4生物信息學全課件5二、發(fā)展背景和定義二、發(fā)展背景和定義6生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細胞、器官、系統(tǒng)、整體等研究生物體系和生物過程中信息的內(nèi)涵和信息的傳遞
生物電磁學與電磁生物學、視覺系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機電系統(tǒng)生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息7發(fā)展背景BiocomputingComputationalBiologyBioinformatics1986年,在EMBLHeidelberg成立Biocomputing部門,命名為BIOinformatis.如果我們不能回答生物學問題,作為計算生物學家是失敗的。1997年底創(chuàng)立了CABIOS(ComputerApplicationsintheBiosciences).weassert:computationalplanningandanalysisisanintegralpartofthebiologicaldiscoveryprocess.在完整基因組序列和高通量技術(shù)時代不要僅僅談論分析海量數(shù)據(jù)的挑戰(zhàn),相反,要談論疾病產(chǎn)生的風險,關(guān)于人類遺傳差異、基因型改變的進化如何導致功能的改變,如何使用數(shù)據(jù)來回答這些問題。發(fā)展背景Biocomputing8Background
背景19651970197519801985199019952000100,00010,0001,0001001010.10.010.001×1,000MedlineRecordsTransistors/ChipDNASequences3DStructuresCumulativeGrowthofBiologicalInformationandComputerPowerMarkBogulski(1998)Bioinformatics:ANewEraBackground9生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面加快新藥開發(fā)的進程:
資料的獲取、包括從數(shù)據(jù)庫中尋找新藥開發(fā)者感興趣的基因序列和相關(guān)資料文獻基因功能的預測和基因生理作用的預測需要大量信息處理的藥物篩選和加工過程(WeinsteinJNetal.,1997)
生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面10DefinitionofBioinformatics(1)Bioinformaticsisdefinedasascientificdisciplinethatencompassesallaspectsofbiologicalinformationacquisition,processing,storage,distribution,analysisandinterpretation,thatcombinesthetoolsandtechniquesofmathematics,computerscienceandbiologywiththeaimofunderstandingthebiologicalsignificanceofavarietyofdata.生物信息學是一門交叉學科。它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學意義。UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublibcationNo.901590,April,1995DefinitionofBioinformatics(11DefinitionofBioinformatics(2)Bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.OxfordEnglishDictionaryDefinitionofBioinformatics(12ComputationInformaticsBiologyBioinformaticsComputationInformaticsBiologyB13算法統(tǒng)計學信息理論圖形學科學可視化圖像識別人工智能密碼學非線性動力學計算機模擬語言學機器學習數(shù)據(jù)庫軟件工程計算機網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預測分子建模藥物設(shè)計同源比較分子進化數(shù)據(jù)庫檢索基因預測儀器設(shè)計數(shù)據(jù)庫構(gòu)建基因調(diào)控基因診斷及治療生物信息學計算機科學和數(shù)學分子生物學
算法數(shù)據(jù)獲取生物信息學計算機科學和數(shù)學分子生物學
14生物信息學研究意義利用數(shù)理統(tǒng)計、模式識別、動態(tài)規(guī)劃、密碼解讀、語意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模型等各種方法對序列、結(jié)構(gòu)數(shù)據(jù)進行定性和定量分析,從中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識闡明細胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時空聯(lián)系探索生命起源、生物進化、生命本質(zhì)等重大理論問題,最終建立“生物學周期表”指導分子生物學實驗生物信息學研究意義利用數(shù)理統(tǒng)計、模式識別、動態(tài)規(guī)劃、密碼解讀15生物信息學全課件16生物信息學–研究方向基因組序列裝配基因識別基因功能預報基因多態(tài)性分析基因進化mRNA結(jié)構(gòu)預測基因芯片設(shè)計基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析蛋白質(zhì)序列分析蛋白質(zhì)家族分類蛋白質(zhì)結(jié)構(gòu)預測蛋白質(zhì)折疊研究代謝途徑分析轉(zhuǎn)錄調(diào)控機制蛋白質(zhì)芯片設(shè)計蛋白質(zhì)芯片數(shù)據(jù)分析藥物設(shè)計生物信息學–研究方向基因組序列裝配蛋白質(zhì)序列分析17三、生物信息學的研究內(nèi)容數(shù)學、計算機科學、生物學1、與HGP相關(guān)的研究內(nèi)容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學相關(guān)4、基因芯片信息學研究三、生物信息學的研究內(nèi)容數(shù)學、計算機科學、生物學18Statistics統(tǒng)計學ProbabilityTheory概率論(特別是隨機過程理論)OperationalResearch運籌學OptimizationTheory&Method最優(yōu)化理論與方法Topology拓撲學(主要是幾何拓撲)FunctionTheory函數(shù)論InformationTheory信息論ComputationalMathematics計算數(shù)學GroupTheory群論數(shù)學(Maths)Statistics統(tǒng)計學ProbabilityTheo19幾個常用數(shù)學模型概念與方法Bayes公式、Bayes統(tǒng)計馬氏鏈(Markovchains)隱馬氏鏈(HiddenMarkovchains)Poisson過程與連續(xù)時間馬氏鏈熵、相對熵與信息增益神經(jīng)網(wǎng)絡(luò)(neuralnetworks(NN)):Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)幾個常用數(shù)學模型概念與方法Bayes公式、Bayes統(tǒng)20網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(特別是關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法的復雜性研究計算機科學(ComputerScience)計算機硬件網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(特別是關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)整合和可視化數(shù)據(jù)挖21生物信息學研究內(nèi)容Alignment
(序列比對)[包括:全序列、局部和多重比對;Fasta,Blast,PSI-Blast]ProteinStructurePrediction
(蛋白質(zhì)結(jié)構(gòu)預測)Computer-AidedGeneRecognitions
(計算機輔助基因識別)[算法紛紜,較著名的為GeneScan,GeneFinder,等;尚存在許多問題]DNALanguage
(DNA語言)MolecularEvolution&ComparedGenomics
(分子進化和比較基因組學)ContigAssembly
(序列重疊群裝配)OriginofGeneticCodes
(遺傳密碼的起源)AnalysisofMetabolizeNetwork
(代謝網(wǎng)絡(luò)分析)GeneChipDesign
(基因芯片設(shè)計)生物信息學研究內(nèi)容Alignment(序列比對)[包22與HGP相關(guān)的生物信息學研究1、高度自動化的實驗數(shù)據(jù)的獲得、加工和整理各種自動化分子生物學儀器應用上,如DNA測序儀,PCR儀等實驗過程高度自動化甚至工廠化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專門的實驗室數(shù)據(jù)管理系統(tǒng)自動完成包括實驗進程和實驗數(shù)據(jù)的紀錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測和問題的自動查找,常規(guī)的數(shù)據(jù)說明和數(shù)據(jù)輸入數(shù)據(jù)庫。目前還沒有成熟的通用的分子生物學數(shù)據(jù)管理系統(tǒng)。與HGP相關(guān)的生物信息學研究1、高度自動化的實驗數(shù)據(jù)的獲得232、序列片段的拼接目前DNA自動測序儀每個反應只能測序500bp左右,傳統(tǒng)測序方法是將克隆進行亞克隆并對亞克隆進行排序。自動而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鳥槍法進行測序,再將大量隨機測序的片段用計算機進行自動拼接。1.9MbHaemophilusinfluenzae(流感嗜血桿菌)(FleischmannRDetal.,1995)0.58MbMycoplasmugenitalium(枝原體)(FraserCMetal.,1995)0.58Mbjannaschii(甲烷桿菌)(BultCJetal.,1996)有待改進:將已知的基因組知識應用于拼接算法,進一步提高拼接真核基因組的有效性;自動處理自動測序造成的差錯2、序列片段的拼接目前DNA自動測序儀每個反應只能測序50024生物信息學全課件25AlignmentAlignment
(序列比對、聯(lián)配、對齊等)
包括:全序列、局部多重比對;Fasta,Blast,PSI-BlastAGCGGTGCAGGTTACTGCGCGTAGTAC…|||ACGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…||||||||||||||||||A_CGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…|||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGC_GCGTAGTAC…|||||||||||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…序列一序列二AlignmentAlignmentAGCGGT26RawDNAsequenceGeneBank:11.5Millonsequence12.5billionbasesSeparatingcodingandnon-codingIdentificationofintronsandexonsGeneproductpredictionForensicanalysisRawDNAsequenceGeneBank:27基因識別識別基因組編碼區(qū),識別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預測(不是用同源搜索的方法來識別基因) 從頭開始基因預測 基于知識的基因預測(密碼子使用,堿基組成,剪切位點特征,PolyA信號,2、3、6核苷酸頻率,轉(zhuǎn)錄信號,轉(zhuǎn)譯信號,尺寸分布)基因識別識別基因組編碼區(qū),識別基因結(jié)構(gòu)28基因預測的步驟:1、識別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來,形成可能的基因4、確保該可能的基因沒有內(nèi)部的移位或終止密碼子5、leftovers:shadowexons算法:Rule-basedsystem,linguisticsystem,lineardiscriminantanalysis,decisiontree,splicedalignment,fourieranalysis基因預測的步驟:29生物信息學全課件30生物信息學全課件31EvaluatingGenePrediction敏感性(Sensitivity)敏感性=預測基因中確為基因的數(shù)目/待測序列中的基因數(shù)目;Howmanyexonswerecorrectlypredicted?特異性(Specifity)特異性=預測基因中確為基因的數(shù)目/預測基因數(shù)目Howmanyexonpredictionsaretrue?EvaluatingGenePrediction敏感性(32生物學家們?yōu)槿祟惢虻臄?shù)目打賭雖然人類基因組的草圖很快就要完成,但生物學家們對基因組里到底有多少基因的猜測仍有極大的不同。最近在美國紐約冷泉港召開的一個會議上,他們設(shè)立了一美元一個(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者JamesWatson親筆簽名的皮革封面《雙螺旋》一書。如果基因組是生命的天書,那么基因就是寫成這本書的詞匯。生物學家們一直假設(shè),微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬到10萬個基因。但是美國加州大學伯克利分校的果蠅基因組計劃的主任GeraldRubin指出,果蠅的基因比我們所認為的最簡單的線蟲少了5000個。他警告說:“生物體的復雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的。”確實,根據(jù)目前已測序完成的人類基因組第21對、22對染色體的經(jīng)驗,德國分子生物技術(shù)研究所的AndreRosenthal說,我們得出的結(jié)論是整個基因組有不多于4萬個基因。法國的分子遺傳學家HuguesRoestCrollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計:在27700與34300之間。美國西雅圖華盛頓大學的基因?qū)W家PhilGreen是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人類基因數(shù)大約為35000。Green說:“我們使用了3種獨立的計算方法得出了這些較低的基因數(shù)估計,我確信基因數(shù)目就在這個范圍內(nèi)?!泵绹鴩胰祟惢蚪M研究所主任FrancisCollins表示他同意Green的估計,將他1美元的賭金下在48011個基因上。但馬里蘭Rockville的基因組研究所(TIGR)的JohnQuackenbush根據(jù)TIGR的人類基因指數(shù)的估計,將他的1美元賭在118259個基因上。加州IncyteGenomics公司的SamLaBrie賭的基因數(shù)是153478個,該公司在1999年9月曾宣布人類基因至少有14萬個。但是支持人類基因數(shù)目是一個較小數(shù)的科學家們也不灰心,他們爭論說生物體的復雜性來自于基因如何被管理或表達的,而不是基因數(shù)目本身。Rosenthal解釋說:“我們不需要那么多的基因成為高等動物,”他賭的是38000個。你賭多少呢?生物學家們?yōu)槿祟惢虻臄?shù)目打賭33基因功能預測(1)序列同源比較如果基因A與基因B有相當?shù)耐葱?,那么基因A可能具有類似基因B的功能。公共數(shù)據(jù)庫:GenBank,EMBL,DDBJ功能數(shù)據(jù)庫:dbEST,dbSTS,dbGSS(GenomeSurveySequence,類似EST,不同的是它是基因組的片段而非cDNA的片段,來自隨機的對基因組片段進行一輪測序,以及外顯子捕捉和AluPCR等方法),dbHTG(highthroughputGenomicSequence,未完成整理的序列數(shù)據(jù))蛋白質(zhì)序列庫:PIR(proteininformationresource),Swiss-Prot蛋白質(zhì)高級結(jié)構(gòu)數(shù)據(jù)庫PDB(proteindatabank):生物大分子三級結(jié)構(gòu)的數(shù)據(jù)庫,包括原子標記、文獻引用、一級和二級結(jié)構(gòu)信息,以及晶體結(jié)構(gòu)和核磁共振的數(shù)據(jù)。同源比較算法:分為整體對齊(Globalalignment)和局部對齊(localalignment)局部對齊的算法有Smith-Watermann算法;FASTA算法;BLAST算法基因功能預測(1)序列同源比較34ProteinSequence400,000sequences(SWISS-PROT)300aaSequencecomparisonalgorithmsMultiplesequencealignmentsalgorithmsIdentificationofconservedsequencemotifsProteinSequence400,000sequen35蛋白質(zhì)結(jié)構(gòu)預測
可以通過計算(如分子力學、分子動力學等)來進行結(jié)構(gòu)預測(1)對于自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu),兩者之間的能量差非常小(1kcal/mol數(shù)量級)(2)研究蛋白質(zhì)結(jié)構(gòu)的計算量非常大蛋白質(zhì)結(jié)構(gòu)預測可以通過計算(如分子力學、分子動力學等)來進36Anfinsen,1960esX-射線衍射和核磁共振蛋白質(zhì)結(jié)構(gòu)預測的實驗基礎(chǔ)天然核糖核酸酶變性還原核糖核酸酶Anfinsen,1960es蛋白質(zhì)結(jié)構(gòu)預測的實驗基礎(chǔ)天37生物信息學全課件38蛋白質(zhì)的二級結(jié)構(gòu)二面角定義NCACNOCACywfORR蛋白質(zhì)分子的主鏈二面角a-螺旋(f,y)~(-60,-40)b-折疊(f,y)~(-120,140)環(huán)區(qū)蛋白質(zhì)的二級結(jié)構(gòu)二面角定義NCACNOCACywfORR蛋白39蛋白質(zhì)分子的三級結(jié)構(gòu)典型的蛋白質(zhì)結(jié)構(gòu)類型
a、b、a/b、a+bPDBSUM http://www.biochem.ucl.ac.uk/bsm/pdbsumSCOP /scop蛋白質(zhì)分子的三級結(jié)構(gòu)典型的蛋白質(zhì)結(jié)構(gòu)類型40其它結(jié)構(gòu)層次超二級結(jié)構(gòu)四級結(jié)構(gòu)分子聚合體其它結(jié)構(gòu)層次超二級結(jié)構(gòu)41影響蛋白質(zhì)結(jié)構(gòu)的理化因素立體作用(范式作用) Lennard-Jones式,空間堆積靜電作用 庫侖定律氫鍵疏水作用影響蛋白質(zhì)結(jié)構(gòu)的理化因素立體作用(范式作用)42同源模型方法如果具有25-30%的等同序列,可以假設(shè)這兩個蛋白質(zhì)折疊成相似的空間結(jié)構(gòu)借助于數(shù)據(jù)庫搜索和序列的比對排列而進行利用同源模型化方法可以預測所有10-30%蛋白質(zhì)的結(jié)構(gòu)同源模型方法如果具有25-30%的等同序列,可以假設(shè)這兩個蛋43流行的序列分析工具CLUSTAL:已知同源的序列間的配比FASTA:全基因數(shù)據(jù)庫的快速搜索PSI-BLAST:非??焖俚娜珨?shù)據(jù)庫搜索HMM:特定蛋白家族的序列模式識別PHYLIPS:基因進化樹充分利用Internet流行的序列分析工具CLUSTAL:已知同源的序列間的配比44二級結(jié)構(gòu)預測用處估計蛋白的結(jié)構(gòu)類型提高同源模建的準確性三級結(jié)構(gòu)預測的起點遠緣蛋白的Threading方法Chou-FasmanGarnier神經(jīng)網(wǎng)絡(luò)組合算法二級結(jié)構(gòu)預測用處45蛋白質(zhì)三級結(jié)構(gòu)預測(1)
同源模型化方法(2)
遠程同源模型化方法(3)
結(jié)構(gòu)的從頭預測方法距離幾何分子動力學蛋白質(zhì)三級結(jié)構(gòu)預測(1)
同源模型化方法46一級序列數(shù)據(jù)庫搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守區(qū)域模建環(huán)區(qū)模建側(cè)鏈優(yōu)化和評估一級序列數(shù)據(jù)庫搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守47MacromolecularstructureSecondary,tertiarystructureprediction3DstructuralalignmentalgorithmsProteingeometrymeasurementsSurfaceandvolumeshapecalculationIntermolecularinteractionsMolecularsimulationsForce-fieldcalculationsMolecularmovementsDockingpredictions15,000structures(PDB)~1000atomiccoordinateseachMacromolecularstructureSecond48Genomes300completegenomes11.6millionsequencesCharacterizationofrepeatsStructuralassignmentstogenesPhylogeneticanalysisGenomicscalecensuses(characterizationofproteincontent,metabolicpathways)LinkageanalysisrelatingspecificgenestodiseasesGenomes300completegenomes1149比較基因組學研究研究生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別僅為0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。這又為什么?
完整基因組序列的比較研究是解決這些問題的重要途徑。比較基因組學研究研究生命是從哪里起源的?生命是如何進化的?遺50基于完整基因組數(shù)據(jù)的生物進化研究1、序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3、構(gòu)建系統(tǒng)進化樹。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進化關(guān)系的進化樹。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;4、穩(wěn)定性檢驗。為了檢驗構(gòu)建好的進化樹的可靠性,需要進行統(tǒng)計可靠性檢驗,通常構(gòu)建過程要隨機地進行成百上千次,只有以大概率(70%以上)出現(xiàn)的分支點才是可靠的。通用的方法使用Bootstrap算法,相應的軟件已包括在構(gòu)建系統(tǒng)進化樹所用的軟件包當中。為便于使用者查找表三給出了進化分析相關(guān)軟件的因特網(wǎng)地址。基于完整基因組數(shù)據(jù)的生物進化研究1、序列相似性比較。就是將待51Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.Phylogenyof23completelyseq52GeneexpressionCorrelatingexpressionpatternsMappingexpressiondatatosequence,structuralandbiochemicaldataGeneexpressionCorrelatingexp53基因表達分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實驗技術(shù)1、mRNAcDNAmicroarrayOligonucleotidechipRT-PCRSAGE2、protein2D基因表達分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實驗技術(shù)2、prot54HierarchicalClusteringHierarchicalClustering55PrincipalComponentAnalysis1234-4-3-2-11234-4-3-2-1PrincipalComponentAnalysis1256MetabolicpathwaysPathwaysimulationsMetabolicpathwaysRegulatorynetworkSignalcascadeProtein-proteininteractionMetabolicpathwaysPathwaysimu57生物信息學全課件58Literature11millioncitationsDigitallibrariesforautomatedbibliographicalserachesKnowledgedatabasesofdatafromliteratureLiterature11millioncitations59其他郝柏林院士:DNA序列中的分形模式,計算高頻片斷張春霆院士:z-curve陳潤生拼接方法基因表達數(shù)據(jù)分析和調(diào)控網(wǎng)絡(luò)研究其他郝柏林院士:DNA序列中的分形模式,計算高頻片斷60基因芯片設(shè)計及信息處理探針設(shè)計解決雜交條件一致性問題芯片優(yōu)化提高芯片制備效率公共數(shù)據(jù)庫專用數(shù)據(jù)庫確定目標自動設(shè)計目標序列數(shù)據(jù)分析分析雜交檢測結(jié)果及可靠性基因芯片數(shù)據(jù)庫圖像處理數(shù)據(jù)庫查詢序列分析生物信息學數(shù)據(jù)挖掘雜交檢測圖像基因芯片設(shè)計及信息處理探針設(shè)計芯片優(yōu)化公共數(shù)據(jù)庫61四、生物信息學研究現(xiàn)狀1、研究機構(gòu)2、數(shù)據(jù)庫3、軟件及應用4、重大成果四、生物信息學研究現(xiàn)狀1、研究機構(gòu)62國際著名的生物信息中心NCBI NationalCenterforBiotechnologyInformation(US)
EBI EuropeanBioinformaticsInstitute(EU)
HGMP HumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore)國際著名的生物信息中心NCBI NationalCen63國內(nèi)部分生物信息學和生物醫(yī)學信息服務器北京大學生物信息中心中國生物信息/北京大學物理化學研究所北京醫(yī)科大學生物醫(yī)學信息中國科學院微生物研究所天津大學生物信息中心中科院計算所智能信息處理重點實驗室生物信息學研究組 /中國科學院基因組信息學中心/國內(nèi)部分生物信息學和生物醫(yī)學信息服務器北京大學生物信息中心64北京大學生物信息中心安裝了70多個數(shù)據(jù)庫,提供200多種軟件下載建立了14個國外著名生物信息中心鏡象提供了數(shù)據(jù)庫和文獻查詢、搜索構(gòu)建了中華民族基因多樣性等專用數(shù)據(jù)庫集成和開發(fā)了基于Web的生物信息軟件工具開展了分子模擬、序列分析等應用研究舉辦了國際國內(nèi)培訓班、講習班、討論會開設(shè)了生物信息學概論研究生課程北京大學生物信息中心安裝了70多個數(shù)據(jù)庫,提供200多種軟件65構(gòu)建二次數(shù)據(jù)庫中華民族基因多樣性數(shù)據(jù)庫轉(zhuǎn)錄因子細胞特異性數(shù)據(jù)庫Cytomer蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫Domain蛋白質(zhì)回環(huán)數(shù)據(jù)庫Loop水稻矮縮病毒數(shù)據(jù)庫RDV二硫鍵信息數(shù)據(jù)庫Bridge構(gòu)建二次數(shù)據(jù)庫中華民族基因多樣性數(shù)據(jù)庫66其他數(shù)據(jù)庫EMBLhttp://www.embl-heidelberg.de/
http://www.ebi.ac.uk/embl/
GenBank/Web/Genbank/
DDBJhttp://www.ddbj.nig.ac.jp/
Ensembl/
Medline/medline/query-form.html
BioMedNethttp://www.BioMedN/Staden:/tools/staden/(biologicalpackage)RCSB(結(jié)構(gòu)生物信息學研究聯(lián)合實驗室)
PRESAGE(Collaborativeresourceforstructuralgenomics
結(jié)構(gòu)基因組學聯(lián)合資源)/
ExPASyhttp://www.expasy.ch/
SRShttp://srs.ebi.ac.uk:5000/
Entrez/Entrez/
GCG:/about/gcg.html
其他數(shù)據(jù)庫EMBLhttp://www.embl-heid67DictyDb(DictyosteliumdiscoideumgenomedatabaseDictyosteliumdiscoideum基因組數(shù)據(jù)庫)/others/dsmith/dictydb.htmlEcoCyc(EncyclopediaofE.coligenesandmetabolism
大腸桿菌基因和代謝百科全書)
EcoGene(EscherichiacoliK12genomedatabase
EscherichiacoliK12基因組數(shù)據(jù)庫)/EcoGene/EcoWeb/
FlyBase(Drosophilagenomedatabase
果蠅基因組數(shù)據(jù)庫)/
http://gin.ebi.ac.uk:7081/
HIV(HIVsequencedatabase
HIV序列數(shù)據(jù)庫)/
MaizeDB(Maizegenomedatabase
玉米基因組數(shù)據(jù)庫)/
IMGT(ImMunoGeneTicsdb
免疫基因標記數(shù)據(jù)庫)usc.fr:8104/
MAIZE-2DPAGE(Maizegenome2DElectrophoresisdatabase
玉米基因組雙向電泳數(shù)據(jù)庫)http://moulon.moulon.inra.fr/imgd/
Mendel(Mendel-GFDb(Plantgenesfamiliesdatabase)
孟德爾植物基因家族數(shù)據(jù)庫)http://www.mendel.ac.uk
MGD(Mousegenomedatabase
小鼠基因組數(shù)據(jù)庫)/
.au/mgd/
http://bioinformatics.weizmann.ac.il/mgd/
http://mgd.hgmp.mrc.ac.uk/
http://mgd.niai.affrc.go.jp/
DictyDb(Dictyosteliumdiscoide68MIM(OnlineMendelianInheritanceinMan(OMIM)
人類孟德爾遺傳網(wǎng)上數(shù)據(jù)庫)/omim/
NRSUB(Non-redundantB.subtilisdatabase
無冗余枯草桿菌數(shù)據(jù)庫)http://pbil.univ-lyon1.fr/nrsub/nrsub.html
SGD(SaccharomycesGenomeDatabase
酵母基因組數(shù)據(jù)庫)/Saccharomyces/
SubtiList(Bacillussubtilis168genomedatabase
枯草桿菌168基因組數(shù)據(jù)庫)http://www.pasteur.fr/Bio/SubtiList/
TIGR(Thebacterialdatabase(s)of'TheInstituteofGenomeResearch'
基因組研究所的細菌數(shù)據(jù)庫)/tdb/
TubercuList(MycobacteriumtuberculosisH37Rvgenomedatabase分支結(jié)核桿菌H37Rv基因組數(shù)據(jù)庫)http://www.pasteur.fr/Bio/TubercuList/
GeneCards(GeneCards:humangenes,proteinanddiseases
基因卡:人基因、蛋白和疾病)http://bioinformatics.weizmann.ac.il/cards/
ZFIN(ZebrafishInformationNetworkgenomedatabase
斑馬魚信息網(wǎng)基因組數(shù)據(jù)庫)/ZFIN/酵母功能庫http://www.mips.biochem.mpg.de/proj/yeast/pathways/index.html
MIM(OnlineMendelianInheritan69ExPASy(swissinstituteofBioinfomativcs)http://www.isb-sib.ch/(proteomics,proteinprediction)SWISS-PROThttp://www.expasy.ch/sprot-top.html
PIR(ProteinsequencedatabaseoftheProteinInformationResource
蛋白質(zhì)信息資源數(shù)據(jù)庫)/
/pir/
GDB/
PDB(ProteinDataBank
蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫)/pdb/
http://www2.ebi.ac.uk/pdb/
.au/pdb/
http://pdb.weizmann.ac.il/
/npdb/
SCOP/scop/
/scop/
http://scop.mrc-lmb.cam.ac.uk/scop/
BLOCKS(BLOCKS蛋白質(zhì)模塊數(shù)據(jù)庫)/
DOMO(ProteinDomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫)biogen.fr/~gracy/domo
ECO2DBASE(Escherichiacoligene-proteindatabase(2Dgelspots)
大腸桿菌基因-蛋白數(shù)據(jù)庫)/eco2dbase/
ENZYME(Enzymesnomenclaturedatabase
酶命名數(shù)據(jù)庫)http://www.expasy.ch/enzyme/
GCRDb(Gprotein-coupledreceptordatabase
G蛋白耦聯(lián)受體數(shù)據(jù)庫)/
ExPASy(swissinstituteofBio70HSSP(Homology-derivedsecondarystructureofproteinsdatabase蛋白質(zhì)同源二級結(jié)構(gòu)數(shù)據(jù)庫)http://www.sander.ebi.ac.uk/hssp/Pfam(Pfamproteindomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫)/Pfam/
http://www.sanger.ac.uk/Pfam/
PRINTS(ProteinMotiffingerprintdatabase
蛋白質(zhì)模式數(shù)據(jù)庫)http://bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/
ProDom(ProDomProteindomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫)http://protein.toulouse.inra.fr/prodom.html
PROSITE(PROSITE:proteindomainsandfamiliesdatabase
蛋白質(zhì)結(jié)構(gòu)域和家族數(shù)據(jù)庫)http://www.expasy.ch/prosite/
REBASE(Restrictionenzymesandmethylasesdatabase
限制性酶和甲基化酶數(shù)據(jù)庫)/
TrEMBLNRL-3DNRDBPDBsumMMDB/Structure/MMDB/mmdb.shtml
dbSNP/SNP/
二級結(jié)構(gòu)推導數(shù)據(jù)庫DSSPhttp://www.sander.embl-heidelberg.de/dssp/蛋白質(zhì)結(jié)構(gòu)(PSdb)
/~geigel/PSdb/PSdb.html
HSSP(Homology-derivedsecondar71EBIFSSPdatabase,foldclassificationbasedonstructure-structurealignmentofproteinshttp://www2.ebi.ac.uk/dali/fssp/
TRANSFAC(Transcriptionfactordatabase
轉(zhuǎn)錄因子數(shù)據(jù)庫)http://transfac.gbf.de/TRANSFAC/
WormPep(Caenorhabditiselegansgenomesequencingprojectproteindatabase線蟲基因組測序計劃蛋白數(shù)據(jù)庫)http://www.sanger.ac.uk/Projects/C_elegans/wormpep/
YPD(Yeastproteindatabase
酵母蛋白質(zhì)數(shù)據(jù)庫)/databases/YPD/
EPD真核基因啟動子數(shù)據(jù)庫BODYMAP人和老鼠基因表達信息的數(shù)據(jù)庫http://bodymap.ims.u-tokyo.ac.jp/
DbEST/dbEST/DbSTS/dbSTS/
UniGene/UniGene/
SCPD:/jian/酵母細胞周期表達數(shù)據(jù)庫:2/yeast_cell_cycle/cellcycle.html
微陣列基因表達數(shù)據(jù)庫:/HomeoboxGenesDataBasehttp://www.iephb.nw.ru/labs/lab38/spirov/hox_pro/summary.html
EBIFSSPdatabase,foldclassi72分子生物學軟件1.分析和處理實驗數(shù)據(jù)和公共數(shù)據(jù),加快研究進度,縮短科研時間2.提示、指導、替代實驗操作,利用對實驗數(shù)據(jù)的分析所得的結(jié)論設(shè)計下一階段的實驗3.用計算機管理實驗室數(shù)據(jù)及文獻資料4.用計算機預測新基因及其結(jié)構(gòu)和功能5.蛋白高級結(jié)構(gòu)預測分子生物學軟件1.分析和處理實驗數(shù)據(jù)和公共數(shù)據(jù),加快研究進731.分析和處理實驗數(shù)據(jù)和公共數(shù)據(jù),加快研究進度,縮短科研時間蛋白:序列同源性比較,結(jié)構(gòu)信息分析(包括Motif,限制酶切點,內(nèi)部重復序列的查找,氨基酸殘基組成及其親水性及疏水性分析),等電點及二級結(jié)構(gòu)預測等等核酸:序列同源性比較,分子進化樹構(gòu)建,結(jié)構(gòu)信息分析,包括基元(Motif)、酶切點、重復片斷、堿基組成和分布、開放閱讀框(ORF),蛋白編碼區(qū)(CDS)及外顯子預測、RNA二級結(jié)構(gòu)預測、DNA片段的拼接本地序列與公共序列的聯(lián)接,成果擴大1.分析和處理實驗數(shù)據(jù)和公共數(shù)據(jù),加快研究進度,縮短科74五、展望與建議五、展望與建議75基因組超大量的序列和結(jié)構(gòu)數(shù)據(jù)
?重大的發(fā)現(xiàn)第四次科學浪潮?基因組超大量的序列和結(jié)構(gòu)數(shù)據(jù)?重大的發(fā)現(xiàn)第四次科學浪潮76進一步學習1、http://www.molbiol.ox.ac.uk/tutorials/year2_theory.html2、http://www3.oup.co.uk/nar/Volume_27/Issue_01/3、http://telomere.nrc.ca/html/dans_list.htm進一步學習1、http://www.molbiol.ox.a77第九講
生物信息學將給生命科學帶來變革性的變化!Biologyisshiftingfrombeinganobservationalsciencetobeingaquantitativemolecularscience第九講
生物信息學將給生命科學帶來變革性的變化!78學習目的1、了解生物信息學的發(fā)展背景、定義2、理解生物信息學在生命科學研究中的作用3、理解數(shù)學、計算機科學如何在生物信息中的地位和作用4、了解基因芯片的檢測原理和制備方法學習目的1、了解生物信息學的發(fā)展背景、定義79第一節(jié)生物信息學
(Bioinformatics)一、生物學基礎(chǔ)(復習)二、發(fā)展背景與定義三、研究內(nèi)容四、研究現(xiàn)狀五、發(fā)展前景第一節(jié)生物信息學
(Bioinformatics)一、生物80一、生物學基礎(chǔ)表型與基因型(phenotypevs.genotype)遺傳信息的流動基因的表達與調(diào)控分子進化DNA序列分析:基因識別、調(diào)控元件識別、進化分析mRNA:剪切位點識別、基因表達分析蛋白質(zhì):結(jié)構(gòu)預測、蛋白質(zhì)間相互作用、亞細胞定位基因組:基因預測、進化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細胞:系統(tǒng):一、生物學基礎(chǔ)表型與基因型(phenotypevs.ge81生物信息學全課件82二、發(fā)展背景和定義二、發(fā)展背景和定義83生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細胞、器官、系統(tǒng)、整體等研究生物體系和生物過程中信息的內(nèi)涵和信息的傳遞
生物電磁學與電磁生物學、視覺系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機電系統(tǒng)生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息84發(fā)展背景BiocomputingComputationalBiologyBioinformatics1986年,在EMBLHeidelberg成立Biocomputing部門,命名為BIOinformatis.如果我們不能回答生物學問題,作為計算生物學家是失敗的。1997年底創(chuàng)立了CABIOS(ComputerApplicationsintheBiosciences).weassert:computationalplanningandanalysisisanintegralpartofthebiologicaldiscoveryprocess.在完整基因組序列和高通量技術(shù)時代不要僅僅談論分析海量數(shù)據(jù)的挑戰(zhàn),相反,要談論疾病產(chǎn)生的風險,關(guān)于人類遺傳差異、基因型改變的進化如何導致功能的改變,如何使用數(shù)據(jù)來回答這些問題。發(fā)展背景Biocomputing85Background
背景19651970197519801985199019952000100,00010,0001,0001001010.10.010.001×1,000MedlineRecordsTransistors/ChipDNASequences3DStructuresCumulativeGrowthofBiologicalInformationandComputerPowerMarkBogulski(1998)Bioinformatics:ANewEraBackground86生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面加快新藥開發(fā)的進程:
資料的獲取、包括從數(shù)據(jù)庫中尋找新藥開發(fā)者感興趣的基因序列和相關(guān)資料文獻基因功能的預測和基因生理作用的預測需要大量信息處理的藥物篩選和加工過程(WeinsteinJNetal.,1997)
生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面87DefinitionofBioinformatics(1)Bioinformaticsisdefinedasascientificdisciplinethatencompassesallaspectsofbiologicalinformationacquisition,processing,storage,distribution,analysisandinterpretation,thatcombinesthetoolsandtechniquesofmathematics,computerscienceandbiologywiththeaimofunderstandingthebiologicalsignificanceofavarietyofdata.生物信息學是一門交叉學科。它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學意義。UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublibcationNo.901590,April,1995DefinitionofBioinformatics(88DefinitionofBioinformatics(2)Bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.OxfordEnglishDictionaryDefinitionofBioinformatics(89ComputationInformaticsBiologyBioinformaticsComputationInformaticsBiologyB90算法統(tǒng)計學信息理論圖形學科學可視化圖像識別人工智能密碼學非線性動力學計算機模擬語言學機器學習數(shù)據(jù)庫軟件工程計算機網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預測分子建模藥物設(shè)計同源比較分子進化數(shù)據(jù)庫檢索基因預測儀器設(shè)計數(shù)據(jù)庫構(gòu)建基因調(diào)控基因診斷及治療生物信息學計算機科學和數(shù)學分子生物學
算法數(shù)據(jù)獲取生物信息學計算機科學和數(shù)學分子生物學
91生物信息學研究意義利用數(shù)理統(tǒng)計、模式識別、動態(tài)規(guī)劃、密碼解讀、語意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模型等各種方法對序列、結(jié)構(gòu)數(shù)據(jù)進行定性和定量分析,從中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識闡明細胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時空聯(lián)系探索生命起源、生物進化、生命本質(zhì)等重大理論問題,最終建立“生物學周期表”指導分子生物學實驗生物信息學研究意義利用數(shù)理統(tǒng)計、模式識別、動態(tài)規(guī)劃、密碼解讀92生物信息學全課件93生物信息學–研究方向基因組序列裝配基因識別基因功能預報基因多態(tài)性分析基因進化mRNA結(jié)構(gòu)預測基因芯片設(shè)計基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析蛋白質(zhì)序列分析蛋白質(zhì)家族分類蛋白質(zhì)結(jié)構(gòu)預測蛋白質(zhì)折疊研究代謝途徑分析轉(zhuǎn)錄調(diào)控機制蛋白質(zhì)芯片設(shè)計蛋白質(zhì)芯片數(shù)據(jù)分析藥物設(shè)計生物信息學–研究方向基因組序列裝配蛋白質(zhì)序列分析94三、生物信息學的研究內(nèi)容數(shù)學、計算機科學、生物學1、與HGP相關(guān)的研究內(nèi)容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學相關(guān)4、基因芯片信息學研究三、生物信息學的研究內(nèi)容數(shù)學、計算機科學、生物學95Statistics統(tǒng)計學ProbabilityTheory概率論(特別是隨機過程理論)OperationalResearch運籌學OptimizationTheory&Method最優(yōu)化理論與方法Topology拓撲學(主要是幾何拓撲)FunctionTheory函數(shù)論InformationTheory信息論ComputationalMathematics計算數(shù)學GroupTheory群論數(shù)學(Maths)Statistics統(tǒng)計學ProbabilityTheo96幾個常用數(shù)學模型概念與方法Bayes公式、Bayes統(tǒng)計馬氏鏈(Markovchains)隱馬氏鏈(HiddenMarkovchains)Poisson過程與連續(xù)時間馬氏鏈熵、相對熵與信息增益神經(jīng)網(wǎng)絡(luò)(neuralnetworks(NN)):Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)幾個常用數(shù)學模型概念與方法Bayes公式、Bayes統(tǒng)97網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(特別是關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法的復雜性研究計算機科學(ComputerScience)計算機硬件網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(特別是關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)整合和可視化數(shù)據(jù)挖98生物信息學研究內(nèi)容Alignment
(序列比對)[包括:全序列、局部和多重比對;Fasta,Blast,PSI-Blast]ProteinStructurePrediction
(蛋白質(zhì)結(jié)構(gòu)預測)Computer-AidedGeneRecognitions
(計算機輔助基因識別)[算法紛紜,較著名的為GeneScan,GeneFinder,等;尚存在許多問題]DNALanguage
(DNA語言)MolecularEvolution&ComparedGenomics
(分子進化和比較基因組學)ContigAssembly
(序列重疊群裝配)OriginofGeneticCodes
(遺傳密碼的起源)AnalysisofMetabolizeNetwork
(代謝網(wǎng)絡(luò)分析)GeneChipDesign
(基因芯片設(shè)計)生物信息學研究內(nèi)容Alignment(序列比對)[包99與HGP相關(guān)的生物信息學研究1、高度自動化的實驗數(shù)據(jù)的獲得、加工和整理各種自動化分子生物學儀器應用上,如DNA測序儀,PCR儀等實驗過程高度自動化甚至工廠化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專門的實驗室數(shù)據(jù)管理系統(tǒng)自動完成包括實驗進程和實驗數(shù)據(jù)的紀錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測和問題的自動查找,常規(guī)的數(shù)據(jù)說明和數(shù)據(jù)輸入數(shù)據(jù)庫。目前還沒有成熟的通用的分子生物學數(shù)據(jù)管理系統(tǒng)。與HGP相關(guān)的生物信息學研究1、高度自動化的實驗數(shù)據(jù)的獲得1002、序列片段的拼接目前DNA自動測序儀每個反應只能測序500bp左右,傳統(tǒng)測序方法是將克隆進行亞克隆并對亞克隆進行排序。自動而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鳥槍法進行測序,再將大量隨機測序的片段用計算機進行自動拼接。1.9MbHaemophilusinfluenzae(流感嗜血桿菌)(FleischmannRDetal.,1995)0.58MbMycoplasmugenitalium(枝原體)(FraserCMetal.,1995)0.58Mbjannaschii(甲烷桿菌)(BultCJetal.,1996)有待改進:將已知的基因組知識應用于拼接算法,進一步提高拼接真核基因組的有效性;自動處理自動測序造成的差錯2、序列片段的拼接目前DNA自動測序儀每個反應只能測序500101生物信息學全課件102AlignmentAlignment
(序列比對、聯(lián)配、對齊等)
包括:全序列、局部多重比對;Fasta,Blast,PSI-BlastAGCGGTGCAGGTTACTGCGCGTAGTAC…|||ACGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…||||||||||||||||||A_CGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…|||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGC_GCGTAGTAC…|||||||||||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…序列一序列二AlignmentAlignmentAGCGGT103RawDNAsequenceGeneBank:11.5Millonsequence12.5billionbasesSeparatingcodingandnon-codingIdentificationofintronsandexonsGeneproductpredictionForensicanalysisRawDNAsequenceGeneBank:104基因識別識別基因組編碼區(qū),識別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預測(不是用同源搜索的方法來識別基因) 從頭開始基因預測 基于知識的基因預測(密碼子使用,堿基組成,剪切位點特征,PolyA信號,2、3、6核苷酸頻率,轉(zhuǎn)錄信號,轉(zhuǎn)譯信號,尺寸分布)基因識別識別基因組編碼區(qū),識別基因結(jié)構(gòu)105基因預測的步驟:1、識別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來,形成可能的基因4、確保該可能的基因沒有內(nèi)部的移位或終止密碼子5、leftovers:shadowexons算法:Rule-basedsystem,linguisticsystem,lineardiscriminantanalysis,decisiontree,splicedalignment,fourieranalysis基因預測的步驟:106生物信息學全課件107生物信息學全課件108EvaluatingGenePrediction敏感性(Sensitivity)敏感性=預測基因中確為基因的數(shù)目/待測序列中的基因數(shù)目;Howmanyexonswerecorrectlypredicted?特異性(Specifity)特異性=預測基因中確為基因的數(shù)目/預測基因數(shù)目Howmanyexonpredictionsaretrue?EvaluatingGenePrediction敏感性(109生物學家們?yōu)槿祟惢虻臄?shù)目打賭雖然人類基因組的草圖很快就要完成,但生物學家們對基因組里到底有多少基因的猜測仍有極大的不同。最近在美國紐約冷泉港召開的一個會議上,他們設(shè)立了一美元一個(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者JamesWatson親筆簽名的皮革封面《雙螺旋》一書。如果基因組是生命的天書,那么基因就是寫成這本書的詞匯。生物學家們一直假設(shè),微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬到10萬個基因。但是美國加州大學伯克利分校的果蠅基因組計劃的主任GeraldRubin指出,果蠅的基因比我們所認為的最簡單的線蟲少了5000個。他警告說:“生物體的復雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?!贝_實,根據(jù)目前已測序完成的人類基因組第21對、22對染色體的經(jīng)驗,德國分子生物技術(shù)研究所的AndreRosenthal說,我們得出的結(jié)論是整個基因組有不多于4萬個基因。法國的分子遺傳學家HuguesRoestCrollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計:在27700與34300之間。美國西雅圖華盛頓大學的基因?qū)W家PhilGreen是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人類基因數(shù)大約為35000。Green說:“我們使用了3種獨立的計算方法得出了這些較低的基因數(shù)估計,我確信基因數(shù)目就在這個范圍內(nèi)。”美國國家人類基因組研究所主任FrancisCollins表示他同意Green的估計,將他1美元的賭金下在48011個基因上。但馬里蘭Rockville的基因組研究所(TIGR)的JohnQuackenbush根據(jù)TIGR的人類基因指數(shù)的估計,將他的1美元賭在118259個基因上。加州IncyteGenomics公司的SamLaBrie賭的基因數(shù)是153478個,該公司在1999年9月曾宣布人類基因至少有14萬個。但是支持人類基因數(shù)目是一個較小數(shù)的科學家們也不灰心,他們爭論說生物體的復雜性來自于基因如何被管理或表達的,而不是基因數(shù)目本身。Rosenthal解釋說:“我們不需要那么多的基因成為高等動物,”他賭的是38000個。你賭多少呢?生物學家們?yōu)槿祟惢虻臄?shù)目打賭110基因功能預測(1)序列同源比較如果基因A與基因B有相當?shù)耐葱裕敲椿駻可能具有類似基因B的功能。公共數(shù)據(jù)庫:GenBank,EMBL,DDBJ功能數(shù)據(jù)庫:dbEST,dbSTS,dbGSS(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 樹木供銷合同范例
- 違法倉庫合同范例簡約
- 人才勞動合同范例
- 2024至2030年中國皮革涂料行業(yè)投資前景及策略咨詢研究報告
- 2024年呼出氣體酒精含量測試儀項目可行性研究報告
- 2024至2030年阻燃型雙組分室溫硫化硅橡膠項目投資價值分析報告
- 2024至2030年氨氣項目投資價值分析報告
- 工業(yè)園區(qū)安全管理體系建設(shè)
- 2024至2030年卷簾軌道項目投資價值分析報告
- 企業(yè)級高效模具設(shè)計秘訣
- TDT 1079-2023 不動產(chǎn)登記信息管理基礎(chǔ)平臺接入技術(shù)規(guī)范
- CJT480-2015 高密度聚乙烯外護管聚氨酯發(fā)泡預制直埋保溫復合塑料管
- 兒科三基測試試題庫及答案
- JCT 1021.2-2023 非金屬礦物和巖石化學分析方法 第2部分 硅酸鹽巖石、礦物及硅質(zhì)原料化學分析方法 (正式版)
- 2024年充換電站項目合作計劃書
- 教師口語藝術(shù)智慧樹知到期末考試答案章節(jié)答案2024年魯東大學
- 理論力學智慧樹知到期末考試答案章節(jié)答案2024年寧波大學
- 2024年江蘇省高中學業(yè)水平合格性考試數(shù)學試卷試題(答案詳解1)
- 中醫(yī)康復技術(shù)發(fā)展現(xiàn)狀分析報告
- 幼兒園班級常規(guī)檢查記錄表
- 江蘇省2023年普通高中學業(yè)水平合格性考試化學試卷(含答案)
評論
0/150
提交評論