生物信息學李霞市公開課金獎市賽課一等獎?wù)n件_第1頁
生物信息學李霞市公開課金獎市賽課一等獎?wù)n件_第2頁
生物信息學李霞市公開課金獎市賽課一等獎?wù)n件_第3頁
生物信息學李霞市公開課金獎市賽課一等獎?wù)n件_第4頁
生物信息學李霞市公開課金獎市賽課一等獎?wù)n件_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一章DNA、RNA和

蛋白質(zhì)序列信息資源

DNA、RNAAndProteinSequenceInformationResources中國醫(yī)科大學趙雨杰

第1頁生物信息學(bioinformatics)

在生命科學研究中發(fā)展起來一門由分子生物學與計算機信息處理技術(shù)相結(jié)合,以計算機為研究工具對生物信息進行獲取、處理、儲存、傳輸、分析、模擬和解釋交叉學科。第2頁生物信息學研究內(nèi)容它利用數(shù)據(jù)庫技術(shù)和軟件技術(shù)對大量積累生物大分子序列數(shù)據(jù)進行比較和分析,揭示出生物大分子分子結(jié)構(gòu)、功效和進化關(guān)系以及基因組組成與基因表示等生物學事件對生命活動影響。

第3頁生物信息學研究重點主要表示在基因組學(genomics)和蛋白質(zhì)組學(proteomics)兩方面。它從核酸和蛋白質(zhì)序列出發(fā),分析序列中與結(jié)構(gòu)、功效相關(guān)生物信息表示。第4頁生物信息學數(shù)據(jù)庫生物信息學中各類數(shù)據(jù)庫幾乎覆蓋了生命科學各個領(lǐng)域,如核酸序列數(shù)據(jù)庫,蛋白質(zhì)序列數(shù)據(jù)庫,蛋白質(zhì)、核酸、多糖三維結(jié)構(gòu)數(shù)據(jù)庫,基因組數(shù)據(jù)庫,文件數(shù)據(jù)庫和其它種類數(shù)據(jù)庫。第5頁生物信息學數(shù)據(jù)庫分類

生物信息數(shù)據(jù)庫種類繁多,就當前來看,大致能夠分為四個大類:

1.基因組數(shù)據(jù)庫;

2.核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫;

3.生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫;

4.依據(jù)以上三類數(shù)據(jù)庫和文件資料為基礎(chǔ)構(gòu)建二次數(shù)據(jù)庫。也稱專門數(shù)據(jù)庫、專業(yè)數(shù)據(jù)庫或?qū)S脭?shù)據(jù)庫。一次數(shù)據(jù)庫第6頁第二節(jié)核酸序列數(shù)據(jù)庫

Section2NucleicAcidsequenceDatabases自20世紀80年代第一個核酸數(shù)據(jù)庫建立以來,核酸數(shù)據(jù)庫快速發(fā)展。在互聯(lián)網(wǎng)上不但有核酸序列數(shù)據(jù)庫,還出現(xiàn)了基因組相關(guān)數(shù)據(jù)庫、核酸三維結(jié)構(gòu)數(shù)據(jù)庫、基因表示數(shù)據(jù)庫、人類基因突變及疾病相關(guān)數(shù)據(jù)庫、進化相關(guān)數(shù)據(jù)庫及其它與核酸相關(guān)數(shù)據(jù)庫。第7頁三大核酸序列數(shù)據(jù)庫GenBankEMBLDDBJ

第8頁特殊類型核酸序列數(shù)據(jù)庫:非編碼RNA數(shù)據(jù)庫(ncRNA);表示序列標簽數(shù)據(jù)庫(dbEST);序列標簽位點數(shù)據(jù)庫(dbSTS);miRBase;tRNAdb等。第9頁基因組相關(guān)數(shù)據(jù)庫:人類基因組數(shù)據(jù)庫(HGD);基因組序列數(shù)據(jù)庫(GSDB);基因組在線數(shù)據(jù)庫(GOLD)等。第10頁核酸三維結(jié)構(gòu)數(shù)據(jù)庫:核苷酸三維結(jié)構(gòu)數(shù)據(jù)庫(NDB);普納大學核酸結(jié)構(gòu)數(shù)據(jù)庫(BNASDB)等。第11頁基因表示數(shù)據(jù)庫:基因表示庫(GEO);斯坦福微陣列數(shù)據(jù)庫(SMD);ArrayExpress;CGED;GXD;BodyMap等。第12頁人類基因突變及疾病相關(guān)數(shù)據(jù)庫:人類基因變異數(shù)據(jù)庫(HMGD)、人類遺傳雙等位基因序列數(shù)據(jù)庫(HGBASE)、人類孟德爾遺傳在線(OMIM)、國際單體型計劃(HapMap)、人類單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)、腫瘤基因數(shù)據(jù)庫(TGDB)、疾病關(guān)聯(lián)數(shù)據(jù)庫(GAD)、癌癥基因數(shù)據(jù)庫(CGAP)、人類表觀遺傳數(shù)據(jù)庫(HEP)、人類DNA甲基化與癌癥數(shù)據(jù)庫(MethylCancer)等。第13頁一、GenBank數(shù)據(jù)庫GenBank()是一個綜合數(shù)據(jù)庫,該數(shù)據(jù)庫中包含了已經(jīng)公開30萬余種不一樣物種生物核酸序列,這些數(shù)據(jù)主要起源于全世界不一樣試驗室和大規(guī)模測序計劃項目。

第14頁GenBank是含有目錄和生物學注釋核酸序列綜合數(shù)據(jù)庫,由美國國家醫(yī)學圖書館國家生物技術(shù)信息中心構(gòu)建、維護和管理。該中心位于美國馬里蘭國家健康研究所(NIH)。GenBank數(shù)據(jù)庫序列數(shù)據(jù)起源于序列發(fā)覺者提交序列、批量提交表示序列標簽(expressedsequencetag,EST)、基因組測序序列(genomesurveysequence,GSS)和其它測序中心提供高通量數(shù)據(jù),還包含美國專利商標局提供已發(fā)表專利序列數(shù)據(jù)。第15頁GenBank數(shù)據(jù)庫天天與歐洲分子生物學試驗室核酸序列數(shù)據(jù)庫(EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase,EMBL)和日本DNA數(shù)據(jù)庫(DNADataBankofJapanDDBJ)進行數(shù)據(jù)交換,以確保數(shù)據(jù)庫內(nèi)容在全世界范圍同時性。第16頁在NCBI()主頁上提供了進入GenBank路徑、相關(guān)檢索和分析服務(wù)。經(jīng)過NCBI檢索系統(tǒng)(Entrez)能夠進入GenBank。Entrez檢索程序整合了主要DNA和蛋白序列數(shù)據(jù)分類學、基因組、圖譜、蛋白結(jié)構(gòu)和結(jié)構(gòu)(功效)域信息,還包含相關(guān)PubMed生物醫(yī)學文件信息。BLAST程序提供GenBank和其它序列數(shù)據(jù)庫中序列相同性搜索服務(wù)。

第17頁(一)GenBank數(shù)據(jù)庫結(jié)構(gòu)1.依據(jù)序列物種起源分類2.Genbank統(tǒng)計和分類2.1表示序列標簽(EST)2.2序列標簽位點(STS)、基因組勘測序列(GSS)和環(huán)境樣品序列(ENV)2.3高通量基因組(HTG)和高通量cDNA(HTC)序列2.4全基因組鳥槍測序序列(WGS)2.5轉(zhuǎn)錄組鳥槍組合序列第18頁(一)GenBank數(shù)據(jù)庫結(jié)構(gòu)3.特殊統(tǒng)計類型3.1第三方注釋(TPA)3.2GenBankCON統(tǒng)計較小統(tǒng)計組合統(tǒng)計第19頁(二)構(gòu)建數(shù)據(jù)庫1.直接電子提交1.1使用BankIt提交1.2使用Sequin和tbl2asn提交1.3條形碼序列提交2.序列標識符和統(tǒng)計號第20頁(三)檢索GenBank數(shù)據(jù)1.Entrez系統(tǒng)()2.與測序計劃檢索相關(guān)序列統(tǒng)計()3.BLAST序列相同性搜索()4.用FTP獲取GenBank()第21頁二、EMBL數(shù)據(jù)庫EMBL建立于1980年,EMBL核苷序列數(shù)據(jù)庫(http://)是歐洲主要核苷序列搜集單位,歐洲生物信息中心EBI(即EMBL在德國海德堡站點)維護這個數(shù)據(jù)庫。核苷數(shù)據(jù)來自基因組測序中心、世界各地科學家、歐洲專利局、以及與合作搭檔DDBJ(Japan)和GenBank(USA)交換數(shù)據(jù)。第22頁三、DDBJ數(shù)據(jù)庫日本DNA數(shù)據(jù)庫(DDBJ)是在亞洲唯一核酸序列數(shù)據(jù)庫,是搜集研究者公認測定核酸序列數(shù)據(jù)庫,而且發(fā)放給數(shù)據(jù)提交者國際認證核酸序列編號。因為DDBJ天天將搜集數(shù)據(jù)與EMBL-Bank/EBI和GenBank/NCBI進行交換,使得三個核酸數(shù)據(jù)庫幾乎在任何時候都享受相同數(shù)據(jù)。DDBJ主要搜集來自日本研究者取得序列數(shù)據(jù),但也搜集數(shù)據(jù)和發(fā)放編號給任何其它國家研究者。第23頁四、其它主要核酸序列數(shù)據(jù)庫dbEST:dbEST是GenBank中一個子數(shù)據(jù)庫,包含起源于不一樣物種表示序列數(shù)據(jù)和表示序列標簽序列其它信息。ncRNAdb:非編碼RNA(non-codingRNAncRNA)數(shù)據(jù)庫意在提供非編碼RNA序列和功效信息。miRBase:miRBase序列數(shù)據(jù)庫主要存放已發(fā)表微小RNA(microRNAmiRNA)序列和注釋數(shù)據(jù)庫。第24頁第三節(jié)蛋白質(zhì)序列數(shù)據(jù)庫

Section3ProteinSequenceDatabase

伴隨分子生物學發(fā)展,人們?nèi)〉昧嗽絹碓蕉嚓P(guān)于蛋白質(zhì)序列、結(jié)構(gòu)和功效信息。世界各國生物學家和計算機科學家合作利用這些信息構(gòu)建了蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫、蛋白質(zhì)組數(shù)據(jù)庫(二維凝膠電泳數(shù)據(jù)庫)、信號傳導及蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)數(shù)據(jù)庫、DNA和蛋白質(zhì)相互作用數(shù)據(jù)庫等蛋白質(zhì)相關(guān)數(shù)據(jù)庫。

第25頁慣用蛋白質(zhì)序列數(shù)據(jù)庫:PIRMIPSSwiss-Prot第26頁蛋白質(zhì)功效、結(jié)構(gòu)域和蛋白質(zhì)家族相關(guān)數(shù)據(jù)庫:PROSITEInterProPfamProDomSMART等第27頁蛋白質(zhì)三維結(jié)構(gòu)相關(guān)數(shù)據(jù)庫:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等第28頁蛋白質(zhì)二維凝膠電泳數(shù)據(jù)庫:WORLD-2DPAGEPhoretixlinks第29頁信號傳導及蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)數(shù)據(jù)庫:DIPINTERACTProNetKEGGCANSITESPADCSNDB等第30頁DNA和蛋白質(zhì)相互作用數(shù)據(jù)庫:DPInteract蛋白質(zhì)翻譯后修飾相關(guān)數(shù)據(jù)庫:O-GlycBase、PhosphoBase、RES蛋白質(zhì)等蛋白質(zhì)第31頁一、PIR數(shù)據(jù)庫蛋白質(zhì)信息庫(PIR)()是一個支持基因組學、蛋白質(zhì)組學和系統(tǒng)生物學檢索和科學研究綜合公共生物信息學資源。PIR是由美國國家生物醫(yī)學基金會(NBRF)于1984年建立,幫助研究者確認和解釋蛋白序列信息數(shù)據(jù)庫。PIR無償為科學界提供包含蛋白序列數(shù)據(jù)庫(PSD)在內(nèi)蛋白數(shù)據(jù)庫和分析工具。第32頁PIR信息庫資源第33頁PIR主要數(shù)據(jù)庫:1.UniProt-通用蛋白質(zhì)資源庫2.iProClass-蛋白質(zhì)知識整合數(shù)據(jù)庫3.PIRSF-蛋白質(zhì)家族分類系統(tǒng)4.iProLINK-蛋白質(zhì)文件、信息和知識整合數(shù)據(jù)庫第34頁1.UniProt-通用蛋白質(zhì)資源庫UniProt()是存放和鏈接其它蛋白質(zhì)數(shù)據(jù)庫資源庫,而且是蛋白質(zhì)序列和含有綜合功效注釋目錄中心資源庫。使用UniprotKB能夠檢索準確、可靠蛋白綜合信息。使用UniRef能夠降低冗余,加速序列相同性搜索。使用UniParc能夠檢索存檔序列和它們起源數(shù)據(jù)庫。第35頁2.iProClass-蛋白質(zhì)知識整合數(shù)據(jù)庫iProClass()提供來自90多個生物學數(shù)據(jù)庫大量整合數(shù)據(jù),包含蛋白ID圖譜服務(wù)、UniProtKB編注蛋白質(zhì)摘要描述和篩選UnParc數(shù)據(jù)庫蛋白質(zhì)序列。使用iProClass能夠檢索最新蛋白質(zhì)綜合信息,包含:功效、轉(zhuǎn)導通路、相互作用、家族分類、基因和基因組、功效注釋標準體系(ontology)、文件和分類學信息。使用iProClass還能夠檢索ID圖譜、蛋白質(zhì)詞典和相關(guān)序列。第36頁3.PIRSF-蛋白質(zhì)家族分類系統(tǒng)PIRSF()分類系統(tǒng)概要敘述家族特征,如家族名稱、分類分布、分級和功效域結(jié)構(gòu),以及家族組員,包含功效、結(jié)構(gòu)、傳導通路、功效注釋標準體系(ontology)和家族分類。利用這些信息能夠取得蛋白質(zhì)準確功效或預測功效和該蛋白質(zhì)所屬家族組員共有其它特征。第37頁4.iProLINK-蛋白質(zhì)文件、信息和知識整合數(shù)據(jù)庫iProLINK()提供相關(guān)注釋內(nèi)容文件、蛋白質(zhì)名稱詞典和其它有利于文件挖掘人文語言處理技術(shù)開發(fā)信息、數(shù)據(jù)庫校正、蛋白質(zhì)名稱標識和功效注釋標準體系(ontology)。使用iProLINK能夠取得描述蛋白質(zhì)統(tǒng)計文本文件資源,在UniProtKB統(tǒng)計(生物詞典)中加入蛋白質(zhì)或基因命名圖譜,取得用于開發(fā)文本挖掘算法注釋數(shù)據(jù)集、挖掘蛋白質(zhì)磷酸化(RLIMS-P)文件和取得蛋白質(zhì)功效注釋標準體系(ontology)(PRO)信息。第38頁二、MIPS數(shù)據(jù)庫慕尼黑蛋白質(zhì)序列信息中心(MIPS)(),它重點工作是基因組生物信息學,尤其重視基因組信息系統(tǒng)分析,包含應(yīng)用生物信息學方法注釋基因組、表示分析和蛋白質(zhì)組學方面研究。MIPS支持和維護一系列基因組數(shù)據(jù)庫以及系統(tǒng),能夠提供細菌、真菌和植物基因組比較分析服務(wù)。在該站點提供基因組分析工具、數(shù)據(jù)庫檢索系統(tǒng)、表示分析、蛋白相互作用等網(wǎng)絡(luò)服務(wù)。

第39頁三、其它主要蛋白質(zhì)序列數(shù)據(jù)庫:PRINTSPfam第40頁(一)PRINTSPRINTS()是蛋白基序指紋圖綜合數(shù)據(jù)庫,每個指紋圖都是使用數(shù)據(jù)掃描程序ADSP或VISTAS序列分析軟件包重復優(yōu)化后定義。數(shù)據(jù)庫中有兩種類型指紋圖,依據(jù)指紋圖復雜性分為簡單和復合指紋圖:簡單指紋圖基本上是單一基序,而復合指紋圖包含多個基序。

第41頁(二)Pfam蛋白質(zhì)普通是由一個或多個功效區(qū)域組成,這些功效區(qū)域通常稱作域(domain)。在不一樣蛋白質(zhì)中不一樣域以不一樣組合出現(xiàn),造成在自然界發(fā)覺各種多樣組成成份蛋白質(zhì)。識別出現(xiàn)在蛋白質(zhì)中域能夠了解蛋白質(zhì)功效。Pfam數(shù)據(jù)庫()是一個大蛋白質(zhì)域家族集合,每個家族是用多序列比對和隱馬模型(HMMs)分析結(jié)果代表。第42頁第四節(jié)NCBI與EBI

Section4NCBIandEBI一、NCBI介紹二、EBI介紹第43頁一、NCBI介紹作為一個國家分子生物學信息資源,NCBI使命是開發(fā)新信息技術(shù),幫助了解控制健康和疾病基本分子和遺傳過程。尤其是,NCBI擔負建立存放和分析分子生物學、生物化學和遺傳學知識自動系統(tǒng);提供研究和醫(yī)學界使用方便數(shù)據(jù)庫和軟件;努力協(xié)調(diào)搜集國內(nèi)外生物技術(shù)信息;執(zhí)行分析生物學主要分子結(jié)構(gòu)和功效先進研究方法。第44頁二、EBI介紹歐洲生物信息學研究所(EMBL-EBI),是歐洲分子生物學試驗室(EMBL)一部分,EMBL-EBI維護世界上最廣泛分子數(shù)據(jù)庫。EMBL-EBI是在全球范圍內(nèi),努力協(xié)調(diào)搜集和傳輸生物學數(shù)據(jù)歐洲節(jié)點,EMBL-EBI許多數(shù)據(jù)庫是生物學家們熟知,包含:EMBL-Bank(DNA和RNA序列)、Ensemble(基因組)、ArrayExpress(基于微陣列基因表示數(shù)據(jù))、UniProt(蛋白質(zhì)序列)、InterPro(蛋白家族、域和基序)、Reactome(傳導通路)和ChEBI(小分子),新資源幫助研究者不但了解組成生物體分子部件,還了解這些部件是怎樣組合組成系統(tǒng)。

第45頁三、經(jīng)過EntrezGene從NCBI獲取序列信息Entrez主要是用于NCBI數(shù)據(jù)庫綜合、基于文本搜索和檢索系統(tǒng)。Entrez綜合了科學文件、DNA和蛋白序列數(shù)據(jù)、3D蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)域數(shù)據(jù)、種群研究數(shù)據(jù)集、表示數(shù)據(jù)、完整基因組組裝和分類學信息,形成一個緊密鏈接系統(tǒng)。它用于搜索NCBI鏈接數(shù)據(jù)庫檢索系統(tǒng)。第46頁Entrez檢索系統(tǒng)子數(shù)據(jù)庫第47頁(一)EntrezGene檢索EntrezGene檢索到統(tǒng)計提供關(guān)鍵鏈接,將圖譜、序列、表示、結(jié)構(gòu)、功效、索引文件和同源數(shù)據(jù)鏈接在一起組成關(guān)鍵鏈接。用定義序列、已知圖譜定位和從表型信息推測基因,為基因分配特有標識符。這些標識符在NCBI數(shù)據(jù)庫中通用,能夠用于注釋更新跟蹤和相關(guān)信息跟蹤。EntrezGene用NCBI參考序列(RefSeqs)覆蓋了基因組,還被整合到NCBIEntrez和E-Utilities系統(tǒng)索引、查詢和檢索中。

第48頁NCBI檢索首頁檢索窗口數(shù)據(jù)庫

選項下拉菜單第49頁檢索欄(for)輸入“IL-2human”

第50頁(二)EntrezGene統(tǒng)計顯示格式當進行檢索時,檢索結(jié)果以摘要(summary)格式顯示,每頁可顯示多條統(tǒng)計,摘要顯示每條統(tǒng)計前有一個選擇框,能夠選擇哪些統(tǒng)計需要顯示。顯示內(nèi)容還包含首選名稱標志、完整全名、雙單詞物種名稱(在方括號中)、基因組定位和基因編號。假如基因在已命名質(zhì)粒上,那么作為基因定位將給出質(zhì)粒名稱。右側(cè)Links能夠關(guān)聯(lián)到顯示相關(guān)Entrez統(tǒng)計,查對希望顯示統(tǒng)計,選擇灰色查詢條目中顯示選項,能夠顯示希望顯示相關(guān)統(tǒng)計。第51頁EntrezGene檢索結(jié)果摘要格式顯示頁面

第52頁EntrezGene全文匯報頁面(前部分)第53頁EntrezGene全文匯報頁面(后部分)第54頁

IL2mRNANucleotide數(shù)據(jù)庫統(tǒng)計檢索結(jié)果顯示界面

第55頁(三)Nucleotide數(shù)據(jù)庫統(tǒng)計顯示格式

Nucleotide數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論