




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
生物序列的數(shù)據(jù)庫信息檢索第一頁,共六十九頁,2022年,8月28日本章內(nèi)容提要1,序列數(shù)據(jù)庫2,功能數(shù)據(jù)庫3,檢索系統(tǒng)4,雙序列Blast比對實例5,序列數(shù)據(jù)信息檢索實例第二頁,共六十九頁,2022年,8月28日第三頁,共六十九頁,2022年,8月28日1,序列數(shù)據(jù)庫核酸序列數(shù)據(jù)庫國際三大核酸序列數(shù)據(jù)庫:GenBank,EBML,DDBJRefSeq:TheReferenceSequence
DatabasedbEST:ExpressedSequencesTags數(shù)據(jù)庫UniGene等蛋白質(zhì)序列數(shù)據(jù)庫UniProt(Swiss-prot&TrEMBL,PIR)基因組數(shù)據(jù)庫:Ensembl第四頁,共六十九頁,2022年,8月28日NCBI數(shù)據(jù)資源第五頁,共六十九頁,2022年,8月28日Nucleotide:核酸序列數(shù)據(jù)庫PubMed:生物醫(yī)學(xué)科學(xué)文摘數(shù)據(jù)庫GEO:基因表達(dá)譜數(shù)據(jù)庫。收集存儲微陣列基因表達(dá)數(shù)據(jù)Protein:蛋白質(zhì)序列數(shù)據(jù)庫SNP:單核苷酸多態(tài)性數(shù)據(jù)庫Taxonomy:物種分類學(xué)數(shù)據(jù)庫Gene:基因數(shù)據(jù)庫。提供序列及基因描述信息Structure:大分子三維結(jié)構(gòu)數(shù)據(jù)庫3DDomains:特定功能域的三維結(jié)構(gòu)數(shù)據(jù)庫UniGene:GenBank分離的非冗余基因簇。包含已確定基因和EST。每個簇包含唯一的非冗余的基因序列、表達(dá)的組織類型和基因圖譜位點。第六頁,共六十九頁,2022年,8月28日UniSTS:序列標(biāo)簽位點數(shù)據(jù)庫,用于作圖位點PopSet:人口研究數(shù)據(jù)庫Books:在線生物醫(yī)學(xué)圖書數(shù)據(jù)庫OMIM:在線人類孟德爾遺傳目錄數(shù)據(jù)庫ConservedDomains:保守結(jié)構(gòu)域數(shù)據(jù)庫CancerChromosomes:癌癥染色體數(shù)據(jù)庫Homologene:基因同源物數(shù)據(jù)庫Journals:雜志及出版社信息數(shù)據(jù)庫Genome:基因組數(shù)據(jù)庫,提供完成的基因組/染色體圖形GDS:GEO的基因表達(dá)實驗與生物芯片數(shù)值結(jié)果數(shù)據(jù)庫第七頁,共六十九頁,2022年,8月28日NCBI主要基因序列數(shù)據(jù)庫
GenBank:包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。其數(shù)據(jù)直接來源于測序工作者提交的序列,為原始數(shù)據(jù)積累的開放數(shù)據(jù)庫,數(shù)據(jù)可能存在重復(fù)以及不準(zhǔn)確。
UniGene:對核酸序列數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行適當(dāng)處理,剔除冗余部分后,同一基因包括表達(dá)序列標(biāo)簽的序列簇,多用于研究基因的轉(zhuǎn)錄圖譜。
RefSeq:提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的序列信息;包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒)、蛋白質(zhì)、RNA等。第八頁,共六十九頁,2022年,8月28日NucleotidedatabaseincludingGenBank,RefSeq,TPAandPDB.Genome,geneandtranscriptsequencedataprovidethefoundationforbiomedicalresearchanddiscovery.第九頁,共六十九頁,2022年,8月28日Entres-Gene數(shù)據(jù)庫序列來源于Refseq數(shù)據(jù)庫;
詳盡的注釋信息,包括基因在基因組的定位,基因名稱、蛋白質(zhì)名稱,基因結(jié)構(gòu)等;基因的命名主要來自權(quán)威命名委員會的官方符號以及Refseq記錄中的基因名,由NCBI工作人員進(jìn)行數(shù)據(jù)收集并注釋。NLM的索引部門對基因功能進(jìn)行闡述。沿用人類孟德爾遺傳網(wǎng)(OMIM)中的疾病名稱并與NCBI其他數(shù)據(jù)庫形成交互鏈接。第十頁,共六十九頁,2022年,8月28日NCBIGene第十一頁,共六十九頁,2022年,8月28日UniProtUniversalProteinResource:Swiss-prot(TrEMBL),
PIR兩大蛋白數(shù)據(jù)庫的整合體;收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫;包含三個子庫:UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)第十二頁,共六十九頁,2022年,8月28日第十三頁,共六十九頁,2022年,8月28日PROSITE收集了生物學(xué)有顯著意義的蛋白質(zhì)位點和序列模式;根據(jù)這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個蛋白質(zhì)家族;序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;第十四頁,共六十九頁,2022年,8月28日PROSITE第十五頁,共六十九頁,2022年,8月28日2,功能數(shù)據(jù)庫相互作用的蛋白質(zhì)數(shù)據(jù)庫DIP轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫TRRD…GeneOntology(GO)第十六頁,共六十九頁,2022年,8月28日相互作用的蛋白質(zhì)數(shù)據(jù)庫DIP收集了由實驗驗證的蛋白質(zhì)-蛋白質(zhì)相互作用;包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實驗技術(shù)三個部分;用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實驗技術(shù)或引用文獻(xiàn)來查詢DIP數(shù)據(jù)庫;第十七頁,共六十九頁,2022年,8月28日轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫TRRD
在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建;每一個TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點、啟動子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等;第十八頁,共六十九頁,2022年,8月28日GeneOntology(GO)基因功能歸類注釋;
最基本的概念是term;每個term都有一個唯一的數(shù)字標(biāo)記(GO:nnnnnnn)和一個term名,比如“signaltransduction”。每個term都屬于一個ontology。一個基因或蛋白質(zhì)可從三個Ontology層面來注解:molecularfunction;cellularcomponent;biologicalprocess;第十九頁,共六十九頁,2022年,8月28日GeneOntology第二十頁,共六十九頁,2022年,8月28日3,檢索系統(tǒng)NCBI:EntrezEBI:SRSExPASy…第二十一頁,共六十九頁,2022年,8月28日NCBI:Entrez第二十二頁,共六十九頁,2022年,8月28日NCBI:Entrez第二十三頁,共六十九頁,2022年,8月28日檢索規(guī)則邏輯運(yùn)算符(大寫):AND,OR,NOT運(yùn)算過程由左至右,()部分優(yōu)先空格分隔默認(rèn)邏輯關(guān)系為AND多個單詞短語加雙引號模糊檢索使用*用[]限定字段,如限定基因名稱為ATG1的檢索:ATG1[GENE]第二十四頁,共六十九頁,2022年,8月28日EBI-SRS:SequenceRetrievalSystem歐洲生物信息研究所(EBI)開發(fā)的基于WEB的數(shù)據(jù)庫檢索及導(dǎo)航系統(tǒng);第二十五頁,共六十九頁,2022年,8月28日ExPASyExpertProteinAnalysisSystem;瑞士生物信息研究所SIB下屬的蛋白質(zhì)分析專家系統(tǒng);ExPASy的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫外,也是國際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心,為用戶提供大量蛋白質(zhì)信息資源。第二十六頁,共六十九頁,2022年,8月28日4,雙序列Blast比對實例PDGF-related-transformingproteinsis(Woollymonkeysarcomavirus)
MTLTWQGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGKRSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQRAKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGAPlatelet-derivedgrowthfactorsubunitB(Homosapiens)
MNRCWALFLSLCCYLRLVSAEGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGRRSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQRAKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA第二十七頁,共六十九頁,2022年,8月28日BCNI:Blast第二十八頁,共六十九頁,2022年,8月28日第二十九頁,共六十九頁,2022年,8月28日雙序列比對結(jié)果第三十頁,共六十九頁,2022年,8月28日ScoreScore:使用打分矩陣對匹配的片段進(jìn)行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、相似性越高則Score值越大。Identities:exactmatchesPositives:similaritiesbasedonthescoringmatrixused.第三十一頁,共六十九頁,2022年,8月28日E-ValueExpectvalue:在一個特定大小的數(shù)據(jù)庫中碰巧搜索到打分值約為Score的不同序列的個數(shù)。E值隨Score增加,呈指數(shù)減少;實質(zhì)上,E指反映隨機(jī)本底噪音;越接近零,表明該打分值的顯著性越好。
相同序列相似性的比對,序列越長則E-Value越小,反映偶然發(fā)生的概率越小。第三十二頁,共六十九頁,2022年,8月28日5,序列數(shù)據(jù)信息檢索實例某天,Prof.Gene發(fā)現(xiàn)人的Hela細(xì)胞中,有絲分裂期間有異常情況:細(xì)胞不再分裂,而是開始凋亡(phenotype),通過實驗的方法(例如,酵母雙雜交),發(fā)現(xiàn)了與有絲分裂期間某個蛋白可能相互作用的一個基因,測序結(jié)果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC第三十三頁,共六十九頁,2022年,8月28日問題一:這是什么基因?第三十四頁,共六十九頁,2022年,8月28日nucleotideblast第三十五頁,共六十九頁,2022年,8月28日提交序列輸入序列第三十六頁,共六十九頁,2022年,8月28日Blast結(jié)果第三十七頁,共六十九頁,2022年,8月28日Blast結(jié)果2Geneinfo:基因信息Accession:NM_001168.2第三十八頁,共六十九頁,2022年,8月28日BIRC5(survivin)第三十九頁,共六十九頁,2022年,8月28日Geneinfo:17號染色體第四十頁,共六十九頁,2022年,8月28日功能注釋:GeneOntology第四十一頁,共六十九頁,2022年,8月28日結(jié)論一1.該基因為人的BIRC5(survivin)基因,染色體定位:17號染色體,73721872-73733311;基因標(biāo)識符:NM_001168.2;2.初步的功能分析:細(xì)胞周期,caspase酶的抑制因子,等等。第四十二頁,共六十九頁,2022年,8月28日問題二:編碼的蛋白質(zhì)序列是怎樣的?第四十三頁,共六十九頁,2022年,8月28日NM_001168.2第四十四頁,共六十九頁,2022年,8月28日獲取蛋白質(zhì)的序列信息第四十五頁,共六十九頁,2022年,8月28日NP_001159.2:142aa第四十六頁,共六十九頁,2022年,8月28日結(jié)論二人的Survivin蛋白質(zhì)包含142個氨基酸,序列標(biāo)識符為:NP_001159.2第四十七頁,共六十九頁,2022年,8月28日問題三:
有沒有保守的功能結(jié)構(gòu)域(domain)?第四十八頁,共六十九頁,2022年,8月28日獲取FASTA序列第四十九頁,共六十九頁,2022年,8月28日FASTA格式的序列第五十頁,共六十九頁,2022年,8月28日查詢保守結(jié)構(gòu)域第五十一頁,共六十九頁,2022年,8月28日輸入蛋白質(zhì)的FASTA序列第五十二頁,共六十九頁,2022年,8月28日BIRdomain第五十三頁,共六十九頁,2022年,8月28日結(jié)論三Survivin具有保守的功能結(jié)構(gòu)域BIR第五十四頁,共六十九頁,2022年,8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度購房定金支付及違約責(zé)任協(xié)議
- 二零二五年度商業(yè)地產(chǎn)市場調(diào)研評估委托合同
- 二零二五年度餐飲行業(yè)掛靠合作經(jīng)營合同
- 二零二五年度三年期勞動合同漲薪與績效考核體系合同
- 二零二五年度自來水供應(yīng)與用水戶信息公開合同
- 二零二五年度個人債權(quán)轉(zhuǎn)讓合同模板(智能穿戴設(shè)備債權(quán)整合)
- 二零二五年度新能源汽車企業(yè)職工招聘與產(chǎn)業(yè)鏈整合合同
- 二零二五年度手房銀行按揭購房服務(wù)合同
- 2025年吉林市貨運(yùn)車從業(yè)考試題
- 高三家長會發(fā)言稿
- 2025年安徽中醫(yī)藥高等??茖W(xué)校單招職業(yè)適應(yīng)性測試題庫有答案
- 個人應(yīng)聘簡歷電工
- 2025年上半年河南省高校畢業(yè)生“三支一扶”招募1100人易考易錯模擬試題(共500題)試卷后附參考答案
- 高血壓的用藥指導(dǎo)任務(wù)三高血壓的藥物治療講解
- 《馬云創(chuàng)業(yè)經(jīng)歷》課件
- 云南省大理白族自治州2024-2025學(xué)年八年級上學(xué)期1月期末考試英語試卷(無答案)
- 無人機(jī)行業(yè)市場分析指南
- 踇外翻病人護(hù)理查房
- 廣西河池市(2024年-2025年小學(xué)六年級語文)統(tǒng)編版專題練習(xí)(上學(xué)期)試卷及答案
- 施工安全管理培訓(xùn)資料
- 建設(shè)單位保證工程安全措施的實施方案
評論
0/150
提交評論