生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索_第1頁
生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索_第2頁
生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索_第3頁
生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索_第4頁
生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)第三章生物信息數(shù)據(jù)庫及其信息檢索第1頁,共61頁,2023年,2月20日,星期一本章主要內(nèi)容生物信息學(xué)數(shù)據(jù)庫類型序列數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫

功能數(shù)據(jù)庫其它專業(yè)數(shù)據(jù)庫生物信息學(xué)數(shù)據(jù)庫的檢索檢索方法概述檢索實(shí)踐和案例第2頁,共61頁,2023年,2月20日,星期一生物信息學(xué)數(shù)據(jù)庫的地位和作用經(jīng)典生物醫(yī)學(xué)實(shí)驗(yàn)大量零碎數(shù)據(jù)數(shù)據(jù)收集整理大規(guī)模組學(xué)實(shí)驗(yàn)海量組學(xué)數(shù)據(jù)數(shù)據(jù)存儲、注釋數(shù)據(jù)庫生物醫(yī)學(xué)應(yīng)用理論分析檢索查詢生物學(xué)研究第3頁,共61頁,2023年,2月20日,星期一生物信息學(xué)數(shù)據(jù)庫類型核酸研究(NucleicAcidsResearch)雜志的每年第一期為生物信息學(xué)數(shù)據(jù)庫???,收錄最主要的生物學(xué)相關(guān)數(shù)據(jù)庫,歸類并展示在/nar/database/c/。核酸序列數(shù)據(jù)庫RNA序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫基因組數(shù)據(jù)庫(非脊椎動物)代謝與信號通路數(shù)據(jù)庫人類與其他脊椎動物基因組人類基因與疾病微陣列數(shù)據(jù)庫與其他基因表達(dá)數(shù)據(jù)庫蛋白質(zhì)組資源其他分子生物學(xué)數(shù)據(jù)庫細(xì)胞器數(shù)據(jù)庫植物數(shù)據(jù)庫免疫學(xué)數(shù)據(jù)庫細(xì)胞生物學(xué)數(shù)據(jù)庫第4頁,共61頁,2023年,2月20日,星期一生物信息學(xué)數(shù)據(jù)庫類型序列數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫功能數(shù)據(jù)庫其它專業(yè)數(shù)據(jù)庫第5頁,共61頁,2023年,2月20日,星期一GooglevsBaidu膚淺的百姓工具他可以更厲害!甚至超過windows、Linux或Mac等操作系統(tǒng)第6頁,共61頁,2023年,2月20日,星期一一、序列數(shù)據(jù)庫主要收錄核酸和蛋白質(zhì)序列的數(shù)據(jù)庫,包括由基因組計(jì)劃產(chǎn)生的基因組及其表達(dá)序列,由基因組序列所推測的編碼和非編碼核酸和蛋白質(zhì)序列,以及個(gè)別生物學(xué)實(shí)驗(yàn)中測序獲得的核酸和蛋白質(zhì)序列?;蚪M序列數(shù)據(jù)庫:GenomeDatabase(GDB)數(shù)據(jù)庫(

/)包括人、鼠、斑馬魚和果蠅4種真核生物基因組的注釋分析。由EMBL-EBI和Sanger研究所聯(lián)合開發(fā)。UCSCGenomeBrowser(/)加州大學(xué)圣克魯茲分校建立,包括各種脊椎和無脊椎動物,以及主要模式生物的基因組數(shù)據(jù)。第7頁,共61頁,2023年,2月20日,星期一核酸序列數(shù)據(jù)庫GenBank(

/Genbank)EMBL(

http://www.ebi.ac.uk/embl/)DDBJ(

http://www.ddbj.nig.ac.jp/)三個(gè)數(shù)據(jù)庫每天互相交換數(shù)據(jù)GenBank可通過NCBI的檢索系統(tǒng)Entrez獲取,Entrez集成來自主要DNA和蛋白序列數(shù)據(jù)庫的數(shù)據(jù),包括物種、基因組、定位、蛋白結(jié)構(gòu)和結(jié)構(gòu)域等信息其他各種專業(yè)核酸數(shù)據(jù)庫非冗余參考序列數(shù)據(jù)庫RefSeq密碼子使用數(shù)據(jù)庫CodonUsageDatabaseCUTG基因可變剪接數(shù)據(jù)庫ASDB轉(zhuǎn)錄因子數(shù)據(jù)庫TRANSFAC第8頁,共61頁,2023年,2月20日,星期一NCBI(NationalCenterofBiotechnologyInformation)美國國立生物技術(shù)信息中心第9頁,共61頁,2023年,2月20日,星期一三大數(shù)據(jù)庫之間的聯(lián)系第10頁,共61頁,2023年,2月20日,星期一ATTGACTAPrimaryvs.DerivativeDatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA第11頁,共61頁,2023年,2月20日,星期一GenBank中測序最多的20個(gè)物種第12頁,共61頁,2023年,2月20日,星期一humanArabidopsisThermotogamaritimaEscherichiacoliBuchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物與基因測序第13頁,共61頁,2023年,2月20日,星期一virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibians第14頁,共61頁,2023年,2月20日,星期一蛋白質(zhì)序列數(shù)據(jù)庫UniProt()

由Swiss-Prot、TrEMBL和PIR蛋白質(zhì)數(shù)據(jù)庫聯(lián)合構(gòu)建,提供蛋白質(zhì)序列和功能注釋的核心資源。由三個(gè)子庫組成:(1)UniProtKB,知識庫(2)UniRef:參考簇(3)UniParc,所有公開的蛋白質(zhì)序列,包括每個(gè)序列源數(shù)據(jù)庫的追溯信息。IPI(http://www.ebi.ac.uk/IPI/)國際蛋白質(zhì)索引數(shù)據(jù)庫,針對蛋白質(zhì)組研究中利用數(shù)據(jù)庫搜索鑒定蛋白的策略而構(gòu)建的參考數(shù)據(jù)庫,月更新,整合國際上主要的蛋白質(zhì)數(shù)據(jù)庫(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-InvDB翻譯的蛋白數(shù)據(jù)),整合過程中,直接接受手工注釋結(jié)果。Nr(

/refseq/)NCBI構(gòu)建,非冗余蛋白質(zhì)數(shù)據(jù)庫,為每個(gè)蛋白質(zhì)序列記錄賦予一個(gè)唯一的gi號,并將序列完全一致的非冗余蛋白質(zhì)合并成簇。第15頁,共61頁,2023年,2月20日,星期一二、結(jié)構(gòu)數(shù)據(jù)庫核酸和蛋白質(zhì)的空間結(jié)構(gòu)數(shù)據(jù)庫,一般通過X射線衍射和核磁共振獲得數(shù)據(jù),也有同源建模等計(jì)算方法獲得。結(jié)構(gòu)數(shù)據(jù)庫(核酸)NDB核酸結(jié)構(gòu)數(shù)據(jù)庫(/)收錄核酸的晶體結(jié)構(gòu)數(shù)據(jù),包含X射線衍射和核磁共振的結(jié)果,可通過ADIT(theAutoDepInputTool)同時(shí)將結(jié)構(gòu)存儲到NDB和PDB中,提供序列號檢索功能,可以用NDB或PDB的ID號檢索,結(jié)果包含核酸結(jié)構(gòu)的簡要信息和圖片Rfam數(shù)據(jù)庫(http://rfam.sanger.ac.uk/)RNA家族多重序列比對,一致性二級結(jié)構(gòu)和協(xié)方差模型,基于多重序列比對的非編碼RNA家族的變異模式第16頁,共61頁,2023年,2月20日,星期一結(jié)構(gòu)數(shù)據(jù)庫(蛋白質(zhì))PDB(/pdb/)RCSB(ResearchCollaboratoryforStructuralBioinformatics)專門用于處理和發(fā)布生物大分子三維結(jié)構(gòu)的知識庫,提供數(shù)據(jù)庫的檢索和下載服務(wù),以及PDB數(shù)據(jù)文件格式和其它文檔的說明,使用軟件可對PDB數(shù)據(jù)庫記錄用多種模式顯示生物大分子三維結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP(

http://scop.mrc-lmb.cam.ac.uk/scop/)包含從PDB數(shù)據(jù)庫中提取的所有結(jié)構(gòu)域,并詳細(xì)描述已知蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系MMDBNCBI的分子模型數(shù)據(jù)庫。NCBI蛋白結(jié)構(gòu)數(shù)據(jù)庫(/sites/entrez?db=structure/)包括由x射線衍射和核磁共振實(shí)驗(yàn)得到的所有PDB生物分子三維結(jié)構(gòu),與原始的PDB結(jié)構(gòu)相比,增加一些附加信息:經(jīng)程序驗(yàn)證的顯性化學(xué)圖像信息、一致的二級結(jié)構(gòu)衍生定義、與MEDLINE相匹配的引用、基于源自生物實(shí)體的蛋白質(zhì)或核酸鏈進(jìn)行分類的分子匹配。第17頁,共61頁,2023年,2月20日,星期一三、功能數(shù)據(jù)庫收錄生物分子的功能數(shù)據(jù),由ID號與序列和結(jié)構(gòu)數(shù)據(jù)鏈接組織表達(dá)譜和亞細(xì)胞定位根據(jù)不同組織中的EST、SAGE或芯片雜交信號,繪制出不同組織中表達(dá)基因的圖譜:BodyMap(http://bodymap.ims.u-tokyo.ac.jp/)Unigene(/sites/entrez?db=unigene

)SAGEmap(/projects/SAGE/)GEO(/projects/geo/)StanfordMicroarrayDatabase(/microarray)第18頁,共61頁,2023年,2月20日,星期一亞細(xì)胞定位數(shù)據(jù)庫PSORTdb(/)DBSubLoc(/dbsubloc.html)膜蛋白質(zhì)數(shù)據(jù)庫TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/)

線粒體蛋白質(zhì)數(shù)據(jù)庫MitoP2(http://www.mitop.de:8080/mitop2/)蛋白翻譯后修飾dbPTM(.tw/)磷酸化、糖基化和硫修飾,也收錄和蛋白質(zhì)翻譯后修飾相關(guān)的生物信息。O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/)只收錄O糖基化數(shù)據(jù)PhosphoBase(/)只收錄磷酸化位點(diǎn)的數(shù)據(jù)RESID(http://www.ebi.ac.uk/RESID/)收錄蛋白質(zhì)修飾的注釋和結(jié)構(gòu)的數(shù)據(jù)第19頁,共61頁,2023年,2月20日,星期一蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫DIP(/)由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實(shí)驗(yàn)技術(shù)IntAct(http://www.ebi.ac.uk/intact)提供用于蛋白質(zhì)相互作用數(shù)據(jù)存儲、展示和分析的開源數(shù)據(jù)庫和工具包,可對相互作用數(shù)據(jù)在網(wǎng)頁上進(jìn)行文本和圖像的展示,允許用戶通過GO注釋或InterPro結(jié)構(gòu)域注釋進(jìn)行網(wǎng)絡(luò)的擴(kuò)充代謝網(wǎng)絡(luò)和信號途徑KEGG大百科(http://www.genome.ad.jp/kegg/)系統(tǒng)分析基因功能、聯(lián)系基因組信息和功能信息的知識庫,GENES收錄完整和部分測序的基因組序列;PATHWAY數(shù)據(jù)庫存儲更高級的功能信息,包括圖解的細(xì)胞生化過程和同系保守的子通路等信息;LIGAND數(shù)據(jù)庫收錄關(guān)于化學(xué)物質(zhì)、酶分子和酶反應(yīng)等信息。第20頁,共61頁,2023年,2月20日,星期一反應(yīng)通路(KEGG)glycolysispathway(糖酵解)京都基因與基因組百科全書(KyotoEncyclopediaofGenesandGenomes)第21頁,共61頁,2023年,2月20日,星期一全細(xì)胞通路第22頁,共61頁,2023年,2月20日,星期一四、其它專業(yè)數(shù)據(jù)庫人類基因和疾病數(shù)據(jù)庫OMIM(/sites/entrez?db=omim)收錄所有已知的遺傳病、遺傳性狀和基因,除簡略描述各種疾病的臨床特征、診斷、治療和預(yù)防外,還提供致病基因的連鎖關(guān)系、染色體定位、組織結(jié)構(gòu)、動物模型及其參考文獻(xiàn)等信息dbSNP(/sites/entrez?db=SNP)收錄已經(jīng)識別的SNPs的數(shù)據(jù)庫HapMapProject()收錄了三大人群(非洲人,高加索人和亞洲人群)主要的變異模式,所選擇的SNPs具有相對代表性CGED(http://lifesciencedb.jp/cged/)收錄多種癌癥的臨床和基因表達(dá)數(shù)據(jù),更新到2007年第23頁,共61頁,2023年,2月20日,星期一基于電泳和生物質(zhì)譜的蛋白質(zhì)組數(shù)據(jù)庫SWISS-2DPAGE(/ch2d/)收錄各種雙向電泳或SDS的電泳圖,并提供蛋白在電泳圖中的位置及其信息PRIDE(http://www.ebi.ac.uk/pride/)數(shù)據(jù)庫收集國際蛋白質(zhì)組計(jì)劃所產(chǎn)出的鑒定結(jié)果數(shù)據(jù)PeptideAtlas(/)收錄大規(guī)模LC-MS/MS實(shí)驗(yàn)鑒定的蛋白信息,并將信息匹配到Ensembl數(shù)據(jù)庫dbLEP()為肝臟蛋白質(zhì)組計(jì)劃設(shè)計(jì),提供鑒定結(jié)果及可追溯的信息,包括可供評估結(jié)果質(zhì)量的鑒定肽段數(shù)和質(zhì)譜圖譜等,同時(shí)還提供大量的注釋信息,更新到2007年第24頁,共61頁,2023年,2月20日,星期一免疫學(xué)數(shù)據(jù)庫IMGT(http://imgt.cines.fr)關(guān)于免疫球蛋白、T細(xì)胞受體、主要組織相容性復(fù)合體以及人類和哺乳動物免疫系統(tǒng)相關(guān)蛋白的綜合數(shù)據(jù)庫,由序列數(shù)據(jù)庫、基因組和結(jié)構(gòu)數(shù)據(jù)庫、網(wǎng)站資源數(shù)據(jù)庫和各種研究工具數(shù)據(jù)庫組成dbMHC(/mhc/)提供人類組織相容性抗原(HLA)的序列數(shù)據(jù)和臨床上干細(xì)胞移植及風(fēng)濕性關(guān)節(jié)炎等數(shù)據(jù),也提供全世界90多個(gè)人群的HLA位點(diǎn)、等位基因和單倍型頻率的遺傳檢測工具第25頁,共61頁,2023年,2月20日,星期一Taxonomy分類學(xué)數(shù)據(jù)庫第26頁,共61頁,2023年,2月20日,星期一北京華大基因研究中心(中科院基因組研究所)楊煥明/國家人類基因組南方研究中心(上海)陳竺、趙國屏/國家人類基因組北方研究中心(北京)強(qiáng)伯勤/清華大學(xué)生物系生物信息研究室孫之榮/北京大學(xué)生物信息學(xué)中心羅靜初/chinese/復(fù)旦大學(xué)理論生物中心鐘揚(yáng)/我國的一些主要研究中心和數(shù)據(jù)庫第27頁,共61頁,2023年,2月20日,星期一生物信息學(xué)數(shù)據(jù)庫的檢索檢索方法概述檢索實(shí)踐和案例第28頁,共61頁,2023年,2月20日,星期一生物信息學(xué)數(shù)據(jù)庫的檢索主要檢索系統(tǒng)和工具Entrez(NationalCenterforBiotechnologyInformation,NCBI)SRS(EuropeanBioinformaticsInstitute,EBI)ExPasyExpertProteinAnalysisSystem(SwissInstituteofBioinformatics,SIB)日本、歐洲、美國其他研究機(jī)構(gòu)的工具平臺……第29頁,共61頁,2023年,2月20日,星期一復(fù)雜檢索1、限制字段類別常用的有:Author:BaoYM[au]Title:stress[ti]Tilte/Abstract:stress[title/abstract]Date:1999:2009[dp]2、布爾邏輯運(yùn)算:AND、OR、NOT必須大寫。邏輯符的運(yùn)算次序是從左至右,括號內(nèi)的檢索式可作為一個(gè)單元,優(yōu)先運(yùn)行。布爾邏輯檢索允許在檢索詞后面附加字段標(biāo)識例如:rice[ti]ANDBaoYM[au]AND2008:2009[dp]第30頁,共61頁,2023年,2月20日,星期一同樣存在限制字段:常用的有:Author:BaoYM[au]title:SNARE[ti]organism:rice[organism]或者直接輸入:Accession:AY077725[Accession]GeneName:ZFP15[GeneName]ProteinName:ZFP15[ProteinName]如:BaoYM[au]ANDSNARE[ti]ANDrice[organism]如果沒有限定,就是任意字段。如何獲取GenBank中的序列?第31頁,共61頁,2023年,2月20日,星期一Entrez(NationalCenterforBiotechnologyInformation,NCBI)選擇數(shù)據(jù)庫當(dāng)沒有進(jìn)入號時(shí)輸入關(guān)鍵詞(英文和拉丁文)當(dāng)有進(jìn)入號時(shí)輸入進(jìn)入號可編譯第32頁,共61頁,2023年,2月20日,星期一NCBI主頁最下面的區(qū)域,是NCBI的快捷連接區(qū)域第33頁,共61頁,2023年,2月20日,星期一舉例:GAPDH或g3pdh是甘油醛-3-磷酸脫氫酶(glyceraldehyde-3-phosphatedehydrogenase)的英文縮寫。該酶是糖酵解反應(yīng)中的一個(gè)酶。該酶基因?yàn)楣芗遥╤ousekeeping)基因,幾乎在所有組織中都高水平表達(dá),在同種細(xì)胞或者組織中的蛋白質(zhì)表達(dá)量一般是恒定的,且不受含有的部分識別位點(diǎn)、佛波脂等的誘導(dǎo)物質(zhì)的影響而保持恒定,故被廣泛用作抽提t(yī)otalRNA,poly(A)+RNA,Westernblot等實(shí)驗(yàn)操作的標(biāo)準(zhǔn)化的內(nèi)參。GAPDH一般是由4個(gè)相同亞基組成的四聚體,每個(gè)亞基均含有催化結(jié)構(gòu)域和輔酶結(jié)合域。GAPDH與輔酶煙酰胺腺嘌呤二核苷酸(

NAD+)組成全酶才具有催化活性。第34頁,共61頁,2023年,2月20日,星期一基因序列搜索第35頁,共61頁,2023年,2月20日,星期一第36頁,共61頁,2023年,2月20日,星期一第37頁,共61頁,2023年,2月20日,星期一STS序列標(biāo)簽位點(diǎn)(sequence-taggedsite),是已知核苷酸序列的DNA片段,是基因組中任何單拷貝的短DNA序列,長度在100~500bp之間。任何DNA序列,只要知道它在基因組中的位置,都能被用作STS標(biāo)簽。作為基因組中的單拷貝序列,是新一代的遺傳標(biāo)記系統(tǒng),其數(shù)目多,覆蓋密度較大,達(dá)到平均每1kb一個(gè)STS或更密集。這種序列在染色體上只出現(xiàn)一次,其位置和堿基順序都是已知的。在PCR反應(yīng)中可以檢測出STS來,STS適宜于作為人類基因組的一種地標(biāo),據(jù)此可以判定DNA的方向和特定序列的相對位置。第38頁,共61頁,2023年,2月20日,星期一不能用任何其它的特征關(guān)鍵詞表述的具有生物學(xué)意義的區(qū)域;新的或少見的特征第39頁,共61頁,2023年,2月20日,星期一第40頁,共61頁,2023年,2月20日,星期一蛋白序列搜索第41頁,共61頁,2023年,2月20日,星期一第42頁,共61頁,2023年,2月20日,星期一第43頁,共61頁,2023年,2月20日,星期一蛋白質(zhì)結(jié)構(gòu)搜索第44頁,共61頁,2023年,2月20日,星期一第45頁,共61頁,2023年,2月20日,星期一MMDBID:34532PDBID:1U8F第46頁,共61頁,2023年,2月20日,星期一Nicotinamide-Adenine-Dinucleotide煙酰胺腺嘌呤二核苷酸O、P、Q和R為GAPDH的四個(gè)亞基蛋白鏈,其和1(煙酰胺腺嘌呤二核苷酸)的相互作用關(guān)系第47頁,共61頁,2023年,2月20日,星期一課堂練習(xí):Homosapiensp53,人體抑癌基因,該基因編碼一種分子量為53kDa的蛋白質(zhì),命名為P53。p53基因的失活對腫瘤形成起重要作用。但是事物必然有它的兩個(gè)方面,p53是一個(gè)重要的抗癌基因使癌細(xì)胞自殺,防止癌變;還具有幫助細(xì)胞基因修復(fù)缺陷的功能?;蛐蛄兴阉鳎瑯?biāo)注(Searchthetargetgene,andannotatethegene)蛋白序列搜索,標(biāo)注(Searchthetargetprotein,andannotatetheprotein)蛋白質(zhì)結(jié)構(gòu)搜索,標(biāo)注(Searchthestructureofthetargetprotein,andannotateit)Question:從小鼠中查找Bao實(shí)驗(yàn)室發(fā)布的p53蛋白相關(guān)的DNA序列.第48頁,共61頁,2023年,2月20日,星期一一些生物信息學(xué)相關(guān)的名詞和知識第49頁,共61頁,2023年,2月20日,星期一參考P74,關(guān)鍵字的定義Attenuator:regionofDNAatwhichregulationofterminationoftranscriptionoccurs,whichcontrolstheexpressionofsomebacterialoperons,sequencesegmentlocatedbetweenthepromoterandthefirststructuralgenethatcausespartialterminationoftranscription.Enhancer:acis-actingsequencethatincreasestheutilizationofeukaryoticpromoters,andcanfunctionineitherorientationandinanylocation(upstreamordownstream)relativetothepromoter.

Promoter:regiononaDNAmoleculeinvolvedinRNApolymerasebindingtoinitiatetranscription.Terminator:sequenceofDNAlocatedeitherattheendofthetranscriptthatcausesRNApolymerasetoterminatetranscription.polyA-signal:recognitionregionnecessaryforendonucleasecleavageofanRNAtranscriptthatisfollowedbypolyadenylation,consensus=AATAAA.第50頁,共61頁,2023年,2月20日,星期一PromoterEnhancerGeneTerminatorTranscriptionunit+1-1DownstreamsequenceUpstreamsequence-10TranscriptionstartsiteRegulatoryelement-2-3-4-5-6-7-8-9-11-12-13-14-16-17+2+3+4+5+6+7+8polyA-signalAttenuator調(diào)節(jié)基因阻遏子啟動子操縱基因終止子lacZlacYlacAlac

操縱元AttenuatorAAAAAAAendonucleasecleavageendonuclease第51頁,共61頁,2023年,2月20日,星期一CAAT-signal:CAATbox,partofaconservedsequencelocatedabout75bpup-streamofthestarpointofeukaryotic

transcriptionunitswhichmaybeinvolvedinRNApolymerasebinding,consensus=GG(CorT)CAATCT.GC-signal:GCbox,aconservedGC-richregionlocatedupstreamofthestartpointofeukaryotictranscriptionunitswhichmayoccurinmultiplecopiesorineitherorientation,consensus=GGGCGG.TATA-signal:TATAbox,Goldberg-Hognessbox,aconservedAT-richseptamerfoundabout25bpbeforethestartpointofeacheukaryoticRNApolymeraseⅡtranscriptunitwhichmaybeinvolvedinpositioningtheenzymeforcorrectinitiation,consensus=TATA(AorT)A(AorT).-10-signal:pribnowbox,aconservedregionabout10bpupstreamofthestartpointofbacterialtranscriptionunitswhichmaybeinvolvedinbindingRNApolymerase,consensus=TAtAaT.-35-signal:aconservedhexamerabout35bpupstreamofthestartpointofbacterialtranscriptionunits,consensus=TTGACa第52頁,共61頁,2023年,2月20日,星期一+1-50Transcriptionstartsite-25-75-100HognessboxGCboxGCboxCAATbox+1-50Transcriptionstartsite-25-100-190CorepromoterGCboxGCboxUpstreamcontrolelementGCboxGCboxGCboxBasalpromoterUpstreamelementDownstreamelement+50Transcriptionstartsite+1HognessboxOctamermotifIntragenicpromoter+90PSEAboxCboxIEClassⅠpromoterClassⅡpromoterClassⅢpromotereukaryotic

transcriptionunits第53頁,共61頁,2023年,2月20日,星期一λPR:TTATTCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCAT+1Transcriptionstartsite-10Pribnowbox-35GACAboxGTGCGTGTTGACTATTTTACCTCTGGCGGTGATAATGGTTGCATGTACTAAGGAGGCGGTGTTGACATAAATACCACTGGCGGTGATACTGAGCACATCAGCAGGACGTGAGCTGTTGACAATTAATCATCGAACTAGTTAACTAGTACGCAAGTTCACGTAACCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATAATGTGTGGAATTGTGAGCGGTTTCCTCTTGTCAGGCCGGAATAACTCCCTATAATGCGCCACCACTGACACGGAATAAATGCTTGACTCTGTAGCGGGAAGGCGTATTATGCACACCTCGCGCCGCTGATCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCATAAGCCλPL:trp:lac:lacUV5:rrnA1:rrnA2:galP1:galP2:bacterialtranscriptionunits第54頁,共61頁,2023年,2月20日,星期一-35TTGACATATAAT′+20+1-10原核生物的RNA聚合酶全酶及其在轉(zhuǎn)錄起始區(qū)的結(jié)合第55頁,共61頁,2023年,2月20日,星期一(1)開放讀碼框是從一個(gè)起始密碼子開始到一個(gè)終止密碼子結(jié)束的一段序列;不是所有讀碼框都能被表達(dá)出蛋白產(chǎn)物,或者能表達(dá)出占有優(yōu)勢或者能產(chǎn)生生物學(xué)功能的蛋白。(2)CDS,是編碼一段蛋白產(chǎn)物的序列。(3)CDS可能是一個(gè)ORF,但也可能包括多個(gè)ORF。(4)反之,每個(gè)ORF不一定都是CDS。CDS:codingsequence,sequenceofnucleotidesthatcorrespondswiththesequenceofaminoacidsinaprotein(locationincludesstopcodon),featureincludesaminoacidconceptualtranslation.Openreadingframe(ORF):areadingframethatdoesnotcontainanucleotidetripletwhichstopstranslationbeforeformationofacompletepolypeptide.第56頁,共61頁,2023年,2月20日,星期一LTR:longterminalrepeat,asequencedirectlyrepeatedatbothendsofadefinedsequence,ofthesorttypicallyfoundinretroviruses.反轉(zhuǎn)錄病毒的基因組的兩端各有一個(gè)長末端重復(fù)序列(5'LTR和3'LTR),不編碼蛋白質(zhì),但含有啟動子,增強(qiáng)子等調(diào)控元件,病毒基因組內(nèi)的LTR可轉(zhuǎn)移到細(xì)胞原癌基因鄰近處,使這些原癌基因在LTP強(qiáng)啟動子和增強(qiáng)子的作用下被激活,將正常細(xì)胞轉(zhuǎn)化為癌細(xì)胞。TheHIV-1LTRisapproximately640bpinlengthand,likeotherretroviralLTRs,issegmentedintotheU3,R,andU5regions.第57頁,共61頁,2023年,2月20日,星期一5`clip:5`-most

regionofaprecursortranscriptthatisclippedoffduringprocessing.3`clip:3`-mostregionofaprecursortranscriptthatisclippedoffduringprocessing.5`UTR:regionatthe5`endofamaturetranscript(precedingtheinitiationcodon)thatisnottranslatedintoaprotein.3`UTR:regionatthe3`endofamaturetranscript(followingthestopcodon)thatisnottranslatedintoaprotein.Prim-transcript:primary(initial,unprocessed)transcript,includes5`clip,5`UTR,CDS,exon,intron,3`UTR,and3`clip.5`clip3`clip5`UTR3`UTRexon1Exon2Exon3Prim-transcript第58頁,共61頁,2023年,2月20日,星期一Exon:regionofgenomethatcodesforportionofsp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論