核酸序列及數(shù)據(jù)分析FUQIANGFinalVersion課程_第1頁
核酸序列及數(shù)據(jù)分析FUQIANGFinalVersion課程_第2頁
核酸序列及數(shù)據(jù)分析FUQIANGFinalVersion課程_第3頁
核酸序列及數(shù)據(jù)分析FUQIANGFinalVersion課程_第4頁
核酸序列及數(shù)據(jù)分析FUQIANGFinalVersion課程_第5頁
已閱讀5頁,還剩189頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章 核酸序列獲取比對及結(jié)構(gòu)預(yù)測醫(yī)學(xué)科學(xué)實驗中心 尹富強yinfq20131本章內(nèi)容第一節(jié) 核酸數(shù)據(jù)的獲取第二節(jié) 序列比對第三節(jié) 序列特征分析2實驗生物學(xué)生物信息學(xué)理論生物學(xué)345基因組學(xué)其他組學(xué)生物信息學(xué)基礎(chǔ)紐帶6基因組學(xué)核酸7核酸脫氧核糖核酸(DNA)核糖核酸(RNA) 功能:是細胞內(nèi)攜帶遺傳信息的物質(zhì),在生物體的遺傳、變異和蛋白質(zhì)的生物合成中具有極其重要的作用。核酸:遺傳信息攜帶著8真核生物:DNA RNA原核生物:DNA RNA大多數(shù)病毒:DNA極少數(shù)病毒:RNA遺傳物質(zhì)是DNA遺傳物質(zhì)是RNA 細胞生物非細胞生物HIV、SARS病毒、流感病毒、煙草花葉病毒、車前草病毒等9Biolo

2、gy Neil Campbell,Version 4,199610核酸組成11DNARNA堿基腺嘌呤(adennine,A)鳥嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鳥嘌呤胞嘧啶尿嘧啶(Uracil,U) 戊糖脫氧核糖核糖磷酸磷酸磷酸核苷酸的基本組成單位1213基因不同核酸序列A, G, C, T 不同14第一節(jié) 核酸數(shù)據(jù)的獲取15實驗手段獲取核酸序列 Sanger雙脫氧末端終止法(1977) PCR 技術(shù)(1985) DNA 自動測序儀的發(fā)展(ABI,1995) 生物信息學(xué)分析軟硬件設(shè)施16大規(guī)模基因組測序的兩種策略逐步克隆法-基于BAC的

3、方法(Clone by Clone) 先把基因組打碎成200300kb的片段并制成BAC文庫,再選擇一些BAC進一步打碎成3kb左右的小片段,測序并拼接(BAC克隆的覆蓋率不應(yīng)低于3倍),。全基因組霰彈法-鳥槍法(Whole Genome Shot-gun) 把基因組直接打碎成3kb左右的小片段,測序并拼接。17已形成了一條世界第六、亞洲最大的基因組測序技術(shù)平臺,共有MegaBACE測序儀104臺,ABI3730測序儀2臺,ABI377測序儀11臺,滿負荷運轉(zhuǎn)日產(chǎn)可達50Mb,是一個低投入、高產(chǎn)出,高度自動化的測序平臺。 中國基因組測序情況18我國測序能力的“三級跳”人類基因組計劃1%項目的f

4、inishing (1999年)中-丹合作的家豬基因組計劃 (2000年)水稻工作框架圖的繪制和公布 (2001年)標(biāo)志著我國已掌握了國際先進的測序技術(shù),具有相當(dāng)?shù)臏y序能力。 測序能力和質(zhì)量已達到國際一流水平 ,以獨立承擔(dān)大規(guī)模的基因組測序項目 我國已經(jīng)成為繼美國之后世界上第二個具有獨立完成大規(guī)模的全基因組測序和組裝分析能力的國家19通過生物信息學(xué)手段獲取核酸序列20三大核酸序列數(shù)據(jù)庫 GenBank (NCBI)EMBLDDBJ 21特殊類型核酸序列數(shù)據(jù)庫:非編碼RNA數(shù)據(jù)庫(ncRNA);表達序列標(biāo)簽數(shù)據(jù)庫(dbEST);序列標(biāo)簽位點數(shù)據(jù)庫(dbSTS);miRBase ;tRNAdb等。

5、 22基因組相關(guān)數(shù)據(jù)庫:人類基因組數(shù)據(jù)庫(HGD);基因組序列數(shù)據(jù)庫(GSDB);基因組在線數(shù)據(jù)庫(GOLD)等。23基因表達數(shù)據(jù)庫:基因表達庫(GEO);斯坦福微陣列數(shù)據(jù)庫(SMD);ArrayExpress;CGED;GXD;BodyMap 等。24人類基因突變及疾病相關(guān)數(shù)據(jù)庫:人類基因變異數(shù)據(jù)庫(HMGD)、人類遺傳雙等位基因序列數(shù)據(jù)庫(HGBASE)、人類孟德爾遺傳在線(OMIM)、國際單體型計劃(HapMap)、人類單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)、腫瘤基因數(shù)據(jù)庫(TGDB)、疾病關(guān)聯(lián)數(shù)據(jù)庫(GAD)、癌癥基因數(shù)據(jù)庫(CGAP)、人類表觀遺傳數(shù)據(jù)庫(HEP)、人類DNA甲基化與癌癥

6、數(shù)據(jù)庫(MethylCancer)等。25以NCBI數(shù)據(jù)庫為例 學(xué)習(xí)如何獲取核酸序列及序列相關(guān)信息http:/http:/genbank/NCBI GenBank 26什么時候需要利用生物 信息學(xué)獲取序列信息 基因克?。≒CR,RACE) 表達檢測 (RT-qPCR,RT-PCR) 基因表達調(diào)控 (基因過表達或沉默表達) 原核表達蛋白 序列同源性分析?27CCL212829303132CCL2133當(dāng)前可查103條基因組相關(guān)基因99條可查看SNP11條基因定義染色體定位基因組參考序列號選擇物種34353637383940414243基因基本信息的總結(jié)44基因基本信息的總結(jié)基因與染色體、基因組相

7、關(guān)信息45基因相關(guān)參考文獻基因功能相關(guān)參考文獻46表型變異和艾滋病相關(guān)47相關(guān)通路和其他基因的互做48基因基本信息同源性基因本體注釋(GO 分類)49Gene Ontology(GO分類)Gene Ontology包含了基因參與的生物過程,所處的細胞位置,發(fā)揮的分子功能三方面功能信息,并將概念粗細不同的功能概念組織成DAG(有向無環(huán)圖)的結(jié)構(gòu)。Gene Ontology是一個使用有控制的詞匯表和嚴(yán)格定義的概念關(guān)系,以有向無環(huán)圖的形式統(tǒng)一表示各物種的基因功能分類體系,從而較全面地概括了基因的功能信息。在基因表達譜分析中,GO常用于提供基因功能分類標(biāo)簽和基因功能研究的背景知識。利用GO的知識體系和

8、結(jié)構(gòu)特點,旨在發(fā)掘與基因差異表達現(xiàn)象關(guān)聯(lián)的單個特征基因功能類或多個特征功能類的組合。5051基因編碼蛋白的基本信息52參考序列信息mRNA和編碼蛋白序列信息基因組相關(guān)序列信息5354CCL21核酸序列CCL21 mRNA登錄號CCL21 編碼蛋白CCL21登錄號55什么是登錄號(accession number)?An accession number is label that used to identify a sequence. It is a string of letters and/or numbers that corresponds to a molecular sequen

9、ce. ExamplesX02775GenBank genomic DNA sequenceNT_030059Genomic contigRs7079946dbSNP (single nucleotide polymorphism)N91759.1An expressed sequence tag (1 of 170)NM_006744RefSeq DNA sequence (from a transcript)NP_007635RefSeq proteinAAC02945GenBank proteinQ28369SwissProt protein1KT7Protein Data Bank s

10、tructure recordproteinDNARNA56NCBIs important RefSeq project: best representative sequencesRefSeq (accessible via the main page of NCBI)provides an expertly curated accession number thatcorresponds to the most stable, agreed-upon “reference”version of a sequence. RefSeq identifiers include the follo

11、wing formats:Complete genomeNC_#Complete chromosomeNC_#Genomic contigNT_#mRNA (DNA format)NM_# e.g. NM_006744ProteinNP_# e.g. NP_00673557CCL21核酸序列CCL21 mRNA登錄號CCL21 編碼蛋白CCL21登錄號58基因序列信息基因相關(guān)信息59Genbank格式注解60LOCUS條目名稱(標(biāo)識符)DEFINITION序列的定義,說明ACCESSION序列編號,具有唯一性和永久性VERSION版本KEYWORDS由序列提交者提供,包括序列的基因產(chǎn)物及相關(guān)信

12、息SOURSE序列來源,說明序列的來源物種,來源組織等REFERENCE和序列相關(guān)的文獻,包括題目,作者等信息FEATURES具有特定格式,包含大量的信息和內(nèi)容,用來詳細描述序列特性及相關(guān)內(nèi)容BASE COUNT堿基組成ORIGIN堿基序列,并以 / 作為序列條目結(jié)束的標(biāo)記序列文件的主要結(jié)構(gòu):6162FEATURES具有特定格式,包含大量的信息和內(nèi)容,用來詳細描述序列特性及相關(guān)內(nèi)容63GenBank記錄中特性表中的主要關(guān)鍵詞:關(guān)鍵詞解 釋關(guān)鍵詞解 釋misc_feature生物學(xué)特性無法用特性表關(guān)鍵詞描述的序列promoter轉(zhuǎn)錄起始區(qū)misc_difference序列特性無法用特性表關(guān)鍵詞描

13、述的序列CAAT_signal真核啟動子上游的CAAT盒,與RNA結(jié)合相關(guān)conflict同一序列在不同研究中在位點或區(qū)域上有差異TATA_signal真核啟動子的TATA盒unsure序列不能確定的區(qū)域-35_signal原核啟動子中的-35框old_sequence該序列對以前的版本做過修訂-10_signal原核啟動子的Pribow盒variation包含穩(wěn)定突變的序列GC_signal真核啟動子的GC盒modified_base修飾過的核苷酸RBS核糖體結(jié)合位點gene已識別為基因或已命名的序列區(qū)域polyA_signalRNA轉(zhuǎn)錄本的剪切識別位點misc_signal無法用信號特性關(guān)

14、鍵詞描述的信號序列enhancer增強子64關(guān)鍵詞解 釋關(guān)鍵詞解 釋attenuator與轉(zhuǎn)錄終止有關(guān)的序列CDS蛋白質(zhì)編碼序列terminator轉(zhuǎn)錄終止序列sig_peptide編碼信號肽的序列rep_origin雙鏈DNA復(fù)制起始區(qū)transit_peptide轉(zhuǎn)運蛋白編碼序列misc_RNA無法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物mat_peptide編碼成熟肽的序列prim_transcript初始轉(zhuǎn)錄本intron內(nèi)含子precursor_RNA前體RNApolyA_siteRNA轉(zhuǎn)錄本的多聚腺苷酸化位點mRNA信使RNArRNA核糖體RNA5clip前體轉(zhuǎn)錄本中被剪切掉的5端序

15、列tRNA轉(zhuǎn)運RNA3 clip前體轉(zhuǎn)錄本中被剪切掉的3端序列scRNA小細胞質(zhì)RNA5UTR5非翻譯區(qū)snRNA小核RNA3UTRexon3非翻譯區(qū)外顯子snoRNA加工和修飾rRNA的小核RNA65關(guān)鍵詞解 釋關(guān)鍵詞解 釋immunoglobulin_relatedrepeat_unit單個的重復(fù)元件C_region免疫相關(guān)蛋白上的不變區(qū)LTR長末端重復(fù)序列D_segment免疫球蛋白重鏈的可變區(qū),T細胞受體鏈Satellite衛(wèi)星重復(fù)序列J_ segment免疫球蛋白重鏈、輕鏈以及T細胞、的結(jié)合鏈misc_binding無法描述的核酸序列結(jié)合位點N_ region插入重排免疫球蛋白片段間

16、的核苷酸primer_bind復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點S_ region免疫球蛋白重鏈的開關(guān)區(qū)protein_bind蛋白質(zhì)結(jié)合區(qū)V_ region編碼免疫球蛋白的可變區(qū)N末端的序列STS測序標(biāo)簽位點V_ segment編碼免疫球蛋白的可變區(qū)的序列misc_recomb無法用重組特性關(guān)鍵詞描述的重組事件repeat_region基因組中所包含的重復(fù)序列iDNA通過重組所消除的DNA66關(guān)鍵詞解 釋關(guān)鍵詞解 釋misc_structure無法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級結(jié)構(gòu)或構(gòu)型stem_loop發(fā)夾結(jié)構(gòu)D_loop線粒體中DNA中的取代環(huán)GenBank記錄中特性表中的限定詞:限定詞含 義限定

17、詞含 義/allele=給定基因的等位基因/codon_start=相對于序列第一個堿基,編碼序列密碼子的偏移量/bound_moiety=嵌合范圍/country=DNA樣本的來源國/cell_type=獲得序列的細胞類型/db_xref=其他數(shù)據(jù)庫信息的交叉索引號/citation=已被引用的參考文獻數(shù)/direction=DNA復(fù)制方向/clone_lib=獲得序列的克隆文庫/environmental_sample=序列直接從環(huán)境材料中獲得而沒有指明來源物種67限定詞含 義限定詞含 義/exception=指明DNA序列未按通常的生物學(xué)規(guī)律翻譯,如RNA編輯/PCR_conditi-o

18、ns=描述PCR的反應(yīng)條件/frequency=在種群中發(fā)生變異的頻率/pop_variant=獲得序列的群體變異種名稱/germline如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于未重排DNA/product=序列編碼產(chǎn)物的名稱/insertion_seq=序列來源于某種插入元件/anticodon=tRNA反義密碼子的位置及它所編碼的氨基酸/isolate=序列來源的生物個體/cell_line=獲得序列的細胞系/lab_host=為擴增序列來源物種所用的實驗室宿主/chromosome=獲得序列的染色體/macronuclear指明DNA來源于染色體分化的大核期/clone

19、=獲得序列的克隆子/note=評論及附加信息/codon=指出與參考密碼子不同的密碼子/organelle=獲得序列的細胞器/EC_number=序列產(chǎn)物的酶學(xué)編號68限定詞含 義限定詞含 義/cons_splice=區(qū)分內(nèi)含子剪切位點和“5-GT.AG-3”剪切位點/map=相關(guān)特性在基因圖譜上的位置/cultivar=所獲序列植物的栽培變種/mod_base=被修飾堿基的簡寫/dev_stage=序列來源于某種生物的特定發(fā)育階段/number=從53注明遺傳元件的順序/evidence=序列特性來源于實驗還是推理/organism=提供測序用遺傳物質(zhì)的物種的科學(xué)名稱/focus指出在記錄中

20、的來源特性在其他物種中還有不同的來源特性/phenotype=序列特性所導(dǎo)致的表型/function=序列所代表的功能/plasmid=獲得序列的質(zhì)粒名稱/haplotype=序列來源于某種物種的單倍體/protein_id=蛋白質(zhì)的檢索號/isolation_sou-rce=描述序列來源物種的生理、環(huán)境和地理信息/proviral整合在基因組中的前病毒/label=序列特性的俗名/rearranged如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于重排DNA69限定詞含 義限定詞含 義/rpt_family=重復(fù)序列/transposon=轉(zhuǎn)座子/rpt_unit=指明重復(fù)區(qū)域的重

21、復(fù)元件構(gòu)成/variety=獲得序列的生物變種/serotype=同一物種的不同血清學(xué)特征/pseudo假基因/sex=獲得序列的物種性別/replace=表明特性間的間隔序列已被替換/specimen_vou-cher=指明來源物種保存于什么地方/rpt_type=重復(fù)序列的組織方式/strain=獲得序列的菌珠/sequenced_m-ol=獲得序列的分子類型/sub_species=獲得序列的來源物種的亞種/serovar=同一原核生物的血清學(xué)特征/tissue_lib=獲得序列組織庫/specific_host= 獲得序列的天然宿主/transgenic指明物種的來源特性是否是轉(zhuǎn)基因受

22、體/standard-name=特性的通用名稱/transl_except=標(biāo)明序列中未按指定密碼子表翻譯的氨基酸的位置/sub_clone=獲得序列的亞克隆70限定詞含 義限定詞含 義/sub_strain=獲得序列的來源微生物亞種/tissue_type=獲得序列組織類型/translation=按通用或指定的密碼子表翻譯的氨基酸序列/transl_table=描述在翻譯中與通用密碼表不同的密碼表/usedin=表明該特性在其他檢索中也被使用/virion病毒顆粒71.72FASTA格式FASTA格式第一行是描述行,第一個字符必須是“”字符。隨后的行是序列本身,每行序列不超過80個字符。序

23、列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表。 ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16, reference assemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCC

24、GGGCTGGGAGGAGAGAACCACCAAGG7374成功提取CCL21 mRNA全長序列75.76編碼序列77成功提取CCL21 mRNA編碼序列78第二節(jié) 序列比對79什么時候需要進行序列比對 已知某基因的部分核酸序列 已知某基因編碼的蛋白序列獲取基因的全長序列(包括5端和3端非編碼序列的獲得) 已知某基因的cDNA序列 已知某基因的同源序列和 相似序列(兩個序列以上)序列同源性相似性分析,保守序列的分析,及聚類分析的需要等 克隆序列測序后的驗證確認序列的準(zhǔn)確性 已有一個或多個已知或未知序列?80序列比較 序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(

25、代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進化關(guān)系。 81相似性(similarity): 是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。當(dāng)然可進行自身局部比較。序列的相似性82同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有

26、是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80都是不科學(xué)的。生物序列的同源性83相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因為存在這樣的關(guān)系,很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。84數(shù)據(jù)庫的搜索在分子生物學(xué)研究中,對于新測定的堿基序列或由此翻譯得到的氨基酸序列,需要通過數(shù)據(jù)庫搜索,找出具有一定相似性的同源序列,以推測該未知序列可能屬于哪個基因家族,具有哪些生物學(xué)功能。

27、對于氨基酸序列來說,有可能找到已知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫搜索與數(shù)據(jù)庫查詢一樣,是生物信息學(xué)研究中的一個重要工具.85序列比對搜索和雙序列比對86NCBI主站點: http:/BLAST/ 對一般用戶來說,目前常用的辦法是通過NCBI國際著名生物信息中心的BLAST服務(wù)器進行搜索。序列比對神器-BLAST87BLAST簡介 BLAST 是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序。 BLAST是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫。88BLAST簡介Blast

28、 是一個序列相似性搜索的程序包,其中包含了很多個獨立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。89NCBIBLAST90NCBIBLAST9192主要的BLAST程序程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列Blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中的序列逐一搜索。Tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對。TBlastx核

29、酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進行比對。93數(shù)據(jù)庫簡述nrmonthdbestdbstshtgsyeastE.colipdbkabatvectormitoalugss非冗余的GenBankEMBLDDBJPDB序列,除了EST、STS、GSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的GenbankEMBLDDBJPDB的EST部分非冗余的GenbankEMBLDDBJPDB的STS部分0,1,2階段的高產(chǎn)量基因組序列(3階段完成的HTG序列在nr庫里)酵母的全基因組序列大腸桿菌的全基因組序列由三維結(jié)構(gòu)庫來的核酸序列

30、Kabat的免疫學(xué)相關(guān)序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復(fù)序列翻譯而來,用來遮蔽查詢序列中的重復(fù)片段,基因組勘測序列(Genome Survey Sequence) BLAST的核酸數(shù)據(jù)庫 94NCBIBLAST9596BLAST搜索格式(1)FASTA格式FASTA格式第一行是描述行,第一個字符必須是“”字符。隨后的行是序列本身,每行序列不超過80個字符。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表。 ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16, refe

31、rence assemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG97BLAST搜索格式(2)單純序列數(shù)據(jù)輸入格式GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGG

32、AGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG(3)標(biāo)識符格式 NC_00001698GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTG

33、CGTTCGGGCTGGGAGCGTG99結(jié)果頁面100結(jié)果頁面101結(jié)果頁面102結(jié)果頁面103結(jié)果頁面104BLAST程序評價序列相似性的兩個數(shù)據(jù)Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、 Score值越大,則相似性越高 。E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越接近零,越不可能找到其它的匹配序列,其背后的含義就是E值越小,則匹配度越好。105E值(E-Value)P值(P-Value) BLAST程序中使用了E值而非P值,這主要是從

34、直觀和便于理解的角度考慮。比如E值等于5和10,比P值等于0.993和0.99995更直觀。但是當(dāng)E111AATTCCGG222CCGGAATT333GGCCTTAA115116117118119120第三節(jié) 序列特征分析121什么是基因?基因是遺傳信息的物理和功能單位,包含產(chǎn)生一條多肽鏈或功能RNA所必需的全部核苷酸序列。 堿基成對出現(xiàn): ATCGGCC TAGCCGG122基因 基因組 任何一條染色體上都帶有許多基因,一條高等生物的染色體上可能帶有成千上萬個基因,一個細胞中的全部基因序列及其間隔序列統(tǒng)稱為genomes(基因組)。 基因組有兩層意義:遺傳物質(zhì)和遺傳信息。 要揭開生命的奧秘,

35、就需要從整體水平研究基因的存在、基因的結(jié)構(gòu)與功能、基因之間的相互關(guān)系。 123堿基+ 脫氧核糖 + 磷酸脫氧核苷酸DNA染色體A,T,C,G構(gòu)成形 成雙 鏈蛋白質(zhì)+基因基因就是位于DNA上的有效遺傳效應(yīng)的片段基因1 + 基因2 + 基因3 +-124基因是一種相對獨立的遺傳信息單位,這些信息單位可以通過各種方式在生物個體之間進行重新組合,并向后代傳遞;基因是一段DNA分子,遺傳信息貯存在DNA序列之中;基因的信息內(nèi)容通過相應(yīng)的形式表現(xiàn)出來,即指導(dǎo)合成蛋白質(zhì)或RNA,進而產(chǎn)生生理功能,或影響其他基因的表達。 基因具有幾個重要的特征125中心法則(The Central Dogma) 基因表達中的

36、信息流126基因功能區(qū)域基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框(Open Reading Frame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因為斷裂基因,即其編碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯

37、成蛋白質(zhì)。127基因的不連續(xù)性Intron 和Exon: 大多數(shù)真核生物蛋白質(zhì)基因的編碼順序(Exon)都被或長或短的非編碼順序(Intron)隔開128真核生物基因結(jié)構(gòu): 一個完整的真核生物基因,不但包括編碼區(qū)域,還包括5端和3端兩側(cè)長度不等的特異性序列,雖然這些序列不編碼氨基酸,卻在基因表達的過程中起著重要的作用。所以,嚴(yán)格的“基因”這一術(shù)語的分子生物學(xué)定義是:產(chǎn)生一條多肽鏈或功能RNA所必須的全部核苷酸序列。129基因序列特征分析主要內(nèi)容一、開放閱讀框ORF二、啟動子promoters三、 CpG島 CpG islands四、轉(zhuǎn)錄終止信號五、密碼子偏好性130一、開放閱讀框 ORFope

38、n reading frame 開放閱讀框指的是從5端開始翻譯起始密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白質(zhì)編碼堿基序列。1311.1 遮蔽重復(fù)序列 在進行任何真核生物序列的基因分析之前,最好把重復(fù)序列找出來并從序列中除去。132什么是重復(fù)序列?為什么要找出(遮蔽)重復(fù)序列?真核生物DNA序列由非重復(fù)序列和重復(fù)序列兩類構(gòu)成。ATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATT

39、TGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGCCCCCCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTC

40、TGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCG

41、AGTGGAAGGAAATTTGCGTGTGGAGTA133鑒定或遮蔽DNA重復(fù)序列的常用軟件CENSOR http:/censor/index.php RepeatMasker http:/Tandem Repeats Finder http:/trf/trf.html 1341.2 根據(jù)開放讀碼框預(yù)測基因A 起始密碼子 ATG第一個ATG的確定則依據(jù)Kozak規(guī)則; Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計結(jié)果,所謂Kozak規(guī)則,即第一個ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計規(guī)律.135若將第一個ATG中的堿基A,T,G分別標(biāo)為1, 2, 3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基

42、為G;(2)ATG的5端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基。136B 終止密碼子 終止密碼子: TAA, TAG,TGA GC% = 50% 終止密碼子每 64 bp出現(xiàn)一次; GC% 50% 終止密碼子每100200 bp 出現(xiàn)一次; 由于多數(shù)基因 ORF 均多于50個密碼子,因此最可能的選擇應(yīng)該是 ORF 不少于100 個密碼子。137C 3端的確認 3端的確認主要根據(jù)Poly(A)尾序列,若測試Contig不含Poly(A)序列,則根據(jù)加尾信號序列“AATAAA”和BLAST同源性比

43、較結(jié)果共同判斷。138開放讀碼框常用軟件ORF finder :(http:/gorf/orfig.cgi )GENSCAN:美國麻省理工學(xué)院開發(fā)的人類(或脊椎動物)基因預(yù)測軟件。http:/genes.M/GENSCAN.htmlExPASy Translate tool:http:/translate/139140141142Homo sapiens chemokine (C-C motif) ligand 21 (CCL21), NCBI Reference Sequence: NM_002989.3ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAAC

44、TTGCAGCTGCCCACCTCACCCTCAGC TCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTT CTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCC AAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCC AGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGA

45、GCTCTGGGTG CAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACA GGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGAC CCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAA GCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTG CCACA

46、CTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCC ACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGAC TGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCT TGTAAATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA以CCL21的mRNA序列舉例說明OR

47、F識別143http:/translate/ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGCTCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTTCTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCCAAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATC

48、CCAGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTGCAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACAGGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGACCCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAAGCCTGAACCCAAGATGCA

49、AGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTGCCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCCACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGACTGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCTTGTAAATATGATTTATACCTAACTGAATAAAAAGCTGT

50、TCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA 144http:/translate/ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGCTCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTTCTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCCAAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTAC

51、CGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCCAGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTGCAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACAGGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGACCCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCC

52、TCACCAGCGCTTGAAGCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTGCCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCCACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGACTGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCTTGTAA

53、ATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA 145146http:/translate/ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGCTCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTTCTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGC

54、CAAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCCAGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTGCAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACAGGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGACCCCTAAAGGGCCATAGCCC

55、AGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAAGCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTGCCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCCACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGACTGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGA

56、TACGGCTCCCCAGTACACCCCACCTCTTCCTTGTAAATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA 147148http:/translate/ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGCTCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTTCTGGCCTTTGGCATCCCCAGGACCCAAGGCAGT

57、GATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCCAAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCCAGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTGCAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACAGGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGG

58、ACTGAGCGGTCACAGACCCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAAGCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTGCCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCCACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGACTGT

59、CCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCTTGTAAATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAAAAA 1491501511521531541551561571581591601611 GenBank1622 Fasta nucleotide3 Fasta protein163二、啟動子及轉(zhuǎn)錄結(jié)合位點分析啟動子是基因的一個組成部分,是位于結(jié)構(gòu)基因5端上游區(qū)的DNA序列,控制基因表達(轉(zhuǎn)錄)的起始時間和表達的程度。啟動子本身并不控制基因活動,而是通過與稱為轉(zhuǎn)錄因子的蛋白質(zhì)結(jié)合而控制基因活動的。轉(zhuǎn)錄因子就像一面“旗子”,指揮RNA聚合酶的活動。如果基因的啟動子部分發(fā)生突變,則會導(dǎo)致基因表達的調(diào)節(jié)障礙。這種突變常見于惡性腫瘤。164165TATA BOX轉(zhuǎn)錄因子A轉(zhuǎn)錄因子B轉(zhuǎn)錄因子C啟動基因表達166為什么進行基因啟動子分析?啟動子原件 + 轉(zhuǎn)錄因子結(jié)合位點基因表達的啟動與調(diào)控機制了解、控制基因表達疾病控制與治療167啟動子預(yù)測及分析工具(參考教材)PromoterScanhttp:/www-/molbio/proscan/ 168

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論