中國科技大學(xué)課件系列《生物信息學(xué)》分析_第1頁
中國科技大學(xué)課件系列《生物信息學(xué)》分析_第2頁
中國科技大學(xué)課件系列《生物信息學(xué)》分析_第3頁
中國科技大學(xué)課件系列《生物信息學(xué)》分析_第4頁
中國科技大學(xué)課件系列《生物信息學(xué)》分析_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、中國科技大學(xué)課件系列生物信息學(xué)分析第二章:序列的采集和存儲第二章:序列的采集和存儲中國科技大學(xué)課件系列生物信息學(xué)分析DNA:Deoxyribonucleic acid,脫氧核糖核酸;,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸;,核糖核酸;中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分

2、析中國科技大學(xué)課件系列生物信息學(xué)分析r1. DNA測序測序r2. 序列數(shù)據(jù)的存儲序列數(shù)據(jù)的存儲核酸序列數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫r3. 序列數(shù)據(jù)的文件格式序列數(shù)據(jù)的文件格式中國科技大學(xué)課件系列生物信息學(xué)分析rDNA一次連續(xù)測序的長度約為一次連續(xù)測序的長度約為500bp;rEST (Expressed sequence tag) 測序:細(xì)測序:細(xì)胞中胞中mRNA反轉(zhuǎn)錄成反轉(zhuǎn)錄成cDNA,方向不定測序,方向不定測序;rGSS (Genome Survey Sequences,基因,基因組勘測序列組勘測序列):類似于:類似于ESTs,來源基因組,來源

3、基因組;rHTG (High-throughput genome sequences,高通量基因組序列,高通量基因組序列):高通量、:高通量、尚未完工的尚未完工的DNA序列序列;CATddGTPddTTPddATP(D)中國科技大學(xué)課件系列生物信息學(xué)分析r1. 基因圖譜法:基因圖譜法:DNA片段在染色體上的位片段在染色體上的位置、方向已知。首先染色體被打斷成置、方向已知。首先染色體被打斷成150200kbp左右的大片段,然后克隆到左右的大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再進(jìn)一步隨機打斷,克隆,測序,依中,再進(jìn)一步隨機打斷,克隆,測

4、序,依靠計算機組裝成長的序列靠計算機組裝成長的序列(contig) 。r2. “鳥槍法鳥槍法”(shotgun):):DNA片段在染片段在染色體上的位置和方向未知。全基因組隨機色體上的位置和方向未知。全基因組隨機打斷成小片段,克隆,雙向測序,計算機打斷成小片段,克隆,雙向測序,計算機組裝成長的序列。組裝成長的序列。中國科技大學(xué)課件系列生物信息學(xué)分析r 基因組圖譜:遺傳圖譜,物理圖譜基因組圖譜:遺傳圖譜,物理圖譜r 遺傳圖譜遺傳圖譜(genetic map):連鎖圖譜,顯示:連鎖圖譜,顯示所知的基因和所知的基因和/或遺傳標(biāo)記的相對距離位置與或遺傳標(biāo)記的相對距離位置與次序。次序。r物理圖譜物理圖譜

5、(physical map):表示某些基因和表示某些基因和/或遺傳標(biāo)記之間在基因組上的精確位置和距或遺傳標(biāo)記之間在基因組上的精確位置和距離(如間隔的離(如間隔的bp數(shù)目)的圖譜。數(shù)目)的圖譜。中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析r核酸序列數(shù)據(jù)庫核酸序列數(shù)據(jù)庫國際三大核酸序列數(shù)據(jù)庫:國際三大核酸序列數(shù)據(jù)庫:GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數(shù)據(jù)庫數(shù)據(jù)庫UniGene等等r蛋白質(zhì)序列數(shù)據(jù)庫蛋

6、白質(zhì)序列數(shù)據(jù)庫UniProtSwiss-prot & TrEMBL, PIRr基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫: Ensembl中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析r由美國國立衛(wèi)生研究院由美國國立衛(wèi)生研究院NIH下屬國立生物技下屬國立生物技術(shù)信息中心術(shù)信息中心NCBI建立。建立。r匯集并注釋了所有公開的核酸以及蛋白質(zhì)序匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個記錄代表了一個單獨的、連續(xù)的、列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的帶有注釋的DNA或或RNA片段。片段。中國科技大學(xué)課件系列生物信息學(xué)分析161.0版,2007中國科技大學(xué)課件系列生物信息學(xué)分析r

7、EMBL-EBI (European Bioinformatics Institute)維護(hù)維護(hù);中國科技大學(xué)課件系列生物信息學(xué)分析r NIG (National Institute of Genetics)r CIB (Center for Information Biology)中國科技大學(xué)課件系列生物信息學(xué)分析r1998年,年,GenBank、EMBL和和DDBJ共同成共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會立了國際核酸序列數(shù)據(jù)庫協(xié)會 (International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸數(shù)據(jù)庫之間每天將新測定或

8、更新的三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個月更新一次版本。同步,每兩個月更新一次版本。中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析r1. 提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的序列信息;序列信息;r2. 包括染色體、基因組(細(xì)胞器、病毒、質(zhì)包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒)、蛋白質(zhì)、粒)、蛋白質(zhì)、RNA等;等;r 序列文件的標(biāo)識符:序列文件的標(biāo)識符:mRNA序列:序列:NM_123456非編碼非編碼RNA:N

9、R_123456蛋白質(zhì)序列:蛋白質(zhì)序列: NP_123456r 中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析r截然不同的截然不同的Accession號區(qū)別于其它號區(qū)別于其它GenBank命名格式命名格式的序列,前綴是兩個字的序列,前綴是兩個字母加下劃線母加下劃線 _;r在在Comment區(qū)域顯示來源區(qū)域顯示來源;r使用正式命名使用正式命名;r包括包括dbxrefs的特征的特征;r蛋白序列在蛋白序列在DBSOURCE區(qū)域標(biāo)示區(qū)域標(biāo)示 REFSEQ中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析最多的最多的20個物種:個物種:2007.08,總序列45,

10、660,524條中國科技大學(xué)課件系列生物信息學(xué)分析為每一個基因創(chuàng)造一個唯一的條目,收集這個基因所有的為每一個基因創(chuàng)造一個唯一的條目,收集這個基因所有的ESTs中國科技大學(xué)課件系列生物信息學(xué)分析r最早廣泛使用的蛋白數(shù)據(jù)庫;歐洲最主要最早廣泛使用的蛋白數(shù)據(jù)庫;歐洲最主要的蛋白序列數(shù)據(jù)庫;的蛋白序列數(shù)據(jù)庫;rSIB(Swiss Institute of Bioinformatics)r可由可由ExPASy(Expert Protein Analysis System)系統(tǒng)訪問;)系統(tǒng)訪問;r所有序列條目均經(jīng)過有經(jīng)驗的分子生物學(xué)所有序列條目均經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白家

11、和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白質(zhì)專家?guī)?。質(zhì)專家?guī)?。中國科技大學(xué)課件系列生物信息學(xué)分析rTrEMBL (Translation of EMBL):計算機:計算機注釋的注釋的Swiss-Prot分支數(shù)據(jù)庫,從分支數(shù)據(jù)庫,從EMBL庫中的庫中的cDNA序列翻譯得到的氨基酸序列序列翻譯得到的氨基酸序列數(shù)據(jù)庫。數(shù)據(jù)庫。rGenPept:由:由GenBank翻譯得到的蛋白質(zhì)翻譯得到的蛋白質(zhì)序列,與序列,與TrEMBL類似,這兩個數(shù)據(jù)庫中類似,這兩個數(shù)據(jù)庫中的序列錯誤率較大,均有較大的冗余度。的序列錯誤率較大,均有較大的冗余度。中國科技大學(xué)課件系列生物信息學(xué)分析r1984年,美國國家醫(yī)學(xué)研究基金會(年,

12、美國國家醫(yī)學(xué)研究基金會(NREF)正式啟動蛋白質(zhì)信息資源(正式啟動蛋白質(zhì)信息資源(Protein Information Resource, PIR)計劃;)計劃;r美國最主要的蛋白序列數(shù)據(jù)庫美國最主要的蛋白序列數(shù)據(jù)庫;r非冗余、高質(zhì)量注釋、全面分類非冗余、高質(zhì)量注釋、全面分類;rPIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分為數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和和PIR4。PIR1中的序列中的序列已經(jīng)驗證,注釋最為詳盡。已經(jīng)驗證,注釋最為詳盡。中國科技大學(xué)課件系列生物信息學(xué)分析rUniversal Protein Resource: Swiss-prot(TrEMBL),

13、 PIR兩大蛋白數(shù)據(jù)庫兩大蛋白數(shù)據(jù)庫的整合體;的整合體;r收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫;面的數(shù)據(jù)庫;r包含三個子庫:包含三個子庫:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析rUniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括:,包括:Swiss-Prot Release 57.4

14、 : 497293 entries TrEMBL Release 40.4 : 9145906 entries r包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序列與功能注釋。富的序列與功能注釋。r記錄以記錄以6位字母和數(shù)字組成,例:位字母和數(shù)字組成,例:Q5K8D3 中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析中國科技大學(xué)課件系列生物信息學(xué)分析r為人類基因組計劃為人類基因組計劃(HGP)保存和處理基因組保存和處理基因組圖譜數(shù)據(jù)。圖譜數(shù)據(jù)。rGDB的目標(biāo)是構(gòu)建關(guān)于人類基

15、因組的百科全的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。變異和其它對功能和表型的描述。中國科技大學(xué)課件系列生物信息學(xué)分析r收集某些生物整個基因組序列的數(shù)據(jù)庫收集某些生物整個基因組序列的數(shù)據(jù)庫;r基因組計劃基因組計劃Human Genome ProjectSequencing Genomics Projects r從從GenBank中選擇同一物種的核酸信息組中選擇同一物種的核酸信息組成的二級庫成的二級庫;中國科技大學(xué)課件系列生物信息學(xué)分析The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和和Sanger研究所共同開發(fā)。研究所共同開發(fā)。中國科技大學(xué)課件系列生物信息學(xué)分析rDNA/RNA/氨基酸代碼的標(biāo)識氨基酸代碼的標(biāo)識rGenBank數(shù)據(jù)格式數(shù)據(jù)格式rEMBL & UniProt數(shù)據(jù)格式數(shù)據(jù)格式rFASTA 數(shù)據(jù)格式數(shù)據(jù)格式中國科技大學(xué)課件系列生物信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論