資料格式-ppt課件_第1頁
資料格式-ppt課件_第2頁
資料格式-ppt課件_第3頁
資料格式-ppt課件_第4頁
資料格式-ppt課件_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Sequence Sequence analysisanalysis資料格式資料格式 (Data format)資料格式 (Text)MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAA

2、QLTVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH 資料格式 (FASTA)SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKI

3、WDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH 資料格式 (GenBank)資料格式 (Swissport)資料庫比對搜尋Database Search其他資料庫其他資料庫(Others)(Others)Signa

4、ling pathway, metabolic pathwaySignaling pathway, metabolic pathway資料庫種類資料庫種類文獻資料庫文獻資料庫(Reference database)(Reference database)PubMed, Books, OMIN, SeqAnalRefPubMed, Books, OMIN, SeqAnalRef 序列資料庫序列資料庫(Sequence Database)(Sequence Database)Nucleotide, protein Nucleotide, protein /entre

5、z/query.fcgi?db=PubMed=PubMedReference /entrez/query.fcgi?db=BooksReference /entrez/query.fcgi?db=OMIMReference /seqanalref/Reference databasescholar.google.tw/Reference databaseSequence DatabasesNucleotide database-DNA-mRNA/cDNA-A

6、lternative spicing-SNP-UniGeneProtein Database- Sequences- Domain and family - Structure- Swiss-2D %3D Image- ENZYME - PDB International DNA data /Data Bankebi.ac.uk/Databases/Databases/Data Bankddbj.nig.ac.jp/Data B/mapview/Genome B/cgi-bi

7、n/hgGatewayGenome B/Genome BrowerExpression Sequence Tagcdna.ims.u-tokyo.ac.jp/mRNA/cDNA D/dbEST/index.htmlmRNA/cDNA D/UniGene/mRNA/cDNA DatabaseAlternative splicing /ASAP2/Alternative Splicing Annotation Project II

8、 :8080/BIPASSSingle Nucleotide Polymorphism (SNP)/SNP/SNP/SNP .tw/snp/SNP /sprot/Protein /prosite/這是一個以蛋白質(zhì)功能為分類基準的資料庫,資料庫內(nèi)的 資料包括了蛋白質(zhì)的生化功能、來源、活性區(qū)域、胺基酸序列的一致性模式 (consensus pattern) /ch2d/收集蛋白質(zhì)

9、在二維電泳膠片上特定位置的資料庫 /enzyme/enzyme/ENZYME這個資料庫的資料有,酵素所催化的生化反應方程式、 酵素所需要的輔助因子(cofactor)、酵素在Boehringer Mannheim所提供的生化新 陳代謝圖中的位置 /pdb/home/home.doOTHER-TYPE DATABASES Signaling Pathway Database Reference . .bioinformatics.weizmann.ac.il/cards/cards/GeneCardsbiocarta/genes/allPathways.a

10、spBIOCARTAgenome.jp/kegg/Kyoto Encyclopedia of Genes and Genomes (KEGG)grt.kyushu-u.ac.jp/spad/Signaling Pathway Database /cgi/content/full/35/suppl_1/D3/DC12019Database searchText search (Key word)NCBI (Entrez; /sites/gquery)EBI (SRS; srs6.ebi.ac.uk/ )由於目前的由於目前

11、的Entrez 介面提供整個介面提供整個Entrez 資料庫的搜尋結(jié)果,所以使用者不需定義資料庫的搜尋結(jié)果,所以使用者不需定義特定資料庫。在使用特定資料庫。在使用SRS 時就需注意定義時就需注意定義特定資料庫,再進行搜尋。特定資料庫,再進行搜尋。 Sequence searchNCBI (BLAST; /blast/ )EBI (Fasta; ebi.ac.uk/fasta33/index.html )試以試以 Fibroblast growth factor 9 “ FGF9” 為為keyword,練習由,練習由NCBI提供的提供的Entrez 或由或由EBI

12、 提供提供的的 SRS 來搜尋文獻、核酸及蛋白質(zhì)資料庫。來搜尋文獻、核酸及蛋白質(zhì)資料庫。 練習一練習一Tryptophan hydroxylase 2TPH2是大腦製造血清素的速率限制脢,是大腦製造血清素的速率限制脢,請試著找出:請試著找出:1. 人類人類TPH2 gene 位於那一條位於那一條chromosome上?其上?其physical map 的位置的位置 約在多少約在多少Megabase(Mb)處?處?2.找出一篇描述找出一篇描述 TPH2 function有關(guān)的有關(guān)的paper ,寫下作者、期刊名、卷號、,寫下作者、期刊名、卷號、頁數(shù)和出版年份。頁數(shù)和出版年份。3.利用利用NCBI

13、上現(xiàn)有的電子書,找出那一本書上的那個章節(jié)有講述上現(xiàn)有的電子書,找出那一本書上的那個章節(jié)有講述TPH2的相關(guān)資訊。的相關(guān)資訊。4.利用利用NCBI (Entrez 及及 BLAST) 或或 EBI (SRS 及及 FASTA)的系統(tǒng)的系統(tǒng),找出人找出人類類 TPH2 mRNA or cDNA 序列並利用此序列進行蛋白質(zhì)資料庫搜尋。序列並利用此序列進行蛋白質(zhì)資料庫搜尋。顯示最好的顯示最好的50筆資料筆資料 。作業(yè)一作業(yè)一序列分析比對序列分析比對Sequence comparison為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規(guī)則 找出親緣基因的同緣區(qū)域序列比對指將兩個或多個序列排列在

14、一起,標明其相似之序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔通常用短橫線處。序列中可以插入間隔通常用短橫線-表示)。表示)。對應的相同或相似的符號在核酸中是對應的相同或相似的符號在核酸中是A, T或或U), C, G,在蛋白質(zhì)中是胺基酸殘基的單字母表示排列在同一列,在蛋白質(zhì)中是胺基酸殘基的單字母表示排列在同一列上。上。 為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規(guī)則 找出親緣基因的同緣區(qū)域序列比對指將兩個或多個序列排列在一起,標明其相似之序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔通常用短橫線處。序列中可以插入間隔通常用

15、短橫線-表示)。表示)。對應的相同或相似的符號在核酸中是對應的相同或相似的符號在核酸中是A, T或或U), C, G,在蛋白質(zhì)中是胺基酸殘基的單字母表示排列在同一列,在蛋白質(zhì)中是胺基酸殘基的單字母表示排列在同一列上。上。 序列並列比對的種類序列並列比對的種類 Global vs. Local alignment序列並列比對的種類序列並列比對的種類常用的序列比對方法 一般 Global Alignment 採用Needleman-Wunsch algorithm的演算法,是一種利用動態(tài)規(guī)劃法則dynamic programming所開發(fā)出來的方法。 一般Local Alignment採用Smit

16、h-Waterman 的演算法, 也是利用dynamic programming所開發(fā)出來的方法。 在相似度高的片段, Global和Local Alignment得到的結(jié)果差不多。 資料庫搜尋多利用Local Alignment, Smith-Waterman最先發(fā)展出來, 靈敏度最高但因計算量大, 故最耗時間。FASTA發(fā)展較晚,計算速度就比Smith-Waterman快,精細程度也不差。而BLAST出現(xiàn)最晚,計算上比其他方式快了許多。它的計算速度使得它在生物序列資料庫的搜尋上有很大的優(yōu)勢,也因此它可說是目前最受歡迎的序列分析工具。序列分析比對工具序列分析比對工具一、雙序列並列分析二、多序

17、列並列分析三、序列搜尋資料庫Pairwise comparisons雙序列並列分析雙序列並列分析Pairwise sequence alignment methods are used to find the best-matching piecewise (local) or global alignments of two query sequences Dot-matrix methods Dynamic programming Word methods Multiple sequences comparisons多序列並列分析多序列並列分析Multiple sequence align

18、ment (MSA) is an extension of pairwise alignment to incorporate more than two sequences at a time. MSA are often used in identifying conserved sequence regions across a group of sequences Dynamic programming Progressive methodsThe methods begin by aligning the two most closely related sequences first and then successively aligning the next most closely related sequence in the query set to the alignment produced in the previous step 3. Iterative methods the work similarly to progressive methods but repeatedly realign the initial sequences as

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論