




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、會計學(xué)1生物分子數(shù)據(jù)庫生物分子數(shù)據(jù)庫生物分子數(shù)據(jù)生物分子數(shù)據(jù)高速增長高速增長 分子生物學(xué)分子生物學(xué)及相關(guān)領(lǐng)域研究人員及相關(guān)領(lǐng)域研究人員迅速獲得最新實驗數(shù)據(jù)迅速獲得最新實驗數(shù)據(jù) 建立生物分子數(shù)據(jù)庫建立生物分子數(shù)據(jù)庫 三個數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個數(shù)據(jù)庫的響應(yīng)結(jié)果一樣。 這三個數(shù)據(jù)庫是綜合性的DNA和RNA序列數(shù)據(jù)庫,每條記錄代表一個單獨、連續(xù)、附有注釋的DNA或RNA片段。 以下著重介紹以下著重介紹EBMLEBMLMBL中的數(shù)據(jù)分類情況(單位:Gigabases)(EST-Expressed sequence tags; STS-sequence tag
2、ged sites)(取自http:/www3.ebi.ac.uk/Services/DBStats/)21 Mar 2003 37,943,364,438 bases in 24,353,128 records. “ID”為序列的標(biāo)識符行,包括登錄號、類型,分子的長度 “AC”為登錄號行;“XX”為分隔符號行; “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述細(xì)胞組織;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”描述參考文獻(xiàn)的編號;“RP”描述參考文獻(xiàn)的頁碼;“RA”描述參考文獻(xiàn)的作者;“RT”描述參考文獻(xiàn)的題目;“RL”描述參考文獻(xiàn)的
3、出處;“RC”描述參考文獻(xiàn)的注解;“RX”、“DR”行描述交叉引用信息;“FH” 為特征開始符號;“FT”為特征表行 (1)Feature Key,它是描述域生物功能的關(guān)鍵字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述關(guān)于一個特征的輔助信息;文件體由序列本身所組成,由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫中的每一個序列數(shù)據(jù)被賦予一個登錄號,它是一個永久性的唯一標(biāo)識 EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示,而每一個文件分為文件頭和文件體兩大部分 文件頭由一系列的信息描述行所組成,文件頭實際上對應(yīng)于一個序列的注釋(
4、annotation)提交數(shù)據(jù)提交數(shù)據(jù)(1)編輯電子表格(2)利用Authorin程序(3)利用基于WWW網(wǎng)絡(luò)環(huán)境的序列提交系統(tǒng)使用使用EMBLEMBL(1)CD-ROM形式(2)ftp服務(wù)器(3)Gopher服務(wù)器(4)WWW服務(wù)器這是目前最常用的一種形式 EMBLEMBL提供一些與序列相關(guān)的檢索操作(基于提供一些與序列相關(guān)的檢索操作(基于3W3W服務(wù)器)服務(wù)器)(1)序列查詢最簡單的查詢就是通過序列的登錄號(如X58929)或序列名稱(如SCARGC)直接查詢。如果找到所查詢的序列,則服務(wù)器將查詢結(jié)果以HTML文件返回給用戶如果數(shù)據(jù)庫中該序列有到MEDLINE的交叉索引,則系統(tǒng)同時返回與包
5、含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫的交叉索引,也返回相應(yīng)的鏈接例如: 登錄號為J00231的核酸序列具有這樣一個交叉索引行:DRSWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫中搜索其同源序列。 人類基因組計劃所得到的圖譜數(shù)據(jù)人類基因組計劃所得到的圖譜數(shù)據(jù) 目前GDB包含對下述三種對象的描述:(1)人類基因組區(qū)域 包括基因、克隆、PCR標(biāo)記物、斷點、細(xì)胞遺傳學(xué)標(biāo)記、易碎位點、 EST、綜合區(qū)域、contigs、重復(fù)等; (2)人類基因組圖譜, 包含
6、細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜,所有這些圖譜都可以被直觀地顯示出來;(3)人類基因組中的變化, 包括基因突變和基因多態(tài)性,加上等位基因頻率數(shù)據(jù)。與染色體相關(guān)的信息其它模式生物基因組數(shù)據(jù)庫如:如:鼠基因組數(shù)據(jù)庫鼠基因組數(shù)據(jù)庫 MGDMGD(//)酵母基因組數(shù)據(jù)庫酵母基因組數(shù)據(jù)庫 SGDSGD(/Saccharomyces//Sac
7、charomyces/)Ensembl (Ensembl (//)EnsemblEnsembl包括所有公開的人類基因組包括所有公開的人類基因組DNADNA序列,通過注釋形成的關(guān)于序列序列,通過注釋形成的關(guān)于序列的特征。的特征。 現(xiàn)在包括其他基因組,如大鼠、小鼠、線蟲、果蠅等?,F(xiàn)在包括其他基因組,如大鼠、小鼠、線蟲、果蠅等。例如:基例如:基因因通過實驗發(fā)現(xiàn)的通過實驗發(fā)現(xiàn)的或者是通過或者是通過GenScan程序預(yù)測的程序預(yù)測的其他的特征:其他的特征:單核苷酸多態(tài)性(單核苷酸多態(tài)性(SNPSNP)、重復(fù)序列等)、重復(fù)
8、序列等Ensembl 數(shù)據(jù)庫結(jié)構(gòu)圖 Ensembl提供多種查詢方式 通過關(guān)鍵字查詢用BLAST進(jìn)行相似序列的搜索 另一種更直觀的方式是顯示各染色體用戶可以在染色體水平上選擇感興趣的位點,逐層放大瀏覽整個基因組人的第人的第9號號染色體及大染色體及大鼠對應(yīng)的染鼠對應(yīng)的染色體片段色體片段EST(Expressed Sequence Tags)方法已被證明是識別轉(zhuǎn)錄序列的最有效方法 ,EST序列大約覆蓋了人類基因的90%。 DbEST (/dbEST/)是GenBank的一個部分,該數(shù)據(jù)庫包括不同生物的EST序列數(shù)據(jù)及其它相關(guān)信息,主要是從大量不同組
9、織和器官得到的短mRNA片段。 WEB頁面或emailFTP有關(guān)EST的數(shù)據(jù)dbEST數(shù)據(jù)庫STS(Sequence Tagged Sites)是序列標(biāo)記位點dbSTS(/dbSTS/)是NCBI的一個數(shù)據(jù)源,包含基因組短標(biāo)記序列(STS)的組成和定位信息。可以通過BLAST搜索STS序列。UniGene( /UniGene/)數(shù)據(jù)庫將GenBank中的序列進(jìn)行自動分類,形成面向基因群的非冗余集合。 每個UniGene群包含:代表一個唯一基因的多個序列,附有該基因相關(guān)的信息, 如基因表達(dá)的組
10、織類型、定位圖譜除了基因的序列之外,還包括大量的EST序列。 目前,UniGene中包括人類、大鼠、小鼠、牛的相關(guān)數(shù)據(jù),因為這些生物有大量的EST數(shù)據(jù)。1 1、PIRPIR(Protein Information ResourceProtein Information Resource)PIR提供三種類型的檢索服務(wù):一是基于文本的交互式查詢,用戶通過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。三個子數(shù)據(jù)庫 SWISS-PROT (http:/www.expasy.c
11、h/sprot/sprot-top.html)是目前國際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫,其中的蛋白質(zhì)序列是經(jīng)過注釋的 SWISS-PROT中的數(shù)據(jù)來源于不同源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻(xiàn)中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù) SWISS-PROT有三個明顯的特點 : (1 1)在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息(蛋白質(zhì)生物來源的描述)注釋包括: (A)蛋白質(zhì)的功能描述; (B)翻譯后修飾; (C)域和功能位點,如鈣結(jié)合區(qū)域、ATP結(jié)合位點等; (D)蛋白
12、質(zhì)的二級結(jié)構(gòu); (E)蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等; (F)與其它蛋白質(zhì)的相似性; (G)由于缺乏該蛋白質(zhì)而引起的疾病; (H)序列的矛盾、變化等。 盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。 如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。 對于每一個登錄項,有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息。 現(xiàn)有的交叉索引有: 到EMBL核酸序列數(shù)據(jù)庫的索引, 到PROSITE模式數(shù)據(jù)庫的索引, 到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等 。 提交序列數(shù)據(jù)提交序列數(shù)據(jù)(a a)編輯電子表格)編輯電子表格(b) b) 利用利用AuthorinAutho
13、rin程序程序(c c)WWWWWW服務(wù)器服務(wù)器 使用使用SWISS-PROTSWISS-PROT(a a)CD-ROMCD-ROM形式形式(b b)ftpftp服務(wù)器服務(wù)器(c c)GopherGopher服務(wù)器服務(wù)器(d d)WWWWWW服務(wù)器(服務(wù)器(SRSSRS) 與序列相關(guān)的操作與序列相關(guān)的操作(a a)序列查詢)序列查詢 (b b)搜索同源蛋白質(zhì)序列)搜索同源蛋白質(zhì)序列TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些
14、序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL 序列都已被賦予SWISS-PROT的 登錄號。(2)REM-TrEMBL(REMaining TrEMBL)包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號。包括: Swiss-Prot TrEMBL PIR 用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP 下載數(shù)據(jù)。UniProt包含3個部分:(1)UniProt Knowledgeb
15、ase(UniProt) 蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)數(shù)據(jù)庫 將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中 以便提高搜索速度;(3)UniProt Archive(UniParc) 資源庫,記錄所有蛋白質(zhì)序列的歷史。HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY
16、 INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS
17、REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT
18、 IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES
19、 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS AS
20、N ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000
21、ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 圖4.5 PDB文件 PDB文件 示意顯示分子結(jié)構(gòu)(顯示分子結(jié)構(gòu)(RasMol RasMol , ChemView ChemView )MMDB 實用工具1、單堿基多態(tài)性數(shù)據(jù)庫db
22、SNP(/SNP/), 實例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tgg
23、tctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G 單倍型數(shù)據(jù)The DSSP codeH = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in bet
24、a ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例:From PDBFrom Swiss-prot多重序列比對多重序列比對已知結(jié)構(gòu) 未知結(jié)構(gòu):80/entrez/query.fcgi?db=OMIM (biogen.fr/services/dbcat/)數(shù)據(jù)對象數(shù)據(jù)庫個數(shù)DNA87RNA29Protein94Genomic58Mapping29Protein structure18L
25、iterature43Miscellaneous153序列s:序列 t: 找出兩個序列具有最大匹配的相對位移1、FASTA算法位移 = 6 6 8 10s: -A-A-T-t: -A-A-T- 3 5 7位移 = 3 1 2 3 4 5 6 7 8 9 10 11 s = H A R F Y A A Q I V L 查找表 A 2,6,7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 1 2 3 4 5 6 7 8 t = V D M A A Q I A 位移 +9 -2 -3 +2 +2 -6 +2 +1 -2 +3 +2 -1位移向量-7 -6 -5 -4 -3 -2
26、 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 1 1 2 1 1 4 1 1最大匹配位移位移累計最大值意義:(1)該位移下匹配最多(2)計算相應(yīng)動態(tài)規(guī)劃矩陣對角線附近區(qū)域?qū)嶋H處理:將在同一位移下距離較近的多個k元組聯(lián)合起來,形成區(qū)域。一個區(qū)域可被看成是一個片段對,或無空白的局部對比排列,根據(jù)匹配或失配對區(qū)域進(jìn)行打分。對產(chǎn)生的5個最好區(qū)域按PAM矩陣進(jìn)行重新打分,最高的得分就是序列s和序列t相似性的初始得分。對于數(shù)據(jù)庫中的每一個序列,按上述方法計算與查詢序列比較的初始得分。根據(jù)初始得分將所有數(shù)據(jù)庫序列按非遞增順序排序,對于排在前面的幾個具有最高初始得分的序列,利用動態(tài)
27、規(guī)劃算法計算它們與查詢序列最優(yōu)對比排列的得分,但計算過程僅限于初始對比排列(對應(yīng)于初始得分的對比排列)附近區(qū)域。FastA的最新版本是FastA3軟件包,下表2列出FastA3家族所有成員:FastA家族程程 序序查詢序列類型查詢序列類型數(shù)據(jù)庫類型數(shù)據(jù)庫類型FastADNADNA蛋白質(zhì)蛋白質(zhì)FASTXFASTYDNA蛋白質(zhì) TFastA蛋白質(zhì)DNATFASTXTFASTY蛋白質(zhì)DNAFASTSTFASTS一系列多肽片段蛋白質(zhì)DNAFASTFTFASTF有序多肽混合物蛋白質(zhì)DNAFastA使用界面序列S:序列t: 找出兩個序列共同的短片段經(jīng)過擴(kuò)展后形成更長的相似片斷擴(kuò)展擴(kuò)展BLAST 使用界面實際應(yīng)用中傾向于蛋白質(zhì)序列搜索實際應(yīng)用中傾向于蛋白質(zhì)序列搜索 4 4種字符種字符 Vs. 20Vs. 20種字符種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度企業(yè)員工晉升與發(fā)展人事合同與勞動合同配套協(xié)議
- 二零二五年度土地流轉(zhuǎn)與農(nóng)業(yè)科技創(chuàng)新合作合同
- 2025年度律師起草公司內(nèi)部管理制度合同起草收費標(biāo)準(zhǔn)合同
- 2025年度培訓(xùn)機(jī)構(gòu)退學(xué)退費服務(wù)協(xié)議范本
- 2025年度代駕行業(yè)規(guī)范及服務(wù)合同范本
- 2025年度業(yè)務(wù)員提成與市場渠道整合合同
- 2025年度農(nóng)村土地征收補(bǔ)償安置與農(nóng)業(yè)科技創(chuàng)新協(xié)議
- 2025年度挖掘機(jī)股份轉(zhuǎn)讓與技術(shù)培訓(xùn)服務(wù)合同
- 2025年度借車保險責(zé)任免除協(xié)議書
- 2025年房地產(chǎn)行業(yè)發(fā)展前景分析:多家房企債務(wù)重組取得突破
- 異位妊娠護(hù)理查房版本
- 人教版 八年級數(shù)學(xué)下冊 第19章 單元綜合測試卷(2025年春)
- 2025年湖南中醫(yī)藥高等??茖W(xué)校高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2024年美發(fā)師(高級技師)職業(yè)鑒定考試題庫(含答案)
- 2025年山東藥品食品職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2024年05月湖南招商銀行長沙分行長期社會招考筆試歷年參考題庫附帶答案詳解
- 滬科版(2024新版)數(shù)學(xué)七年級下冊第6章 實數(shù) 單元測試卷(含答案)
- 2025新人教版英語七年級下單詞英譯漢默寫表(小學(xué)部分)
- 電子物料基礎(chǔ)知識
- 外科疝氣的個案護(hù)理
- 2025屆江蘇省南京市鹽城市高三一??荚囌Z文試題 課件
評論
0/150
提交評論