數(shù)據(jù)搜索時(shí)有用的生物大分子數(shù)據(jù)庫(kù)掃描_第1頁(yè)
數(shù)據(jù)搜索時(shí)有用的生物大分子數(shù)據(jù)庫(kù)掃描_第2頁(yè)
數(shù)據(jù)搜索時(shí)有用的生物大分子數(shù)據(jù)庫(kù)掃描_第3頁(yè)
數(shù)據(jù)搜索時(shí)有用的生物大分子數(shù)據(jù)庫(kù)掃描_第4頁(yè)
數(shù)據(jù)搜索時(shí)有用的生物大分子數(shù)據(jù)庫(kù)掃描_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物大分子數(shù)據(jù)庫(kù)掃描根據(jù)“Nucleic Acids Research”最新(指2007年)公布的數(shù)據(jù),目前已有968個(gè)有關(guān)生物大分子數(shù)據(jù)庫(kù)(參見(jiàn)文獻(xiàn) Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。有興趣的讀者可以參閱網(wǎng)站“http:/www.oxfordjourna/nar/database/a”。我們這里將主要類(lèi)型的數(shù)據(jù)庫(kù)列于表4-2。數(shù)據(jù)庫(kù)類(lèi)別代表數(shù)據(jù)庫(kù)名及應(yīng)用核苷酸序列數(shù)據(jù)庫(kù)國(guó)際苷酸序列數(shù)據(jù)庫(kù)集DDBJ:所有已知的核苷酸序列與蛋白質(zhì)序列EMBL:所有已知的核苷酸序列與蛋白質(zhì)序列GenBank

2、:所有已知的核苷酸序列與蛋白質(zhì)序列DNA序列:基因,保守序列模式及調(diào)控位點(diǎn)有關(guān)代碼DNA序列ACLAME:基因移動(dòng)因子分類(lèi)數(shù)據(jù)庫(kù)CUTG:Genbank數(shù)據(jù)庫(kù)中的代碼應(yīng)用分類(lèi)數(shù)據(jù)庫(kù)HERVd:人類(lèi)內(nèi)源性逆轉(zhuǎn)錄病毒數(shù)據(jù)庫(kù)NPRD:核小體定位區(qū)間數(shù)據(jù)庫(kù)TIGR Gene Indices:基因序列與組織專(zhuān)一化數(shù)據(jù)庫(kù)VectorDB:核酸向特征及分類(lèi)數(shù)據(jù)庫(kù)基因結(jié)構(gòu),內(nèi)含子,外顯子ASD:選擇性剪切數(shù)據(jù)庫(kù)EASED:擴(kuò)展選擇性剪切EST數(shù)據(jù)庫(kù)HS3D:現(xiàn)代人剪切位點(diǎn)數(shù)據(jù)庫(kù)Splice DB:典型與非典型的哺乳動(dòng)物剪切位點(diǎn)數(shù)據(jù)庫(kù)轉(zhuǎn)錄調(diào)節(jié)位點(diǎn)與轉(zhuǎn)錄因子ACTIVITY:功能DNA/RNA位點(diǎn)數(shù)據(jù)庫(kù)DBTBS

3、:枯草桿菌起動(dòng)與轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)EPD:真核起動(dòng)子數(shù)據(jù)庫(kù)JASPAR:轉(zhuǎn)錄因子DNA結(jié)合位點(diǎn)位置專(zhuān)一化得分矩陣TESS:轉(zhuǎn)錄子搜索系統(tǒng)TRED:轉(zhuǎn)錄調(diào)控元素?cái)?shù)據(jù)庫(kù)TRANSFAC:轉(zhuǎn)錄因子和連接位點(diǎn)數(shù)據(jù)庫(kù)RNA序列數(shù)據(jù)庫(kù)16S與23S rRNA Mutation Database:16S與23S核糖體RNA突變數(shù)據(jù)庫(kù)ARED:mRNA中AU豐富數(shù)據(jù)庫(kù)NCIR:RNA結(jié)構(gòu)中非典型相互作用數(shù)據(jù)庫(kù)tmRDB:tmRNA數(shù)據(jù)庫(kù)Rfam:非代碼RNA家族數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)綜合數(shù)據(jù)庫(kù)EXProt:被實(shí)驗(yàn)證實(shí)功能的蛋白質(zhì)序列數(shù)據(jù)庫(kù)PA-GOSUB:根據(jù)模型器官,GO數(shù)據(jù)庫(kù)確認(rèn)及亞細(xì)胞定位的蛋白質(zhì)序列數(shù)據(jù)庫(kù)

4、Swiss-Prot:蛋白質(zhì)序列數(shù)據(jù)庫(kù)TrEMBL:應(yīng)用計(jì)算機(jī)注釋與翻譯EMBL數(shù)據(jù)庫(kù)UniProt:所有蛋白質(zhì)序列累積數(shù)據(jù)庫(kù)蛋白質(zhì)性質(zhì)數(shù)據(jù)庫(kù)AAindex:氨基酸理化性質(zhì)數(shù)據(jù)庫(kù)ProNIT:蛋白質(zhì)與核酸相互作用熱動(dòng)力學(xué)數(shù)據(jù)庫(kù)ProTherm:天然型與突變型蛋白質(zhì)熱動(dòng)力學(xué)數(shù)據(jù)庫(kù)TECRdb:酶催化反應(yīng)熱動(dòng)力學(xué)數(shù)據(jù)庫(kù)蛋白質(zhì)定位與靶向數(shù)據(jù)庫(kù)(Protein localization and targeting)DDSubLoc:蛋白質(zhì)在亞細(xì)胞單元定位數(shù)據(jù)庫(kù)NESbase:核輸出信號(hào)數(shù)據(jù)庫(kù)NLSdb:核定位信號(hào)數(shù)據(jù)庫(kù)NMPdb:核基質(zhì)聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)NOPdb:核仁蛋白質(zhì)組數(shù)據(jù)庫(kù)PSORTdb:細(xì)菌

5、中蛋白質(zhì)在亞細(xì)胞單元中定位數(shù)據(jù)庫(kù)SPD:分泌蛋白質(zhì)數(shù)據(jù)庫(kù)THGS:基因組序列中跨膜螺旋蛋白質(zhì)數(shù)據(jù)庫(kù)TMPDB:由實(shí)驗(yàn)確定的跨膜蛋白拓?fù)鋽?shù)據(jù)庫(kù)蛋白質(zhì)保守序列模式及活性位點(diǎn)數(shù)據(jù)庫(kù)ASC:活性序列集合:生物活性肽數(shù)據(jù)庫(kù)BLOCKS:蛋白質(zhì)家族中保守區(qū)間比對(duì)數(shù)據(jù)庫(kù)CSA:催化位點(diǎn)圖譜,已知三維結(jié)構(gòu)的酶的活性位點(diǎn)及催化位點(diǎn)數(shù)據(jù)庫(kù)COMe:生物有機(jī)蛋白分類(lèi)數(shù)據(jù)庫(kù)CopS:綜合肽信號(hào)數(shù)據(jù)庫(kù)eBLOCKS:高度保守蛋白質(zhì)序列塊eMOTIF:蛋白質(zhì)保守序列模式的確定與搜索Metalloprotein Site Database:金屬蛋白中金屬連接位點(diǎn)數(shù)據(jù)庫(kù)O-GlyBase:蛋白質(zhì)中用O和C連接的糖基化位點(diǎn)數(shù)據(jù)

6、庫(kù)PDBsite:蛋白質(zhì)三維結(jié)構(gòu)功能位點(diǎn)數(shù)據(jù)庫(kù)PROSITE:生物學(xué)顯著的蛋白質(zhì)模式與突變譜數(shù)據(jù)庫(kù)蛋白質(zhì)功能區(qū)域;蛋白質(zhì)分類(lèi)數(shù)據(jù)庫(kù)ADDA:蛋白質(zhì)功能區(qū)域分類(lèi)數(shù)據(jù)庫(kù)CDD:保守功能區(qū)域數(shù)據(jù)庫(kù):主要來(lái)自于Pfam,SMART,COG和KOG數(shù)據(jù)庫(kù)CluSTr:Swiss-Prot+TrEMBL蛋白聚類(lèi)數(shù)據(jù)庫(kù)FunShift:在同一個(gè)蛋白質(zhì)功能的家族的子家族之間功能異化數(shù)據(jù)庫(kù)PRINTS:?jiǎn)l(fā)式基因家族指紋譜數(shù)據(jù)庫(kù)Pfam:蛋白質(zhì)家族數(shù)據(jù)庫(kù):根據(jù)多重序列比對(duì)和突變譜HMM構(gòu)建ProtoMap:將Swiss-Prot依不同層次分類(lèi)的數(shù)據(jù)庫(kù)S4:SCOP超級(jí)家族中基于結(jié)構(gòu)的序列比對(duì)數(shù)據(jù)庫(kù)單個(gè)蛋白質(zhì)家族

7、數(shù)據(jù)庫(kù)AARSDB:酰氨轉(zhuǎn)移-tRNA合成酶數(shù)據(jù)庫(kù)ASPD:人工選擇的蛋白質(zhì)/肽數(shù)據(jù)庫(kù)Bac Tregulators:AraC和TetR家族轉(zhuǎn)錄調(diào)節(jié)子數(shù)據(jù)庫(kù)CSDBase:冷休克蛋白功能區(qū)閾數(shù)據(jù)庫(kù)GPCRDB:G蛋白偶聯(lián)受體數(shù)據(jù)庫(kù)Histone Database:組蛋白折疊序列與結(jié)構(gòu)數(shù)據(jù)庫(kù)ProLysED:細(xì)菌蛋白酶數(shù)據(jù)庫(kù)TrSDB:轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)結(jié)構(gòu)數(shù)據(jù)庫(kù)小分子數(shù)據(jù)庫(kù)ChEBI:對(duì)生物有反應(yīng)的化學(xué)條目AANT:氨基酸與核苷相互作用數(shù)據(jù)庫(kù)碳水化合物數(shù)據(jù)庫(kù)CCSD:復(fù)合碳水化合物結(jié)構(gòu)數(shù)據(jù)庫(kù)GlycoSuiteDB:N-和O-多糖結(jié)構(gòu)與生物資源數(shù)據(jù)庫(kù)核酸結(jié)構(gòu)數(shù)據(jù)庫(kù)NDB:核酸包含結(jié)構(gòu)數(shù)據(jù)庫(kù)NTDB

8、:核酸熱動(dòng)力學(xué)數(shù)據(jù)庫(kù)RNABase:由PDB和NDB中包括RNA的結(jié)構(gòu)數(shù)據(jù)庫(kù)SCOR:RNA結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù),有關(guān)RNA結(jié)構(gòu),保守序列模式,功能及三級(jí)結(jié)構(gòu)相互作用有關(guān)蛋白質(zhì)結(jié)構(gòu)方面的數(shù)據(jù)庫(kù)ArchDB:蛋白質(zhì)環(huán)結(jié)構(gòu)自動(dòng)分類(lèi)數(shù)據(jù)庫(kù)ASTRAL:已知結(jié)構(gòu)的功能區(qū),被選出的子集和序列結(jié)構(gòu)相關(guān)的序列數(shù)據(jù)庫(kù)BAliBASE:多重序列比對(duì)比較的數(shù)據(jù)庫(kù)BioMagReBank:蛋白質(zhì)與核酸的NMR光譜數(shù)據(jù)庫(kù)CADB:蛋白質(zhì)數(shù)據(jù)庫(kù)的構(gòu)象角數(shù)據(jù)庫(kù)CATH:蛋白質(zhì)功能區(qū)域自動(dòng)分類(lèi)數(shù)據(jù)庫(kù)CE:蛋白質(zhì)三級(jí)結(jié)構(gòu)比對(duì)數(shù)據(jù)庫(kù)CKAAPsDB:序列不相似但結(jié)構(gòu)相似的蛋白質(zhì)數(shù)據(jù)庫(kù)Dali:應(yīng)用Dali搜索引擎得到的蛋白質(zhì)折疊分類(lèi)

9、數(shù)據(jù)庫(kù)Decoys R Us:由計(jì)算機(jī)產(chǎn)生構(gòu)象的數(shù)據(jù)庫(kù)DsiProt:蛋白質(zhì)無(wú)序結(jié)構(gòu)數(shù)據(jù)庫(kù)DomIns:已知蛋白質(zhì)結(jié)構(gòu)功能區(qū)閾插入數(shù)據(jù)庫(kù)eF-site:功能位點(diǎn)靜電表面數(shù)據(jù)庫(kù):蛋白質(zhì)活性位點(diǎn)的靜電勢(shì)與疏水性GenDis:蛋白質(zhì)結(jié)構(gòu)超級(jí)家族基因組分布數(shù)據(jù)庫(kù)GTOP:根據(jù)基因組序列預(yù)測(cè)蛋白質(zhì)折疊數(shù)據(jù)庫(kù)HOMSTRAD:同源結(jié)構(gòu)比對(duì)數(shù)據(jù)庫(kù)MolMovDB:生物大分子運(yùn)動(dòng)數(shù)據(jù)庫(kù),主要描述蛋白質(zhì)及生物大分子運(yùn)動(dòng)LPFC:蛋白質(zhì)核結(jié)構(gòu)家族庫(kù)PDB:蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),搜集了所有蛋白質(zhì)及核酸結(jié)構(gòu)的數(shù)據(jù)庫(kù)PDBsum:對(duì)PDB結(jié)構(gòu)總結(jié)分析數(shù)據(jù)庫(kù)PDB_TM:已知三級(jí)結(jié)構(gòu)的跨膜蛋白數(shù)據(jù)庫(kù)ProteinFoldin

10、g Database:蛋白質(zhì)折疊實(shí)驗(yàn)數(shù)據(jù)庫(kù)SCOP:由專(zhuān)家參預(yù)的蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)Sloop:蛋白質(zhì)環(huán)分類(lèi)數(shù)據(jù)庫(kù)Structure Superposition Database:TIM桶狀結(jié)構(gòu)的配對(duì)疊合數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)基因注釋項(xiàng),規(guī)范描述及相關(guān)術(shù)語(yǔ)有關(guān)常用命名方面的數(shù)據(jù)庫(kù)Genew:人類(lèi)基因命名GO:基因功能的規(guī)范描術(shù)數(shù)據(jù)庫(kù)GOA:有關(guān)EBI的基因功能的規(guī)范描述數(shù)據(jù)庫(kù)IUBMB Nomenclature數(shù)據(jù)庫(kù):有關(guān)酶,跨膜轉(zhuǎn)移,電子轉(zhuǎn)移蛋白及其它蛋白命名。IUPAC Nomenclature數(shù)據(jù)庫(kù):由IUBMB與IUPAC聯(lián)合委員會(huì)通過(guò)的生化與有機(jī)小分子的命名IUPHAR-RD:國(guó)際藥學(xué)聯(lián)

11、合會(huì)推薦的有關(guān)受體命名和藥物分類(lèi)數(shù)據(jù)庫(kù)分類(lèi)與鑒定數(shù)據(jù)庫(kù)細(xì)菌鑒定與分類(lèi)的gyrB數(shù)據(jù)庫(kù)綜合基因數(shù)據(jù)庫(kù)COG:蛋白質(zhì)直系同源組聚類(lèi)數(shù)據(jù)庫(kù)COGENT:完全基因組跟蹤數(shù)據(jù)庫(kù),根據(jù)完全基因序列預(yù)測(cè)肽DEG:細(xì)菌與酵母必須基因數(shù)據(jù)庫(kù)FusionDB:細(xì)菌與古菌基因剪切(融合)事件數(shù)據(jù)庫(kù)Genome Atlas:序列基因組的DNA結(jié)構(gòu)性質(zhì)數(shù)據(jù)庫(kù)GOLD:基因組在線(xiàn)數(shù)據(jù)庫(kù)Integr8:全基因組蛋白質(zhì)功能分類(lèi)數(shù)據(jù)庫(kù)KEGG:基因與基因組京都百科全書(shū),有關(guān)基因,蛋白質(zhì)及代謝路徑整合組數(shù)據(jù)庫(kù)TransportDB:根據(jù)TC分類(lèi)系統(tǒng)預(yù)測(cè)全基因組中的跨膜轉(zhuǎn)運(yùn)數(shù)據(jù)庫(kù)WIT3:有關(guān)微生物全序列基因組代謝重建數(shù)據(jù)庫(kù)生物種

12、類(lèi)專(zhuān)一化數(shù)據(jù)庫(kù)細(xì)菌類(lèi)HCVDB:肝炎C型病毒數(shù)據(jù)庫(kù)HIV Drug Resistance數(shù)據(jù)庫(kù):具有抗藥性能的HIV突變數(shù)據(jù)庫(kù)HIV Molecular Immunology數(shù)據(jù)庫(kù):HIV抗原決定基數(shù)據(jù)庫(kù)HIV RT and Protease Sequence數(shù)據(jù)庫(kù):HIV逆轉(zhuǎn)錄酶及蛋白質(zhì)酶序列數(shù)據(jù)庫(kù)VIDA:同源病毒蛋白家族數(shù)據(jù)庫(kù)VirOligo:有關(guān)PCR及其雜化的病毒專(zhuān)一化寡聚核苷酸數(shù)據(jù)庫(kù)原核生物類(lèi)總述BacMap:注釋細(xì)菌基因組圖譜數(shù)據(jù)庫(kù)MetaGrowh:細(xì)菌病原體生長(zhǎng)要求數(shù)據(jù)庫(kù)PGTdb:原核生物生長(zhǎng)溫度數(shù)據(jù)庫(kù)大腸桿菌類(lèi)(Escherichia coli)ASAP:對(duì)大腸桿菌及其相

13、關(guān)基因組系統(tǒng)注釋包裹CyberCell數(shù)據(jù)庫(kù):有關(guān)E.coli K12的應(yīng)用數(shù)學(xué)模型模擬的數(shù)據(jù)庫(kù)集合coliBase:有大腸桿菌,沙門(mén)氏菌屬及志賀氏桿菌的數(shù)據(jù)庫(kù)PEC:有關(guān)大腸桿菌染色體圖譜RegulonDB:大腸桿菌中轉(zhuǎn)錄調(diào)節(jié)及操縱組織數(shù)據(jù)庫(kù)枯草桿菌類(lèi)BSORF:京都大學(xué)枯草桿菌基因組數(shù)據(jù)庫(kù)NUSub:里昂大學(xué)非冗枯草桿菌數(shù)據(jù)庫(kù)SubtiList:巴斯德研究院枯草桿菌基因組數(shù)據(jù)庫(kù)其它細(xì)菌類(lèi)BioCyc:多種細(xì)菌路徑及基因組數(shù)據(jù)庫(kù)CampyDB:彎曲桿菌屬基因組分析數(shù)據(jù)庫(kù)ClostriDB:梭菌屬完成的與未完成的基因組數(shù)據(jù)庫(kù)Virulence Factors:有關(guān)微生物毒性因子數(shù)據(jù)庫(kù)單細(xì)胞真核

14、生物ApiEST-DB:從各種各樣Apicomplexan寄生蟲(chóng)獲得的EST序列CryptoDB:有關(guān)Cryptosporidium parvum基因組數(shù)據(jù)庫(kù)ToxoDB:鼠弓形體基因組數(shù)據(jù)庫(kù)真菌類(lèi)酵母菌類(lèi)AGD:Ashbya棉花基因組數(shù)據(jù)庫(kù)CandidaDB:加拿乳頭狀體基因組數(shù)據(jù)庫(kù)CYGD:MIPS綜合酵母基因組數(shù)據(jù)庫(kù)SCPD:釀酒酵母起動(dòng)子數(shù)據(jù)庫(kù)其它真菌類(lèi)CADRE:中心化曲霉菌數(shù)據(jù)集MNCDB:MIPS粗糙鏈孢霉數(shù)據(jù)庫(kù)無(wú)脊椎動(dòng)物克氏病Intronerator:C.elegans和C. briggsae內(nèi)含子和剪切數(shù)據(jù)庫(kù)RNAiDB:克氏病基因表型的RNAi表型分析WILMA:克氏病注釋

15、數(shù)據(jù)庫(kù)WorfDB:克氏病ORF組數(shù)據(jù)庫(kù)黃猩猩果蠅(Drosophila melanogaster)FlyBase:果蠅序列與基因組信息FlyBrain:果蠅神經(jīng)系統(tǒng)數(shù)據(jù)庫(kù)DPDB:果蠅多聚態(tài)數(shù)據(jù)庫(kù)其它無(wú)脊椎動(dòng)物AppaDB:線(xiàn)蟲(chóng)Pristionchus pacificus數(shù)據(jù)庫(kù)BeetleBase:甲蟲(chóng)Tribolium castaneum基因組數(shù)據(jù)庫(kù)CnidBase:刺胞動(dòng)物進(jìn)化和基因表達(dá)數(shù)據(jù)庫(kù)PPNEMA:植物寄生線(xiàn)蟲(chóng)rRNA數(shù)據(jù)庫(kù)代謝酶和路徑;信號(hào)路徑數(shù)據(jù)庫(kù)酶與酶命名數(shù)據(jù)庫(kù)BRENDA:酶名稱(chēng)與生物化學(xué)性質(zhì)數(shù)據(jù)庫(kù)ENZYME:酶命名與性質(zhì)數(shù)據(jù)庫(kù)Enzyme Nomenclature:I

16、UBMB命名委員會(huì)推薦數(shù)據(jù)庫(kù)IntEnz:整合酶數(shù)據(jù)庫(kù)與酶命名PDBrtf:PDB中酶的目標(biāo)家族代表數(shù)據(jù)庫(kù)SCOPEC:功能區(qū)閾催化功能圖譜數(shù)據(jù)庫(kù)代謝路徑數(shù)據(jù)庫(kù)BioSilico:各類(lèi)代謝數(shù)據(jù)庫(kù)整合KEGG 路徑:全基因組代謝與調(diào)節(jié)路徑數(shù)據(jù)庫(kù)MetaCyc:各種生物體代謝路徑與酶數(shù)據(jù)庫(kù)分子間相互作用和信號(hào)路徑數(shù)據(jù)庫(kù)3DID:已知三維結(jié)構(gòu)的蛋白質(zhì)功能區(qū)閾與功能區(qū)閾相互作用蛋白質(zhì)aMAZE:生物化學(xué)與信號(hào)路徑網(wǎng)絡(luò)的注釋?zhuān)芾砼c分析系統(tǒng)BIND:生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)BioCarta:代謝與信號(hào)路徑在線(xiàn)圖DIP:蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)DRC:核糖體交互鏈接數(shù)據(jù)庫(kù)POINT:人類(lèi)蛋白質(zhì)蛋白質(zhì)相互作用

17、組數(shù)據(jù)庫(kù)STCDB:信號(hào)轉(zhuǎn)導(dǎo)分類(lèi)數(shù)據(jù)庫(kù)人類(lèi)與其它脊椎動(dòng)物基因組模型生物與比較基因組數(shù)據(jù)庫(kù)AllGene:人類(lèi)和小鼠基因,轉(zhuǎn)錄及蛋白質(zhì)注釋數(shù)據(jù)庫(kù)DED:進(jìn)化距離數(shù)據(jù)庫(kù)FANTOM:小鼠全長(zhǎng)cDNA克隆功能注釋數(shù)據(jù)庫(kù)GALA:基因組比對(duì),注釋與實(shí)驗(yàn)結(jié)果數(shù)據(jù)庫(kù)IPI:人類(lèi),大鼠,小鼠蛋白的非冗余集國(guó)際蛋白索引數(shù)據(jù)庫(kù)Polymorphix:序列多聚表型數(shù)據(jù)庫(kù)Rat Genome數(shù)據(jù)庫(kù):大鼠遺傳與基因組數(shù)據(jù)庫(kù)TAED:自適應(yīng)進(jìn)化數(shù)據(jù)庫(kù)VEGA:脊椎動(dòng)物基因組數(shù)據(jù)人類(lèi)基因組數(shù)據(jù)庫(kù),圖譜及閱讀器AluGene:人類(lèi)基因組完全運(yùn)算圖GroW 21:人類(lèi)21號(hào)染色體數(shù)據(jù)庫(kù)GDB:人類(lèi)基因與基因組圖數(shù)據(jù)庫(kù)Gene

18、Loc:基因定位數(shù)據(jù)庫(kù)HOWDY:人類(lèi)組織全基因組數(shù)據(jù)庫(kù)IXDB:人類(lèi)X染色體物理圖Map Viewer:應(yīng)用染色體位置基因組信息展示圖TRBase:人類(lèi)基因組串聯(lián)重復(fù)數(shù)據(jù)庫(kù)人類(lèi)蛋白H-InvDB:全長(zhǎng)人類(lèi)cDNA克隆數(shù)據(jù)庫(kù)HPMR:人類(lèi)血漿膜受體數(shù)據(jù)庫(kù),包括序列,文獻(xiàn)及表達(dá)數(shù)據(jù)庫(kù)HPRD:人類(lèi)蛋白參考標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),包括功能區(qū)域構(gòu)建,翻譯后修飾及其相關(guān)疾病LIFEdb:人類(lèi)蛋白質(zhì)的定位,相互作用和功能數(shù)據(jù)庫(kù)人類(lèi)基因與疾病數(shù)據(jù)庫(kù)綜合數(shù)據(jù)庫(kù)DG-CST:疾病基因保守序列標(biāo)簽數(shù)據(jù)庫(kù)PMD:蛋白質(zhì)突變編譯數(shù)據(jù)庫(kù)SOURCE:人類(lèi),小鼠與大鼠的功能基因組資源數(shù)據(jù)庫(kù)ORFDB:由Invitrogen銷(xiāo)售的O

19、RF人類(lèi)突變數(shù)據(jù)庫(kù)綜合多形態(tài)數(shù)據(jù)庫(kù)ALFRED:等位基因頻率與DNA多型態(tài)數(shù)據(jù)庫(kù)BayGenomics:與冠心病和肺部相關(guān)基因數(shù)據(jù)庫(kù)Cypriot national mutation database:塞浦路斯人群疾病突變數(shù)據(jù)庫(kù)dbQSNP:SNP等位基因頻率定量數(shù)據(jù)庫(kù)FESD:功能性SNP數(shù)據(jù)庫(kù),包括在人類(lèi)基因的起動(dòng)子,UTRs上的SNPHGVS數(shù)據(jù)庫(kù):人類(lèi)突變編輯數(shù)據(jù)庫(kù)IPD:免疫多聚形態(tài)數(shù)據(jù)庫(kù)JSNP:日本SNP數(shù)據(jù)庫(kù)rSNPs Guide:調(diào)節(jié)基因區(qū)間SNPTopoSNP:非同義SNPs的拓樸數(shù)據(jù)庫(kù)癌癥Atlas of Genetics and Cytogenetic in Oncol

20、ogy and Haematology:在腫瘤,血液及有癌癥傾向疾病的癌癥相關(guān)基因,染色體異常的數(shù)據(jù)庫(kù)CGED:癌癥基因表達(dá)數(shù)據(jù)庫(kù)Germline p53 mutations:在人類(lèi)腫瘤和細(xì)胞線(xiàn)p53基因的突變數(shù)據(jù)庫(kù)MTB:小鼠腫瘤生物學(xué)數(shù)據(jù)庫(kù):包括腫瘤類(lèi)型,基因,分類(lèi),發(fā)生率及病理學(xué)有關(guān)基因,系統(tǒng)或疾病專(zhuān)一性數(shù)據(jù)庫(kù)ALPSbase:自體免疫淋巴組織增生綜合癥數(shù)據(jù)庫(kù)BTKbase:X-鏈接血中丙球蛋白貧乏突變記錄數(shù)據(jù)庫(kù)CASRDB:鈣敏感受體數(shù)據(jù)庫(kù)ERGDB:雌激素響應(yīng)基因數(shù)據(jù)庫(kù)PGDB:前列腺及前列腺疾病基因數(shù)據(jù)庫(kù)SCAdb:脊髓與小腦共濟(jì)失調(diào)數(shù)據(jù)庫(kù)微陣列數(shù)據(jù)與其它基因表達(dá)數(shù)據(jù)庫(kù)5SAGE:

21、5末端基因表達(dá)系列分析數(shù)據(jù)庫(kù)ArrayExpress:公共搜集微陣列基因表達(dá)數(shù)據(jù)庫(kù)BGED:腦基因表達(dá)數(shù)據(jù)庫(kù)GEO:基因表達(dá)公共站數(shù)據(jù)庫(kù),主要是搜集基因表達(dá)譜方面的數(shù)據(jù)GermOnline:有絲分裂與減數(shù)分裂細(xì)胞周期中基因表達(dá)數(shù)據(jù)庫(kù)GXD:小鼠基因表達(dá)數(shù)據(jù)庫(kù)MethDB:DNA甲基化數(shù)據(jù),模式及圖譜數(shù)據(jù)庫(kù)蛋白質(zhì)組資源數(shù)據(jù)庫(kù)2D:微生物研究中蛋白組數(shù)據(jù)庫(kù)系統(tǒng)DynaProt 2D:Lactococcus lactis 蛋白質(zhì)組數(shù)據(jù)庫(kù)Open Proteomics Database:人類(lèi),酵母,大腸桿菌和分枝桿菌基于質(zhì)譜的蛋白質(zhì)組數(shù)據(jù)庫(kù)PEP:全蛋白質(zhì)預(yù)測(cè)數(shù)據(jù)庫(kù),蛋白質(zhì)序列在翻譯前,翻譯中及翻譯后

22、蛋白質(zhì)修飾數(shù)據(jù)庫(kù)RESID: 翻譯前,翻譯中及翻譯后蛋白質(zhì)修飾數(shù)據(jù)庫(kù)其它分子生物學(xué)數(shù)據(jù)庫(kù)藥物與藥物設(shè)計(jì)數(shù)據(jù)庫(kù)ANTIMIC:自然抗微生物藥物肽數(shù)據(jù)庫(kù)AOBase:反義寡聚核苷酸選擇與設(shè)計(jì)APD:抗微生物肽數(shù)據(jù)庫(kù)DART:藥物不良反應(yīng)靶點(diǎn)數(shù)據(jù)庫(kù)TTD:治療靶點(diǎn)數(shù)據(jù)庫(kù)有關(guān)探針?lè)矫娴臄?shù)據(jù)庫(kù)IMGT/PRIMER-DB:免疫遺傳寡聚核苷酸引物數(shù)據(jù)庫(kù)PrimerPCR:真核與原核基因的PCR引物數(shù)據(jù)庫(kù)QPPD:人與小鼠定量PCR引物數(shù)據(jù)庫(kù)RTPrimerDB:實(shí)時(shí)PCR引物和探針序列數(shù)據(jù)庫(kù)未分類(lèi)數(shù)據(jù)庫(kù)BioImage:多維生物圖像數(shù)據(jù)庫(kù)細(xì)胞器數(shù)據(jù)庫(kù)綜合數(shù)據(jù)庫(kù)OGRe:細(xì)胞器基因組修復(fù)系統(tǒng)Organell

23、e DB:細(xì)胞器蛋白與亞細(xì)胞結(jié)構(gòu)數(shù)據(jù)庫(kù)線(xiàn)粒體基因與蛋白方面的數(shù)據(jù)庫(kù)AMPDB:阿布屬線(xiàn)粒體蛋白的數(shù)據(jù)庫(kù)HMPD:人類(lèi)線(xiàn)粒體蛋白數(shù)據(jù)庫(kù)Mitochondrome:多細(xì)胞動(dòng)物線(xiàn)粒體基因數(shù)據(jù)庫(kù)MitoDrome:果蠅核解碼線(xiàn)粒體數(shù)據(jù)庫(kù)MITOP2:線(xiàn)粒體蛋白,基因,疾病數(shù)據(jù)庫(kù)MPLMP:植物線(xiàn)粒體蛋白輸入機(jī)器數(shù)據(jù)庫(kù)PLMtRNA:植物線(xiàn)粒體tRNA數(shù)據(jù)庫(kù)植物數(shù)據(jù)庫(kù)植物綜合數(shù)據(jù)庫(kù)BarleyBase:植物基因組表達(dá)圖譜數(shù)據(jù)庫(kù)CR-EST:大麥,豌豆,小麥及土豆數(shù)據(jù)庫(kù)CroNet:農(nóng)作物基因組圖譜數(shù)據(jù)庫(kù)FLAGdb+:有關(guān)植物基因組綜合數(shù)據(jù)庫(kù)Mendel:已注釋的植物ESTs和STSs數(shù)據(jù)庫(kù)擬南芥AGN

24、S:擬南芥基因網(wǎng)增補(bǔ)數(shù)據(jù)庫(kù),包括基因表達(dá),轉(zhuǎn)基因與突變形態(tài)AGRIS:阿布屬基因調(diào)節(jié)信息服務(wù)器:包括起動(dòng)子,轉(zhuǎn)錄因子及其目標(biāo)基因方面的數(shù)據(jù)庫(kù)CATMA:完全阿布屬轉(zhuǎn)錄組微陣列數(shù)據(jù)庫(kù)MAtDB:MIPS擬芥南數(shù)據(jù)庫(kù)TAIR:阿布屬信息資源數(shù)據(jù)庫(kù)水稻BGI-RISe:北京基因組研究院水稻信息系統(tǒng)INE:整合水稻基因組瀏覽器IRIS:國(guó)際水稻信息系統(tǒng)RAD:水稻注釋數(shù)據(jù)庫(kù)RiceGAAS:水稻基因組自動(dòng)注釋系統(tǒng)Rice proteome database:水稻蛋白質(zhì)組數(shù)據(jù)庫(kù)其它植物MaizeGDB:玉米遺傳與基因組數(shù)據(jù)庫(kù)SGMD:大豆基因組與微陣列數(shù)據(jù)庫(kù)免疫學(xué)數(shù)據(jù)庫(kù)BCIpep:B-細(xì)胞抗原決定基數(shù)

25、據(jù)庫(kù)dbMHC:人類(lèi)MHC遺傳與臨床數(shù)據(jù)庫(kù)FIMM:功能分子免疫學(xué)數(shù)據(jù)庫(kù)IMGT:國(guó)際免疫學(xué)信息系統(tǒng),包括免疫球蛋白,T細(xì)胞受體,MHC和RPIIMGT/Gene-DB:脊椎動(dòng)物免疫球蛋白與T細(xì)胞受體數(shù)據(jù)庫(kù)MHCBN:MHC連接與非連接肽數(shù)據(jù)庫(kù)MHCPEP:MHC連接肽數(shù)據(jù)庫(kù)MPID:MHC肽相互作用數(shù)據(jù)庫(kù)VBASE2:人與小鼠Ig定位可變基因數(shù)據(jù)庫(kù)那么SwissProt數(shù)據(jù)庫(kù)主要內(nèi)容及格式是什么呢?我們這里作一個(gè)比較詳細(xì)的介紹。下面這段是一個(gè)完整的SwissProt條目,現(xiàn)解釋如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR

26、-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN 1RP NUCLEOTIDE SEQUENCE.RC

27、 STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.;RL Mol. Biochem. Par

28、asitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC CC This Swiss-Prot entry is copyright. It is produced through a collaborationuniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on it

29、sCC use as long as its content is in no way modified and this statement is notCC removed.CC DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64; MKFLILLFNI

30、LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADA

31、TYHEPCF KIIPNTGFCI TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS SKEGKKPGSG KKPGPA

32、REHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPV

33、K LKRSKSFDDL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL/ID 是指其身份號(hào),924 AA是指有該序列有924個(gè)氨基酸殘基AC 獲取號(hào);DT 序列測(cè)得的時(shí)間DE 對(duì)該序列必要的信息的說(shuō)明,如該分子的分子量為104 kDa .OS 來(lái)源 OX NCBI分類(lèi)身份號(hào)RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有關(guān)Medline的出版號(hào)RA 作者RT 引用文獻(xiàn)題目RL 雜志名稱(chēng),出版日期,卷期頁(yè)CC

34、有關(guān)它的功能描述及其它相關(guān)信息方面的描述DR EMBL數(shù)據(jù)庫(kù)中的獲取號(hào)DR PIR數(shù)據(jù)庫(kù)中的獲取號(hào)KW 關(guān)鍵詞FT 功能區(qū)的描述SQ 有關(guān)序列方面的信息,這部分是最主要的,因?yàn)樵摰鞍踪|(zhì)的序列就列在下面。/ 表明這個(gè)條目結(jié)束。通過(guò)對(duì)上面這段的分析,讀者可以知道Swiss-Prot數(shù)據(jù)庫(kù)基本框架及所蘊(yùn)含的生物信息學(xué)內(nèi)容。同時(shí),人們也可在需要Swiss-Proto數(shù)據(jù)庫(kù)時(shí)根據(jù)其格式編制出相應(yīng)的計(jì)算機(jī)程序。這一點(diǎn)其實(shí)對(duì)生物信息學(xué)工作者非常重要,因?yàn)橐粋€(gè)生物信息學(xué)分析方法首先要得到正確的數(shù)據(jù),而正確的數(shù)據(jù)則必須以相應(yīng)數(shù)據(jù)庫(kù)格式為基準(zhǔn)。有關(guān)該數(shù)據(jù)庫(kù)用戶(hù)可在“/”上獲

35、取。二、PDB數(shù)據(jù)庫(kù)的基本格式我們?cè)谇懊嬖?jīng)說(shuō)過(guò),當(dāng)一個(gè)數(shù)據(jù)庫(kù)的格式與內(nèi)容都知道了后,說(shuō)明對(duì)這個(gè)數(shù)據(jù)庫(kù)的知識(shí)已有初步的掌握。同前面一樣,我們現(xiàn)在詳細(xì)介紹PDB數(shù)據(jù)庫(kù)的格式。由于蛋白質(zhì)結(jié)構(gòu)涉及到蛋白質(zhì)中每個(gè)原子的坐標(biāo),二級(jí)結(jié)構(gòu),一個(gè)蛋白質(zhì)結(jié)構(gòu)所占的容量是比較大的,因此它不可能象Swiss-Prot數(shù)據(jù)庫(kù)那樣將所有蛋白質(zhì)序列放在一個(gè)文件中,而是一個(gè)蛋白質(zhì)一個(gè)文件。因此,到目前為止,PDB數(shù)據(jù)庫(kù)應(yīng)有41952個(gè)文件,這樣就涉及到其文件名的問(wèn)題,PDB數(shù)據(jù)庫(kù)的文件如圖4-10所示:圖4-10 PDB數(shù)據(jù)庫(kù)中的文件名格式下面是一個(gè)典型的PDB數(shù)據(jù)庫(kù)格式的描述:PDB中所的分子空間結(jié)構(gòu)信息文件的格式基本上

36、都是一樣的。文件由若干記錄組成,每一記錄有80個(gè)字符(包括空格)。開(kāi)頭的6個(gè)字符標(biāo)明該記錄的名稱(chēng),現(xiàn)將各記錄的意義分別敘述如下:HEADER該記錄列出分子所屬功能類(lèi),正式收入PDB日期以及該分子的判別碼OBSLTE該記錄列出已被新分子文件取代的一些舊的分子的有關(guān)信息。COMPND該記錄出分子名SOURCE該記錄說(shuō)明分子來(lái)源AUTHOR該記錄列出提供座標(biāo)者的姓名REVDAT該記錄列出文件歷次修改的日期等有關(guān)信息SPRSDE該記錄列說(shuō)明此文件取代舊文件的有關(guān)信息JRNL該記錄引用與確定該分子空間結(jié)構(gòu)有關(guān)的主要文獻(xiàn)REMARK該記錄為關(guān)于該分子文件的其它信息。其中:REMARK1專(zhuān)用于列出與該結(jié)構(gòu)有

37、關(guān)的其它文獻(xiàn),REMARK2和REMARK3分別是關(guān)于晶體結(jié)構(gòu)的分辨率及精華的信息SEQRES列出蛋白質(zhì)一級(jí)結(jié)構(gòu)HET列出非標(biāo)準(zhǔn)基團(tuán)或殘基的信息(主要是指除標(biāo)準(zhǔn)20個(gè)氨基酸殘基以外的基團(tuán)信息。具體格式如下:1-3列是“HET”;8-10列是非標(biāo)準(zhǔn)基團(tuán)表示符;13列是鏈表示符號(hào);14-17順序號(hào);18列是插入碼;21-25列是非標(biāo)準(zhǔn)基團(tuán)中的原子數(shù)目;31-70為注釋HELIX列出分子中有關(guān)螺旋的信息。1-6列是“HELIX”; 8-10列是順序號(hào); 12-14螺旋表示符;16-18 殘基名;20鏈表示符;22-25殘基序號(hào);26 插入碼;28-30殘基名;32鏈表示符;34-37殘基序號(hào);38插

38、入碼;39-40螺旋類(lèi)別;41-70注釋。 SHEET列出分子中有關(guān)折疊的信息,其格式如下:1-5列為SHEET;8-10股號(hào);12-14折疊表示符;15-16股數(shù);18-20殘基名;22鏈表示符;23-26殘基序列號(hào);27插入碼;29-31 殘基名;33 鏈表示符;34-37殘基序號(hào);38 插入碼;39-40類(lèi)型判別碼;42-45 原子名;46-48 殘基名;50鏈表示符;51-54 殘基序號(hào);55插入碼;57-60 原子名;61-63 殘基名;65 鏈表示符;66-69殘基序號(hào);70插入碼。TURN列出分子中有轉(zhuǎn)角(發(fā)夾結(jié)構(gòu))的信息;SSBOND殘出分子中有關(guān)二硫鍵的信息;SITE列出重要

39、功能部位 1-4 SITE;8-10序號(hào);12-14功能部位表示符;16-17組成功能部位的殘基數(shù);19-61 組成功能部位的四個(gè)殘基的位置信息。當(dāng)然如果某功能部位由四個(gè)以上殘基組成,則可以增加SITE記錄以包含全部殘基的位置信息,但增加的記錄其功能部位表示符(12-14列)就與原來(lái)記錄一致。CRYST該記錄列出關(guān)于晶體結(jié)構(gòu)的單晶胞參數(shù)及空間群標(biāo)識(shí);ORIGX該記錄列出將下交坐變換為用戶(hù)送交坐標(biāo)的參數(shù);SCALE由正交坐標(biāo)變換為分?jǐn)?shù)坐標(biāo)的參數(shù);MATRIX列出代表非晶體學(xué)對(duì)稱(chēng)性的變化參數(shù);TVECT列出無(wú)限共價(jià)連接結(jié)構(gòu)的變換向量;ATOM列出標(biāo)準(zhǔn)基團(tuán)的各原子的坐標(biāo)。這是PDB的核心。 其格式如

40、下:1-4 ATOM;7-11 原子序列號(hào); 13-16原子名; 18-20 殘基名; 22 鏈表示符;23-26殘基序列號(hào);31-38 原子X(jué)座標(biāo); 39-46 原子的Y座標(biāo); 47-54 原子Z坐標(biāo);55-60占有率;61-66 溫度因子。 SIGATM列出原子參數(shù)的標(biāo)準(zhǔn)差; ANISOU列出各向異性溫度因子;SIGUIJ列出各向異性溫度因子的標(biāo)準(zhǔn)差; TER列出鏈的末端殘基。有時(shí)某個(gè)蛋白質(zhì)結(jié)構(gòu)因?yàn)槟承┰驎?huì)插入一些不是該蛋白質(zhì)結(jié)構(gòu)的氨基酸殘基,其對(duì)應(yīng)的原子就不是“ATOM”,而是“HETATM”,表明這些原子是外來(lái)原子,不是蛋白質(zhì)本身的。三 PDB數(shù)據(jù)庫(kù)中有關(guān)蛋白質(zhì)結(jié)構(gòu)的獲取我們前面說(shuō)過(guò)

41、,PDB網(wǎng)站為“”,那么如何通過(guò)這個(gè)網(wǎng)站獲取你所要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)呢?有下列幾條途徑。第一種描述如下:1. 打開(kāi)“”網(wǎng)站,可得如圖4-11的界面,輸入所需要的蛋白質(zhì)代碼如“1g0v”,然后點(diǎn)擊“Site Search”按鈕,得到如圖4-12所示的界面;2. 點(diǎn)擊圖4-12左上面的“Download Files”,得到的界面的部分如圖4-13所示。3. 點(diǎn)擊圖4-13中的“PDB File”就可以得到你所需要的PDB結(jié)構(gòu)。這里在圖4-13的右邊有相應(yīng)的蛋白質(zhì)結(jié)構(gòu)圖。 第二種主要是在Linux操作系統(tǒng)中可以比較方便的使用,具體命如下:$ wget q /pub/pdb/data/structure

42、s/all/pdb/pdb1g0v.ent.Z通過(guò)這個(gè)命令可以到得蛋白質(zhì)文件:pdb1g0v.ent.Z,然后解壓縮即:$ gunzip pdb1g0v.ent.Z就可以得到文本文件的蛋白質(zhì)結(jié)構(gòu)文件。 第三種則是通過(guò)匿名用戶(hù)登錄“”網(wǎng)頁(yè),然后應(yīng)用“get”命令下載你所要的文件。 通過(guò)上述方式,我們可以得到所需要的蛋白質(zhì)結(jié)構(gòu)。一 SCOP數(shù)據(jù)庫(kù)的分類(lèi)基本原則及其格式SCOP是由劍橋大學(xué)于1995年構(gòu)建。其宗旨是將現(xiàn)有的已知結(jié)構(gòu)的蛋白質(zhì)的功能區(qū)域按類(lèi),折疊方式,超級(jí)家族,家族進(jìn)行逐層次地人工分類(lèi)。具體如下:(1)家族( family): A. 所有蛋白質(zhì)的相等殘基數(shù)大于等于%30 B 低于%30但

43、功能與結(jié)構(gòu)非常相似(2)超級(jí)家族(superfamily): 源于一個(gè)共同的祖先(3)共同折疊方式(common fold): 相同的主要二級(jí)結(jié)構(gòu)有相同的排列和連結(jié)方式(4)類(lèi): 同一類(lèi)折疊方式構(gòu)成一類(lèi)SCOP數(shù)據(jù)庫(kù)將現(xiàn)有的蛋白質(zhì)分成11類(lèi),如表4-3所示:表4-3 SCOP數(shù)據(jù)庫(kù)中蛋白質(zhì)結(jié)構(gòu)的分類(lèi)符號(hào)意義符號(hào)意義a全螺旋g小蛋白類(lèi)b全片斷h無(wú)規(guī)卷曲類(lèi)c/i低分辯蛋白類(lèi)d+j肽類(lèi)e多功能區(qū)域蛋白類(lèi)k設(shè)計(jì)蛋白類(lèi)f膜蛋白類(lèi)及細(xì)胞表面肽類(lèi)SCOP數(shù)據(jù)庫(kù)與PDB數(shù)據(jù)庫(kù)的文件格式完全一致,如果有不同,那就是它將PDB數(shù)據(jù)庫(kù)中一個(gè)蛋白質(zhì)結(jié)構(gòu)的文件根據(jù)其功能區(qū)域分別放在不同文件中存放。相應(yīng)的文件名也與PDB

44、數(shù)據(jù)庫(kù)的文件名密切相關(guān),下圖以一個(gè)實(shí)際的例子來(lái)說(shuō)明其意義:圖4-14 SCOP文件名解析這里有一點(diǎn)必須說(shuō)明,當(dāng)?shù)鞍踪|(zhì)只有一條鏈(或鏈沒(méi)有命名)時(shí),則鏈名稱(chēng)以下劃“_”來(lái)表示,如蛋白質(zhì)“d1eut_1.b.1.18.2.pdb”。同樣的,如果該鏈只有一個(gè)功能區(qū)域時(shí),則對(duì)應(yīng)的位置同樣用下劃線(xiàn)“_”來(lái)表示,如蛋白質(zhì)“d1hhib_.b.1.1.2.pdb”。為使讀者對(duì)上述各類(lèi)別有一個(gè)感性的認(rèn)識(shí),我們這里舉出6個(gè)蛋白質(zhì)分別代表a,b,c,d,e,f類(lèi)。見(jiàn)圖4-15,圖4-16與圖4-17。三、如何獲取整個(gè)SCOP數(shù)據(jù)庫(kù) SCOP數(shù)據(jù)庫(kù)的網(wǎng)站為“scop.mrc-lmb.cam.ac.uk/scop/”

45、,讀者如果忘記了該網(wǎng)站,也可以在“google”網(wǎng)站中輸入“SCOP”,則出現(xiàn)第一個(gè)條目便是SCOP網(wǎng)站。其網(wǎng)頁(yè)可見(jiàn)圖4-22,然后點(diǎn)擊其中的“top of the hierarch”則可得到圖4-23所示的網(wǎng)站,這樣用戶(hù)只可以按照其中的內(nèi)容逐步點(diǎn)擊相關(guān)按鈕就可以得到自己所需的蛋白質(zhì)。 這里我們要重點(diǎn)介紹的是如何獲取整個(gè)SCOP數(shù)據(jù)庫(kù)。用戶(hù)可按如下方式操作:1.點(diǎn)擊網(wǎng)站“http:/astral.berkel/pdbstyle-1.71.html”,可得圖4-24的網(wǎng)站。2.按圖4-24所指示的“點(diǎn)擊”下載“part1”,“part2”及“part3”得到如下三個(gè)文件:“pdbstyle-1.

46、71-1.tar”,“pdbstyle-1.71-2.tar”,“pdbstyle-1.73-3.tar”。然后應(yīng)用命令“tar xf file”將其展開(kāi),如:“tar xf pdbstyle-1.71-1.tar”得到各個(gè)功能區(qū)域蛋白的數(shù)據(jù)。3.由于我們要知道各個(gè)功能域是哪一類(lèi),哪一種折疊方式,哪一種超級(jí)家族及哪一種家族。因此需要下載另一個(gè)文件,它在網(wǎng)站:“http:/scop.mrc-lmb.cam.ac.uk/scop/parse/index.html”打開(kāi)該網(wǎng)站,可以得到圖4-25所示頁(yè)面。4.下載圖4-25所示頁(yè)面的“dir.cla.scop.txt”的1.71版,然后根據(jù)我們應(yīng)用“

47、PERL”語(yǔ)言編制的程序(見(jiàn)圖4-26)建立比較實(shí)用的即文件名如圖-14所示的scop數(shù)據(jù)庫(kù)文件。5.執(zhí)行文件“scop.pl”即“perl scop.pl pdbstyle-1.71 scop-1.71所在路徑 dir.cla.scop.txt”按回車(chē)鍵即可PROSITE中涉及的保守序列模式或功能位點(diǎn)有:1.酶的催化位點(diǎn);2.輔基基團(tuán)連接位點(diǎn),如血紅素,吡哆醛磷酸鹽,輔酶R等3.與金屬離子結(jié)合的氨基酸殘基4.能形成二硫鍵的半胱氨酸5.與其它分子相連的區(qū)域,如與ADP/ATP,GDP/GTP,鈣,DNA,另一個(gè)蛋白質(zhì)等因此,Prosite數(shù)據(jù)庫(kù)實(shí)際上是蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫(kù)。與PROSITE

48、數(shù)據(jù)庫(kù)相類(lèi)似的數(shù)據(jù)庫(kù)還有:蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫(kù)PRINTS、蛋白質(zhì)序列模塊數(shù)據(jù)庫(kù)BLOCKS、蛋白質(zhì)序列家族數(shù)據(jù)庫(kù)、蛋白質(zhì)序列譜數(shù)據(jù)庫(kù)PROFILE、蛋白質(zhì)序列識(shí)別數(shù)據(jù)庫(kù)IDENTIFY等。它們的共同特點(diǎn)是基于多重序列比對(duì)從不同側(cè)面來(lái)描述蛋白質(zhì)有關(guān)性質(zhì)。一般地,PROSITE數(shù)據(jù)庫(kù)使用正則表達(dá)式來(lái)表示保守序列模式,具體說(shuō)明如下圖所示:圖4-27 PROSITE數(shù)據(jù)庫(kù)中保守序列模式表達(dá)方式根據(jù)上圖的正則模式表達(dá)方式。如序列片段GFxxLxxxxRxxRxGxKPxT就可以是其中可能的保守序列模式之一。PROSITE數(shù)據(jù)庫(kù)主要包括兩個(gè)數(shù)據(jù)庫(kù)文件:一個(gè)為數(shù)據(jù)文件為PROSITE本身即PROSIT

49、E.DAT,該文件給出了能進(jìn)行匹配的序列及序列的詳細(xì)信息。另一個(gè)為說(shuō)明文件即 PROSITE.DOC,它給出了給出該序列模式的生物學(xué)功能及其文獻(xiàn)資料來(lái)源。從數(shù)據(jù)庫(kù)所包括的條目(entry)來(lái)看,它包括:保守序列模式條目(即MOTIF或PATTERN)和序列突變譜即PROFILE條目。由于建立序列突變譜需要適當(dāng)?shù)姆椒?,為此我們首先介紹PROSITE中建立序列突變譜的方法。三、PROSITE數(shù)據(jù)庫(kù)格式在PROSITE數(shù)據(jù)庫(kù)的眾多項(xiàng)中,其中有關(guān)描述序列突變譜讀者可以參閱PROSITE網(wǎng)站上的“profile.txt”。在PROSITE數(shù)據(jù)庫(kù)中,每行共有128列,其分配方式如下圖所示:圖4-29 PR

50、OSITE數(shù)據(jù)庫(kù)各列的分配方式但一般情況下,除序列突變譜即“MA”行有128列外,其它行的列一般不會(huì)超過(guò)78列。在PROSITE數(shù)據(jù)庫(kù)中,不同的兩個(gè)字符的代碼代表的含義不同,我們將它們的中英文含義列于如下圖:圖4-30 PROSITE數(shù)據(jù)中各行代碼的含義接下來(lái)我們對(duì)它們加以詳細(xì)描述。(一)IDID中的第一項(xiàng)為條目的名稱(chēng),一般由2-21個(gè)大寫(xiě)字母組成,字母可以是A-Z,0-9及下劃線(xiàn),如:ID ENTRY_NAME;ENTRY_TYPE.第二項(xiàng)為PROSITE數(shù)據(jù)庫(kù)條目的類(lèi)型。目前,在PROSITE數(shù)據(jù)庫(kù)中,它主要有三種:PATTERN,MATRIX及RULE。如:圖4-31 三各類(lèi)型的ID(二

51、)ACAC是PROSITE數(shù)據(jù)庫(kù)的獲取號(hào),類(lèi)似于人的身份證號(hào),一個(gè)條目中只有一個(gè)獲取號(hào)。當(dāng)人們用到PROSITE數(shù)據(jù)庫(kù)具體某個(gè)條目時(shí),一般引用這個(gè)獲取號(hào)。其格式為:AC PSnnnnn這里的“PS”代表PROSITE數(shù)據(jù)庫(kù)?!皀nnnn”是5個(gè)阿拉伯?dāng)?shù)字,如:AC PS00123(三)DT說(shuō)明日期項(xiàng)。其格式為:DT MMM-YYYY (CREATED); MMM-YYYY(DATA UPDATE); MMM-YYYY(INFO UPDATE)說(shuō)明如下:“MMM”代表月;“YYYY”代表年。第一個(gè)時(shí)間即“MMM-YYYY(CREATED)”說(shuō)明該條目第一次收載進(jìn)來(lái)的時(shí)間;第二個(gè)時(shí)間即“MMM-Y

52、YYY(DATA UPDATE)說(shuō)明原始基本數(shù)據(jù)最后一次修改的時(shí)間;第三個(gè)時(shí)間即“MMM-YYYY(INFO UPDATE)說(shuō)明除原始基本數(shù)據(jù)外其它內(nèi)容的修改時(shí)間;(四)DE這一項(xiàng)主要是提供相關(guān)的信息。如DE Myb DNA-binding domain repeat signature 1.DE Iron-containing alcohol dehydrogenases signature.DE Zinc finger, C2H2 type, domainDE Globin profile(五)PA就時(shí)我們前面所說(shuō)的正則模式。我們?cè)谇懊嬖砸粋€(gè)具體例子作了比較簡(jiǎn)單的描述,這里我們對(duì)它進(jìn)行比

53、較詳細(xì)的描述。它包括如下要素:1.氨基酸殘基用標(biāo)準(zhǔn)的IUPAC一個(gè)字母代碼來(lái)表示,如丙氨酸用A,甘氨酸用G等。2.“x”代表任何一個(gè)氨基酸殘基;3. 如果在某個(gè)位置上不是比較確定,相對(duì)比較模糊,則用方括號(hào)來(lái)表示,如ACD說(shuō)明這個(gè)位置可以是氨基酸殘基A,C或D組成。4. 有時(shí)這種模糊的位置也可以用大括號(hào)即“”來(lái)表示這個(gè)位置不可能含某類(lèi)氨基酸,如“AD”說(shuō)明在這個(gè)位置上不可能出現(xiàn)丙氨酸A和天門(mén)冬氨酸D。5.重復(fù)部分可以用一個(gè)字符及相應(yīng)的數(shù)字來(lái)表示,如x(3)表示“x-x-x”,x(2,4)表示x-x或x-x-x或x-x-x-x。6.如果保守序列模式在蛋白質(zhì)N端或C端時(shí),則它們分別用“”來(lái)表示。如”

54、代表“F-GSTV-P-R-L-G”或“F-GSTV-P-R-L”?,F(xiàn)我們舉幾個(gè)例子來(lái)說(shuō)明它們:例1 PA AC-x-V-x(4)-ED其含意是“Ala或Cys-任何殘基-Val-任何殘基-任何殘基-任何殘基-任何殘基但除Glu或Asp”外。 例2 PA A-x-ST(2)-x(0,1)-V其含意是氨基端即N端為丙氨酸,這樣可以翻譯為“Ala-任何殘基-Ser或Thr-Ser或Thr-任何殘基或沒(méi)有-Val。(六)MA主要是蛋白質(zhì)序列突變譜。(七)PP 主要描述與后處理過(guò)程有關(guān)系的空容。 (八)NR 主要是以本條目中所代表保守序列模式與Swiss-Prot數(shù)據(jù)庫(kù)(掃描)每個(gè)序列進(jìn)行比較得到的結(jié)

55、果。其基本格式為:NR /QUALIFIER=data;/QUALIFIER=data;這里的修飾詞“QUALIFIER”主要是指:/RELEASE Swiss-Prot數(shù)據(jù)庫(kù)發(fā)布的版本號(hào)和該版本收集的蛋白質(zhì)條目數(shù);/TOTAL 找到Swiss-Prot數(shù)據(jù)庫(kù)命中的條目數(shù);/POSITIVE 屬于當(dāng)前考慮范圍內(nèi)命中的條目數(shù);/UNKNOWN 屬于當(dāng)前考慮范圍內(nèi)可能命中的條目數(shù);/FALSE_POS 假命中點(diǎn)數(shù)(即在數(shù)值計(jì)算中符合條件但實(shí)際上不是相關(guān)蛋白的個(gè)數(shù))/PARTRIAL 屬于被考慮范圍內(nèi),但由于它們只是一個(gè)序列片段且與這個(gè)保守序列模式或序列突變譜不符合的這樣的序列個(gè)數(shù)。 比如:NR /

56、RELEASE=52.0,260175NR /TOTAL=1550(351); /POSITIVE=1517(332); /UNKNOWN=0(0); /FALSE_POS=33(19)NR /FALSE_NEG=0; /PART9IAL=0; 其含意為在Swiss-Prot數(shù)據(jù)庫(kù)中,它為52.0版本,共有260175個(gè)條目,其中對(duì)351個(gè)不同序列,發(fā)現(xiàn)該模式有1550次,其中陽(yáng)性有332條序列,出現(xiàn)1517次,假陽(yáng)性的有19條序列,出現(xiàn)33次,假陰的為0(即沒(méi)有被發(fā)現(xiàn)),片段序列的為0。(九)CC其格式為:CC /QUALIFIER=data; /QUALIFIER=data; 修飾辭項(xiàng)即q

57、ualifier有:/TAXO_RANGE 分類(lèi)范圍/MAX-REPEAT 在某個(gè)蛋白質(zhì)內(nèi)模式或序列突變譜最多重復(fù)出現(xiàn)的次數(shù)。/SITE 在該保守序列模式中能引起人們興趣的位點(diǎn)。/SKIP-FLAG 由于比較含糊在實(shí)際應(yīng)用時(shí)被忽視。/VERSION 該模式或序列突變譜的版本號(hào)下面我們逐一介紹之。1. /TAXO-RANGE=ABEPV“A”代表太古代(archaea)“B”代表噬菌體“E”代表真核生物“P”代表原核生物“V”代表真核生物細(xì)菌2. /MAX-REPEAT其意思是對(duì)所給保守序列模式或序列突變譜,其出現(xiàn)的最大次數(shù),其格式為:/MAX-REPEAT=nn;3. /SITE 主要是對(duì)所給

58、的保守序列模式或序列突變譜中出現(xiàn)人們感興趣的位點(diǎn)如酶催化活性位點(diǎn)。其格式為: /SITE=nn,text_description例如:/SITE=3,active_site;/SITE=5,disulfide; “nn”是讓人感興趣的位點(diǎn)在該保守序列模式中的位置。如保守序列模式:A-ILMV-x(2,4)-A-C-P含有二硫鍵,則有:/SITE=5,disulfide;再如保守序列模式:C-CPWHF-CPWR-C-H-CFWY有:/SITE=1,heme; /SITE=4,heme; /SITE=5,heme_iron這說(shuō)明有兩個(gè)半胱氨酸(位點(diǎn)1與4)與血紅素相連, 第5個(gè)位點(diǎn)即H與鐵血紅素

59、相連。 4 /SKIP-FLAG這主要針對(duì)有翻譯后修飾的蛋白質(zhì)序列,盡管有用,但有些程序出于某種考慮將它忽略掉。為此這些條目將在“CC”行中有這方面的標(biāo)記。如/SKIP-FLAG=TRUE5 /VERSION當(dāng)PA或MA項(xiàng)的數(shù)據(jù)出現(xiàn)修改時(shí),其數(shù)值才增加。主要是說(shuō)明該條目的變化。在19.0版中,其數(shù)值均高置為1,即/VERSION=1;6 /MATRIX_TYPE主要敘述由序列突變譜確定的蛋白質(zhì)區(qū)域。具體分如下幾個(gè)參數(shù):Protein_domain 說(shuō)明該序列突變譜指向蛋白質(zhì)保守區(qū)間;Repeat_region 說(shuō)明該序列突變譜指向重復(fù)單元的區(qū)間;Localization_signal 說(shuō)明該序

60、列突變譜指向的區(qū)間對(duì)蛋白質(zhì)在細(xì)胞的定位很重要Composition 說(shuō)明該序列突變譜指向的區(qū)間的組成復(fù)雜性比較低 7 /SCALING_DB這個(gè)條目主要是用于校正序列突變譜時(shí)所用的數(shù)據(jù)庫(kù)。8 /AUTHOR說(shuō)明是誰(shuí)創(chuàng)造這個(gè)序列突變譜或這個(gè)序列突變譜是由誰(shuí)更新的。9 /FT_KEY和/FT_DESC根據(jù)實(shí)際需要,人們要對(duì)由序列突變譜確定的區(qū)間進(jìn)行描述,這項(xiàng)的設(shè)置就是為了能讓計(jì)算機(jī)能有效地讀取。其主要參數(shù)有:NP_BIND,MOTIF,DOMAIN,REPEAT,DNA_BIND或ZN_FING(十)DR行DR主要是指向Swiss-Prot數(shù)據(jù)庫(kù)相應(yīng)的條目,其格如下:DR AC_NB,ENTRY_

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論