版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
生物信息學蛋白質(zhì)序列數(shù)據(jù)庫包其郁第1頁,共73頁,2023年,2月20日,星期一Themissionof
UniProt
istoprovidethescientificcommunitywithacomprehensive,high-qualityandfreelyaccessibleresourceofproteinsequenceandfunctionalinformation.第2頁,共73頁,2023年,2月20日,星期一第3頁,共73頁,2023年,2月20日,星期一1.Swiss-ProtSWISS-PROT由瑞士日內(nèi)瓦大學醫(yī)學生化系于1978年創(chuàng)建,后來與歐洲分子生物學實驗室合作,由瑞士生物信息學研究所(SwissInstituteofBioinformatics,SIB)和歐洲生物信息學研究所(EBI)共同維護和管理現(xiàn)已整合進UniProtKB/Swiss-Prot。第4頁,共73頁,2023年,2月20日,星期一a.所有序列條目都經(jīng)過有經(jīng)驗的分子生物學家和蛋白質(zhì)化學家通過計算機工具并查閱有關(guān)文獻資料仔細核實。SWISS-PROT的特點第5頁,共73頁,2023年,2月20日,星期一b.每個條目包含條目基本信息、分類信息(描述蛋白質(zhì)的生物來源)、引用文獻信息、注釋、蛋白質(zhì)序列等(如:ampG)。第6頁,共73頁,2023年,2月20日,星期一c.蛋白質(zhì)注釋
包括蛋白質(zhì)的功能、翻譯后修飾(如糖基化和磷酸化)、結(jié)構(gòu)域和結(jié)合位點、二級結(jié)構(gòu)(如α-螺旋和β-片層)、四級結(jié)構(gòu)(如同聚體和異聚體)、與其它蛋白質(zhì)序列的相似性、蛋白質(zhì)序列殘缺與疾病的關(guān)系、序列沖突和變異體等信息。第7頁,共73頁,2023年,2月20日,星期一d.SWISS-PROT中盡可能減少冗余序列e.
與其它30多個數(shù)據(jù)庫建立了交叉引用,其中包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫等。f.利用序列檢索系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。第8頁,共73頁,2023年,2月20日,星期一2.TrEMBLTrEMBL數(shù)據(jù)庫建于1995年,意為“TranslationfromEMBL”。該數(shù)據(jù)庫采用SwissPro數(shù)據(jù)庫格式,其數(shù)據(jù)來源于:EMBL核酸序列數(shù)據(jù)庫(或GenBank、DDBJ)中所有編碼序列經(jīng)計算機程序自動翻譯的蛋白質(zhì)從文獻中查到的或向SWISS-PROT遞交的并未整合到SWISS-PROT的蛋白質(zhì)序列第9頁,共73頁,2023年,2月20日,星期一3.PIR-PSD蛋白質(zhì)信息資源-國際蛋白質(zhì)序列數(shù)據(jù)庫(theProteinInformationResource-InternationalProteinSequenceDatabase,PIR-PSD由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護,PIR是最早的數(shù)據(jù)庫,現(xiàn)已并入UniProtKnowledgebase第10頁,共73頁,2023年,2月20日,星期一是一個全面的、非冗余的、經(jīng)過專家注釋的公共蛋白質(zhì)序列數(shù)據(jù)庫。PIR-PSD收集已發(fā)表的蛋白質(zhì)序列、來源、參考文獻和特征信息等,她的注釋中還包括一些原始遞交記錄中沒有的相關(guān)信息,如在遺傳圖譜的位置、內(nèi)含子位置、以及和其他序列、結(jié)構(gòu)、基因組和引文數(shù)據(jù)庫(如Medline、PDB和TIGR等)的相互參照PIR-PSD的另一個重要特征是其對蛋白質(zhì)超家族的分類,提供序列的等級聚類信息,揭示序列間的進化關(guān)系。第11頁,共73頁,2023年,2月20日,星期一4.UniPro蛋白質(zhì)信息資源(PIR)、歐洲生物信息學研究所(EBI)和瑞士生物信息學研究所(SIB)合作,于2002年共同組建世界蛋白質(zhì)資源(theUniversalProteinResource,UniPro)。UniPro把Swiss-Prot、TrEMBL和PIR等蛋白質(zhì)數(shù)據(jù)庫整合在一起,是目前國際上最全面的蛋白質(zhì)信息庫。第12頁,共73頁,2023年,2月20日,星期一第13頁,共73頁,2023年,2月20日,星期一TheUniProtKnowledgebase(UniProtKB)TheUniProtKnowledgebasecontinuestheworkofSwiss-Prot,TrEMBLandPIR-PSDbyprovidinganexpertlyandrichlycuratedproteindatabaseConsistingoftwosections.UniProtKB/Swiss-ProtUniProtKB/TrEMBL.第14頁,共73頁,2023年,2月20日,星期一UniProtReferenceClusters(UniRef)TheUniProtReferenceClusters(UniRef)
provideclusteredsetsofsequencesfromUniProtKBandselectedUniParcrecords.Itprovidecompletecoverageofsequencespaceatseveralresolutionsandspeedsimilaritysearchesviasequencespacecompressionbymergingsequencesthatare100%(UniRef100),90%(UniRef90)or50%(UniRef50)identical.UniRef90andUniRef50yieldadatabasesizereductionofapproximately40%and65%,respectively,providingsignificantlyfastersequencesearches.第15頁,共73頁,2023年,2月20日,星期一UniProtArchive(UniParc)Captureallpubliclyavailableproteinsequencedataandcontainsalltheproteinsequencesfromthemainpubliclyavailableproteinsequencedatabases.UniParcisthemostcomprehensivepubliclyaccessiblenon-redundantproteinsequencedatabase.Youcaninstantlyfindoutwhetherasequenceofinterestisalreadyinthepublicdomainand,ifnot,identifyitsclosestrelatives.YoucanalwaystracethesourcedatabasebecauseUniParccross-referencestheiraccessionnumbers.Youcanobservesequencechangesinallthesourcedatabases.UniParcrecordsarenotannotated第16頁,共73頁,2023年,2月20日,星期一第17頁,共73頁,2023年,2月20日,星期一5.Uni-Pro數(shù)據(jù)檢索第18頁,共73頁,2023年,2月20日,星期一第19頁,共73頁,2023年,2月20日,星期一第20頁,共73頁,2023年,2月20日,星期一第21頁,共73頁,2023年,2月20日,星期一第22頁,共73頁,2023年,2月20日,星期一第23頁,共73頁,2023年,2月20日,星期一第24頁,共73頁,2023年,2月20日,星期一第25頁,共73頁,2023年,2月20日,星期一第26頁,共73頁,2023年,2月20日,星期一第27頁,共73頁,2023年,2月20日,星期一第28頁,共73頁,2023年,2月20日,星期一第29頁,共73頁,2023年,2月20日,星期一七、疾病相關(guān)基因數(shù)據(jù)庫(1)OMIM:OMIM(OnlineMendelianInheritanceinMan)是美國JonhsHopkins大學Dr.VictorA.McKusick等人建立和編輯的有關(guān)人類基因和遺傳病目錄的電子版。于本世紀60年代創(chuàng)立,旨在為臨床醫(yī)師和遺傳病研究工作者提供服務(wù)。OMIM包含大量的及時更新的有關(guān)人類基因及其突變序列數(shù)據(jù)和遺傳病的臨床特征等信息和相關(guān)參考文獻。第30頁,共73頁,2023年,2月20日,星期一第31頁,共73頁,2023年,2月20日,星期一第32頁,共73頁,2023年,2月20日,星期一OMIM數(shù)據(jù)庫基本信息
MIM----概述、克隆、基因結(jié)構(gòu)、物理圖、基因功能、生化特征、分子遺傳學、動物模型、等位突變、參考文獻、編輯史等.Eztrezgene----分類、參考序列、蛋白質(zhì)等LinkoutP53基因的OMIM檢索結(jié)果:第33頁,共73頁,2023年,2月20日,星期一第34頁,共73頁,2023年,2月20日,星期一(2)GeneCardsGeneCards數(shù)據(jù)庫是由以色列Weizmann科學研究所(WeizmannInstituteofScience)和Crown人類基因組中心(CrownHumanGenomeCenter)建立和維護的它鏈接、收集了如HUGO,SWISS-PORT,Genbank,PubMed,OMIM,HGMD,Unigene等五十多個數(shù)據(jù)庫,提供有關(guān)人類、果蠅、小鼠等基因的相關(guān)信息,以及多種遺傳性疾病、癌癥、轉(zhuǎn)基因資料它對所有數(shù)據(jù)庫的信息進行了科學地分類整理,形成了一個關(guān)于基因及其產(chǎn)物的生物學和醫(yī)學信息的電子百科全書它的智能化的導(dǎo)航系統(tǒng),使用戶能方便地查找感興趣的內(nèi)容。它還提供了幾十個鏡像站,與很多的研究所、醫(yī)院、基因中心等鏈接,便于用戶進一步查找相關(guān)信息。第35頁,共73頁,2023年,2月20日,星期一第36頁,共73頁,2023年,2月20日,星期一第37頁,共73頁,2023年,2月20日,星期一第38頁,共73頁,2023年,2月20日,星期一八、蛋白質(zhì)數(shù)據(jù)分析
由于傳統(tǒng)的用X光晶體衍射和核磁共振技術(shù)測定蛋白質(zhì)的三維結(jié)構(gòu)、用生化方法研究蛋白質(zhì)功能的效率不高,無法適應(yīng)由基因組測序所帶來的蛋白質(zhì)序列數(shù)量飛速增長的需要,近年來,許多科學家致力于用理論計算的方法預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)和功能,提高蛋白質(zhì)功能研究的效率,并取得了一定的成果。第39頁,共73頁,2023年,2月20日,星期一1.蛋白質(zhì)基本性質(zhì)分析蛋白質(zhì)序列分析的基本方面:包括分析蛋白質(zhì)的氨基酸組成、相對分子質(zhì)量、等電點、親水性、疏水性、消光系數(shù)、信號肽等在一些蛋白質(zhì)數(shù)據(jù)庫如UniPro等可查詢到已收錄序列的基本理化性狀對于新得到的蛋白質(zhì)序列,可通過蛋白質(zhì)序列分析專家系統(tǒng)ExPASy服務(wù)系統(tǒng)的蛋白組學工具軟件如ProtParam、ProScale和ComputepI/Mw等軟件進行分析(http://www.expasy.ch/tools/)第40頁,共73頁,2023年,2月20日,星期一第41頁,共73頁,2023年,2月20日,星期一第42頁,共73頁,2023年,2月20日,星期一第43頁,共73頁,2023年,2月20日,星期一第44頁,共73頁,2023年,2月20日,星期一2.蛋白質(zhì)功能預(yù)測InterPro數(shù)據(jù)庫與蛋白質(zhì)功能預(yù)測蛋白質(zhì)的功能分類蛋白質(zhì)序列的代謝途徑分析第45頁,共73頁,2023年,2月20日,星期一
由EBI,SIB,SangerInstitute
等十多家單位維護結(jié)合了UniProt、PROSITE,
Pfam,PRINTS,ProDom、
SMART,PANTHER和
Gene3D等數(shù)據(jù)庫(1)InterPro數(shù)據(jù)庫與蛋白質(zhì)功能預(yù)測第46頁,共73頁,2023年,2月20日,星期一InterPro功能
收集了已知蛋白質(zhì)家族、蛋白質(zhì)功能域和功能位點的信息,可用于未知蛋白質(zhì)序列的:分類(superfamily,familyandsubfamilylevels)功能域重復(fù)序列重要位點其他的包括GOterms等深度注釋第47頁,共73頁,2023年,2月20日,星期一不同數(shù)據(jù)庫在數(shù)據(jù)組成上有所不同Pfam包含常見的蛋白質(zhì)功能域和蛋白質(zhì)家族,可瀏覽蛋白質(zhì)家族的多序列比對結(jié)果、蛋白質(zhì)功能域的立體構(gòu)造、蛋白質(zhì)家族的物種分布等。PANTHER主要包含蛋白質(zhì)家族的功能分類信息,一個大的蛋白質(zhì)家族進一步按功能上的差異被歸納成一些次家族,顯示蛋白質(zhì)家族不同成員的特定功能的差異,使蛋白質(zhì)家族的功能表達更準確。第48頁,共73頁,2023年,2月20日,星期一ProDom家族是由UniProtKnowledgeDatabase中自動生成的綜合性的蛋白質(zhì)功能域家族數(shù)據(jù)庫。VisualizationofProDomdomainson3Dstructures;couplingofProDomanalysiswiththeGeno3Dhomologymodellingserver;ProDom-SG,aProDom-basedserverdedicatedtotheselectionofcandidateproteinsforstructuralgenomics.SMART由兩部分組成,普通SMART(NormalSMART)收集了Swiss-Prot,SP-TrEMBL和stableEnsemblproteomes的蛋白質(zhì)數(shù)據(jù),而基因組SMART(GenomicSMART)僅包含全基因組測序的生物基因組的蛋白質(zhì)信息。第49頁,共73頁,2023年,2月20日,星期一(2)
蛋
白質(zhì)的功能分類
基因分類協(xié)會(GeneOntologyConsortium,GOC)整合了現(xiàn)有數(shù)據(jù)庫生物信息資源,建立了基因分類數(shù)據(jù)庫(theGeneOntology)第50頁,共73頁,2023年,2月20日,星期一GOC基因分類協(xié)會(GOC)建立了可控的動態(tài)詞匯系統(tǒng),它從分子功能(MolecularFunction)、生物過程(BiologicalProcess)和細胞組分(CellularComponent)3個不同分類角度,建立了3棵分類樹對已經(jīng)分類到樹上的同源蛋白質(zhì)序列,賦予蛋白質(zhì)特定的術(shù)語名稱和GO編號GOC各成員提供其蛋白質(zhì)數(shù)據(jù)庫中已分類的蛋白編號和GO號對照表,是對未知蛋白序列進行分類的參照和標準目前GeneBank和SwissProt已有60多萬條蛋白序列具有GO號,即它們定位于GO的分類樹上。同時一些綜合的蛋白質(zhì)注釋數(shù)據(jù)庫如酶協(xié)會(EC)、InterPro等與GO還有相對應(yīng)的列表,從而使蛋白序列數(shù)據(jù)庫和分類樹建立起聯(lián)系第51頁,共73頁,2023年,2月20日,星期一GOC基因分類協(xié)會成員第52頁,共73頁,2023年,2月20日,星期一第53頁,共73頁,2023年,2月20日,星期一TheOntologiesGO的組織原則:cellularcomponentbiologicalprocess
molecularfunction.Ageneproductmightbeassociatedwithorlocatedinoneormorecellularcomponents;itisactiveinoneormorebiologicalprocesses,duringwhichitperformsoneormoremolecularfunctions.
如基因產(chǎn)物cytochromec可被描述成:
themolecularfunctionterm:oxidoreductaseactivity
thebiologicalprocessterms:
oxidativephosphorylationandinductionofcelldeath
thecellularcomponentterms:
mitochondrialmatrixandmitochondrialinnermembrane第54頁,共73頁,2023年,2月20日,星期一3個分支:分子功能、生物過程和細胞組成第55頁,共73頁,2023年,2月20日,星期一
FunctionalclassNumberPercentageRegulatoryfunction451.05Putativeregulatoryproteins1333.10Cellstructure1824.24Putativemembraneproteins130.30Putativestructuralproteins420.98Phage,transposons,plasmids872.03Transportandbindingproteins2816.55Putativetransportproteins1463.40Energymetabolism2435.67DNAreplication,recombination,modification,andrepair1152.68Transcription,RNAsynthesis,metabolism,andmodification551.28Translation,posttranslationalproteinmodification1824.24E.coliproteins的22個功能類群
(tobecontinued)第56頁,共73頁,2023年,2月20日,星期一
FunctionalclassNumberPercentage
Cellprocesses(includingadaptation,protection)1884.38Biosynthesisofcofactors,prostheticgroups,andcarriers1032.40Putativechaperones90.21Nucleotidebiosynthesisandmetabolism581.35Aminoacidbiosynthesisandmetabolism1313.06Fattyacidandphospholipidmetabolism481.12Carboncompoundcatabolism1303.03Centralintermediarymetabolism1884.38Putativeenzymes2515.85Otherknowngenes(geneproductorphenotypeknown)260.61Hypothetical,unclassified,unknown163238.06Total4288100.00第57頁,共73頁,2023年,2月20日,星期一編碼序列的注釋--
DistributionofSC-B67proteinsamong22functionalgroups第58頁,共73頁,2023年,2月20日,星期一(3)蛋白質(zhì)序列的代謝途徑分析
京都基因和基因組百科全書
(KyotoEncyclopediaofGenesandGenomes,KEGG,http://www.genome.ad.jp/kegg/)
是日本京都大學生物信息學中心建立和維護的系統(tǒng)分析基因功能的綜合數(shù)據(jù)庫第59頁,共73頁,2023年,2月20日,星期一
包含7萬多條代謝途徑的數(shù)據(jù)庫有關(guān)基因目錄(GeneCatalogs)的基因數(shù)據(jù)庫(GENES)有關(guān)功能等級(FunctionalHierarchies)的BRITE數(shù)據(jù)庫有關(guān)化學物質(zhì)及其反應(yīng)(BioChemicalcompoundsandReactions)配體數(shù)據(jù)庫(LIGAND)KEGGDatabases
第60頁,共73頁,2023年,2月20日,星期一KEGGpathway數(shù)據(jù)的結(jié)構(gòu)第61頁,共73頁,2023年,2月20日,星期一第62頁,共73頁,2023年,2月20日,星期一第63頁,共73頁,2023年,2月20日,星期一3.蛋白質(zhì)結(jié)構(gòu)預(yù)測(1)蛋白質(zhì)二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu):是指廣泛地存在于球狀蛋白質(zhì)內(nèi)的α-螺旋(α-helix)、β-折疊(β-pleatedsheet)和β-轉(zhuǎn)角(β-turn)等規(guī)則的蛋白質(zhì)局部結(jié)構(gòu)單元。在球狀蛋白質(zhì)中,常見若干相鄰的二級結(jié)構(gòu)單元組合在一起,形成規(guī)則的、在空間上能辨認的充當三級結(jié)構(gòu)構(gòu)件(blockbuilding)的二級結(jié)構(gòu)組合體(combination),又稱超二級結(jié)構(gòu)(supersecondarystructure)。蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測大多通過與已知蛋白質(zhì)的三維結(jié)構(gòu)和二級結(jié)構(gòu)相比較,或通過計算各種結(jié)構(gòu)中氨基酸出現(xiàn)的頻率規(guī)律,結(jié)合人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)構(gòu)建預(yù)測方法實現(xiàn)的。目前,二級結(jié)構(gòu)預(yù)測對α-螺旋預(yù)測精度較好,對β-折疊的預(yù)測精度差些。第64頁,共73頁,2023年,2月20日,星期一蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的工具用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的工具較多,如:PredictProtein(/)ANTHEPROT(http://antheprot-pbil.ibcp.fr/)COILS(http:///)等等其中最常用的是PredictProtein第65頁,共73頁,2023年,2月20日,星期一
由歐洲分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 賀州學院《包裝策劃與設(shè)計》2023-2024學年第一學期期末試卷
- 菏澤學院《輿情分析與應(yīng)對》2022-2023學年第一學期期末試卷
- 菏澤學院《司法制度》2022-2023學年第一學期期末試卷
- 健康飲食與生活方式-中學生健康生活指導(dǎo)
- 菏澤學院《機械制造基礎(chǔ)》2022-2023學年第一學期期末試卷
- 河南師范大學《中國當代文學專題》2021-2022學年第一學期期末試卷
- 河南師范大學《音樂治療》2022-2023學年第一學期期末試卷
- 河南師范大學《西方社會思想史》2023-2024學年第一學期期末試卷
- 校園環(huán)保我們在行動-共建綠色校園從我做起
- 河南師范大學《地圖學》2021-2022學年第一學期期末試卷
- 溝槽支護安全施工專項方案
- 圣泉中學政治綜合實踐活動表格
- 成立外貿(mào)部策劃書
- 猜想與假設(shè)在高中化學教學中的應(yīng)用
- 油水井調(diào)剖堵水劑
- 網(wǎng)絡(luò)直播平臺的營銷策略研究——以起點直播公司為例
- 年處理10000輛報廢新能源汽車拆解再生利用項目可行性研究報告-模板
- 供應(yīng)商送貨要求規(guī)范
- 教師績效考核綜合評價表.doc
- 投標書標準格式
- 殘疾人的心理輔導(dǎo)方案計劃
評論
0/150
提交評論