結(jié)構(gòu)基序預(yù)測(cè)蛋白質(zhì)功能_第1頁(yè)
結(jié)構(gòu)基序預(yù)測(cè)蛋白質(zhì)功能_第2頁(yè)
結(jié)構(gòu)基序預(yù)測(cè)蛋白質(zhì)功能_第3頁(yè)
結(jié)構(gòu)基序預(yù)測(cè)蛋白質(zhì)功能_第4頁(yè)
結(jié)構(gòu)基序預(yù)測(cè)蛋白質(zhì)功能_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基礎(chǔ)知識(shí)匯報(bào) 在類的合并上,主要有三種算法來(lái)確定類間的距離:?jiǎn)我贿B 鎖(single-linkage)、完全連鎖(complete-linkage)和平均連 鎖(average-linkage)。這三種算法在定義類間的距離時(shí)分 別取兩類間的最小距離、最大距離和平均距離。前兩種算 法對(duì)邊緣值太過(guò)敏感,對(duì)于未知的元素分布,一般采用平 均連鎖算法。 完全連鎖(complete linkage),又稱最遠(yuǎn)鄰(furthest neightbour)方法。同樣從相似度矩陣或距離矩陣出發(fā),但 定義距離為兩類之間數(shù)據(jù)的最大距離。同樣不考慮到類的 結(jié)構(gòu)。傾向于找到一些緊湊的分類。 以最小近鄰法聚類為例 最短距

2、離聚類法具有空間壓縮性,而最遠(yuǎn)距離聚類 法具有空間擴(kuò)張性。最短距離為 dAB=da1b1,最遠(yuǎn) 距離為 dAB=dap2。 表示了八種不同系統(tǒng)聚類方法計(jì)算類間距離的統(tǒng)一表達(dá)式 Composite Structural Motifs of Binding Sites for Delineating Biological Functions of Proteins 匯報(bào)人:劉言 簡(jiǎn)介 在原子水平上,我們都是通過(guò)蛋白質(zhì)之間或蛋白 質(zhì)與其他分子之間相互作用來(lái)理解生物學(xué)過(guò)程的。 大部分蛋白質(zhì)會(huì)同步或不同步的與很多分子相互 作用。 單原子離子,小分子到蛋白質(zhì)、核酸和其他大分子 眾所周知,蛋白質(zhì)相互作用的類

3、型和蛋白質(zhì)是否 相互作用可以調(diào)節(jié)蛋白質(zhì)的功能(血紅蛋白與氧結(jié) 合,與一氧化碳結(jié)合)。因此,我們不僅要確定個(gè) 體蛋白的相互作用,也要考慮潛在的蛋白質(zhì)相互作 用,這些相互作用或許可以充分描述蛋白質(zhì)的功 能,也能從同源蛋白中區(qū)分它們的不同功能。 Genome sequence technologies促使我們更加急迫 的去發(fā)掘從序列信息預(yù)測(cè)蛋白質(zhì)功能的有效技術(shù)。迄 今為止,最常用于蛋白質(zhì)功能預(yù)測(cè)的方法是 annotation transfer,它是基于一種蛋白質(zhì)序列相似, 功能相似的假設(shè)基礎(chǔ)上的方法。然而,隨著研究的 逐步深入,這種方法在很多情況下卻是不可靠的。 蛋白質(zhì)功能相似,并不僅僅是序列功能的

4、相似。蛋 白質(zhì)序列折疊方式不同,會(huì)導(dǎo)致結(jié)構(gòu)不同,從而影響 功能。所以我們要更加精細(xì)的檢查蛋白質(zhì)功能的決定 因素,而不是只單純的考慮蛋白質(zhì)序列相似性。 結(jié)構(gòu)信息可以為蛋白質(zhì)功能預(yù)測(cè)提供更加準(zhǔn)確的信 息。 To date, there have been many methods for detecting potential ligand binding sites based on structural similarity of proteins 14,1622. Most of these methods are targeted at predicting protein functio

5、ns at the level of ligand binding and catalytic activity. There have also been many studies on protein-protein interaction interfaces to understand biological functions of proteins in cellular contexts 。 然而,大部分研究都是針對(duì)于一些特殊 的相互作用本身和不明確機(jī)理的相互作 用如何調(diào)控蛋白質(zhì)的生物學(xué)功能的。 文中思想 為了明確原子水平上蛋白質(zhì)相互作用的模式與其功能的 關(guān)系,在這里我們采用一個(gè)非

6、常詳盡的all-against-all structural comparisons of binding site structures at atomic level using all structures available in the Protein Data Bank (PDB) 。 1. Identification of elementary and composite motifs 首先,我們找到PDBML file 中所有有注釋的生物學(xué)單元,然 后從中提取出197690個(gè)蛋白質(zhì)亞基(這些亞基均至少包 含一個(gè)配體結(jié)合位點(diǎn)) 這里,我們把一個(gè)亞基的配體結(jié)合位點(diǎn)定義為一個(gè)亞基的

7、原 子集(與配體原子的距離在5A之內(nèi))。然而我們不用已知 的基于序列相似性的非冗余數(shù)據(jù)庫(kù),我們的冗余在相似結(jié) 構(gòu)聚類之后再清理。通過(guò)這種方式,確定在后續(xù)的分析中 當(dāng)結(jié)構(gòu)冗余條件移除后高度相似的蛋白質(zhì)結(jié)構(gòu)差異或相同 的氨基酸序列是否能夠preserved。 Kinjo AR, Nakamura H (2007) Similarity search for local protein structures at atomic resolution by exploiting a database management system. All-against-all structure用GIRAF結(jié)

8、構(gòu)搜索和排列程序比 對(duì)410254小分子結(jié)合位點(diǎn),346288蛋白質(zhì)結(jié)合位點(diǎn)和 20388核酸結(jié)合位點(diǎn)。完全連鎖聚類后各自輸出5869, 7678和398簇(至少有十個(gè)成員)。我們把這些簇看做 elementary motifs.一個(gè)蛋白質(zhì)亞基中所包含的全部的 elementary motifs 的集稱為亞基的composite motif.因此 兩個(gè)亞基有共同的elementary motifs 可以推斷他們有共 同的composite motif。 2. Characterization of composite motifs 組成composite motif的elementary mo

9、tifs的數(shù)目由1-20不等。 To characterize the diversity of composite motifs, the average and minimum sequence identities were calculated for pairs of subunits sharing the same composite motifs. 我們通過(guò)把檢驗(yàn)得到的兩個(gè)不同的composite motifs的相似 性和最小序列一致性做一個(gè)函數(shù)。 3. Association of composite motif similarity with function simila

10、rity when we used only the UniProt functions under the Biological process category which are less directly related to molecular functions 4. Examples of composite motifs sharing the same elementary motif and fold but with different functions 5. Meta-composite motifs for annotating functions 用一個(gè)compo

11、site motif描述一個(gè)蛋白質(zhì)亞基的特殊狀態(tài),這 樣每一個(gè)生物學(xué)過(guò)程都可以看作是一系列的相互作用模型。 因此,composite motif僅僅只能作為整個(gè)生物學(xué)過(guò)程中的點(diǎn)。 為了對(duì)生物學(xué)過(guò)程有一個(gè)更加綜合性的感官,我們把所有 的與特殊功能有關(guān)系的composite motifs分類定義成 meta-composite motifs。 type-1 : based solely on BLAST E-value cutoff of 0.05 type-2 : based on sequence identity cutoff of 100% 6. Network structure of

12、meta-composite motifs in biological processes 我們把所有的composite motifs分類組合成meta-composite motifs,更有利于對(duì)蛋白質(zhì)功能進(jìn)行分析而不是最開(kāi)始簡(jiǎn)單 的預(yù)測(cè)。 通過(guò)UniProt keyword Transcription識(shí)別一個(gè)meta- composite motif,然后找到節(jié)點(diǎn)部分。 節(jié)點(diǎn): based on relations such as common elementary motifs or common sequences. For example, there are PDB entrie

13、s of human cellular tumor antigen p53 with or without bound DNA(e.g., PDB 1UOL 58 and 2AC0 59) which share the same elementary motif for zinc binding but have different Composite motifs depending on the presence or absence of the elementary motif for DNA binding. To evaluate the properties of networ

14、ks of meta motifs Materials and Methods Data set We have used all the PDB entries as of December 29, 2010(70,231 entries),which contained at least one ligand binding site. A ligand binding site of a subunit is defined as a set of at least 10 atoms in the subunit that are in contact with some atoms o

15、f aligand within 5 A radius. 2. Similarity between binding site structures To compare binding site structures, we used the GIRAF structural search and alignment program with some modifications to enable faster database search and flexible alignments (unpublished). After all-against-all comparisons o

16、f binding sites, elementary motifs were defined as complete-linkage clusters with a cutoff GIRAF score of 15. The GIRAF score is defined as The results of all-against-all comparison of binding sites and classifications are made available for download at /giraf/cmotif/. NA and NB分別是A、B原

17、子中的結(jié)合位點(diǎn)數(shù)目。 NA,B是兩原子中配對(duì)比對(duì)結(jié)合的數(shù)目。 The weight w(xAa ,xBa ) for the aligned atom pairs xAa and xBa. d(xAa ,xBa ) is the distance between two atoms in a superimposed coordinate system. 閾值dc設(shè)定為2.5A。 結(jié)合位點(diǎn)的大小是影響GIRAF的初始值的主要因素。所 以,在進(jìn)行結(jié)合位點(diǎn)相似性與功能相似性的比對(duì)中我們采 取了一個(gè)標(biāo)準(zhǔn)化的相似性測(cè)度使大小各異的結(jié)合位點(diǎn)能夠 以相同的比例尺進(jìn)行測(cè)量。 normalized simil

18、arity S(A,B) between the binding sites A and B is defined as 3. Functions defined by UniProt keywords 我們從PDB數(shù)據(jù)庫(kù)中提取的每個(gè)亞基(均至少含有一個(gè)配 體結(jié)合位點(diǎn))在Uniprot數(shù)據(jù)庫(kù)中均可找到注釋。因此,我們 要確定他們的關(guān)鍵詞從而確定其在Uniprot中的entries。 Two subunits whose associated sets of keywords are exactly identical are defined to have the same function.

19、 The similarity between two UniProt functions are defined by the Jaccard index between the sets of keywords associated with the functions . 4. Similarity between two sets Given the sets A and B, their similarity is defined by the Jaccard index J(A,B): composite motif elementary motifs function UniProt keywords meta-composite motif co

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論