基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位_第1頁
基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位_第2頁
基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位_第3頁
基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位_第4頁
基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、基于分段偽氨基酸組成成分特征提取方法預測蛋白質(zhì)亞細胞定位楊會芳,程詠梅,張紹武,潘 泉(西北工業(yè)大學自動化學院,西安 710072)摘要: 蛋白質(zhì)的亞細胞定位與蛋白質(zhì)的功能密切相關(guān), 其定位預測有助于人們了解蛋白質(zhì)功能。文章提出一種 分 段 偽 氨 基 酸 組 成 成 分 特 征 提 取 方 法 , 采 用 支 持 向 量 機 算 法 對 Chou 構(gòu) 建 的 兩 個 蛋 白 質(zhì) 亞 細 胞 定 位 數(shù) 據(jù) 集(C2129, CS2423)進行了分類研究, 并采用總分類精度 Q3、內(nèi)容平衡精度指數(shù) Q9 等參數(shù)評估預測分類系統(tǒng)性能。 預測結(jié)果表明, 基于分段偽氨基酸組成成分特征提取方法的預測性

2、能, 優(yōu)于基于完整蛋白質(zhì)序列的偽氨基酸組成成分特征提取方法。例如, 基于分段矩描述子偽氨基酸組成成分特征提取方法,數(shù)據(jù)集 C2129 的 Q3 和 Q9 分別為84.7% 和 60.8%,比基于完整蛋白質(zhì)序列的矩描述子偽氨基酸組成成分特征提取方法分別提高 1.8 和 2.2 個百分點, 且 Q3 比現(xiàn)有 Xiao 等人的方法提高了 9.1 個百分點?;诜侄蝹伟被峤M成成分特征提取方法構(gòu)成的特征向量不僅包含殘基之間的位置信息, 而且還包含蛋白質(zhì)子序列之間的耦合信息, 另外蛋白質(zhì)分段子序列可能和蛋白 質(zhì)的功能域有一定的聯(lián)系, 從而使這一方法能夠有效地預測蛋白質(zhì)亞細胞定位。關(guān)鍵詞: 分段偽氨基酸組

3、成成分; 支持向量機; 特征提取; 亞細胞定位中圖分類號:Q617引言計特性,即局部子序列中氨基酸出現(xiàn)的頻率,而未考慮局部子序列氨基酸順序影響。 本文提出一種分段偽氨基酸組成成分特征提取方法表示蛋白質(zhì)序列,采用支持向量機算法和 “一 對一”分類策略,對 Chou 構(gòu)建的兩個數(shù)據(jù)集1,2進 行蛋白質(zhì)亞細胞定位預測研究。0蛋白質(zhì)要參與正常的生命活動,必須處于特定的亞細胞區(qū)域內(nèi) (如細胞核、線粒體、細胞質(zhì)等) 才能發(fā)揮特定的功能。我們可通過實驗確定蛋白質(zhì) 在細胞內(nèi)的位置,但實驗方法不但費時、耗財, 其 難度也較大。另外隨著人類基因組計劃的順利實 施,蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列數(shù)目飛速增長, 因而探索

4、利用理論及計算方法預測蛋白質(zhì)的亞細胞 定位越來越重要。自從 Chou 提出偽氨基酸組成成 分概念以來1,多種偽氨基酸組成成分特征方法被 提出來用于蛋白質(zhì)亞細胞定位預測210,取得了較 好的效果。偽氨基酸組成成分特征提取方法實質(zhì)上 就是用一個特征向量表示蛋白質(zhì)樣本,而不丟失序 列順序信息。目前利用偽氨基酸組成成分預測蛋白 質(zhì)亞細胞定位都是基于完整的蛋白質(zhì)序列,文獻 11,12基于分段氨基酸組成成分分別對蛋白質(zhì)同 源寡聚體和膜蛋白進行了分類研究,研究結(jié)果表明 蛋白質(zhì)局部子序列包含較多的蛋白質(zhì)屬性信息。但 分段氨基酸組成成分僅考慮局部子序列的氨基酸統(tǒng)數(shù)據(jù)集和預測方法1數(shù)據(jù)集1.1采用兩個數(shù)據(jù)集來評價

5、本文算法的預測能力。第 一 個 數(shù) 據(jù) 集 (C2191) 由 Chou 構(gòu) 建 1, 包 含2191 條蛋白質(zhì)序列,分別屬于 12 種亞細胞定位區(qū)收稿日期: 2007-12-13基 金 項 目 : 國家自然科學基金資助項目 (60775012,60634030), 西北工業(yè)大學科技創(chuàng)新項目 (KC02)張紹武, :(029)88494352,通訊作者:E-mail: 域:145 條葉綠體 (chloroplast),571 條細胞質(zhì)(cytoplasm),34 條細胞骨架 (cytoskeleton),49 條內(nèi)質(zhì)網(wǎng) (endoplasmic reticulum

6、),224 條細胞外 蛋 白 質(zhì) (extracellular), 25 條 高 爾 基 體 (Golgi apparatus),37 條溶酶體 (lysosome),84 條線粒 體 ( mitochondria), 272 條 細 胞 核 ( nucleus proteins),27 條過氧物酶體 (peroxisome),699 條 質(zhì)膜 (plasma membrane),24 條液泡 (vacuole); 另一個數(shù)據(jù)集 (CS2423)由 Chou 和 Shen 構(gòu)建2, 包含 2423 條蛋白質(zhì)序列,分別屬于 16 種亞細胞定 位區(qū)域:20 條細胞壁 (cell wall),17

7、條中心體(centriole),207 條葉綠體 (chloroplast),78 條藍 色小體 (cyanelle),384 條細胞質(zhì) (cytoplasm),20 條 細 胞 骨 架 (cytoskeleton), 91 條 內(nèi) 質(zhì) 網(wǎng)( endoplasmicreticulum), 402 條 細 胞 外(extracell),68 條高爾基體 (Golgi apparatus),37條 溶 酶 體 ( lysosome), 183 條 線 粒 體(mitochondrion),474 條細胞核 (nucleus),52 條 過氧物酶體 (peroxisome),323 條質(zhì)膜 (pla

8、sma membrane), 31 條 質(zhì) 體 ( plastid), 36 條 液 泡(vacuole)。其中任意兩條序列的一致性 (identity) 小于 25%。kkkccc1,11,m1,Mkci,mkc20,1 kg1,1kc20,m kg1,mkgj,m kkc20,Mkg1,Mk=1,2,Nm=1,2,MPseAACSk=,(2)kkggg!,1!,m!,Mkkkkkk其中cT 為蛋白質(zhì),c,c,g,g,g1,mi,m20,m1,mj,m!,m序列 P k 的第 m 段偽氨基酸組成成分特征向量。前20 個元素表示氨基酸組成成分,后 ! 個元素表示 偽氨基酸組成成分。依據(jù)不同的偽

9、氨基酸組成成分特征提取方法,這些元素有不同的計算方法。 若用我們以前研究工作8的矩描述子公式計算偽氨基酸組成成分,分段偽氨基酸組成成分的后 !個元素計算如下:k#Lm1kk !sj,ll,%(1j20)%Ll =1kmgj,m =$,(21j40)kLm%1 !(skkl- g)2,%k(j- 20),l(j- 20),m&Lm l =1特征提取方法k1.2l=1,2,L(3)m1.2.1分段氨基酸組成成分設將第 k 個蛋白質(zhì)序列 P k 均分為 M 段,根據(jù) 我們以前的研究工作11,蛋白質(zhì) P k 可用如下矩陣 表示:kkkLm為蛋白質(zhì)序列 P第 m 段子序列 pm的長度,sj,l 是kkm

10、基本氨基酸 aj 在子序列 p上的位置標示, 定義為k#1,如果 a 在子序列 p 的位置 l 上k%=jm。kc1,1kc1,mkc1,Msj,l%k&0,如果 aj 不在子序列 pm的位置 l 上為了后面表述方便,以分段矩描述子偽氨基酸kAACSk=,k=1,N(1)ci,mkc20,1kc20,mkc20,M組成成分特征提取方法提取的特征參數(shù)集用 MDSm20M表示。根據(jù)我們以前的研究工作6,基于氨基酸 a 的kkk其中 N 為蛋白質(zhì)序列總樣本數(shù),c1,m ,ci,m ,c20,m Ti為蛋白質(zhì)序列 P k 的第 m 段氨基酸組成成分,其統(tǒng)計極性指數(shù)值 (Factor 1)13的多尺度能

11、量,其分段多尺度能量偽氨基酸組成成分的后 ! 個元素 計算如下:kkk中,ci,m =Mti,m /L (m=1,M, i=1,20),ti,m 為基k本氨基酸 ai 在蛋白質(zhì)序列 P k 的第 m 段中出現(xiàn)的次數(shù),Lk 為 Pk 的序列長度。 為了后面表述方便,以分段氨基酸組成成分特征提取方法提取的特征參數(shù)集用 AACSm 表示。1.2.2分段偽氨基酸組成成分以分段氨基酸組成成分特征提取方法表示蛋白 質(zhì),沒有考慮子序列中的順序信息,因而我們提出 分段偽氨基酸組成成分特征提取方法。這樣蛋白質(zhì)序列 P k 可用下列矩陣表示:kQ ,m - 1( j1kk!dj,m (q)gj,m =2, 1j!

12、- 1,kQj,mq=0kQ(!- 1),m - 1(Q(!- 1),m1kkg!,m =k! c(!- 1),m (q)2(4)q=0kkgj,m 為子序列 pm第 j 個尺度上小波系數(shù)的均方根能kk量,g!,m 為子序列 pm的 !- 1 尺度上尺度系數(shù)的均方法需要設計較多的二類分類器,但由于設計每一個分類器時所需求解優(yōu)化問題的規(guī)模較小,對應兩類 數(shù)據(jù)的數(shù)量相對接近, 從而避免了 “一對多”使用 中常見的由數(shù)據(jù)不平均造成的有偏分類問題15。本 文采用 “一對一”分類策略。kk根能量,Qj,m 是子序列 pm第 j 個尺度上小波系數(shù)的kk個數(shù),dj,m (q)為 j 尺度上 q 個小波系數(shù),

13、c(!- 1),m (q)為!- 1 尺度上 q 個尺度系數(shù)。 為了后面表述方便,以分段多尺度能量偽氨基酸組成成分特征提取方法提取的特征參數(shù)集用MSESm 表示。 為了與文獻2方法比較,我們采用文獻2的兩性分子偽氨基酸組成成分公式計算偽氨基酸組成成分,分段偽氨基酸組成成分的后 ! 個元素計算 如下:分類系統(tǒng)檢驗采用 Jackknife 檢驗方法評價分類結(jié)果。在 Jackknife 檢驗方法中,每一條蛋白質(zhì)序列依次從 數(shù)據(jù)集中取出作為測試集,而其余蛋白質(zhì)作為訓練 集樣本,對于樣本數(shù)為 N 的數(shù)據(jù)集,此過程循環(huán) N 次。但應注意,下次取出樣本時,上次抽取的樣 本要放回數(shù)據(jù)集。1.4k$Lm- (j

14、+1)/2!l =1111l2 hm(al)hm(al+(j+1)/2),如果 j 是奇數(shù)精度評估分別采用總預測精度 Q 、每類樣本k$Lm- (j+1)/23$的敏感性 Sen (i)、每類樣本的 Matthews 相關(guān)系數(shù)kgj,m =#MCC(i)和內(nèi)容平衡精度指數(shù) Q9。Q9 最初是用11,1617$kLm- j/2$1! 1 22來評估二級結(jié)構(gòu)預測算法的有效性,與 Q3 相比,如果 j 是偶數(shù)2 hm(al)hm(al+j/2),$k%Lm- j/2Q9 充分考慮了錯分信息,為樣本數(shù)量不均衡的預測問題提供了較為精確的性能評估,是一種獨立于 類別的評估指標。將這一思想引入到亞細胞定位預

15、l =1(5)12k其中 hm(al),hm(al)分別表示子序列 pm中 l 位置上氨基酸 al 的歸一化疏水值和親水值2。 為了后面表述方便,以分段兩性分子偽氨基酸組成成分特征提取方法提取的特征參數(shù)集用 THSm表示。測研究,對 類問題進行評估。設 N 為樣本總數(shù), 為樣本類別數(shù),pi 為第 i 類樣本的正確分類數(shù),ni為非 i 類樣本的正確分類數(shù),ui 為第 i 類樣本中被 錯誤分為其它類別的樣本數(shù),oi 為其它類別的樣本 被錯誤分為第 i 類的樣本數(shù),則有:1.3多類支持向量機分類器設計支持向量機 (support vectormachine,SVM)Q3=!pi/N100%i =1S

16、en(i)=pi/(pi+ui)100%(6)是由 Vapnik 等人提出的一種基于統(tǒng)計學習理論的機器學習方法14。其主要思想是針對分類問題, 在 高維空間中尋找超平面作為兩類的決策面, 以保證 最小的分類錯誤率。該方法在結(jié)構(gòu)風險最小化的原 則下, 盡量提高學習的泛化能力,目前在許多領域 得到廣泛應用。對于多類 ( 類)分類問題,常采用 “一對 多 ” (one-versus-all, OVA) 和 “ 一 對 一 ”(one-versus-one,OVO)兩種分類策略。 “一對多”方法設計 個兩類 SVM 分類器,每個測試樣 本經(jīng)過 個 SVM 分類器進行判別,最終選擇 個 分類器輸出中的最

17、大值所代表的類別,作為測試數(shù)據(jù)的分類決策。而 “一對一”方法為任意兩類樣本 構(gòu)造超平面,共需訓練 (- 1)/2 個兩類 SVM 分類 器,每個測試樣本經(jīng)過 (- 1)/2 個 SVM 分類器進 行判別,對 (- 1)/2 個判別結(jié)果進行投票,得票最 多的判別結(jié)果為測試樣本所屬的類別。與 “一對 多”方法相比,在類別數(shù) 較大時, “一對一”方(7)(8)pini- uioiMCC(i)=&(pi+ui)(pi+oi)(ni+ui)(ni+oi)!u 2b 2+!o 2b 2&i ii iQ9=(1-i =1i =1)(9)!(pi+oi)2bi2+i =11bi=(10)pi+ui結(jié)果和討論2

18、分段偽氨基酸組成成分預測結(jié)果對于數(shù)據(jù)集 C2129,采用支持向量機算法和 “一對一”分類策略,Jackknife 檢驗下,分段矩描 述子偽氨基酸組成成分特征提取法的預測結(jié)果如表1 所示。從表 1 可以看出,分段矩描述子偽氨基酸2.1組成成分的預測結(jié)果優(yōu)于相應的未分段預測結(jié)果,Performance comparisons of AACSm and MDSm using SVM and OVOclassification policyTable 1in Jackknife test for C2191 data setSen (%)MCC (%)Q3 (%)Q9 (%)AACS1Chloropl

19、ast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membraneVacuoleAACS4Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membra

20、neVacuoleMDS1Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins PeroxisomePlasma membraneVacuoleMDS4Chloroplast Cytoplasm CytoskeletonEndoplasmic reticulumExtracellular Golgi apparatus Lysosome Mitochondria Nucleus proteins Per

21、oxisomePlasma membraneVacuole-59.387.250.036.770.112.051.432.182.722.292.433.3-80.088.844.138.876.824.056.838.184.922.293.841.7-72.489.344.142.969.232.059.539.384.925.994.129.2-80.090.250.040.875.032.056.842.984.625.995.337.5-0.610.720.660.490.650.300.610.460.720.430.850.45-0.800.750.640.590.710.420

22、.610.500.760.430.900.54-0.760.750.640.580.680.530.680.500.730.470.890.39-0.820.760.680.590.720.560.620.550.770.510.910.5378.0-81.7-80.9-82.7-54.4-58.8-58.6-60.8-例如 MDS4 的總預測精度 Q3 為 82.7%,比未分段MDS1 提高 1.8 個百分點,內(nèi)容平衡精度指數(shù) Q9 為60.8%,比未分段 MDS1 提高 2.2 百分點;葉綠體的 MDS4 敏感性和 MCC 相關(guān)系數(shù)分別為 80.0%和0.82,比未分段 MDS1 分別提高

23、 7.6 個百分點和0.06。但分段情況下,有些類別的敏感性和 MCC相 關(guān) 系 數(shù) 卻 出 現(xiàn) 下 降 現(xiàn) 象 , 例 如 細 胞 骨 架(cytoskeleton)、 內(nèi) 質(zhì) 網(wǎng) (endoplasmic reticulum) 和溶酶體 (lysosome),這可能與訓練樣本數(shù)較少 有關(guān),訓練集中的細胞骨架、內(nèi)質(zhì)網(wǎng)和溶酶體的樣本數(shù)分別為 34、49、37。一般來說,訓練樣本數(shù)少,不能給分類器提供充分的訓練信息,使得預測 結(jié)果不穩(wěn)定,會出現(xiàn)個別評價指標下降現(xiàn)象。為了驗證分段偽氨基酸組成成分特征提取方法 的泛化能力,我們采用 Chou 和 Shen 構(gòu)建的更為 嚴格的數(shù)據(jù)集 CS2423,該數(shù)

24、據(jù)集包含 16 類蛋白質(zhì)亞細胞定位,且任意兩條序列的一致性小于 25%。采 用 支 持 向 量 機 算 法 和 “一 對 一 ” 分 類 策 略 ,Jackknife 檢驗下,分段偽氨基酸組成成分特征提取法的預測結(jié)果如表 2 所示。Performance comparisons of different sequence-segmented PseAACmethodsusing SVMandOVOTable 2classification policy in Jackknife test for CS2423 data setAACS1AACS4MDS1MDS4MSES1MSES4THS1TH

25、S4Q3 (%)Q9 (%)48.329.752.631.950.430.353.332.151.731.155.632.951.431.754.531.9表 2 結(jié)果表明分段偽氨基酸組成成分特征提取方法的預測性能優(yōu)于相應的未分段偽氨基酸組成成 分特征提取方法。4 段矩描述子偽氨基酸組成成分的 Q3 和 Q9 值比未分段矩描述子偽氨基酸組成成分 分別提高 2.9 和 1.8 個百分點;4 段多尺度能量偽氨基酸組成成分的 Q3 和 Q9 值比未分段多尺度能量 偽氨基酸組成成分分別提高 3.9 和 1.8 個百分點。另外 MDSm 特征向量集涉及殘基間的長程作用信 息,而 MSESm 和 THSm

26、 特征向量集不僅包含殘基 間的長程作用信息,且包含殘基的物理化學特征信息,因而 MSESm 和 THSm 的 Q3 值大于 MDSm。 綜上所述,分段偽氨基酸組成成分特征提取方法的預測性能優(yōu)于未分段偽氨基酸組成成分特征提 取方法,即使類別間的樣本數(shù)量存在不均衡性,該 方法的預測性能仍然較優(yōu)。另外表 1、2 的結(jié)果還說明蛋白質(zhì)分段序列可能與蛋白質(zhì)的功能域有一定的關(guān)系,基于分段偽氨基酸組成成分特征提取方法 構(gòu)建的特征向量集包含更多的蛋白質(zhì)亞細胞定位 信息。2.2與其它方法比較采用 C2191 數(shù)據(jù)集,Jackknife 檢驗下,不同方法的預測結(jié)果列于表 3。從表 3 可以看出分段矩描述子偽氨基酸組

27、成成分的預測結(jié)果明顯高于現(xiàn)有 其它方法的預測結(jié)果。例如 4 段矩描述子偽氨基酸 組成成分的總預測精度比 Xiao 等人19的復雜性度 量與自相關(guān)函數(shù)相結(jié)合預測方法提高了 9.1 個百分 點。從而表明本文提出的分段偽氨基酸組成成分特 征提取方法可有效地應用于蛋白質(zhì)亞細胞定位 預測。Table 3 Performance comparisons with other methods using the same data set C2191 in Jackknife testChous1Pans18Xiaos19Gaos20Jiangs21MDS4Q3 (%)73.067.773.669.971.

28、882.7Chou 和 Shen 采用數(shù)據(jù)集 CS2423,基于功能注釋數(shù)據(jù)庫 (Gene ontology,GO),用兩性偽氨 基酸組成成分特征提取方法及證據(jù)理論 K 近鄰分 類器融合算法對蛋白質(zhì)亞細胞定位進行了預測, Jackknife 檢驗下取得了 81.6%的預測結(jié)果,此預測結(jié)果的獲得大部分應歸功于 GO 特征方法。但是由于 GO 數(shù)據(jù)庫的有限性,并不是每一個蛋白質(zhì)亞細 胞定位序列都能在 GO 數(shù)據(jù)庫中找到其相應的功能 注釋,對這些在 GO 數(shù)據(jù)庫無法發(fā)現(xiàn)其相應注釋的 蛋白質(zhì)亞細胞定位,Chou 和 Shen 采用兩性偽氨基酸組成成分表示進行預測2。本文提出分段偽氨基酸組成成分表示這部

29、分蛋白質(zhì)亞細胞定位,預測性 能優(yōu)于 Chou 和 Shen 的兩性偽氨基酸組成成分方 法,THS4 的 Q3 值為 54.5%,比 Chou 和 Shen 的方 法 THS1 提高了 3.1 個百分點。若將我們提出的分 段偽氨基酸組成成分方法和 Chou 和 Shen 的 GO 方法結(jié)合,預測蛋白質(zhì)亞細胞定位,一定能取得較 理想的效果。的特征向量不僅包含殘基之間的位置信息,而且還包含蛋白質(zhì)子序列之間的耦合信息。與現(xiàn)有的基于 完整蛋白質(zhì)序列的偽氨基酸組成成分特征提取方法 相比,即使類別間的樣本數(shù)量存在不均衡,該方法 的預測性能仍然較優(yōu),其原因在于蛋白質(zhì)分段子序 列可能和蛋白質(zhì)的功能域有一定的聯(lián)系

30、。本文方法 可與 Chou2的 GO 方法及其它方法互為補充,能成 功地應用于蛋白質(zhì)亞細胞定位、膜蛋白質(zhì)類型等其 它蛋白質(zhì)屬性預測研究。分段段數(shù)對預測精度影響為了研究分段段數(shù)對預測結(jié)果的影響,采用 C2191 數(shù)據(jù)集,Jackknife 檢驗下,不同分段段數(shù) m 對分段氨基酸組成成分 (AACSm)和分段矩描述子 偽氨基酸組成成分 (MDSm)二種特征提取法的預 測結(jié)果見圖 1。2.3參考文獻:1Chou KC. Prediction of protein cellular attributes usingpseudo-amino acid composition. Proteins: Str

31、ucture, Function, and Genetics, 2001,43:246255Chou KC, Shen HB. Predicting eukaryotic protein subcellular location by fusing optimized evidence-theoretic K-nearest neighbor classifiers. Journal of Proteome Research, 2006,5(8):18881897Chou KC, Shen HB. Review: recent progresses in protein subcellular

32、 location prediction. Analytical Biochemistry, 2007,370:116Du P, Li Y. Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various234physicochemical features of segmented sequence.Bioinformatics, 2006,7:518BMC5Mundra P, Kumar M, Kumar KK, Jayaraman VK, K

33、ulkarniBD. Using pseudo amino acid composition to predict protein subnuclear localization: approached with PSSM. Pattern Recognition Letters, 2007,28:16101615Shi JY, Zhang SW, Pan Q, Cheng YM, Xie J. SVM-basedmethod for subcellular localizationof proteinusing multi-scale energy and pseudo amino acid

34、 composition. Amino Acids, 2007,33(1):6974Shi JY, Zhang SW, Pan Q, Zhou GP. Using pseudo aminoacid composition to predict protein subcellular location:67approached with amino acid composition distribution.Acids, 2008, DOI 10.1007/s00726-007-0623-zAmino從圖 1 可以看出,分段段數(shù) m 對預測結(jié)果有一定的影響,總預測精度隨分段段數(shù) m 的變化呈 波

35、動趨勢,因而有一個最佳 m 值的選取問題。對 于 C2191 數(shù)據(jù)集,Jackknife 檢驗下,分段數(shù) m=4時,分段氨基酸組成成分 (AACSm)和分段矩描述子偽氨基酸組成成分 (MDSm)二種特征提取法有較好的預測結(jié)果。針對不同數(shù)據(jù)集及采用的分段偽氨基酸組成成分特征提取方法,可通過試驗選取最 佳 m 值。8Shi JY, Zhang SW, Liang Y, Pan Q. Prediction of proteinsubcellular localizations using moment descriptors and support vector machine. In: Rajap

36、akse JC, Wong L, Acharya R (eds). Pattern Recognition in Bioinformatics. LNBI 4146, Berlin Heidelberg: Springer, 2006. 105114Zhang SW, Zhang YL, Li JH, Yang HF, Cheng YM, Zhou9GP.A new hybrid approach to predict subcellularlocalization by incorporating evolutionary information. In: LiK, Li X, Irwin

37、GW, He G (eds). Life System Modeling andSimulation. LNBI 4689, Berlin Heidelberg: Springer, 2007.172179Zhang SW, Zhang YL, Yang HF, Pan Q. Prediction of結(jié)論310subcellularlocalizationbyincorporatingevolutionaryinformation and von Neumann entropies. Amino Acids, 2007,DOI: 10.1007/s00726-007-0010-9施建宇, 潘

38、 泉, 張紹武, 程詠梅. 基于氨基酸組成分布的蛋白本文提出一種分段偽氨基酸組成成分特征提取方法用于蛋白質(zhì)亞細胞定位預測,基于該方法構(gòu)成11質(zhì)同源寡聚體分類研究. 生物物理學報, 2006,22(1):495512 Pu X, Guo J, Leung H, Lin Y. Prediction of membrane protein types from sequences and position-specific scoring matrices. Journal of Theoretical Biology, 2007,247(2):25926513 Mundra P, Kumar M,

39、 Kumar KK, Valadi K. Using pseudoBiology, 2003,35:12561262Pan YX, Zhang ZZ, Guo ZM, Feng GY, Huang Z, He L. Application of pseudo amino acid composition for predicting protein subcellular localization: stochastic signal processing approach. Journal of Protein Chemistry, 2003,22:395402Xiao X, Shao SH

40、, Ding YS, Huang ZD, Huang Y, ChouKC. Using complexity measure factor to predict protein subcellular localization. Amino Acids, 2005,28:576118amino acid composition tolocalization: approached withLetters, 2007,28(13):16101615predictPSSM.proteinPatternsubnuclearRecognition1914 Vapnik V. Statistical l

41、earning theory. New York: Wiely, 199815 王明會, 李 驁, 謝 丹. 蛋白亞細胞定位的預測方法研究. 北 京生物醫(yī)學工程, 2006,25(6):64965716 李鳳敏, 李前忠. 革蘭氏陰性菌中蛋白質(zhì)亞細胞定位預測. 內(nèi) 蒙古大學學報(自然科學版), 2007,38(1):394320 Gao Y, Shao SH, Xiao X, Ding YS, Huang YS, Huang ZD,Chou KC. Using pseudo amino acid composition to predict protein subcellular locali

42、zation: approached with Lyapunov index, Bessel function, and Chebyshev filter. Amino Acids,2005,28:37337621 姜小瑩, 李曉波. 基于偽氨基酸和支持向量機的蛋白質(zhì)亞細胞 定位預測. 廣西農(nóng)業(yè)生物科學, 2006,25(4):34937417 Zhang CT, Zhang R.a content-balancing accuracy indexto evaluate algorithms of protein secondary structure prediction. The Inte

43、rnational Journal of Biochemistry and CellQ9,PREDICTION OF PROTEIN SUBCELLULAR LOCALIZATIONUSING A NOVEL FEATURE EXTRACTION METHOD: SEQUENCE-SEGMENTED PSEUDO AMINO ACID COMPOSITIONYANG Hui-fang, CHENG Yong-mei, ZhANG Shao-wu, PAN Quan(College of Automation, Northwestern Ploytechnical University, Xi!

44、an 710072, China)Knowing the protein subcellular localizations is important because it can provide usefulAbstr act:insights about the protein functions, as well as how and in what kind of cellular environments theproteins interact with each other and with other molecules.A novel feature extraction method: sequence-segmented pseudo amino acid composition (PseAAC) has been developed to predict protein subcellular localizations for the two databases (C2129, CS2423) which were first constructed by Cho

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論