基于生物信息學的功能蛋白基因序列分類研究_第1頁
基于生物信息學的功能蛋白基因序列分類研究_第2頁
基于生物信息學的功能蛋白基因序列分類研究_第3頁
基于生物信息學的功能蛋白基因序列分類研究_第4頁
基于生物信息學的功能蛋白基因序列分類研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中國科技論文在線基于生物信息學的功能蛋白基因序列分類研究基金項目:國家自然科學基金項目(60805011);教育部博士點基金項目(200800191028) 陳婷婷1,郭婷婷2,李林1,安冬1作者簡介:陳婷婷(1986年生),女,中國農(nóng)業(yè)大學信息與電氣工程學院研究生,主要研究方向:生物信息學通信聯(lián)系人:安冬(1977年生),女,副教授,主要研究方向:生物信息學. e-mail: andong國家自然科學基金項目(60805011);教育部博士點基金項目(200800191028)1.5china agriculture university, beijing 100083;n

2、ational maize improvement center,beijing 100094;china agriculture university, beijing 100083;china agriculture university, beijing 100083中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083;中國農(nóng)業(yè)大學玉米改良中心,北京 100094;中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083;中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083100083;10008313466313430;1336688340613466313430京市海

3、淀區(qū)清華東路17號中國農(nóng)業(yè)大學東校區(qū)242信箱;北京市海淀區(qū)清華東路17號中國農(nóng)業(yè)大學東校區(qū)63信箱chentt64;hellogtt;lilincau;andong陳婷婷(1986年生),女,中國農(nóng)業(yè)大學信息與電氣工程學院研究生,主要研究方向:生物信息學;安冬(1977年生),女,副教授,主要研究方向:生物信息學陳婷婷;郭婷婷;李林;安冬chen tingting;guo tingting;li lin;an dong安冬1.51*|*專著*|*durbin r, eddy s, krogh a, mitchison g. biological seque

4、nce analysis.cambridge: cambridge university press, 2000.|1|陳婷婷|chen tingting|中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083|china agriculture university, beijing 100083|陳婷婷(1986年生),女,中國農(nóng)業(yè)大學信息與電氣工程學院研究生,主要研究方向:生物信息學|北京市海淀區(qū)清華東路17號中國農(nóng)業(yè)大學東校區(qū)242信箱|100083|chentt6413466313430<cr>|2|郭婷婷|guo tingting|中國農(nóng)業(yè)大學玉米

5、改良中心,北京 100094|national maize improvement center,beijing 100094|hellogtt|<cr>|3|李林|li lin|中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083|china agriculture university, beijing 100083|lilincau|<cr>*|4|安冬|an dong|中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083|china agriculture university, beijing 100083|安冬(1977年生),女,副教授,主要研究方向:生物信息

6、學|北京市海淀區(qū)清華東路17號中國農(nóng)業(yè)大學東校區(qū)63信箱|100083|andong13366883406基于生物信息學的功能蛋白基因序列分類研究|bioinformatics-based functional classification of protein sequences|國家自然科學基金項目(60805011);教育部博士點基金項目(200800191028)- 5 -(1. 中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083;2. 中國農(nóng)業(yè)大學玉米改良中心,北京 100094)摘要:生物信息學最首要的任務(wù)是從大量的生物信息數(shù)據(jù)中提取有價值的知識,在生物信

7、息學中用未知功能的序列與已知功能的序列進行比較來預(yù)測未知功能序列的功能,是發(fā)現(xiàn)知識的一種常用的手段。本文主要是采用blast算法對植物病毒編碼的運動蛋白基因序列和衣殼蛋白基因序列進行序列比對,在比對的結(jié)果距離矩陣上,用主成分分析方法提取5維特征向量,最后用支持向量機建立兩類蛋白基因序列的分類模型并驗證模型效果,驗證樣本的正確識別率和正確拒識率都能達到80%或更高。關(guān)鍵詞:生物信息學;序列比對;主成分分析;支持向量機中圖分類號:q811.4bioinformatics-based functional classification of protein sequenceschen tingtin

8、g1, guo tingting2, li lin1, an dong1(1. china agriculture university, beijing 100083;2. national maize improvement center,beijing 100094)abstract: bioinformatics sciences most important duty is to withdraw the valuable knowledge from the massive biology information data. scientists carry on the comp

9、arison with the unknown function sequences and the known function sequences to predict the function of sequences of unknown function, is a common means to explore knowledge in the bioinformatics. we use blast algorithm to alignment sequences that the gene sequences of plant virus-encoded movement pr

10、oteins and coat proteins in this paper, then use principal component analysis to extract five feature vectors based the results of the distance matrix which we get after sequences alignment, and finally use support vector machines to build classification model for the two types of proteins gene sequ

11、encing categorize and validate the results of classification model, the correct recognition rate and rejection rate of the classification model can reach 80% or higher, this methods are more suitable for the classification of the two tapes proteins.key words: bioinformatics; alignment; pca; svm0 引言隨

12、著生物技術(shù)的飛速發(fā)展,近年來分子數(shù)據(jù)庫急劇擴增,如何利用信息技術(shù),根據(jù)生物序列快速、高通量的預(yù)測序列功能是一個重要問題,生物序列分析因此得到了迅速發(fā)展。在生物信息學中用已知功能的dna序列與未知功能的dna序列進行比較分析來預(yù)測未知功能的dna序列可能具有的功能是生物信息學中的一種常用的手段。通過比較未知和已知功能的dna序列,根據(jù)相似性推斷未知功能序列是否具有已知功能序列的功能,作為生物信息學的基礎(chǔ)研究,最基本的方法就是dna序列比對,生物信息學的需要推動了序列比對各種算法的大量產(chǎn)生和迅速發(fā)展。最常用的生物序列分析方法是序列比對1,2,它的基本思想是,通過將比較的序列分別以單行形式對應(yīng)堿基排

13、列列出,通過插入空位等方法,盡可能序列中相同列的地方具有相同或相似的特征,根據(jù)一定的算法得到打分數(shù)值,通過比較打分數(shù)值的方法來判斷功能的相似性。根據(jù)同時進行比對的生物序列的數(shù)目,序列比對可分為雙序列比對和多序列比對。用于雙序列比對的算法主要包括動態(tài)規(guī)劃算法、fasta算法和blast算法,多序列比對最常用的算法是漸進比對方法。這些方法已經(jīng)在生物信息的研究中有著廣泛的應(yīng)用。本文實驗選用植物病毒編碼的運動蛋白(movement protein, mp)序列和衣殼蛋白(coat protein, cp)序列,選用常用的雙序列比對方法blast算法進行序列比對,得到比對結(jié)果距離矩陣,在距離矩陣的基礎(chǔ)上

14、,采用主成分分析方法(principal component analysis, pca)對序列進行特征提取,經(jīng)驗證,實驗最佳結(jié)果是選用5維特征,最后用支持向量機(support vector machine, svm)建立mp堿基序列和cp堿基序列的分類模型并對模型進行驗證。實驗結(jié)果表明,測試樣本的正確識別率和正確拒識率都能達到80%以上,表明實驗采用的方法較適合植物病毒編碼的mp序列和cp序列的分類。1 方法與材料1.1 blast算法3兩序列比對可分為全局比對與局部比對。全局比對是考慮兩個序列之間的全局相似性,典型的算法有needleman-wunsch算法3,該算法適合于全局水平的相似

15、性程度較高的兩個序列。局部比對算法的基礎(chǔ)是smith-waterman算法,該算法較適用于親源關(guān)系較遠,整體上不相似,而在較小局部區(qū)域中存在局部相似性的兩個序列。由于蛋白質(zhì)具有模糊性質(zhì),極可能由于外顯子的交換而產(chǎn)生新的蛋白質(zhì),因而局部比對有時會更合理。典型的局部比對算法有smith-waterman,fast7,和blast算法等4。smith-waterman算法的基本思想是,使用迭代方法計算出兩個序列的相似分值,存入一個評分矩陣,根據(jù)評分矩陣,以及動態(tài)方法回溯,尋找最優(yōu)比對序列。由pearson和lipman提出的fasta算法,是一種經(jīng)改進的兩序列啟發(fā)式算法。在此基礎(chǔ)上,altschul

16、等人提出的blast算法。該算法是目前國際廣泛采用的高效和敏感性較好的算法。它的基點是序列片段對概念,所謂序列片段對是指兩個給定序列中的一對子序列,它們的長度相等,且可以形成無空位的完全匹配。本文選用blast算法進行序列比對。1.2 主成分分析(principal component analysis,pca)5pca主要用于數(shù)據(jù)降維,對于一系列樣本的特征組成的多維向量,多維向量里的某些元素本身沒有區(qū)分性,比如某個元素在所有的特征中都為1,或者與1差距不大,那么這個元素本身就沒有區(qū)分性,用它做特征來區(qū)分,貢獻會非常小。所以我們的目的是找那些變化大的元素,即方差大的那些維,而去除掉那些變化不大

17、的維,從而使特征留下的都是“精品”,而且減少計算量。對于一個k維的特征來說,相當于它的每一維特征與其他維都是正交的(相當于在多維坐標系中,坐標軸都是垂直的),那么我們可以變化這些維的坐標系,從而使這個特征在某些維上方差大,而在某些維上方差很小。例如,一個45度傾斜的橢圓,在第一坐標系,如果按照x,y坐標來投影,這些點的x和y的屬性很難用于區(qū)分他們,因為他們在x,y軸上坐標變化的方差都差不多,我們無法根據(jù)這個點的某個x屬性來判斷這個點是哪個,而如果將坐標軸旋轉(zhuǎn),以橢圓長軸為x軸,則橢圓在長軸上的分布比較長,方差大,而在短軸上的分布短,方差小,所以可以考慮只保留這些點的長軸屬性,來區(qū)分橢圓上的點,

18、這樣,區(qū)分性比x,y軸的方法要好。所以我們的做法就是求得一個k維特征的投影矩陣,這個投影矩陣可以將特征從高維降到低維。投影矩陣也可以叫做變換矩陣。新的低維特征必須每個維都正交,特征向量都是正交的。通過求樣本矩陣的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征向量,這些特征向量就可以構(gòu)成這個投影矩陣了。特征向量的選擇取決于協(xié)方差矩陣的特征值的大小。1.3 支持向量機(support vector machine, svm)6,7支持向量機(svm)是一種學習算法,它可以自動尋找那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可將類之間的間隔最大化,因而有較好的推廣性能和較高的分類準確性。svm的關(guān)鍵

19、在于核函數(shù)。低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間。但這個辦法帶來的困難就是計算復(fù)雜度的增加,而核函數(shù)正好巧妙地解決了這個問題。也就是說,只要選用適當?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù)。在svm理論中,采用不同的核函數(shù)將導(dǎo)致不同的svm算法。本文選用的核函數(shù)為最常用的線性核函數(shù)。2 實驗結(jié)果與討論本實驗從genbank(/)數(shù)據(jù)庫中下載了62條植物病毒編碼的運動蛋白(mp)的cds序列和62條病毒編碼的衣殼蛋白(cp)的cds序列。這些植物病毒,選用植物病毒科屬種分類中重要的植物病毒屬及典型種,如,馬鈴薯y病毒屬(potyvir

20、us)是植物病毒中最大的一個屬隸屬于馬鈴薯y病毒科。實驗中,分別選取52條mp序列和52條cp序列進行建模,剩余的10條mp序列和10條序列cp進行驗證,建模集即訓練樣本,驗證集即測試樣本,實驗序列分配如表1所示。表1 實驗數(shù)據(jù)tab. 1 experimental data樣本訓練樣本/條剔除異常樣本后訓練樣本/條測試樣本/條mp525110cp524810注: mp是運動蛋白,cp是衣殼蛋白實驗采用blast算法對序列進行序列比對,pca算法對訓練樣本序列進行特征提取,測試樣本序列投影到訓練樣本pca空間,最后用svm建立分類模型并進行結(jié)果統(tǒng)計,具體步驟:1) 在matlab中采用seqp

21、dist函數(shù)對所有mp和cp序列進行兩兩比對得出距離矩陣,距離矩陣為124*124方陣,每個數(shù)據(jù)為兩序列間的距離,分數(shù)越小表示序列的相似度越高,對角線自身距離為0。每一行表示每一條序列樣本。2) 分析訓練樣本(52條mp和52條cp)的距離矩陣,剔除了兩類樣本中的異常樣本。3) 對訓練樣本進行pca,提取特征向量,選用前5維特征向量建立5為空間。4) 將測試樣本投射到建成的訓練樣本空間。5) 采用svm建立分類模型,并對測試樣本進行結(jié)果統(tǒng)計,svm采用osu_svm的matlab工具箱,使用線性核函數(shù)對測試樣本的結(jié)果進行統(tǒng)計。6) 隨機挑選樣本,重復(fù)1-5實驗3次。圖1 mp和cp分類及驗證的

22、pca二主元圖fig. 1 mp and cp classification and validation of the pc1 and pca2 圖1為本實驗三組隨機實驗中的第一組實驗的pca圖,圖中綠圈表示建模集中的51條mp序列,紅圈表示建模集的48條cp序列,綠表示驗證集的mp序列,紅表示驗證集的cp序列。圖中畫出的是mp序列和cp序列建模集pca第一組元pc1和第二組元pc2的分類圖,可以看出在pca第一主元pc1和第二主元pc2的分類圖中,訓練集mp和cp的分界線一部分較為清楚,另一部分有所重疊,mp的測試集在圖

23、中能較為完好的投影到訓練集空間中,而cp的測試集有一部分落到訓練集空間,有一部分落到訓練集mp和cp的重疊空間。pca的二維圖,只能定性的表現(xiàn)cp和mp分類及驗證結(jié)果,并且只有顯示二維特征,為了更為直觀的觀察mp和cp分類和驗證的結(jié)果,實驗采用支持向量機建立模型并且驗證測試結(jié)果,本實驗的svm算法采用osu_svm的matlab工具箱,使用線性核函數(shù)。經(jīng)實驗驗證,選用pac5維特征向量時,分類結(jié)果最好,所以以下svm結(jié)果統(tǒng)計選用5維數(shù)據(jù)。表2 svm實驗分類驗證結(jié)果tab. 2 experimental results of svm classification&

24、#160;validation實驗mp分類正確識別率/%cp分類正確識別率/%平均值/%110010010028080803907080注: 1,2,3為隨機試驗中的三組實驗從表2可以看出,采用blast算法對mp序列和cp序列進行序列比對,在比對結(jié)果距離矩陣的結(jié)果上采用pca提取5維特征向量,用svm建立分類模型,分類模型的三組驗證實驗結(jié)果,正確識別率和正確拒識率的平均值都能達到80%或更,采用的方法適合mp序列和cp序列的分類。3 結(jié)論本文給出了blast算法、pca和svm,并通過這些方法建立了植物病毒編碼的運動蛋白基因序列和衣殼蛋白基因序列的分類模型,并對模型進行了驗證,經(jīng)驗證,這些方法使用于這兩種蛋白基因序列的分類。序列比對是生物信息學的一個基礎(chǔ)而又重要的問題,也是生物信息學中的一大難題。目前,人們已提出了大量的序列比對方法。本文采用blast算法進行序列比對,實驗結(jié)果表明blast算法能適合植物病毒編碼的運動蛋白和衣殼蛋白堿基序列的分類。兩序列比對是現(xiàn)有的序列比對方法的基礎(chǔ),有很多學者在序列比對方提出了改進方法或新方法,如果采用其它的序列比對方法對植物病毒編碼的蛋白堿基序列進行比對或序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論