幾種DNA序列譜分析方法的比較_第1頁(yè)
幾種DNA序列譜分析方法的比較_第2頁(yè)
幾種DNA序列譜分析方法的比較_第3頁(yè)
幾種DNA序列譜分析方法的比較_第4頁(yè)
幾種DNA序列譜分析方法的比較_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、E E Q N S咅土LMEJeiXL 匸幾種DN序列譜分析方法的比較肖靜,朱義勝(大連海事大學(xué)信息工程學(xué)院,116026,遼寧大連)摘要 本文在對(duì)DNA序列數(shù)值化的基礎(chǔ)上,對(duì)DNA序列進(jìn)行了直接傅立葉變換,自相關(guān)函數(shù)法的譜分析,和 Wigner-Ville分布方法的時(shí)頻分析,從中得到DNA序列的周期特性,并對(duì)三種方法的性能進(jìn)行了比較。關(guān)鍵詞DNA序列數(shù)值化傅立葉變換自相關(guān)時(shí)頻分析1引言沃森和克里克5于1953年指出攜帶生物遺傳信息的基本物質(zhì)一一脫氧核糖核酸( DNA具 有一種微妙的雙螺旋結(jié)構(gòu),兩條鏈與纖維軸旋轉(zhuǎn)對(duì)稱(chēng)垂直,并呈右手螺旋結(jié)構(gòu)。 這種結(jié)構(gòu)的一個(gè)新特點(diǎn)就是通過(guò)嘌呤和嘧啶堿基將兩條鏈聯(lián)

2、系在一起。一條鏈的堿基與另一條鏈的堿基通過(guò)氫鍵聯(lián)系起來(lái)形成堿基對(duì), 這些堿基對(duì)為:腺嘌呤(A)和胸腺嘧啶(T),鳥(niǎo)嘌呤(G)和胞嘧啶(C)。 這樣,DNA基因長(zhǎng)鏈就可以由 A,T,G,C組成的字母序列來(lái)表征。通過(guò)將該字母序列數(shù)值化,將 生物序列映射為一系列離散的隨機(jī)時(shí)間信號(hào),就可以用數(shù)字信號(hào)處理方法對(duì)離散化時(shí)間序列信號(hào)進(jìn)行譜分析,挖掘信號(hào)的時(shí)頻域特征,從而可以快速的對(duì)基因序列進(jìn)行周期性分析、基因識(shí)別和同源性等方面的分析。本文對(duì)傅立葉變換、統(tǒng)計(jì)相關(guān)譜和時(shí)頻變換在DNA序列周期性分析中的應(yīng)用做了初步探討。所分析的不同長(zhǎng)短的DNA序列都取自SRS6.0的EMBL庫(kù),所列頻譜圖為同一個(gè)長(zhǎng)度為1900b

3、p( base pair,堿基對(duì))的序列在不同分析方法下所得到的頻譜。2序列的頻譜分析DNA序列組成的基因組可分為基因區(qū)和基因間區(qū),基因區(qū)又由外顯子和內(nèi)顯子組成,只有外顯子編碼了蛋白質(zhì), 稱(chēng)為基因序列蛋白編碼區(qū),研究發(fā)現(xiàn)該區(qū)域存在周期 3行為,即其功率譜在1/3頻率處有一譜峰,這和三個(gè)堿基組成一個(gè)密碼子的結(jié)構(gòu)相對(duì)應(yīng),已經(jīng)成為大多數(shù)基因預(yù)測(cè) 算法的基礎(chǔ)。利用傅立葉變換等譜分析方法可以快速得到基因序列的功率譜,進(jìn)而得到基因外顯子位置等局部信息。2.1序列數(shù)值化2要對(duì)DNA序列進(jìn)行分析和研究,首先就需要對(duì)由四種堿基組成的字母序列數(shù)值化,即按照一定的規(guī)則將 DNA序列映射成相應(yīng)的數(shù)值序列,女口RW映射

4、法、RY映射法、A映射法等。本論文選擇復(fù)域映射規(guī)則4,即設(shè)DNA序列為s(n),則按照復(fù)域映射規(guī)則,s(n)可映射為:作者:肖靜,女,大連海事大學(xué)2004級(jí)碩士研究生,朱義勝,男,教授,博士生導(dǎo)師 基金項(xiàng)目:科技部“重大基礎(chǔ)研究前期研究專(zhuān)項(xiàng)”(2005CCA02200)。X1""1"" Illiii""s(n)= As(n)= G s(n ) = T s(n)= C(1)其中n= 1,.,N,x( n)表示表示DNA序列在位置n的相應(yīng)符號(hào)的映射值。這樣DNA字母序列就 映射成為了采樣頻率為1Hz的時(shí)間離散序列。采用復(fù)域的映射規(guī)則可以減

5、少序列的直流分量,使交流分量性質(zhì)更加突出。2.2頻譜分析本文比較三種方法得到了序列的頻譜, 以驗(yàn)證編碼序列所具有的周期 3特性,并在此基礎(chǔ)上 對(duì)三種方法做了比較。這三種功率譜分析方法分別是對(duì)序列直接做離散傅立葉變換(FFT),對(duì)序列自相關(guān)函數(shù)進(jìn)行傅立葉變換以及對(duì)序列進(jìn)行時(shí)頻分析中的Wigner分布方法?;蛑械鞍踪|(zhì)編碼區(qū)的外顯子具有周期3特性,而內(nèi)顯子不具有該特性,這是由于在密碼子轉(zhuǎn)變成氨基酸過(guò)程中存在著編碼傾向性。所謂的周期3特性,即在序列的頻譜在 1/3bp-1處存在一個(gè)峰值。周期3特性在大部分蛋白質(zhì)編碼序列中存在,但也有很多序列存在其他數(shù)值的周期特性或者根本沒(méi)有周期特性。2.2.1快速傅

6、立葉變換法10該方法是在基因序列數(shù)值化的基礎(chǔ)上,直接對(duì)離散時(shí)間序列進(jìn)行離散傅立葉變換,求其功率譜。對(duì)于長(zhǎng)度為N的序列x(n),其傅立葉變換為:jknN ,k = 0,1,",N - 1N-1_X k= "x(n)en=0其功率譜為S(k)=|xk由序列的傅立葉變換的性質(zhì)可以得到該功率譜具有對(duì)稱(chēng)性。計(jì)算某DNA序列的功率譜如圖1所示??梢悦黠@得到 1/3處的功率譜峰值,該峰值即顯示了序列中編碼區(qū)外顯子的位置。但該 方法得到的功率譜中仍然有較大的其他次峰值存在,這就容易對(duì)1/3峰值的確定造成干擾。3 -mJ 上 転R. *v rr 藝戈K ID10直接傅立葉所得頻譜0.05D.

7、50.30 350.4Frequency/bp5 .5n圖1直接FFT方法得到的頻譜圖2.2.2自相關(guān)函數(shù)方法1992年發(fā)現(xiàn)在DNA序列中存在幕律相關(guān)性后,開(kāi)始在 DNA序列分析中應(yīng)用自相關(guān)函數(shù)。根據(jù)自相關(guān)函數(shù)的傅立葉變換等于原信號(hào)幅度頻譜的平方的性質(zhì),可以求得數(shù)值序列x(n)的自相關(guān)函數(shù),然后對(duì)該自相關(guān)函數(shù)做快速傅立葉變換,得到序列的功率譜。即若對(duì)于離散時(shí)間序列,其離散傅立葉變換為:Xk=DFT(x(n)則DFT(R(m) = |X k =S(k)(5)其中1 NR(m) =”x(n )x( n + m)N n=1為x(n)的自相關(guān)函數(shù)。使用Matlab求得某DNA序列

8、的自相關(guān)函數(shù)后進(jìn)行快速傅立葉變換即得到序列的功率譜如 圖2所示。在對(duì)一定數(shù)量 DNA序列進(jìn)行分析比較后可以看到,自相關(guān)函數(shù)方法得到的功率譜在 低頻處數(shù)值較小,性能較好,但是高頻處特別是1/3峰值附近干擾仍然較多。# J0.050.10.15D.20 25030 35040.4505iFrequency/bp自相關(guān)方祛所得頻譜4 5 3525153.2 ro. mpnuuffsEivpffidw#圖2自相關(guān)方法得到的頻譜圖2.2.3 WVD 分布(Wigner-Ville Diversion )方法Wigner于1932年首先提出了 Wigner分布的概念,1948年,首先由Ville把它應(yīng)用于

9、信號(hào)分 析,因此,Wigner分布又稱(chēng)為 Wigner-Ville分布,簡(jiǎn)稱(chēng)為 WVD。之后數(shù)十年的研究也取得了 豐碩成果,在已提出的各種時(shí)-頻分布中,WVD具有最簡(jiǎn)單的形式,并具有很好的性質(zhì)。根據(jù)WVD的頻率邊緣性質(zhì),即 WVD沿時(shí)間軸的積分等于在該頻率處的瞬時(shí)能量,可以求得序列的 頻譜。對(duì)于信號(hào)x(t),其自WVD分布定義為:Wx(t, Q)= /x(t+ T2)x* (t- T2)e-jt(7)若令rx,y(t,r) = x(t+ T2)y?(t - t2)(8)則ooWx,y (t, Q)二 JO rx,y(t, Te-j “ dT(9)可見(jiàn)WND變換是一種依賴(lài)于時(shí)間t的特殊傅立葉變換

10、,它在時(shí)域和頻域都有著很好的對(duì)稱(chēng)性以及能量分布性質(zhì), 在這里我們利用 WVD的頻率邊緣特性來(lái)對(duì) DNA序列進(jìn)行頻譜分析,即:+o2(10)OWx(t, Q)dt = |x( Q)利用Matlab對(duì)DNA序列進(jìn)行時(shí)頻分析后可以得到序列的頻譜如圖3所示。在對(duì)一定數(shù)量DNA序列進(jìn)行分析比較后可以看到,時(shí)頻分析方法得到的頻譜在整個(gè)頻域都具有很好的噪聲擬制性能,1/3峰值更容易識(shí)別。WVD方法所得頻諾0.150.2D.250.30.350.40.4505Frequency/bp255csuun 上CJBds墨o-JIo.圖3 WVD方法得到的頻譜圖243實(shí)域映射規(guī)則的譜分析在編程過(guò)程中,也使用了實(shí)數(shù)的映

11、射規(guī)則,即對(duì)于長(zhǎng)度為N的DNA序列,若位置n處為字符a,則Xa (n) ( n二1 N )取值為1,否則為零;同理可得 xt(n), xg (n), xc(n)。它們的傅立葉變換分別為 XAk,XTk,Xck,XGk。則信號(hào)頻譜為:Sk? |XAk +|XTk|2 +|XCk|2 +|XGk|2(11)但是用這種映射關(guān)系作出的頻譜譜峰和同一序列在復(fù)域映射條件下所作頻譜譜峰相比很不明顯,如圖4所示。這是因?yàn)楫?dāng)序列中的堿基都被映射為1時(shí),增加了序列的直流分量而消弱了交流分量,減弱了序列的局部特征。而復(fù)域的映射規(guī)則則能夠更好的反映原序列具有的所特征。QD5 0.1 D 15020 25030.36

12、Q.A 0.450.5Frequencyftp實(shí)域映射時(shí)所得頻譜55545 3 5251s1 .口MprilJLJCTe 芝 ErutJsdGCa吉0_.#圖4實(shí)域映射下的頻譜#3結(jié)論首先,從實(shí)域映射規(guī)則和復(fù)數(shù)域映射規(guī)則下的頻譜比較可以看出,復(fù)數(shù)域映射規(guī)則無(wú)論是在零頻位置處還是在1/3bp-1處的譜峰性能都要遠(yuǎn)遠(yuǎn)優(yōu)于實(shí)域下的映射規(guī)則。這是因?yàn)閷?shí)域映射規(guī)則中DNA映射為數(shù)值序列時(shí),其直流分量被增大了,而交流分量被消弱了。其次,分析四種方法得到的頻譜圖,在1/3bp-1處都有一個(gè)峰值。這就是所謂的周期三行為。 比較可見(jiàn),自相關(guān)方法和 WVD方法得到的頻譜噪聲要比直接對(duì)序列進(jìn)行傅立葉變

13、換方法得到的 頻譜噪聲小,且自相關(guān)方法在低頻處有很好的抑噪性能,而WVD方法在高頻處表現(xiàn)良好。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn):DNA序列的長(zhǎng)度需要為3的倍數(shù),否則其頻譜將不表現(xiàn)周期三特性或者噪聲很大,且該特點(diǎn)對(duì)直接FFT方法影響明顯,對(duì) WVD方法也稍有影響,對(duì)自相關(guān)函數(shù)方法影響不大;其次,序列越長(zhǎng),周期三特性就明顯,即序列越長(zhǎng),它在1/3bp-1位置處具有較高譜峰的概率就越大。相關(guān)文獻(xiàn)也指出,長(zhǎng)編碼序列一般都有周期三特性,同時(shí),無(wú)周期三特性的 編碼多為短序列。雖然在我們的分析中WVD方法并沒(méi)有表現(xiàn)出最好的性能,但WVD分布在DNA序列中的成功應(yīng)用,為我們提供了一種新的DNA譜分析的很好的辦法,加上WVD分

14、布在時(shí)域和頻域都有著很好的對(duì)稱(chēng)性以及能量分布性質(zhì)的特性,改進(jìn)其算法,WVD分布分析方法有望在DNA外顯子,內(nèi)顯子,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等更多領(lǐng)域取得更好的性能表現(xiàn)。參考文獻(xiàn)1 唐煥文,靳利霞.生物信息學(xué)的產(chǎn)生、發(fā)展及應(yīng)用前景J.洛陽(yáng)師范學(xué)院學(xué)報(bào).2001;2:133136.2 饒妮妮,麗君.DNA序列數(shù)值映射方法的研究J.生物醫(yī)學(xué)工程學(xué)雜志.2005;22:681685.3 崔光照,曹祥紅,王延峰,張勛才.生物信息學(xué)中的數(shù)字信號(hào)處理方法研究J.科學(xué)技術(shù)與工程 2005;5(20):14941502.4 王宏漫,歐宗瑛.一種新的DNA序列映射規(guī)則及其分析應(yīng)用J.信號(hào)處理.2002.04;18(2):1

15、33136.5 J.D.沃森,劉望夷等譯.雙螺旋一一發(fā)現(xiàn)DNA結(jié)構(gòu)的故事M.科學(xué)出版社.1984.8.張靜石秀凡.不具有3-堿基周期性的編碼序列初探J.生物化學(xué)與生物物理進(jìn)展.2002;29(2):2672727 符維娟,汪源源.譜分析在DNA序列中的應(yīng)用J.上海生物醫(yī)學(xué)工程.2003;24:18228 宗孔德,胡廣書(shū).數(shù)字信號(hào)處理M.北京:清華大學(xué)出版社,1988.48559 Dimitris Anastassiou. Frequency-domain analysis of biomolecular sequencesJ. Bioinformatics. Vol 16, 2000,1073

16、1081.10 P.P.Vaidyanathan, Byung-Jun Yoon. Digital filters for gene prediction applicationsJ. IEEE.2002,307310.11 Dimitris Anastassiou. Genomic Signal Processing. IEEE signal processing magazineJ. July.2001,820.12 P.P.Vaidyanathan. Genomics and Proteomics:A Signal Processor' s TourJ. IEEE circuit

17、 and system magazine.2004,629.7The Spectrum An alysis of DNA Seque neeXiao Jing, Yi-Sheng Zhu(College of In formation Engin eeri ng, Dalia n Maritime Un iversity, 116026, Dalia n)Abstract To find out the periodicity characters of DNA seque nee, the spectrum of DNA seque nee is an alyzed by Fourier tran sform, Autocorrelat

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔