2012年數(shù)學建模競賽_第1頁
2012年數(shù)學建模競賽_第2頁
2012年數(shù)學建模競賽_第3頁
2012年數(shù)學建模競賽_第4頁
2012年數(shù)學建模競賽_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(由填寫題 要對未注釋DNA編碼區(qū)預測進行了建模,實現(xiàn)和分析。DFT變換;信噪比算法把加窗處理和平均處理結合起來,大大加快計算速度。同時推導得出:Z-curve映射下的頻譜和信噪比分別算??傉_率3指標分析不同閾值確定方法的判別效果,確定了的最優(yōu)的閾值3:單一的固定窗口的功率譜圖或是移動序列的信噪比曲線圖在識別針對問題4:總結出以下幾種能夠識別編碼序列的特征指標,分別為“非[]:識別功率譜信噪比閾值3-周期特性聯(lián)合識一:問題的重 .-4四問題分析與求解----4類外顯子、內含子信噪比的統(tǒng)計分析.............................................-10-- --一:問題DNA是脫氧核糖核酸的簡稱,是絕大部分生物遺傳信息的化學載體。一個DNA鏈可分為和間隔區(qū)。可分為外顯子和內含子。外顯子就是的問題。預測問題的一類方法是基于統(tǒng)計學的,另一類方法是基于信號處理與DNADFT的總體計算量仍很比的某種快速計算方法。探討Z-curve映射的頻譜與信噪比和Voss映射下的目前,識別方面的多數(shù)算法結果還不能很充分的探測尚未被批注釋的、DNA6個未被注釋的DNA序列的編碼區(qū)進行預測,并對此法的準確率做出適當評估。除頻譜或信噪比這樣單一的判別特征外,總結并提出一些識別編碼序列二:模型三:符號說Voss映射下的信噪FPNS四問題分析與Vossxbybzb分別表示各核苷酸b35,8,…位置上分別出現(xiàn)的頻數(shù)。其中bI,I{A,T,G,C},有如下:P[N] N2

N

2n2n

j2n

Ub[3

ub[n]

ub[n]ej

j2

b b b

xye3ze

(x2y2z2x

xzyz 1/y} 1/y}

XTbbb 1/21/ 1z b

(4-(4- bbXxyz bbNEP(k)k

(4-EENN2NNXTP(N/ R 加功能,可使信噪比計算工作量銳減[2]Voss序列{ub[n]}ub[0],ub[1L,ub[N1]bI)IA,TGC}。將序列分成若干段。分段時,可使各段之間有,進而減小方差。例如NL段,各段之間50%,則各段信號由m=2N(L+1)個采樣點組成。DNA

(4- A,T,G,C,UxjVossDNAx(nN,滑動窗口在x(nMDFT變換定義如下M

(4-MX(m)@X(m,L)x(nm)eP=3xmnxmnX(m

(4-223 X(m)x(3nr)ej2r/3Xe r0 ej2/3 ej4 l

l l lXl

Sv(m)XAmXCmXGm lml2 lml

(4-

222

lmq2

(4- Sv(m)1/2XlmrXlmq lFMX(m)x(n)ej2nnM M2xA(n)xG(n)ej2n/3ej2n/

(4-n n ej2r Voss可

r

Gmr2r2r

rr

qXq

Gmq

(4-r Sz(m)2XAmrXlmrXAmqXlmq lFr~

FC,G,T ~2Sz(m)4Sv(m)4XAmrXAmqXAmrXAmq ~2r 對上式進行化簡,[XAr+XGr+XCr+XTr]等于窗口中出現(xiàn)子第r位置之和。因

Sz(m)4Sv 由(4-18)可見,Z-curve映射下的頻譜Sz(m)是Voss映射下的頻譜Sv4 x[n]11uA[n]12uC[n]13uG[n]14 u u[n]u[n]u 31 32 33 34其中uA[nuC[n]uG[n]uT[nn0,1,...N1DNAVoss變換的四 14uy[n] 24 ,n0,1,...N z[n] uG 34u[n] F T ij 2 3Ti)i(1i4),2c,其中c

i,j(1i,j4,i

ijc2,這里SRc1c2R4 Sc3 c31R4

3I R4Z-curve映射下的信噪比S與Voss映射下信噪比I之間的關系為 3Ir[n]1uA[n]2uC[n]3uG[n]4uT[n],n0,1...N 根據(jù)文獻[2]DNAA、C、GNANCNGNT。對于式(4-23)所示的一維映射,DNA序列的信噪P(N/ (X2X3X4X)TM(X2X3X4XR E/ N4N9N XXX N

N

, M

and

N/

3

3

N/

1/21/M1/ 1/ 1/21/ 1 而X1,X2,X3,X4為出現(xiàn)在三種子位置上的四種核苷酸的出現(xiàn)頻率矢量。表

(X,X,X,X)

(4- zT T(X2X3X)TM(X2X3XR N4N9N 4類外顯子、內含子信噪比的統(tǒng)計分DNA序列的信噪比值的大小,既表示頻譜峰值(PeakValue)的相對高度,也=2一般不具有該性質?,F(xiàn)有的對外顯子信噪比特性研究的一些文獻[2,5]中,信噪然而在實驗中發(fā)現(xiàn),這一經驗值R0=2雖然可以區(qū)分出蛋白編碼區(qū)和非編碼區(qū),但100200個哺乳動物類序列的外顯子(1264個)和內含子(962個)的信噪比,詳見附錄A。利用SPSS統(tǒng)計分析軟件統(tǒng)計、分析,結果詳見表4-1。表4-1四類外顯子、內含子信噪比均值和標準差統(tǒng)RR差RR差人3注:數(shù)據(jù)源自著名的生物數(shù)據(jù)出現(xiàn)出現(xiàn)頻數(shù)1123456789信噪00.20.40.60.811.21.41.61.822.22.42.6信噪外顯子(小家鼠外顯子(小家鼠123123456789外顯內內含子(小家鼠.20.40.60.811.21.41.61.822.22.42.6信噪內含由表4-1可見,盡管上述研究的生物種類均為哺乳類生物,但其信噪2,但其外顯子分布于[0,2]458218,占其總數(shù)的55.38%和61.1%,因此,對基于閾值的外顯子判別方法而言,對特定的基DNA序列上部分或全部外顯子片段已知。其中,文獻[3]DNA序列實驗觀測閾值,而文獻[2]DNA序列內含子、外,00

maxsgn(R(1)R)sgn(R i st aR0

(4-=2常滿足的特性,而內含子則一般不具有該性質。即在外顯子、內含子信噪比樣本集上,優(yōu)化模型求得使判別正確率達到最大的閾值解R0。序列作為實驗材料。因為所給樣本序列中都明確標出了外顯子和內含子的具置,具備該方法樣本數(shù)據(jù)獲取的要求。上述方法的實現(xiàn)采用C#工具實現(xiàn),具體源代碼詳見附錄B。P(N/ XT①依據(jù)4.1.1節(jié)中信噪比快速算法利用R

(類)S1,同理建立內含子信噪比樣本,記為集合S2。比閾值,詳見表4-2。表4-2四類最優(yōu)信噪比閾值確定結人(homo小家鼠(mus褐家鼠(rattus R0R≥R0作為外顯子的判據(jù),R<R0則 SnT

(4-

S T 總正確率Ac

ASn

(4-maxAcf(R0 DNAAcf(R0曲線,找出maxAcR0。優(yōu)化模型本質也是求得使判別正確率達到最大的閾值解R0。(a) (b)小家褐家 (d)哺乳動物R0即為最優(yōu)閾值。且當樣本數(shù)據(jù)較多時,該類DNAAcf(R0曲線是較為平滑的,如表(b)、(d)所示。根據(jù)4.2.2節(jié)所定義的閾值判別效果評價指標Sn、SP、Ac,對按照信噪比特征將4-3人676注:表中鼠類包括小家鼠和褐家法確定的閾值的判別總正確率Ac越高。越多,則專一性SP越大。針對某一特定生物(如小家鼠)時,判別結果的敏感性較強,即Sn類數(shù)據(jù)的判別正確率Ac統(tǒng)計如表4-4、4-5所示4-42人2324人個數(shù)較少,即敏感性Sn較小,這是由于上述類別中外顯子信噪比大于2的較小,詳見圖4-1、4-2。盡管如此,以2為信噪比閾值判別的總正確率Ac因為上述4類生物中內含子信噪比較小,幾乎全部小于2,進而使得專一性SP正確率;②最優(yōu)化方法所確定的閾值均小于2,這是由上述各類內含子、外顯子文獻[4,5],當外顯子長度較短時,判斷正確率較低。我們對200個DNA827個外顯子信噪比進行統(tǒng)計分析,并按照長度將外顯子外顯子,用優(yōu)化方法13類外顯子的正確率統(tǒng)計如表4-6所示。13當編碼序列中堿基在子三個位點上的分布比較均勻時,也易產生分DNA序列的堿基組成和分布,所編碼蛋白質氨基酸的選用和順序以及同的DNA分類識別誤判。最常用的方法有固定長度滑動窗口上頻譜曲線的識別方法。外顯子片段具但此法的缺點是由于DNA隨機噪聲的存在,功率譜圖兩端的識別度很差。另一種較常用的方法為基于DNA序列上“移動序列”信噪比曲線的識別方由于題中所給出的是完整的序列,因此第一段外顯子應以啟動子開物工具箱的sequenceviewer實現(xiàn)。DNA序列的三周期特性,是由于自然界的蛋白質對氨基酸的使用偏好,造成不同位置上堿基種類的不均衡造成的。是一種統(tǒng)計學的規(guī)律。對于較短的片段,這種統(tǒng)計學規(guī)律表現(xiàn)不明顯,本問所探討的提高端點識別的方法,僅適用于堿基數(shù)較多的外顯子片段(一般大于200。下面以題目附件中所給的100組數(shù)據(jù)中的第52號為例,對該方法進3圖4- 固定長度滑動窗口的頻譜pp(n;M)曲線(mus 3圖4-5DNA移動序列其指示序列的信噪比曲線(musmusculus,AF042783)9781347-再根據(jù)功率譜圖和移動信噪比曲線,可知,6229824-7(a)中雖出現(xiàn)終止子,但是在982之前,則此范圍縮減為978-982。而題目中給出的此段外顯子的范圍為仍會有部分偏移,以及預測的地方。特別是長度較短的外顯子片段。 圖4-7終止子出現(xiàn)的位置示意圖圖4-8 Gene1的預測結果圖4-9Gene2的預測結果圖4-10Gene3的預測結果圖4-11Gene4的預測結果圖4-12Gene5的預測結果圖4-13 Gene6的預測結果且1的識別外顯子片段為1109-1547,2595-2914,3175-3453,3651-4439-4706,4的識別外顯子的片段為1385-1778,2536-3003,3071-4775-5332,5441-5861.5識別外顯子片段為1099-1367,2903-3380,7931-比如4的最后一個外顯子片段,有可能是因為2,3中的外顯子片段相對較短,所以不能有效辨識。在一中初始識別第一段為1123,根據(jù)sequenceviewer,修正為1109。由于篇幅問題,其他修正均不一一。采用頻譜或信噪比這樣單一的判別特征,是影響、限制識別正確率的一個有一定的關系。一般的,當序列中A+T含量比較高,堿基在子三個位點上的4.2.4節(jié)中所得分析結果(4-6)是一個文獻[5]253-對啤酒酵母細胞所有的研究發(fā)現(xiàn):對于四種核氨酸而言,在編碼區(qū),各項的分標HI,來研究外顯子與內含子的序列特征。通過推廣HI參數(shù),定義指標R,尋找外顯子和內含子片段組合的特性,為新的預測奠定基礎。 HI

pl

(4-l1 其中p1,2,3,44Npl為第個子序列中第種堿基的概率。n

4plp2

HIi1l1

Npl Nl1 Ni表示第i個子序列的長度,pi1,2,3,4)表示第i個子序列中4的概率。其中i1,2,nNN1N2Nn。外顯子與內含子的指標R值分布有明顯的區(qū)別,且隨著n的增加,區(qū)別越來越明顯。同時可以看到,對于相同的片段數(shù)n(nnenoR值分布圖中最概然 指標Rmax在no大時隨ne或no的變化靈敏與ne大時隨ne或 關系都可以看到,外顯子片段數(shù)ne和內含子片段數(shù)no都對Rmax有影響,后者影考文YinC,YauS.Predictionofproteincodingreg

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論