2012年全國(guó)數(shù)學(xué)建模競(jìng)賽優(yōu)秀選_第1頁(yè)
2012年全國(guó)數(shù)學(xué)建模競(jìng)賽優(yōu)秀選_第2頁(yè)
2012年全國(guó)數(shù)學(xué)建模競(jìng)賽優(yōu)秀選_第3頁(yè)
2012年全國(guó)數(shù)學(xué)建模競(jìng)賽優(yōu)秀選_第4頁(yè)
2012年全國(guó)數(shù)學(xué)建模競(jìng)賽優(yōu)秀選_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(由填寫(xiě)“第九屆 杯”研究生數(shù)學(xué)建模競(jìng)“題 序列表示及識(shí)別方法研 要本文就DNA序列表示及識(shí)別算法實(shí)現(xiàn)的相關(guān)問(wèn)題進(jìn)行了研究,取得針對(duì)Voss映射,給出了計(jì)算序列功率譜或信噪比的快速FourierAR模型,仿真實(shí)驗(yàn)結(jié)果表明,計(jì)算效率有所提升。經(jīng)過(guò)理論關(guān)系,即為SNR-FRNARNCRNGRNT 利用該,計(jì)算功率譜與信噪比將不再需要離散Fourier變換等計(jì)算DNA序列中核苷酸出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),然Ez4ERzZ-curveVoss映類(lèi)的生物推測(cè)其最佳閾值。模型能夠針對(duì)不同生物的結(jié)構(gòu)特征,中所給的人和鼠類(lèi)生物預(yù)測(cè)的最佳閾值為1.7773200個(gè)哺乳動(dòng)物類(lèi)的預(yù)測(cè)的最佳閾值為2.18。在合理確定窗口大小的基礎(chǔ)上,利用該最佳閾值能顯著提高基于功率譜分析方法的預(yù)測(cè)精度,同時(shí)還可用來(lái)預(yù)測(cè)該生物目前尚未標(biāo)注確認(rèn)的其它。針對(duì)識(shí)別算法的設(shè)計(jì)與實(shí)現(xiàn)問(wèn)題,本文首先利用基于A(yíng)R模型重采樣的預(yù)測(cè)方法對(duì)附件中給出的6個(gè)未被注釋的DNA序列的編碼區(qū)域進(jìn)行了預(yù)測(cè)。然后,結(jié)合數(shù)字濾波器與信噪比快速計(jì)算,提出了一種基于SNR-F的識(shí)別模型。該模型克服了現(xiàn)有Fourier方合有助于提高預(yù)測(cè)的精度,同時(shí)使后期識(shí)別更具有針對(duì)性。針對(duì)目前常用的識(shí)別算法對(duì)特征選取的性,建立了識(shí)別特征的動(dòng)態(tài)篩選模型。該模型在訓(xùn)練中充分選取的多類(lèi)特征作為選和組合提高了識(shí)別算法的合理性和信息利用率,預(yù)測(cè)精度達(dá)到98%以上,高于已有算法的預(yù)測(cè)精度。Z-曲線(xiàn)的提出表明利用幾何工具可以有效地分析DNA序列,受此啟線(xiàn)”圖的DNA序列突變分析模型,為檢測(cè)突變提供模型基礎(chǔ)。隨著人類(lèi)組計(jì)劃的順利完成,識(shí)別已成為生物信息學(xué)中最基礎(chǔ)、最首要的問(wèn)題。本文就識(shí)別方法的相關(guān)問(wèn)題進(jìn)行了深入探討,提出了一些新的思路,期待有益于識(shí)別領(lǐng)域的后續(xù)研究。:識(shí)別,功率譜,信噪比 模型,閾值,重采一、問(wèn)題背DNA是生物遺傳信息的載體,DNA序列由腺嘌呤(AdenineA鳥(niǎo)嘌(Guanine,G(Ctosine,C苷酸(nucleotide)符號(hào)按一定的順序連接而成。其中帶有遺息的DNA片(Gene有些則參與調(diào)控遺息的表現(xiàn)。在真核生物的DNA序列中,通常被劃(Exon(IntronDNA序列,怎么去識(shí)別出其中的編碼序列(即外顯子最首要的問(wèn)題。在目前預(yù)測(cè)研究中,采用信號(hào)處理與分析方法來(lái)發(fā)現(xiàn)DNAVoss映射,可以發(fā)現(xiàn),對(duì)于同3-周期性而內(nèi)含子沒(méi)有。頻譜峰值特征的發(fā)現(xiàn),或者頻譜與信噪比概念的引入,有助于探測(cè)、預(yù)報(bào)一個(gè)尚未被注釋的完整的DNA序列的所有編碼序列(外顯子)片段。已經(jīng)有一些研究者提出了識(shí)別的算法,目前利用信噪比的識(shí)別算法通常有兩種:固定長(zhǎng)度窗口滑動(dòng)法和移動(dòng)二、模型假三、符號(hào)說(shuō)FFT:快速Fourier變換ub[n]:DNA指示序列Ub[k:Fourier變換序列P():功率譜函數(shù)2a*aH(z):系統(tǒng)轉(zhuǎn)移四、問(wèn)題一模型的建立與求問(wèn)題一對(duì)于很長(zhǎng)的DNA序列,在計(jì)算其功率譜或信噪比時(shí),離散Fourier變換(DFT)的總體計(jì)算量仍然很大,會(huì)影響到所設(shè)計(jì)的識(shí)別算法的效率。能否對(duì)Voss映射,探求功率譜與信噪比的某種快速計(jì)算方法?在識(shí)別研究中,為了通過(guò)引入更好的數(shù)值映射而獲取DNA序列Voss映射外,實(shí)際上人們還研究過(guò)許多不同的數(shù)Z-curveZ-curve映射的頻譜與信噪比和Voss映射下的頻譜與信噪比之間的關(guān)系;A0,C1,G2T3,也給出功率譜與信噪比的快速計(jì)算?問(wèn)題分析對(duì)Voss映射,功率譜與信噪比的快速計(jì)算方法是多種多樣的,從思,F(xiàn)ourierAR模型,算法效率信噪比的計(jì)算,建立功率譜、信噪比與DNA序列中核苷酸出現(xiàn)的頻次之間DNA序列中核苷酸出現(xiàn)的頻次之間的關(guān)系?;诖?,4.44.5Z-curveVoss映射的關(guān)系及實(shí)數(shù)映射下功率譜與信噪比的快速計(jì)算。Fourier要對(duì)DNA的指示序列做離散Fourier變換(DFT)NUb[k]

j2N k0,1,,N 但是,上述DFT的計(jì)算量太大,很難高效進(jìn)行識(shí)別。因此,本文首先一種新的變換,而是Cooley和Tukey于1965年計(jì)算DFT的一種快速算法,此算法將DFT的運(yùn)算量減少了幾個(gè)數(shù)量級(jí)。在利用DFT計(jì)算式(4.1)時(shí),算出全部N點(diǎn)Ub[k]共需次N2復(fù)數(shù)乘法和N(N1)N2成正比的,DFT直接變換的計(jì)算復(fù)雜度是O(N2FFT的基本思想是將大點(diǎn)數(shù)的DFT分解為若干個(gè)小點(diǎn)數(shù)DFT的組合,從而減少運(yùn)算量。FFT可以計(jì)算出與DFT直接計(jì)算相同的結(jié)果,但只需要O(NlogN的計(jì)算復(fù)雜度。通常,F(xiàn)FTN能被因數(shù)分解,但不是所有的快速的計(jì)算復(fù)雜度降至O(NlogN),從而相應(yīng)提高了功率譜與信噪比的計(jì)算效率。FFT計(jì)算的相關(guān)函數(shù)。利用2011a,本文對(duì)題目中的酵母DNA序列頻譜3-k0處(實(shí)際上,此處的數(shù)值在信號(hào)處理與AR參數(shù)譜估計(jì)的主要方法有最大熵譜分析法(AR模型法)、Pisanko諧波分解法、Pron提取極點(diǎn)法、Pron譜線(xiàn)分解法以及pon最大似然法等。其中R模型應(yīng)用較多,具有代表性。AR模型的表ARMA模型[1]功率譜的數(shù)學(xué)表達(dá)式為 P(ej)2|1bejk |1aejk k k其中2P(eja和b ARMA模型的參數(shù)b1b2bp0,就演化為AR模型P(ej)2|1aejk kp P(ej)2|1bejk k

在實(shí)際中,AR模型的參數(shù)估計(jì)比較簡(jiǎn)單,對(duì)其有比較充分的研究,而對(duì)對(duì)功率譜及信噪比的快速計(jì)算采用AR模型。ARAR模型的參數(shù)和激勵(lì)白噪聲序列的方差。目前,AR模型中參數(shù)的提取算法有很多,主要包括自相關(guān)法、Burg算法、協(xié)方差法、改進(jìn)的協(xié)方差法,以及最大似然估計(jì)法等。ARAR模型的差px(n)ap,ix(ni)

ap,ii0,1,,ppARH(z) 11aPx(k) ki

pa p,i ,mRx(m) a

p,i ,m rx,x rx,x 1 2 a 0 x,x 1

ap0 x,xAR模型參數(shù)的求解——自相關(guān)法(Levenson-Durbin遞推法1N

|e(n)|21N

|x(n)

ax(ni) x(n的數(shù)據(jù)區(qū)在0nN1p個(gè)預(yù)測(cè)系數(shù),N過(guò)沖激響應(yīng)為ap,ii0,1,p的濾波器,輸出預(yù)測(cè)誤差e(nN+P,1

21

|e(n) | ap,i

i)

N的數(shù)據(jù)。用式(4.11)對(duì)系數(shù)ap,i的實(shí)部和虛部求微分的方法使預(yù)測(cè)誤差功率最小,得到 r?x,x(p1) r? r?(0) r?(p r? x, x, x, r?(p1)r?(p2) ap,p

x,

x, x,

r?(m)r?(m)

0,1,,

x,

rr

mp1,p2,,Yule-WalkerLevenson-Durbin遞推法,這是一Lenvinson-Durbin算法是從低階開(kāi)始遞推,直到p階,給出了每一階次

AR

r(k)

(kl)/ kk k1,l kk l ak k k,kk1,k

2(1| |2) k k由k1開(kāi)始遞推,遞推到kp,依次得到{a,2},{a, , {ap,1,

, ,2}AR模型的各個(gè)系數(shù)ap,ii0,1,,pp, 白噪聲方差2后,代入信號(hào)功率譜的p, 11PP(ejω)2|H(ejω)|2

式(4.16)222 將減少或者不變,為此要求ak,k1,ak,k稱(chēng)為反射系數(shù)。另外,遞推提供遞推到M階時(shí),預(yù)測(cè)誤差滿(mǎn)足允許的值,停止遞推,選AR模型的階數(shù)為M這種遞推法效率高,且當(dāng)階數(shù)變化時(shí),無(wú)需從頭計(jì)算。利用遞推法計(jì)4.1x(n),1nNNNpYP1(ej)w結(jié)p1ap,i2p,p22 1k0,1,2,,p p,pp1, 2?r(pi)ap,圖4.1基于遞推法計(jì)算功率譜的流程3AR模型參數(shù)的求解——(Burg)遞推關(guān)法不同,它是使序列x(n)的前后向預(yù)測(cè)誤差功率之和fb

{|e

(n)|2

|

(n) r2r22 1,1x,xr?(1)/r?(0), Nn(1)利用初始條件ef(n)x(0)ef(n)x(0) N

kpN

en

(n)eb*(n

(|ef(n)|2|eb(n n ()x(n的自相關(guān)函數(shù)rxx

2|x(n|, rxx(0)2N(1|k|2)(1|k|2)r? ef(n)ef(n)keb(n)np1,p2,,N p

e(n) (n1)k*

(n)np,p1,,N p1前向預(yù)測(cè)誤差ef(n與后向預(yù)測(cè)誤差ef(n,然后由式(4.19)估計(jì)出反射系數(shù)k1

am,kam1,kkmam1,mkam,mkm fb(1k

的遞推關(guān)系,求出階次m2時(shí)的AR模型參數(shù) , 以及fb 重復(fù)上述過(guò)程,直到階次mpAR模型pAR模型的輸入白噪聲方差2BurgAR ppppN021N0eb(n)0ef(n)x(n0nNY輸出ai1,2,3,p; )wp1ap,ieji2結(jié)結(jié)以不受此限制。這是因?yàn)閷?duì)于給定的N點(diǎn)有限長(zhǎng)序列x(n),雖然其估計(jì)出的自釀酒酵母ATP1a的長(zhǎng)度為1638的序列進(jìn)行仿真,基于Lenvinson-Durbin遞推算法的AR模型算法程序運(yùn)行結(jié)果見(jiàn)圖4.3,基于Burg遞推算法的程AR4.4。x4

BurgPsdPowerPowerSpectral210

x

3PowerPowerSpectral210 從圖4.3和圖4.4可看出利用本文給出的計(jì)算序列的功率譜及信噪比的快速算法對(duì)編號(hào)為AB304259.1的酵母DNA序列進(jìn)行識(shí)別,發(fā)現(xiàn)在頻率Lenvinson-Durbin遞推算法與基于Burg遞推算法計(jì)算出的信噪比3.77644.1Lenvinson-DurbinBurg遞推算法消耗的時(shí)間分別為0.011和0.038。AR模型法AR模型法在功率譜的計(jì)算上顯示出了優(yōu)越性。ARAR模型的固定長(zhǎng)度滑動(dòng)窗口功率譜的識(shí)別算法及移動(dòng)序列功率譜的識(shí)別算法,源代碼見(jiàn)附錄二。我們?nèi)〈翱陂L(zhǎng)度為99,下圖為人和鼠類(lèi)第19個(gè)和第23個(gè)樣本的序列,使用固定長(zhǎng)度滑動(dòng)窗口功率譜的識(shí)別圖和移動(dòng)序列功率譜的識(shí)別結(jié)果,圖中粗9876543210 210 10 我們給出的基于A(yíng)R模型的固定長(zhǎng)度滑動(dòng)窗口功率譜的識(shí)別算法及移動(dòng)序列功率譜的識(shí)別算法均能很好進(jìn)行識(shí)別。但對(duì)于很短的外顯子序列,如第23個(gè)樣本,固定長(zhǎng)度滑動(dòng)窗口功率譜的識(shí)別算法仍具有較高的識(shí)別效果,但移動(dòng)序列功率譜的識(shí)別算法則出現(xiàn)了一些誤判。功率譜與信噪比快速計(jì)算的理論推DNAS的四個(gè)指示序列{ub[n]},bI{A,C,G,T}DNA序列中N,令SA、C、GTDNA序列中出現(xiàn)的次數(shù)分別NANCNGNT,則有如下定理成立。4.1DNA序列S的功率譜序列{P[kP[k]|Ub[k]|2NNbN

Ep[k]NNNNNNNNN kNUb[k]

j2N k0,1,,N N的復(fù)數(shù)序列{Ub[k]}bIN1NNub[n]

j2N n0,1,,N N2

1N ubN

NN

,上式的左邊滿(mǎn)足ub[n2NbN U2 U[k]2N

NANCNGNTNDNAEE|U|2NNNNNNNNN

在DNA序列{S[n]n0,1,2,N1}中,若N為3的倍數(shù),將核苷酸符號(hào)bI{A,T,G,C出現(xiàn)在該序列的0,3,6,...,N-3與1,4,7,…,N-2以及2,5,8,…,N-1xyzN處的總功率譜值

]

x

x

3yz

b b b推論4.1指示序列{ub[n]}的信噪比Rb滿(mǎn)足x2y2z2xyxzyR b b b

b證明:根據(jù)信噪比的定義NRb |U x2y2z2xyxzy b b b(NNb

x2y2z2xyxzy b b b推論4.2DNA序列的信噪比R滿(mǎn)足RNARNCRNGRNT 證明:根據(jù)信噪比的定義N R (x2y2z2x x yz b b b

(x2y2z2xyxzyz b b b NARNCRNGRNTR

鑒于式(4.33)在簡(jiǎn)化信噪比計(jì)算方面的重要意義以及其體現(xiàn)了信噪比與DNA序列中核苷酸出現(xiàn)頻次之間的關(guān)系,在此將式(4.33)稱(chēng)為SNR-F,并將其應(yīng)用于后文中的識(shí)別模型的建立與求解中。Voss映射,本文建立了功率譜、信噪比與DNA序列中核苷酸出現(xiàn)的頻次之間的關(guān)系。利用上述關(guān)系,計(jì)算功率譜與信噪比將不再需要離散FourierDNA序列中核苷Z(yǔ)-curveVoss映射的關(guān)表示DNA序列新方法。它從幾何學(xué)的角度,闡述了識(shí)別的新方法。該方法從根本上區(qū)別于以往識(shí)別方法:動(dòng)態(tài)規(guī)劃[7]和隱馬爾可夫模型方法[8]等。并在起始位點(diǎn)識(shí)別、Isochore結(jié)構(gòu)識(shí)別上都有很好的應(yīng)用。Z-curve方法已經(jīng)成射和Voss映射進(jìn)行對(duì)比,從而刻畫(huà)出兩種映射之間更次、更全面的關(guān)系。設(shè) 序列S的四個(gè)指示序列{ub[n]},bI{A,C,G,T}nn0,1,2,N1的累積序列bn(n0,1N1)為bnub[i令x[1]0,y[1]0和z[1]0,以及x[n]x[ x[y[ny[ny[n1]和z[nz[nz[n1],于是得Z-curve映 1 u G 1y[n G 1 u x[n] 0

y[n]

0u[n] z[n] 1 u[n]

PZ[k]X[k]2Y[k]2Z[k] 其中X[k]Y[k]和Z[k]分別表示數(shù)字序列x[n]y[n]和z[n]的離散XX[N32Y[N32Z[N3NRZ

PZ[3]

N其中,E 是Z-curve映射的平均功率譜NzzPz[k]P[k],k0,1,,N

Ez N N N證明EzPz[k4P[k4P[k4Ek k k則

RzR分別為Z-curveVossDNA序列SRz N

N

N

N

N證明Rz

R 噪比和Voss映射下的功率譜與信噪比之間的關(guān)系。Z-curve映射的理論基礎(chǔ)描述中可以看出,ZcurveVoss映射信號(hào)處理與分字母代表四個(gè)堿基,由不同數(shù)量的這母按不同順序排列成一維鏈就構(gòu)成了DNA序列,進(jìn)而形成DNA離散Fourier變換所固有的―柵欄在、及提供計(jì)算機(jī)進(jìn)行快速分析等方面有其不容有它不可克服的嚴(yán)了人腦在模式識(shí)別二是它的―解像力信號(hào)處理與分析、幾何給定的DNA序列唯一決定了x[n]、y[n和z[n的分布;三種分布也唯一決定了DNA序列。x[n]y[n]和z[n]三種分布是相互以下事實(shí)上一種分分布的線(xiàn)形疊加表x[n]表示嘌呤堿基和嘧啶堿基基總數(shù)過(guò)半時(shí),x[n]>0,否則z[n]表示氫鍵堿基和弱氫鍵堿鍵堿基占優(yōu)時(shí),z[n]>0,否則利用幾何學(xué)分析和研究DNA序列的直排列順序的一種嶄像力連續(xù)可調(diào)的優(yōu)從而克服了傳統(tǒng)的表達(dá)DNA序列形式Z-curve是三的曲線(xiàn),它是顯示和分析DNA序列的基本工具,能以直觀(guān)的形式體現(xiàn)出DNA序列的整體特性和局部細(xì)節(jié),而且不論組的序列等步性:兩個(gè)相鄰節(jié)點(diǎn)的坐標(biāo)之差,即x和y,或者等于l,或者等于-l,N1-uve要么趨于0性增長(zhǎng)的函數(shù),urve的終點(diǎn)只與序列的堿基組成有關(guān)而與其排列順序無(wú)關(guān)。實(shí)數(shù)映射下功率譜和信噪比的快速計(jì)算4-D表示,Z-curveDNA3-D表示。事實(shí)上,除了2-D1-D的數(shù)值映射,具體可參見(jiàn)文獻(xiàn)[10]。根據(jù)文獻(xiàn)[10]的分析DNA序列的任意一種數(shù)值映射都可以看作是Voss映射的仿射變換。因此,對(duì)實(shí)數(shù)映射的研究就可以轉(zhuǎn)化對(duì)Voss映射的仿射變換的研究。VossDNA序列S的四個(gè)指示序列{ub[n]}的任意一個(gè)3-D實(shí)數(shù)仿射變換為 r y[n]

u[n]z[n]

RSRVossrT 1

u

uij u(n) 2 1 2 3 4Hr rTij u(n) 2 1 2 3 43 33

u

u(n)G G令核苷酸符號(hào)bI{A,T,G,C0,3,6,...N-31,4,7,…N-22,5,8,…N-1xbybzbX xA xT X

x4

X,X,X,Xz zT z z4 T 4定理4.4當(dāng)矩陣H的列向量滿(mǎn)足如下兩個(gè)條件時(shí):對(duì)任意的i(1i4)||i||c1,其中c1對(duì)任意的i,j(1i,j4,ijiic2,其中,

Rc1c2R4S 處的功 2XN2

22n3NN2n3N x[n]N x[n]

j2n2

N

j2 j

1juj[n]

3

x

1j j 3 3

2 rx

1j

3

zj1j j j1rTXT 1 12其中,M1 121 1 1 2 YN

rTXT 2ZN23

rTXT N N N N 2 PX Y

Z

rTXT S3(1,1,1,1)T

3

3

3

XT 1

XTMX2XTMXXTMX,X,X,X2

1

1 4 3XT 3

XT XTMXXT 4 4XXX

xAxCxGxT yyyy N

zAzCz

zT 3 3 TMXrMX1,X2,X3,X4(1,1,1,1)TMX1X2X3X4 1 N

3 1 12 3 1 1 4

XTMX2XT i

i,j

rFrTrFrTrFrT XMXT XMX 1 i 2 j i r2r2r2||||2c i1,2,3,

r1ir1jr2ir2jr3ir3ji,jc2

i,j1,2,3,4,i(4.50N PS (c1c2)XMXcX T3

i (cc)PN (cc)PN

NES|X(k)|2|Y(k)|2|Z(k)|Nk

1 1|x(n)| |X(k)| NkN N N|X(k)|2N|x[n]|2N|rT(u[n],u[n],u[n],u[n])Tk

N(r2Nr2Nr2Nr2N11 12 13 14NGNTN|Y(k)|2N(r

r2Nr2Nr2Nk

21

22

23

24N|Z(k)|2N(r

r2Nr2Nr2Nk

31

32

33

34

ENcNcNcNcNcN 1 1 1 1 N (cc)PN

NP 3

(cc

P3

(ccNSRS3 NS

2c c1與c244則c13c2。

24i,i2i,j4c112c24 iR4

任意i,j1i,j4dijiaj。特別,當(dāng)ij時(shí),有iaj

2diiN PS3 dij(XiMXjR i,j SN dNdNdNdSN證明:根據(jù)等式(4.45

11

22

33

44 N N N N P S3

X2Y 3 3

Z3

rTXT N T r1Fr1r2Fr2r3Fr3dij(XiMXj

3

i1,jr1ir1jr2ir2jr3ir3ji,jdij(4.53N

i,j1,2,3,ES|X(k)|2|Y(k)|2|Z(k)|2Nd11NAd22NCd33NGd44NTk

N PS3 dij(XiMXjR i,jSN dNdNdNdSN

11

22

33

44在此,以A0,C1,G2,T3為例,給出其信噪比的快速計(jì)算。在此實(shí)數(shù)映射下,根據(jù)定理,信噪比的計(jì)算為PN (X2X3X)M(X2X3XRS NC4NG小AR模型,仿真實(shí)驗(yàn)結(jié)果表明,計(jì)算效率有所提升。經(jīng)過(guò)理論推導(dǎo),建立了DNA序列中核苷酸出現(xiàn)的頻次之間的關(guān)系,計(jì)算功率譜與信噪比將不再需要離散Fourier變換等計(jì)算量較大的運(yùn)算,只需要對(duì)DNA序列推導(dǎo)出了Z-curveVoss映射下的功率譜與信噪比Z-curve映射五、問(wèn)題二模型的建立與求問(wèn)題二對(duì)特定的類(lèi)型的DNA序列,將其信噪比R的判別閾值取為R02,帶有一定的性、經(jīng)驗(yàn)性。對(duì)不同的類(lèi)型,所選取的判別閾值也許應(yīng)該的幾個(gè)序列數(shù)據(jù),另外也給出了帶有編碼外顯子信息的100個(gè)人和鼠類(lèi)的,以及200個(gè)哺乳動(dòng)物類(lèi)的序列的樣本數(shù)據(jù)集合。大家還可以從生物數(shù)據(jù)庫(kù)的數(shù)據(jù),找認(rèn)為具有代表性的序列,并對(duì)每類(lèi)研究其閾值確定方法和閾值結(jié)果。此外,對(duì)按照功率問(wèn)題分析值的設(shè)定是用來(lái)區(qū)分一段DNA序列為蛋白編碼區(qū)還是非編碼區(qū)的重要指標(biāo)。為各類(lèi)不同生物選用同一閾值缺乏合理性,因?yàn)椴煌镉兄煌慕Y(jié)構(gòu)除了不同生物其結(jié)構(gòu)特性的因外,傳統(tǒng)經(jīng)驗(yàn)閾值不具有通用性的其它在本節(jié)中,我們結(jié)合重采樣技術(shù),提出了最佳閾值推斷算法。本文們希望利用這些已標(biāo)注的信息,結(jié)合重采樣算法,為一個(gè)特定的生物推測(cè)方法的預(yù)測(cè)精度,該最佳閾值可用來(lái)預(yù)測(cè)該生物目前尚未標(biāo)注確認(rèn)的其它固定長(zhǎng)度窗口滑動(dòng)功率譜分析方如題目所述,在真核生物的組中,是斷裂的,外顯子在序列中的長(zhǎng)度很短且被大量?jī)?nèi)含子隔開(kāi)。因此,要從真核生物的序列中識(shí)別蛋白編碼區(qū)并定位出起始點(diǎn)是一項(xiàng)重要且具有性的工作?,F(xiàn)在,已經(jīng)有多種生物的工作已經(jīng)完成,這些核酸序列數(shù)據(jù)隱的生命信息,值得進(jìn)行系目前用于預(yù)測(cè)的方法有很多,但它們有各自的使用范圍和適用對(duì)象,并會(huì)產(chǎn)生不同的結(jié)果。主要存在以下問(wèn)題:只能檢測(cè)蛋白質(zhì)編碼,即外顯只能檢測(cè)典型;假,即將編碼區(qū)預(yù)測(cè)為非編碼區(qū);預(yù)測(cè)結(jié)果保守,很難發(fā)現(xiàn)新的;融合化,即將DNA序列上距離過(guò)近的被預(yù)測(cè)成一個(gè)大在諸多從頭計(jì)算的預(yù)測(cè)方法中,基于功率譜分析的預(yù)測(cè)方法是利用蛋的先驗(yàn)信息少,因此面對(duì)世界范圍內(nèi)急劇增長(zhǎng)的組序列,功率譜分析方法可以快速有效的識(shí)別DNA序列中可能的。學(xué)者們認(rèn)為編碼區(qū)的3-周期性特征形成的的部分原因,是由于以三個(gè)核苷酸為子的位置分布不平衡造成酸均勻分布在這三個(gè)子位置。該分布的不平衡的原因是蛋白質(zhì)對(duì)氨基酸組成有偏好,同種氨基酸的同義子使用頻率不同,以及每種氨基酸的子兼并度不同等原因也是形成3-周期性的潛在因素。目前常用的一個(gè)預(yù)測(cè)法為固定長(zhǎng)度窗口滑動(dòng)功率譜分析方法,因此,DNA符號(hào)序列映設(shè)成為四個(gè)二進(jìn)制的數(shù)值序列,并利用先驗(yàn)的知識(shí)選取合適的滑動(dòng)窗寬M。序列的映射規(guī)則為Voss映射。3設(shè)置局部信噪比函數(shù)的閾值R。一般情況下,那些局部信噪比pnM)Rp(nMR 非編碼區(qū),但并不能達(dá)到最好的預(yù)測(cè)精度。由于不同真核生物的結(jié)構(gòu)之間很難為其確定一個(gè)合適的預(yù)測(cè)閾值。顯然,為所有生物選取統(tǒng)一的預(yù)測(cè)閾值更難以取得理想的預(yù)測(cè)結(jié)果。如何利用某一特定的生物根據(jù)其自身結(jié)構(gòu)stanford大學(xué)統(tǒng)計(jì)系教授Efron在總結(jié)、歸納前人研究成果的基礎(chǔ)上提出一種新的統(tǒng)計(jì)方法—Bootstrap方法,重采樣算法是一種基于計(jì)算機(jī)的統(tǒng)計(jì)目前被廣泛應(yīng)用于信號(hào)處理、生物醫(yī)學(xué)工程、圖像處理、模式識(shí)別及控制量的各種值的相對(duì)頻數(shù)。抽樣分布是由總體分布和估計(jì)統(tǒng)計(jì)量所用的計(jì)算重采樣算法方法被應(yīng)用到許多現(xiàn)實(shí)工程領(lǐng)域問(wèn)題中,如生物醫(yī)學(xué)工程、信Xx1x2,xnF中nxi(i12,n是獨(dú)立同分布的隨量。表示來(lái)作為對(duì)未知參數(shù)的一個(gè)估計(jì)。XX中計(jì)算要估計(jì)的參數(shù)?,則要進(jìn)行重采樣過(guò)程,即從原始樣本X中進(jìn)行nX*x*x*,x* estimation樣本含量確定的情況下,準(zhǔn)確度和精密度是的,如果將可信度提的很高,因結(jié)構(gòu)特征所決定的。本文最佳閾值推斷方法的詳細(xì)步驟描述如下:從一個(gè)待預(yù)測(cè)其的生物體中的線(xiàn)粒體或上,隨機(jī)截取段已標(biāo)注的DNA序列,本文給出的算法要求n10對(duì)于每一段已標(biāo)注的DNA序列,運(yùn)用基于A(yíng)R模型法的的功率譜分析方法預(yù)測(cè)其,通過(guò)與已標(biāo)注的進(jìn)行比對(duì),獲得預(yù)測(cè)該段DNA序列的一個(gè)最優(yōu)閾值Ri(i1,2,,n)。由n段DNA序列獲得的最優(yōu)閾值組R1R2Rn},且該樣本含有待估計(jì)的最佳閾值的分布特性, j值的估計(jì)參數(shù)?*j將C 為待估計(jì)的參數(shù)?*計(jì)算1001)%的置信區(qū)間(?,?,其中

C

qCp12由于對(duì)絕大部分生物而言,已有部分已被標(biāo)注,那么方法中所個(gè)生物體中少量已標(biāo)注的先驗(yàn)信息來(lái)構(gòu)建原始的預(yù)測(cè)閾值樣本,再運(yùn)用重采樣算法推斷閾值的置信區(qū)間,最后結(jié)合該生物體的結(jié)構(gòu)分布特征,由置信區(qū)間內(nèi)求得一個(gè)最佳閾值。迄今為止,已經(jīng)有大量生物體的部分被我們利用2011a100個(gè)人和鼠類(lèi)及200個(gè)哺乳動(dòng)物類(lèi)的序列樣本數(shù)據(jù)進(jìn)行了仿真實(shí)驗(yàn),源代碼見(jiàn)nDNA序列中每一段的一個(gè)最優(yōu)閾值。最優(yōu)閾值指DNA序列DNA序列獲得的最123456789(1.6167,1.9379DNA序列,利用固定長(zhǎng)度人和鼠類(lèi)的序列進(jìn)行了檢測(cè)。圖5.1和5.2為人和鼠類(lèi)的數(shù)據(jù)第19和23個(gè)數(shù)據(jù)外顯子的預(yù)測(cè)圖,圖中的粗線(xiàn)為設(shè)定的閾值,閾值以上的部分即為9876543210

876543210 從上圖可知,第19個(gè)數(shù)據(jù)預(yù)測(cè)的外顯子區(qū)間為(664,1700),19個(gè)數(shù)據(jù)的實(shí)際外顯子區(qū)間(675,1847)。第23個(gè)數(shù)據(jù)預(yù)測(cè)的外顯子區(qū)間255P=1.7773,再321 123456789DNA序列,利用固定長(zhǎng)度窗口滑哺乳動(dòng)物類(lèi)的數(shù)據(jù)第1個(gè)數(shù)據(jù)外顯子的預(yù)測(cè)圖,圖5.4為哺乳動(dòng)物類(lèi)的數(shù)76543210

小基于功率譜分析方法的預(yù)測(cè)精度,同時(shí)還可用來(lái)預(yù)測(cè)該生物目前尚未標(biāo)注確認(rèn)的其它。六、問(wèn)題三模型的建立與求問(wèn)題三DNA序列的所有面所列舉的某些識(shí)別算法,由于DNA序列隨機(jī)噪聲的影響等原因,還很對(duì)此,你的建模團(tuán)隊(duì)有沒(méi)有更好的解決方法?請(qǐng)對(duì)所設(shè)計(jì)的識(shí)別算法的準(zhǔn)確率做出適當(dāng)評(píng)估,并將算法用于對(duì)附件中給出的6個(gè)未被注釋的DNA序列(gene6)的編碼區(qū)域的預(yù)測(cè)。問(wèn)題分析區(qū)的識(shí)別率很高,但仍然需要開(kāi)發(fā)新一代的識(shí)別程序,并結(jié)合各種方法提高預(yù)測(cè)的精度。在今后的預(yù)測(cè)中,通過(guò)多種預(yù)測(cè)方法的合理組合,相互取長(zhǎng)補(bǔ)勢(shì)。學(xué)者們相繼了多種提高預(yù)測(cè)精度的概念和方法,大多是將多種預(yù)測(cè)法存在模型限制條件和適用范圍等問(wèn)題,很難獲得理想的結(jié)果,多種預(yù)測(cè)方基于A(yíng)R模型重采樣的預(yù)測(cè)方由于在該算法中,需要先收集已知A序列的一些特征對(duì)閾值進(jìn)行估計(jì),但附件中給出的6個(gè)未被注釋的列并屬類(lèi)只能100200個(gè)哺乳動(dòng)的 外 50個(gè) 50類(lèi) 序列的閾值取其平均值作為6個(gè)未被注釋的A序列的新閾值。我們利用MAAB201軟件進(jìn)行編程,得到新的閾值為1.965,對(duì)個(gè)未被注釋的A序列進(jìn)行了預(yù)測(cè),結(jié)果如下。543210

從上圖可看出第1個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?290,153154321 從上圖可看出第2個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?180,14383210

從上圖可看出第3個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?728,1932(3672,3873543210

從上圖可看出第4個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?615,3331(5578,567043210

從上圖可看出第5個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?259,6547(10243,10357321 10001500200025003000350040004500從上圖可看出第5個(gè)未被注釋的DNA序列的外顯子區(qū)域?yàn)椋?287,1424基于SNR-F的識(shí)別模 算相結(jié)合,提出了一種基于SNR-F的識(shí)別模型。該模型克服了現(xiàn)Fourier方法對(duì)序列長(zhǎng)度的要求,而且易于實(shí)現(xiàn)h(n)e

0nN 這是一個(gè)帶通濾波器,中心頻率023,最小阻帶衰減約13dB。如果把)通過(guò)以上分析可知,設(shè)計(jì)的濾波器是以23Hd(k)Hd(ejw) k0,1,N k然后Hd(k作為實(shí)際數(shù)字濾波器的頻率特性的抽樣H(k,可以用頻域的這N個(gè)抽樣值H(k)來(lái)唯一確定濾波器的單位沖擊響應(yīng)h(n)。根據(jù)序列H(ejw在23為中取N個(gè)采樣點(diǎn),第一個(gè)取樣點(diǎn)在0處。由頻率抽樣理論的內(nèi)插知道,利用這N個(gè)頻域抽樣值H(k)可以求得數(shù)字濾波器的系統(tǒng)函數(shù)H(z)及頻率響應(yīng)對(duì)于較長(zhǎng)的編碼區(qū),比如300bp或者更長(zhǎng)的序列,利用傳統(tǒng)的Fourier變換就能夠較好探測(cè)到頻譜3-周期性,但對(duì)較短的編碼區(qū),比如長(zhǎng)度100bp左出序列功率譜在N/3處的幅值Px(N/3)、Py(N/3)、Pz(N/3)作為算法中延長(zhǎng)打亂ourir方法中采用延長(zhǎng)和打亂的目的是消除噪聲并且放大頻譜3-周期性信號(hào)。但這種方法可以改進(jìn),一方面至少隨機(jī)打亂序列10000次以上實(shí)現(xiàn)3,合延長(zhǎng)打亂Fourier方法的思想,利用SNR-F,本文提出改進(jìn)算法如下:(1)延長(zhǎng)序列。對(duì)于一段較短的DNA序列S(ii(1,M),MX(n){SSSS},n(1,L),LLX(n前面長(zhǎng)度是1024bp的序列作為待處理序列S(n)(2)序列濾波。通過(guò)Z-curve映射將DNA序列S(n)轉(zhuǎn)換為數(shù)字序列Sx(n),Sy(n)和Sz(n)。采用上節(jié)中所設(shè)計(jì)的數(shù)字濾波器,濾除背景噪聲,用濾波Sx(n),Sy(n)Sz(n)進(jìn)行濾波,獲得濾波后的序列xn),y(n)和z(n。(3)功率譜及信噪比計(jì)算。利用(4.23)計(jì)算序列x(n),y(n)和z(n)功率譜Px(N/3)、Py(N/3)、Pz(N/3),利用SNR-F得出DNA序列的信噪比。10000次以上的操作。除此之外,改進(jìn)的方法能夠更好提取編碼區(qū)的頻譜3-于較短序列的預(yù)測(cè)精度有所提高,本節(jié)基于改進(jìn)SNR-F算法的識(shí)算法的思路是:預(yù)先設(shè)定好窗口長(zhǎng)度L,用窗從頭開(kāi)始截取DNA序列,對(duì)于偽正率(falsepositiverate,F(xiàn)PR)是非編碼區(qū)預(yù)測(cè)的錯(cuò)誤率,偽負(fù)率(falsenegativeFNRFN/(TPFN

FPRFP/(TNAp[(1FPR)(1FNR)]/

SnTP/(TPFN SpTP/(TPAc(SnSp)/

CC

AC(ACP0.5) ACP1

TNFP

TNFN表6.1識(shí)別方法對(duì)6傳統(tǒng)SNR-6傳統(tǒng)SNR-傳統(tǒng)SNR-傳統(tǒng)SNR-3傳統(tǒng)SNR-由表6.1可以看出,該方法具有可行性,能夠從序列中探測(cè)出編碼區(qū)和對(duì)genes6中序列的預(yù)

6.7255時(shí)genes6DNA根據(jù)圖6.7所示,在genes6第1個(gè)未被注釋的DNA序列的外顯子區(qū)域應(yīng)為(720,912(1113,145597(7(5320542(9871463(16942021(7370,7685第3個(gè)未被注釋的DNA序列的外顯子區(qū)域(12381946(24903398(4230,4357第4個(gè)未被注釋的DNA序列的外顯子區(qū)域(14391705(26913703(5409,5684第5個(gè)未被注釋的DNA序列的外顯子區(qū)域(12251447(25782694(7008,7453(7608,8309(13884,14891第6個(gè)未被注釋的DNA序列的外顯子區(qū)域應(yīng)為(498,702(1002,1627(3125,3308小在對(duì)問(wèn)題三的解決過(guò)程中,我們采用了兩種不同的方法,預(yù)測(cè)的genes6被注釋的NA序列的外顯子區(qū)域也不相同。但是,從預(yù)測(cè)的結(jié)果不難看出,基于SNF的識(shí)別方法比基于R模型重采樣的預(yù)測(cè)方法預(yù)測(cè)出了的外顯子區(qū)域。其中,前法的預(yù)測(cè)能夠基本覆蓋未被注釋的NA序列的外顯子區(qū)域,而后法預(yù)測(cè)出的外顯子區(qū)域則幾乎可以確定是存在的。因此兩種預(yù)測(cè)方法重合的區(qū)域以及前法獨(dú)立預(yù)測(cè)出的部分區(qū)域應(yīng)當(dāng)是實(shí)際ns6中未被注釋的DN七、問(wèn)題四模型的建立與求問(wèn)題四采用頻譜或信噪比這樣單一的判別特征,也許是影響、限制識(shí)DNA序列而言,其部分編碼序者信噪比顯著性。團(tuán)隊(duì)能否總結(jié),甚至獨(dú)自提出一些識(shí)別編碼序列的“突變”是生物醫(yī)學(xué)等方面的一個(gè)關(guān)注熱點(diǎn)。突變包括DNA與“閾值確定”是為設(shè)計(jì)預(yù)測(cè)算法做準(zhǔn)備的。此外,在最后的延展性研究問(wèn)題分析頻譜或信噪比只是識(shí)別的眾多判斷特征之一。隨著序列研究的不斷發(fā)展,新的識(shí)別的判斷特征不斷被發(fā)現(xiàn);同時(shí),在眾多的判斷特征中,哪些是顯著的,哪些是不顯著的?這兩個(gè)問(wèn)題的解決就要求在應(yīng)用插入等,這類(lèi)似于信息論中的糾錯(cuò)碼理論,頻譜或信噪比方法在檢測(cè)3-周期DNA序列的單點(diǎn)突變方面并沒(méi)有好的效果,Z-曲DNA序列,受此啟發(fā),本文基于改進(jìn)的基于DNA序列的“四線(xiàn)”圖,提出了基于改進(jìn)“四線(xiàn)”圖的DNA序列突變分析模型,為檢測(cè)突變提供一種新的思路。7.1識(shí)別特征的動(dòng)態(tài)篩選模識(shí)別研究中常用的方法有[15]、Wang[16]、Zhang[17]、頻譜[18]等特征一般通過(guò)經(jīng)驗(yàn)或觀(guān)察選取,不一定是組的主特征。但如果將所有的特在此,我們列出了一系列的典型特征,提出了一種特征篩選方法,它能動(dòng)態(tài)的篩選DNA序列編碼區(qū)與非編碼區(qū)主要的特征差異。將的組成特實(shí)際數(shù)據(jù)集的表明,我們方法可以對(duì)編碼區(qū)進(jìn)行有效的識(shí)別??蚣芊椒商崛〕鯫RF(openreadingframe,開(kāi)放閱讀框)片斷,這些片段中有的是ORF,有的是非ORF。假設(shè)對(duì)提取出的ORF,該片段包含足ORF),本節(jié)的識(shí)別就是通過(guò)訓(xùn)練,對(duì)任意給定的待判別ORF,判斷其是編碼ORF還是非編碼ORF序列。,,,A、T、GC的使用頻率。類(lèi)似的,2-3-核苷酸的使用頻率分別用16維和64維向量描述。H p(w)log2

別得到4維、16維、64維和1維向量。將位置在1,4,7,?的核苷酸序列命名為子序列-1,位置在2,5,8,?的核苷酸組成的序列命名為子序列-2,位置在3,6,9,?的核苷酸命名為子序列-3。子序列-1r(1)、m(1)s(1)表示,子序列-2中的嘌呤、氨基、強(qiáng)氫基由r(2)、m(2)s(2)表示,子序列-3中的嘌呤、氨基、強(qiáng)氫基由r(3)、m(3)和s(3)表示。終止子[19]是DNA序列中非常強(qiáng)的信號(hào)。終止子對(duì)編碼區(qū)堿基的在非編碼區(qū)序列中,終止子的含量較高。我們用TAA,TAG或TGA的使用頻率來(lái)描述這一特征。這樣,對(duì)信號(hào)特征我們得到一個(gè)1維向量。71-核苷酸,2-核苷酸,3-核苷酸,6-核苷酸,G+C含量,子頻率和終止子頻率。但這些特征對(duì)D2來(lái)估計(jì),D2越大,判別力也越大。D2計(jì)算每個(gè)類(lèi)的U gg Uk(u1,u2 ),g1, jUgj

l

ug,g1,2,j1,2,,

用Sksk sk (ugu)(ugu),i,j1,2,, g1lk2TSk12k2TSk121D2 1D2

Uk

Uk1 計(jì)算每個(gè)候選特征的MahalonobisD2D2按降序排列組成1 添加特征:假設(shè)我們已選取了k個(gè)特征到集合A,對(duì)隊(duì)列Q中剩下的αAaMahalonobisD2D2D2d(d為k k 集合A,并進(jìn)入步驟(3);否則,選擇集合Q中的下一個(gè)特征并進(jìn)入步驟(2),直到隊(duì)列Q為空,此時(shí)算法終止。刪除特征:假設(shè)步驟(2)中我們向集合A加入了新的特征,對(duì)于集合中的任何其它特征x,依次計(jì)算Aa的Mahalonobis平方距離。如果D2D2dk 核苷酸和終止子使用頻率,分別用9個(gè)元素、1個(gè)元素和1個(gè)元素的向量表示。把它們合成一個(gè)向量uuuu,u)T 輸入:候選特征向量輸出:11111kStep3:D2值最大的特征作為特征集中的初始特征,放入A集合。AaMahalonobisD1k若2D2dαAk Step5:Step4中我們向集A加入了新的特征,對(duì)于集A中的任何其它特征x,依次計(jì)算AaMahalonobis平方距離。若2D2dAxk 為測(cè)試基于動(dòng)態(tài)特征篩選算法的識(shí)別的性能,我們需要構(gòu)建一個(gè)數(shù)據(jù)庫(kù)。S.cerevisiae是第一個(gè)被的真核單細(xì)胞生物,為了方便與已有結(jié)果的對(duì)比,本文使用該組來(lái)構(gòu)建數(shù)據(jù)庫(kù)。S.cerevisiae組中共有16條,全長(zhǎng)12.16Mbp。S.cerevisiae組共包含6449個(gè)ORF,共分為6類(lèi),分別是已知的蛋白相似于或弱相似于已知的蛋白質(zhì)(similarityorweaksimilaritytoknownproteins)、相似于未知的蛋白質(zhì)(similaritytounknownproteins)和強(qiáng)相似于已知的蛋白質(zhì)3410516471820,1003229個(gè)序列。我們選擇第一類(lèi)的3410ORF作為正數(shù)據(jù)集。從16條中選出長(zhǎng)度不小于300bp的間序列300bpDNA序列中,從第一個(gè)堿基開(kāi)始尋找密有的選出的序列中隨機(jī)挑出3410條作為負(fù)數(shù)據(jù)庫(kù)。Fisher判經(jīng)過(guò)特性篩選之后,每條序列都由一個(gè)11維向量表示。我們使用Fisher判別來(lái)判別編碼區(qū)與非編碼區(qū)序列,F(xiàn)isher線(xiàn)性判別分析(FLDA)Fisher于1936年用于兩類(lèi)問(wèn)題特征提取的一種有效方法其基本思想是尋找一投詳細(xì)見(jiàn)文獻(xiàn)[21]Fisherc和閾值c0,檢驗(yàn)庫(kù)中編碼區(qū)與非編碼區(qū)的判別則可簡(jiǎn)單由cuc0cuc0參數(shù)c的計(jì)算方法如下:首先定義方差S,令uggk條序列中的第j個(gè)分量,其g1,2;j12,,11k1,2,n(nn)。令ug為ug k的均值,U表示向量ug,即Uug,ug,,ugTg1,2。這 方差矩陣Sij2

s(ugug)(ugug),i,j1, g1kcS1U1U2S1為矩陣S的逆陣,具體細(xì)節(jié)可以參考文獻(xiàn)[22]

在訓(xùn)練庫(kù)中,調(diào)整c0值使編碼區(qū)的錯(cuò)誤率與非編碼區(qū)的錯(cuò)誤率相等,將此時(shí)的c0值作為閾值。將得到的Fisher參數(shù)c1c2c11及閾值c0運(yùn)用到檢驗(yàn)庫(kù)中,這樣,如果cuc0中cc1,c2,,c11uuu,

)T

對(duì)某一算法的優(yōu)劣進(jìn)行衡量的標(biāo)準(zhǔn)通常是:靈敏度和特異度,這兩個(gè)測(cè)度經(jīng)常用來(lái)描述一個(gè)算法或一個(gè)識(shí)別函數(shù)的正確度。要評(píng)估一個(gè)算法,重新替換i)測(cè)試和交叉確認(rèn)i)測(cè)試通常被認(rèn)為是一種行之有效的方法。重新替換測(cè)試反映了算法的自身的一致性而交叉確認(rèn)測(cè)試反映了算3,此有三個(gè)不同的訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)的平臺(tái)是基于2011a,對(duì)于在值被列在表7.1。7.1123Zhang[16]和Wang[17]的結(jié)果,Zhang使用了編碼序列的1-核苷酸和子特征,Wang整合了編碼序列的多種特征。為使這樣結(jié)果具7.2顯示了這些方法比較的結(jié)果。從上面的結(jié)果可以看出,與其它算法7.2基于改進(jìn)“四線(xiàn)”圖的DNADNAA、T、GC按照它在序假設(shè)序列aa1a2an{A,C,G,T,},1in,定義了一個(gè)如下的映射:(i, ai(i,h a a (i,h a ai'等。例如,我們可以取hi分別為1,2,48,也可以取為-1,0,260,1,3及7等數(shù)組。為了便于表達(dá)序列比對(duì)的結(jié)果,使用坐標(biāo)(i來(lái)表示序列通過(guò)所定義的映射很顯然,DNA序列中的每一個(gè)堿基都對(duì)應(yīng)坐平面內(nèi)的一個(gè)點(diǎn),一條序列對(duì)應(yīng)于2維有序整數(shù)數(shù)組。例如,令h11,h12h14,h18DNAg=ATGGCATTGACAAACTCG被映射點(diǎn)序列,用線(xiàn)段連接相鄰的點(diǎn),就得到一條如圖7.1的圖形曲線(xiàn)。很顯然,通過(guò)該方法得到的DNA序列的圖形有的如下特點(diǎn):直觀(guān)、簡(jiǎn)單。除此之外,我們可以根據(jù)圖形曲線(xiàn)來(lái)重構(gòu)一條唯一的DNA序列。也就是說(shuō),在DNA序列轉(zhuǎn)可以看作DNA序列的“特征”。87654321 7.1g2條序列aa1a2an和bb1b2bmnm。bi不匹配,那么與不相等,這與等式(ai)(bi)(0,0)相 與bi一定匹配。7.2DNA序列aa1a2anx-s個(gè)單位(s是一個(gè)整數(shù)),DNA序列cc1sc2scns且等(cis(ai)(s0)(cisi

證明:不妨假設(shè)序列中任意一個(gè)堿基ai對(duì)應(yīng)于點(diǎn)坐標(biāo)(i),其中1in。如果點(diǎn)(ix-坐標(biāo)軸平s個(gè)單位,然后它將到達(dá)新序列的第is個(gè)堿基的坐標(biāo)位置(is。因此等(cis)s0))ai必然成立。推論7.1對(duì)于滿(mǎn)足1imin(nm的任意i,其mnab是序列a的子序列。的圖形曲線(xiàn)(我們不妨把它假設(shè)為新序列cc1sc2scns(i)如果(cis)a(i)(0,其中max(1,s1)imin(n,sm)ai列中的堿cis匹配。(ii)(ci)(ai)(0,0id1d11,d2,其中max(1s1d1d2min(nsm,那么a的子序列ad1ad11ad2將與序列b中的子序列cd1scd11scd2s匹配。7.3a中的子序列ai1ai2aidb中子序列bj1bj2bjd匹配,如果存在一個(gè)整數(shù)s使得平移scc1sc2scns(cks(ak)0,0,其中max(1s1d1d2min(nsm,而d2d1d。ab擁有最長(zhǎng)的公共子串a(chǎn)d1ad11ad2。A4Aia[69]DAA序列分別基于{AC}{,和{}33突變分析。這種方法很顯然給突變分析帶來(lái)了可視化的優(yōu)點(diǎn),但在文獻(xiàn)[24]中的方法存在著計(jì)算復(fù)雜性高的問(wèn)題。下面基于改進(jìn)DNA序列的“四線(xiàn)”圖介紹判斷DNA序列間的堿基不同的ij都是不相等的,其中ijhihj,ij且i,j{1,2,3,4},我們可以A替代。G(bi(ai0h2h3aiG被堿基T替代?;鵄替代。7.6(bi(ai0,h4h3aiG堿基G替代。C(bi(ai0,h2h4aiC被堿基T替代。C(bi(ai0,h1h4aiC被堿基A替代。個(gè)堿基A(T,G或C)入。結(jié)論7.3證明:不妨假設(shè)aiA,T,ai{A,C,G,T},biA,T,bi{A,C,G,T},那么ai C,ai G,(bi)(ai)(0,h2h1 (bi(ai0h1h2)(bi(ai0,h4h2)(bi)(ai)(0,h1h2) y-坐標(biāo)軸的方向在不同序列的圖形曲線(xiàn)間平移不同的向量(例如(0,h2h1和不妨假設(shè)h11,h12,h14,h187.2所示。在兩序列的圖形曲線(xiàn)間移量(0,6),我們發(fā)現(xiàn)在序列c中第2個(gè)位置上的堿基T被堿基C替代;移量(0,-2),發(fā)現(xiàn)在序列c中第9個(gè)位置上的堿基G被堿基T替代;移量(0,-5),發(fā)現(xiàn)第個(gè)和第8個(gè)位置上的堿基被堿基A替代;移量(0,-6),發(fā)現(xiàn)第7個(gè)位置上的堿基C被堿基T替代。87654321 7.2c和d小本節(jié)針對(duì)目前常用的識(shí)別算法對(duì)特征選取的性,提出了識(shí)別特征的動(dòng)態(tài)篩選模型,該模型根據(jù)特征之間的相關(guān)性來(lái)獲取的主特征,利用提取的主特征進(jìn)行編碼區(qū)與非編碼區(qū)的識(shí)別。針對(duì)突變問(wèn)題,使用改進(jìn)的DNA序列“四線(xiàn)”圖,提出了一種圖形化的分析DNA序列間堿基突變的方法,為檢測(cè)突變提供一種新的思路。八、結(jié)束本文人相關(guān)研究的基礎(chǔ)上,綜合運(yùn)用信號(hào)處理理論等方法研究了DNA序列表示及識(shí)別的有關(guān)問(wèn)題。盡管本文在DNA序列功率譜及信噪比計(jì)算和 的應(yīng)用也會(huì)越來(lái)越廣泛,我們期待識(shí)別早日為人類(lèi)帶來(lái) [1]., 在現(xiàn)代功率譜估計(jì)中的應(yīng)用[J].電腦學(xué)習(xí).12月,6期.[2].,自相關(guān)法和Burg法在A(yíng)R模型功率譜估計(jì)中的仿真研究[J].計(jì)算機(jī)與數(shù)字工程,2006,6(35):32-33.[3].,游中勝,.基于變換的多元時(shí)間序列相似性研究[J].《西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》20098月,第3404期.73-76.[4].Kotlar,D.,Lavner,Y.,2003.Genepredictionbyspectralrotationmeasure:anewmethodforidentifyingprotein-codingregions.GenomeRes.13,[5].Yin,C.,Yau,S.S.-T.2007.Predictionofproteincodingregionsbythe3-baseperiodicityysisofaDNAsequence[J].JournalofTheoreticalBiology.247,[6].ZhangCT,ZhangR.ZcurvesanintuitivetoolforvisualizatingandyzingtheDNAsequences[J].JBiomolecStructDyn,1994,11:767-782.[7].NeedlemanSB,WunschCD.Ageneralmethodapplicabletothesearchforsimilaritiesintheaminoacidsequenceoftwoproteins[J].JournalofMolecular[8]謝惠民.生物序列分析中的若干數(shù)學(xué)方法[J].高等應(yīng)用數(shù)學(xué)學(xué)報(bào)A輯,2005,[9].RushdiA,TuqanJ(2006)GeneidentificationusingtheZ-curverepresentation[J].In:ProceedingsoftheIEEEinternationalconferenceonacoustics,speechandsignalprocessing,vol2,pp1024-1027.[10].SharmaSD,ShakyaK,SharmaSN(2011)EvaluationofDNAmapschemesforexondetection[J].In:Internationalconferenceoncomputer,communicationandelectricaltechnology,ICCCET2011.[11].A.A.Tsonis,J.B.Elsner,P.A.Tsonis.PeriodicityinDNAcodingsequences:implicationsingeneevolution[J].J

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論