版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、用判別分析的方法判定dna序列的類別摘 要判別分析法是多元統(tǒng)計(jì)分析中的重要內(nèi)容之一。近年來,人們用判別分析的方法解決了不少在生產(chǎn)科研和日常生活中的實(shí)際問題。本文用fisher判別的思想,從變量檢驗(yàn)入手,給出了對(duì)dna序列進(jìn)行不同分類的理論依據(jù),并探討錯(cuò)判概率與判別效率之間的關(guān)系。通過對(duì)檢驗(yàn)樣本的回報(bào)情況分析可知,本文所建立的模型分辨率高(95%),錯(cuò)判率低(<1%),簡(jiǎn)單而易于運(yùn)行,適合于各種長(zhǎng)度的dna序列的分類,因此實(shí)用性強(qiáng),有較高的理論價(jià)值,為多元統(tǒng)計(jì)分析方法在生物信息學(xué)領(lǐng)域中應(yīng)用的又一典型實(shí)例。關(guān)鍵詞:dna序列、fisher判別法、判別函數(shù)、錯(cuò)判率。一、問題提出1背景人類基因組
2、計(jì)劃中的dna全序列圖是一本記錄著人類自生老病死及遺傳進(jìn)化的全部信息的“天書”。這本大自然寫成的“天書”是由4個(gè)字符a、c、g、t按一定的順序排成的長(zhǎng)約30億的序列,其中沒有斷句,也沒有標(biāo)點(diǎn)符號(hào),除了這4個(gè)字符表示4種堿基以外,人們對(duì)它包含的內(nèi)容知之甚少,難以讀懂 ,破譯這部世界上最巨量信息的“天書”是二十世紀(jì)最重要的任務(wù)之一。在這個(gè)目標(biāo)中,研究dna全序列具有什么結(jié)構(gòu),由這4個(gè)字符排成看似隨機(jī)的序列中隱藏著什么規(guī)律,又是解讀這部天書的基礎(chǔ),是生物信息學(xué)最重要的課題之一。對(duì)dna序列的逐步認(rèn)識(shí)讓人們相信dna序列中存在著局部的和全局的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對(duì)理解dna全序列是十分有意義的。2
3、問題有20個(gè)已知類別的人工序列:a類,b類。 1. 從中提取特征,構(gòu)造模型,找出合適的分類方法,并用該法對(duì)另20個(gè)給出的未知類別的人工序列進(jìn)行分類,要求詳述方法及給出計(jì)算程序。2.對(duì)另給出的182個(gè)自然序列進(jìn)行分類。二問題的分析本題重在從已知類別的dna序列中提取某些特征,構(gòu)造分類方法,提取的某些特征應(yīng)滿足以下條件:1) 來源于已知樣本。2) 具有給予未知類別的dna序列分類的功能。3) 能較好的接受檢驗(yàn)樣本的檢驗(yàn)。全部地考慮各種因素(如堿基的排列組合,堿基間的鍵強(qiáng)及鍵長(zhǎng)等等),無法得到分類方法。忽略以上特征,突出a、c、g、t在dna序列中出現(xiàn)的頻數(shù),對(duì)這個(gè)特征利用多元統(tǒng)計(jì)分析方法可以達(dá)到要
4、求。判別分析法對(duì)分類問題有著較強(qiáng)的適合性,而在fisher判別法,bayes判別法,距離判別法等方法中,fisher判別法條件更寬、更通用。三、符號(hào)與假設(shè)1、 主要假設(shè)(1) 分析dna序列時(shí),不考慮a、c、t、g出現(xiàn)的順序。(2) 忽略堿基間間鍵的強(qiáng)弱、長(zhǎng)短。(3) 假設(shè)文中較小容量的子樣能體現(xiàn)母體的一些統(tǒng)計(jì)特性。(4) 認(rèn)為dna序列中a、c、g、t的出現(xiàn)是獨(dú)立的。(5) dna序列中a、c、g、t對(duì)dna序列的影響是平等的。(6) 將a類誤判為b類與將b類誤判為a類的損失是相等的。2、 符號(hào)的說明vi(i=1、2): 協(xié)差矩陣 di(i=1、2): 判別區(qū)域(u): 判別效率w(y)、u
5、(y): 判別函數(shù)1、2: 隨機(jī)向量母體ei( i=1、2): 隨機(jī)向量的均值 (u),(u): 分別為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)與分布密度v-1:矩陣的逆u:向量u的轉(zhuǎn)置四、模型的建立1 模型的提出(fisher判別準(zhǔn)則)fisher判別準(zhǔn)則是借助于方差分析的思想來導(dǎo)出判別函數(shù),此判別函數(shù)可以是線性的,也可以是一般的borel函數(shù)。設(shè)有兩個(gè)母體1、2,相應(yīng)的均值、協(xié)差陣分別為e1、e2 與v1、v2;任取一樣本個(gè)體y(n維向量),考慮其線性函數(shù)u(y)=uy(其中u為已知的n維向量),則在y來自i條件下均值與方差分別為ei =e(u(y)i)=uei i=1、2 v i2=v(u(y)i)=uv
6、i u i=1、2令b0= e0=fisher準(zhǔn)則是適當(dāng)選擇u,使得 (u) =b0/e0達(dá)到最大,此(u)稱為判別效率。一般地,我們有引理1 若v1+v2的逆存在,則fisher準(zhǔn)則下的線性判別函數(shù)與判別效率分別為 u(y)=y(v1+v2)-1(e1-e2) (u)=1/2(e1-e2)(v1+v2)-1(e1-e2)故 u=(v1+v2)-1(e1-e2)證明:見多元統(tǒng)計(jì)分析引論(方開泰,第四章定理3、1的系)fisher準(zhǔn)則的理論意義之一在于將制定判別規(guī)則轉(zhuǎn)為討論一維隨機(jī)變量而對(duì)u(y)(一維隨機(jī)變量)的討論包含在距離判別法中。引理二 設(shè)有兩個(gè)母體 1、2 , 它們的均值、協(xié)差矩陣分別
7、為 e1、e2 和v1、v2 ,令di=y: d2(y, i)min d2(y, j) ,ji i=1、2則距離判別規(guī)則為yi , 若y落在di內(nèi), i=1、2引理3 在引理1、2的前提與假設(shè)下,若v1=v2=v,則有d1=y: (y-(e1+e2)/2)v-1 (e1-e2)0, d2=rn-d1;其中 n為隨機(jī)向量變維數(shù),w(y)= (y-(e1+e2)/2)v-1(e1-e2)為判別函數(shù)。 由引理1,引理2,引理3很容易推得定理1 在引理3的前提與假設(shè)下,對(duì)1、2 有相應(yīng)的判別區(qū)域 d1=y: u(y-e)0 d2=y: u(y-e)<0=rn-d1此 e=(e1+e2)/2。 2
8、、模型的建立(1)、特征的提取令1、2 分別表a類dna序列與b類dna序列的數(shù)字特征的隨機(jī)向量母體,以片段長(zhǎng)為110的dna序列中所含a、c、g、t的頻數(shù)(平均而言)為此序列的數(shù)字特征,其構(gòu)成一四維向量(a,c,g,t)。因母體 1、2參數(shù)未知,故需通過檢驗(yàn)樣本來估計(jì)令v1=1/(n1-1)×s1 v2=1/(n2-1×s2此s1、s2、n1、n2分別表a類檢驗(yàn)樣本與b類檢驗(yàn)樣本的方差的n1-1倍與容量(n1=10=n2)故v1+v2=1/(n1-1×s1+ 1/(n2-1×s2=(s1+s2)/9(2)、附加信息的檢驗(yàn)兩個(gè)母體 1、 2 ,它們的分布
9、分別為n4(e1,v1) n4(e2,v2),4為維數(shù)需檢驗(yàn)h0 :e1=e2當(dāng)h0被接受時(shí),則區(qū)分這兩個(gè)母體是無意義的,建立判別函數(shù)也沒意義的。當(dāng)h0被否定時(shí),這兩個(gè)母體是可以區(qū)別的,檢驗(yàn)的h0似然比統(tǒng)計(jì)量為=|e|/|e+b|其中 e=s1+s2,b=n1*n2/(n1+n2)(e1-e2)(e1-e2)(e1, e2 分別表a、b類檢驗(yàn)樣本的均值)故=0.1293 (因?yàn)?|e|/|e+b| ) 它遵從 (4, 18,1) (m=4,n=20,k=2 ) ,查表得0.01(4,118,1)=0.433867, 0.01 高度顯著,故a、b兩類的指標(biāo)有明顯的差異,將這四組特征提取并區(qū)分a、
10、b類是有道理的。(3)、判別函數(shù)和判別規(guī)則的確定我們采用fisher判別的方法,在fisher準(zhǔn)則下,e1,e2可 由檢驗(yàn)樣本的統(tǒng)計(jì)量來估計(jì)。由于v1v2 ,故采用加權(quán)因子法,用 (v1+v2)/2 來估計(jì)v,設(shè)e=(e1+e2)/2故得判別函數(shù) w(y)=(y-e)(v1+v2)/2)-1(e1-e2)判別規(guī)則為: y1, 若 w(y)>=0 y2,若 w(y)<0判別程序d為d=(d1,d2),其中 d1=y | w(y)>=0, d2=y | w(y)<0 。3、模型的改進(jìn) 令c、r1、r2為參數(shù)(c>0,r1+r2=1,r1>=0,r2>=0)
11、,w(y)=(y-e)(s1×r1+s2×r2 )/9-1(e1-e2)-logc,c、r1、r2的取值有上述模型對(duì)檢驗(yàn)樣本的檢驗(yàn)估算出。取c=18、r1=5/6、r2=1/6得新的判別函數(shù)w(y)=(y-e)(s1×5/6+s2×1/6 )/9 -1 (e1-e2)-log18,此時(shí)判別規(guī)則為: y1, 若 w(y)>=0 y2,若 w(y)<0判別程序d為d=(d1,d2),其中 d1=y | w(y)>=0, d2=y | w(y)<0。4、模型的求解:制作mathematica軟件包將待判樣本個(gè)體y逐一代入。五、模型的檢驗(yàn)
12、與應(yīng)用(1)、對(duì)訓(xùn)練樣本的判別歸類情況如下:序號(hào)理論實(shí)際評(píng)判一致一致一致不同一致一致一致一致一致一致一致一致一致一致一致一致一致一致一致一致總的歷史擬合率為(10+9)÷20=95%(2)、對(duì)序列歸類判別利用改進(jìn)的判別函數(shù)w(y)解答問題1、2的結(jié)果如下:?jiǎn)栴}1(按序號(hào)大小排序): a類:22,23,25,27,29,34,35,36,37; b類:21,24,26,28,30,31,32,33,38,39,40;問題2(按序號(hào)大小排列): a類:5,7,8,9,10, 12, 13,14,15,16,17,18,19,20,21,27,28, 32,34,35,36,38,40,4
13、1,42,43,47,49,50, 51, 52,53,58,59,60,61,63,65,67,71,73,74, 75, 77,79,83, 84, 86,87, 88,89,93,96,97,98,99,100,102,104,106,109,112,114,116,117,119,120,121,127,128,130,136,138,141,143,146,147,150,151,152,154,155,158,171。(共84條) b類: 1, 2, 3, 4, 6,11,22,23,24,25, 26,29,30, 31, 33,37, 39, 44,45,46,48,54,55
14、, 56,57,62, 64, 66, 68,69, 70, 72,76,78, 80,81,82, 85,90,91, 92,94,95,101, 103,105, 107,108,110,111, 113, 115,118,122,123,124, 125,126,129,131,132, 133,134, 135,137,139,140,142,144,145,148, 149, 153,156,157,159,160,161,162,163,164, 165, 166,167,168,169,170,172, 173,174,175,176, 177,178,179,180,181,
15、182。 (共98條)5、fisher準(zhǔn)則下誤判概率求解與分析給定一個(gè)判別程序d=(d1,d2),在執(zhí)行中總會(huì)有兩類可能的錯(cuò)誤發(fā)生:第一類錯(cuò)誤是將本屬于1類的個(gè)體判歸于2類,其誤判的概率為p1(d)=d2 f1(x)dx 第二類錯(cuò)誤是將本屬于2類的個(gè)體判歸于1類,其誤判的概率為p2(d)= d1 f2(x)dx其中f1(x)、f2(x)分別表1、2 的分布密度函數(shù),誤判概率大小是衡量一個(gè)判別好壞的重要標(biāo)志。(1)、用fisher判別方法會(huì)發(fā)生誤判如:y來自 1 ,卻有w(y)0y來自 2 ,有w(y)>= 0如圖:誤判概率為圖中陰影部分面積如果1、2靠得很近,則無論用何種方法誤判概率均很
16、大,此時(shí)用判別分析意義不大。因此只有當(dāng)母體的均值有著顯著的差異才可作判別分析。而附加信息的檢驗(yàn)說明了將1、2分開是有道理的。(2)、誤(錯(cuò))判概率的計(jì)算引理:當(dāng)12 1 時(shí),p(w(y)-4(u)/4(u) u|1=(u)+1/n(u) 2(m-1)/4(u) -(m+1/4)u -u3/4+o(n-2)此為向量的維數(shù),(u)為判別效率,n=n1+n2-2(u)為標(biāo)準(zhǔn)正態(tài)分布密度,(u)為標(biāo)準(zhǔn)正態(tài)分布函數(shù) 證明見參考文獻(xiàn)1。從引理4可以看到(u)是極限分布,第二大項(xiàng)為修正項(xiàng),誤判概率有如下性質(zhì):u<0時(shí)它為正;時(shí),它不依賴于(u),當(dāng)>1時(shí),它隨(u)增大-而減小; 0時(shí),它隨增大
17、而增大。這些理論結(jié)果與實(shí)際非常吻合。在本題中 m=4, (u)=(e1-e2)(s1+s2)/18)-1(e1-e2),令u= -4(u) 則: p1(d)=pw(y)<0 1與p2(d)=p w(y)>=0 2均很小(<0.005)若設(shè)事前概率q1>0、q2>0(q1+q2=1)犯第1、2類錯(cuò)誤的損失分別為c1和c2,則對(duì)于給定的判別d,由誤判引起的平均損失(風(fēng)險(xiǎn))即為c1×q1×p1(d)+c2×q2×p(d)特別當(dāng)c1=c2=1時(shí)其數(shù)值即為平均誤判概率。 注:上述參數(shù)c=q2c1/q1c2; 對(duì)于c1c2情形,讀者可參
18、考文獻(xiàn)1。 六、模型的評(píng)價(jià)與改進(jìn)方向1) 通過檢驗(yàn)樣本的回報(bào)情況來很看,判錯(cuò)的情況很少,因此說明將樣本在這樣的判別函數(shù)與規(guī)則下歸類是合理的。2) 通過對(duì)假設(shè)h0的似然比統(tǒng)計(jì)量的計(jì)算來論證數(shù)字特征的提取與dna序列分類的合理性。3) 對(duì)于一個(gè)新的dna序列,通過上文給出的判別函數(shù)與判別規(guī)則計(jì)算它將落入哪一個(gè)總體,從而決定此dna序列的其它特性,這為人類提供了又一種基因及其特征檢驗(yàn)識(shí)別的方法。4) 通過本文對(duì)錯(cuò)判概率的分析可以認(rèn)為文中給出的判別分析法在某種程度上具有很高的分辨率。5) 對(duì)dna序列有效判別是多元統(tǒng)計(jì)分析方法在生物學(xué)中的又一重大應(yīng)用。6) 通過錯(cuò)判率與實(shí)際誤判率的比較,說明理論與實(shí)際還是有一定的差距的。這根源于本容量(10個(gè))較小,若將檢驗(yàn)樣本容量增大(>=50個(gè)),結(jié)果將更加合理。7) 由于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年買賣住房合同
- 建筑通風(fēng)空調(diào)管道系統(tǒng)風(fēng)閥作業(yè)指導(dǎo)書
- 2024年高速公路路基土建工程施工合同
- 2024年個(gè)人大額度借款協(xié)議
- 建筑工程室內(nèi)精裝修軟裝設(shè)計(jì)導(dǎo)則
- 2024年建筑工業(yè)用品買賣合同
- 2015年7月4日四川省公務(wù)員面試真題
- 江西申論模擬69
- 新解讀《GBT 41106.3-2021大型游樂設(shè)施 檢查、維護(hù)保養(yǎng)與修理 第3部分:旋轉(zhuǎn)類》
- 甘肅省申論模擬88
- 聚丙烯纖維課件
- 鐵礦粉燒結(jié)的基本理論
- 九年級(jí)上冊(cè)名著導(dǎo)讀《艾青詩選》習(xí)題課件
- FAI(樣品)檢驗(yàn)報(bào)告
- 經(jīng)驗(yàn)交流銀行不良貸款清收經(jīng)驗(yàn)交流材料
- KUKA機(jī)器人編程手冊(cè)
- 分布式光伏項(xiàng)目EPC總承包工程進(jìn)度控制措施
- 交房流轉(zhuǎn)單(內(nèi)部)
- 新人教版部編版二年級(jí)上冊(cè)語文期中復(fù)習(xí)課件
- 高中英語-人教新教材Module1-Unit3-Living-Legends公開課課件
- 部編教材七年級(jí)語文上冊(cè)第1-3單元古詩默寫梳理
評(píng)論
0/150
提交評(píng)論