確定腫瘤的重要基因信息_第1頁(yè)
確定腫瘤的重要基因信息_第2頁(yè)
確定腫瘤的重要基因信息_第3頁(yè)
確定腫瘤的重要基因信息_第4頁(yè)
確定腫瘤的重要基因信息_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、全國(guó)第七屆研究生數(shù)學(xué)建模競(jìng)賽題 目 確定腫瘤的重要基因信息摘 要:隨著生物分子學(xué)的發(fā)展,人們已經(jīng)發(fā)現(xiàn)癌癥與基因之間存在密切關(guān)系。本文通過(guò)對(duì)比基因表達(dá)譜中不同樣本的表達(dá)水平的差別,區(qū)分出無(wú)關(guān)基因和信息基因,在信息基因的空間中搜索分類能力強(qiáng)的特征子集,然后將所有樣本劃分為訓(xùn)練集和測(cè)試集,使用支持向量機(jī)SVM和人工神經(jīng)網(wǎng)絡(luò)檢查特征子集的分類能力。其次,再考慮噪聲的定義,以及如何去除噪音,并分析噪聲對(duì)特征子集分類能力的影響。最后,生成特征子集的時(shí)候需要考慮已有的醫(yī)學(xué)發(fā)現(xiàn),提出基于知識(shí)庫(kù)的基因圖譜分析模型KFS模型,有效利用了醫(yī)學(xué)成果。第一問(wèn),利用巴氏距離模型和理想基因模型區(qū)分無(wú)關(guān)基因和相關(guān)基因,剔除基

2、因表達(dá)譜中無(wú)關(guān)基因,達(dá)到降維的效果。第二問(wèn),使用FSSM算法在信息基因空間里尋找出候選特征子集,然后將樣本劃分為訓(xùn)練集和測(cè)試集,使用支持向量機(jī)SVM和人工神經(jīng)網(wǎng)絡(luò),對(duì)FSSM搜索出來(lái)的特征子集的分類能力進(jìn)行判定。本文得到由5個(gè)信息基因組成的特征子集,樣本分類正確率達(dá)到95.79%。第三問(wèn),考慮了閾值濾波和主成分分析兩種去噪模型,并闡述噪音模型在高斯過(guò)程分類器的構(gòu)建中的作用,最后論述噪音能夠在學(xué)習(xí)算法中防止過(guò)渡擬合從而可以孵化出泛化能力更強(qiáng)的分類器用于確定基因標(biāo)簽。第四問(wèn),提出基于知識(shí)庫(kù)的基因圖譜分析模型KFS模型,該模型在引入信息基因知識(shí)庫(kù)的基礎(chǔ)上,對(duì)基因圖譜進(jìn)行去噪處理、樣本評(píng)價(jià)函數(shù)增益、剔

3、除無(wú)關(guān)基因,并采用基于知識(shí)庫(kù)的KFSSM算法獲得特征子集,最后分別采用SVM及ANN方法獲取信息基因集合。本文最后對(duì)已知臨床經(jīng)驗(yàn)的結(jié)腸癌數(shù)據(jù)進(jìn)行處理得到一組信息基因組合,樣本分類正確率達(dá)到94.52%。關(guān)鍵詞:基因表達(dá)譜,信息基因,巴氏距離,F(xiàn)SSM,噪聲,KFS模型參賽密碼 (由組委會(huì)填寫) 一、問(wèn)題重述癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下,基因組發(fā)生的突變,即基因在結(jié)構(gòu)上發(fā)生堿基對(duì)的組成或排列順序的改變,因而改變了基因原來(lái)的正常分布(即所包含基因的種類和各類基因以該基因轉(zhuǎn)錄的mRNA的多少來(lái)衡量的表達(dá)水平)。所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有深遠(yuǎn)的意義。DNA微陣列(D

4、NA microarray),也叫基因芯片,是最近數(shù)年發(fā)展起來(lái)的一種能快速、高效檢測(cè)DNA片段序列、基因表達(dá)水平的新技術(shù)。它將數(shù)目從幾百個(gè)到上百萬(wàn)個(gè)不等的稱之為探針的核苷酸序列固定在小的(約1)玻璃或硅片等固體基片或膜上,該固定有探針的基片就稱之為DNA微陣列。根據(jù)核苷酸分子在形成雙鏈時(shí)遵循堿基互補(bǔ)原則,就可以檢測(cè)出樣本中與探針陣列中互補(bǔ)的核苷酸片段,從而得到樣本中關(guān)于基因表達(dá)的信息,這就是基因表達(dá)譜,因此基因表達(dá)譜可以用一個(gè)矩陣或一個(gè)向量來(lái)表示,矩陣或向量元素的數(shù)值大小即該基因的表達(dá)水平(見附件)。隨著大規(guī)?;虮磉_(dá)譜 ( Gene expression profile&

5、#160;,或稱為基因表達(dá)分布圖)  技術(shù)的發(fā)展,人類各種組織的正常的基因表達(dá)已經(jīng)獲得,各類病人的基因表達(dá)分布圖都有了參考的基準(zhǔn),因此基因表達(dá)數(shù)據(jù)的分析與建模已經(jīng)成為生物信息學(xué)研究領(lǐng)域中的重要課題。如果可以在分子水平上利用基因表達(dá)分布圖準(zhǔn)確地進(jìn)行腫瘤亞型的識(shí)別,對(duì)診斷和治療腫瘤具有重要意義。因?yàn)槊恳环N腫瘤都有其基因的特征表達(dá)譜(見附圖)。從DNA 芯片所測(cè)量的成千上萬(wàn)個(gè)基因中,找出決定樣本類別的一組基因“標(biāo)簽”,即“信息基因” (informative genes )是正確識(shí)別腫瘤類型、給出可靠診斷和簡(jiǎn)化實(shí)驗(yàn)分析的關(guān)鍵所在,同時(shí)也為抗癌藥物的研制提供了捷徑。通常由

6、于基因數(shù)目很大,在判斷腫瘤基因標(biāo)簽的過(guò)程中,需要剔除掉大量“無(wú)關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。事實(shí)上,在基因表達(dá)譜中,一些基因的表達(dá)水平在所有樣本中都非常接近。例如,不少基因在急性白血病亞型(ALL,AML)兩個(gè)類別中的分布無(wú)論其均值還是方差均無(wú)明顯差別,可以認(rèn)為這些基因與樣本類別無(wú)關(guān),沒(méi)有對(duì)樣本類型的判別提供有用信息,反而增加信息基因搜索的計(jì)算復(fù)雜度。因此,必須對(duì)這些“無(wú)關(guān)基因”進(jìn)行剔除。1999 年Science發(fā)表了Golub 等針對(duì)上述急性白血病亞型識(shí)別與信息基因選取問(wèn)題的研究結(jié)果1 。Golub 等以“信噪比”(Signal to noise ratio) 指標(biāo)作為衡量

7、基因?qū)颖痉诸愗暙I(xiàn)大小的量度,采用加權(quán)投票的方法進(jìn)行亞型的識(shí)別,僅根據(jù)72個(gè)樣本就從7 129 個(gè)基因中選出了50 個(gè)可能與亞型分類相關(guān)的信息基因。Golub 的工作大大縮小了決定急性白血病亞型差異的基因范圍,給出了亞型識(shí)別的基因依據(jù),富有創(chuàng)造性。Guyon 等則利用支持向量機(jī)的方法再?gòu)闹羞x出了8個(gè)可能的信息基因2。但信噪比肯定不是衡量基因?qū)颖痉诸愗暙I(xiàn)大小的唯一標(biāo)準(zhǔn),腫瘤是致癌基因、抑癌基因、促癌基因和蛋白質(zhì)通過(guò)多種方式作用的結(jié)果,在確定某種腫瘤的基因標(biāo)簽時(shí),應(yīng)該設(shè)法充分利用其他有價(jià)值的信息。有專家認(rèn)為3在基因分類研究中忽略基因低水平表達(dá)、差異不大的表達(dá)的傾向應(yīng)該被糾正,與臨床問(wèn)題相關(guān)的主要

8、生理學(xué)信息(見問(wèn)題4)應(yīng)該融合到基因分類研究中。 面對(duì)提取基因表達(dá)譜信息這樣前沿性課題,命題人根據(jù)自己科學(xué)研究的經(jīng)歷和思考,猜測(cè)以下幾點(diǎn)是解決前沿性課題的有價(jià)值的工作。這種猜測(cè)是科學(xué)研究中的重要環(huán)節(jié),當(dāng)然猜測(cè)不會(huì)總是可行的,更不一定總是正確的。但不探索就不能前進(jìn),如果能夠通過(guò)數(shù)學(xué)建模,得到的部分結(jié)果可以佐證你們的猜測(cè)或?yàn)樾绿剿魈峁┤舾梢罁?jù),就很有價(jià)值。我們的目的只是給研究生以啟發(fā),鼓勵(lì)研究生培養(yǎng)這樣的創(chuàng)造性發(fā)現(xiàn)的能力。所以研究生完全可以獨(dú)立設(shè)計(jì)自己的技術(shù)路線,只要能夠有效提取附件的基因表達(dá)譜信息就行。1、由于基因表示之間存在著很強(qiáng)的相關(guān)性,所以對(duì)于某種特定的腫瘤,似乎會(huì)有大量的基因都與該腫瘤類

9、型識(shí)別相關(guān),但一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少。對(duì)于給定的數(shù)據(jù)(見附件),如何從上述觀點(diǎn)出發(fā),選擇最好的分類因素?2、相對(duì)于基因數(shù)目,樣本往往很小,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問(wèn)題,如何減少用于分類識(shí)別的基因特征是分類問(wèn)題的核心,事實(shí)上只有當(dāng)這種特征較少時(shí),分類的效果才更好些。對(duì)于給定的結(jié)腸癌數(shù)據(jù)如何從分類的角度確定相應(yīng)的基因“標(biāo)簽”? 3、基因表達(dá)譜中不可避免地含有噪聲(見1999 年Golub在Science發(fā)表的文章),有的噪聲強(qiáng)度甚至較大,對(duì)含有噪聲的基因表達(dá)譜提取信息時(shí)會(huì)產(chǎn)生偏差。通過(guò)建立噪聲模型,分析給定數(shù)據(jù)中的噪聲能否對(duì)確定基因標(biāo)簽產(chǎn)生有利的影響?4、在腫瘤研究

10、領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,建立融入了這些有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。比如臨床有下面的生理學(xué)信息:大約90%結(jié)腸癌在早期有5號(hào)染色體長(zhǎng)臂APC基因的失活,而只有40%50%的ras相關(guān)基因突變。二、基本的模型假設(shè)1、基因表達(dá)譜中的樣本類別沒(méi)有錯(cuò)誤。2、基因表達(dá)譜中的癌癥病人樣本都是結(jié)腸癌病人。3、基因表達(dá)譜中有重復(fù)的基因標(biāo)簽,我們假定重復(fù)的基因標(biāo)簽的樣本分類能力類似,所以只處理其中一個(gè)基因標(biāo)簽4、所有的癌癥病人都處于同一時(shí)期,不分早期和晚期。5、基因表達(dá)譜中有一些重復(fù)的基因標(biāo)簽,比如HSAC07、UMGAP和i都出現(xiàn)了4次,而Has.13491、Has

11、.44472等基因出現(xiàn)了兩次。我們假定每一個(gè)標(biāo)簽都具有代表性,所以我們只處理一個(gè)基因標(biāo)簽,而不考慮其他重復(fù)的基因標(biāo)簽。這樣的話,基因表達(dá)譜信息表中總共有1911個(gè)不同類型的基因標(biāo)簽。本文剩下所有的數(shù)據(jù)處理都是針對(duì)這1911個(gè)基因標(biāo)簽。三、名詞解釋基因表達(dá)譜:關(guān)于基因表達(dá)的信息,可以看成是一個(gè)矩陣或者一個(gè)向量,矩陣或者向量元素的數(shù)值大小就是該基因的表達(dá)水平。基因表達(dá)水平:可以理解為樣本中某種基因的數(shù)量或者密度。理想基因:一種可以完全分辨出樣本類別的基因,它在不同類型的樣本中的表達(dá)水平相差很大。信息基因:可以決定樣本類別的一組基因。無(wú)關(guān)基因:有一些基因的表達(dá)水平在所有的樣本中非常接近,對(duì)樣本分類沒(méi)

12、有幫助的基因。特征子集:每一種信息基因的組合。信噪比:作為衡量基因?qū)颖痉诸愗暙I(xiàn)大小的量度。訓(xùn)練集:用來(lái)訓(xùn)練分類器學(xué)習(xí)能力的樣本集,包含正常人的樣本和結(jié)腸癌病人的樣本。測(cè)試集:用來(lái)測(cè)試分類信息基因分類能力的樣本集,包含正常人的樣本和結(jié)腸癌病人的樣本。分類器:通過(guò)學(xué)習(xí)訓(xùn)練集中樣本之后,可以自動(dòng)的對(duì)給定的測(cè)試集中樣本進(jìn)行分類的一類程序。四、符號(hào)化Bi:基因標(biāo)簽i的巴氏距離(1i1911)。SN:無(wú)關(guān)基因集合。SI :信息基因集合。e:理想基因,與腫瘤有很強(qiáng)的關(guān)聯(lián)性。Num(SN):無(wú)關(guān)基因集合的大小。Num(SI):信息基因集合的大小。正常樣本nSi:第i個(gè)正常人樣本(1i22)。病人樣本cSj:

13、第j個(gè)結(jié)腸癌病人樣本(1j40)?;虮磉_(dá)譜信息:Am×n,用一個(gè)m×n的矩陣來(lái)表示基因,其中m=62,n=1911vij:樣本i在基因j上的表達(dá)水平?;蚴噶縑g:基因g在各個(gè)樣本上的表達(dá)水平的一個(gè)矢量,Vg=vg1, vg2, vgn。五、模型的建立與求解5.1 問(wèn)題一的分析、建模與求解5.1.1 問(wèn)題一的分析目前人們通過(guò)生物芯片的技術(shù)可以快速檢測(cè)樣本的基因表達(dá)水平,人類各類組織的正?;虮磉_(dá)譜已經(jīng)獲得,但是還沒(méi)有有效的方法能夠定位與癌癥直接有關(guān)的基因。問(wèn)題一的出發(fā)點(diǎn)在于,人類基因表達(dá)譜中包含有太多與癌癥無(wú)關(guān)的基因,這大大地增加了人們從基因表達(dá)譜中搜索與癌癥相關(guān)的信息基

14、因的難度,而一般情況下,人們認(rèn)為直接與特定類型癌癥相關(guān)的突變基因數(shù)目很少,所以我們應(yīng)該考慮首先從基因圖譜中刪除大量的無(wú)關(guān)基因,縮小搜索信息基因的范圍。這個(gè)步驟可以稱為基因表達(dá)譜去除無(wú)關(guān)信息的降維處理。本題我們從下面兩個(gè)角度對(duì)基因表達(dá)譜初步降維:1、 信息基因在不同類型樣本表達(dá)水平的差異。2、 基因與理想基因的相似度。我們首先從癌癥的“基本致病機(jī)理”角度分析腫瘤與基因之間的可能存在關(guān)系。癌癥會(huì)導(dǎo)致信息基因在不同類型樣本的表達(dá)水平上產(chǎn)生一些差異。我們應(yīng)當(dāng)用一種合理的指標(biāo)將這種差異量化。目前比較通用的方法是比較樣本的平均值和方差,我們考慮一種模型,可以綜合考慮這兩方面的因素。其次,我們假設(shè)有一種理想

15、基因,這種基因在不同類型上的樣本上的表達(dá)水平差異非常大。我們通過(guò)樣本在理想基因上的表達(dá)水平就可以直接判斷樣本的類型。利用這種理想基因,我們通過(guò)比較基因表達(dá)譜中各個(gè)基因與理想基因的相似度。相似度高的基因可以認(rèn)為是信息基因,相反,如果某個(gè)基因標(biāo)簽與理想基因的相似度很小,我們基本可以認(rèn)為它是無(wú)關(guān)基因。本文在處理第一題時(shí),綜合利用了巴氏距離模型和理想基因模型,以巴氏距離模型為主,但是由于基因表達(dá)譜中的噪聲會(huì)影響巴氏距離模型選出來(lái)的信息基因的效果,所以再以理想基因模型為輔,選取一些與理想基因相似度高的基因,防止將一些信息基因剔除。最后選取大小為250的信息基因集合,大約占題目所給基因總數(shù)的20%,作為第

16、二問(wèn)的特征子集的搜索空間。下面詳細(xì)介紹我們建立的降維模型。5.1.2 問(wèn)題一的模型建立我們首先考慮下如何量化信息基因在不同類型樣本中表達(dá)水平的差異以及如何利用這種差異將基因分類,區(qū)分出無(wú)關(guān)基因和信息基因。Golub等人以“信噪比”(Signal to noise ratio)1指標(biāo)作為衡量基因?qū)颖痉诸愗暙I(xiàn)大小的度量,信噪比的定義如下: (1)其中:d是基因的信噪比,1和2分別是該基因在兩種樣本中表達(dá)水平的均值,1和2是該基因在兩種樣本中表達(dá)水平的標(biāo)準(zhǔn)差。但是使用這種方法來(lái)區(qū)分信息基因和無(wú)關(guān)基因存在應(yīng)的問(wèn)題。如果d=0,該基因就會(huì)被當(dāng)做無(wú)用基因刪除,而實(shí)際上,如果該基因在兩種樣本中表達(dá)水平方差

17、有很大差異,那么很有可能這個(gè)基因與癌癥有很密切的關(guān)系。所以,我們需要選用一個(gè)模型,綜合考慮平均值和方差的差異。5.1.2.1巴氏距離模型巴氏距離既考慮到基因在樣本中均值,也考慮到基因在樣本中的方差分布,是一個(gè)很好的信息度量指標(biāo)。它綜合考慮了均值和方差差異對(duì)樣本分類的作用。它的定義如下: (2)其中B為基因的巴氏距離。由式(2) 知,巴氏距離由兩部分構(gòu)成:第一項(xiàng)體現(xiàn)了基因在兩個(gè)類別中分布均值的差異對(duì)樣本分類的貢獻(xiàn);第二項(xiàng)體現(xiàn)了分布方差的不同對(duì)分類的貢獻(xiàn)。依據(jù)該距離公式,即使基因在兩類不同樣本中分布的均值相同,只要分布的方差出現(xiàn)大的差異,仍然可以獲得較大的距離值 3。從模式分類的角度來(lái)看,基因的巴

18、氏距離越大,說(shuō)明該基因的分類能力越強(qiáng),基因的分類信息越多。設(shè)SN是無(wú)關(guān)基因集合,SI是信息基因集合,我們?cè)O(shè)置一個(gè)閾值,巴氏距離大于可以認(rèn)為是無(wú)關(guān)基因,巴氏距離小于的可以認(rèn)為是信息基因。 (3)其中,g是基因,B(g)為基因g的巴氏距離,是選取的巴氏距離的閾值。利用公式3,選取好的閾值,我們就可以區(qū)分出無(wú)關(guān)基因集合SN以及信息基因集合SI。5.1.2.2 理想基因模型當(dāng)然我們不能只從巴氏距離這一個(gè)標(biāo)準(zhǔn)來(lái)衡量基因分類信息的大小,同時(shí)由于生物基因芯片不可避免地存在一些噪聲(噪聲的處理方法會(huì)在第三問(wèn)中提出解決方案),噪聲會(huì)對(duì)樣本的均值和方差產(chǎn)生較大的影響,而均值和方差是計(jì)算基因巴氏距離的兩個(gè)重要因素。

19、所以為了使基因的分類更為合理,除了以巴氏距離,我們還提出理想基因的概念。題目中給定的基因表達(dá)譜數(shù)據(jù)可以用矩陣Am×n表示,其中m表示基因的數(shù)目,去除重復(fù)的基因之后,只有1911個(gè),n表示樣本的數(shù)量,總共有62個(gè)。矩陣中元素vij表示第j個(gè)樣本對(duì)基因i的表達(dá)水平。我們首先對(duì)基因表達(dá)譜的數(shù)據(jù)作歸一化處理,使得矩陣A中每個(gè)元素的值都在-1, 1之間: (4)其中vmax是指矩陣A中的最大值,vmin是指矩陣A中的最小值,是vij歸一化之后的數(shù)值。本題中的樣本總數(shù)有62個(gè),分為兩類,一類是正常人樣本,另一類是結(jié)腸癌患者樣本。正常人樣本總共有22個(gè),樣本編號(hào)從N1N2,結(jié)腸癌患者樣本有40個(gè),

20、樣本編號(hào)從C1C40?;騡在每個(gè)樣本中表達(dá)水平Vg=vg1, vg2, vgn可以看成是一維向量。我們將理想基因e定義為: (5)如果基因g是結(jié)腸癌的信息基因,它本身攜帶有分類信息越多,分類能力越強(qiáng),那么它越接近于理想基因e。我們從兩個(gè)方面來(lái)考慮基因g向量與理想基因e的接近程度,一個(gè)是基因向量之間的夾角的余弦值,如果余弦值靠近-1或者1,那么這兩個(gè)基因向量夾角越小。此外,這兩個(gè)向量之間的歐拉距離也可以作為一個(gè)衡量的標(biāo)準(zhǔn),兩個(gè)基因向量之間的歐拉距離越小,說(shuō)明這兩個(gè)基因向量越靠近。最后,我們用相似度這個(gè)值來(lái)量化信息基因與理想基因之間的接近程度8。(1)基因g與基因e的夾角定義為:(6)其中(2)

21、基因g與基因e的歐拉距離為:(7)(3)基因g與基因e的相似度為:(8)從相似度的定義中,我們可以看出,基因g與理想基因e向量的歐拉距離不變,夾角越小,余弦值的絕對(duì)值越大,相似度越大?;騡和e的夾角不變,歐拉距離越小,相似度越大。相似度定義很好地量化了基因g與理想基因e之間的相關(guān)性,相似度越高,說(shuō)明基因g的分類能力越強(qiáng)。同樣的,我們可以通過(guò)設(shè)置適當(dāng)?shù)拈撝?,將基因表達(dá)譜中信息基因和無(wú)關(guān)基因區(qū)分開,達(dá)到降維的效果。(9)5.1.2.3 綜合模型本文在處理第一題時(shí),綜合利用了巴氏距離模型和理想基因模型,以巴氏距離模型為主,但是由于基因表達(dá)譜中的噪聲會(huì)影響巴氏距離模型選出來(lái)的信息基因的效果,所以再以

22、理想基因模型為輔,選取一些與理想基因相似度高的基因,防止將一些信息基因剔除。我們首先計(jì)算基因的巴氏距離前200的基因,然后再計(jì)算與理想基因的相似度,選取相似度值前50,并且不與前面重復(fù)的基因,組成大小為250的信息基因集合。這個(gè)基因集合大約占題目所給基因總數(shù)的20%,大幅壓縮了冗余基因。這250個(gè)基因集合作為第二問(wèn)的特征子集的搜索空間。圖5.1.1 綜合模型的分類基因流程圖下圖是綜合模型得到的信息基因集合的構(gòu)成。圖5.1.2 綜合模型的分類基因組成5.1.3 問(wèn)題一的模型求解1、計(jì)算所有基因標(biāo)簽的巴氏距離。根據(jù)巴氏距離計(jì)算公式,我們得到了1911個(gè)基因的巴氏距離分布情況,見表2。表5.1.2

23、基因標(biāo)簽的巴氏距離分布巴氏距離基因個(gè)數(shù)百分比00.05149278.04%0.050.129015.18%0.10.15784.08%0.150.2311.62%0.20.25130.68%0.250.470.36%圖5.1.3 基因標(biāo)簽的巴氏距離分布直方圖2、計(jì)算剩余基因與理想基因的相似度接下來(lái),我們基因表達(dá)譜中所有基因與理想基因的相似度,然后取相似度前50,且不與巴氏模型的結(jié)果重復(fù)的基因。表5.1.3 基因的相似度分布表相似度基因數(shù)目百分比0.0-0.0263833.38%0.02-0.0493448.87%0.04-0.0629115.23%0.06-0.08432.25%0.08-0.

24、1050.26%圖5.1.4 基因標(biāo)簽的相似度分布直方圖5.1.4 問(wèn)題一的結(jié)果及分析問(wèn)題一的主要目的在于剔除與腫瘤無(wú)關(guān)的基因,通過(guò)巴氏距離模型和理想基因模型處理之后,基因的數(shù)量從原來(lái)的1911個(gè)大幅度地減少到了250個(gè),降低了第二問(wèn)FSSM算法的搜索特征子集的空間。5.2 問(wèn)題二的分析、建模與求解5.2.1 問(wèn)題二的分析問(wèn)題一和問(wèn)題二其實(shí)都是對(duì)基因降維,問(wèn)題一從單個(gè)基因分類能力的角度出發(fā),剔除癌癥無(wú)關(guān)基因,縮小了人們搜索與癌癥相關(guān)的信息基因的范圍。而問(wèn)題二則是建立在問(wèn)題一的基礎(chǔ)上,從剩下的250個(gè)信息基因中搜索特征子集,而這250個(gè)基因可以組成2250個(gè)不同的特征子集,這就需要一個(gè)很高效的搜

25、索算法,同時(shí)也需要有一個(gè)合理的評(píng)價(jià)函數(shù),能夠評(píng)價(jià)不同的特征子集的分類能力,從而篩選出分類能力強(qiáng)的特征子集。最后將樣本分成訓(xùn)練集和測(cè)試集,再選擇合適的具有學(xué)習(xí)能力的分類器,查看候選特征子集的分類能力。特征子集大小和分類準(zhǔn)確率為評(píng)價(jià)指標(biāo)可以作為衡量指標(biāo)。5.2.2基于FSSM算法的特征子集的生成本文采用FSSM(Floating Sequential Search Method)搜索算法23,對(duì)特征子集所構(gòu)成的子空間進(jìn)行搜索,從中選取30個(gè)具有不同維數(shù)的待選分類特征子集,然后使用SVM和人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)這30個(gè)特征子集的分類能力。FSSM搜索算法中采用關(guān)鍵函數(shù)J作為動(dòng)態(tài)搜索特征子集過(guò)程中的評(píng)價(jià)函數(shù)

26、,評(píng)價(jià)函數(shù)的描述如下3: (10)其中,F(xiàn)i表示含有i個(gè)信息基因的特征子集,1 、2表示特征子集Fi中的信息基因在正常樣本和結(jié)腸癌樣本中的均值向量,1、2表示Fi中的信息基因在正常樣本和結(jié)腸癌樣本中數(shù)據(jù)的的協(xié)方差矩陣,本文中1為i×22矩陣,2為i×40矩陣。J函數(shù)也是基于巴氏距離的,不過(guò)計(jì)算的是信息基因集合的巴氏距離。第一問(wèn)我們利用巴氏距離模型,計(jì)算出單個(gè)基因的巴氏距離,很好地區(qū)分出信息基因和無(wú)關(guān)基因。FSSM中J函數(shù)的作用在于,它從同樣大小的信息集合中選擇J值較大的,具有最強(qiáng)的分類能力子集代表。FSSM算法中,令數(shù)組Fmaxi表示含有i個(gè)信息基因的具有最大評(píng)價(jià)函數(shù)值的特

27、征子集,本文采用matlab語(yǔ)言實(shí)現(xiàn)了FSSM算法,數(shù)組SelectMax i表示計(jì)算過(guò)程中,計(jì)算出含有i+1個(gè)基因的最大特征子集時(shí)選擇i個(gè)的特征子集的最大J值,參考文獻(xiàn)2中的算法思想給出matlab算法的處理過(guò)程如圖2.1所示。圖 5.2.1 FSSM算法matlab實(shí)現(xiàn)的算法流程通過(guò)運(yùn)行FSSM算法,最終生成30個(gè)信息基因的特征子集,本文的下一節(jié)分別通過(guò)支持向量機(jī)方法(SVM)和人工神經(jīng)網(wǎng)絡(luò)方法考察選出的特征子集的分類能力。5.2.3.1 基于支持向量機(jī)(SVM)的分類特征子集選擇本文的上一節(jié)采用FSSM算法生成了34個(gè)具有不同維數(shù)的特征子集,該部分以支持向量機(jī)為分類器對(duì)34個(gè)特征子集進(jìn)行

28、樣本識(shí)別,最終獲得具有最大分類正確率的基因組合。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)的目的是根據(jù)給定的訓(xùn)練樣本對(duì)輸入輸出之間的依賴關(guān)系的估計(jì),使得可以對(duì)未知的輸出盡可能準(zhǔn)確的預(yù)測(cè)。支持向量機(jī)的核心思想就是調(diào)整評(píng)價(jià)函數(shù)使得最好地利用邊界樣本點(diǎn)的分類信息,從而構(gòu)造出最佳分類超平面,因此支持向量機(jī)可以獲得很好的泛化能力并且與樣本的具體分布無(wú)關(guān)7。結(jié)合基因圖譜數(shù)據(jù)特點(diǎn)發(fā)現(xiàn),支持向量機(jī)可以有效地處理高維樣本的分類問(wèn)題,計(jì)算復(fù)雜度受樣本維數(shù)的影響較小,適合處理小樣本、高維數(shù)的基因表達(dá)譜數(shù)據(jù)的樣本分類問(wèn)題。本文使用34組具有不同維數(shù)的特征子集依次作為特征屬性使用支

29、持向量機(jī)學(xué)習(xí)出分類模型后驗(yàn)證其分類能力。由于樣本實(shí)例的數(shù)目有限,我們采用10-fold交叉驗(yàn)證的方法來(lái)評(píng)估學(xué)習(xí)得到的模型的分類能力,進(jìn)而評(píng)估選擇的特征基因組合的識(shí)別能力。具體方法是將數(shù)據(jù)集分成10份,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì)。5.2.3.2 基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的分類特征子集選擇人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型. 在這一模型中, 大量的節(jié)點(diǎn)之間相互聯(lián)接構(gòu)成神經(jīng)網(wǎng)絡(luò),以達(dá)到處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)對(duì)矢量進(jìn)行樣本識(shí)別前需要進(jìn)行訓(xùn)練,訓(xùn)練的過(guò)程就是應(yīng)用一系列輸入矢量,通過(guò)某種算法逐步調(diào)整權(quán)值和閾值的過(guò)程,

30、通過(guò)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)對(duì)一組輸入矢量產(chǎn)生希望的輸出。訓(xùn)練后的人工神經(jīng)網(wǎng)絡(luò)即可以用于對(duì)正常樣本和結(jié)腸癌樣本的分類。本文也采用了基于人工神經(jīng)網(wǎng)絡(luò)的分類器,使用34組具有不同維數(shù)的特征子集依次作為特征屬性使用支持向量機(jī)學(xué)習(xí)出分類模型后驗(yàn)證其分類能力,進(jìn)而評(píng)估選擇的特征基因組合的識(shí)別能力??梢耘cSVM的結(jié)果進(jìn)行對(duì)比。5.2.4 問(wèn)題二的結(jié)果及分析本題我們首先使用FSSM方法從250個(gè)信息基因中搜索,生成34個(gè)不同大小的特征子集,子集大小從2到35不等。然后在62個(gè)樣本集合上使用SVM(支持向量機(jī))和人工神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練出分類器,然后評(píng)估分類器的分類能力,進(jìn)而評(píng)估所用基因特征子集識(shí)別下面給出經(jīng)過(guò)SVM10

31、0次10-fold交叉驗(yàn)證之后,樣本分類準(zhǔn)確率在前五的特征子集以及它們的分類準(zhǔn)確率。最好的一組特征子集的樣本分類能力達(dá)到了95.79%,并且該組特征子集的大小只有5。符合我們之前對(duì)特征子集的分類能力以及子集大小的要求。表5.2.1 特征子集分類準(zhǔn)確率前五名特征子集大小分類準(zhǔn)確率Hsa.37937, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080595.79%Hsa.37937, Hsa.710, Hsa.3016, Hsa.5392494.32%Hsa.37937, Hsa.549, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080691.

32、10%Hsa.37937, Hsa.549, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080, Hsa.2058, Hsa.43331, Hsa.8214, Hsa.823, Hsa.957, Hsa.33965, Hsa.816, Hsa.490, Hsa.732, Hsa.36689, Hsa.2928, Hsa.8147, Hsa.6814, Hsa.22502089.56%Hsa.37937, Hsa.549, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080, Hsa.2058, Hsa.43331, Hsa.8214, Hsa.

33、823, Hsa.957, Hsa.33965, Hsa.816, Hsa.490, Hsa.732, Hsa.36689, Hsa.2928, Hsa.8147, Hsa.6814, Hsa.2250, Hsa.7048, Hsa.582289.27%圖5.2.2 SVM下不同特征子集的樣本識(shí)別情況為了驗(yàn)證最優(yōu)特征子集的準(zhǔn)確性,我們使用Matlab工具繪制了Hsa.37937,Hsa.710,Hsa.3016,Hsa.5392,Hsa.6080這五個(gè)基因在62個(gè)樣本中的表達(dá)水平。說(shuō)明一下,下面的五張圖中,*代表正常人樣本的基因表達(dá)水平,+代表癌癥病人樣本的基因表達(dá)水平。圖5.2.3 基因標(biāo)簽

34、Has.37937在不同樣本的表達(dá)水平通過(guò)這張圖,我們可以明顯地看出Has.37937基因在正常人和結(jié)腸癌病人兩類樣本的表達(dá)水平差異非常明顯。圖5.2.4 基因標(biāo)簽Has.710在不同樣本的表達(dá)水平這張圖顯示基因Has.710的分類效果其實(shí)并不理想,無(wú)論從均值還是從方差來(lái)看,都不顯著。它被選進(jìn)特征子集的原因既有可能是噪聲的影響,這點(diǎn)我們會(huì)在第三問(wèn)中繼續(xù)討論。圖5.2.5 基因標(biāo)簽Has.3016在不同樣本的表達(dá)水平基因標(biāo)簽Has.3016的在兩類樣本中的表達(dá)水平差異也很大。圖5.2.6 基因標(biāo)簽Has.5392在不同樣本的表達(dá)水平圖5.2.7 基因標(biāo)簽Has.5392在不同樣本的表達(dá)水平同樣的

35、,我們也利用人工神經(jīng)網(wǎng)絡(luò)20次循環(huán)驗(yàn)證特征子集的分類能力,下表給出了樣本分類準(zhǔn)確率在前三的特征子集以及它們的分類準(zhǔn)確率。通過(guò)與前面的SVM的樣本分類能力對(duì)比,我們發(fā)現(xiàn)Hsa.37937, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080這組特征子集的分類能力確實(shí)最強(qiáng),所以確定結(jié)腸癌的基因標(biāo)簽就是這組特征子集。表5.2.2 人工神經(jīng)網(wǎng)絡(luò)中特征子集分類準(zhǔn)確率前三名特征子集大小分類準(zhǔn)確率Hsa.37937, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080593.54%Hsa.37937, Hsa.549, Hsa.710, Hsa.3016, H

36、sa.5392, Hsa.6080, Hsa.43331, Hsa.8214, Hsa.823993.54%Hsa.37937, Hsa.549, Hsa.710, Hsa.3016, Hsa.5392, Hsa.6080691.94%5.3 問(wèn)題三的分析、建模與求解5.3.1 問(wèn)題三的分析使用DNA微陣列(DNA Microarray)技術(shù)測(cè)量基因表達(dá)水平得到的數(shù)據(jù)具有噪聲強(qiáng)、波動(dòng)大的特點(diǎn),同時(shí)在大量數(shù)據(jù)的背后還有很多相關(guān)變量不能被直接觀察到4,所以我們有必要仔細(xì)研究表達(dá)譜中的噪音,并給出相應(yīng)的理論觀點(diǎn),處理思路和方法。首先,從提取基因表達(dá)譜的角度看,噪聲可以分為兩類:一種噪聲可以認(rèn)為測(cè)量誤

37、差引入的噪聲,在任何測(cè)量過(guò)程中無(wú)法避免的;另一種噪聲是無(wú)關(guān)基因,該類基因在正常樣本和結(jié)腸癌樣本中的表達(dá)水平非常接近,沒(méi)有為腫瘤的判斷提供有用的信息,該類基因的存在增加了提取信息基因的難度。無(wú)關(guān)基因是本文研究的問(wèn)題之一,已經(jīng)在第一問(wèn)中試圖解決了。下面主要關(guān)注第一種噪音。這類噪音主要是測(cè)量誤差引起的,我們知道測(cè)量誤差可以分為以下三類5:1. 系統(tǒng)誤差,主要是由于測(cè)量設(shè)備的缺陷、測(cè)量環(huán)境變化、測(cè)量時(shí)使用的方法不完善、所依據(jù)的理論不嚴(yán)密或采用了某些近似公式等造成的誤差。2. 隨機(jī)誤差,在同一測(cè)試條件下,多次重復(fù)測(cè)量同一量時(shí),誤差大小、符號(hào)均以不可預(yù)定的方式變化著的誤差上。3. 疏失誤差,是指在一定的測(cè)

38、量條件下,測(cè)得的值明顯偏離其真值,既不具有確定分布規(guī)律,也不具有隨機(jī)分布規(guī)律的誤差。從誤差的定義可以知道,系統(tǒng)誤差和隨機(jī)誤差是必然存在的。而且在DNA微陣列技術(shù)中系統(tǒng)誤差是比較大的。隨機(jī)誤差是時(shí)刻存在的,且其服從一種自然分布。系統(tǒng)誤差與隨機(jī)誤差的劃分是相對(duì)的,二者在一定條件下可以相互轉(zhuǎn)化,即同一誤差,既可以是系統(tǒng)誤差,又可以成為隨機(jī)誤差。疏失誤差是由于測(cè)試人員對(duì)儀器不了解、或因思想不集中、粗心大意導(dǎo)致錯(cuò)誤的讀,使測(cè)量結(jié)果明顯地偏離了真值。對(duì)這三種誤差的處理方法不同:對(duì)于含有疏失誤差的測(cè)量值應(yīng)予以剔出;對(duì)于隨機(jī)誤差的影響用統(tǒng)計(jì)的方法來(lái)消除或減弱;對(duì)于系統(tǒng)誤差則主要靠測(cè)量過(guò)程中采取一定的技術(shù)措施來(lái)

39、削弱或?qū)y(cè)量值進(jìn)行必要的修正來(lái)減弱其影響。結(jié)合到基因圖譜信息提取這項(xiàng)具體技術(shù)中,我們無(wú)法求證系統(tǒng)誤差的大小,只能結(jié)合到系統(tǒng)誤差和隨機(jī)誤差的關(guān)系將其中的一部分作為隨機(jī)誤差來(lái)處理。而疏忽誤差和設(shè)備老化、環(huán)境突變等惡劣因素引發(fā)的系統(tǒng)誤差導(dǎo)致的是異常數(shù)據(jù),會(huì)影響到建模方法的有效性,所以是我們需要在數(shù)據(jù)中剔除或者修正的。下面我們針對(duì)疏忽誤差和隨機(jī)誤差引發(fā)的噪聲分別建立模型。5.3.2 問(wèn)題三的模型建立我們對(duì)兩種噪聲分別討論與之對(duì)應(yīng)的模型:圖5.3.1 去噪模型5.3.2.1異常數(shù)據(jù)濾波模型和主成分分析去噪模型去除噪聲數(shù)據(jù)是數(shù)據(jù)預(yù)處理的一項(xiàng)基本處理過(guò)程。針對(duì)從基因表達(dá)譜這類特殊的數(shù)據(jù)中發(fā)現(xiàn)基因標(biāo)簽這類特點(diǎn)

40、問(wèn)題,我們討論一般的濾波去噪方法并提出一種主成分分析的去噪模型。考慮到基因表達(dá)譜中的數(shù)據(jù)主要是來(lái)源于在癌癥患者和正常人的基因上通過(guò)微觀實(shí)驗(yàn)和生物化學(xué)原理等復(fù)雜技術(shù)獲取到的。鑒于微觀實(shí)驗(yàn)操作難度,系統(tǒng)誤差可能導(dǎo)致突兀數(shù)據(jù)。同時(shí)考慮到癌癥這種本身就是生理及其異常的疾病,即使是患有同一種癌癥的病人也可能存在某些局限于個(gè)別人的基因突變的情況??紤]到研究中主要是發(fā)現(xiàn)問(wèn)題的一般規(guī)律,我們做如下假設(shè):1. 某些癌癥病人的基因突變引發(fā)的數(shù)據(jù)突變視為異常數(shù)據(jù)2. 由于數(shù)據(jù)具有高噪聲、波動(dòng)大的特點(diǎn),將系統(tǒng)誤差和疏忽誤差引起的突兀數(shù)據(jù)作為異常數(shù)據(jù)3. 數(shù)據(jù)中一定存在噪聲,主要是由測(cè)量的隨機(jī)誤差和固有的系統(tǒng)的誤差共同

41、決定,并且噪聲數(shù)據(jù)符合高斯分布。1)異常數(shù)據(jù)濾波模型我們建立去除異常數(shù)據(jù)帶來(lái)的噪聲的模型。主要采用兩種方法:均值濾波和中值濾波。通過(guò)觀察,我們發(fā)現(xiàn)基因表達(dá)譜數(shù)據(jù)中存在突兀的數(shù)據(jù)項(xiàng),即基因的樣本數(shù)據(jù)嚴(yán)重偏離該樣本的均值,下面統(tǒng)一稱為異常數(shù)據(jù)。我們分別使用均值和中位數(shù)作為數(shù)據(jù)的參考基準(zhǔn),實(shí)驗(yàn)中設(shè)定閾值并通過(guò)調(diào)整其大小來(lái)設(shè)定過(guò)濾異常數(shù)據(jù)的濾波窗口的大小。均值濾波算法過(guò)程如下:Step 1. 設(shè)定濾波窗口閾值a和調(diào)整數(shù)據(jù)比例閾值b=5%;Step 2. 對(duì)每個(gè)正常人和癌癥病人分別計(jì)算Step3;Step 3. 計(jì)算每個(gè)基因維度數(shù)據(jù)的均值,并根據(jù)窗口閾值調(diào)整落在窗口外面的奇異的到窗口邊緣;Step 4.

42、 統(tǒng)計(jì)被調(diào)整的奇異數(shù)據(jù)項(xiàng)的數(shù)量,并計(jì)算其在整個(gè)數(shù)據(jù)中的比例。調(diào)整比例如果約為5%則終止程序,否則跳轉(zhuǎn)到Step 1按照一定步長(zhǎng)調(diào)整a的值。中位數(shù)濾波算法類似,不再贅述。下面主要從基因譜數(shù)據(jù)挖掘基因標(biāo)簽這個(gè)具體應(yīng)用出發(fā)構(gòu)建主成分分析去噪模型。2)主成分分析去噪模型主成分分析是一種采用組合特征的方法將多維數(shù)據(jù)降維的方法。方法的目標(biāo)是尋找在最小化重構(gòu)誤差的意義下最能夠代表原始數(shù)據(jù)的投影方法。降維后的數(shù)據(jù)能夠比較好的代表原始數(shù)據(jù)。主成分分析的主要思想是:1. 用一維向量表示高維樣本2. 將一維投影量擴(kuò)展到相對(duì)低維的空間3. 低維空間是由高維空間數(shù)據(jù)的散布矩陣的最大幾個(gè)特征值向量構(gòu)成通常情況下高維空間數(shù)

43、據(jù)的散步矩陣的最大幾個(gè)特征值占據(jù)了特征之和的絕大部分,所以可以認(rèn)為少數(shù)幾個(gè)最大特征值對(duì)應(yīng)的特證向量即可表示原數(shù)據(jù)中 的絕大部分信息,而剩下的小部分(即對(duì)應(yīng)較小的特征值的特征向量所表示的信息),通常可以認(rèn)為是數(shù)據(jù)噪聲而丟掉??紤]到基因譜數(shù)據(jù)的高噪音、多異常、大波動(dòng)的特點(diǎn),我們可以通過(guò)主成分分析的方法在降低維度的過(guò)程中去除噪音數(shù)據(jù)。主成分分析一般是對(duì)樣本的特征屬性維度進(jìn)行降維,在基因譜數(shù)據(jù)中即對(duì)應(yīng)于基因維度。一方面由于主成分分析降維中是將當(dāng)前的維度空間映射到低維空間,映射后將會(huì)當(dāng)前維的多個(gè)維度映射到低維空間某個(gè)維度上,從而降維后的數(shù)據(jù)維度并不對(duì)應(yīng)于某個(gè)當(dāng)前維度;另一方面考慮到基因的維度在選取特征基

44、因問(wèn)題要求下需要是不能在降維去噪的過(guò)程中被“壞掉”的。所以我們考慮從樣本的維度使用主成分分析方法進(jìn)行降維去噪。我們將數(shù)據(jù)集合按照樣本的種類分成多個(gè)數(shù)據(jù)集合(這里是兩個(gè)類別)分別進(jìn)行主成分分析,這樣降維后的每個(gè)數(shù)據(jù)項(xiàng)可以看成一個(gè)新的樣本,并且其類別保持降維前所屬的類別。5.3.2.2 隨機(jī)噪音的高斯模型由隨機(jī)誤差和固有的系統(tǒng)誤差引入的噪音有很好的隨機(jī)性,一般假設(shè)其符合某種自然分布,其中以高斯分布最為普遍。下面介紹兩種使用概率方法基于噪音模型的建模方法。下面首先介紹一種對(duì)噪音建模的高斯過(guò)程分類器(Gaussian Process Classification)6,其基于貝葉斯(Bayes)理論的概

45、率學(xué)習(xí)算法,使用高斯過(guò)程模型對(duì)噪音建立模型效果很好。圖5.3.1 GPC圖模型示意圖6高斯過(guò)程分類器(簡(jiǎn)稱為GPC)可以看作是一個(gè)圖模型(如圖5.3.1),用隨機(jī)變量表示輸入、潛在變量表示函數(shù)值和類別標(biāo)簽。潛在函數(shù)值完全決定類別標(biāo)簽。有很多噪音模型用來(lái)建模類別標(biāo)簽的似然函數(shù)。該問(wèn)題可以如下作形式化定義:僅考慮二分類問(wèn)題,假定有數(shù)據(jù)集其中表示實(shí)例,表示兩類標(biāo)簽。在訓(xùn)練數(shù)據(jù)集上,我們希望訓(xùn)練得到一個(gè)分類模型能通過(guò)計(jì)算新實(shí)例的可能性最大的所屬類別。高斯過(guò)程分類器的核心思想是假設(shè)可以通過(guò)一些與關(guān)聯(lián)的且真正有價(jià)值的隱藏變量來(lái)判別出實(shí)例的類別。下面闡述從貝葉斯框架的角度建立GPC模型的主要步驟。首先,我們

46、在函數(shù)上設(shè)定一個(gè)先驗(yàn)概率,即給定一個(gè)有限集合,隨機(jī)向量服從高斯分布。不是一般性我們假設(shè)過(guò)程的期望為0,且有和的協(xié)方差為:其中超參數(shù)反映了隱藏變量方差的垂直波動(dòng),表示隱藏變量離0期望的偏置,表示隱藏噪音的方差(表示噪音,期望為0,方差為),表示第m個(gè)特征屬性在模型中的貢獻(xiàn)權(quán)重。隱藏函數(shù)值服從多元高斯分布:其次,確定似然值為給定樣本和隱藏函數(shù)值的結(jié)合,是似然函數(shù)的乘積:我們假定隱藏函數(shù)值被高斯噪音影響,并且和輸入獨(dú)立。其中考慮了高斯噪音后的似然函數(shù)為:第三,可以得到后驗(yàn)概率:第四,根據(jù)文獻(xiàn)6中的推導(dǎo)可以預(yù)測(cè)給定的實(shí)例的類別的分布:其中是假設(shè)發(fā)現(xiàn)的最優(yōu)超參數(shù)。至此建立了貝葉斯框架下的基于噪聲模型的高

47、斯過(guò)程分類器。文獻(xiàn)6中使用Expectation Propagation算法求解GPC模型,并在colon cancer數(shù)據(jù)集(和本文實(shí)驗(yàn)的數(shù)據(jù)集十分類似)上面進(jìn)行試驗(yàn),得到如下結(jié)果:表5.3.1 2000個(gè)基因的測(cè)試錯(cuò)誤率從這個(gè)結(jié)果可以看出基于噪音模型的GPC模型可以取得比較好的結(jié)果。5.3.3 問(wèn)題三的討論從上面的論述可以看出,噪音在建立優(yōu)秀的分類器,尤其是基于概率模型的分離器中起到了很重要的角色。下面我們將從分類器的泛化能力的角度,闡述一下噪音扮演的重要作用。我們?cè)诖_定基因標(biāo)簽的過(guò)程中主要是要判別基因標(biāo)簽對(duì)癌癥的識(shí)別能力,通常的方法是使用基因組合作為特征屬性訓(xùn)練出一個(gè)分類器,并通過(guò)分類器

48、的分類能力來(lái)鑒別基因組合是否為基因標(biāo)簽(參考第一、第二問(wèn)的解決方案)。而數(shù)據(jù)中存在噪音是不可避免的,同時(shí)也是有其優(yōu)點(diǎn)的。在使用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)分類器的過(guò)程中,我們需要避免的一個(gè)問(wèn)題就是分類器對(duì)訓(xùn)練數(shù)據(jù)的過(guò)渡擬合。過(guò)渡擬合:是訓(xùn)練獲得的模型過(guò)于符合訓(xùn)練數(shù)據(jù)的特點(diǎn),而泛化能力較弱,從而在未知的新的測(cè)試數(shù)據(jù)集上面的分類效果一般,甚至錯(cuò)誤較多。這樣噪音的存在可以再很大程度上擾動(dòng)了分類器的容忍能力,使他不可能完全擬合訓(xùn)練數(shù)據(jù),從而對(duì)新的測(cè)試樣本有比較好的識(shí)別能力。而且在確定腫瘤的基因標(biāo)簽的背景之下,未知類別的測(cè)試樣本的數(shù)據(jù)異常情況比較多見,這時(shí)候分類器的泛化能力顯得尤為重要。所以基于噪音較大的數(shù)據(jù)

49、發(fā)現(xiàn)出來(lái)的基因標(biāo)簽的對(duì)這些異常癌癥樣本的識(shí)別能力在一定程度上得到保證。5.4 問(wèn)題四的分析、建模與求解5.4.1 問(wèn)題四的分析問(wèn)題一、二、三的基因圖譜分析模型都是以基因圖譜的統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ)進(jìn)行分析的,而基因圖譜信息不可避免的含有噪聲,而這些噪聲會(huì)影響特征腫瘤信息基因的確定。實(shí)際在腫瘤的研究領(lǐng)域,根據(jù)臨床經(jīng)驗(yàn)會(huì)已知若干個(gè)基因與某種癌癥的關(guān)系密切,因此將包含臨床經(jīng)驗(yàn)的知識(shí)庫(kù)融入到基因圖譜模型中更加有利于癌癥信息基因的確定。題目中已知信息臨床生理學(xué)信息:大約有90%結(jié)腸癌在早期有5號(hào)染色體長(zhǎng)臂APC基因的失活,而只有40%50%的ras相關(guān)基因突變。根據(jù)這個(gè)信息可以建立結(jié)腸癌的知識(shí)庫(kù),在基因表達(dá)譜的

50、分析上可以重視知識(shí)庫(kù)中的基因,提高其重要性參數(shù),因此得到的腫瘤信息標(biāo)簽在具有很好的結(jié)腸癌判別能力的同時(shí),更加尊重了實(shí)際臨床數(shù)據(jù)的重要性。該部分首先分析我們提出的基于知識(shí)庫(kù)的基因圖譜分析模型(Knowledge-based FSSM VSM ,KFS模型),然后結(jié)合題目中給定的結(jié)腸癌數(shù)據(jù)計(jì)算結(jié)腸癌的信息基因,并分析KFS模型與問(wèn)題二的基因圖譜分析模型間處理結(jié)果的分類能力比較,該部分最后給出結(jié)果分析以及出現(xiàn)該結(jié)果的原因,并提出了本模型還需要解決的問(wèn)題。5.4.2 問(wèn)題四的模型建立基于上述對(duì)問(wèn)題四的分析,本文提出一種基于知識(shí)庫(kù)的基因圖譜分析模型(KFS模型),該算法引入信息基因知識(shí)庫(kù)的概念,模型首先

51、基于臨床經(jīng)驗(yàn)建立模型的知識(shí)庫(kù),對(duì)去噪后的數(shù)據(jù)進(jìn)行樣本評(píng)價(jià)函數(shù)增益,然后對(duì)剔除基因圖譜中的無(wú)關(guān)基因,降維后的數(shù)據(jù)通過(guò)KFSSM(Knowledge-based FSSM)算法的處理得到分類特征子集空間,然后模型分別采用改進(jìn)的支持向量機(jī)(ISVM)以及人工神經(jīng)網(wǎng)絡(luò)(IANN)對(duì)分類特征子集的分類能力進(jìn)行考察,最終確定癌癥的信息基因組合,KFS模型的結(jié)構(gòu)圖如圖5.4.1所示。圖 5.4.1 基于知識(shí)庫(kù)的基因圖譜分析模型5.4.2.1 癌癥基因知識(shí)庫(kù)題目中提到腫瘤研究領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,那么在基因圖譜分析的中引入已知關(guān)系必然會(huì)提高腫瘤信息基因判別的實(shí)際準(zhǔn)確率和有用性。本文

52、提出一種腫瘤信息基因知識(shí)庫(kù)概念,用于存儲(chǔ)臨床經(jīng)驗(yàn)已經(jīng)發(fā)現(xiàn)的腫瘤信息基因。結(jié)合題意,本文提出的信息基因知識(shí)庫(kù)具有可以表示如下:基因名稱, 基因變化,基因樣本統(tǒng)計(jì)概率 (5.1)其中,基因名稱表示與該類腫瘤的信息基因名稱(本文算法中采用編號(hào)標(biāo)識(shí));基因變化分為突變和失活(本文算法中取值分別為1、-1),基因突變表示基因表達(dá)水平值明顯上調(diào),基因失活表示基因表達(dá)水平值明顯下降,表現(xiàn)在基因圖譜中是基因的表達(dá)水平出現(xiàn)較大波動(dòng);基因樣本統(tǒng)計(jì)概念表示該基因在樣本統(tǒng)計(jì)中發(fā)生變化(突變或失活)的概率。假設(shè)知識(shí)庫(kù)的一項(xiàng)記錄為gi , 1 , k%,參考表達(dá)式5.1可知該項(xiàng)記錄意思是信息基因gi在臨床經(jīng)驗(yàn)中有k%的樣

53、本表現(xiàn)出基因突變特征。引入信息基因知識(shí)庫(kù)的概念就是為了幫助從基因信息圖譜中判斷出腫瘤的信息基因組,考慮信息基因與癌癥的密切關(guān)系,本文提出的信息基因知識(shí)庫(kù)在KFS模型中的作用主要有三個(gè):1)知識(shí)庫(kù)在數(shù)據(jù)預(yù)處理中的作用由于基因表達(dá)譜中不可避免的存在噪聲等因素的干擾,并且由于基因圖譜中樣本數(shù)目相對(duì)于基因數(shù)目往往很少,那么即使是信息基因也可能因?yàn)樵肼晹?shù)據(jù)而沒(méi)有被選為信息基因,因此需要知識(shí)庫(kù)來(lái)修正這個(gè)結(jié)果。由于知識(shí)庫(kù)樣本數(shù)據(jù)的多樣性以及臨床數(shù)據(jù)的可供參考性,參考知識(shí)庫(kù)中的信息基因修正相應(yīng)的樣本值:通過(guò)增加該基因的評(píng)價(jià)參數(shù)(巴氏距離),則可以使得該基因表現(xiàn)的更像信息基因。2)知識(shí)庫(kù)在分類特征子集生成過(guò)程中

54、的作用FSSM算法的特征子集空間搜索過(guò)程中的評(píng)價(jià)函數(shù)是以Fi的Bhattacharyya距離為評(píng)價(jià)函數(shù),這忽視了知識(shí)庫(kù)中信息基因的重要性,在比較selectMaxi與Fmaxi的更新問(wèn)題上就需要判斷是否需要更新,具體算法見KFSSM算法的描述。需要說(shuō)明的是,雖然信息基因知識(shí)庫(kù)中基因具有更重要的作用,但是不會(huì)出現(xiàn)在所有的特征子集中,這也是符合算法執(zhí)行的情況的,具體分析見問(wèn)題四的結(jié)果及分析部分。3)知識(shí)庫(kù)在分類器中的作用本文同樣將知識(shí)庫(kù)的作用考慮進(jìn)了支持向量機(jī)以及人工神經(jīng)網(wǎng)絡(luò)分類器中,在機(jī)器學(xué)習(xí)的過(guò)程中考慮知識(shí)庫(kù)中基因的重要性,提升了知識(shí)庫(kù)中基因在學(xué)習(xí)過(guò)程中的重要性。綜上所述,知識(shí)庫(kù)的本質(zhì)意義在于

55、對(duì)基于基因圖譜數(shù)據(jù)的處理過(guò)程中起到一個(gè)引導(dǎo)作用,使得結(jié)果在某種程度上偏向于具有較高參考價(jià)值的信息基因知識(shí)庫(kù)。5.4.2.2 基因圖譜數(shù)據(jù)預(yù)處理 由于一般基因圖譜中,樣本相對(duì)于基因數(shù)目往往很少,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問(wèn)題,因此需要對(duì)基因圖譜的原始數(shù)據(jù)進(jìn)行預(yù)處理,本文KFS模型中的圖譜數(shù)據(jù)預(yù)處理主要包含三個(gè)功能:噪聲處理、基于知識(shí)庫(kù)的樣本評(píng)價(jià)函數(shù)增益和無(wú)關(guān)基因剔除,該部分試圖通過(guò)對(duì)原始基因圖譜數(shù)據(jù)進(jìn)行分析得到初步過(guò)濾的特征子集,其結(jié)構(gòu)如下圖5.4.2所示。圖 5.4.2 KFS模型中預(yù)處理結(jié)構(gòu)圖1)噪聲去除由于在讀取生物芯片時(shí)一些不可控因素導(dǎo)致了某些基因樣本表達(dá)水平發(fā)生了很大的變化,因

56、此信息基因的信號(hào)有可能被噪聲淹沒(méi),因此在基因圖譜數(shù)據(jù)分析前需要進(jìn)行噪聲處理。本文提出的KFS模型中的噪聲去除直接采用了問(wèn)題三建立的噪聲模型,去除了基因表達(dá)譜中的噪聲數(shù)據(jù),為后續(xù)的基因圖譜分析提供較好的數(shù)據(jù)。2)基于知識(shí)庫(kù)的樣本評(píng)價(jià)函數(shù)增益本文采用Bhattacharyya距離作為衡量基因中蘊(yùn)含的分類信息量的評(píng)價(jià)函數(shù),基因的Bhattacharyya距離越大,該基因?qū)τ跇颖镜姆诸惸芰驮綇?qiáng),其被選為信息基因的可能性就越大?;谛畔⒒蛑R(shí)庫(kù)的分析,知識(shí)庫(kù)中的信息基因?qū)ε袛嗾颖竞桶┌Y樣本的區(qū)分能力很強(qiáng),體現(xiàn)在樣本的評(píng)價(jià)函數(shù)上就是需要大的Bhattacharyya距離,因此本文對(duì)基因的Bhattacharyya距離做簡(jiǎn)單的增益,以增加基因圖譜數(shù)據(jù)分析過(guò)程中該基因被選為信息基因的可能性。假設(shè)gi, x, k%為知識(shí)庫(kù)中的一個(gè)信息基因記錄,增益后的評(píng)價(jià)函數(shù)為:Bhattacharyya(gi) = Bhattacharyya(gi) +* ( k%* maxB)其中,增益參數(shù)經(jīng)的選擇

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論