腫瘤基因圖譜信息提取及分類(lèi)_第1頁(yè)
腫瘤基因圖譜信息提取及分類(lèi)_第2頁(yè)
腫瘤基因圖譜信息提取及分類(lèi)_第3頁(yè)
腫瘤基因圖譜信息提取及分類(lèi)_第4頁(yè)
腫瘤基因圖譜信息提取及分類(lèi)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、腫瘤基因圖譜信息提取和分類(lèi)方法研究摘 要 本文主要討論了如何提取腫瘤基因圖譜信息,主要工作是對(duì)結(jié)腸癌基因表達(dá)譜的特征基因信息進(jìn)行了提取,并利用四種神經(jīng)網(wǎng)絡(luò)模型對(duì)其進(jìn)行分類(lèi)識(shí)別。 對(duì)于問(wèn)題一、二,本文采用了一種致癌基因信息提取與分類(lèi)方法,該方法主要由四步構(gòu)成:(1)利用 距離法濾除不相關(guān)基因; (2)采用兩兩冗余分析,剔除強(qiáng)相關(guān)冗余基因;同時(shí),采用主 成分分析方法對(duì)所選擇的基因樣本數(shù)據(jù)進(jìn)行降維處理,得 到樣本的主成分量; (3)采用四種神經(jīng)網(wǎng)絡(luò)(BP 神經(jīng)網(wǎng)絡(luò)及三種徑向基神經(jīng)網(wǎng)絡(luò)) 對(duì)特征提取后的基因數(shù)據(jù)進(jìn)行分類(lèi)學(xué)習(xí),從而獲得分類(lèi) 網(wǎng)絡(luò)模型; (4)采用獲得的分類(lèi)網(wǎng)絡(luò)模型對(duì)測(cè)試腫瘤樣本進(jìn)行分類(lèi),

2、并采 用留一交叉檢驗(yàn)法和獨(dú)立檢驗(yàn)法評(píng)估四種神經(jīng)網(wǎng)絡(luò)分類(lèi) 器性能。 結(jié)果表明:本文所采用的特征提取方法能有效提出與腫瘤相關(guān)的信息基因,選取的特征基因子集包含9 個(gè)基因,且采用概率神經(jīng)網(wǎng)絡(luò)(PNN)的分類(lèi)識(shí)別準(zhǔn)確率(77.27%)最高。 關(guān)鍵詞:腫瘤基因;特征提取;分類(lèi)識(shí)別;一、問(wèn)題重述 癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下,基因組發(fā)生的突變,即基因在結(jié)構(gòu)上發(fā)生堿基對(duì)的組成或排列順序的改變,因而改變了基因原來(lái)的正常分布(即所包含基因的種類(lèi)和各類(lèi)基因以該基因轉(zhuǎn)錄的的多少來(lái)衡量的表達(dá)水平)。所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有深遠(yuǎn)的意義。DNA 微陣列(DNA ),也叫基因芯片,是最

3、近數(shù)年發(fā)展起來(lái)的一種能快速、高效檢測(cè)DNA 片段序列、基因表達(dá)水平的新技術(shù)。它將數(shù)目從幾百個(gè)到上百萬(wàn)個(gè)不等的稱之為探針的核苷酸序列固定在小的玻璃或硅片等固體基片或膜上,該固定有探針的基片就稱之為DNA 微陣列。根據(jù)核苷酸分子在形成雙鏈時(shí)遵循堿基互補(bǔ)原則,就可以檢測(cè)出樣本中與探針陣列中互補(bǔ)的核苷酸片段,從而得到樣本中關(guān)于基因表達(dá)的信息,這就是基因表達(dá)譜,因此基因表達(dá)譜可以用一個(gè)矩陣或一個(gè)向量來(lái)表示,矩陣或向量元素的數(shù)值大小即該基因的表達(dá)水平。 隨著大規(guī)?;虮磉_(dá)譜技術(shù)的發(fā)展,人類(lèi)各種組織的正常的基因表達(dá)已經(jīng)獲得,各類(lèi)病人的基因表達(dá)分布圖都有了參考的基準(zhǔn),因此基因表達(dá)數(shù)據(jù)的分析與建模已經(jīng)成為生物信

4、息學(xué)研究領(lǐng)域中的重要課題。從DNA 芯片所測(cè)量的成千上萬(wàn)個(gè)基因中,找出決定樣本類(lèi)別的一組基因“標(biāo)簽”,即“信息基因”是正確識(shí)別腫瘤類(lèi)型、給出可靠診斷和簡(jiǎn)化實(shí)驗(yàn)分析的關(guān)鍵所在。 通常由于基因數(shù)目很大,在判斷腫瘤基因標(biāo)簽的過(guò)程中,需要剔除掉大量“無(wú)關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。事實(shí)上,在基因表達(dá)譜中,一些基因的表達(dá)水平在所有樣本中都非常接近。因此,必須對(duì)這些“無(wú)關(guān)基因”進(jìn)行剔除。但信噪比肯定不是衡量基因?qū)颖痉诸?lèi)貢獻(xiàn)大小的唯一標(biāo)準(zhǔn),腫瘤是致癌基因、抑癌基因、促癌基因和蛋白質(zhì)通過(guò)多種方式作用的結(jié)果,在確定某種腫瘤的基因標(biāo)簽時(shí),應(yīng)該設(shè)法充分利用其他有價(jià)值的信息。有專家認(rèn)為在基因分類(lèi)研究

5、中忽略基因低水平表達(dá)、差異不大的表達(dá)的傾向應(yīng)該被糾正,與臨床問(wèn)題相關(guān)的主要生理學(xué)信息應(yīng)該融合到基因分類(lèi)研究中。 面對(duì)提取基因圖譜信息這樣前沿性課題,以下幾點(diǎn)是解決前沿性課題的有價(jià)值的工作。 (1)由于基因表示之間存在著很強(qiáng)的相關(guān)性,所以對(duì)于某種特定的腫瘤,似乎會(huì)有大量的基因都與該腫瘤類(lèi)型識(shí)別相關(guān),但一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少。對(duì)于給定的數(shù)據(jù),如何從上述觀點(diǎn)出發(fā),選擇最好的分類(lèi)因素? (2)相對(duì)于基因數(shù)目,樣本往往很小,如果直接用于分類(lèi)會(huì)造成小樣本的學(xué)習(xí)問(wèn)題,如何減少用于分類(lèi)識(shí)別的基因特征是分類(lèi)問(wèn)題的核心,事實(shí)上只有當(dāng)這種特征較少時(shí),分類(lèi)的效果才更好些。對(duì)于給定的結(jié)腸癌數(shù)據(jù)如何

6、從分類(lèi)的角度確定相應(yīng)的基因“標(biāo)簽”? (3)基因表達(dá)譜中不可避免地含有噪聲,有的噪聲強(qiáng)度甚至較大,對(duì)含有噪聲的基因表達(dá)譜提取信息時(shí)會(huì)產(chǎn)生偏差。通過(guò)建立噪聲模型,分析給定數(shù)據(jù)中的噪聲能否對(duì)確定基因標(biāo)簽產(chǎn)生有利的影響? (4)在腫瘤研究領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,建立融入了這些有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。二、問(wèn)題分析 本文問(wèn)題的關(guān)鍵在于如何對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行大幅度降維。 對(duì)于問(wèn)題一,就某種特定的腫瘤來(lái)說(shuō),一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少,但由于基因表示之間存在著很強(qiáng)的相關(guān)性,因而總會(huì)有大量的基因都與該腫瘤類(lèi)型識(shí)別相關(guān)。所以,首先根據(jù)給定基因數(shù)

7、據(jù),采用某一種基因相關(guān)性篩選方法進(jìn)行基因初選。根據(jù)數(shù)據(jù)分布得到的經(jīng)驗(yàn)值得到選擇信息基因的個(gè)數(shù)。 對(duì)于問(wèn)題二,相對(duì)于基因數(shù)目,樣本往往很小,如果直接用于分類(lèi)會(huì)造成小樣本的學(xué)習(xí)問(wèn)題,如何減少用于分類(lèi)識(shí)別的基因特征是分類(lèi)問(wèn)題的核心,事實(shí)上只有當(dāng)這種特征較少時(shí),分類(lèi)的效果才更好些。所以,第二步需要采用特征提取方法從初選出的信息基因子集中提取分類(lèi)特征信息,因?yàn)檫@些初選出來(lái)的信息基因相互之間存在高度的相關(guān)性,而具有這個(gè)特點(diǎn)的數(shù)據(jù)集也適合于采用諸如主成分分析這類(lèi)降維方法。三、模型假設(shè)1、所給基因數(shù)據(jù)不含奇異數(shù)據(jù);2、基因的功能與作用是多個(gè)基因集體作用的結(jié)果;3、與一種腫瘤直接相關(guān)的突變基因數(shù)目很少;4、 符

8、號(hào)約定符號(hào)意義B(g)基因g的 Bhattacharyya 距離 基因 在訓(xùn)練樣本集中表達(dá)水平間的Pearson 相關(guān)系數(shù); 相關(guān)系數(shù)矩陣網(wǎng)絡(luò)輸入向量網(wǎng)絡(luò)目標(biāo)向量中間層單元輸入向量中間層單元輸出向量輸出層單元輸入向量輸出層單元輸出向量輸入層至中間層的連接權(quán)中間層至輸出層的連接權(quán)中間層各單元的輸出閾值,輸出層各單元的輸出閾值,信息基因的可信度,神經(jīng)網(wǎng)絡(luò)輸出結(jié)果賦予權(quán)值,五、問(wèn)題一、二的分析、建模與求解 腫瘤分類(lèi)特征基因選取的目的在于從原始基因集合中提取出一組最能反映樣本分類(lèi)特性的基因以準(zhǔn)確地刻畫(huà)出事物的分類(lèi)模型,從而為最終確定腫瘤分類(lèi)與分型的基因標(biāo)記物提供可靠線索。該特征基因集合應(yīng)包含盡可能完整

9、的樣本分類(lèi)信息,即不丟失原始基因集合中所蘊(yùn)含的樣本分類(lèi)信息,可利用有效的分類(lèi)器實(shí)現(xiàn)對(duì)基因樣本的準(zhǔn)確分類(lèi)。 鑒于基因表達(dá)數(shù)據(jù)存在維數(shù)高、噪音大、樣本數(shù)量小以及基因表達(dá)之間存在很大相關(guān)性等特點(diǎn),本文設(shè)計(jì)了一種致癌基因信息提取與分類(lèi)方法。該方法的框架模型主要由下述五步構(gòu)成:第一步 信息基因選擇。采用 距離衡量基因含有樣本分類(lèi)信息的 多少,濾除不相關(guān)基因;第二步 冗余基因剔除。采用兩兩冗余分析,剔除強(qiáng)相關(guān)冗余基因;第三步 提取主成分分量。采用主成分分析(PCA)方法對(duì)所選擇的基因樣本數(shù)據(jù) 進(jìn)行降維處理,得到樣本的主成分分量;第四步 分類(lèi)模型訓(xùn)練和最優(yōu)基因組合篩選。對(duì)特征提取后的基因數(shù)據(jù)形成的 個(gè)候選基

10、因子集分別采用神經(jīng)網(wǎng)絡(luò)(BP 神經(jīng)網(wǎng)絡(luò)及三種徑向基神經(jīng) 網(wǎng)絡(luò))進(jìn)行分類(lèi)學(xué)習(xí),訓(xùn)練網(wǎng)絡(luò)權(quán)值,得到分類(lèi)網(wǎng)絡(luò)模型和最優(yōu)基因組 合;第五步 測(cè)試分類(lèi)模型。采用獲得的分類(lèi)網(wǎng)絡(luò)模型對(duì)測(cè)試腫瘤樣本進(jìn)行分類(lèi),并 采用留一檢驗(yàn)法和獨(dú)立檢驗(yàn)法評(píng)估四種神經(jīng)網(wǎng)絡(luò)分類(lèi)器性能。5.1 數(shù)據(jù)的預(yù)處理5.1.1 剔除原始數(shù)據(jù)中相同基因 由于樣本中存在大量的來(lái)源于一個(gè)基因樣本的多次重復(fù)試驗(yàn)數(shù)據(jù),為保證在特征提取和分類(lèi)時(shí),這些數(shù)據(jù)之間的相關(guān)性不對(duì)結(jié)果產(chǎn)生較大影響,該過(guò)程同時(shí)可在一定程度上消除數(shù)據(jù)的系統(tǒng)偏差。處理后,原始數(shù)據(jù)由2000 維降到1909 維。5.1.2 歸一化 本文使用的特征提取方法和人工神經(jīng)網(wǎng)絡(luò)分類(lèi)識(shí)別算法要求首先

11、對(duì)輸入數(shù)進(jìn)行歸一化處理。 5.2 類(lèi)別無(wú)關(guān)基因的濾除 由于只有少數(shù)基因與樣本某一特定的表型(生物類(lèi)別)相關(guān),其余大部分基因是同該表型無(wú)關(guān)的“類(lèi)別無(wú)關(guān)基因”。為有效選取樣本的分類(lèi)特征,本文首先利用基因之間的距離作為衡量基因含有樣本分類(lèi)信息多少的量。距離體現(xiàn)了屬性在兩個(gè)不同樣本中分布的差異,這種差異既包含了屬性在不同類(lèi)別分布均值的差異,同時(shí)也考慮了樣本分布方差不同對(duì)分類(lèi)的貢獻(xiàn)。其具體模型為: 式中 和分別為基因 在兩類(lèi)不同樣本中的表達(dá)水平的均值,和為相應(yīng)的標(biāo)準(zhǔn)差?;虻木嚯x越大,該基因在兩類(lèi)樣本中表達(dá)水平的分布差異也就越大,對(duì)樣本分類(lèi)的能力也就越強(qiáng)。 根據(jù)公式計(jì)算了每個(gè)基因的 距離,并作出了基因的

12、距離分布的直方圖,如圖所示。 本文選擇的 1709 個(gè)具有較小 距離的基因作為類(lèi)別無(wú)關(guān)基因予以剔除,余下的200 個(gè)基因作為進(jìn)一步分析的基礎(chǔ)。其距離值可認(rèn)為是基因信息指數(shù)。5.3 強(qiáng)相關(guān)性冗余基因的剔除 從分類(lèi)的角度看,上文得到個(gè)基因就可以作為分類(lèi)特征基因。然而,在這個(gè)基因中還可能存在冗余,這些冗余基因的存在與否并不會(huì)影響到整個(gè)分類(lèi)特征基因集合的樣本分類(lèi)能力。因此,本文進(jìn)一步應(yīng)用兩兩冗余分析算法2計(jì)算初選后的任意兩個(gè)基因表達(dá)水平間的相關(guān)系數(shù),若其相關(guān)系數(shù)大于指定閾值,則認(rèn)為兩個(gè)基因是強(qiáng)相關(guān)的,排除二者中分類(lèi)信息指數(shù)較小的那個(gè)基因,使排除冗余后的分類(lèi)特征基因集合具有較大的分類(lèi)信息指數(shù)。兩兩冗余分

13、析算法的偽代碼如下:(1) 對(duì)個(gè)基因按分類(lèi)信息指數(shù)由大到小排序,得到有序基因集合(2) (3) 其中, 為的勢(shì), 用來(lái)計(jì)算基因在訓(xùn)練樣本集中表達(dá)水平間的Pearson 相關(guān)系數(shù),具體計(jì)算公式如下:n式中 為基因 、在訓(xùn)練集第k 個(gè)樣本中的表達(dá)水平值,分別為、在訓(xùn)練集所有樣本中表達(dá)水平的均值。Threshold 為指定的相關(guān)系數(shù)閾值。兩兩冗余分析算法的程序流程如下圖所示:本文選用閾值為0.5,最后得到27個(gè)信息基因。5.4 基于主成分分析的降維處理 上述特征選擇方法提取出信息基因維數(shù)仍然較高,所以需要進(jìn)行降維處理,即用較少的幾個(gè)綜合指標(biāo)來(lái)代替原來(lái)較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多

14、地反映原來(lái)較多指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。主成分分析是把原來(lái)多個(gè)變量化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,本文將利用主成分分析法(PCA)3,4對(duì)信息基因進(jìn)行降維處理。對(duì)進(jìn)行主成分分析并從中提取主成分分量。為使樣本集在降維過(guò)程中所引起的平方誤差最小,必須進(jìn)行兩方面的工作:一是用雅可比方法求解正交變換矩陣;二是選取w個(gè)主成分分量,w < p。PCA的計(jì)算過(guò)程主要分三步進(jìn)行:第一步 將矩陣 中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(均值為0,方差為1),即對(duì)樣 本集中元素作變換: 第二步 為消除量綱對(duì)評(píng)價(jià)結(jié)果的影響,得到標(biāo)準(zhǔn)化后的矩陣 。計(jì)算樣本 矩陣的相關(guān)系數(shù)矩陣R 。 第三步 對(duì)于相關(guān)

15、系數(shù)矩陣R ,采用雅可比方法求特征方程 的個(gè) 非負(fù)特征值, 的特征向量為, 并且滿足 第四步 選擇 個(gè)主成分分量,使得前面?zhèn)€主成分的方差和占全部總方差 的比例并使所選的這個(gè)主成分盡可能多地保留原來(lái) 個(gè)基因的信息,得到的主成分矩陣記為。采用上述數(shù)據(jù)處理措施后選取的特征基因子集中含15個(gè)基因:X53799、M29273、U21914、L00352、D14520、X90858、R80427、X75208、D29808、M59807、D13627、M22760、R56070、Y00062、R50158。5.5 基于神經(jīng)網(wǎng)絡(luò)模型的致癌基因分類(lèi)方法5.5.1 本文選用的幾種神經(jīng)網(wǎng)絡(luò)模型(1)BP 神經(jīng)網(wǎng)絡(luò)

16、模型(BPNN) BPNN 由輸入層、輸出層以及一個(gè)或多個(gè)隱含層組成。本文采用單隱含層的三層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如圖5-4 所示。輸入層神經(jīng)元數(shù)目和樣本數(shù)相同,隱含層神經(jīng)元個(gè)數(shù)一般通過(guò)實(shí)驗(yàn)或根據(jù)經(jīng)驗(yàn)值選取,輸出層神經(jīng)元個(gè)數(shù)為1。BP 算法的學(xué)習(xí)訓(xùn)練過(guò)程由正向傳播和反向傳播兩階段組成。在正向傳播過(guò)程中,樣本數(shù)據(jù)從輸入層經(jīng)過(guò)隱含層傳遞函數(shù)的處理傳向輸出層。如果輸出層得不到期望的輸出,則轉(zhuǎn)入反向傳播過(guò)程,將誤差信號(hào)沿原來(lái)正向傳播的通路返回,利用均方誤差和梯度下降法來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)連接權(quán)的修正,以調(diào)整網(wǎng)絡(luò)的實(shí)際輸出與指導(dǎo)學(xué)習(xí)信號(hào)之間的均方誤差值。此過(guò)程反復(fù)進(jìn)行,直至滿足指定誤差要求達(dá)到最大訓(xùn)練次數(shù)終止。 設(shè)

17、網(wǎng)絡(luò)輸入向量為,實(shí)際輸出為 ,期望的輸出為。中數(shù)據(jù)分為兩類(lèi),表示正常,表示異常。給定隱含層或輸出層的神經(jīng)元,其輸入為,其中是由上一層的神經(jīng)元到神經(jīng)元的連接權(quán);傳遞函數(shù)是神經(jīng)元的輸出;是神經(jīng)元的偏置。對(duì)于訓(xùn)練集中的第個(gè)樣本,其誤差函數(shù)為 通常利用梯度下降法求誤差函數(shù)的極小值,即,其中,為學(xué)習(xí)速率,其值大于零。(2)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型(RBFNN) RBF 網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程分為三個(gè)階段。第一階段:根據(jù)所有輸入樣本決定高斯基函數(shù)的中心值和平滑因子;第二階段:利用最小二乘原則,求出輸出層的權(quán)值;第三階段:根據(jù)指導(dǎo)學(xué)習(xí)信號(hào)校正網(wǎng)絡(luò)參數(shù),以進(jìn)一步提高網(wǎng)絡(luò)的精度。RBF 網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)由輸入層、徑向基層和

18、輸出層組成,如圖5-5 所示。 輸入層接收來(lái)自訓(xùn)練樣本的值,其神經(jīng)元數(shù)目和樣本數(shù)相同,傳遞函數(shù)是線性的。 徑向基層神經(jīng)元采用高斯函數(shù)作傳遞函數(shù)(也稱基函數(shù)),第個(gè)徑向基層神經(jīng)元的輸出為,輸出范圍在和之間,其中是平滑因子,其取值確定了以樣本點(diǎn)為中心的高斯函數(shù)的寬度,一般 的選取要足夠大,以保證徑向基神經(jīng)元的響應(yīng)在輸入空間能夠交迭。高斯函數(shù)是一種中徑向?qū)ΨQ衰減的非負(fù)非線性函數(shù),表示形式簡(jiǎn)單且解析性好,便于進(jìn)行理論分析。高斯函數(shù)對(duì)輸入信號(hào)將在局部產(chǎn)生響應(yīng),當(dāng)輸入樣本越靠近基函數(shù)的中央范圍時(shí),徑向基層節(jié)點(diǎn)輸出值越大,因而PNN 具有局部逼近能力,學(xué)習(xí)速度更快。 輸出層的傳遞函數(shù)為徑向基層神經(jīng)元輸出的線

19、性組合。(3)概率函數(shù)神經(jīng)網(wǎng)絡(luò)模型(PNN) 概率神經(jīng)網(wǎng)絡(luò)(PNN)是一種徑向基神經(jīng)網(wǎng)絡(luò)模型,采用 提出的由高斯函數(shù)為核函數(shù)形成聯(lián)合概率密度分布的估計(jì)方法和貝葉斯優(yōu)化規(guī)則。它基于統(tǒng)計(jì)原理,計(jì)算能逼近貝葉斯最優(yōu)判決式的非線性決策邊界,在分類(lèi)功能上與最優(yōu)貝葉斯分類(lèi)器等價(jià)。其拓?fù)浣Y(jié)構(gòu)由輸入層、模式層、累加層和輸出層(決策層)組成,如圖5-6 所示。 輸入層接收來(lái)自訓(xùn)練樣本的值,其傳遞函數(shù)是線性的,直接將輸入樣本傳遞給模式層。 模式層神經(jīng)元將輸入向量的各個(gè)分量進(jìn)行加權(quán)求和后采用一個(gè)非線性算子運(yùn)算,其中,是平滑因子,表示各類(lèi)樣本之間的影響程度。 累加層接收來(lái)自模式層的運(yùn)算結(jié)果,其節(jié)點(diǎn)只與相應(yīng)類(lèi)別的樣本節(jié)

20、點(diǎn)相連,計(jì)算概率密度函數(shù),從而得到輸入樣本屬于某類(lèi)的最大可能性。 輸出層為模式后驗(yàn)概率估計(jì)。神經(jīng)元數(shù)目等于訓(xùn)練樣本數(shù)據(jù)的種類(lèi)數(shù),每個(gè)神經(jīng)元分別對(duì)應(yīng)于一個(gè)數(shù)據(jù)類(lèi)別。該層神經(jīng)元是一種競(jìng)爭(zhēng)神經(jīng)元,它接收從累加層輸出的各類(lèi)概率密度函數(shù),尋找概率密度函數(shù)最大的神經(jīng)元,所對(duì)應(yīng)的類(lèi)即為待識(shí)別的樣本模式類(lèi)別。(4)廣義回歸神經(jīng)網(wǎng)絡(luò)模型(GRNN) 廣義回歸神經(jīng)網(wǎng)絡(luò)(General Regression Neural Network, GRNN)是在概率神經(jīng)網(wǎng)絡(luò)基礎(chǔ)之上提出的另一種徑向基神經(jīng)網(wǎng)絡(luò)模型,建立在非參數(shù)核回歸的數(shù)理統(tǒng)計(jì)基礎(chǔ)上,以樣本數(shù)據(jù)為后驗(yàn)條件,執(zhí)行非參數(shù)估計(jì),網(wǎng)絡(luò)最后收斂于樣本量積聚最多的優(yōu)化回歸

21、面。GRNN 的拓?fù)浣Y(jié)構(gòu)由輸入層、模式層、累加層和輸出層組成。 輸入層接收來(lái)自訓(xùn)練樣本的值,傳遞函數(shù)是線性的,直接將輸入樣本傳遞給模式層。 模式層又稱隱回歸層,神經(jīng)元的個(gè)數(shù)等于訓(xùn)練樣本數(shù)。模式層中采用高斯函數(shù)作傳遞函數(shù)。訓(xùn)練過(guò)程中通過(guò)改變平滑因子 的值,從而調(diào)整模式層中各神元的傳遞函數(shù),以獲得最佳的回歸估計(jì)結(jié)果。取值越大則基函數(shù)越平滑,在訓(xùn)練樣本數(shù)目一定的情況下,平滑因子值的變化影響概率密度函數(shù)值的變化,進(jìn)而影響最終預(yù)測(cè)結(jié)果。 累加層接收來(lái)自模式層的運(yùn)算結(jié)果,神經(jīng)元數(shù)目為樣本向量的維數(shù)加1,包括兩種類(lèi)型神經(jīng)元,其中個(gè)神經(jīng)元計(jì)算所有模式層神經(jīng)元輸出的加權(quán)和,稱為分子單元;另一個(gè)神經(jīng)元計(jì)算所有模式

22、層神經(jīng)元的輸出之和,稱為分母單元。輸出層將累加層分子單元和分母單元的輸出相除,算得樣本的估計(jì)值。5.5.2 神經(jīng)網(wǎng)絡(luò)致癌基因分類(lèi)模型的建立 神經(jīng)網(wǎng)絡(luò)模型的輸入層節(jié)點(diǎn)數(shù)設(shè)置為訓(xùn)練樣本的基因個(gè)數(shù);隱層節(jié)點(diǎn)數(shù)為輸入層節(jié)點(diǎn)數(shù)的倍;由于輸出目標(biāo)為區(qū)分腫瘤樣本和正常樣本,故輸出層節(jié)點(diǎn)數(shù)設(shè)為,輸出目標(biāo)函數(shù)的值表示訓(xùn)練樣本類(lèi)別,其中“”表示正常樣本,“”表示腫瘤樣本。輸入向量的第個(gè)分量對(duì)應(yīng)訓(xùn)練集中樣本的第個(gè)基因。 基于給定數(shù)據(jù)本文建立了四種神經(jīng)網(wǎng)絡(luò)分類(lèi)器模型,分別為下面以神經(jīng)網(wǎng)絡(luò)為例,給出網(wǎng)絡(luò)的訓(xùn)練過(guò)程及步驟。 (1)初始化。給每個(gè)連接權(quán)值 、閥值與賦予區(qū)間內(nèi)的隨機(jī)值。 (2)用輸入基因樣本、連接權(quán) 和閥值計(jì)

23、算中間層各單元的輸入,然后用通過(guò)傳遞函數(shù)計(jì)算中間層各單元的輸出。 (3)利用中間層的輸出、連接權(quán)和閥值計(jì)算輸出層各單元的輸出,然后利用通過(guò)傳遞函數(shù)計(jì)算輸出層各單元的響應(yīng)。 (4)利用網(wǎng)絡(luò)目標(biāo)向量,網(wǎng)絡(luò)的實(shí)際輸出,計(jì)算輸出層的各單元一般化誤差。 (5)利用連接權(quán) 、輸入層的一般化誤差和中間層的輸出計(jì)算中間層各單元的一般化誤差。 (6)利用輸出層各單元的一般化誤差與中間層各單元的輸出來(lái)修正連接權(quán)和閥值。 (7)利用中間層各單元的一般化誤差,輸出層各單元的輸入來(lái)修正連接權(quán)和閥值。 (8)隨機(jī)選取下一個(gè)學(xué)習(xí)樣本向量提供給網(wǎng)絡(luò),返回到步驟,直到個(gè)訓(xùn)練樣本樣本完畢。 (9)重新從個(gè)學(xué)習(xí)樣本中隨機(jī)選取一組輸

24、入和目標(biāo)樣本,返回步驟(3),直到網(wǎng)絡(luò)全局誤差小于預(yù)先設(shè)定的一個(gè)極小值,即網(wǎng)絡(luò)收斂。如果學(xué)習(xí)次數(shù)大于預(yù)先設(shè)定的值,網(wǎng)絡(luò)就無(wú)法收斂。 (10)訓(xùn)練學(xué)習(xí)結(jié)束。 通用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本流程如下圖所示: 圖 5-7 通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本流程5.5.3 分類(lèi)實(shí)驗(yàn)過(guò)程與結(jié)果分析1、實(shí)驗(yàn)數(shù)據(jù)分類(lèi) 在提取特征信息基因后,本文將正常樣本和腫瘤樣本按接近的比例隨機(jī)地分配到訓(xùn)練集和測(cè)試集中。如圖5-8 所示,訓(xùn)練集有個(gè)樣本,測(cè)試集有個(gè)樣本。 圖 5-8 基因表達(dá)譜實(shí)驗(yàn)數(shù)據(jù)集分類(lèi)2、特征基因子集篩選 采用主成分分析法得到特征基因集合中含有的11 個(gè)特征基因,可以構(gòu)成 個(gè)不同的基因組合,每個(gè)基因組合被稱為一個(gè)特征子

25、集。本文采用遍歷搜索算法對(duì)特征子集構(gòu)成的空間進(jìn)行搜索,通過(guò)二進(jìn)制編碼對(duì)個(gè)基因組合進(jìn)行標(biāo)記,通過(guò)對(duì)正確辨識(shí)率的排序,篩選出具有最佳分類(lèi)能力和最少基因個(gè)數(shù)的特征基因子集,以此作為分類(lèi)器的基因“標(biāo)簽”(信息基因)。通過(guò)上述方法對(duì)本文進(jìn)行試驗(yàn),得到其中種基因的結(jié)合具有最佳分類(lèi)能力。表5-1列出了采用上述數(shù)據(jù)處理措施后選取的特征基因子集中個(gè)基因的基因標(biāo)簽和簡(jiǎn)單功能描述。3、訓(xùn)練與測(cè)試實(shí)驗(yàn) 由于實(shí)驗(yàn)樣本少,為了獲得對(duì)候選特征子集分類(lèi)能力的較為可靠的估計(jì),采取留一交叉校驗(yàn)和獨(dú)立測(cè)試實(shí)驗(yàn)在訓(xùn)練集和測(cè)試集上分別檢驗(yàn)分類(lèi)準(zhǔn)確率。 (1)訓(xùn)練集中,采用“留一法”2(Leave-One-Out Cross Valid

26、ation, LOOCV) 校驗(yàn)樣本類(lèi)型:每次保留個(gè)樣本為測(cè)試樣本,其余個(gè)樣本用作神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。重復(fù)該過(guò)程,直到所有個(gè)樣本都被用作過(guò)測(cè)試樣本為止,從而統(tǒng)計(jì)得到留一交叉檢驗(yàn)的準(zhǔn)確率。 (2) 對(duì)于測(cè)試集,用訓(xùn)練集上的所有個(gè)樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)識(shí)別測(cè)試集中個(gè)樣本的類(lèi)型,從而統(tǒng)計(jì)得到“獨(dú)立測(cè)試實(shí)驗(yàn)”( Independent Test, IT) 的分類(lèi)準(zhǔn)確率。4、實(shí)驗(yàn)結(jié)果分析 表 5-2 四種神經(jīng)網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確性神經(jīng)網(wǎng)絡(luò)分類(lèi)器BPNNRBFNN PNN GRNN留一交叉校驗(yàn)準(zhǔn)確率97.5% 97.5%97.5% 97.5%獨(dú)立測(cè)試實(shí)驗(yàn)準(zhǔn)確率61.36% 63.64% 77.27% 63.64%由表5-2 可知,對(duì)四種網(wǎng)絡(luò)分類(lèi)器,留一法檢驗(yàn)正確率都比較高,而對(duì)于訓(xùn)練集采用獨(dú)立測(cè)試實(shí)驗(yàn)時(shí),概率神經(jīng)網(wǎng)絡(luò)(PNN)對(duì)分類(lèi)的效果最好

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論