基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別_第1頁
基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別_第2頁
基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別_第3頁
基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別_第4頁
基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別_第5頁
已閱讀5頁,還剩82頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于機(jī)器學(xué)習(xí)方法的前列腺病理切片圖像識別第1頁/共87頁本文大綱第一章緒論第二章深度學(xué)習(xí)的基本方法第三章基于深度學(xué)習(xí)的前列腺病理圖像判斷第四章基于空間金字塔的前列腺癌病理圖像的識別總結(jié)與展望第2頁/共87頁第一章緒論課題背景及意義前列腺形態(tài)組織特征簡述國內(nèi)外研究現(xiàn)狀機(jī)器學(xué)習(xí)方法介紹第3頁/共87頁1.1課題背景及意義 最近幾十年,隨著人們生活水平的提高,健康越來越受到人們的重視,是當(dāng)前社會最為關(guān)注的話題之一。男性生殖系統(tǒng)最常見的惡性腫瘤就是前列腺癌,前列腺癌在西方發(fā)達(dá)國家的發(fā)病率以及死亡率僅次于肺癌,位居男性癌癥死亡的第二位。中國則是一直被認(rèn)為前列腺癌發(fā)病率較低的國家,所以在前列腺癌的診斷和研究方面落后于國際水平,同時(shí)在國內(nèi)也落后于肝癌、胃癌、乳腺癌等相對高發(fā)病率腫瘤的研究。但近年來,飲食、生活習(xí)慣西化以及受到人口老齡化等因素的影響,我國前列腺癌的發(fā)病率逞上升趨勢,逐步成為威脅中老年男性身心健康的頭號殺手。 近年來,隨著計(jì)算機(jī)技術(shù)以及機(jī)器學(xué)習(xí)方法的發(fā)展,計(jì)算機(jī)輔助診斷(CAD)系統(tǒng)成為臨床輔助診斷的一個(gè)新趨勢。CAD系統(tǒng)對于病理診斷有許多優(yōu)點(diǎn):1)CAD系統(tǒng)一旦核心算法確定,系統(tǒng)的準(zhǔn)確率只與內(nèi)部核心的算法有關(guān),與人為因素?zé)o關(guān),同一幅圖像不管診斷多少次,都會是相同的結(jié)果;2)CAD系統(tǒng)能夠捕捉到切片的所有區(qū)域,避免出現(xiàn)遺漏;3)CAD系統(tǒng)作為輔助,對提高醫(yī)生診斷的敏感性和特異性有很大幫助;4)CAD系統(tǒng)能讓醫(yī)療水平欠發(fā)達(dá)的地區(qū),也能享受到科技進(jìn)步所帶來的好處。所以,越來越多的專家、學(xué)者投入到這一領(lǐng)域中來,前列腺輔助診斷系統(tǒng)的核心算法也成為了研究的熱點(diǎn)。第4頁/共87頁1.2前列腺形態(tài)組織特征簡述正常的前列腺組織學(xué)特征正常的前列腺組織有四種明顯的結(jié)構(gòu)特征:分葉結(jié)構(gòu)。腺腔和腺葉分割為小葉;大腺腔結(jié)構(gòu)。腺腔內(nèi)乳頭突起使得腺腔呈梅花狀結(jié)構(gòu),腺腔體積較大;腺腔上皮由內(nèi)外層細(xì)胞構(gòu)成雙層的結(jié)構(gòu);腔內(nèi)有淀粉樣小體。 上述結(jié)構(gòu)特征一般不出現(xiàn)在有病變的前列腺組織中。因此,上述四種結(jié)構(gòu)特征弱化甚至消失就是前列腺癌診斷的重要依據(jù)。圖1-1正常的前列腺病理切片圖像第5頁/共87頁1.2前列腺形態(tài)組織特征簡述1.2.2前列腺癌的病理特征有癌變的前列腺組織主要有以下特征:腺體結(jié)構(gòu)的紊亂,浸潤現(xiàn)象,細(xì)胞核的異型。前列腺癌病理圖像對應(yīng)的特征為:腺腔逐漸較小,且腺腔的邊界變得平滑,沒有凸起;間質(zhì)紋理比較紊亂,方向不一致;細(xì)胞核變大且數(shù)量明顯變多。圖1-2前列腺癌病理切片圖像第6頁/共87頁1.3國內(nèi)外研究現(xiàn)狀隨著計(jì)算機(jī)醫(yī)學(xué)圖像處理技術(shù)的發(fā)展,在病理分析和細(xì)胞組織形態(tài)等研究工作中,數(shù)字圖像里處理技術(shù)的作用越來越大,如何將圖像處理、模式識別、機(jī)器學(xué)習(xí)等技術(shù)最新的發(fā)展運(yùn)用到醫(yī)學(xué)圖像上,已成為當(dāng)前社會研究的熱點(diǎn)之一。在國內(nèi),楊振森等人提出了前列腺直腸超聲圖像中紋理特征的提取方法,應(yīng)用于前列腺癌的早期診斷,識別準(zhǔn)確率達(dá)到90%以上??傮w來說,目前國內(nèi)在前列腺病理切片圖像研究方面還處于起步階段。在國外,AliTabesh等人從前列腺病理切片圖像中,提取了顏色直方圖、分形維數(shù)、分形編碼特征、小波特征、顏色、形狀和紋理等多特征融合,用于前列腺癌診斷和Gleason分級,分別取得了94.5%和77.6%的準(zhǔn)確率。目前國外的研究人員和學(xué)者主要工作在特征集類別、分類器選擇以及前列腺癌的分類策略方面。第7頁/共87頁1.4機(jī)器學(xué)習(xí)方法介紹近年來,計(jì)算機(jī)技術(shù)和機(jī)器學(xué)習(xí)方法都得到極大的發(fā)展,機(jī)器學(xué)習(xí)在圖像上的應(yīng)用也取得了相當(dāng)大的突破。特別是在2012年ImageNet目標(biāo)識別競賽上,由GeoffHinton團(tuán)隊(duì)實(shí)現(xiàn)的基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的算法以85%的準(zhǔn)確率獲得最佳算法,將歷屆最好成績提高了11%,這引起了學(xué)術(shù)界和工業(yè)界的又一波機(jī)器學(xué)習(xí)的熱潮。本文在前列腺病理切片圖像的識別方面采用了深度學(xué)習(xí)算法和支持向量機(jī)(SupportVectorMachine,SVM)分類算法。第8頁/共87頁1.4.1深度學(xué)習(xí)簡介

深度學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)的概念最開始來自于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)一般通過組合較低層的特征形成更為抽象的高層表示,從而發(fā)現(xiàn)數(shù)據(jù)特征的分布式表示,如圖1-3所示。圖1-3深度學(xué)習(xí)的特征層級對象模型對象的局部特征(邊緣特征的組合)邊緣特征第9頁/共87頁1.4.1深度學(xué)習(xí)簡介深度學(xué)習(xí)算法是基于分布式表達(dá)(在上世紀(jì)80年代和連接機(jī)制一起被引入)的方法。 分布式表達(dá)所基于的假設(shè)是所觀測到的數(shù)據(jù)是由多種因素(并不是所有都被觀測到)交互產(chǎn)生的,也就是從其他因子組合中學(xué)習(xí)一個(gè)特殊的因子,這樣往往可以推廣到其他不可見因子的組合。深度學(xué)習(xí)加入了這些因子被組織成多層的這個(gè)假設(shè)(被視為一個(gè)先驗(yàn)的未知數(shù)據(jù)生成過程),對應(yīng)了不同層次的抽象或組成:高層次的表示是通過改造低層次的表示來獲得的。這些因子之間的關(guān)系可以被看作類似字典或維基百科中詞條之間的關(guān)系,盡管這些因子可能是數(shù)值的(比如人臉在圖像中的位置)或類別的(比如是否是人臉),而在字典中的條目則是純粹的符號。適當(dāng)數(shù)量的層數(shù)和結(jié)構(gòu)相關(guān)的因子,也是深度學(xué)習(xí)算法希望從樣本中發(fā)現(xiàn)的。第10頁/共87頁1.4.1深度學(xué)習(xí)簡介深度學(xué)習(xí)算法也涉及其他重要的思想,對應(yīng)于這些未知潛在因子的廣泛先驗(yàn)信念。關(guān)于監(jiān)督學(xué)習(xí)的有趣任務(wù)(比如,給定一張圖像,預(yù)測出某人的臉是否出現(xiàn)在圖像中),一個(gè)重要的先驗(yàn)信息就在因子中,解釋了再輸入的觀測變化(比如圖像),有一些因子是和預(yù)測偏好高度相關(guān)的。許多深度學(xué)習(xí)算法實(shí)際上都是非監(jiān)督學(xué)習(xí)的框架,比如用許多未標(biāo)記的圖像,并從這些圖像中找他一組關(guān)于這些圖像的好的表示。深度學(xué)習(xí)在圖像分類、語音識別、手寫識別等方面都取得了比較好的效果,甚至在一些標(biāo)準(zhǔn)數(shù)據(jù)庫上的實(shí)驗(yàn)效果已經(jīng)超過了傳統(tǒng)模式識別的方法。第11頁/共87頁1.4.2支持向量機(jī)簡介SVM廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析,是一種監(jiān)督式的學(xué)習(xí)方法。SVM屬于一般化線性分類器,這類分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)SVM也被稱為最大邊緣區(qū)分類器。SVM是將較低維的向量映射到一個(gè)更高維的空間里,在這個(gè)高維空間里求得一個(gè)最大間隔超平面。在分開數(shù)據(jù)樣本的超平面的兩邊得到兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。第12頁/共87頁第二章深度學(xué)習(xí)的基本方法稀疏自編碼受限波爾茲曼機(jī)(RBM)棧式自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練深度信念網(wǎng)絡(luò)的訓(xùn)練第13頁/共87頁深度學(xué)習(xí)算法需要構(gòu)建深度的架構(gòu),有許多方法都可以用來進(jìn)行構(gòu)建深度架構(gòu),常用的有稀疏自編碼(SparseAutoencoder)、受限玻爾茲曼機(jī)(RestrictBoltzmannMachine)、稀疏編碼(SparseCoding)等。本章詳細(xì)介紹前面兩種方法,并分別介紹基于稀疏自編碼和受限玻爾茲曼機(jī)的深度網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練。其中基于稀疏自編碼的深度網(wǎng)絡(luò)稱作棧式自編碼(StackedAutoencoders)神經(jīng)網(wǎng)絡(luò),基于受限玻爾茲曼機(jī)的深度網(wǎng)絡(luò)被稱作深度信念網(wǎng)絡(luò)(DeepBeliefNetworks,DBN)。第二章深度學(xué)習(xí)的基本方法第14頁/共87頁2.1稀疏自編碼稀疏自編碼能有效構(gòu)建出深度神經(jīng)網(wǎng)絡(luò),從而對輸入數(shù)據(jù)進(jìn)行深度學(xué)習(xí)。稀疏自編碼能夠?qū)W習(xí)出輸入數(shù)據(jù)的稀疏表示,達(dá)到降維的目的,該過程為無監(jiān)督的學(xué)習(xí)。神經(jīng)元神經(jīng)網(wǎng)絡(luò)模型反向傳播算法稀疏自編碼的含義第15頁/共87頁2.1.1神經(jīng)元為了模擬人腦處理信息的特點(diǎn),就用人工神經(jīng)元類比生物神經(jīng)元,人工神經(jīng)元主要有以下基本特征:神經(jīng)元之間的聯(lián)接強(qiáng)度決定信號傳遞的強(qiáng)弱;神經(jīng)元之間的聯(lián)接強(qiáng)度可以隨訓(xùn)練改變;信號可以是起刺激作用,也可以是抑制作用;一個(gè)神經(jīng)元接受信號的累計(jì)效果決定該神經(jīng)元的狀態(tài);每個(gè)神經(jīng)元可以有一個(gè)閾值。第16頁/共87頁2.1.1神經(jīng)元對于樣本集(x(i),y(i)),神經(jīng)網(wǎng)絡(luò)算法提供了一種復(fù)雜又非線性的假設(shè)模型hw,b(x),它具有參數(shù)W,b,可以用這兩個(gè)參數(shù)來擬合我們的數(shù)據(jù)。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中最基本的單元。如下圖所示:圖2-1神經(jīng)元第17頁/共87頁2.1.1神經(jīng)元這個(gè)神經(jīng)元是一個(gè)以x1,x2,x3及常數(shù)項(xiàng)1為輸入值的運(yùn)算單元,其輸出為:其中函數(shù)f:R→R稱為激活函數(shù)。激活函數(shù)將選用Sigmoid函數(shù):(2-2)(2-1)第18頁/共87頁2.1.1神經(jīng)元其實(shí),這個(gè)神經(jīng)元的輸入輸出的映射關(guān)系就是一個(gè)邏輯回歸函數(shù)。對于公式(2-2),f(z)導(dǎo)數(shù)就如下所示,后面在求參數(shù)梯度的時(shí)候會用到。(2-3)第19頁/共87頁2.1.2神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模工具,常用來對輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模,或用來探索數(shù)據(jù)的模式。下圖就是一個(gè)簡單的神經(jīng)網(wǎng)絡(luò):第20頁/共87頁2.1.2神經(jīng)網(wǎng)絡(luò)模型如圖所示,使用圓圈來表示神經(jīng)網(wǎng)絡(luò)的輸入,其中“+1”的圓圈稱為“偏置單元”,也就是常數(shù)項(xiàng)。神經(jīng)網(wǎng)絡(luò)最左邊的一層是輸入層,最右的一層是輸出層。中間所有節(jié)點(diǎn)組成的一層被稱作隱藏層。圖所表示的神經(jīng)網(wǎng)絡(luò)有3個(gè)輸入單元(不包括常數(shù)項(xiàng)),3個(gè)隱藏單元以及1個(gè)輸出單元。圖2-3基本的神經(jīng)網(wǎng)絡(luò)示模型第21頁/共87頁2.1.2神經(jīng)網(wǎng)絡(luò)模型用ai(i)表示第l層第i號單元的輸出值。當(dāng)l=1時(shí),ai(i)=x,也就是第i個(gè)特征的輸入值。對于給定參數(shù)集合W,b,我們的神經(jīng)網(wǎng)絡(luò)就按照函數(shù)hW,b(x)計(jì)算輸出結(jié)果。 圖2-3的神經(jīng)網(wǎng)絡(luò)的計(jì)算過程就由以下步驟表示:(2-4)第22頁/共87頁2.1.2神經(jīng)網(wǎng)絡(luò)模型用zi(l)表示第l層第i單元輸入值的加權(quán)總和(包括偏置單元),這樣我們就可以找到一種更簡潔的表示法。這里將激活函數(shù)f(.)擴(kuò)展為用向量來表示,那么上面的等式我們就可以表示為:(2-5)以上步驟叫作正向傳播。第23頁/共87頁2.1.2神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)也可以有多個(gè)輸出單元。比如,以下神經(jīng)網(wǎng)絡(luò)有兩層隱藏層:L2及L3,并在L4層中有兩個(gè)輸出單元。要求解這種神經(jīng)網(wǎng)絡(luò)就需要樣本集(x(i),y(i)),其中y(i)∈R2。如果想預(yù)測的輸出是多個(gè)的,那這種神經(jīng)網(wǎng)絡(luò)是很適用的。圖2-4多個(gè)輸出單位的神經(jīng)網(wǎng)絡(luò)第24頁/共87頁2.1.3反向傳播算法反向傳播算法是一種監(jiān)督學(xué)習(xí)算法,常被用來訓(xùn)練多層感知機(jī)。反向傳播算法主要由兩個(gè)環(huán)節(jié)(激勵(lì)傳播、權(quán)重更新)反復(fù)循環(huán)迭代,直到網(wǎng)絡(luò)的對輸入的響應(yīng)達(dá)到預(yù)定的目標(biāo)范圍為止。激勵(lì)傳播環(huán)節(jié)包含兩個(gè)步驟:1.(前向傳播階段)將訓(xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)響應(yīng);2.(反向傳播階段)將激勵(lì)響應(yīng)同訓(xùn)練輸入對應(yīng)的目標(biāo)輸出求差,從而獲得隱層和輸出層的響應(yīng)誤差。權(quán)重更新則按以下步驟進(jìn)行更新:1.將輸入激勵(lì)和響應(yīng)誤差相乘,從而獲得權(quán)重的梯度;2.將這個(gè)梯度乘上一個(gè)比例并取反后加到權(quán)重上。

第25頁/共87頁2.1.3反向傳播算法反向傳播算法的思路如下: 給出一個(gè)樣本(x,y),首先進(jìn)行前向傳導(dǎo)運(yùn)算,計(jì)算出通過網(wǎng)絡(luò)的所有激活值,包括hW,b(x)的輸出值。之后,針對第L層的每一個(gè)節(jié)點(diǎn)i,我們想要計(jì)算出殘差δi(l)(德爾塔),該殘差表明了該節(jié)點(diǎn)對最終輸出值的殘差產(chǎn)生了多少影響。對于最終的輸出節(jié)點(diǎn),可以直接得出網(wǎng)絡(luò)產(chǎn)生的激活值與實(shí)際值之間的差距,將這個(gè)差距定義為δi(nl),第n1層代表的是輸出層。將基于節(jié)點(diǎn)殘差的加權(quán)平均值計(jì)算,這些節(jié)點(diǎn)以ai(l)作為輸入。下面將給出反向傳播算法的細(xì)節(jié):第26頁/共87頁2.1.3反向傳播算法第27頁/共87頁2.1.4稀疏自編碼的含義圖2-5自編碼神經(jīng)網(wǎng)絡(luò)第28頁/共87頁2.1.4稀疏自編碼的含義 稀疏性數(shù)學(xué)意義可以按如下解釋,如果當(dāng)神經(jīng)元的輸出接近于1的時(shí)候我們認(rèn)為它被激活,而輸出接近于0的時(shí)候認(rèn)為它被抑制,那么使得神經(jīng)元大部分的時(shí)間都是被抑制的限制則被稱作稀疏性限制。第29頁/共87頁2.2受限玻爾茲曼機(jī)(RestrictBoltzmannMachine)

受限玻爾茲曼機(jī)(RBM)是一類具有兩層結(jié)構(gòu)、對稱連接且無自反饋的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,層間全連接,層內(nèi)無連接。RBM是一種有效的特征提取方法,用于初始化前饋神經(jīng)網(wǎng)絡(luò)可明顯提高泛化能力。堆疊多個(gè)RBM組成的深度信念網(wǎng)絡(luò)能提取更抽象的特征。受限玻爾茲曼機(jī)的基本模型基于對比散度的RBM快速學(xué)習(xí)算法第30頁/共87頁2.2.1受限玻爾茲曼機(jī)的基本模型

RBM可以被看作是一種無向圖模型,如下圖所示。v是可見層單元,表示可以觀測到的數(shù)據(jù),h是隱藏層單元,可看作特征檢測器,通過觀測數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)后生成隱藏特征,W表示可見單元和隱藏單元之間的連接權(quán)重。RBM的可見層單元和隱藏層單元可以是任意的指數(shù)族單元,如高斯單元、Softmax單元、泊松單元等等。第31頁/共87頁2.2.1受限玻爾茲曼機(jī)的基本模型第32頁/共87頁2.2.1受限玻爾茲曼機(jī)的基本模型第33頁/共87頁2.2.2基于對比散度的RBM快速學(xué)習(xí)算法深度學(xué)習(xí)算法的發(fā)明者Hinton提出了一個(gè)快速學(xué)習(xí)RBM的算法,即對比散度。本文所采用基于對比散度的快速學(xué)習(xí)算法步驟如下:第34頁/共87頁2.2.2基于對比散度的RBM快速學(xué)習(xí)算法第35頁/共87頁2.3棧式自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

棧式自編碼神經(jīng)網(wǎng)絡(luò)是將多個(gè)稀疏自編碼串聯(lián)所成的深度神經(jīng)網(wǎng)絡(luò),可以采用依次訓(xùn)練每一層的貪心分層算法來預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在本小節(jié)中,主要介紹如何將自編碼網(wǎng)絡(luò)以貪心分層的方式串聯(lián)起來,以及如何預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。第36頁/共87頁2.3.1棧式自編碼神經(jīng)網(wǎng)絡(luò)概述第37頁/共87頁2.3.2逐層訓(xùn)練第38頁/共87頁2.3.3微調(diào)棧式自編碼神經(jīng)網(wǎng)絡(luò)第39頁/共87頁2.3.3微調(diào)棧式自編碼神經(jīng)網(wǎng)絡(luò)第40頁/共87頁2.4深度信念網(wǎng)絡(luò)的訓(xùn)練 深度信念網(wǎng)絡(luò)是由多個(gè)RBM串聯(lián)所形成的深度神經(jīng)網(wǎng)絡(luò)。第41頁/共87頁2.4深度信念網(wǎng)絡(luò)的訓(xùn)練

深度信念網(wǎng)絡(luò)是一個(gè)生成式模型(以P的分布生成路徑),是對輸入進(jìn)行多層表示的一種方法(以Q的分布識別路徑)。最高的兩層h2和h3組成一個(gè)RBM(受限玻爾茲曼機(jī)),較低的層組成一個(gè)有向圖模型。倒數(shù)第二層的先驗(yàn)h2是由頂層RBM提供。第42頁/共87頁2.4深度信念網(wǎng)絡(luò)的訓(xùn)練 我們以逐層貪心的方式訓(xùn)練DBN的時(shí)候,用一個(gè)純非監(jiān)督的方式訓(xùn)練一個(gè)DBN,在每一層單獨(dú)訓(xùn)練過程中,都是利用前面提到基于對比散度的RBM快速學(xué)習(xí)算法。第43頁/共87頁2.4深度信念網(wǎng)絡(luò)的訓(xùn)練算法2.2逐層貪心的DBN訓(xùn)練算法第44頁/共87頁第三章基于深度學(xué)習(xí)的前列腺病理圖像判斷非監(jiān)督學(xué)習(xí)Softmax回歸分類器基于ROC曲線的全局判斷第45頁/共87頁第三章基于深度學(xué)習(xí)的前列腺病理圖像判斷在醫(yī)院所有的前列腺病理切片都需要由醫(yī)生觀察后人工進(jìn)行標(biāo)注,這樣無疑會增加醫(yī)生重復(fù)工作量,醫(yī)生長時(shí)間標(biāo)注產(chǎn)生疲勞也可能導(dǎo)致人為的失誤。為提高醫(yī)生工作效率,減少工作流程中的人為失誤,組織來源的判斷是開發(fā)前列腺計(jì)算機(jī)輔助診斷系統(tǒng)的必要步驟。前列腺結(jié)石的識別是組織來源判斷的一個(gè)主要方法。不過并不是所有的前列腺病理切片圖像里面都包括前列腺結(jié)石這一病理對象,所以該方法存在一定的局限性第46頁/共87頁第三章基于深度學(xué)習(xí)的前列腺病理圖像判斷本文提出了基于深度學(xué)習(xí)的前列腺病理圖像識別算法,能有效克服這一問題。深度網(wǎng)絡(luò)非監(jiān)督學(xué)習(xí)出前列腺病理切片圖像局部紋理的不變特征,然后利用softmax回歸分類器訓(xùn)練非監(jiān)督學(xué)習(xí)得到的特征,達(dá)到識別前列腺病理圖像的目的。前列腺病理圖像如圖3-1所示;而負(fù)樣本則是來自其它組織,比如脾臟、心臟、鼻咽等其他部位的病理圖像,如圖3-2所示。

第47頁/共87頁第三章基于深度學(xué)習(xí)的前列腺病理圖像判斷算法整體流程如下所示:第48頁/共87頁3.1非監(jiān)督學(xué)習(xí)第49頁/共87頁3.1.1圖像塊的采集對于分辨率為800×600的前列腺病理圖像,圖像太大不適于直接作為棧式自編碼網(wǎng)絡(luò)的輸入。為了學(xué)習(xí)到前列腺病理圖像的局部特征,需要對其采樣,對每一張?jiān)瓐D像隨機(jī)獲取20個(gè)大小一定的圖像塊。本文采用大小為30×30的圖像塊,再將圖像塊轉(zhuǎn)為灰度圖像,如圖3-4示,作為輸入數(shù)據(jù)來進(jìn)行訓(xùn)練。原圖中有一些腺腔區(qū)域,并不存在紋理特征,所以采集圖像塊的時(shí)候需要設(shè)一個(gè)閾值,將圖像塊中腺腔區(qū)域占比大于一定比例的排除掉,得到包含足夠紋理的圖像塊。圖3-43個(gè)包含紋理的前列腺30×30灰度圖像塊

第50頁/共87頁3.1.2白化白化的目的是去掉數(shù)據(jù)之間的相關(guān)聯(lián)度,這是很多算法進(jìn)行預(yù)處理的步驟。比如說當(dāng)訓(xùn)練圖片數(shù)據(jù)時(shí),由于圖片中相鄰像素值有一定的關(guān)聯(lián),所以很多信息是冗余的。這時(shí)候去相關(guān)的操作就可以采用白化操作。數(shù)據(jù)的白化必須滿足兩個(gè)條件:一是不同特征間相關(guān)性最小,接近0;二是所有特征的方差相等。常見的白化操作有PCA白化和ZCA白化。PCA白化是指將數(shù)據(jù)經(jīng)過PCA降維為后,每一維是獨(dú)立的,為滿足白化的第二個(gè)條件,這時(shí)只需要將每一維都除以標(biāo)準(zhǔn)差就得到了每一維的方差為1,也就是說方差相等。公式為:其中xrot,i是第i維特征向量。(3-1)第51頁/共87頁ZCA白化是指數(shù)據(jù)PCA變換,但是并不降維,因?yàn)檫@里是把所有的成分都選進(jìn)去了。這時(shí)也同樣滿足白化的第一個(gè)條件,特征間相互獨(dú)立。然后同樣進(jìn)行方差為1的操作,最后將得到的矩陣左乘一個(gè)特征向量矩陣U。 ZCA白化公式為:本文采取ZCA白化之后的圖像塊如下圖所示。3.1.2白化(3-2)圖3-5對圖3-4紋理圖像塊ZCA白化后的效果第52頁/共87頁3.1.3非監(jiān)督學(xué)習(xí)本節(jié)利用2.3節(jié)描述的方法構(gòu)建深度神經(jīng)網(wǎng)絡(luò),將白化后30×30大小的圖像塊作為棧式自編碼神經(jīng)網(wǎng)絡(luò)的輸入,假設(shè)首層隱藏單元設(shè)為200時(shí),輸入數(shù)據(jù)與隱藏單元的連接權(quán)重W(1)大小為200×900,可視化訓(xùn)練后的W(1)如下圖所示,我們可以看到這些隱藏單元學(xué)習(xí)出來的整體效果。第53頁/共87頁3.1.3非監(jiān)督學(xué)習(xí) 左圖的每個(gè)小圖像塊都表示一個(gè)輸入圖像x,它可使這200個(gè)隱藏單元中的其中之一獲得最大激勵(lì)。可以看到,不同的隱藏單元學(xué)到了在圖像的不同位置和方向最顯著的特征。圖3-6自編碼網(wǎng)絡(luò)訓(xùn)練得到的W(1)(輸入數(shù)據(jù)與隱藏單元的連接權(quán)重)第54頁/共87頁3.1.3非監(jiān)督學(xué)習(xí)經(jīng)過微調(diào)后的連接權(quán)重如下圖所示:圖3-7微調(diào)后的連接權(quán)重W(1)第55頁/共87頁3.2Softmax回歸分類器輸入圖像通過預(yù)處理,然后經(jīng)過深度神經(jīng)網(wǎng)絡(luò)經(jīng)過非監(jiān)督學(xué)習(xí),學(xué)習(xí)出能較好表征原始輸入圖像塊的特征用于最后的分類,如下圖所示。這里我們使用的是Softmax回歸模型。該模型是logistic回歸模型一般化,可以用來解決類型標(biāo)簽y的可能取值多于兩種的情況。Softmax回歸是一種監(jiān)督式的學(xué)習(xí)算法,本文將它與深度學(xué)習(xí)(無監(jiān)督特征學(xué)習(xí))方法結(jié)合起來使用,進(jìn)行前列腺病理切片圖像的識別。第56頁/共87頁3.2Softmax回歸分類器 在Softmax回歸中,類型標(biāo)記y可以取k個(gè)不同的值,當(dāng)然k也可以等于2。于是,對于我們的訓(xùn)練集{(x(1),y(1)),...,(x(m),y(m))}便有y(i)∈{1,2,...,k}。第57頁/共87頁3.2.1代價(jià)函數(shù)由于Softmax可以用于多分類,所以在后面的公式會用到指示函數(shù),令l{.}是指示函數(shù),其取值規(guī)則為:l{值為真的表達(dá)式}=1,l{值為假的表達(dá)式}=0。例如,表達(dá)式l{1+2=3}的值為1,l{3+3=5}的值為0。代價(jià)函數(shù)為:

(3-4)

第58頁/共87頁3.2.2權(quán)重衰減為了讓參數(shù)值保持比較小的狀態(tài),通過添加一個(gè)權(quán)重衰減項(xiàng) 來修改代價(jià)函數(shù),這個(gè)衰減項(xiàng)能懲罰過大的參數(shù)值,代價(jià)函數(shù)變?yōu)椋簷?quán)重衰減項(xiàng)不僅能讓參數(shù)保持較小的狀態(tài),對于任意的λ>0,而且能讓代價(jià)函數(shù)變成嚴(yán)格的凸函數(shù),這樣就可以保證得到唯一解。(3-7)第59頁/共87頁3.3基于ROC曲線的全局判斷 在信號檢測理論中,ROC曲線又被稱作接收者操作特征曲線(ReceiverOperatingCharacteristiccurve),主要是用于對靈敏度進(jìn)行描述的功能圖像。ROC曲線可以通過對真陽性率(TPR,又被稱作靈敏度)和假陽性率(FPR,被定義為1-特異度)的描述來實(shí)現(xiàn)。由于是通過比較兩個(gè)操作特征(TPR和FPR)作為標(biāo)準(zhǔn),ROC曲線也叫做相關(guān)操作特征曲線。通常取ROC曲線上最左上方的點(diǎn)作為閾值,因?yàn)榇藭r(shí)具有較高的靈敏度和特異度,ROC線下面積(AreaUnderCurve,AUC)越大,則說明模型效果越好。 由于我們的輸入都是圖像塊,輸出判斷的也是當(dāng)前塊是否屬于前列腺病理圖像,取自同一病理圖像的不同圖像塊有可能得到的是不同的結(jié)果。因此,我們在同一幅圖像所采集的圖像塊中,當(dāng)預(yù)測結(jié)果為正的比例超過閾值r時(shí),就將該圖像判斷為前列腺病理切片圖像。為了提高算法整體的靈敏度和特異度,我們會根據(jù)不同的閾值求出算法的靈敏度和特異度,取左上方的點(diǎn)作為最終的閾值。第60頁/共87頁3.3.1ROC曲線的主要作用確定最佳分類閾值。不同閾值下真陽性率和假陽性率不同,越靠近左上方的點(diǎn),真陽性率越大,假陽性率越小,所以最后選取最左上方的點(diǎn)作為最終分類參數(shù)。對多種模型分類效果進(jìn)行比較。同一份數(shù)據(jù),用不同的算法會得到相應(yīng)分類的結(jié)果,分別畫出對應(yīng)的ROC曲線,通過對比兩個(gè)模型的ROC曲線,可以選擇AUC較大的算法作為最終的分類算法。第61頁/共87頁3.3.2ROC曲線的評價(jià)指標(biāo)

ROC曲線下的面積(areaundercurve,AUC)是評價(jià)模型效果的一個(gè)指標(biāo)。在AUC>0.5時(shí),AUC的值越接近于1,則模型分類效果越好;AUC大于0.5且小于等于0.7時(shí),通常認(rèn)為有準(zhǔn)確性較低;AUC大于0.7且小于等于0.9時(shí)準(zhǔn)確性中等;AUC大于0.9時(shí),則認(rèn)為準(zhǔn)確性較高。AUC=0.5時(shí),說明模型完全不起作用,相當(dāng)于隨機(jī)猜測,沒有任何價(jià)值。當(dāng)AUC<0.5時(shí),可以將預(yù)測結(jié)果中的正負(fù)樣本交換一下使AUC>0.5。第62頁/共87頁第四章基于空間金字塔的前列腺癌

病理圖像的識別SIFT特征簡介基于BoW的前列腺病理圖像表示基于SPM-BoW的前列腺病理圖像表示基于支持向量機(jī)的分類結(jié)果第63頁/共87頁第四章基于空間金字塔的前列腺癌病理圖像的識別前列腺正常的病理圖像和癌變圖像在局部的紋理結(jié)構(gòu)特征方面區(qū)分度是不明顯的,所以利用上一章基于圖像塊的分類方法是不能將兩者很好的區(qū)分開。而對于癌變的圖像,整體結(jié)構(gòu)上相對正常圖像會有以下幾個(gè)方面明顯的區(qū)別,如下圖所示:第64頁/共87頁第四章基于空間金字塔的前列腺癌病理圖像的識別 1.前列腺間質(zhì)結(jié)構(gòu)紊亂,方向不規(guī)則;2.腺腔區(qū)域變小,甚至無腺腔;3.細(xì)胞核散亂分布。基于此,本章將局部特征按空間信息組織起來形成全局特征,用于癌變前列腺病理圖片的識別。第65頁/共87頁第四章基于空間金字塔的前列腺癌病理圖像的識別本章采用了基于空間金字塔匹配(SpatialPyramidMatching,SPM)的前列腺癌病理圖像的識別方法。算法整體流程如下圖所示:第66頁/共87頁4.1SIFT特征簡介SIFT是一種提取圖像局部特征的算法。1999年David.G.Lowe總結(jié)了現(xiàn)有的基于不變特征的檢測方法,并正式提出了一種圖像局部特征描述算子(SIFT),并在2004年得以完善。SIFT是圖像的局部特征,對平移、尺度縮放、旋轉(zhuǎn)、亮度變化保持不變性。SIFT特征的生成一般包括四個(gè)步驟,如下圖所示。(4.1.1-4.1.5為SIFT特征詳細(xì)說明,此處省略)第67頁/共87頁4.2基于BoW的前列腺病理圖像表示第68頁/共87頁4.2.1BoW簡介BoW(詞袋模型)的主要作用是簡化表示,被用在自然語言處理和信息檢索中。在這個(gè)模型中,一篇文章不考慮其語法和詞的順序,將其表示成一組無序的詞的集合。將所有文章中出現(xiàn)過的單詞全部收集到一起,定義為一本字典,而每篇文章都如同一個(gè)袋子,里面包含文章中出現(xiàn)過的單詞及頻率。詞袋模型非常簡單,與SVM分類器結(jié)合,在文本分類方面取得了非常好的效果。BoW模型在文本分類中取得了非常好的效果,這也引起了在計(jì)算機(jī)視覺領(lǐng)域的研究者們的關(guān)注。當(dāng)從圖像中提取出大量局部特征后,需要找到一種合適的方法來對圖像進(jìn)行描述。研究者們借助文本分類的思想,利用BoW模型來對圖像進(jìn)行標(biāo)示。BoW模型對圖像進(jìn)行建模通常包括特征檢測、特征描述、生成字典三個(gè)步驟。通過上一節(jié),對于一幅圖像,我們已經(jīng)完成了前兩步的計(jì)算,得到了圖像的DSIFT特征描述子,DSIFT為n×128的矩陣,n就表示該圖像檢測到的特征點(diǎn)個(gè)數(shù),不同圖像中n可能是不同的。第69頁/共87頁4.2.2基于BoW的前列腺病理圖像表示本小節(jié)將介紹前列腺病理圖像基于BoW模型表示的方法。提取出所有圖像SIFT特征之后,每個(gè)圖像都含若干個(gè)SIFT特征描述子,每個(gè)樣本得到一個(gè)m×128的矩陣,m就是圖像中得到的SIFT特征描述子的個(gè)數(shù)。通過K均值(K-means)聚類算法將所有樣本特征進(jìn)行聚類,聚類中心的個(gè)數(shù)定義了字典的大小,每個(gè)聚類中心便是一個(gè)視覺單詞,得到一個(gè)K×128矩陣,每一行就一個(gè)類中心。求出聚類中心后,用K階直方圖來表示一幅圖像,將每個(gè)樣本各個(gè)特征賦給離它最近的類,該類所對應(yīng)的灰階加1,最后就會得到一個(gè)K階直方圖。即使對于不同大小和SIFT特征個(gè)數(shù)不同圖像,最后得到的都是一個(gè)K階直方圖,所以圖像大小不同時(shí),該算法仍然適用。最后將直方圖歸一化,就得到了該圖像詞袋模型。第70頁/共87頁4.2.2基于BoW的前列腺病理圖像表示第71頁/共87頁4.3基于SPM-BoW的前列腺病理圖像表示第72頁/共87頁4.3.1金字塔匹配核假設(shè)X和Y是d維特征空間中兩個(gè)向量集合。Grauman和Darrell提出了金字塔匹配來計(jì)算兩個(gè)集合之間的相似度,其核心思想是:通過在原圖中作一系列越來越粗的網(wǎng)格,得到其特征空間。然后計(jì)算不同分辨率下相匹配特征數(shù)的加權(quán)和,網(wǎng)格劃分越細(xì)權(quán)重越大。在一個(gè)固定的分辨率下,如果兩個(gè)點(diǎn)落在同一個(gè)網(wǎng)格中,則認(rèn)為是匹配。金字塔匹配核按下式定義:(4-6)第73頁/共87頁4.3.2基于SPM-BoW模型的前列腺病理圖像表示本小節(jié)將介紹前列腺病理圖像基于SPM-BoW模型的表示方法。與4.2節(jié)的主要區(qū)別在于,本小節(jié)是按層級l去求取每一層的BoW模型,先將原圖像劃分為不同層次,如下圖所示,然后按層次將原圖像中抽取的特征聚類到K個(gè)視覺單詞所表示的類別中,然后用視覺單詞直方圖來表示每個(gè)層級,再將各個(gè)層級的直方圖按順序連接,就形成了最終表示該圖像的特征。

第74頁/共87頁4.3.2基于SPM-BoW模型的前列腺病理圖像表示第75頁/共87頁4.3.2基于SPM-BoW模型的前列腺病理圖像表示第76頁/共87頁4.4基于支持向量機(jī)的分類結(jié)果通過前面幾節(jié)求得前列腺病理圖像的BoW表示和SPM-BoW表示后,并將其作為SVM分類器的輸入特征,達(dá)到識別前列腺圖像是否癌變的目的。本節(jié)對前列腺癌病理圖像的分類算法進(jìn)行了實(shí)驗(yàn)。所有前列腺病理圖像都經(jīng)過醫(yī)生標(biāo)注,總共有384幅分辨率為800×600的前列腺病理圖像,其中正常的前列腺病理圖像215幅,訓(xùn)練集有151幅,測試集有64幅;癌變的前列腺病理圖像169幅,訓(xùn)練集有129幅,測試集有40幅。進(jìn)行5次實(shí)驗(yàn),每次實(shí)驗(yàn)的訓(xùn)練集和測試集均隨機(jī)選取,最終結(jié)果取5次實(shí)驗(yàn)的均值。本節(jié)采用SVM作為分類算法,核函數(shù)用的4.3.1節(jié)介紹的金字塔匹配核。第77頁/共87頁4.4基于支持向量機(jī)的分類結(jié)果三個(gè)層級的權(quán)重分別為1/4,1/2,1。在對特征進(jìn)行相似度計(jì)算的時(shí)候,根據(jù)公式(4-5)計(jì)算每個(gè)視覺單詞的金子塔匹配核的值,再利用下式進(jìn)行求和,得到最終核函數(shù)和,再帶入到SVM分類其中進(jìn)行分類。從圖4-9可以看出,將圖像劃分為L層時(shí),總共有特征維數(shù)為:當(dāng)視覺字典大小為300時(shí),求得2、3、4層空間金字塔的特征維數(shù)分別是1500,6300,25500。當(dāng)L=0時(shí),就是基本的BoW模型。第78頁/共87頁4.4.1基于BoW模型的前列腺癌病理圖像分類實(shí)驗(yàn)BoW模型是對圖像在字典上的詞頻分布進(jìn)行統(tǒng)計(jì),用一個(gè)歸一化的詞頻向量來表示一幅圖像。所以字典的構(gòu)建非常關(guān)鍵,字典的大小直接影響后續(xù)分類的準(zhǔn)確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論