下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究【摘要】 基于數(shù)據(jù)挖掘的醫(yī)學(xué)圖像分類方法研究是多媒體數(shù)據(jù)挖掘的一個(gè)重要組成部分。在分析和 總結(jié) 了現(xiàn)有各種特征提取方法的基礎(chǔ)上,提出了基于競(jìng)爭(zhēng)聚類和關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類算法和基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器框架。該算法先用競(jìng)爭(zhēng)聚集算法實(shí)現(xiàn)醫(yī)學(xué)圖像的聚類,利用聚類的結(jié)果提取局部特征,基于局部特征用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)醫(yī)學(xué)圖像的分類。實(shí)驗(yàn)結(jié)果表明,用此方法較好地提高了醫(yī)學(xué)圖像分類的準(zhǔn)確率,進(jìn)而為數(shù)字化臨床診斷提供了有利的證據(jù)。 【關(guān)鍵詞】 數(shù)據(jù)挖掘 圖像分類 醫(yī)學(xué)圖像 數(shù)字化診
2、斷Abstract:The multi-media data mining is the key part of the whole researches about the method of medical images classification. Under the base of the analysis and conclusion about the methods of deriving the various characteristics previously provided by other researchers, this framework of the med
3、ical images classification with the association rules and clustering was provided. At first, the clustering algorithm was used for the characteristic in local areas ,and then the medical image classification was realized by the association rules. The results of the experiment showed that the accurat
4、e rate could be improved by this method, and better testimony could be provided for digital diagnosis.Key words:Data mining; Images classification; Medical images; Digital diagnosis數(shù)據(jù)挖掘立于數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)庫(kù)應(yīng)用學(xué)科最活躍的前沿。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的數(shù)據(jù)中,提取新穎的、有效的和潛在有用的信息,發(fā)現(xiàn)隱含在其中的模式、特征、 規(guī)律 和知識(shí)。其所處理的數(shù)據(jù)類型很豐富,其應(yīng)用領(lǐng)域也非常廣泛,但針對(duì)特定
5、領(lǐng)域(如醫(yī)學(xué))的復(fù)雜數(shù)據(jù)類型的數(shù)據(jù)挖掘新方法還有待研究。醫(yī)學(xué)圖像的數(shù)據(jù)挖掘旨在從海量的圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則以及普遍的規(guī)律,以加速醫(yī)生決策診斷的過(guò)程和提高其決策診斷的準(zhǔn)確度。隨著醫(yī)療數(shù)字化設(shè)備的快速 發(fā)展 ,醫(yī)學(xué)信息數(shù)據(jù)庫(kù)中不僅包括病人的結(jié)構(gòu)化的信息,還包括病人大量非結(jié)構(gòu)化的醫(yī)學(xué)圖像信息,為醫(yī)學(xué)圖像的數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)源。近年來(lái),隨著 計(jì)算 機(jī)相關(guān)技術(shù)及圖形圖像技術(shù)的廣泛應(yīng)用,使醫(yī)學(xué)領(lǐng)域尤其是臨床診斷發(fā)生了重大的變化,開(kāi)創(chuàng)了數(shù)字診斷新時(shí)代。借助于圖形、圖像技術(shù)的有力手段,醫(yī)學(xué)影像的質(zhì)量和顯示方式得到了極大的改善,從而借助于圖像處理與分析技術(shù)使得診療水平大大提
6、高。本研究將醫(yī)學(xué)圖像的處理技術(shù)與數(shù)據(jù)挖掘技術(shù)有機(jī)結(jié)合,研究醫(yī)學(xué)圖像數(shù)據(jù)的特征提取和醫(yī)學(xué)圖像數(shù)據(jù)的分類方法。醫(yī)學(xué)圖像分類效果的好壞在很大程度上取決于提取的特征。目前國(guó)內(nèi)外有大量的學(xué)者正在進(jìn)行這方面的研究:Maria - Luiza, Osm1提出的關(guān)聯(lián)規(guī)則分類器和李丙春等2的徑向基函數(shù) 網(wǎng)絡(luò) 分類器都采用了均值、方差、傾斜度和峰度4個(gè)特征;韓培友設(shè)計(jì)的是基于模糊粗糙集、數(shù)學(xué)形態(tài)學(xué)和分形特征分類器等3。分析這些研究結(jié)果可以發(fā)現(xiàn),醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究是一項(xiàng)復(fù)雜的、具有挑戰(zhàn)性的和多學(xué)科交叉的工作,開(kāi)展基于醫(yī)學(xué)圖像的數(shù)據(jù)挖掘技術(shù)的研究具有重要的理論意義和實(shí)用價(jià)值。 1 腦部腫瘤圖像預(yù)處理和特征提取 1
7、.1 圖像預(yù)處理由于實(shí)際數(shù)據(jù)常常存在不完整性、噪聲和不一致性,預(yù)處理就變得很重要。有兩種數(shù)據(jù)預(yù)處理技術(shù)用于圖像數(shù)據(jù)的數(shù)據(jù)挖掘,即數(shù)據(jù)清洗和數(shù)據(jù)變換3,4。數(shù)據(jù)清洗用于清除影響數(shù)據(jù)挖掘的噪聲和孤立點(diǎn)。我們使用的圖像包含大量有噪聲的背景,有的圖像看起來(lái)太暗,有的太亮。在預(yù)處理階段,已有的方法都是進(jìn)行圖像的二值化,忽略了圖像的最基本元素-像素本身的灰度所具有的意義,而且也沒(méi)有很好地利用領(lǐng)域知識(shí)對(duì)圖像進(jìn)行預(yù)處理。本研究采用的圖像預(yù)處理的步驟如下:1.1.1 利用去噪技術(shù)對(duì)圖像進(jìn)行處理經(jīng)過(guò)去噪聲處理后,可去掉圖像中的大多數(shù)背景信息和噪聲。1.1.2 圖像增強(qiáng)在圖像生成、傳輸和變換過(guò)程中,由于多種因素的影
8、響,總會(huì)造成圖像質(zhì)量的下降。圖像增強(qiáng)的目的是采用一系列技術(shù)改造圖像的效果或?qū)D像轉(zhuǎn)換成更適合處理的形式。圖像的增強(qiáng)處理有兩種方法:空域法和頻域法。直方圖均衡化是在空域中進(jìn)行的灰度增強(qiáng)算法。一幅對(duì)比度較小的圖像,其所有灰度級(jí)出現(xiàn)的相對(duì)頻數(shù)相同,此時(shí)圖像的熵最大,圖像所包含的信息量最大。本研究采用廣泛使用的直方圖均衡化技術(shù)來(lái)實(shí)現(xiàn)圖像的增強(qiáng)。同時(shí),在此前應(yīng)該完成去噪聲處理,否則噪聲也會(huì)同時(shí)得到增強(qiáng)。1.2 特征提取原始的腦部醫(yī)學(xué)圖像的噪聲處理和增強(qiáng)處理后,就可以從這些清晰的圖像中抽取與分類相關(guān)的圖像特征。被抽取的特征組織在一個(gè)事物數(shù)據(jù)庫(kù)中作為分類系統(tǒng)挖掘的輸入。數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)主要包括:圖像編碼、圖像
9、類型、患者年齡、組織類型、病灶位置等原始病案數(shù)據(jù)以及從圖像中提取出來(lái)的多個(gè)圖像特征。如圖像的鈣化點(diǎn),圖像的紋理特征:角二階矩、對(duì)比度、方差、逆階矩、和平均、熵、以及和方差等。在這樣的數(shù)據(jù)集上應(yīng)用后面討論的關(guān)聯(lián)規(guī)則算法實(shí)施數(shù)據(jù)挖掘操作,從而將腦部腫瘤分類為良性和惡性。 2 利用競(jìng)爭(zhēng)聚集算法進(jìn)行數(shù)據(jù)離散化 為了使用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,數(shù)量型屬性必須離散化。劃分區(qū)間時(shí),對(duì)于某些屬性,若醫(yī)生已經(jīng)有約定的分割點(diǎn),我們可以直接采用。但是,對(duì)提取出的圖像特征屬性,沒(méi)有經(jīng)驗(yàn)閾值。Agrawal等4提出的基于支持度的部分K度完全離散化的方法,擴(kuò)展了布爾型屬性的關(guān)聯(lián)規(guī)則算法,并將其應(yīng)用于數(shù)量型屬性關(guān)聯(lián)規(guī)則的提取
10、。但是這種方法對(duì)于一些高偏度的數(shù)據(jù)存在一些問(wèn)題,它傾向于將那些盡管具有典型相似性能的相鄰數(shù)據(jù)因具有高支持率而被擱開(kāi)。而競(jìng)爭(zhēng)聚集算法5綜合了分層聚類和劃分聚類的優(yōu)點(diǎn),它能夠有效地體現(xiàn)數(shù)據(jù)的實(shí)際分布情況并得到優(yōu)化的聚類個(gè)數(shù)。我們利用競(jìng)爭(zhēng)聚集算法將數(shù)量型屬性離散化成若干個(gè)優(yōu)化的區(qū)間。對(duì)于給定的不同的初始類個(gè)數(shù),競(jìng)爭(zhēng)聚集能隨著迭代過(guò)程的進(jìn)展不斷改變類的數(shù)目,一些競(jìng)爭(zhēng)力差的類,即類的基數(shù)小于給定閾值的類將在迭代過(guò)程中不斷消失,并最終得到優(yōu)化的聚類個(gè)數(shù)。最后,根據(jù)模糊集合中的最大隸屬原則,將數(shù)據(jù)集中的元素聚成N個(gè)類,并取出類中最小值和最大值分別作為區(qū)間的左右端點(diǎn),這樣數(shù)據(jù)型屬性就被離散化成N個(gè)優(yōu)化區(qū)間。
11、3 基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器的構(gòu)造 3.1 關(guān)聯(lián)規(guī)則定義如下:設(shè)I=i1,i2,im是項(xiàng)的集合。記 D為數(shù)據(jù)庫(kù)事務(wù)T的集合,并且TI。對(duì)應(yīng)每一個(gè)事務(wù)有唯一的標(biāo)識(shí),記做TID。設(shè)X是一個(gè)I中項(xiàng)的集合,如果XT,那么稱事務(wù)T包含X。一個(gè)關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式,這里XI,YI ,并且XY。規(guī)則XY在事務(wù)數(shù)據(jù)庫(kù)D中的支持度(Support)是事務(wù)集中包含X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為Support(XY),即:Support(XY) =T;XYT,TD/D規(guī)則XY事務(wù)集中的可信度(Confidence)是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為confidence(XY),即con
12、fidence(XY)=T:XYT,TD/XT,TD3.2 利用關(guān)聯(lián)規(guī)則對(duì)腦部腫瘤圖像數(shù)據(jù)進(jìn)行分類本研究用關(guān)聯(lián)規(guī)則挖掘?qū)?shù)字化的腦部腫瘤圖像分為正常和異常兩類。利用關(guān)聯(lián)規(guī)則挖掘時(shí),首先發(fā)現(xiàn)頻繁項(xiàng)目集(即支持度不低于最小支持度的項(xiàng)目集),然后從頻繁項(xiàng)目集中提取關(guān)聯(lián)規(guī)則。本研究用Apriori算法6來(lái)發(fā)現(xiàn)從腦部腫瘤圖像提取出的特征和腫瘤圖像所屬類別的關(guān)聯(lián)規(guī)則。我們約束挖掘出的關(guān)聯(lián)規(guī)則,使規(guī)則的前提為腦部腫瘤圖像提取出的特征,規(guī)則的結(jié)論為圖像所屬類別。用關(guān)聯(lián)規(guī)則分類的過(guò)程分兩個(gè)階段:第1階段為訓(xùn)練階段,用已知類型的圖像訓(xùn)練分類系統(tǒng),輸入數(shù)據(jù)為經(jīng)過(guò)預(yù)處理、特征提取和數(shù)據(jù)離散化后得到的事務(wù)數(shù)據(jù)庫(kù),然后應(yīng)
13、用改進(jìn)的Apriori算法來(lái)挖掘滿足以上約束條件的關(guān)聯(lián)規(guī)則;第2階段為測(cè)試階段,該階段對(duì)未知類型的圖像利用發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則進(jìn)行分類。3.3 圖像分類器的構(gòu)造圖像分類器的設(shè)計(jì)框架見(jiàn)圖1。 4 結(jié)果與結(jié)論 我們從185個(gè)腦部腫瘤典型病例數(shù)據(jù)中經(jīng)圖像預(yù)處理及特征提取了27個(gè)屬性特征數(shù)據(jù),這些抽取的特征數(shù)據(jù)被組織在一個(gè)數(shù)據(jù)庫(kù)中,經(jīng)過(guò)數(shù)量型屬性離散化等數(shù)據(jù)預(yù)處理,將數(shù)量型屬性關(guān)聯(lián)規(guī)則問(wèn)題映射成布爾型關(guān)聯(lián)規(guī)則問(wèn)題,X到一個(gè)布爾屬性的數(shù)據(jù)庫(kù),作為分類系統(tǒng)挖掘的輸入,此時(shí)通過(guò)Aprior算法進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘。最后分別 計(jì)算 訓(xùn)練樣本和測(cè)試樣本分類的準(zhǔn)確率。結(jié)果表明對(duì)腦部腫瘤典型病例數(shù)據(jù)分類準(zhǔn)確率達(dá)到86%
14、,測(cè)試準(zhǔn)確率達(dá)到82%。本研究在介紹了圖像預(yù)處理及特征提取和數(shù)量型屬性離散化的基礎(chǔ)上,提出了一個(gè)基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器??梢钥闯?,該挖掘方法中,數(shù)據(jù)預(yù)處理工作十分重要,會(huì)直接影響到分類的準(zhǔn)確性。從實(shí)驗(yàn)結(jié)果看,本文提出的醫(yī)學(xué)圖像分類器精確度較高,在數(shù)字化臨床診斷方面具有很好的實(shí)用價(jià)值。【 參考 文獻(xiàn) 】 1Maria一Luiza Antonie, Osmar R Zaiane. Associative Classifiers for Medical imageJ.Mining Multimedia and Canplex Data,2003,27:9768.2李丙春,耿國(guó)華,周明全,等.一個(gè)醫(yī)學(xué)圖像分類器的設(shè)計(jì)J.計(jì)算機(jī)工程與應(yīng)用,2004,40(17):230.3韓培友,郝重陽(yáng),張先勇,等.基于模糊粗糙集、數(shù)學(xué)形態(tài)學(xué)和分形理論的醫(yī)學(xué)圖像分類研究J.計(jì)算機(jī)應(yīng)用研究,2004,21(2):241.4Srikant R, Agrawal R. Mining Quantitative Association Rules in Large Relational TablesJ.ACM SIGMOD Issues, 1996, 25(2):1.5Frigui
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度天津市公共營(yíng)養(yǎng)師之二級(jí)營(yíng)養(yǎng)師能力檢測(cè)試卷B卷附答案
- “十三五”重點(diǎn)項(xiàng)目-食用松香甘油酯項(xiàng)目節(jié)能評(píng)估報(bào)告(節(jié)能專)
- 2025年中國(guó)牡荊油行業(yè)市場(chǎng)全景評(píng)估及發(fā)展戰(zhàn)略研究報(bào)告
- 2019-2025年中國(guó)電紙書行業(yè)市場(chǎng)前景預(yù)測(cè)及投資戰(zhàn)略研究報(bào)告
- 華南日產(chǎn)水15萬(wàn)噸自來(lái)水廠建設(shè)可行性研究報(bào)告-廣州齊魯咨詢
- 2025年烤漆涂料項(xiàng)目可行性研究報(bào)告
- 中國(guó)自動(dòng)止液輸液器行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及投資方向研究報(bào)告
- 貴州省某煤礦改造項(xiàng)目可行性研究報(bào)告
- 浙江省嘉興市2024年中考語(yǔ)文一模試卷含答案
- 2024年社交媒體行業(yè)市場(chǎng)行情動(dòng)態(tài)分析及發(fā)展前景趨勢(shì)預(yù)測(cè)報(bào)告
- 2025年八省聯(lián)考高考語(yǔ)文作文真題及參考范文
- 科研倫理與學(xué)術(shù)規(guī)范(研究生)期末試題庫(kù)及答案
- 消防水池 (有限空間)作業(yè)安全告知牌及警示標(biāo)志
- 修復(fù)學(xué)全口義齒
- 機(jī)械設(shè)備租賃合同范本簡(jiǎn)單版(9篇)
- 美甲顧客檔案表Excel模板
- 公安警察工作總結(jié)匯報(bào)PPT模板
- 城市生活垃圾分選系統(tǒng)設(shè)計(jì)
- 外國(guó)文學(xué)專題作業(yè)答案
- 綠色施工管理體系與管理制度管理辦法(新版)
- 機(jī)動(dòng)車交通事故快速處理協(xié)議書(最新格式)
評(píng)論
0/150
提交評(píng)論