基于邏輯回歸算法的乳腺癌診斷數(shù)據(jù)分類研究_第1頁
基于邏輯回歸算法的乳腺癌診斷數(shù)據(jù)分類研究_第2頁
基于邏輯回歸算法的乳腺癌診斷數(shù)據(jù)分類研究_第3頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 基于邏輯回歸算法的乳腺癌診斷數(shù)據(jù)分類研究 劉蕾摘 要:乳腺癌是世界范圍內(nèi)婦女死亡的主要原因之一,準(zhǔn)確的診斷是乳腺癌治療中最重要的步驟之一。本文詳細(xì)講解了邏輯回歸模型的原理知識,結(jié)合Sklearn機(jī)器學(xué)習(xí)庫的LogisticRegression算法對乳腺癌威斯康辛(診斷)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)分類。由于該數(shù)據(jù)集分類標(biāo)簽劃分為兩類(惡性、良性),能夠很好地適用于邏輯回歸模型。用基于兩個(gè)特征的邏輯回歸模型得到的分類結(jié)果表明,當(dāng)選取平均半徑和最大周長兩個(gè)特征時(shí),分類精度最高(95.72%)。與以往的方法相比,該方法在性能上有所提高。Key:乳腺癌數(shù)據(jù)集;邏輯回歸分類算法;預(yù)測:TP393 :AAbstra

2、ct:Breast cancer is one of the major causes of death for women worldwide,and accurate diagnosis is one of the most important steps in the treatment of breast cancer.This paper explains the knowledge of the logistic regression model in detail,and classifies the data set of breast cancer by using the

3、Logistic Regression algorithm of Sklearn machine learning library.The classification label of the data set is divided into 2 classes (malignant and benign),which is appropriate for the logistic regression model.The classification results based on the logistic regression model with two features show

4、that the classification accuracy is the highest (95.72%) when the two characteristics of the mean radius and the largest perimeter are selected.In comparison to previous methods,the performance has been improved to some extent.Keywords:breast cancer data set;logistic regression classification algori

5、thm;prediction1 引言(Introduction)乳腺癌的早期診斷與治療有著重要的作用,已有多種分類方法應(yīng)用于此種診斷,如C4.5決策樹算法、樸素貝葉斯算法、支持向量機(jī)、KNN等。基于乳腺癌數(shù)據(jù),運(yùn)用上述分類方法進(jìn)行模型構(gòu)建,分析比較各模型性能,其中支持向量機(jī)性能較優(yōu)。支持向量機(jī)可有效調(diào)節(jié)算法復(fù)雜度與泛化能力之間的矛盾,其在小樣本學(xué)習(xí)領(lǐng)域中有著優(yōu)于傳統(tǒng)模式識別方法的推廣能力。然而在處理較大規(guī)模數(shù)據(jù)集時(shí),往往需要較長的訓(xùn)練時(shí)間。KNN方法是一種基于實(shí)例的學(xué)習(xí),可生成任意形狀的決策邊界,無需建立模型,但其分類中開銷很大,需逐個(gè)計(jì)算相似度,此外,當(dāng)k取值較小時(shí),對噪聲也很敏感1。針對上

6、述不足,國內(nèi)外研究者們也已做出相應(yīng)的改進(jìn),但尚未有一個(gè)能同時(shí)實(shí)現(xiàn)訓(xùn)練時(shí)間短、預(yù)測能力強(qiáng)、規(guī)則提取簡易且適應(yīng)性強(qiáng)的分類方法2。本文采用的邏輯回歸分類方法是一種logistic方程歸一化后的線性回歸。這種歸一化的方法往往比較合理,能夠打壓過大和過小的結(jié)果(往往是噪音),以保證主流的結(jié)果不至于被忽視。同時(shí)模型易于解釋,便于提取規(guī)則,對噪聲干擾及冗余屬性也有著相當(dāng)好的魯棒性3。2 乳腺癌威斯康辛數(shù)據(jù)集(Wisconsin breast cancer data set)本文所用的癌癥數(shù)據(jù)來自加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)集倉庫中的威斯康辛州乳腺癌數(shù)據(jù)集。該數(shù)據(jù)集共有569個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)有30個(gè)屬性。

7、屬性來源于乳房硬塊的細(xì)針穿刺(FNA)數(shù)字影像,分別是影像中細(xì)胞核的10種特征的最大值、平均值、方差。這10種特征包括半徑、周長、面積、質(zhì)地、致密性、平滑度、凹度、凹點(diǎn)數(shù)、對稱性、分形維度等。具體屬性說明如表1所示。breast_cancer里有兩個(gè)屬性data、target。data是一個(gè)矩陣。每一列代表30個(gè)屬性中的一個(gè),一共30列;每一行代表某個(gè)被測量的乳房硬塊數(shù)字影像。一共采樣了569條記錄。輸出如下所示: 1.79900000e+01 1.03800000e+01 1.22800000e+02 ., 2.65400000e-014.60100000e-01 1.18900000e-0

8、1 2.05700000e+01 1.77700000e+01 1.32900000e+02 ., 1.86000000e-012.75000000e-01 8.90200000e-02 1.96900000e+01 2.12500000e+01 1.30000000e+02 ., 2.43000000e-013.61300000e-01 8.75800000e-02., 1.66000000e+01 2.80800000e+01 1.08300000e+02 ., 1.41800000e-012.21800000e-01 7.82000000e-02 2.06000000e+01 2.933

9、00000e+01 1.40100000e+02 ., 2.65000000e-014.08700000e-01 1.24000000e-01 7.76000000e+00 2.45400000e+01 4.79200000e+01 ., 0.00000000e+002.87100000e-01 7.03900000e-02target是一個(gè)數(shù)組,存儲了data中每條記錄屬于哪一類腫瘤,所以數(shù)組的長度是569。因?yàn)閿?shù)組元素的值共有2類,所以不同值只有2個(gè),0代表惡性,1代表良性。輸出分類標(biāo)簽的結(jié)果如下:0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0

10、0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 01 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 0 0 0 0 0 0 13 散點(diǎn)圖繪制(Drawing scatter plot)散點(diǎn)圖是數(shù)據(jù)點(diǎn)在直角坐標(biāo)系平面上的分布圖,適用于表示因變量隨自變量而變化的大致趨勢,據(jù)此可以選擇合適的函數(shù)對數(shù)據(jù)點(diǎn)進(jìn)行擬合。載入乳腺癌數(shù)據(jù)集,

11、然后區(qū)分其中的惡性樣本數(shù)據(jù)和良性樣本數(shù)據(jù),分別存入數(shù)據(jù)集Benign和Malignent,獲得良性樣本357個(gè),惡性樣本212個(gè)。從良性樣本和惡性樣本中分別提取出兩列數(shù)據(jù),即平均半徑和平均紋理,獲取的值賦值給XB、YB、XM、YM變量。最后調(diào)用scatter()函數(shù)繪制散點(diǎn)圖。關(guān)鍵代碼如下:plt.scatter(XM:50, YM:50, color=red, marker=o, label=malignent)繪制前50個(gè)惡性樣本,以紅色圓點(diǎn)標(biāo)記。plt.scatter(XB:50, YB:50, color=blue, marker=x, label=benign)繪制前50個(gè)良性樣本,

12、以藍(lán)色叉號標(biāo)記。繪制的散點(diǎn)圖如圖1所示。由該散點(diǎn)圖可以得出結(jié)論:惡性腫瘤的判別與腫瘤的半徑大小及紋理程度都有直接關(guān)聯(lián)。該圖為此論斷提供了可靠的數(shù)據(jù)依據(jù)。4 邏輯回歸分析(Logistic regression analysis)下面采用邏輯回歸對其進(jìn)行分類預(yù)測。獲取樣本的兩列數(shù)據(jù),對應(yīng)為平均半徑和平均紋理,每個(gè)點(diǎn)的坐標(biāo)就是(x,y)。先取二維數(shù)組的第一列(平均半徑)的最小值、最大值和步長(設(shè)置為0.02)生成數(shù)組,再取二維數(shù)組的第二列(平均紋理)的最小值、最大值和步長生成數(shù)組,最后生成兩個(gè)網(wǎng)格矩陣xx和yy,如下所示。 6.481 6.501 6.521 ., 28.561 28.581 28

13、.601 6.481 6.501 6.521 ., 28.561 28.581 28.601 6.481 6.501 6.521 ., 28.561 28.581 28.601., 6.481 6.501 6.521 ., 28.561 28.581 28.601 6.481 6.501 6.521 ., 28.561 28.581 28.601 6.481 6.501 6.521 ., 28.561 28.581 28.601 9.21 9.21 9.21 ., 9.21 9.21 9.21 9.23 9.23 9.23 ., 9.23 9.23 9.23 9.25 9.25 9.25 .,

14、 9.25 9.25 9.25., 39.73 39.73 39.73 ., 39.73 39.73 39.73 39.75 39.75 39.75 ., 39.75 39.75 39.75 39.77 39.77 39.77 ., 39.77 39.77 39.77將xx和yy的兩個(gè)矩陣降維成一維數(shù)組。由于兩個(gè)矩陣大小相等,因此兩個(gè)一維數(shù)組大小也相等。把第一列(平均半徑)數(shù)據(jù)按步長取等分,作為行,并復(fù)制多行得到xx網(wǎng)格矩陣;再把第二列(平均紋理)數(shù)據(jù)按步長取等分,作為列,并復(fù)制多列得到y(tǒng)y網(wǎng)格矩陣;最后將xx和yy矩陣都變成兩個(gè)一維數(shù)組,再組合成一個(gè)二維數(shù)組進(jìn)行預(yù)測。對于病人的特征,使用如下

15、公式計(jì)算得到危險(xiǎn)分?jǐn)?shù)4。計(jì)算得到的分?jǐn)?shù)越高,風(fēng)險(xiǎn)越大;分?jǐn)?shù)越低,風(fēng)險(xiǎn)越小。s的取值范圍是(-,+),但是我們想要的是一個(gè)0,1之間的值。因此需要一個(gè)轉(zhuǎn)換函數(shù)來把這個(gè)分?jǐn)?shù)轉(zhuǎn)換成0,1之間的值。這個(gè)函數(shù)稱為Logistic函數(shù),Logistic函數(shù)是一個(gè)S形的函數(shù),形狀如圖2所示。這個(gè)函數(shù)也稱為sigmoid函數(shù)。這個(gè)函數(shù)能夠把s映射到0,1之間,我們把這個(gè)函數(shù)稱為(s)。Logistic函數(shù)的形式為5:使用Python語言機(jī)器學(xué)習(xí)庫SKLearn提供的函數(shù)LogisticRegression進(jìn)行運(yùn)算,獲得的預(yù)測結(jié)果如下。1 1 1 ., 0 0 0Size:1692603將xx、yy兩個(gè)網(wǎng)格矩陣

16、和對應(yīng)的預(yù)測結(jié)果繪制在圖上,可以發(fā)現(xiàn)輸出為兩個(gè)顏色區(qū)塊,分別表示分類的兩類區(qū)域。輸出的區(qū)域如圖3所示。從惡性樣本、良性樣本分別獲取前50個(gè)樣本數(shù)據(jù),調(diào)用scatter()繪制散點(diǎn)圖。第一個(gè)參數(shù)為第一列數(shù)據(jù)(平均半徑),第二個(gè)參數(shù)為第二列數(shù)據(jù)(平均紋理),最后標(biāo)記為malignent或benign。輸出的區(qū)域如圖4所示。圖4經(jīng)過邏輯回歸后劃分為兩個(gè)區(qū)域。右側(cè)淺藍(lán)色部分,對應(yīng)Malignent惡性;左側(cè)棕紅色部分,對應(yīng)Benign良性。散點(diǎn)圖為各數(shù)據(jù)點(diǎn)真實(shí)的分類,紅色的圓點(diǎn)對應(yīng)Malignent惡性,藍(lán)色星形對應(yīng)Benign良性。劃分的兩個(gè)區(qū)域?yàn)閿?shù)據(jù)點(diǎn)預(yù)測的類型,預(yù)測的分類結(jié)果與訓(xùn)練數(shù)據(jù)的真實(shí)結(jié)果

17、基本一致,可見模型能夠很好地?cái)M合決策面。5 結(jié)論(Conclusion)實(shí)驗(yàn)中,當(dāng)選擇平均半徑和平均紋理兩個(gè)特性進(jìn)行分類,使用全部訓(xùn)練樣本后,分類精度最高可達(dá)到90.48%;而選擇平均半徑和最大周長兩個(gè)特性時(shí),分類精度達(dá)到95.72%,因此,選擇更優(yōu)的特征組合將提高分類精度。實(shí)驗(yàn)結(jié)果表明,邏輯回歸分類模型實(shí)現(xiàn)了快速、簡便、高效的乳腺癌診斷,可以幫助診斷乳腺癌。本實(shí)驗(yàn)采用的威斯康星乳腺癌診斷測試(WDBC)數(shù)據(jù)集來自于加利福尼亞大學(xué)Irvine機(jī)器學(xué)習(xí)庫。訓(xùn)練階段從32個(gè)原始特征中提取腫瘤特征。結(jié)果不僅說明了該方法對乳腺癌診斷的能力,而且顯示了在訓(xùn)練階段的時(shí)間節(jié)省。通過更好地提取不同類型腫瘤的特

18、征屬性,能夠有效提高該方法的分類準(zhǔn)確率,醫(yī)生也可以從抽象的腫瘤特征中獲益。Reference(References)1 L Miclet,S Bayoudh,A Delhay.Analogical Dissimilarity:Definition,Algorithms and Two Experiments in Machine LearningJ.Journal of Artificial Intelligence Research,2014,32(3):793-824.2 CW Han.Breast Cancer Diagnosis using Logic-based Fuzzy Neural NetworksJ.Digital Contents & App

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論