版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講人:***第12章乳腺癌數(shù)據(jù)分析與預測13-10月-23Python數(shù)據(jù)分析與數(shù)據(jù)挖掘目錄contents案例背景0102數(shù)據(jù)加載和預處理03探索性數(shù)據(jù)分析04分類模型05提升預測準確率的策略案例背景0112.1案例背景
乳腺癌BC(Breastcancer)是全球女性中最常見的癌癥之一,已成為當今社會重要的公共衛(wèi)生問題。全球乳腺癌發(fā)病率自20世紀70年代末開始一直呈上升趨勢。據(jù)國家癌癥中心和衛(wèi)計委疾病預防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示:全國腫瘤登記地區(qū)乳腺癌發(fā)病率位居女性惡性腫瘤的第1位,女性乳腺癌發(fā)病率(粗率)全國合計為42.55/10萬,城市為51.91/10萬,農村為23.12/10萬。
BC的早期診斷可以促進對患者的及時臨床治療,顯著改善預后和生存機會。良性腫瘤的進一步準確分類可以防止患者接受不必要的治療。因此,對BC的正確診斷以及將患者分為惡性或良性組的分類是許多研究的主題。12.1案例背景本例對美國威斯康星州乳腺癌診斷數(shù)據(jù)集進行分析,并通過構建模型,預測腫瘤是良性還是惡性。方法一:從kaggle的官網下載BreastCancerWisconsin(Diagnostic)數(shù)據(jù)集/uciml/breast-cancer-wisconsin-data方法二:從UCI機器學習庫中獲取/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29數(shù)據(jù)下載:12.1案例背景
數(shù)據(jù)集中的一共有569條數(shù)據(jù),其中乳腺結果診斷為良性的有357條,診斷為惡性的有212條。屬性特征:1、ID號2、乳腺組織的診斷結果(M=malignan惡性,B=benign良性)3、為每個細胞核計算的十個實值特征:(1)半徑(從中心到周邊點的距離的平均值);(2)紋理(灰度值的標準偏差);(3)周邊;(4)面積;(5)平滑度(半徑長度的局部變化);(6)緊密度(周長^2/面積-1.0);(7)凹度(輪廓的凹入部分的嚴重程度);(8)凹點(輪廓的凹入部分的數(shù)量);(9)對稱性;(10)分形維數(shù)(“海岸線近似”-1)。本案例的目的是要用細胞核的實值特征來預測乳腺組織的診斷結果。數(shù)據(jù)加載和預處理0212.2數(shù)據(jù)加載和預處理1、加載需要的庫及讀入數(shù)據(jù)12.2數(shù)據(jù)加載和預處理2、數(shù)據(jù)信息初步分析結果:數(shù)據(jù)中的第1列是編號ID,第2列是診斷結果列,最后一列Unnamed:32中全部為空值,應該被刪除。剩下的第3列至32列為每個細胞核的特征(共30列)2、數(shù)據(jù)信息初步分析結果:數(shù)據(jù)集中共有569行,33列。除了診斷特征diagnosis(即M=惡性或B=良性)之外,所有其他特征都是float64類型,除了特征Unnamed:32中全為空值以外,其他特征沒有空值。12.2數(shù)據(jù)加載和預處理12.2數(shù)據(jù)加載和預處理3、數(shù)據(jù)預處理
(1)數(shù)據(jù)集中有一個全為空值的列Unnamed:32,此外,id列為編號,對預測腫瘤是否為惡性不起作用。因此我們將使用下面的代碼對數(shù)據(jù)進行處理,定義要預測的結果列Y,和用來進行預測的特征列集合X,并刪除id和Unnamed:32整列。 (2)為了簡化處理,我們將要預測的目標列--診斷特征diagnosis列映射為數(shù)值型0和1,其中M=惡性映射為1,B=良性映射為0 (3)數(shù)據(jù)集中用來預測診斷特征diagnosis的其他列,即[radius_mean…fractal_dimension_worst]的3-32列,為每個細胞核計算的十個實值特征,這30個特征為取值范圍不同、均值和標準差不同的屬性,我們可以對其進行標準化或規(guī)范化,使其滿足在相同的數(shù)據(jù)區(qū)間或滿足高斯分布12.2數(shù)據(jù)加載和預處理12.2數(shù)據(jù)加載和預處理探索性數(shù)據(jù)分析0312.3.1診斷結果列的分布
數(shù)據(jù)集中腫瘤診斷結果diagnosis列有B(良性)或M(惡性)兩種取值,良性用0表示,惡性用1表示。
首先,檢查一下每個類別中有分別多少條病例,以及每種結果所占的百分比。數(shù)據(jù)集中共有診斷結果為良性的數(shù)據(jù)357條,惡性的數(shù)據(jù)212條其次,對分組統(tǒng)計的結果進行可視化展示。12.3.1診斷結果列的分布還可以查看每類數(shù)據(jù)所占的百分比并進行可視化展示。
良性數(shù)據(jù)占62.74%,惡性數(shù)據(jù)占37.26%,惡性診斷結果所占比例較高。本例中的數(shù)據(jù)集不代表典型的醫(yī)療數(shù)據(jù)分布。通常情況下,醫(yī)療數(shù)據(jù)中會有比較多的結果為陰性的病例,而只有少數(shù)代表陽性(惡性)腫瘤的病例。12.3.1診斷結果列的分布12.3.2數(shù)據(jù)分布的可視化分析
獲取了數(shù)據(jù)集的基本信息后,我們是否需要在對數(shù)據(jù)可視化、特征選擇、特征提取或分類之前,對數(shù)據(jù)進行標準化或規(guī)范化處理嗎?要回答類似的問題,我們還需了解各個特征的數(shù)據(jù)具體情況,例如數(shù)據(jù)的方差,標準偏差,樣本數(shù)(計數(shù))或者最大、最小值等,掌握這些信息有助于我們更加深入的理解數(shù)據(jù)。1、數(shù)據(jù)分布(直方圖)
直方圖是表示每個值的頻率的圖,頻率指每個值在數(shù)據(jù)集中出現(xiàn)多少次,這種描述稱為變量的分布。直方圖是最常見的表示變量分布的方法。
我們可以用語句:df.hist(‘radius_mean’)或df.radius_mean.hist()這樣一行簡單的代碼,就能繪制出某一列中的值的分布直方圖。12.3.2數(shù)據(jù)分布的可視化分析1、數(shù)據(jù)分布(直方圖)【結果】:大部分診斷結果為良性的數(shù)據(jù)radius_mean列的值比15小,而診斷結果為惡性的數(shù)據(jù)radius_mean列的值比15大。查看良性和惡性的數(shù)據(jù)在radius_mean列上的數(shù)據(jù)分布情況12.3.2數(shù)據(jù)分布的可視化分析1、數(shù)據(jù)分布(直方圖)繪制出所有數(shù)值型列的數(shù)據(jù)分布直方圖:df.hist(figsize=(20,15))12.3.2數(shù)據(jù)分布的可視化分析2、散點圖
散點圖通過用兩組數(shù)據(jù)序列構成的多個坐標點,來考察坐標點的分布,來判斷兩個變量之間是否存在某種關聯(lián),或分析坐標點的分布模式。散點圖將序列顯示為一組點,值由點在圖表中的位置表示。散點圖通常用于比較跨類別的聚合數(shù)據(jù),類別由圖表中的不同標記表示?!纠恳詒adius_mean為橫軸,texture_mean為縱軸,以散點圖顯示了良性和惡性數(shù)據(jù)的分布情況【結論】惡性腫瘤的radius_mean和texture_mean值均偏大,而良性腫瘤的radius_mean和texture_mean值偏小。12.3.2數(shù)據(jù)分布的可視化分析3、異常值檢測(箱圖)
錯誤值或異常值可能是一個嚴重的問題,它們通常會造成測量誤差或異常系統(tǒng)條件的結果,不具有描述底層系統(tǒng)的特征。因此,最佳做法是在進行下一步分析之前,就應該進行異常值去除處理。我們采用箱圖進行異常點監(jiān)測的可視化
為了方便在圖上觀察,首先我們可以對數(shù)據(jù)進行規(guī)范化或標準化,即將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。 【例】使用df1.loc[:,['radius_mean']].boxplot()繪制單一特征的箱圖或df1.iloc[:,1:6].boxplot()繪制多個特征的線圖。12.3.2數(shù)據(jù)分布的可視化分析3、異常值檢測(箱圖) 【例】按診斷結果的不同為各個特征做出異常值檢測的箱圖。下例中為前10個特征的異常檢測箱圖。12.3.3相關性分析
相關性是常用的統(tǒng)計術語,指的是兩個變量之間的關聯(lián)程度。兩個變量間通??梢杂腥缦氯N關系之一:正相關、負相關和不相關。如果一個變量高的值對應于另一個變量高的值,低的值對應低的值,那么這兩個變量正相關。反之,如果一個變量高的值對應于另一個變量低的值,那么這兩個變量負相關。如果兩個變量間沒有關系,即一個變量的變化對另一變量沒有明顯影響,那么這兩個變量不相關。
具有高相關性的特征更具線性依賴性,因此對因變量的影響幾乎相同。因此,當兩個特征具有高相關性時,我們可以刪除其中一個特征。12.3.3相關性分析1、jointplot圖
【例】查看特征concavity_worst與特征concavepoints_worst之間的相關性 【結果】pearson相關性結果為0.86,表示這兩個特征的相關性較高12.3.3相關性分析2、生成相關性矩陣12.3.3相關性分析3、生成相關性熱度圖分類模型0412.4.1
LogisticRegression模型
我們首先導入需要的庫并讀入數(shù)據(jù),將數(shù)據(jù)分成訓練集和測試集,構建K近鄰模型,并進行分類,輸出模型的準確率、精度和召回率等幾個評價指標。導入需要的庫并讀入數(shù)據(jù)12.4.1
LogisticRegression模型(2) 將數(shù)據(jù)分成訓練集和測試集數(shù)據(jù)分成70%的訓練集和30%的測試集,輸出訓練集和測試集的shape。12.4.1
LogisticRegression模型(3) 構建模型進行分類
用訓練數(shù)據(jù)x_train和y_train訓練數(shù)模型,并用訓練好的模型model_1對x_test進行預測,結果為y_pred。輸出模型的準確率、精度和召回率等幾個評價指標。12.4.2決策樹模型12.4.3SVM模型提升預測準確率的策略0512.5.1數(shù)據(jù)標準化或規(guī)范化
我們可以在建立模型前,首先對數(shù)據(jù)進行標準化或規(guī)范化,使得特征的范圍具有可比性。它是數(shù)據(jù)處理的預處理處理,對后面的使用數(shù)據(jù)具有關鍵作用。
常用的數(shù)據(jù)標準化和規(guī)范化的方法:標準化:一種有用的技術,可將具有高斯分布,均值和標準差不同的屬性轉換為平均值為0和標準差為1的標準高斯分布。規(guī)范化:在scikit-learn中進行規(guī)范化是指將每個觀察值(行)重新縮放為長度為1(在線性代數(shù)中稱為單位范數(shù)或長度為1的向量)。二值化:將所有高于閾值的值都標記為1,所有等于或低于閾值的值都標記為0。12.5.1數(shù)據(jù)標準化或規(guī)范化【例】我們采用sklearn中的StandardScaler開展,并在LogisticRegression算法上對比縮放前后預測準確率。使用數(shù)據(jù)轉換將提高模型的準確性,在Logistic回歸算法中我們有效提升了預測的準確度。12.5.2特征選擇1、使用SelectKBest進行特征選
在單變量特征選擇中,我們將使用SelectKBest來刪除除k個最高得分特征之外的所有特征。在這種方法中,我們需要選擇我們將使用多少特征。例如,k(特征數(shù))應該設置為5還是10、或者是15?我們可以設置不同的值來進行嘗試,我們可以試著將k設置為5來找到最好的5個特征。12.5.2特征選擇2、使用RFE進行特征選擇 RFE遞歸特征消除的主要思想是反復的構建模型(如SVM或者回歸模型)然后選出最好的(或者最差的)的特征(可以根據(jù)系數(shù)來選),把選出來的特征放到一邊,然后再剩余的特征上重復這個過程,直到所有特征都遍歷了。這個過程中特征被消除的次序就是特征的排序。
RFE自身的特性使得我們可以比較好的進行手動的特征選擇,但是同樣的也存在原模型在去除特征后的數(shù)據(jù)集上的性能表現(xiàn)要差于原數(shù)據(jù)集。12.5.2特征選擇2、使用RFE進行特征選擇12.5.2特征選擇3、使用RFECV進行特征選擇 RFE通過學習器返回的coef_屬性
或者feature_importances_屬性來獲得每個特征的重要程度。
然后,從當前的特征集合中移除最不重要的特征。在特征集合上不斷地重復遞歸這個步驟,直到最終達到所需要的特征數(shù)量為止。 RFECV通過交叉驗證來找到最優(yōu)的特征數(shù)量。如果減少特征會造成性能損失,那么將不會去除任何特征。這個方法用以選取單模型特征相當不錯,但是有兩個缺陷,一是計算量大;二是隨著學習器(評估器)的改變,最佳特征組合也會改變,有些時候會造成不利影響。12.5.2特征選擇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論