ROC曲線-閾值評價標(biāo)準(zhǔn)參考模板_第1頁
ROC曲線-閾值評價標(biāo)準(zhǔn)參考模板_第2頁
ROC曲線-閾值評價標(biāo)準(zhǔn)參考模板_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點為敏感性和特異性均較高的臨界值。ROC曲線的例子考慮一個二分問題,即將實例分成正類(positive)或負(fù)類(negative)。對一個二分問題來說,會出現(xiàn)四種情況。如果一個實例是正類

2、并且也被 預(yù)測成正類,即為真正類(True positive),如果實例是負(fù)類被預(yù)測成正類,稱之為假正類(False positive)。相應(yīng)地,如果實例是負(fù)類被預(yù)測成負(fù)類,稱之為真負(fù)類(True negative),正類被預(yù)測成負(fù)類則為假負(fù)類(false negative)。TP:正確肯定的數(shù)目;FN:漏報,沒有正確找到的匹配的數(shù)目;FP:誤報,給出的匹配是不正確的;TN:正確拒絕的非匹配對數(shù);列聯(lián)表如下表所示,1代表正類,0代表負(fù)類。   預(yù)測   10合計實際1True Positive(TP)False Negative(FN)Actu

3、al Positive(TP+FN) 0False Positive(FP)True Negative(TN)Actual Negative(FP+TN)合計 Predicted Positive(TP+FP)Predicted Negative(FN+TN)TP+FP+FN+TN從列聯(lián)表引入兩個新名詞。其一是真正類率(true positive rate ,TPR), 計算公式為TPR=TP/ (TP+ FN),刻畫的是分類器所識別出的 正實例占所有正實例的比例。另外一個是負(fù)正類率(false positive rate, FPR),計算公式為FPR= FP /

4、 (FP + TN),計算的是分類器錯認(rèn)為正類的負(fù)實例占所有負(fù)實例的比例。還有一個真負(fù)類率(True Negative Rate,TNR),也稱為specificity,計算公式為TNR=TN/ (FP+ TN) = 1-FPR。1 / 3其中,兩列True matches和True non-match分別代表應(yīng)該匹配上和不應(yīng)該匹配上的兩行Pred matches和Pred non-match分別代表預(yù)測匹配上和預(yù)測不匹配上的在一個二分類模型中,對于所得到的連續(xù)結(jié)果,假設(shè)已確定一個閥值,比如說 0.6,大于這個值的實例劃歸為正類,小于這個值則劃到負(fù)類中。如果減小閥值,減到0.5,固然

5、能識別出更多的正類,也就是提高了識別出的正例占所有正例 的比類,即TPR,但同時也將更多的負(fù)實例當(dāng)作了正實例,即提高了FPR。為了形象化這一變化,在此引入ROC,ROC曲線可以用于評價一個分類器。ROC曲線和它相關(guān)的比率(a)理想情況下,TPR應(yīng)該接近1,F(xiàn)PR應(yīng)該接近0。ROC曲線上的每一個點對應(yīng)于一個threshold,對于一個分類器,每個threshold下會有一個TPR和FPR。比如Threshold最大時,TP=FP=0,對應(yīng)于原點;Threshold最小時,TN=FN=0,對應(yīng)于右上角的點(1,1)(b)P和N得分不作為特征間距離d的一個函數(shù),隨著閾值theta增加,TP和FP都增

6、加Receiver Operating Characteristic,翻譯為"接受者操作特性曲線",夠拗口的。曲線由兩個變量1-specificity 和 Sensitivity繪制. 1-specificity=FPR,即負(fù)正類率。Sensitivity即是真正類率,TPR(True positive rate),反映了正類覆蓋程度。這個組合以1-specificity對sensitivity,即是以代價(costs)對收益(benefits)。       此外,ROC曲線還可以用來計算“均值平均精度”(mean average

7、precision),這是當(dāng)你通過改變閾值來選擇最好的結(jié)果時所得到的平均精度(PPV).下表是一個邏輯回歸得到的結(jié)果。將得到的實數(shù)值按大到小劃分成10個個數(shù) 相同的部分。 Percentile實例數(shù)正例數(shù)1-特異度(%)敏感度(%)10618048792.7334.6420618028049.8054.55306180216518.2269.92406180150628.0180.6250618098738.9087.6260618052950.7491.3870618036562.9393.9780618029475.2696.0690618029787.5998.171006177258100.00100.00其正例數(shù)為此部分里實際的正類數(shù)。也就是說,將邏輯回歸得到的結(jié) 果按從大到小排列,倘若以前10%的數(shù)值作為閥值,即將前10%的實例都劃歸為正類,6180個。其中,正確的個數(shù)為4879個,占所有正類的 4879

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論