011GP10A使用ROC曲線評價臨床試驗的準(zhǔn)確度中文_第1頁
011GP10A使用ROC曲線評價臨床試驗的準(zhǔn)確度中文_第2頁
011GP10A使用ROC曲線評價臨床試驗的準(zhǔn)確度中文_第3頁
011GP10A使用ROC曲線評價臨床試驗的準(zhǔn)確度中文_第4頁
011GP10A使用ROC曲線評價臨床試驗的準(zhǔn)確度中文_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、使用ROC曲線評價臨床試驗的準(zhǔn)確度:批準(zhǔn)指南(GP10A)翻譯:趙艷紅審核: 批準(zhǔn):目錄1范圍32術(shù)語33 評價過程概述:43.1 定義臨床問題(見4.1部分)43.2 選擇代表研究樣本(見4.2部分)43.3 建立每個受試者的“真實的”臨床狀態(tài)(見4.3部分)43.4 檢驗被研究受試者(見4.4部分)43.5 評價檢驗的臨床準(zhǔn)確性(見4.5部分)54 設(shè)計基本的評價研究54.1 定義臨床問題54.2 選擇代表研究樣本54.2.1 選擇偏差64.2.2 回顧研究64.2.3 檢驗前的選擇64.2.4 流行疾病64.2.5 商討統(tǒng)計74.3 建立每個受試者的“真實的”臨床狀態(tài)74.3.1 評價的

2、有效性74.3.2 真實臨床亞群74.3.3 分類途徑74.3.4 獨立分類84.3.5 偽裝評價(masked evaluation)。84.4 檢驗研究受試者84.4.1 進(jìn)行偽裝研究84.4.2 一致樣品94.4.3 檢驗?zāi)J?4.5 評價檢驗的臨床準(zhǔn)確性94.5.1 診斷或臨床敏感性和特異性94.5.2 ROC曲線104.5.2.1 概述104.5.2.2 生成ROC曲線;連接114.5.2.3 ROC曲線定性釋義124.5.2.4 單個ROC曲線下的區(qū)域134.5.2.5 多種檢驗的統(tǒng)計比較134.5.2.6 其他ROC統(tǒng)計144.5.2.7 ROC13曲線的優(yōu)點144.5.2.8

3、ROC曲線的缺點145 ROC 曲線的使用:臨床實驗室文獻(xiàn)中的案例146 總結(jié)15使用ROC曲線評價臨床試驗的準(zhǔn)確度:批準(zhǔn)指南1范圍 本指南概述設(shè)計一個先期的研究來評價臨床實驗室試驗內(nèi)部診斷準(zhǔn)確度的步驟和原則,例如,它的基本能力是正確區(qū)別在健康的供選擇幾種狀態(tài)之間的靈敏性和特殊性。對每一步驟都做了詳細(xì)的描述,包括它執(zhí)行的原理和建議。相同的概念也可以應(yīng)用到已經(jīng)產(chǎn)生的數(shù)據(jù)的重要評價之中。2術(shù)語臨床準(zhǔn)確度(診斷準(zhǔn)確度):診斷試驗在兩個或更多的臨床狀態(tài)中的區(qū)別的能力,例如,區(qū)別風(fēng)濕性關(guān)節(jié)炎和全身紅斑狼瘡,區(qū)別風(fēng)濕性關(guān)節(jié)炎和“無關(guān)節(jié)疾病”,區(qū)別慢性肝炎和“無肝部疾病”,區(qū)別風(fēng)濕性關(guān)節(jié)炎和其他關(guān)節(jié)疾病的“

4、混合疾病”。臨床狀態(tài):一種健康或者疾病的狀態(tài),是被診所或其他獨立參考標(biāo)準(zhǔn)確認(rèn)過的。關(guān)于臨床狀態(tài)的例子包括“未發(fā)現(xiàn)病癥”,“病癥1”(1代表第一個被考慮的臨床狀態(tài)),“病癥2”(2代表第二個被調(diào)查的臨床狀態(tài)),等等。判斷臨界值(也是判斷水平,cutoff(截斷):一個試驗分?jǐn)?shù)被用作是“陽性試驗”的判斷標(biāo)準(zhǔn)。所有在其中或者超過這個試驗分?jǐn)?shù)的被認(rèn)為是“陽性的”;不在其中或未達(dá)到分?jǐn)?shù)的被認(rèn)為是“陰性的”。在一些案例中,低的試驗分?jǐn)?shù)被認(rèn)為是“異常的”,例如,L/S 比例或者血紅蛋白。在另外一些案例中,高的試驗分?jǐn)?shù)被認(rèn)為是“異常的”,例如,心肌酶或者尿酸濃縮物。診斷試驗:測量或檢查,將病人分成特定的組或者

5、臨床狀態(tài)。有效性:數(shù)據(jù)的實際有效值,例如,臨床目的的有用性。假陰性結(jié)果(FN):受試者出現(xiàn)陰性試驗結(jié)果,發(fā)現(xiàn)疾病或病情。假陽性結(jié)果(FP):受試者出現(xiàn)陽性測試結(jié)果,未發(fā)現(xiàn)疾病或病情。假陰性分段(FNF):患有疾病的受試者的比例,但是對有疾病的受試者測試結(jié)果為陰性;FN/(FN+TP);同(1-敏感性)。假陽性分段(FPF): 未患疾病受試者的比例,但是對無疾病受試者的測試結(jié)果為陽性;FN/(FN+TP);同(1-特殊性)。流行率:對特定人群,特定臨床狀態(tài)的預(yù)測可能性;在給定時間點,感興趣人群的疾病發(fā)生頻次。受試者工作特征曲線(ROC):測試結(jié)果的圖形描述,代表真陽性分段(敏感度)和假陽性分段(

6、1-特異性)之間的關(guān)系。通常,真陽性分段繪制在垂直軸上,假陽性率(或,真陰性分段)繪制在水平軸上。臨床準(zhǔn)確性,也就是敏感度和特異性,顯示的是全光譜決斷水平。敏感度(臨床敏感度):在疾病測試中為陽性結(jié)果;真陽性分段;在特定判定臨界值正確檢測疾病的能力。特殊性(臨床特異性):在健康測試中為陰性結(jié)果;真陰性分段;在特定判定臨界值正確檢測無疾病的能力。研究組:一組感興趣的臨床定義人群,代表一組樣品。感興趣的人群是用于測試評價的目標(biāo)組,將其分別應(yīng)用到實踐當(dāng)中。研究的亞群被定義為屬于特殊的臨床狀態(tài),適用于標(biāo)準(zhǔn)(見正文)。真陰性結(jié)果(TN):受試者無疾病,測試結(jié)果為陰性。真陽性結(jié)果(TP):受試者患有疾病,

7、測試結(jié)果為陽性。真陰性分段(TNF):無疾病受試者比例,對于無疾病的受試者來說測試結(jié)果為陰性;TN/(TN+FP);特異性。真陽性分段(TPF):患有疾病受試者的比例,對于患有疾病的受試者來說測試結(jié)果為陽性;TN/(TN+FP);敏感度。3 評價過程概述:3.1 定義臨床問題(見4.1部分)使用以下程序定義臨床問題:(1) 描述受試人群的特性。(2) 描述所做的管理決定。(3) 在做決定時,定義檢測的任務(wù)。3.2 選擇代表研究樣本(見4.2部分)使用以下程序選擇代表研究樣本:(1) 預(yù)期選擇統(tǒng)計有效樣本,包含在上面3.1中提出的代表群體的受試者。(2) 選擇獨立與測試結(jié)果的樣本。(3) 計算數(shù)

8、據(jù)不全的病體數(shù)量。3.3 建立每個受試者的“真實的”臨床狀態(tài)(見4.3部分)使用以下程序建立每個受試者的真實的臨床狀態(tài):(1) 對于每個相關(guān)的臨床狀態(tài)采用獨立的外部標(biāo)準(zhǔn)或者診斷真實性標(biāo)準(zhǔn),這樣可以盡可能的正確歸類每個受試者,也可以建立在嚴(yán)格診斷工作組或者臨床過程或結(jié)果評估的基礎(chǔ)上。(2) 不使用被評價的試驗來區(qū)分受試者,例如未知試驗結(jié)果,不包括標(biāo)準(zhǔn)中的試驗結(jié)果。3.4 檢驗被研究受試者(見4.4部分)使用以下程序檢驗被研究的受試者:(1) 在未知受試者分類的情況下進(jìn)行檢驗。(2) 在比較多個檢驗時,對所有受試者進(jìn)行檢驗,最好以批的模式,而且在臨床過程使用同樣的點。3.5 評價檢驗的臨床準(zhǔn)確性(

9、見4.5部分)使用以下程序評論檢驗的臨床準(zhǔn)確性(1) 描繪受試者工作特征曲線圖來評價檢驗準(zhǔn)確性。(2) 在ROC曲線和分析的基礎(chǔ)上比較可選擇的檢驗。4 設(shè)計基本的評價研究4.1 定義臨床問題實驗室檢驗需要提供對治療病人有幫助的信息。通常情況下會有一系列的臨床問題。定義臨床問題是最基本的要求,因為它提出了特定病人的護(hù)理問題,并用評價法處理。CK-2濃縮物可否用于區(qū)別心肌梗死(AMI)和其他原因?qū)е碌男赝粗g的不同,病人是否有心肌梗死的病史并曾被急救過?幾個檢驗中,在區(qū)別乳腺癌的檢驗時,一些受試者對特定化學(xué)治療有反應(yīng),另外的一些沒有反應(yīng),最好的區(qū)別方法是什么?在一些檢驗中,在之前尚未發(fā)現(xiàn)貧血的老年

10、病人中,在區(qū)別鐵缺乏癥和其他導(dǎo)致貧血的原因時,那種方法更準(zhǔn)確?一個給定的檢驗可能因不同的臨床設(shè)置而不相同。實施良好的試驗可以幫助區(qū)別表面看起來健康的未患有前列腺疾病的年輕人和患有前列腺癌的中年之間的不同,但是可能對區(qū)別患有良性前列腺疾病的中年人和患有惡性前列腺疾病的中年人之間的不同的幫助不大。后者的差別顯示出適用于中年人癥狀的相關(guān)臨床問題,而前者的差別顯示出不同的項目,可能與臨床根本不相關(guān)。通常情況下,臨床問題或目的包含表面相似的受試者群組(在檢驗前使用評價法獲取信息的基礎(chǔ)上的群的集合),也應(yīng)該進(jìn)一步細(xì)分為相關(guān)的管理亞群。檢驗的結(jié)果應(yīng)該指出個體受試者是屬于哪個管理亞群的。例如,對于使用化學(xué)發(fā)光

11、免疫法(RIA)檢驗血漿血管緊張肽-轉(zhuǎn)換酶活性的試驗預(yù)計可以回答以下問題:“在患有高血鈣的病人中,誰患有結(jié)節(jié)?。俊北砻姘Y狀相似的病人有高血鈣的常見癥狀。檢驗幫助其分為亞群:患有結(jié)節(jié)病的分為一組,由于其他原因?qū)е赂哐}(例如惡性腫瘤或甲狀旁腺功能亢進(jìn))的分為另外一組,原因不同,使用的管理方法也不相同。對于前面提到的案例,必須小心定義目標(biāo)群,包括性質(zhì)/種類,延續(xù)時間和質(zhì)量條件的重要性。例如,這可能包括在相距一周時間里血清鈣的濃度大于“X”的兩種情況,年齡差距,性和其他表象(例如,胸部X光),對于在群組中包含或不包含受試者的這些要求。4.2 選擇代表研究樣本清楚的定義臨床問題的過程實際上是為識別檢驗

12、與評價相關(guān)的群來服務(wù)的。在這些臨床群體中,選擇用于研究的受試者。這些受試者應(yīng)該選擇作為可以代表臨床感興趣的大量的群體,并得出關(guān)于它的結(jié)論。結(jié)果的意義是建立在相關(guān)的群的識別和選樣的關(guān)注程度之上的。所得的結(jié)果可以從問題的定義和選取受試者研究的性質(zhì)中得出。在通常的實驗室實習(xí)中,采用或建立相關(guān)間隔是很常見的,經(jīng)??梢杂脕磔o助解釋病人檢查結(jié)果。這些間隔常常從以下檢驗結(jié)果中搜集數(shù)據(jù):獻(xiàn)血者,實驗室工作人員,學(xué)生或其他門診患者,“健康的”志愿者。注意:這個群體可能和本指南中描述的診斷準(zhǔn)確性評價法不相關(guān)。在將評價作為檢驗準(zhǔn)確度的篩選工具時,應(yīng)使用篩選群體代表樣本。例如,考慮到結(jié)腸癌的糞便隱血。如果檢驗的目的是

13、評價在無特殊癥狀的中年受試者中發(fā)現(xiàn)隱形癌癥,樣本應(yīng)該全都在這種群體中選取。在無癌癥人群、健康的志愿者和確認(rèn)已經(jīng)患有結(jié)腸癌的人群中選擇樣本,則是不適合的。同樣的原則也適用于在檢驗,但不是在篩選時,而是在區(qū)分有癥狀的病人間的疾病狀態(tài)的情況下。如果是檢驗有病史和癥狀的急性胰腺炎病人,指出其患有胰腺炎的可能性,樣本的選取應(yīng)該包括這類人群。因為檢驗不是為了區(qū)分健康的志愿者和確認(rèn)有胰腺炎病人之間的區(qū)別,所以研究使用這類的受試者是不合適的。所得出的結(jié)論也不符合試驗?zāi)康摹?選擇偏差為避免選擇偏差可能破壞研究有效性或者提出的相關(guān)問題,請慎重選擇受試者。例如,特別是對于那些隱性的癥狀或早期的受試者,使用確認(rèn)的或臨

14、床癥狀明顯的病人樣本。同樣的道理,使用年輕的健康志愿者的樣本對于檢驗預(yù)期的應(yīng)用來說是不適合的。這里使用的測量方法是受目標(biāo)群體和樣本的疾病光譜的影響的。受試者預(yù)期適合的重要性將在文獻(xiàn)2-6中詳細(xì)討論。 回顧研究不允許檢驗結(jié)果或檢驗程序影響受試者的選擇。排除未預(yù)料到的、模棱兩可的或不一致的受試者的結(jié)果可以讓檢驗更加有用?;仡櫻芯恐坏贸霾∪说臋z驗數(shù)據(jù)報告,不包括病人因為不同原因而未成功檢驗測試,從而扭曲了檢驗的績效。 檢驗前的選擇在檢驗結(jié)果直接或間接影響到受試者的選擇時,在檢驗開始前選擇受試者,作為預(yù)防偏差的措施。為預(yù)防任何偏差,篩選符合定義的所有的感興趣的臨床組,直到獲得預(yù)定數(shù)量的受試者。一旦選取

15、,不應(yīng)放棄研究的受試者。如果一些病人沒有完成研究(因為技術(shù)錯誤,分析干擾,死亡或未跟上進(jìn)度的原因),在最終的分析結(jié)果中,也應(yīng)包含他們的數(shù)據(jù)信息。因丟失受試者導(dǎo)致不確定性和可能的偏差,必須考慮和報告體現(xiàn)研究結(jié)論中。 流行疾病這里描述的途徑是獨立于流行疾病的,所以不必須有反應(yīng)實際流行的樣本。有大約相當(dāng)數(shù)量的感染疾病的受試者和未被感染的受試者是可取的方式。 商討統(tǒng)計在計劃定義,尺寸和研究群體的選取時,建議與專業(yè)的統(tǒng)計學(xué)家商討,這可以應(yīng)用于檢驗性能的重要評價。樣本尺寸應(yīng)適合評價目標(biāo),提供有效的ROC曲線和檢驗作比較。在這個不可能的時候,應(yīng)清晰描述選擇的標(biāo)準(zhǔn)。4.3 建立每個受試者的“真實的”臨床狀態(tài)對

16、于臨床準(zhǔn)確性的客觀評價需要比較結(jié)果,結(jié)果是由一些獨立的,真實的外部定義的檢驗機(jī)構(gòu)提供的。以上定義的臨床問題,確認(rèn)了“真實”(健康的狀態(tài))的分類是什么,與評價方法有關(guān)。標(biāo)準(zhǔn)適用于將單個人歸類到他們各自的真實組中。標(biāo)準(zhǔn)可能包括活體檢視數(shù)據(jù),外科或尸體剖檢發(fā)現(xiàn)數(shù)據(jù),顯像數(shù)據(jù)和長期跟蹤數(shù)據(jù)。可惜的是,歸類單個人樣本到有差別的組中可能導(dǎo)致運行有缺陷。標(biāo)準(zhǔn)可能不可信和/或產(chǎn)生偏差6.其中一些可能不會清楚的適合定義的健康狀態(tài)。Metz 建議說“真實是一個哲學(xué)上的概念,當(dāng)然,如果比評價法的診斷體系(檢驗)更可信賴的話,真實的標(biāo)準(zhǔn)對現(xiàn)實的目的來說是充分的。” 評價的有效性在評價檢驗臨床準(zhǔn)確性時,評價的有效性是受

17、準(zhǔn)確性的限制的,受試者是用準(zhǔn)確性來歸類的。一個完美的檢驗可能運行的很簡單,因為沒有正確的對每個病人制定其“真實性”,因此,檢驗結(jié)果和表面看起來的“真實”診斷是不相符合的。在另一方面,當(dāng)檢驗結(jié)果與不正確的分類一致時,檢驗看起來運行的比實際“更好”。因此,嘗試著盡可能的區(qū)分單個人是很重要的,同時也要考慮到由于區(qū)分計劃導(dǎo)致的結(jié)果上可能的偏差。與真實性分類越接近,在評價任何檢驗的時候的表面現(xiàn)象的偏差會越小。 真實臨床亞群對于評價研究來說,通常的臨床診斷并不適當(dāng)。決定病人的真實臨床亞群可能需要用到如下的程序,活體檢視,外科考察,尸體剖檢,血管造影術(shù)或長期跟蹤,對治療和臨床結(jié)果的反應(yīng)。盡管這些程序?qū)υu價可

18、能造成經(jīng)濟(jì)上的成本增加,但是小成本檢驗,如果其錯誤結(jié)論導(dǎo)致不合適的檢驗的使用或者不適合的病人的管理,在長期來看,通常臨床評價法的花費將更大。 分類途徑在很多臨床情況下,獲得獨立的,正確的病人“真實性”臨床條件分類是很困難的。在識別真實的健康狀態(tài)時,形成了幾種策略來處理這些難點。一種策略是按照測量臨床結(jié)果7來定義診斷問題。第二種方法是使用達(dá)成幾種共識,多數(shù)原則或?qū)<一仡檨頊p少錯誤傾向識別過程8。第三種解決方案是對幾種正確檢驗做比較的假定,即假定在未知混合組中有患病和未患病的人群,然后去估計這個混合組的參數(shù)和其他參數(shù)9. 第四種方法,不是定義分配每個這樣的病人到其中的一組中去,例如“患病的”或“未

19、患病的”分配到0到1之間的每個值,并與(受試者)假定相對應(yīng),這個病人屬于這個患病組(這可以完成邏輯退化)。因此,在組的分配是模棱兩可的情況下,沒必要將數(shù)據(jù)從這個模糊的案例中除去。盡管診斷分類經(jīng)常預(yù)示并發(fā)癥和治療反應(yīng),但是對于檢驗來說最好的評價是關(guān)于其指出臨床反應(yīng)或結(jié)果的能力,而不是分配診斷的能力。例如,可能將疑似患有前列腺疾病的病人歸類到那些患有癌癥組里面,未患有癌癥組里面是建立在活體檢視結(jié)果的基礎(chǔ)上的。因此,將他們按照病人明顯疾病癥狀來區(qū)分將更有作用。如果評價的目的是假定血清制造者在區(qū)別需要干涉的病人和不需要干涉的病人方面的準(zhǔn)確性上,對于知道哪個病人會進(jìn)一步發(fā)病比知道哪個病人疾病有組織學(xué)證據(jù)

20、更加恰當(dāng)。這個案例是真實的案例,它出現(xiàn)在原始的臨床創(chuàng)立任務(wù)之前,是在評價法檢驗的技巧上的。因此,缺少及時定義診斷類別不是阻止檢驗臨床準(zhǔn)確性的必要條件。事實上,在建立正確的診斷比較容易的時候,關(guān)于臨床過程相關(guān)聯(lián)的檢驗結(jié)果可以比單獨研究病人診斷關(guān)聯(lián)結(jié)果更加能提供有用的臨床評價。 獨立分類為避免在評價檢驗臨床準(zhǔn)確性時的偏差,真實的臨床狀態(tài)應(yīng)該不受調(diào)查結(jié)果或使用對比的影響。很明顯,新的檢驗不應(yīng)該包含在區(qū)分受試者的標(biāo)準(zhǔn)中。例如,如果RIA的CK-MB是為診斷AMI來評價的,因為區(qū)分研究受試者,CK-MB的電泳技術(shù)或者免疫抑制作用都應(yīng)被包含在“金標(biāo)準(zhǔn)”組里面。進(jìn)一步說,如果CK-MB試驗的性能是為了直接與

21、LD-1/LD-2同工酶率做比較,則LD同工酶結(jié)果不應(yīng)被包含在診斷標(biāo)準(zhǔn)里,因為表面性能將會在任何檢驗中有偏差,它也是“真實標(biāo)準(zhǔn)”的一部分。 偽裝評價(masked evaluation)。為確保分類不受評價法下檢驗結(jié)果的影響,需要做偽裝,也就是未知檢驗結(jié)果。進(jìn)一步說,歸類每個病人到管理亞群的標(biāo)準(zhǔn)要盡可能的客觀。在歸類是建立在臨床或形態(tài)學(xué)受試者評價的基礎(chǔ)上時,例如放射性核素或者骨髓涂片,對于每個病人的判斷應(yīng)當(dāng)反應(yīng)專家的一致意見,這些專家對每種偽裝材料的解釋及其相互間的獨立性。4.4 檢驗研究受試者 進(jìn)行偽裝研究使用評價法進(jìn)行檢驗的人應(yīng)該做偽裝,也就是說,未知受試者的臨床狀態(tài)。理想的情況是,檢驗應(yīng)

22、該在臨床問題得到回答之前來做。已知臨床問題的結(jié)果可能導(dǎo)致微小的偏差。不適合臨床狀態(tài)的結(jié)果可能在假定技術(shù)困難或干擾因素的基礎(chǔ)上選擇性的重復(fù)或排除。 一致樣品在比較兩個或更多檢驗時,檢驗的受試者和樣品的一致性是很重要的。不正確使用這些受試者來評價每個檢驗可能導(dǎo)致因為樣品錯誤引起的結(jié)論錯誤。進(jìn)一步說,細(xì)小的偏差可能影響不同組的受試者的選擇。因此,在檢驗表現(xiàn)上顯示的表面不同可能反應(yīng)的是檢驗組的受試者的不同。如果一些受試者有晚期的,假定,更加容易發(fā)現(xiàn)的疾病,而只做了一些檢驗,這些檢驗相對于其他檢驗來說靈敏度更高。相反,受試者疾病輕微,可能很難發(fā)現(xiàn),這將可能減小在這些受試者身上的檢驗靈敏度,這是與使用受試

23、者檢驗相比較而言的。對所有受試者做全部檢驗確保靈敏度和特異性的不同,而不僅僅是診斷標(biāo)準(zhǔn)適用范圍的不一致。簡單的說,在病人患病不同的時間,如果兩個或者更多的檢驗可以適用于相同的受試者,這些檢驗的一個明顯的優(yōu)勢是在易檢驗的疾病中,這個事實是成立的。因此,所有的檢驗都應(yīng)在每個受試者患病的相同階段來進(jìn)行。對于所有的檢驗使用區(qū)別樣本,避免以上的失誤。 檢驗?zāi)J皆谕慌畏治鏊袠颖?,在可能的情況下,建議減少分解的分散干擾。因此,注意通過特殊存儲條件保持分析物的穩(wěn)定性。4.5 評價檢驗的臨床準(zhǔn)確性通過檢驗臨床準(zhǔn)確性來評價檢驗的性能,也就是說,其有能力將單個人歸類到兩個亞群組里,例如,一個亞群組的人患上某些

24、疾?。ㄒ虼诵枰委煟诙M未感染疾病。如果兩個檢驗組的檢驗結(jié)果沒有重疊,則這個檢驗可以正確鑒別受試者并區(qū)別兩個亞群。然而,如果兩個亞群的結(jié)果有重疊,說明檢驗鑒別能力不強(qiáng)。在其他的案例中,希望有一種方法來代表和測量來區(qū)別準(zhǔn)確性。 診斷或臨床敏感性和特異性一項檢驗區(qū)別或認(rèn)知已經(jīng)患病的能力就是其診斷敏感度;其區(qū)別沒有患病的能力就是其特異性。兩者都是測量準(zhǔn)確度并可以用百分比、比率或小數(shù)部分來表示。完美的測試是達(dá)到了100%或1.0的敏感度和特異性。然而,檢驗很少是完美的,通常情況下,兩者不會同時達(dá)到100%。診斷敏感性(真陽性比率或部分)定義如下:或 (1)這里指的是受試者確實感染了疾病并顯示陽性結(jié)

25、果診斷特異性(真陰性部分)定義如下:或者 (2)這部分是真正未感染疾病的人,檢驗結(jié)果為陰性。通常情況下,檢驗有其特殊的敏感度和特異性。因此,對于一個檢驗來說,沒有單一的敏感度和特異性;或者說有連續(xù)的敏感度和特異性。改變判定臨界值(或判定水平,正常上限,置信區(qū)間值或參考值),可以得到敏感度值的范圍在0到100%區(qū)間,每個值都有一個對應(yīng)的特異性。對于每個用于區(qū)分受試者是陽性或陰性的判定臨界值是建立在檢驗結(jié)果的基礎(chǔ)上的,敏感度和特異性只有一個單一連接。這些參數(shù)是成對出現(xiàn)的,檢驗的準(zhǔn)確性是由發(fā)生的光譜來反應(yīng)的(特異的檢驗不都是成對出現(xiàn)的)。在任一檢驗中,兩組受試者的結(jié)果分布重疊,在敏感度和特異性之間不

26、可避免的存在“trade-offs”。因為判定臨界值在觀察區(qū)間不同,敏感度和特異性將向相反的方向移動。一個值增大,則另外一個值減小。對于每個判定臨界值來說,都有成對的敏感度和特異性對應(yīng)。哪個值描述了檢驗的正確性?所有的都能。只有敏感度/特異性組的全部光譜才提供檢驗準(zhǔn)確性完整圖示。在圖示1中(第13頁),在臨界值是6g/L時,CK-BB顯示的敏感度是100%或1.0。所有的50受試者的acute mycocardial infarction (AMI)都正確的歸類為“陽性的”或“受感染的”。同樣的,相同的臨界值,20個受試者中的9個未患有AMI的都被錯誤的歸類為陽性,所以特異性只有55%(55%

27、真陰性,45%假陽性)。然而,在判定臨界值是12g/L而不是6時,敏感度降到96%(0.96),因為在50個受試者中只有48個的AMI被正確的歸類為“陽性”。進(jìn)一步說,因為所有的非-AMI受試者現(xiàn)在都被正確的歸類為未受感染,特異性增加到100%(100%真陰性,0%假陽性)。因此,在臨界值由6g/L變?yōu)?2g/L,導(dǎo)致了敏感度的降低和特異性的增加。注意敏感度全部使用感染(AMI)的受試者來計算,而特異性是用未受感染的亞群計算的。進(jìn)一步說,檢驗在一個臨床條件下只有一組敏感度-特異性,在另外的一個臨床條件下,使用不同組的受試者,產(chǎn)生不同組的敏感度-特異性。如果CK-BB是在疑似患有AMI的post

28、operative的病人中檢測,而不是在急診部門的病人檢測(見第13頁,圖示1)敏感度-特異性組將會不同。在檢驗中的光譜對決定了其特殊臨床條件下的基本的準(zhǔn)確性。 ROC曲線.1 概述在敏感度和特異性間的trade-offs 光譜用ROC曲線14來表示很方便。ROC方法理論是建立在統(tǒng)計決定理論的基礎(chǔ)上的,在電子信號探測方面得到了發(fā)展,產(chǎn)生周圍的癥狀,在20世紀(jì)中葉使用了雷達(dá)接收器6。ROC類型曲線在1950s使用,用來決定自動papsmear分析儀的性能,減少smears和無malignant cells之間的不同。ROC曲線使用特定的感染的和未受感染的樣本組,用圖解演示出檢驗性能的全部光譜。它

29、就是一個“檢驗性能曲線”,代表檢驗基本臨床準(zhǔn)確性,使用從全部的獲得結(jié)果中的選擇的連續(xù)的變化的判定臨界值畫出所有敏感度-特異性組的曲線。曲線的重要部分在于判定臨界值在范圍內(nèi)變化,這個范圍是感染和未受感染受試者重疊的結(jié)果值。在重疊區(qū)域之外,全部的敏感度或特異性是1.0并且不變化;在重疊區(qū)域內(nèi),沒有一個值是1.0,而且兩個值都隨著判定臨界值的變化而變化。在Y軸上繪制敏感度,或者真陽性部分(TFP)。在X軸上,繪制假陰性部分(FPF)(或1-特異性)。這部分是真正受感染的受試者,測試結(jié)果為陽性;因此,它就是特異性測量。另外的選擇是在X軸上直接繪制特異性(假陰性部分)。這個值在從左到右的“拋物線”,給出

30、上面圖示的鏡像。因此,如果在X軸從右到左(不是從左到右)標(biāo)記0到1.0,曲線不會翻轉(zhuǎn)的。如上所述,對于敏感度和特異性來說,TP 和FP部分是隨著判定臨界值變化連續(xù)變化的,并且是的重疊結(jié)果范圍之內(nèi)的。每個判定臨界值都有一組TP(敏感度)和FP(1-特異性)部分與之對應(yīng)。比例也取決于臨床設(shè)置,也會受所選擇的研究組影響。FP部分是受研究組中未被感染的受試者影響的。例如,如果未受感染的受試者都是健康的獻(xiàn)血者,沒有任何癥狀,檢驗結(jié)果的FP部分會比較低,這是與感染的受試者做比較而言的,感染的受試者是指事實上已經(jīng)患病的人。同樣,TP部分也取決于所選擇的研究組,用于發(fā)現(xiàn)癌癥的檢驗可能TP部分值較高,在適用于有

31、活性或晚期疾病的病人比病情穩(wěn)定或限度的病人方面,對于前者的檢驗很有效。在研究數(shù)量時,TP和FP部分的相關(guān)性是一個原因,這個原因是ROC曲線必須因為每個臨床狀態(tài)而生成的。在ROC曲線中,敏感性和特異性的不同組合,對于檢驗來說在給定設(shè)置的條件是很容易顯現(xiàn)出來的。同樣明顯的是,“trade-offs”也會影響檢驗的判定臨界值。在判定水平改變時,敏感度變化是以特異性的變化為條件的,或者相反。這個可以直接從曲線中看到。注意,盡管已知判定臨界值,但是它并不是曲線的一部分。因此,選擇的判定臨界值可以在對應(yīng)的敏感度和特異性出現(xiàn)的交叉點顯示出來。由于真、假陽性部分都是完全獨立計算出來的,使用的是兩組不同亞群(感

32、染的,未受感染的)人的檢驗結(jié)果,ROC曲線是獨立于疾病樣本和感興趣的條件的。因此,如上面提到的,TPFs和FPFs, ROC曲線仍然是受樣本中受試者類型(光譜)的影響的。ROC曲線提供了一般的,全球的性能評論,但是并不是由一個或多個已知的敏感度-特異性提供的。使用檢驗性能數(shù)據(jù)繪制的ROC曲線也可以用于在檢驗的特定臨床條件下選擇判定臨界值。檢驗性能的幾個元素來決定對于可能的敏感度-特異性組(對應(yīng)的判定臨界值)來說,哪個更適用于給定病人的護(hù)理:(a)相關(guān)成本或未預(yù)測的錯誤,例如假陽性和假陰性歸類(可以考慮正確歸類的優(yōu)點);(b)不同結(jié)果(死亡,治愈,延長生命或改變生活質(zhì)量)的值(效用);和(c)健

33、康兩種狀態(tài)的相關(guān)比率,檢驗的目的是減小其不同(條件或疾病的流行)。在選擇判定結(jié)果值時通常要求使用病人管理檢驗,這一重要步驟在本指南的范圍之外。關(guān)于這個問題的討論可以在其他地方找到3,16-19。.2 生成ROC曲線;連接通常,臨床數(shù)據(jù)以兩種形式出現(xiàn):不連續(xù)的或連續(xù)的。大多數(shù)的臨床實驗室數(shù)據(jù)是連續(xù)的,是從測量儀器中、使用充足的分辨率提供連續(xù)的觀察到的。電解質(zhì),治療藥品,激素,酶和腫瘤表示濃縮物的測量基本上是連續(xù)的。另一方面,dipstick,是不連續(xù)的數(shù)據(jù),快速診斷懷孕檢驗設(shè)備也是一樣的,都給出陽性/陰性結(jié)果。在診斷比例中也通常提供不連續(xù)的(比例)數(shù)據(jù),例如“確定不正常”,“可能不正常”,“模棱

34、兩可,”“可能正常”和“確定正?!薄T趯嶒炇覕?shù)據(jù)中的連接,是患病組成員的檢驗結(jié)果與未患病組成員的結(jié)果相同。這種連接常常出現(xiàn)在只有幾個數(shù)據(jù)組的時候(例如,幾個不同的結(jié)果),例如粗略的不連續(xù)數(shù)據(jù)(例如:dipstick 數(shù)據(jù)),而不是在不同結(jié)果數(shù)量很大的時候,例如連續(xù)的數(shù)據(jù)。這些結(jié)果來源于組的或者“binning”數(shù)據(jù)到目的大類。在臨床實驗室里,在觀察連續(xù)的數(shù)據(jù)的時候,連接不是很相似(除非有意識的分組到“bins”),理論上說,如果測量足夠精確,在連續(xù)數(shù)據(jù)里沒有兩個人的數(shù)據(jù)會有相同的結(jié)果。因此,臨床實驗室結(jié)果的清晰度經(jīng)常不是很好,來預(yù)防此類情況發(fā)生,而且在連續(xù)的數(shù)據(jù)里,也會有連接。進(jìn)一步說,刻意的

35、將連續(xù)數(shù)據(jù)binning也會增加連接的機(jī)會。這種情況是發(fā)生在促性腺激素結(jié)果被描述為整體數(shù)量,即使實驗提供的濃度為0.1一個單位。它也發(fā)生在所有結(jié)果的在間隔組之內(nèi)時,例如0-50,51-100等等。連接可能是由于刻意的binning of data引起的,也可能是由于分析清晰度等級的觀察方法引起的。對于連接和不連接的數(shù)據(jù),僅僅繪制計算的(1-特異性,敏感度)點與所有實驗中可能的判定臨界點(觀察值)。(這個可以限制到結(jié)果重疊區(qū)域的臨界值;見.1部分)。這些點的圖解就是ROC曲線。對于沒有連接的數(shù)據(jù),臨近點可以在水平和垂直線處連接,以獨特的方式給出梯狀圖(見圖2,第14頁),在臨界點改變時,真陽性結(jié)

36、果的內(nèi)含體在判定規(guī)則下生成垂直線;假陽性結(jié)果的內(nèi)含體在判定規(guī)則下生成水平線。兩個組中人數(shù)增加時,梯形部分的階梯變小,圖形經(jīng)常呈現(xiàn)鋸齒狀。因為ROC曲線是直接使用所有的數(shù)據(jù)信息,通過使用混合樣品的檢驗結(jié)果的等級,也可以被稱為是非參數(shù)ROC曲線。術(shù)語“非參數(shù)”這里是的是缺少模擬曲線性質(zhì)的參數(shù),與參數(shù)方法相比,它依賴于有估計參數(shù)的模型。在連續(xù)數(shù)據(jù)中有連接時,真陽性和假陽性部分同時變化,導(dǎo)致從最后點的垂直和水平方向上點的錯位。連接這些臨近點在曲線圖上生成對角線(非垂直,非水平)。在ROC曲線上的對角線部分指示出連接。如上所述,為將結(jié)果間隔,可能將連接刻意的放入檢驗結(jié)果列中。文獻(xiàn)中通常采用的方法是使用幾

37、個判定臨界點和連接相近點的直線部分來繪制ROC曲線。所有在臨界點之間的點都被看做是連接點。盡管這個bin方法在繪制圖形方面有優(yōu)勢,但是它舍棄了很多數(shù)據(jù)并在數(shù)據(jù)中引入了很多連接。如果點很少并且彼此間距離很遠(yuǎn),這種近似值是不準(zhǔn)確的,而其可能不代表實際的曲線。.3 ROC曲線定性釋義有良好的臨床性能的檢驗可以達(dá)到高的TPFs(敏感度),并且有低的FPFs(與高的特異性對應(yīng))。有良好的診斷準(zhǔn)確性的檢驗,ROC曲線的點與左上角接近,左上角的位置即為TPFs值高而FPFs值低的位置。檢驗的準(zhǔn)確性很好,可以很好的區(qū)分受感染和未受感染的人群, TPF值在一個或多個判定臨界點達(dá)到1.0(100%敏感度),F(xiàn)PF

38、值是0.0(100%特異性)。這條ROC曲線通過點(0,1.0)于圖形的左上角。Thumb的簡單原則是,曲線與這個點越接近,臨床準(zhǔn)確性通常越準(zhǔn)確。檢驗并不區(qū)分真正受到感染和未受感染的亞群,ROC曲線在從點(0,0)到(1.0,1.0)有個45度的角度。沿著這條線,TPF和FPF所有的點相等,與判定臨界點無關(guān)。(見圖示2“X”,第14頁)。所有檢驗的曲線都在45度對角線和左上角理想值之間。曲線與左上角越接近,檢驗的區(qū)別能力越高??梢曭炇涨€提供了直接定性的準(zhǔn)確性評價。圖示2(第14頁)的ROC曲線準(zhǔn)確性中等。此處的曲線處于中間位置,在45度對角線和左上角理想值中間。圖示3(第15頁)的ROC曲線

39、準(zhǔn)確性高。注意曲線是如何通過左上角,該處敏感度最高而FPF(1-特異性)最低。圖示4(第16頁)顯示ROC曲線的3個檢驗結(jié)果值都來自于同一人的樣本。這提供了準(zhǔn)確性的方便的對比。淀粉酶的曲線在上面,磷脂酶(PLA)的曲線在左面。因此,在敏感度(TPF)最高時,淀粉酶的FPF(高特異性)比PLA要低。相反,在FPFs最高時,淀粉酶的的TPF(好的敏感度)比PLA要高。淀粉酶和酯酶有相近的ROC曲線,指出實際上相同的區(qū)別能力。兩者看起來都比PLA更準(zhǔn)確。.4 單個ROC曲線下的區(qū)域確定實驗室診斷準(zhǔn)確性的一個簡單的方法是用單一數(shù)字表示其性能。最常用的測量是在ROC曲線下面的區(qū)域。通常情況下,這個區(qū)域是

40、0.5(如果不是的話,可以更改判定規(guī)則使其為這個值)。值的范圍是1.0(完美的區(qū)分兩組檢驗值)和0.5(兩組檢驗值之間沒有表面分布的不同)。這個區(qū)域并不依賴于曲線的特定部分,例如與左上角臨近的點或一些選定特異性時的對應(yīng)的敏感度,而是整條曲線。這是一個定量,說明表達(dá),是關(guān)于ROC曲線是如何與完美區(qū)域接近的(區(qū)域=1.0)。統(tǒng)計師很容易指出,ROC曲線區(qū)域作為非參數(shù)兩個樣本統(tǒng)計的Mann-Whitney版本,是有化學(xué)家Frank Wilcoxon引入的。例如0.8的區(qū)域,意味著從患病組中隨機(jī)抽取的人員的實驗室檢驗值要比從未患病的組中隨機(jī)抽取的人員的值大80%。但是這并不是說陽性結(jié)果發(fā)生的可能性是在

41、0.8或者陽性結(jié)果與患病可能性間有80%的幾率。在患病組和未患病組之間沒有關(guān)聯(lián)時,從曲線中很容易計算出這個區(qū)域,因為矩形的數(shù)量是在這個圖表里的。用于計算這個區(qū)域的分析公式可參考Bamber20和 Hanley 及McNeil21的報告。這個區(qū)域可以直接從Wilcoxon 的rank-sum統(tǒng)計中獲得。計算此區(qū)域的參數(shù)方法,使用一些模型來適應(yīng)曲線,在文中也有描述。參數(shù)方法和非參數(shù)方法在公開評論13,23中都有討論和比較。在ROC曲線下,在此區(qū)域使用國際指標(biāo),會有信息的缺失。因此,只考慮區(qū)域而沒有可視檢驗ROC曲線本身是不理想的。.5 多種檢驗的統(tǒng)計比較在臨床實驗室里,多種診斷檢驗的直接統(tǒng)計比較是

42、很普遍的。通常情況下,在同一項目中,split-sample比較上進(jìn)行兩個(或多個)檢驗。在單個觀察的或者理論上敏感度和特異性方面24-26,檢驗之間是可以做比較的??梢蕴娲氖牵琑OC曲線的一部分可以用作是比較檢驗。27國際方法是使用所有測量,例如曲線下區(qū)域來比較整條ROC曲線;這個可以用參數(shù)比較,也可以用非參數(shù)比較。13 對于實驗室來說這個特別有誘惑性,因為其比較并不是建立在特殊判定臨界點(應(yīng)考慮流行和成本trade-off信息)的選擇上。因此,使用在比較檢驗時應(yīng)經(jīng)常視覺檢查ROC曲線,而不是依賴于區(qū)域上,簡單的收集信息形成單個的數(shù)字。.6 其他ROC統(tǒng)計對于需要估計置信區(qū)間13的人來說,可以使用參數(shù)和非參數(shù)的方法來估計在一個點或ROC曲線上點的置信區(qū)間。對于被研究(“fuzzy”案例)的客體來說

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論