真實世界臨床研究證據(jù)分級的思考與初步探索-費宇彤_第1頁
真實世界臨床研究證據(jù)分級的思考與初步探索-費宇彤_第2頁
真實世界臨床研究證據(jù)分級的思考與初步探索-費宇彤_第3頁
真實世界臨床研究證據(jù)分級的思考與初步探索-費宇彤_第4頁
真實世界臨床研究證據(jù)分級的思考與初步探索-費宇彤_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

tVolNo·方法學·真實世界臨床研究證據(jù)分級的1.北京中醫(yī)藥大學循證醫(yī)學中心(北京100029)2.北京中醫(yī)藥大學國際循證中醫(yī)藥研究院(北京100029)3.北京GRADE中心(北京100029)【摘要】真實世界證據(jù)(RWE)的形成、評價及等級的劃分,是影響真實世界研究方法深入發(fā)展和科學使用的重要因素。本文簡要回顧臨床醫(yī)學研究設計等級與證據(jù)等級,提出真實世界臨床研究證據(jù)分級的要點,包括強調內部真實性與外部真實性的綜合評價、確定真實世界證據(jù)的起評點和使用真實世界證據(jù)質量評價方法三個方面;基于國際較為認可的“證據(jù)推薦評估、開發(fā)與評價分級標準(GRADE)”,結合真實世界證據(jù)的分類及特Thinkingandexplorationforgradingreal-worldevidenceformationevaluationandgradedivisionofrealworldevidenceRWEarebottlenecksrestrictingthein-depthdevelopmentandscientificapplicationofreal-worldstudymethods.Thispaperbrieflyreviewedthedesignresearch,includingemphasizingthecomprehensiveevaluationofinternalauthenticityandexternalauthenticity,determiningthe"startingpoint"ofreal-worldevidence,andusingthereal-worldevidencequalityevaluationmethod.Basedontheinternationallyrecognized"gradingofrecommendationsassessment,development,andevaluation(GRADE)",combinedwiththeclassificationandcharacteristicsofreal-worldevidence,apreliminarygradingschemewasKeywordsReal-world;Levelofevidence;GRADE;Gradingsuggestion近年來,隨著真實世界數(shù)據(jù)(real-worlddata,RWD)的不斷增多,真實世界研究(real-worldstudy,RWS)已逐漸成為醫(yī)學研究的關注點之一。國內外監(jiān)管決策部門和學術組織也對真實世界證據(jù)(real-worldevidence,RWE)的使用提出了多個指導原則和發(fā)展框架[1-6]。然而,如何對RWE進行評價和對證據(jù)等級評估,成為目前亟待解決的問題[7]。本文根據(jù)目前臨床研究證據(jù)等級發(fā)展現(xiàn)狀,基金項目:國家自然科學基金項目(編號:82074282)通信作者:費宇彤,Email:feiyt@#共同第一作者提出真實世界臨床研究證據(jù)分級的要點,參考“證據(jù)推薦評估、開發(fā)與評價分級標準(gradingofrecommendationsassessment,development,andevaluation,GRADE)”對RWE分級進行思考,形成分級建議方案,為未來研究提供一定參考。究的設計等級與證據(jù)等級臨床研究設計包括了流行病學與臨床流行病學所涵蓋的各種以人為對象的研究類型。臨床研究證據(jù),是圍繞一個特定研究問題而形成的研究發(fā)現(xiàn)的總和。這些研究發(fā)現(xiàn)是經(jīng)過臨床研究設計、實施、統(tǒng)計分析后獲得的。一個臨床研究的發(fā)現(xiàn)是否能夠成為某一特定研究問題的證據(jù),取決于該臨床研究和各項參數(shù)是否與特定研究問題密切相關,是否能對研究問題的解答提供證據(jù)支持。臨床研究證據(jù)分級經(jīng)歷了較為漫長發(fā)展,不同組織機構制定了多種多樣的證據(jù)分級體系[8]。當前最為公認的是2000年由加拿大McMaster大學的GRADE工作組提出的GRADE證據(jù)等級體系[9],其已被包括WHO和Cochrane協(xié)作網(wǎng)在內的19個國家110多個國際組織、協(xié)會采用。該體系以研究設計本身的等級為起評點,同時綜合考慮實施質量和外推性來定級。而在此之前,已發(fā)表的主要“證據(jù)等級”實際上更適合被稱作為“設計等級”。這主要因為這些等級系統(tǒng)主要考慮各研究設計類型對偏倚風險的控制能力,而沒有考慮研究的實施質量及作為證據(jù)應用時的直接性問題。例如,1979年最早由加拿大定期健康體檢工作組(CanadianTaskForceonthePeriodicHealthExamination,CTFPHE)形成的醫(yī)學證據(jù)分級體系[10],1998年英國牛津大學循證醫(yī)學中心(Oxford-CenterforEvidenceBasedMedicine,OCEBM)提出的分級[11](又被稱為“牛津標準”),2001年美國紐約州立大學醫(yī)學中心提出的“新九級標準”[12],2014年美國衛(wèi)生保健政策研究所 (AgencyforHealthcareResearchandQuality,AHRQ)更新的分級體系[13],澳大利亞JoannaBriggs循證衛(wèi)生保健中心制定的一系列等級系統(tǒng)[14],及國內學者提出的中醫(yī)藥RWS中觀察性研究的分級建目前,上述各證據(jù)等級和研究設計等級體系均基于各種經(jīng)典的臨床流行病學研究設計,未將RWS設計類型及其證據(jù)納入考量。經(jīng)典臨床流行病學設計與RWS設計有一定的異同點,簡單而言,RWS基于RWD,因此需要在經(jīng)典臨床流行病學設計的基礎上經(jīng)過限定和改良,如RWS不使用安慰劑、很少采用盲法、使用數(shù)據(jù)多為現(xiàn)實診療或日常條件下收集的數(shù)據(jù)等[6]。RWS包括干預性研究和觀察性研究[6]。值得說明的是RWS與隨機對照試驗(randomizedcontrolledtrial,RCT)并不沖突,實用性RCT、技能型RCT和新型真實世界RCT均屬于RWS。觀察性研究也是RWS的常見研究類型,包括經(jīng)典臨床流行病學體系內的隊列研究(包括前瞻性、回顧性、雙向性隊列研究)、病例-對照研究、橫斷面研究、病例系列和病例報告等。根據(jù)納入RWD的特點,擴展形成新型的真實世界隊列研究[16]、橫斷面學、質性研究等基于RWD形成的證據(jù)也應屬于RWE,并且基于上述原始研究形成的二次研究證據(jù)綜合也屬于RWE。2RWS臨床研究證據(jù)分級要點2.1強調內部真實性與外部真實性的綜合評價內部真實性是指研究結果與研究對象真實情況的符合程度,它回答一個研究本身是否真實或有效。包含參與者(participant,P)、干預措施 (intervention,I)、對照措施(comparator,C)、結局指標(outcome,O)在內的研究要素的標準化和可控化程度越高,其內部真實性越好。內部真實性可通過依照臨床試驗基本原則達到對偏倚的有力控制來保證。RWS是由經(jīng)典研究設計改良和限定形成的[6],因此經(jīng)典研究設計可能潛在的偏倚同樣適用于RWE,于此同時,RWE還需要格外注意時間效應偏倚、競爭風險、因果倒置、校正中介作用等特殊的偏倚類型[6]。外部真實性是指研究結果與推論對象真實情況的符合程度,又稱為外推性。它回答一個研究能否推廣應用到除本研究的研究對象以外人群的問題,此時PICO越接近真實世界越好。RWE在外部真實性方面往往優(yōu)于理想世界的經(jīng)典研究設計?!白C據(jù)分級”的范疇和內涵要遠遠大于“設計分級”,真正的“證據(jù)”不僅要考慮內部真實性,還要考慮外部真實性等更多證據(jù)生成和證據(jù)應用等實際層面的問題。例如,干預性措施比較的金標準—RCT的初始分級應屬于證據(jù)金字塔[11-12]靠近頂端的位置,但如果該RCT設計欠佳、實施過程漏洞百出,那么其所形成的證據(jù)的真實性、可靠性、可應用性達不到理想狀態(tài)下的證據(jù)級別,其真實的證據(jù)等級需要降低。因此“證據(jù)分級”是在全面衡量內部真實性和外部真實性之后綜合考慮評定的。RWE是基于RWD形成的證據(jù),RWD來源于日常收集的數(shù)據(jù),因此,RWE在外部真實性方面要遠高于經(jīng)典研究設計,而在內部真實性方面則存在更多顧慮,這就更加強調RWE分級時內部真實性與外部真實性綜合評價的重要性。2.2確定RWE的起評點在GRADE證據(jù)分級系統(tǒng)中,不同的研究類型有其各自的起評點,這個起評點也是由證據(jù)綜合的內部真實性來決定。例如,基于RCT形成的證據(jù)在GRADE分級系統(tǒng)中證據(jù)級別起評點默認為高級別;觀察性研究形成的證據(jù)在GRADE分級系統(tǒng)中究證據(jù)合起評點*(設計等級)性↓#究證據(jù)合起評點*(設計等級)性↓#直接性↓▲偏倚↓▲起評點*(設計等級)偏倚風險↓*性↓#大效應量t*劑量效應t*存在負向混雜t*圖1基于GRADE證據(jù)等級評定思想而構建的RWE升級降級影響因素起評點默認為低級別[19]。證據(jù)綜合,是圍繞同一具體研究問題而獲得的所有相關研究結果的定量合成,主要表達為系統(tǒng)評價的結果。當某一命題下只有一個研究,或有多個無法合并的研究,亦可直接納入單篇研究的結果作為證據(jù)。確定RWE起評點的原則也應如此。在證據(jù)評級選擇起評點的時候,一方面,可依據(jù)上文所述的現(xiàn)有GRADE證據(jù)評級的起評點確定方法[19];另一方面,也需要創(chuàng)新,將新型的RWS納入到起評點劃分體系中。詳見圖1。證據(jù)等級評價方法GRADE證據(jù)等級評價在起評點的基礎上根據(jù)若干個升降因素[20-25]進行調整,最后形成綜合的證據(jù)等級評價結果。例如,RCT在分級系統(tǒng)中最初證據(jù)級別默認為高級別,根據(jù)證據(jù)中的偏倚風險、不一致性、間接性、不精確性和發(fā)表偏倚的情況而逐漸降級;觀察性研究在分級系統(tǒng)中最初的證據(jù)級別默認為低級別,根據(jù)證據(jù)的大效應量及劑量-效應關系及負向混雜因素情況而逐漸升級。最終證據(jù)級別用“高、中、低、極低”來判定[19]。RWE可考慮采用相同的評價思路,但RWE因其自身存在復雜性,在評價時要考慮更多的影響因素。GRADE證據(jù)等級評價中第一項內容偏倚風險針對的是經(jīng)典臨床流行病學臨床研究設計的內部真實性,因此依照各經(jīng)典研究設計各自的偏倚風險評價工具進行評價[20],而對于新型RWS的偏倚風險評價方法僅能參考經(jīng)典研究設計,國際上并未形成非常成熟且公認的評價工具。根據(jù)《中醫(yī)藥真實世界研究技術規(guī)范:證據(jù)質量評價與報告》[6]中提及的評價方法,可將真實世界臨床研究偏倚風險評價分為兩種類型:一是經(jīng)典研究設計的評價;二是針對經(jīng)典研究設計類型改良后形成的真實世界臨床研究設計的評價兩種類型。關于不一致性、不精確性、間接性及發(fā)表偏倚的評價方法請參考GRADE工作組指導性文件[20-25]。3以GRADE為基礎的RWS分級建議和應用3.1分級建議在GRADE分級方法的基礎上,結合RWS分類和特點,本文提出RWE的分級建議,詳見表1。與GRADE體系保持一致,RWE證據(jù)等級可分為在RWS的體系內,綜合實用性RCT結果形成的證據(jù)起評點為高級別;而綜合觀察性研究、單臂試驗及其他非隨機試驗結果而形成的證據(jù)起評點為低級別。當多種設計證據(jù)混合應用時,應以其中低級別證據(jù)為起評點。關于升級/降級因素,此處建議依據(jù)《中醫(yī)藥真實世界研究技術規(guī)范:證據(jù)質量評價與報告》[6]中的RWS偏倚評價原則及工具使用建議進行評價。值得說明的是,以GRADE為基礎的RWS分級建議,不僅可用于RWS證據(jù)綜合,還可用于RWS單個證據(jù)的評價,但其中關于綜合證據(jù)評估的“不一致性”、“發(fā)表偏倚”的評價則不適用于單個證據(jù)的評價。此外,如果跳出RWE范疇,將安慰劑對照的解釋性RCT納入證據(jù)來源的話,其證據(jù)起評點應為高質量證據(jù)。3.2應用舉例以2018年Stroke發(fā)表的《阿哌沙班在房顫卒表1以GRADE為基礎的真實世界證據(jù)分級建議計等級最初證據(jù)級別(起評點)升級/降級因素*對照試驗高偏倚風險工具?1嚴重?2非常嚴重不一致性(單個證據(jù)不評價此項)?1嚴重?2非常嚴重?1嚴重?2非常嚴重性?1可能?2非??赡馨l(fā)表偏倚(單個證據(jù)不評價此項)?1大?2非常大觀察性研究/真實世界單臂試驗/低(多種設計證據(jù)混合應用時,大試驗起評點)素*:具體評判方法及使用方法與現(xiàn)在GRADE體系保持一致。中預防中的真實世界應用:系統(tǒng)評價和Meta分析》[26]為例,說明如何應用以GRADE為基礎的RWE分級建議。該研究目的是總結和比較阿哌沙班與其他口服抗凝藥物預防房顫卒中的效果。最終納入16個真實世界觀察性研究,偏倚風險評價工具為AHRQ。首先根據(jù)研究設計判定研究的起評點,該研究屬于真實世界的觀察性研究的證據(jù)綜合,因此起評點為“低等級”。以阿哌沙班與華法林相比,在血栓栓塞事件這一指標(9個研究)的評價過程如下:①偏倚風險評價:作者采用AHRQ評價工具對納入的9個研究進行偏倚風險評價,其中6個為低風險,2個為中風險(所占權重分別為16.5%、16.6%),1個為高風險,經(jīng)判斷高風險研究在Meta分析中所占權重較小(0.7%),但中風險的研究所占權重較大,可能會對結果產(chǎn)生一定影響,故綜合判定后考慮降1級。亞組分析結果評價:常規(guī)劑量亞組(6個研究)為3個低風險、1個中風險和1個高風險,故降1級;減少劑量亞組(3個)為②不一致性:從森林圖可見,總體異質性檢驗結果顯示I2=87%且P<0.01,亞組間的獲益方向相反,因此考慮該結果存在顯著不一致性,總體結果降2級。亞組分析結果評價:常規(guī)劑量亞組,I2=62%且P=0.02,存在不一致性,降1級;減少劑量亞組:I=20且P=0.49,尚不認為存在不一致性,不降級。③間接性:納入研究均為真實世界觀察性研究,納入人群年齡在70.9~83.9歲之間;該研究未明確目標人群的特征,推測應適用于一般人群,基于此可能存在人群的間接性,故降1級。亞組分析評價:常規(guī)劑量亞組和減少劑量亞組均存在上述④不精確性:總體與亞組分析的事件數(shù)均滿足最優(yōu)信息樣本量(optimalinformationsize,OIS)。在此基礎上,總體比較合并效應值OR=0.92[95%CI(0.72,1.17)],雖然95%CI跨過無效線,但其左側為0.72,對結果僅有較弱影響;而右側為1.17,對結果幾乎無影響,故不予降級。亞組評價,常規(guī)劑量亞組合并效應值OR=0.77[95%CI 亞組效應值OR=1.27[95%CI (1.12,1.43)],因其95%CI均未跨過無效線,故不予降級[22,27]。⑤發(fā)表偏倚檢驗:該研究制作了倒漏斗圖,并認為主要研究結果未發(fā)現(xiàn)明顯的發(fā)表偏倚,不予降級。但從倒漏斗圖可見,兩亞組均存在不同程度的發(fā)表偏倚,故均降1級。⑥大效應量:阿哌沙班與華法林相比,在任何血栓栓塞事件總體上沒有統(tǒng)計學優(yōu)勢,由于其效應值接近1,未能升級。亞組結果顯示,常規(guī)劑量、減少劑量亞組效應值未在2~5或0.5~0.2之間,未體現(xiàn)大效應量,故均不升級。⑦劑量-效應關系:在常規(guī)劑量亞組中,阿哌沙班在任何血栓栓塞事件的風險均顯著降低;但減少劑量亞組顯示,阿哌沙班在任何血栓栓塞事件中相對風險顯著增加;結果似乎表明阿哌沙班劑量增加,血栓栓塞風險降低,常規(guī)劑量療效與華法林相當。這種情況下需要考慮的是,當阿哌沙班劣于華法林時,是否優(yōu)于不治療或單純安慰劑治療,如果優(yōu)于不治療則可能存在劑量-效應關系,但如果劣于不治療,則否定該劑量-效應關系。但在現(xiàn)實情況下無法獲得不治療數(shù)據(jù),所以保守評價沒有劑量-效應關系。⑧混雜因素:盡管作者討論中說明要考慮混雜因素的影響,但并未對混雜因素的內容及對結果的影響進行分析,尚未發(fā)現(xiàn)負向混雜因素,因此不予升級。最終總體評價應為“極低”等級,常規(guī)劑量亞組為“極低”;減少劑量亞組為“極低”。4討論本文闡釋了臨床研究的設計等級與證據(jù)等級的區(qū)別和聯(lián)系,設計等級是基于研究設計內部真實性的高低來評價,而研究的總體證據(jù)等級在此基礎上還要考慮外部真實性等實際層面的問題。RWE的起評點由內部真實性來決定,但最終的RWE等級還需要根據(jù)實際情況進行升級和降級的評定。在使用本體系的時候,有幾種情況需要特殊關注。首先,當將本體系用于評價由單個研究構成的證據(jù)時,GRADE體系中的異質性評價維度不適用,發(fā)表偏倚評價維度也無法準確判斷。其次,我們建議如果同時納入多種研究類型(如eRCT、pRCT和隊列研究)的系統(tǒng)評價應該根據(jù)研究設計類型的不同而設立亞組,或者直接進行各自獨立的Meta分析。GRADE體系是要求針對每一個結局指標和整個Meta分析都要獨立進行評價。因此,GRADE體系應用于這種情況時并沒有障礙。再次,對于一個Meta分析中含有不同設計類型證據(jù)的兩個或多個亞組的情況,進行整體GRADE評級的時候,對于各項評價維度,均應整體看待。理論上異質性、精確性、發(fā)表偏倚、大效應是否存在、劑量-效應關系這5個方面可根據(jù)整個Meta分析的數(shù)據(jù)特征表現(xiàn)直接利用現(xiàn)有規(guī)則評價;偏倚風險、直接性、是否存在負向混雜這3個方面則需要評價具備各種特征的研究證據(jù)在整體中的占比逐一而論。例如整體證據(jù)中,權重占比10%的證據(jù)屬于低偏倚風險,而占比90%的證據(jù)屬于高偏倚風險,則整體偏倚風險為高偏倚風險。通常而言,觀察性研究的各種偏倚風險和混雜因素更高一些。此外,由于RWS樣本量比較大,在不精確性評價時往往很容易滿足OIS值。在滿足OIS值的同時,需要著重考慮其結果的95%CI區(qū)間是否產(chǎn)生有臨床意義的變化(即越過最小臨床意義界值,minimalclinicalimportantdifference,MCID)以決定精確性是否存在問題。GRADE體系本身就適用于隊列研究、病例-對照研究等經(jīng)典的觀察性研究形成的證據(jù),而經(jīng)典的觀察性研究本身就是RWS的設計方案中的主要類別之一。因此,GRADE本身具備一定的對RWS適用的基礎,其現(xiàn)有的OIS值的相關方法學要求適用于經(jīng)典的觀察性研究。對于新型的RWS,比如基于日常數(shù)據(jù)的隊列研究等,由于其數(shù)據(jù)的復雜性大于經(jīng)典隊列研究,在計算OIS的時候有可能需要考慮新的因素,但臨床決策閾值的情況也同樣具有決定性作用。目前,RWS已廣泛應用,基于此形成的原始研究證據(jù)及證據(jù)綜合逐漸增多,若無可參照的證據(jù)等級劃分標準,可能會導致RWE的不合理應用。雖然RWE的證據(jù)質量評價工具及分級方法尚處于較為初級的研制階段,但以GRADE為基礎的RWS分級建議可能是目前可參考使用的較為妥當?shù)姆旨壏椒???嘉墨I1汪旻暉,趙楊,鄧亞中,等.真實世界數(shù)據(jù)/真實世界證據(jù)應用的政策法規(guī)及指導原則的比較研究.中國臨床藥理學與治療學,2FoodandDrugAdministration.Useofrealworldevidencetosupportregulatorydecisionmarkingformedicaldevices.Available3HeadsofMedicinesAgencies.Observationaldata(realworlddata)-subgroupreport.Availableat:https://www.ema.europa.eu/en/4AssociationoftheBritishPharmaceuticalIndustry.Thevisionforrealworlddata-HarnessingtheopportunitiesintheUK.Availableat:.uk/publications/vision-for-real-world-5國家藥品監(jiān)督管理局.關于發(fā)布真實世界證據(jù)支持藥物研發(fā)與cnWSCLhtml6中華中醫(yī)藥學會.中醫(yī)藥真實世界研究技術規(guī)范—證據(jù)質量評7黃新余,王益威.“最佳證據(jù)"推動人性化醫(yī)療.醫(yī)學與哲學,8陳薇,方賽男,劉建平,等.國際循證醫(yī)學證據(jù)分級體系的發(fā)展與9GRADEworkinggroup.WhatisGRADE?Availableat:10Theperiodichealthexamination.CanadiantaskforceontheperiodichealthexaminationCanMedAssocJ193-11PhillipsB.GRADE:levelsofevidenceandgradesofrecommendation.ArchDisChild,2004,89(5):489.12SUNYdownstateEBMTutorial.Guidetoresearchmethods:theevidencepyramid.Availableat:/EBM0.htm.13BerkmanND,LohrKN,AnsariMT,etal.GradingthestrengthofancewhenassessinghealthcareinterventionsanEPC14TheJoannaBriggsInstitute.TheJBIapproach:levelsofevidence.Availableat:/jbi-approach.html#tabbed-15陳薇,陳可冀,劉建平.中醫(yī)藥真實世界研究證據(jù)的構成及分級16Gr?sbeckH,EkroosH,HalonenK,etal.Weaksmokingcessationawarenessinprimaryhealthcarebeforesurgery:areal-world,retrospectivecohortstudy.ScandJPrimHealthCare,2020,38(1):17RicciardoloFLM,LevraS,SprioAE,etal.Asthmainthereal-world:therelevanceofgender.IntArchAllergyImmunol,2020,18HussonO,deRooijBH,KiefferJ,etal.TheEORTCQLQ-C30summaryscoreasprognosticfactorforsurvivalofpatientswithcancerinthe"real-world":resultsfromthepopula

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論