版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
ICS35.240.99L67T/CCSA001—2024SpecificationforDataSecurityofLargeModelApplicationsin成都市生物醫(yī)學信息學會發(fā)布I II III 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 35概述 35.1醫(yī)療大模型概述 35.2安全要求 45.3模型框架 46基本原則 56.1法律和倫理規(guī)定 56.2數(shù)據(jù)安全和隱私保護 56.3數(shù)據(jù)可用性 67數(shù)據(jù)收集和預處理 67.1數(shù)據(jù)來源和采集方式 67.2數(shù)據(jù)隱私和脫敏處理 77.3數(shù)據(jù)標準化和編碼 77.4數(shù)據(jù)處理和分析 77.5數(shù)據(jù)開放和共享 88醫(yī)療大模型開發(fā)和驗證安全 88.1訓練數(shù)據(jù)的安全 88.2大模型架構(gòu)選擇 88.3大模型訓練和優(yōu)化 99醫(yī)療大模型推理安全 99.1推理數(shù)據(jù)的隱私安全 99.2醫(yī)療大模型參數(shù)的隱私安全 10醫(yī)療大模型安全評估 11醫(yī)療大模型應用安全管理 附錄A(資料性)大模型在醫(yī)療領域的應用 附錄B(資料性)醫(yī)療大模型的分類 附錄C(資料性)醫(yī)療數(shù)據(jù)的分類 本規(guī)范按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起請注意本規(guī)范的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。本規(guī)范由成都市生物醫(yī)學信息學會提出并歸口。本規(guī)范起草單位:中國信息通信研究院、北京數(shù)牘科技有限公司、北京壹永科技有限公司。本規(guī)范主要起草人:鄭威、凌霞、張學陽、蔡超超、單進勇、金銀玉、劉曉華、張程剴、陳小梅。本規(guī)范為首次發(fā)布。醫(yī)療數(shù)據(jù)是一類極其重要的數(shù)據(jù),包含患者病歷、影像數(shù)據(jù)、生理參數(shù)、基因數(shù)據(jù)等敏感信息,不僅事關個人隱私,還涉及社會公共利益和國家安全。近期大模型研究取得一系列突破性進展,參數(shù)規(guī)模達到千億級別,在文本生成和理解方面具有超強的能力。大模型廣泛應用的同時也衍生出一系列隱私保護和數(shù)據(jù)安全問題。在醫(yī)療領域,大模型在改善醫(yī)療診斷、藥物研發(fā)、臨床決策等方面具有巨大應用前景。由于大模型的訓練和應用均涉及海量醫(yī)療數(shù)據(jù),其不當使用可能帶來的個人隱私泄露、倫理道德、歧視偏見等風險需要得到廣泛關注。本規(guī)范適用于具備醫(yī)療大模型開發(fā)能力的供應商或制造企業(yè)等,可指導醫(yī)療機構(gòu)部署醫(yī)療大模型產(chǎn)品/解決方案,也可作為醫(yī)療機構(gòu)選擇或評價大模型安全應用的依據(jù),旨在規(guī)范醫(yī)療領域大模型數(shù)據(jù)應用的行為,明確相應的數(shù)據(jù)隱私保護措施和模型安全評估要求,確保醫(yī)療數(shù)據(jù)的隱私和安全得到妥善保護,推動醫(yī)療領域大模型技術(shù)創(chuàng)新與發(fā)展。1醫(yī)療領域大模型應用數(shù)據(jù)安全規(guī)范本文件規(guī)定了醫(yī)療領域大模型應用的數(shù)據(jù)安全管理要求,涵蓋大模型數(shù)據(jù)的收集、存儲、處理、共享和應用等各個階段。本文件適用于開發(fā)、部署和使用醫(yī)療大模型的醫(yī)療機構(gòu)、科技公司、研究機構(gòu)、服務提供商及監(jiān)管部門等開展數(shù)據(jù)安全管理或評估評價。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35273—2020信息安全技術(shù)個人信息安全規(guī)范GB/T41867—2022信息技術(shù)人工智能術(shù)語3術(shù)語和定義GB/T35273—2020、GB/T41867—2022界定的以及下列術(shù)語和定義適用于本文件。3.1大模型largemodel具有大規(guī)模參數(shù)和復雜計算結(jié)構(gòu)的機器學習模型。這些模型通常由深度神經(jīng)網(wǎng)絡構(gòu)建而成,擁有數(shù)十億甚至數(shù)千億個參數(shù),通過訓練海量數(shù)據(jù)來獲得。3.2大模型應用largemodelapplication在實際場景中利用大模型來解決各種問題或提供服務的過程,包括但不限于自然語言處理、計算機視覺、語音識別和推薦系統(tǒng)等。3.3人工智能artificialintelligence人工智能系統(tǒng)相關機制和應用的研究和開發(fā),其中人工智能系統(tǒng)是針對人類定義的給定目標,產(chǎn)生諸如內(nèi)容、預測、推薦或決策等輸出的一類工程系統(tǒng)。[來源:GB/T41867—2022,3.1]3.4生成式人工智能artificialintelligencegeneratedcontent2基于人工智能通過已有數(shù)據(jù)尋找規(guī)律,并自動生成內(nèi)容的生產(chǎn)方式,如文本生成、圖像生成、視頻生成、音頻生成、游戲生成、代碼生成等。3.5個人信息personalinformation以電子或者其他方式記錄的能夠單獨或者與其他信息結(jié)合識別特定自然人身份或者反映特定自然人活動情況的各種信息。注1:個人信息包括姓名、出生日期、身份證號碼、個人生物識別信息、住址、通信通訊聯(lián)系方式、通信記錄和內(nèi)容、賬號密碼、財產(chǎn)信息、征信信息、行蹤軌跡、住宿信息、健康注2:個人信息控制者通過個人信息或其他信息加工處理后形成的信息,例如,用戶畫像或特征標簽,能夠單獨或者與其他信息結(jié)合識別特定自然人身份或者反映特定自然人活動情[來源:GB/T35273—2020,3.1]3.6個人敏感信息personalsensitiveinformation一旦泄露、非法提供或濫用可能危害人身和財產(chǎn)安全,極易導致個人名譽、身心健康受到損害或歧視性待遇的個人信息。注1:個人敏感信息包括身份證件號碼、個人生物識別信息、銀行賬戶、通信記錄和內(nèi)容、財產(chǎn)信息、征信信息、行蹤軌跡、住宿信息、健康生理信息、交易信息、14歲以下(注2:個人信息控制者通過個人信息或其他信息加工處理后形成的信息,如一旦泄露、非法提供或濫用可能危害人身和財產(chǎn)安全,極易導致個人名譽、身心健康受到損害或歧視性待[來源:GB/T35273—2020,3.2]3.7授權(quán)同意consent個人信息主體對其個人信息進行特定處理作出明確授權(quán)的行為。注:包括通過積極的行為做出授權(quán)(即明示同意),或者通過[來源:GB/T35273—2020,3.7]3.8隱私計算privacy-preservingcomputation在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行分析計算的一系列信息技術(shù),保障數(shù)據(jù)在流通與融合過程中的“可用不可見”。隱私計算技術(shù)主要包括多方安全計算、聯(lián)邦學習、可信執(zhí)行環(huán)境等主流技術(shù)。3.9差分隱私differentialprivacy一種隱私保護的數(shù)據(jù)共享手段,通過添加噪聲的方式(如Laplace噪聲、指數(shù)噪聲等),實現(xiàn)僅分享可以描述數(shù)據(jù)庫的一些統(tǒng)計特征、而減少識別其單個個體數(shù)據(jù)記錄的機會。3.10聯(lián)邦學習federatedlearning3由兩個或以上參與方,在保證各自原始私有數(shù)據(jù)不出其定義的私有邊界的前提下,協(xié)作構(gòu)建并使用機器學習模型的技術(shù)架構(gòu)。[來源:IEEEP3652.1-2020,有修改]3.11匿名化anonymization通過對個人信息的技術(shù)處理,使得個人信息主體無法被識別或者關聯(lián),且處理后的信息不能被復原的過程。[來源:GB/T35273—2020,3.14]3.12去標識化de-identification通過對個人信息的技術(shù)處理,使其在不借助額外信息的情況下,無法識別或者關聯(lián)個人信息主體的過程。注:去標識化建立在個體基礎之上,保留了個體顆粒度,采用假名、加密、哈[來源:GB/T35273—2020,3.15]3.13脫敏datamasking一種數(shù)據(jù)保護技術(shù),用于在數(shù)據(jù)共享、分析等場景下,對敏感信息進行變換或隱藏,以降低數(shù)據(jù)的隱私風險。脫敏處理旨在保護數(shù)據(jù)的隱私,使敏感信息無法被直接識別,如個人身份信息、金融數(shù)據(jù)、健康數(shù)據(jù)等,同時保留數(shù)據(jù)的結(jié)構(gòu)和可用性。脫敏處理通常采用替換、泛化、屏蔽、加噪聲等技術(shù)手段。4縮略語下列縮略語適用于本文件。AIGC生成式人工智能ArtificialIntelligenceGeneratedContentAPI應用程序接口ApplicationProgrammingInterfaceCNN卷積神經(jīng)網(wǎng)絡ConvolutionalNeuralNetworksGPT生成式預訓練Transformer模型GenerativePre-trainedTransformerLLM大規(guī)模語言模型LargeLanguageModelsRLHF人類反饋的強化學習ReinforcementLearningfromHumanFeedbackRNN遞歸神經(jīng)網(wǎng)絡RecurrentNeuralNetworkSFT有監(jiān)督微調(diào)SupervisedFine-Tuning5概述5.1醫(yī)療大模型概述醫(yī)療大模型是一種應用于醫(yī)療健康領域的大型機器學習模型,它結(jié)合了深度學習、自然語言處理、計算機視覺等先進技術(shù),通過海量的醫(yī)療數(shù)據(jù)進行訓練,旨在解決醫(yī)學診斷、治療決策支持、疾病預測、藥物研發(fā)、患者管理和公共衛(wèi)生分析等方面的問題,參見附錄A。這些模型通常具有高度復雜的結(jié)構(gòu)和4大量的參數(shù),可以對醫(yī)療文本、圖像、基因組學等多種類型的數(shù)據(jù)進行綜合分析,以提供更為精準、全面的醫(yī)療服務。另外醫(yī)療大模型按照技術(shù)類型、訓練目標、應用場景等不同的維度進行分類,參見附錄B。相較于其他領域的大模型,醫(yī)療大模型有以下顯著區(qū)別:——數(shù)據(jù)質(zhì)量與安全要求極高。醫(yī)療行業(yè)的特殊性決定了其數(shù)據(jù)具有高度敏感性和法律合規(guī)要求,因此在數(shù)據(jù)收集、存儲和使用過程中必須遵循嚴格的醫(yī)療數(shù)據(jù)隱私保護法規(guī)。同時,由于醫(yī)療決策直接關系到生命健康,所以醫(yī)療大模型所用的數(shù)據(jù)必須具備極高的準確性和完整性,容錯率較低?!I域?qū)I(yè)知識依賴性強。醫(yī)療大模型不僅需要強大的算法和計算能力,更需要深厚的醫(yī)學知識背景支撐。模型不僅要理解并應用復雜的醫(yī)學概念和術(shù)語,還要能夠根據(jù)最新的臨床指南和研究進展不斷更新迭代。——應用場景專業(yè)且細分:醫(yī)療大模型的應用更加垂直和專業(yè)化,如針對特定疾病的診斷模型、藥物發(fā)現(xiàn)模型以及個性化治療方案推薦系統(tǒng)等,每個細分領域都可能需要定制化的模型設計和訓練?!踩L險及倫理考量:除了技術(shù)層面的安全性,醫(yī)療大模型還涉及倫理和社會責任問題,比如公平性和透明度,確保模型不引入偏見,解釋結(jié)果可追溯,并尊重患者的知情權(quán)和選擇權(quán)。5.2安全要求醫(yī)療大模型涉及數(shù)據(jù)提供者、服務提供者、技術(shù)支持者、服務使用者等幾個角色,可以由不同的實體承擔不同的角色,不同實體之間應保護數(shù)據(jù)和模型的隱私安全;涉及數(shù)據(jù)收集與處理、大模型訓練、模型安全評估和大模型推理等主要步驟的安全要求,見圖1?!獢?shù)據(jù)提供者:為醫(yī)療大模型訓練提供數(shù)據(jù)或標注的組織、個人?!仗峁┱撸禾峁┽t(yī)療大模型服務的組織、個人?!夹g(shù)支持者:為醫(yī)療大模型提供技術(shù)支持的組織、個人?!帐褂谜撸菏褂冕t(yī)療大模型服務的組織、個人。收集與處理收集與處理脫敏去標識化知情同意倫理審查數(shù)據(jù)提供者數(shù)據(jù)安全模型安全效果評估數(shù)據(jù)安全模型安全效果評估技術(shù)提供者政治敏感違法犯罪身體傷害心理健康隱私財產(chǎn)偏見歧視禮貌文明倫理道德模型安全評估模型安全評估服務提供者(模型)數(shù)據(jù)安全數(shù)據(jù)安全模型安全結(jié)果安全服務使用者(推理)圖1醫(yī)療大模型安全要求5.3模型框架5醫(yī)療大模型框架分為底層模型、加工層和應用層三個部分,見圖2。a)底層模型是所選用的預訓練模型,如InstructGPT模型。底層模型基于大量高質(zhì)量的醫(yī)療知識數(shù)據(jù)進行優(yōu)化,形成標準模型。b)加工層構(gòu)建在底層模型的基礎上,通過使用優(yōu)質(zhì)小樣本標注數(shù)據(jù),將模型對齊到特定任務。這些任務模型基于方法如SFT和RLHF等進行訓練,或者以優(yōu)質(zhì)小樣本標注數(shù)據(jù)來進一步優(yōu)化底層模型,從而形成任務模型。需求和應用場景APS/應用模塊c)應用層根據(jù)需求和應用場景,通過API接口或者H5/網(wǎng)頁端輸出結(jié)果。這些接口或應用模塊根據(jù)用戶場景進行定制,在實際應用中產(chǎn)生有價值的輸出。需求和應用場景APS/應用模塊應用層APISH5/網(wǎng)頁端對齊特定任務定制任務模型對齊特定任務定制任務模型加工層SFT+RLHFInstructModel底層模型pre-trainModelInstruct底層模型pre-trainModelInstructModel標準模型優(yōu)質(zhì)醫(yī)療知識數(shù)據(jù)圖2醫(yī)療大模型應用框架6基本原則6.1法律和倫理規(guī)定在醫(yī)療大模型開發(fā)、部署及應用時,應遵循以下法律和倫理規(guī)定:a)數(shù)據(jù)來源合法性:確保數(shù)據(jù)來源的合法性,遵守相關的數(shù)據(jù)采集法規(guī)和標準;b)法律合規(guī):在數(shù)據(jù)處理和模型應用全流程中,應嚴格遵守我國網(wǎng)絡安全、數(shù)據(jù)安全、個人信息保護相關法律法規(guī);c)數(shù)據(jù)使用授權(quán):在使用醫(yī)療數(shù)據(jù)進行模型訓練和分析前,應獲得相關數(shù)據(jù)所有者或授權(quán)機構(gòu)的明確許可,確保合法使用;d)倫理審查:進行涉及人體實驗、臨床實驗等研究時,應遵循倫理審查程序,確保研究活動符合倫理道德標準;e)透明披露:應將數(shù)據(jù)使用和模型應用的過程、方法、結(jié)果進行透明披露,以確保合法合規(guī)性;f)知情同意:在收集、使用或共享個人健康信息之前,應得到數(shù)據(jù)主體(即患者或其法定代理人)的知情同意,并告知使用目的和風險。這種同意應該是具體的、自由的、充分理解基礎上的選擇,而非默認同意或者捆綁授權(quán)。6.2數(shù)據(jù)安全和隱私保護醫(yī)療大模型應用面臨著隱私保護挑戰(zhàn),需全面的數(shù)據(jù)安全策略與技術(shù)措施,最大限度地減少數(shù)據(jù)泄露風險,保障患者個人信息安全不受侵犯,應遵循以下原則:6a)權(quán)責一致:所有參與處理個人健康信息的機構(gòu)、組織和個人應明確其在數(shù)據(jù)保護方面的權(quán)利和責任。數(shù)據(jù)收集者和使用者應當對數(shù)據(jù)的安全性負有直接責任,并在發(fā)生安全事件時承擔相應的法律責任。b)目的明確:收集和利用個人健康信息時,應具有清晰且合法正當?shù)哪康?。任何?shù)據(jù)收集活動都應與醫(yī)療大模型的應用目標直接相關,不得用于與原定目的無關的其他用途。c)最少夠用:在進行數(shù)據(jù)收集和使用過程中,應只收集和使用必要的數(shù)據(jù),不過度收集數(shù)據(jù),同時定期清理不再需要的數(shù)據(jù)以減少潛在的隱私風險和數(shù)據(jù)泄漏的可能性;d)確保安全:對于個人健康信息的處理過程,從數(shù)據(jù)采集到傳輸、存儲直至最終銷毀,應采取嚴格的安全保障措施,包括但不限于加密技術(shù)、訪問控制、身份認證、審計追蹤等手段,以防止未經(jīng)授權(quán)的訪問、泄露、篡改或丟失。e)主體參與:應尊重并支持數(shù)據(jù)主體對其個人信息的管理權(quán)和控制權(quán),包括查看、更正、刪除、撤銷同意等權(quán)利。當數(shù)據(jù)主體要求行使這些權(quán)利時,應及時響應并配合執(zhí)行。同時,積極向數(shù)據(jù)主體提供有關數(shù)據(jù)安全狀況和風險的信息,促進他們更好地參與到個人信息保護中來。6.3數(shù)據(jù)可用性在保證數(shù)據(jù)安全和隱私的前提下,應提升醫(yī)療大模型所需數(shù)據(jù)的有效獲取和高效利用。實施數(shù)據(jù)生命周期內(nèi)的質(zhì)量控制、價值挖掘等措施,以持續(xù)穩(wěn)定地提供高質(zhì)量服務,應遵循以下原則:a)應采取有效措施保證數(shù)據(jù)的質(zhì)量和準確性,避免因數(shù)據(jù)問題導致的誤診或決策失誤;b)應采取有效措施保證數(shù)據(jù)的完整性和時效性,數(shù)據(jù)必須及時更新并反映最新的患者狀況、研究進展和醫(yī)療實踐,保證大模型生成的結(jié)果能夠滿足實時或近實時的應用需求;c)應設計合理的數(shù)據(jù)架構(gòu)和訪問權(quán)限系統(tǒng),使得授權(quán)用戶可以在需要時快速便捷地獲取所需數(shù)據(jù),同時避免非授權(quán)訪問和濫用;d)應注重數(shù)據(jù)可用性和隱私性之間的平衡。7數(shù)據(jù)收集和預處理7.1數(shù)據(jù)來源和采集方式在收集醫(yī)療數(shù)據(jù)時,應遵循最小化原則,明確數(shù)據(jù)采集的目的,僅收集與目標相關的數(shù)據(jù),避免不必要的信息收集。醫(yī)療數(shù)據(jù)可以按照多種方式進行分類,參見附錄C。數(shù)據(jù)來源可包括:——電子病歷系統(tǒng):包括醫(yī)院信息系統(tǒng)(HIS)、臨床信息系統(tǒng)(CIS)、實驗室信息系統(tǒng)(LIS)、影像歸檔與通信系統(tǒng)(PACS)等,這些系統(tǒng)記錄了患者從入院到出院全過程的診療信息?!蒲许椖考芭R床試驗:研究者通過設計并實施各類臨床試驗、觀察性研究等獲取的數(shù)據(jù)?!】当O(jiān)測與篩查計劃:政府主導或第三方機構(gòu)開展的大規(guī)模公共衛(wèi)生監(jiān)測數(shù)據(jù),如疾控中心的疾病報告數(shù)據(jù)、社區(qū)健康調(diào)查結(jié)果等?!纱┐髟O備與移動健康應用:實時監(jiān)測個體生理指標的智能設備產(chǎn)生的連續(xù)性健康數(shù)據(jù)?!姓芾頂?shù)據(jù):如醫(yī)保報銷數(shù)據(jù)、藥品銷售記錄等。——基因測序與生物樣本庫:包含遺傳信息和其他生物學標志物的生物樣本數(shù)據(jù)庫。數(shù)據(jù)采集方式可包括:——直接接口集成:通過API接口實現(xiàn)與各源系統(tǒng)的無縫對接,自動抓取實時更新的數(shù)據(jù)?!繉雽С觯褐芷谛缘厣煞弦?guī)范的數(shù)據(jù)文件進行傳輸,確保數(shù)據(jù)一致性?!謩愉浫牖蛏蟼鳎横槍堎|(zhì)記錄或其他非數(shù)字化資料,經(jīng)由人工轉(zhuǎn)錄或掃描后數(shù)字化上傳至系——用戶授權(quán)獲?。航?jīng)過個人同意,從可穿戴設備、健康管理APP等獲取用戶授權(quán)分享的數(shù)據(jù)。7——第三方合作共享:與其他醫(yī)療機構(gòu)、研究機構(gòu)或政府部門簽訂數(shù)據(jù)使用協(xié)議,合規(guī)交換數(shù)據(jù)資源。7.2數(shù)據(jù)隱私和脫敏處理應使用嚴謹?shù)臄?shù)據(jù)處理技術(shù)和安全管理措施來保障醫(yī)療大數(shù)據(jù)的安全與隱私。具體要求如下:a)根據(jù)數(shù)據(jù)類型和敏感程度,制定并執(zhí)行具有針對性的脫敏策略,對于高度敏感的信息如患者姓名、身份證號、聯(lián)系方式等應徹底脫敏;b)所有涉及個人健康信息的數(shù)據(jù)在進入大模型訓練前應經(jīng)過嚴格的身份去除或匿名化處理,例如采用k-匿名、l-多樣性、差分隱私等技術(shù)手段,確保數(shù)據(jù)在保持分析價值的同時,無法直接關聯(lián)到特定個體;c)對于具有一定關聯(lián)性的數(shù)據(jù),如家庭關系、地理位置等信息,在不影響模型訓練效果的前提下,應采取適當?shù)幕煜碗S機化處理;d)醫(yī)療大數(shù)據(jù)應在安全可靠的存儲環(huán)境中保存,采用多層加密技術(shù),確保靜態(tài)數(shù)據(jù)的安全性;e)在數(shù)據(jù)傳輸過程中,應啟用安全傳輸協(xié)議,實現(xiàn)端到端加密,以防止數(shù)據(jù)在傳輸過程中被截獲或篡改。7.3數(shù)據(jù)標準化和編碼數(shù)據(jù)標準化與編碼是確保數(shù)據(jù)質(zhì)量和分析結(jié)果準確性的關鍵環(huán)節(jié)。具體要求如下:a)統(tǒng)一標準規(guī)范:應采用國際或國內(nèi)公認的醫(yī)療信息標準體系進行數(shù)據(jù)處理,如HL7、DICOM、LOINC等,確保數(shù)據(jù)格式、結(jié)構(gòu)及內(nèi)容的一致性和可比性;b)數(shù)據(jù)元素標準化:應對醫(yī)療數(shù)據(jù)中的各類元素進行標準化定義,包括但不限于患者基本信息(如姓名、年齡、性別)、臨床診斷信息(疾病編碼如ICD-10)、實驗室檢查指標(如血常規(guī)、生化指標)以及藥物編碼(如ATC編碼),以利于數(shù)據(jù)的集成和互操作;c)編碼系統(tǒng)使用:應根據(jù)不同的應用場景選擇合適的編碼系統(tǒng),例如利用SNOMEDCT進行醫(yī)學術(shù)語編碼,利用ICD編碼系統(tǒng)描述疾病狀態(tài),利用CPT或LOINC編碼記錄診療服務和實驗室檢測項目等;d)數(shù)據(jù)清洗與轉(zhuǎn)換:針對來自不同來源的數(shù)據(jù),應通過數(shù)據(jù)清洗過程將非標準格式或編碼的數(shù)據(jù)轉(zhuǎn)化為符合統(tǒng)一標準的形式,消除冗余、錯誤和不一致性;e)質(zhì)量控制與驗證:應建立數(shù)據(jù)標準化的質(zhì)量控制系統(tǒng),實施嚴格的數(shù)據(jù)輸入審核機制,對已標準化的數(shù)據(jù)進行定期審查和更新,確保數(shù)據(jù)質(zhì)量達到預設標準;f)維護與升級:隨著醫(yī)療領域知識和技術(shù)的發(fā)展,應保持對編碼系統(tǒng)和標準的關注,及時跟進更新版本,確保數(shù)據(jù)標準與當前行業(yè)實踐同步發(fā)展。7.4數(shù)據(jù)處理和分析數(shù)據(jù)處理和分析是確保模型有效性和可靠性的核心環(huán)節(jié)。具體要求如下:a)預處理與清洗:包括缺失值填充、異常值檢測與處理、重復記錄去除以及數(shù)據(jù)類型轉(zhuǎn)換等操作,確保數(shù)據(jù)質(zhì)量符合模型訓練要求;b)特征工程基于醫(yī)學專業(yè)知識和實際需求,進行有效的特征選擇和構(gòu)造,提取具有預測價值的醫(yī)療指標或變量,如構(gòu)建綜合評分、計算疾病風險指數(shù)等;c)匿名化與隱私保護:在數(shù)據(jù)處理階段持續(xù)實施隱私保護措施,對敏感信息進行深度脫敏,確保在整個分析過程中患者隱私得到充分保障;d)標準化分析流程:建立標準化的數(shù)據(jù)分析流程和方法論,涵蓋探索性數(shù)據(jù)分析(EDA)、描述性統(tǒng)計分析、關聯(lián)性分析及機器學習算法建模等多個步驟;8e)模型解釋性增強:優(yōu)先選擇使用可解釋性強的模型和算法,以便于理解模型決策過程和結(jié)果,同時降低黑箱模型帶來的潛在風險;f)性能評估與優(yōu)化:針對不同類型的醫(yī)療任務設定合理的評估指標,如準確率、召回率、AUC-ROC曲線等,對模型性能進行客觀評價,并根據(jù)評估結(jié)果不斷優(yōu)化調(diào)整模型參數(shù)和結(jié)構(gòu);g)文檔記錄與復現(xiàn)性:詳細記錄整個數(shù)據(jù)處理和分析過程,確保研究成果可以被他人理解和驗證,提升研究的科學性和可信度。7.5數(shù)據(jù)開放和共享鑒于醫(yī)療數(shù)據(jù)的敏感性和隱私性,數(shù)據(jù)開放與共享相關操作必須遵循嚴格的規(guī)定和標準,具體內(nèi)容如下:a)在開放和共享醫(yī)療數(shù)據(jù)時,應明確指明數(shù)據(jù)的共享目的,確保數(shù)據(jù)僅用于合法合規(guī)的目標;b)在數(shù)據(jù)開放和共享之前,應進行法律法規(guī)合規(guī)性審查,確保數(shù)據(jù)共享符合醫(yī)療隱私相關的法律法規(guī)要求;c)在共享數(shù)據(jù)時,應明確數(shù)據(jù)使用者的權(quán)限和范圍,限制數(shù)據(jù)的用途,避免未經(jīng)授權(quán)的數(shù)據(jù)濫用;d)對于共享的數(shù)據(jù),應實施數(shù)據(jù)共享控制措施,確保只有合法授權(quán)的人員或?qū)嶓w可以訪問和使用數(shù)據(jù);e)對于開放和共享的數(shù)據(jù),應進行數(shù)據(jù)去標識化處理,以確保數(shù)據(jù)中的個人身份信息無法被重新識別;f)在共享數(shù)據(jù)時,宜使用適當?shù)碾[私計算技術(shù)實現(xiàn)數(shù)據(jù)的“可用不可見”,使得需求方能夠在不接觸原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行有效的利用和聯(lián)合分析。8醫(yī)療大模型開發(fā)和驗證安全8.1訓練數(shù)據(jù)的安全醫(yī)療大模型訓練數(shù)據(jù)的安全性至關重要。具體要求如下:a)應采用可靠的數(shù)據(jù)存儲技術(shù)和設備,保證訓練數(shù)據(jù)的安全性,防止數(shù)據(jù)丟失和損壞;b)應定期進行數(shù)據(jù)備份,并建立有效的數(shù)據(jù)恢復機制,確保在發(fā)生故障或災難時能夠快速恢復數(shù)據(jù);c)應采用安全的數(shù)據(jù)傳輸協(xié)議和加密技術(shù),保障數(shù)據(jù)在傳輸過程中的安全;d)應設置防火墻、入侵檢測系統(tǒng)等防護措施,防止數(shù)據(jù)被泄露和篡改;e)應建立詳盡的訪問控制和授權(quán)管理制度,僅允許經(jīng)過身份驗證且具有相應權(quán)限的人員接觸和使用訓練數(shù)據(jù),嚴格控制數(shù)據(jù)的使用范圍和權(quán)限,并實施全程操作日志記錄和審計追蹤機制;f)應保持完整性,防止數(shù)據(jù)被篡改或損壞,宜使用哈希函數(shù)、數(shù)字簽名等技術(shù)進行驗證;g)應經(jīng)過脫敏處理,宜使用匿名化、去標識化、假名化等技術(shù)防止個人敏感信息泄露;h)應動態(tài)更新和維護訓練數(shù)據(jù),確保新增數(shù)據(jù)的合規(guī)性和安全性。8.2大模型架構(gòu)選擇在醫(yī)療大模型的開發(fā)與驗證過程中,合理的大模型架構(gòu)選擇是確保模型安全、高效且符合醫(yī)療領域特性的關鍵環(huán)節(jié)。具體要求如下:a)安全性設計:在模型架構(gòu)中嵌入隱私保護機制,例如差分隱私、同態(tài)加密等技術(shù),以減少數(shù)據(jù)泄露風險,同時保障模型訓練和推理過程中的數(shù)據(jù)安全;b)模塊化結(jié)構(gòu):采用模塊化的模型架構(gòu)設計,以便于對各個功能組件進行獨立的安全性評估、升級和維護,同時也便于針對特定醫(yī)療場景或任務進行靈活調(diào)整和優(yōu)化;9c)可解釋性與透明度:優(yōu)先選擇具有較強可解釋性的模型架構(gòu),如Attention-based模型或基于規(guī)則的混合模型,這有助于理解和分析模型決策過程,滿足醫(yī)學領域的監(jiān)管要求和倫理考量;d)并行計算與分布式處理:鑒于醫(yī)療數(shù)據(jù)的海量性和復雜性,應選擇支持并行計算和分布式訓練的大模型架構(gòu),通過集群資源的充分利用,提高訓練效率,降低單點故障的風險;e)容錯與魯棒性:在模型架構(gòu)設計時考慮到系統(tǒng)的容錯能力,通過冗余備份、錯誤恢復等手段保證模型在異常情況下仍能保持穩(wěn)定運行,避免因系統(tǒng)故障導致的數(shù)據(jù)損失或服務中斷;f)適應醫(yī)療數(shù)據(jù)特性:根據(jù)醫(yī)療數(shù)據(jù)的特點(如多模態(tài)、異構(gòu)、稀疏等選擇能夠有效利用這些特征的模型架構(gòu),如多模態(tài)融合模型、圖神經(jīng)網(wǎng)絡等,以提高模型對醫(yī)療問題的解決能力。8.3大模型訓練和優(yōu)化在醫(yī)療大模型的開發(fā)過程中,大模型的訓練與優(yōu)化環(huán)節(jié)是提升模型性能的核心步驟。具體要求如下:a)數(shù)據(jù)集劃分:合理劃分訓練集、驗證集和測試集,以確保模型訓練的有效性和泛化能力。同時,應保證各個數(shù)據(jù)集在患者信息隱私保護上的一致性,避免因數(shù)據(jù)劃分導致的安全隱患;b)模型初始化與超參數(shù)設定:根據(jù)醫(yī)療領域特點及任務需求選擇合適的模型初始化方法和超參數(shù)設置,如學習率、批次大小、正則化強度等,以實現(xiàn)模型訓練的良好啟動和收斂;c)安全性約束嵌入:在訓練過程中,將隱私保護和安全性約束融入損失函數(shù)中,例如通過差分隱私、同態(tài)加密技術(shù)進行梯度更新,或采用對抗訓練增強模型對惡意攻擊的抵抗力;d)監(jiān)督與無監(jiān)督結(jié)合:結(jié)合有標簽和無標簽的醫(yī)療數(shù)據(jù)進行混合訓練,提高模型對未標記數(shù)據(jù)的學習能力和泛化性能,同時也可在一定程度上緩解大規(guī)模標注數(shù)據(jù)不足的問題;e)迭代訓練與早停策略:實施合理的迭代次數(shù)和早停策略,在保障模型充分訓練的同時防止過擬合現(xiàn)象的發(fā)生,確保模型在保持高準確度的同時具備良好的泛化性能;f)模型并行與分布式訓練:利用多GPU或多節(jié)點集群資源,實施模型并行、數(shù)據(jù)并行或流水線并行等分布式訓練技術(shù),加快模型訓練速度,同時確保訓練過程中的數(shù)據(jù)安全傳輸和計算安全;g)持續(xù)監(jiān)控與調(diào)整:在整個訓練過程中,持續(xù)監(jiān)測模型性能指標以及訓練狀態(tài),如損失曲線、精度變化等,并根據(jù)監(jiān)控結(jié)果及時調(diào)整訓練策略或算法參數(shù),不斷優(yōu)化模型表現(xiàn);h)公平性和可解釋性考量:在訓練和優(yōu)化過程中注重模型的公平性和可解釋性,避免模型因數(shù)據(jù)偏見而導致不公平預測結(jié)果,同時通過可視化工具和技術(shù)提高模型決策的透明度,滿足醫(yī)療領域?qū)煽啃缘膰栏褚蟆?醫(yī)療大模型推理安全9.1推理數(shù)據(jù)的隱私安全在大模型推理階段,確保推理數(shù)據(jù)的隱私安全同樣至關重要。具體要求如下:a)脫敏處理:對輸入到模型進行推理的數(shù)據(jù)進行實時或預處理脫敏,如使用差分隱私、同態(tài)加密等技術(shù),以保護患者的個人信息不被直接暴露;b)權(quán)限控制與訪問管理:建立嚴格的用戶權(quán)限控制系統(tǒng),僅允許授權(quán)人員訪問和使用模型服務,對所有推理請求進行身份驗證和權(quán)限校驗,防止未經(jīng)授權(quán)的訪問和使用;c)最小權(quán)限原則:僅提供完成特定任務所需的最少信息,避免過度收集和暴露敏感信息;d)日志記錄與審計追蹤:系統(tǒng)應具備詳細的日志記錄功能,對每一次推理請求及其結(jié)果進行記錄和審計追蹤,以便于監(jiān)控異常行為并為潛在的安全事件提供調(diào)查依據(jù);e)匿名化與假名化策略:對于非必要展示給最終用戶的輸出結(jié)果,采取匿名化或假名化策略,如僅顯示與患者健康狀況相關的分析結(jié)論而隱去個人標識信息;f)抗攻擊性設計:針對可能的模型逆向工程攻擊、模型提取攻擊等安全威脅,強化模型服務接口的安全防護,例如采用模型水印技術(shù)監(jiān)測非法模型復用,以及通過混淆技術(shù)增加模型逆向破解難度。9.2醫(yī)療大模型參數(shù)的隱私安全在醫(yī)療大模型參數(shù)的安全同樣不容忽視。具體要求如下:a)模型加密存儲:對訓練得到的大模型參數(shù)進行加密存儲,采用強密碼學算法確保即使數(shù)據(jù)泄露,攻擊者也無法直接解讀模型參數(shù)的真實內(nèi)容;b)訪問權(quán)限控制:嚴格管理對模型參數(shù)文件的訪問權(quán)限,僅授權(quán)給經(jīng)過身份驗證且具有必要職責的人員或系統(tǒng)服務訪問,防止未經(jīng)授權(quán)的讀取、修改和傳播;c)密態(tài)計算與同態(tài)加密:在可能的情況下,使用密態(tài)計算技術(shù)處理模型參數(shù),允許在加密數(shù)據(jù)上直接執(zhí)行計算而不解密,如同態(tài)加密技術(shù)可支持對加密后的模型參數(shù)進行推理操作,從而保護模型參數(shù)隱私;d)模型更新與分發(fā)安全:在模型迭代升級過程中,確保新版本模型參數(shù)的分發(fā)與部署安全可控,通過隱私計算共享或者安全渠道傳輸,并在服務器端完成更新后及時銷毀舊版參數(shù)文件;e)虛擬化與隔離技術(shù):采用容器化或虛擬機等技術(shù)將模型部署環(huán)境與其他系統(tǒng)資源進行邏輯隔離,防止模型參數(shù)被非法獲取或利用;f)模型剪枝與混淆:對模型參數(shù)進行裁剪優(yōu)化(模型剪枝)以降低模型復雜度,同時運用混淆技術(shù)改變模型結(jié)構(gòu)及參數(shù)名稱,增加逆向工程的難度,進一步保障模型參數(shù)安全;g)審計跟蹤與日志記錄:建立完善的日志系統(tǒng),記錄所有涉及模型參數(shù)的操作行為,包括但不限于訪問、更新、下載等動作,便于監(jiān)控潛在的安全風險并為后續(xù)追溯提供依據(jù)。10醫(yī)療大模型安全評估在醫(yī)療大模型的開發(fā)與應用過程中,嚴格的安全性評估可確保其可靠性和合規(guī)性。具體要求如下:a)安全風險識別:對大模型系統(tǒng)進行全面的風險評估,包括但不限于數(shù)據(jù)泄露、模型逆向工程攻擊、對抗樣本攻擊、模型注入攻擊等潛在安全威脅;b)隱私保護評估:檢驗模型在處理個人健康信息時是否遵循隱私保護原則,例如匿名化和去標識化技術(shù)的有效性、差分隱私策略的應用以及數(shù)據(jù)生命周期中的隱私保護措施是否到位;c)模型魯棒性測試:通過生成對抗樣本或利用已知攻擊方法對模型進行壓力測試,以評估模型對于惡意輸入及異常情況的抵抗能力,并據(jù)此優(yōu)化模型結(jié)構(gòu)和訓練策略;d)功能安全性驗證:檢查模型在不同醫(yī)療場景下的表現(xiàn),驗證其在診斷、治療建議等方面輸出結(jié)果的準確性、一致性和可靠性,避免因模型錯誤導致的誤診或不當治療決策;e)訪問控制與權(quán)限管理審計:審查模型服務接口的訪問控制機制,確認只有經(jīng)過授權(quán)的用戶和服務才能訪問模型資源,并且具備有效的權(quán)限管理和日志記錄系統(tǒng);f)系統(tǒng)完整性與穩(wěn)定性評測:評估模型系統(tǒng)的架構(gòu)設計、代碼質(zhì)量和部署環(huán)境的安全性,確保其能夠抵御常見的軟件漏洞攻擊,并在高負載情況下保持穩(wěn)定運行;g)法規(guī)符合性審查:對照相關法律法規(guī)(如《個人信息保護法》、《網(wǎng)絡安全法》等)要求,核查大模型開發(fā)、部署、使用過程中的數(shù)據(jù)收集、處理、存儲和共享環(huán)節(jié)是否合規(guī);h)持續(xù)監(jiān)測與更新維護:建立常態(tài)化的安全評估體系,定期進行安全審計和技術(shù)更新,及時發(fā)現(xiàn)并修復新的安全問題,確保模型技術(shù)始終保持在最新的安全標準之上。11醫(yī)療大模型應用安全管理醫(yī)療大模型在開發(fā)應用時應建立相應的安全組織架構(gòu),負責項目的安全管理和規(guī)章制度的建立。具體要求如下:a)明確合規(guī)性和倫理審查的基本原則和大模型的開發(fā)應用流程;b)建立大模型開發(fā)應用的安全培訓和教育機制;c)建立安全定期檢查和大模型安全評估機制;d)建立大模型開發(fā)應用安全事件應急響應和處理機制;e)建立大模型開發(fā)應用安全事件的報告和記錄機制,并根據(jù)事件的性質(zhì)和影響適度進行分類分級;f)建立定期的安全審計機制,確保醫(yī)療大模型應用的數(shù)據(jù)安全控制措施的有效性和合規(guī)性。(資料性)大模型在醫(yī)療領域的應用雖然大模型在醫(yī)療領域具有潛力,但在實際應用時需要慎重考慮,確保倫理性、數(shù)據(jù)隱私、模型的準確性、可解釋性、可靠性和安全性等因素,任何輔助工具都應該經(jīng)過充分驗證和醫(yī)學專業(yè)人員的臨床評估。本附錄列舉大模型在醫(yī)療領域可能的應用場景。A.1醫(yī)學影像分析大模型可以通過深度學習技術(shù)對CT、MRI、X光等醫(yī)學影像進行分析,幫助識別病變、腫瘤、骨折、血管疾病等多種病理狀況。例如,模型可以自動檢測肺結(jié)節(jié)、乳腺癌、腦部病變,并評估其惡性程度。A.2疾病預測和輔助診斷醫(yī)療大模型能夠處理海量的臨床數(shù)據(jù),包括病史、實驗室檢查結(jié)果、影像資料等,結(jié)合機器學習算法,為醫(yī)生提供患者的預測疾病風險,如心血管疾病、糖尿病等,以及實時的輔助診斷建議,提高診斷準確性和效率。A.3藥物發(fā)現(xiàn)和設計利用大模型進行藥物發(fā)現(xiàn)與篩選,通過模擬化合物與靶點間的相互作用預測藥物活性和副作用,加速新藥的研發(fā)進程。A.4基因組學和個性化醫(yī)療大模型可以對個體基因組數(shù)據(jù)進行深度分析,預測遺傳病風險,指導個性化治療方案,幫助醫(yī)生更好地理解患者的基因信息。A.5臨床報告自動生成大模型可以自動從非結(jié)構(gòu)化的醫(yī)患對話和診療記錄中提取關鍵信息,生成結(jié)構(gòu)化的電子病歷,減輕醫(yī)生的工作負擔,便于后續(xù)的數(shù)據(jù)分析和研究。A.6智能問診與患者管理:AI+問診服務中,基于大模型技術(shù)可以構(gòu)建智能問答系統(tǒng),用于在線預問診、病情咨詢,以及生成詳細的病例報告,實現(xiàn)對患者全病程的智能化管理。A.7科室導診與資源優(yōu)化在醫(yī)院內(nèi)部,大模型可嵌入到各個環(huán)節(jié),如科室導診、醫(yī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江宇翔職業(yè)技術(shù)學院《公路工程定額原理與計價》2023-2024學年第一學期期末試卷
- 浙江工業(yè)職業(yè)技術(shù)學院《采購過程演練》2023-2024學年第一學期期末試卷
- 反諧振阻抗比較小的原因
- 中國傳媒大學《計算機電子電路基礎》2023-2024學年第一學期期末試卷
- 長治醫(yī)學院《劇場品牌管理》2023-2024學年第一學期期末試卷
- 云南司法警官職業(yè)學院《體育-臺球》2023-2024學年第一學期期末試卷
- 企業(yè)內(nèi)部知識分享平臺構(gòu)建方案
- 保險行業(yè)數(shù)字營銷模板
- 拿破侖歷史名人人物介紹
- 中考誓師大會學生發(fā)言稿
- 2025年浙江省金華市統(tǒng)計局招聘2人歷年高頻重點提升(共500題)附帶答案詳解
- 員工職業(yè)素養(yǎng)與團隊意識培訓課件2
- 部編版三年級下冊語文全冊教案及全套導學案
- 2024年國家級森林公園資源承包經(jīng)營合同范本3篇
- 對口升學《計算機應用基礎》復習資料總匯(含答案)
- 迪士尼樂園總體規(guī)劃
- 2024年江蘇省蘇州市中考數(shù)學試卷含答案
- 2024年世界職業(yè)院校技能大賽高職組“市政管線(道)數(shù)字化施工組”賽項考試題庫
- 介紹蝴蝶蘭課件
- 大學計算機基礎(第2版) 課件 第1章 計算機概述
- 數(shù)字化年終述職報告
評論
0/150
提交評論