閭海榮-預(yù)訓(xùn)練大模型與醫(yī)療 從算法研究到應(yīng)用_第1頁
閭海榮-預(yù)訓(xùn)練大模型與醫(yī)療 從算法研究到應(yīng)用_第2頁
閭海榮-預(yù)訓(xùn)練大模型與醫(yī)療 從算法研究到應(yīng)用_第3頁
閭海榮-預(yù)訓(xùn)練大模型與醫(yī)療 從算法研究到應(yīng)用_第4頁
閭海榮-預(yù)訓(xùn)練大模型與醫(yī)療 從算法研究到應(yīng)用_第5頁
已閱讀5頁,還剩93頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

預(yù)訓(xùn)練大模型與醫(yī)療:從算法研究到應(yīng)用閭海榮博士|清華大學(xué)自動化系1.預(yù)訓(xùn)練大模型概述2.理解大模型的內(nèi)在機理3.賦予模型精準性與可解釋性4.醫(yī)療領(lǐng)域應(yīng)用5.清華探索:數(shù)基生命大數(shù)據(jù)(低成本無標注)微調(diào)小模型大數(shù)據(jù)(低成本無標注)微調(diào)小模型預(yù)訓(xùn)練大模型1.模型角度:模型參數(shù)不再是隨機初始化,而是通過一些任務(wù)(如語言模型)進行預(yù)訓(xùn)練;2.數(shù)據(jù)角度:將訓(xùn)練任務(wù)拆解成共性學(xué)習(xí)和特性學(xué)習(xí)兩個步驟。A不懂英文英文B懂英文后結(jié)構(gòu)化C懂英文的醫(yī)生A不懂英文英文B懂英文后結(jié)構(gòu)化C懂英文的醫(yī)生兩類典型的大語言模型兩類典型的大語言模型BERT:BidirectionalEncoder雙向模型,同時考慮前文和后文(nextsentenceprediction)進行預(yù)訓(xùn)練,使得模型能夠?qū)W習(xí)到上下文關(guān)系和詞匯語義關(guān)系和詞匯語義通常用于文本分類、序列標注、問答等任務(wù)GPTGPT:GenerativePre-trainedTransformer單向模型,只考慮前文,不考慮后文采用自回歸(autoregressive)的方式生成文本,即逐個生成下一個詞通常用于生成文本、對話、問答等任務(wù)BERTBERT主要采用掩碼語言模型(maskedlanguagemodel,對應(yīng)圖MaskLM)和下一句預(yù)測任務(wù)(nextsentenceprediction,對應(yīng)圖NSP)進行預(yù)訓(xùn)練,使得模型能夠?qū)W習(xí)到上下文關(guān)系和詞匯語義。預(yù)訓(xùn)練好的BERT可以用于對輸入文本進行編碼,得到具有語義的向量表示。預(yù)訓(xùn)練好的BERT也可以通過微調(diào)(fine-tuning)方式適配各類NLP任務(wù):TheStanfordQuestionAnsweringDataset問答(SQuAD)、命名實體識別(NER)、MNLI任務(wù)(大規(guī)模分類任務(wù),目標是預(yù)測第二個句子相對于第一個句子是包含,矛盾還是中立)號空間SymbolicSpace號空間SymbolicSpace-司(向量空間)LatentLatentSpace類模型類模型2019年7月Facebook2019年7月FacebookAI基于BERT模型的擴展參數(shù)量1.15億,3.4億數(shù)據(jù)量約160GB2021年10月MicrosoftAI在BERT模型上引入解碼與注意力解耦參數(shù)量3.4億數(shù)據(jù)量約78GB2020年3月GoogleAI在BERT模型引入GAN參數(shù)量3.4億數(shù)據(jù)量約16GB.20182018年10月GoogleAI提出BERT模型參數(shù)量1.15億,3.4億數(shù)據(jù)量約16GB__BERT2020__BERT2020年2月GoogleAI提出的輕量化BERT模型參數(shù)量0.2億,0.61億,2.4億數(shù)據(jù)量約16GB大事心大事心3.020193.02019年8月清華大學(xué)提出知識注入BERT模型,后由BaiduAI更新迭代到3.0版本參數(shù)量1.15億,1.25億,100億數(shù)據(jù)量約12GB,22.9G,4TB參數(shù)量15億參數(shù)量15億參數(shù)量1750億增加GPT解釋翻譯能力解碼器部分為GPT發(fā)展奠定基礎(chǔ)賦予GPT推理能力賦予GPT處理多任務(wù)的能力賦予GPT預(yù)測下一個字符串能力Datasets:300billiontokensoftextObjective:PredictthenextwordExample:a Instructup[Instructup[codexcodex使GPT具有與人類對話的能力使GPT具有與人類對話的能力GPTGPTAbility通過對海量文本的學(xué)習(xí),自動構(gòu)建了一個含有1750億參通過對海量文本的學(xué)習(xí),自動構(gòu)建了一個含有1750億參后續(xù)狀態(tài)按一定概率取決于過去狀態(tài)的隨機過m階馬爾可夫鏈模型可以根據(jù)前m個記號算出下一個記號的概率分布ChatGPTChatGPT根據(jù)前4095個記號猜下一個記號,所以是一個4095階的馬爾可夫鏈如果如果ChatGPT遇到它在訓(xùn)練時從沒見過的記號串怎么辦?————神經(jīng)網(wǎng)絡(luò)能很好解決這個問題?在GPT里面,把一個記號作為一個N維浮點數(shù)向量來表示。這種用一??一個單詞對應(yīng)的向量叫這個單詞的嵌入向量?把每個單詞或記號(token)在GPT內(nèi)部都會通過一層簡單的神經(jīng)網(wǎng)絡(luò)映射層對應(yīng)到一個嵌入向量,這個向量代表了記號的語言特征?GPT-3是1600維,GPT-3.52048維使用Transformer使用Transformer擺脫了人工標注數(shù)據(jù)集的缺陷,模型在質(zhì)量上更優(yōu)、更易于并行化,所需訓(xùn)練時間明顯更少??第一步:將離散的順序號轉(zhuǎn)換成一個與嵌入向量長度相同的向量,稱為位置編碼(positionalencoding)?第二步:將位置編碼與嵌入向量相加(即對應(yīng)的元素相加),結(jié)果作為后續(xù)處理的輸入向量?第三步:輸入向量會被送到多層Transformer進行后續(xù)處理,每層Transformer的參數(shù)不同,但都會讓輸入先經(jīng)過一個線性投影層?第四步:線性投影層將輸入向量投影到另一個維度空間,剔除不重要的維度,將高維向量簡化為低維向量010102練成本在875萬-1093.75萬美元之間03040506?控制語言模型輸出的隨機性或創(chuàng)造性的參數(shù)?temperature參數(shù)=0,模型每次都挑最佳候選字,從不偏離?openAI試驗場(playground)限制temperature參數(shù)在0到1的區(qū)間t=0t=0t=0.4t=2t=2?拿到候選字的原始概率分布后,先把這些字按概率從高到低排序,按順序依次選取,選到總概?top_p=0,只保留最高頻的一個字?top_p=0.5,考慮總概率占50%的那些最高頻的字?top_p=1,全部候選字都考慮toptop_p=0toptop_p=0.1top_p=1相關(guān)模型在相關(guān)模型在FewRel和TACRED上的表現(xiàn)知識嵌入:Zhang等人通過將知識圖譜的表示參考:參考:[1]Zhang,Zhengyan,etal."ERNIE:Enhancedlanguagerepresentationwithinformativeentities."人提出了知識生成式大模型提示方法,讓模型進行知識預(yù)測,通過將知識圖譜的三元組形式轉(zhuǎn)化成Questionandanswer的形式,讓模型而得到最終的更為精確靠譜的結(jié)果。模型在數(shù)值常識(NumerSense)、一般常識(CommonsenseQA2.0)和科學(xué)常識知識融入到大模型中能夠提升其常識推理任務(wù)參考:參考:[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)ChatGPTChatGPT作為一種生成模型,存在一些問題。其中最主要的問題是不確定性和預(yù)訓(xùn)練語料庫回答一些問題時存在時效性、事實性以及內(nèi)容不合規(guī)等情況。[1]零樣本能力(泛化能力),但在復(fù)雜的任務(wù)中使用零樣本設(shè)置時仍然表現(xiàn)不佳。為了提高模型的性能,我們可以采用少樣本提示技術(shù)來啟示例演示來引導(dǎo)其生成更好的響應(yīng)。演示作為后續(xù)示例的條件,可以有效地提高模型的準確參考:參考:[1]/TgqDT3gGaMdkHasLZv/article/details/130211938[2]mptingguide.ai/zh/techniques/fewshot由于由于ChatGPT的訓(xùn)練機制主要專注于“單字接龍”,其在涉及算術(shù)和常識推理的任務(wù)中的精確性仍有待提升。自我一致性:由Wang等人提出,其核心思想是在鏈式思考的prompt[1]基礎(chǔ)上,通過采樣適量的多個不同推理路徑,根據(jù)這些方案的一致性參考:參考:[1]mptingguide.ai/zh/techniques/cot[2]mptingguide.ai/zh/techniques/fewshotChatGPT生成增強的響應(yīng),讓ChatGPT參考:參考:[1]Ma,Chong,etal."ImpressionGPT:AnIterativeOptimizingFrameworkfo[2]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonmedical機器學(xué)習(xí)模型的可解釋性大模型的可解釋性思路基于attention機制:大模型如BERT和ChatGPT等大都基于attention機制構(gòu)建,但隨著模型參數(shù)量不斷增大,通過attentionPromptEngineering思路:對話中的post-hoc(事后)可解釋性白箱算法的可解釋性與模型構(gòu)造本身高度相關(guān),白箱算法的可解釋性與模型構(gòu)造本身高度相關(guān),因此對于大模型可以根據(jù)相關(guān)思路設(shè)計更具有針對性的可解釋性方法。主流的模型相關(guān)可解釋性方法:?基于梯度顯著性[1]?基于注意力機制[3]⑤⑤數(shù)基生命參考:[1]Wang,Junlin,etal."Gradient-basedanalysisofNLPmodelsismanipulable."arXivpreprintarXiv:2010.05419(2020).[2]Meng,Kevin,etal."Locatingandeditingfactualknowledgeingpt."arXivpreprintarXiv:2202.05262(2022).[2]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).[4]Dai,Damai,etal."Knowledgeneuronsinpretrainedtransformers."arXivpreprintarXiv:2104.08696(2021).BERTBERT、GPT等大預(yù)言模型的基礎(chǔ)框架為transformer,因此對于此類大模型的可解釋性多與transformer模型的架構(gòu)與機制有關(guān)。多層注意力機制:在Transformer模型中,通常包含大量的attention層。因此,每層對于模型最終輸出的影響很難用單層的熱力圖來解釋。如果想要探究這類大型模型的可解釋性,就必須從多層注意機制入手,并深入探究多個層之間以及同一層中不同multi-he注意力頭探查?注意力頭探查?探查個別注意力頭?探查注意力頭組合?注意力聚類注意力中的表層模式?注意力模塊的相對位置?分隔符標記?集中注意力與廣泛注意力參考:參考:[1]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).息流的可視化,這樣做的意義和價值在于模型的使用者能夠非常清晰的找出模型的輸出結(jié)果與哪些輸入有關(guān),以及這些關(guān)聯(lián)機制在模型的層的數(shù)量眾多,其黑箱特性使得信息在其中的傳遞變得錯綜復(fù)雜。通過追蹤tokens在Transformer內(nèi)部結(jié)構(gòu)中的信息流向,能夠幫助明度并提高其可信度。[1]參考:參考:[1]Lu,K.,etal."InfluencePatternsforExplainingInformationFlowinBERT."(2020).通過通過Promptengineering,ChatGPT能夠?qū)ο嚓P(guān)的結(jié)果做出一定的事后解釋,這樣的解釋以自然語言的形式給出,讓人更易理解。鏈式思考:Wei等人引入鏈式思考(CoT)提示通過中間推理步驟實現(xiàn)了復(fù)雜的推理能力,這樣的方法不僅可以提升任務(wù)結(jié)果的準確性,同時也能使得模型的推理過程一定程度上透明化,從而平衡其黑箱特性帶來的過程不可見性,增加結(jié)果的可行度。參考:參考:[1]mptingguide.ai/zh/techniques/cot背景背景生成知識提示:大模型精準性的板塊所講到的法類似于鏈式思考方法,它讓大模型針對一個問題生成特定的知識,并以這些知識作為其思考過程的基礎(chǔ)。然后將這些知識進行聚合,最終得出一個答案。這樣的過程也是一種可解釋型在推理和生成答案時所參考的具體知識,從而更好地理解其決策過程。這種方法可以幫助我們發(fā)現(xiàn)模型可能存在的偏見或錯誤,并進一步優(yōu)化模型性能。同時,由于知識的結(jié)構(gòu)化特釋,增強模型的可解釋性。參考:參考:[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)參考:參考:[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,CImpressionGPTImpressionGPT技術(shù)流程圖參考:參考:[1]Ma,Chong,etal."ImpressionGPT:AnIterativeOptimizingFrameworkfo最近的研究表明,設(shè)計prompt以引導(dǎo)模型關(guān)注輸入的相關(guān)方面,可以產(chǎn)生更精確和一致的輸出。因此promptengineering對自動印象生成非常重要。首先使用標簽器對報告的“發(fā)現(xiàn)”部分進行分首先使用標簽器對報告的“發(fā)現(xiàn)”部分進行分有的診斷報告語料庫中搜索相似的報告。使用“動態(tài)提示”來構(gòu)建具有相似診斷報告的“動態(tài)上下文”環(huán)境,以便ChatGPT可以學(xué)習(xí)總結(jié)與當前疾病相關(guān)的診斷報告。MIMIC-CXR和OpenI上取得了不少的性能提升。對生成的報告進行評估,利用評估結(jié)果來指導(dǎo)對生成的報告進行評估,利用評估結(jié)果來指導(dǎo)Response”的形式,讓ChatGPT能夠從好樣本和壞樣本中學(xué)習(xí)到相關(guān)內(nèi)容。參考:參考:[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,C背景背景用于醫(yī)學(xué)圖像的計算機輔助診斷(CAD)網(wǎng)絡(luò)通過使用先進的深度學(xué)習(xí)算法來支持臨床決策,在醫(yī)學(xué)領(lǐng)域取得了重大成功。大型語言模型(LLM)最近展示了在臨床應(yīng)用中的潛力,其提供了寶貴的醫(yī)學(xué)知識挑戰(zhàn):LLM目前難以從這些醫(yī)學(xué)圖像中解釋和提取信息,從而限制了他們?nèi)嬷С峙R床決策過程的能思路:ChatCAD[1]將LLM的醫(yī)學(xué)領(lǐng)域知識和邏輯推理的優(yōu)勢與現(xiàn)有醫(yī)學(xué)圖像CAD模型的視覺理解能力相結(jié)合,為患者提供了一個更加用戶友好和易ChatCADChatCAD技術(shù)流程圖CAD與CAD與ChatGPT結(jié)合后的交互式問答系統(tǒng)示例參考:參考:[1]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonmedicalimageusinglargelanguagemodels."arXivpreprintarXiv:2302.07257(2023).使用了三種不同的使用了三種不同的prompt設(shè)計,prompt作為tensor到text的紐帶從醫(yī)學(xué)圖像得到prompt的策略:1)將檢查圖像(例如X射線)輸入經(jīng)過訓(xùn)練的CAD模型以獲得輸出2)Prompt#1將這些輸出(通常是張量Outputtensor)翻譯成自然語言(LLM的提示句)3)Prompt#2將使用評分系言描述五個觀察值中每一個的可能性4)Prompt#3是一個簡潔的prompt,報告在Outputtensor中診斷分數(shù)高于0.5的疾病,如果五種疾病都沒有預(yù)測,則提示“未發(fā)現(xiàn)”ChatCAD利用ChatCAD利用ChatGPT與三種不同的prompt設(shè)計生成的報告交互式ChatCAD的兩個示例基于視覺模型的結(jié)果和語言模型中預(yù)訓(xùn)練的醫(yī)學(xué)知識,交互式ChatCAD可以進行有關(guān)基于視覺模型的結(jié)果和語言模型中預(yù)訓(xùn)練的醫(yī)學(xué)知識,交互式ChatCAD可以進行有關(guān)利用知識圖譜直接顯式的進行形式化拼接,引入預(yù)訓(xùn)PromptPrompt是兩類知識相互融合的橋梁使用使用BookCorpus和WikiPedia訓(xùn)練4層的tinyBERT和tinyEnhancedBERT,結(jié)果顯示參考:參考:[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,Challenges,andtheFuture."arXivpreprintarXiv:2303.11群體帶頭人張學(xué)工生物信息與機器學(xué)習(xí)專家清華大學(xué)自動化系教授國際計算生物學(xué)學(xué)會會士李衍達中國科學(xué)院院士戴瓊海中國工程院院士董家鴻中國工程院院士WingH.Wong美國科學(xué)院院士群體骨干群體骨干古槿謝震汪小我江瑞閭海榮魏磊張靜古槿謝震汪小我江瑞閭海榮魏磊張靜科學(xué)發(fā)現(xiàn)科學(xué)發(fā)現(xiàn)未能轉(zhuǎn)化為應(yīng)用未能轉(zhuǎn)化為應(yīng)用通過全方位、多尺度、多模態(tài)生物醫(yī)學(xué)數(shù)據(jù)感知通過全方位、多尺度、多模態(tài)生物醫(yī)學(xué)數(shù)據(jù)感知,把人體表征為數(shù)字化實體。通過模擬個體健康演化和疾病發(fā)生發(fā)展過程,推演各種因素作用,定量評估重要生命過程,提供精準的動態(tài)健康指導(dǎo)和疾病治療方案。在數(shù)字化實體中,實現(xiàn)貫穿人體分子、細胞、組織、器官和系統(tǒng)的數(shù)學(xué)模型,讓數(shù)字實體“活起來”,模擬生老病死各種生命過群體宏觀--個體群體宏觀--個體---系統(tǒng)---器官----廠-- 應(yīng)用智能化全場景智能化精準醫(yī)健機理模型化數(shù)據(jù)-知識雙驅(qū)動構(gòu)建大模型生命數(shù)字化細胞-數(shù)碳耦合組織工程--全方位跨尺度數(shù)據(jù)感知細胞-數(shù)碳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論