中國信通院-人工智能大模型賦能醫(yī)療健康產(chǎn)業(yè)白皮書(2023年)_第1頁
中國信通院-人工智能大模型賦能醫(yī)療健康產(chǎn)業(yè)白皮書(2023年)_第2頁
中國信通院-人工智能大模型賦能醫(yī)療健康產(chǎn)業(yè)白皮書(2023年)_第3頁
中國信通院-人工智能大模型賦能醫(yī)療健康產(chǎn)業(yè)白皮書(2023年)_第4頁
中國信通院-人工智能大模型賦能醫(yī)療健康產(chǎn)業(yè)白皮書(2023年)_第5頁
已閱讀5頁,還剩161頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能大模型賦能(2023年)人工智能醫(yī)療器械創(chuàng)新合作平臺智能化醫(yī)療器械產(chǎn)業(yè)發(fā)展研究工作組中國信息通信研究院云計算與大數(shù)據(jù)研究所人工智能醫(yī)療器械創(chuàng)新合作平臺智能化醫(yī)療器械產(chǎn)業(yè)發(fā)展研究工作組、中國信息通信研究院云計算與大數(shù)據(jù)研究所本白皮書版權(quán)屬于人工智能醫(yī)療器械創(chuàng)新合作平臺和隨著全球新一輪科技革命和產(chǎn)業(yè)變革深入發(fā)展,以人工智能 本白皮書集中梳理了國內(nèi)外醫(yī)療健康大模型的最新態(tài)勢及發(fā)展進(jìn)一步促進(jìn)醫(yī)療健康大模型發(fā)展的相關(guān)建議。白皮書旨在為我國生命科學(xué)與醫(yī)療健康大模型技術(shù)和產(chǎn)業(yè)發(fā)展提供參考和引導(dǎo),共同推動技術(shù)研發(fā)創(chuàng)新,促進(jìn)行業(yè)高質(zhì)量發(fā)展。由于生命科學(xué)與醫(yī)療健康大模型仍處于快速發(fā)展階段,我們的認(rèn)識還有待持續(xù)深化,白皮書仍有不足之處,歡迎大家批評指正。下一步,我們將廣泛采納各方面的建議,進(jìn)一步深入相關(guān)研究,適時發(fā)布新版報告。我們誠邀各界專家學(xué)者參與我們的研究工作,積極獻(xiàn)言獻(xiàn)策,為促進(jìn)生命科學(xué)與醫(yī)療健康大模型發(fā)展作出貢獻(xiàn)。如您有意愿,請聯(lián)系一、醫(yī)療健康大模型發(fā)展概述 9(一)醫(yī)療健康大模型的概念和優(yōu)勢 9(二)醫(yī)療健康大模型的生態(tài)架構(gòu) 二、醫(yī)療健康大模型的技術(shù)體系及演進(jìn) (一)大模型響應(yīng)生物大數(shù)據(jù)時代的數(shù)據(jù)特征和應(yīng)用需求……14(二)多類型基礎(chǔ)模型為醫(yī)療健康大模型提供堅實(shí)源動力……19(三)四種范式助力大模型在醫(yī)療健康垂直領(lǐng)域的應(yīng)用實(shí)踐..28(四)模型發(fā)展呈現(xiàn)家族化、多模態(tài)、融合化、協(xié)同化趨勢..35三、醫(yī)療健康大模型的應(yīng)用場景 39(一)整體發(fā)展分析 40(二)具體場景分析 四、醫(yī)療健康大模型面臨的風(fēng)險與挑戰(zhàn) (一)技術(shù)風(fēng)險:精度不夠,尚不能完全滿足醫(yī)療場景安全性可靠性需求……………68(二)落地挑戰(zhàn):數(shù)據(jù)、成本、權(quán)責(zé)問題制約大模型在醫(yī)療領(lǐng)域落地應(yīng)用 (三)數(shù)據(jù)安全和隱私:個人數(shù)據(jù)濫用、隱私泄露和網(wǎng)絡(luò)攻擊風(fēng)險突出 (四)倫理道德問題:大模型加劇醫(yī)療偏見和有害、虛假信息傳播問題………………73(一)標(biāo)準(zhǔn)和指南:基礎(chǔ)信息安全標(biāo)準(zhǔn)開始起步,領(lǐng)域平臺規(guī)范指南需求迫切………74(二)評價和驗(yàn)證:針對新能力、新特性、真實(shí)表現(xiàn)的動態(tài)評估方法有待建立………76(三)政策和監(jiān)管:促發(fā)展與防風(fēng)險并重,奠定醫(yī)療大模型監(jiān)管治理良好基礎(chǔ) 圖1人工智能大模型+醫(yī)療健康生態(tài)架構(gòu) 圖2人工智能發(fā)展歷程 圖3醫(yī)療健康大模型的類別和實(shí)例 圖4LLaVA-Med的預(yù)訓(xùn)練和微調(diào)流程 圖5Med-PaLMM所用基準(zhǔn)數(shù)據(jù)集的模態(tài)和任務(wù) 圖6生命科學(xué)與醫(yī)療領(lǐng)域開發(fā)與應(yīng)用大模型的四種范式……29圖7GatorTron模型的預(yù)訓(xùn)練和微調(diào)過程 圖8BioBERT的預(yù)訓(xùn)練和微調(diào)過程 32圖9ChatDoctor模型的構(gòu)建過程 圖10Med-PaLM2采用多種路徑提升推理能力 圖11ClinicalGPT的訓(xùn)練及對齊流程 圖12商量大醫(yī)模型工作原理和應(yīng)用場景 圖13靈醫(yī)大模型輸入“醫(yī)-患-藥”醫(yī)療健康數(shù)據(jù)和醫(yī)學(xué)圖14靈醫(yī)大模型的商業(yè)化服務(wù)模式 圖15EyeGPT根據(jù)需求輸出研究題目的文章大綱 圖16未來EyeGPT在眼健康智能診斷一體化應(yīng)用示范 圖17騰訊醫(yī)療大模型多輪問詢和智能問診示意圖 59圖18神經(jīng)源性膀胱慢病管埋數(shù)字療法平臺示意圖 圖19運(yùn)動健康助手應(yīng)用架構(gòu)和界面 一、醫(yī)療健康大模型發(fā)展概述(一)醫(yī)療健康大模型的概念和優(yōu)勢人工智能大模型(AI大模型)是“大數(shù)據(jù)+大算力+強(qiáng)算法”結(jié)合的深度神經(jīng)網(wǎng)絡(luò)模型,通過“預(yù)訓(xùn)練+微調(diào)”模式增強(qiáng)了人工智能的通用性、泛化性,帶來人工智能研發(fā)新范式,成為邁向通用人工智能 (ArtificialGeneralIntelligence,AGI)的重要技術(shù)路徑。AI大模型基于海量無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,提升模型前期學(xué)習(xí)的廣度、深度和知識水平,從而能夠低成本、高適應(yīng)性地賦能大模型在后續(xù)下游任務(wù)中的應(yīng)用。當(dāng)模型參數(shù)規(guī)模足夠大時,AI大模型出現(xiàn)“智能涌現(xiàn) (IntelligenceEmerging)",例如“少樣本”或“零樣本”等能力!。因此,基于AI大模型進(jìn)行下游應(yīng)用開發(fā)時,對預(yù)訓(xùn)練好的大模型進(jìn)行領(lǐng)域知識微調(diào)訓(xùn)練(在下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練)或使用提示詞工程,即可高水平地完成多個應(yīng)用場景的任務(wù),實(shí)現(xiàn)通用的智能能力。AI大模型是實(shí)現(xiàn)多種人工智能應(yīng)用的通用載體,或成為未來整個人工智能生態(tài)的核心。醫(yī)療健康大模型是面向復(fù)雜、開放醫(yī)療健康場景的基礎(chǔ)大模型,具有大數(shù)據(jù)、大算力、大參數(shù)等關(guān)鍵要素,呈現(xiàn)涌現(xiàn)能力和良好的泛化性、通用性,可以根據(jù)不同的醫(yī)療健康任務(wù),利用語言、視覺、語音乃至多模態(tài)融合的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行“預(yù)訓(xùn)練-微調(diào)”,從而為醫(yī)療健康領(lǐng)域提供高效、準(zhǔn)確、個性化的服務(wù)和支持。大模型技術(shù)的突破,為醫(yī)療人工智能的發(fā)展注入新動力。相比傳統(tǒng)的執(zhí)行特定任務(wù)的醫(yī)療Al模型,大模型具有如下優(yōu)勢和潛力。一是大模型可應(yīng)用于多個下游任務(wù)。現(xiàn)有醫(yī)療人工智能模型主要采用針對特定任務(wù)的模型開發(fā)方法,在標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練,用于單任務(wù)學(xué)習(xí)。在美國食品和藥品管理局(FDA)批準(zhǔn)的521款臨床醫(yī)療人工智能模型產(chǎn)品中,大多數(shù)僅獲得了1或2個任務(wù)的批準(zhǔn)?。大模型具有較強(qiáng)的泛化能力和上下文學(xué)習(xí)能力,可以靈活、直接地應(yīng)用于多個醫(yī)療任務(wù),而無需特定任務(wù)的訓(xùn)練和標(biāo)注數(shù)據(jù)2.3。二是大模型突破數(shù)據(jù)標(biāo)注的困境。開發(fā)傳統(tǒng)有監(jiān)督的醫(yī)療人工智能模型時,需要大規(guī)模的標(biāo)注數(shù)據(jù)才能形成運(yùn)行良好的模型'。大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集需要醫(yī)療領(lǐng)域?qū)<业膮⑴c,成本高、時間長。大模型利用自監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)方式,在無標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,在一定程度上減輕了標(biāo)注負(fù)擔(dān)和創(chuàng)建大規(guī)模標(biāo)注數(shù)據(jù)集的工作量,也更加適配生物醫(yī)學(xué)、臨床和健康相關(guān)各類數(shù)據(jù)爆炸式增長的時代4。在一些可用數(shù)據(jù)較少的臨床場景,大模型可帶來顯著的人工智能效果三是大模型更加用戶友好和易于使用。大模型具有接受人類的自然語言(漢語、英語等)作為輸入的能力,這使得外行和醫(yī)療專業(yè)人員都能夠方便地訪問大模型,也使得復(fù)雜的醫(yī)療信息更易于訪問和理解3。大模型還提供通過自定義查詢與模型進(jìn)行交互的能力2。在當(dāng)前實(shí)踐中,AI模型通常處理單一任務(wù),并產(chǎn)生預(yù)先確定的輸出(例如,當(dāng)前模型可能會檢測某種特定疾病,輸入一種圖像,并始終輸出該疾病的可能性)。相比之下,大型語言模型具有強(qiáng)大的生成能力,能夠以自然語言的方式進(jìn)行自定義查詢,而不是傳統(tǒng)檢索式的查詢方式,允許用戶提出更加多樣、更加口語化和更加自然的問題,諸如“這張頭部MRI掃描圖中的腫塊更可能是腫瘤還是膿腫?”之類的問題。四是大模型有望支持更加靈活的多種數(shù)據(jù)模態(tài)組合運(yùn)用。一些嚴(yán)格的多模態(tài)模型通常將預(yù)定義的模態(tài)集合作為輸入和輸出(例如,必須始終同時輸入圖像、文本和實(shí)驗(yàn)室結(jié)果)2。相比之下,大模型具有更靈活的多模態(tài)交互方式,有望使用各種數(shù)據(jù)模態(tài)接受輸入和產(chǎn)生輸出(例如,可以接受文本、圖像、實(shí)驗(yàn)室結(jié)果或任何組合),支持用戶自由地組合各種醫(yī)療數(shù)據(jù)模態(tài)類型。五是大模型具有更深入理解醫(yī)學(xué)知識的潛力。與臨床醫(yī)生不同,醫(yī)學(xué)AI模型在接受特定任務(wù)訓(xùn)練之前通常缺乏醫(yī)學(xué)領(lǐng)域知識,必須僅依賴于輸入數(shù)據(jù)特征與預(yù)測目標(biāo)之間的統(tǒng)計關(guān)聯(lián),來推導(dǎo)數(shù)據(jù)關(guān)系。當(dāng)針對特定醫(yī)學(xué)任務(wù)的數(shù)據(jù)很少時,模型表現(xiàn)不佳。而大模型具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更多參數(shù),通過結(jié)合知識圖譜結(jié)構(gòu)、檢索式方法等技術(shù),可以學(xué)習(xí)大量醫(yī)學(xué)知識,更深入、更全面地理解醫(yī)學(xué)概念和它們之間的關(guān)系,檢索上下文中類似案例。這使得大模型能夠推理出以前未見過的任務(wù),并使用醫(yī)學(xué)準(zhǔn)確的語言解釋相關(guān)的輸出2。(二)醫(yī)療健康大模型的生態(tài)架構(gòu)人工智能大模型賦能生命科學(xué)與醫(yī)療領(lǐng)域發(fā)展的生態(tài)架構(gòu)主要由“上游基礎(chǔ)層-中游模型層-下游應(yīng)用層”三層構(gòu)成。鑒于生物數(shù)據(jù)的敏感性和醫(yī)療場景的嚴(yán)肅性,監(jiān)管治埋和安全能力對醫(yī)療健康大模型的負(fù)責(zé)任創(chuàng)新發(fā)展至關(guān)重要,貫穿于行業(yè)發(fā)展各領(lǐng)域和全過程。服務(wù)用戶服務(wù)用戶生物醫(yī)學(xué)科研人員□藥械研發(fā)企業(yè)□醫(yī)療保險企業(yè)應(yīng)用場景常咨詢模型管理維護(hù)數(shù)據(jù)基礎(chǔ)設(shè)施算法研發(fā)監(jiān)管治理政策和法規(guī)驗(yàn)證和測評安全能力通用安全能力特定安全能算力基礎(chǔ)設(shè)施容器/應(yīng)我化技術(shù)□監(jiān)管機(jī)構(gòu)□醫(yī)護(hù)人負(fù)□基礎(chǔ)層模型層應(yīng)用層圖1人工智能大模型+醫(yī)療健康生態(tài)架構(gòu)基礎(chǔ)層提供算力和數(shù)據(jù)支撐資源。基礎(chǔ)層是支撐AI大模型研發(fā)和應(yīng)用落地的必要資源,包括算力基礎(chǔ)設(shè)施和數(shù)據(jù)基礎(chǔ)設(shè)施。其中,算力基礎(chǔ)設(shè)施包括通用計算芯片、AI計算加速芯片、計算服務(wù)器、存儲服務(wù)器、通信網(wǎng)絡(luò)、云服務(wù)、容器/虛擬化等;數(shù)據(jù)基礎(chǔ)設(shè)施涉及數(shù)據(jù)采集和標(biāo)注、生物信息學(xué)數(shù)據(jù)庫、專病數(shù)據(jù)庫、多模態(tài)醫(yī)療數(shù)據(jù)庫資源等。模型層形成大模型研發(fā)、管理和運(yùn)維體系。模型研發(fā)是在算法研發(fā)所需的編程環(huán)境(語言)、算法框架、開發(fā)平臺和工具等基礎(chǔ)上,研發(fā)產(chǎn)出大型語言模型、視覺大模型、圖學(xué)習(xí)大模型、語言條件多智體大模型、多模態(tài)大模型以及生物計算大模型等,完成生物醫(yī)學(xué)自然語言處理、生物醫(yī)學(xué)圖像識別、生物醫(yī)學(xué)語音語義識別、生物分子設(shè)計等任務(wù)。模型管理和運(yùn)維主要包括系統(tǒng)管理、接口管理、數(shù)據(jù)處理等。應(yīng)用層實(shí)現(xiàn)藥、械、醫(yī)、健多場景觸達(dá)用戶。大模型首先賦能生命科學(xué)和藥械研發(fā),相關(guān)應(yīng)用起步早、發(fā)展快、成果較為突出。同時,大模型在醫(yī)學(xué)影像、醫(yī)療問答和智能問診、輔助診療和臨床決策支持、醫(yī)學(xué)信息提取和生成、行政流程優(yōu)化、個人健康管理、醫(yī)保商保、醫(yī)學(xué)教育等方面的應(yīng)用價值日益凸顯,場景探索加速。大模型技術(shù)有望為生命科學(xué)與醫(yī)療行業(yè)多個環(huán)節(jié)帶來更加精確、高效、人性化的服務(wù),提升整個生態(tài)系統(tǒng)的質(zhì)量和效率。(一)大模型響應(yīng)生物大數(shù)據(jù)時代的數(shù)據(jù)特征和應(yīng)用1.大模型特點(diǎn)突出,賦能通用醫(yī)療人工智能發(fā)展大模型具有大參數(shù)、大數(shù)據(jù)、范式靈活、策略高效等特點(diǎn)。大模型是一種利用海量、多元化數(shù)據(jù)預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型,能夠在不同任務(wù)中實(shí)現(xiàn)信息生成和推理等能力,具有涌現(xiàn)能力和較強(qiáng)的泛化性、通用性、實(shí)用性,在醫(yī)療、交通、金融等眾多垂直行業(yè)場景上,初步展現(xiàn)了驚艷的性能表現(xiàn)和巨大的發(fā)展?jié)摿Α4竽P屯ǔ;赥ransformer等主流架構(gòu),通過自注意力機(jī)制和并行計算提高性能和泛化能力。大模型的主要特點(diǎn)有:1)參數(shù)規(guī)模巨大,從數(shù)億到百萬億不等;2)數(shù)據(jù)量龐大,無標(biāo)簽數(shù)據(jù)用于預(yù)訓(xùn)練,數(shù)據(jù)規(guī)??蛇_(dá)數(shù)億至萬億Token;3)范式靈活,先用無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練,再微調(diào)和適應(yīng)各種下游任務(wù);4)學(xué)習(xí)策略高效,能夠在零樣本、單樣本或少樣本的情況下,提取、總結(jié)、翻譯和生成文本信息,甚至支持推理。大模型有望成為通用醫(yī)療人工智能的核心技術(shù)和基礎(chǔ)設(shè)施。大模型具有高度靈活、可重復(fù)使用的技術(shù)特點(diǎn),為通用醫(yī)療人工智能 (GeneralistMedicalArtificialIntelligence,GMAI)2提供了新的可能性。傳統(tǒng)醫(yī)療人工智能模型是為解決特定任務(wù)而設(shè)計、訓(xùn)練的,依賴大量的有特異性注釋和標(biāo)簽的數(shù)據(jù)集進(jìn)行專門的訓(xùn)練,這種狹隘的、針對特定任務(wù)的方法使得模型僵化,只能適用于執(zhí)行訓(xùn)練數(shù)據(jù)集和其標(biāo)簽預(yù)定義的任務(wù)。作為對比,大模型這一人工智能新多樣化的無標(biāo)簽數(shù)據(jù)集上進(jìn)行自我監(jiān)督學(xué)習(xí)而構(gòu)建的,可應(yīng)用于眾多下游任務(wù)。多模態(tài)架構(gòu)、自監(jiān)督學(xué)習(xí)技術(shù)以及模型的上下文學(xué)習(xí)能力療健康大模型有望靈活地解釋不同的醫(yī)學(xué)模態(tài)組合,包括來自成像、電子健康記錄、實(shí)驗(yàn)室結(jié)果、基因組學(xué)、圖表或醫(yī)學(xué)文本的數(shù)據(jù),并將產(chǎn)生表達(dá)能力更強(qiáng)的輸出,例如自由文本解釋、口頭建議或圖像注釋,展示高級醫(yī)學(xué)推理能力。2.大模型引領(lǐng)智能時代人工智能開發(fā)新范式新變革人工智能技術(shù)不斷演進(jìn),進(jìn)入數(shù)據(jù)驅(qū)動的新發(fā)展階段。人工智能經(jīng)歷了漫長的孕育期,最早可追溯到亞里士多德的演繹邏輯,并隨著人類對智能的認(rèn)識不斷深入而不斷進(jìn)化。1943年,麥卡洛克和皮茨研制出世界上第一個人工神經(jīng)網(wǎng)絡(luò)模型(MP模型),開創(chuàng)了以仿生學(xué)觀點(diǎn)和結(jié)構(gòu)化方法模擬人類智能的途徑;1948年,美國數(shù)學(xué)家威納創(chuàng)立了控制論;1950年,圖靈明確提出“機(jī)器能思維”的觀點(diǎn);1956年,人工智能的發(fā)展進(jìn)入到了第一個小高潮時期;隨后,歷經(jīng)瓦普尼克、沃伯斯等人的努力,多層感知機(jī)(MLP)和反向傳播算法逐漸成熟并得到廣泛應(yīng)用;1980年,機(jī)器學(xué)習(xí)成為人工智能發(fā)展的獨(dú)立分支,從數(shù)據(jù)中獲取經(jīng)驗(yàn),打破了基于規(guī)則建模的困境;2006年,辛頓正式提出了深度學(xué)習(xí)的概念,人工智能進(jìn)入了第二個小高潮時期,針對特定應(yīng)用場景專門訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),即小模型,開始不斷涌知識、數(shù)據(jù)、算法和算力等關(guān)鍵要素快速發(fā)展,催生出知識、數(shù)據(jù)、算法和算力等關(guān)鍵要素快速發(fā)展,催生出“大模型”人工智能新范式大數(shù)據(jù)時期從學(xué)派分立走向綜合·滿繹法(亞里士多德)提出(1956麥卡錫)·數(shù)理邏輯(萊布尼茨)·感知機(jī)(1958羅森·圖靈機(jī)模型(1936圖靈)布拉特)·MP模型(1943麥卡洛克和皮茨)·通用電子計算機(jī)(1946莫克利)·控制論(1948威納》·機(jī)器能思維(1950圖靈)知識應(yīng)用期1981杜達(dá))·知識工程系統(tǒng)(1977費(fèi)根鮑姆)霍普菲爾特)·BP網(wǎng)絡(luò)(1986魯梅爾哈特)·三派分立(專家系統(tǒng)為標(biāo)志為土義學(xué)派)·深度學(xué)習(xí)(2006辛領(lǐng))·Transformer架構(gòu)(2017谷歌)·BERT模型(2018谷歌)·ViT模型(2020谷歌)以深度學(xué)習(xí)為代表的人工智能,本質(zhì)上是一種數(shù)據(jù)驅(qū)動的智能,首先進(jìn)行模型訓(xùn)練,從大量的數(shù)據(jù)中“學(xué)習(xí)”出一些規(guī)則而生成一個模型;然后進(jìn)行模型推理,運(yùn)用這些規(guī)則來解決實(shí)際問題。生物進(jìn)化是多層次上經(jīng)歷自然選擇的結(jié)果,包括基因序列、蛋白質(zhì)序列、蛋白質(zhì)互相作用等層面,這些結(jié)果并不隨機(jī),而是蘊(yùn)含一定的規(guī)律規(guī)則。通過使用包含生物信息的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,大模型能夠分析生物進(jìn)化的特點(diǎn)和規(guī)律,在一定程度上模擬生物進(jìn)化的過程,進(jìn)而具備預(yù)測能力,加快生命現(xiàn)象和生命活動規(guī)律的研究及發(fā)現(xiàn),助力生物基礎(chǔ)科研和醫(yī)療技術(shù)水平的提升。數(shù)據(jù)的爆炸式增長對人工智能技術(shù)能力提出新需求。隨著知識、數(shù)據(jù)、算法和算力等關(guān)鍵要素的快速發(fā)展,大數(shù)據(jù)時代出現(xiàn)了數(shù)據(jù)量巨大、類型多樣、價值稀疏、時效性高等特征,給人工智能的發(fā)展帶小模型在特定任務(wù)下的性能和泛化能力;另一方面,傳統(tǒng)深度學(xué)習(xí)方法,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等,難以存儲和有效利用數(shù)據(jù)知識?!按髷?shù)據(jù)+大算力+大參數(shù)”模型作為一種解決方案乘勢而上,悄然醞釀著人工智能在新時代的范式轉(zhuǎn)變。在生命科學(xué)與醫(yī)療領(lǐng)域,生物數(shù)據(jù)的復(fù)雜性、多樣性和海量性,患者數(shù)據(jù)的敏感性和隱私性,以及科學(xué)研究和臨床應(yīng)用對準(zhǔn)確性和可靠性的高標(biāo)準(zhǔn),更使得傳統(tǒng)的深度學(xué)習(xí)方法難以滿足行業(yè)數(shù)字化和智能化發(fā)展的需3.Transformer架構(gòu)奠定大模型主流算法架構(gòu)基礎(chǔ)Transformer引入注意力機(jī)制,提高了深度學(xué)習(xí)模型的性能和效RNN和CNN的處理結(jié)構(gòu),而是利用自注意力(Self-Attention)機(jī)制來得到輸入和輸出之間的全局依賴關(guān)系,能夠捕捉到長距離的依賴關(guān)系和上下文信息,具備并行性、靈活性和可拓展性等優(yōu)點(diǎn)?。Transformer架構(gòu)引入了并行化,可以結(jié)合圖形處理單元(GPU)或張量處理單元(TPU)在大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而提高了計算效率?;赥ransformer的模型具有多用途,不局限于單一模態(tài)(文靈活地進(jìn)行數(shù)據(jù)融合和交互。Transformer架構(gòu)同樣具備良好的可拓展性,可以通過增加參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)規(guī)模,來提升模型的性能和Transformer架構(gòu)為醫(yī)療健康大模型的發(fā)展提供了強(qiáng)大基礎(chǔ)和支撐。2018年,谷歌提出了基于Transformer的雙向編碼器表示模型(BERT),它是第一個基于Transformer架構(gòu)的大模型,在11個自然語言理解任務(wù)上取得了當(dāng)時最好的結(jié)果?,引發(fā)了基于Transformer的大模型研究和應(yīng)用熱潮。同樣在2018年,OpenAI提出了基于Transformer的生成式預(yù)訓(xùn)練模型(GPT)?。2020年,谷歌進(jìn)一步提出了VisionTransformer(ViT),打通了自然語言處理和計算機(jī)視覺之動了人工智能領(lǐng)域從深度學(xué)習(xí)向大模型的范式轉(zhuǎn)移。當(dāng)前,醫(yī)療健康大模型主要都是基于Transformer架構(gòu)或者混合了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型?;赥ransformer架構(gòu)的大模型,型,可以通過微調(diào)、領(lǐng)域適應(yīng)或領(lǐng)域重訓(xùn)來提高在生物醫(yī)學(xué)任務(wù)上的seq數(shù)據(jù)集和中文臨床自然語言文本語料庫,進(jìn)行預(yù)訓(xùn)練而得到的生物醫(yī)學(xué)大模型。此外,結(jié)合了Transformer架構(gòu)的大模型也在不斷發(fā)展。例如,麻省理工學(xué)院提出了一種靈活的基于語言模型的深度學(xué)習(xí)策略以更好地理解和設(shè)計蛋白質(zhì),將Transformer與圖神經(jīng)網(wǎng)絡(luò)結(jié)合起來構(gòu)建了生成式預(yù)訓(xùn)練模型,可以用于預(yù)測蛋白質(zhì)的二級結(jié)構(gòu)含量、(二)多類型基礎(chǔ)模型為醫(yī)療健康大模型提供堅實(shí)源生命科學(xué)與醫(yī)療領(lǐng)域涵蓋醫(yī)學(xué)文本、醫(yī)學(xué)圖像、生命組學(xué)、蛋白質(zhì)工程等多種數(shù)據(jù)模態(tài)?;诓煌A(yù)訓(xùn)練數(shù)據(jù)模態(tài)的基座模型快速發(fā)展,可完成自然語言處理、計算機(jī)視覺、圖學(xué)習(xí)等多種任務(wù),有效地例如,大型語言模型(Large-scalelanguagemodels,LLMs)可以用于生成醫(yī)學(xué)文本、回答醫(yī)學(xué)問題、提供醫(yī)學(xué)建議等;視覺大模型(Large-scalevisionmodels,LVMs)和視覺-語言大模型(Large-scalevisionlanguagemodels,VLMs)可以用于識別醫(yī)學(xué)圖像、生成圖像注釋、合可以用于預(yù)測蛋白質(zhì)結(jié)構(gòu)、設(shè)計藥物、分析基因組等;語言條件多智LLMMs)可以用于實(shí)現(xiàn)遠(yuǎn)程會診、智能導(dǎo)診、醫(yī)療機(jī)器人等;多模態(tài)大模型(Large-scalemultimodalmodels,LMMs)可以用于融合多種醫(yī)學(xué)數(shù)據(jù)、挖掘數(shù)據(jù)價值、輔助診斷等。大模型的融合應(yīng)用有望提升醫(yī)療產(chǎn)品創(chuàng)新能力和醫(yī)療健康服務(wù)水平,也將進(jìn)一步推動人工智能技術(shù)的迭代進(jìn)步和工程化落地。r語言條模型模型大模型來源:中國信息通信研究院1.大型語言模型大型語言模型是當(dāng)前醫(yī)療健康大模型中數(shù)量最多、最為活躍的模型類型。大型語言模型在語言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并應(yīng)用于語言下游任務(wù)。不同環(huán)境下的語言可以有不同的解釋,如蛋白質(zhì)是生命的語言,代碼是計算機(jī)的語言。大型語言模型能通過自監(jiān)督學(xué)習(xí),從大量未標(biāo)記數(shù)據(jù)中提取有用的語義特征和模式,隨后通過微調(diào)生成符合人類期望的響應(yīng)。大型語言模型通?;赥ransformer架構(gòu)打造。Transformer可以分為編碼器和解碼器兩部分,編碼器提取輸入序列的語義表示,大多用于“翻譯”;解碼器根據(jù)編碼器的輸出生成目標(biāo)序列,大多用于“生成”。大型語言模型根據(jù)模型架構(gòu)和執(zhí)行的任務(wù)類型分為三個類別:第一類是純編碼器模型,如BERT及其變體。BERT主要利用雙向編碼器來捕捉語言中的雙向上下文信息,并利用Transformer編碼器來提取深層的語義表示,從而將輸入文本轉(zhuǎn)換為一系列隱藏狀態(tài)或特征向量。這些特征向量可以用于各種下游任務(wù),如文本分類、命名實(shí)體識別、關(guān)系抽取等。純編碼器模型通常使用掩碼語言建模 (MLM)或下一個句子預(yù)測(NSP)等無監(jiān)督或自監(jiān)督的目標(biāo)進(jìn)行預(yù)訓(xùn)練。第二類是純解碼器模型,如GPT系列。GPT是一種基于Transformer的生成式預(yù)訓(xùn)練語言模型,主要利用自回歸模型來捕捉語言中的上下文信息,并利用Transformer解碼器來提取深層的語義特征,從而實(shí)現(xiàn)高質(zhì)量的文本生成,可以用于文本生成、摘要、翻譯等任務(wù)。純解碼器模型通常使用下一個標(biāo)記預(yù)測(NTP)或置換語言建模(PLM)等自回歸或自監(jiān)督的目標(biāo)進(jìn)行預(yù)訓(xùn)練。第三類是編碼器-解碼器模型,如文本到文本傳輸轉(zhuǎn)換器(T5)和雙向自回歸轉(zhuǎn)換器(BART)。編碼器-解碼器模型通常使用序列到序列(Seq2Seq)或去噪自編碼(DAE)等自監(jiān)督或半監(jiān)督的目標(biāo)進(jìn)行預(yù)訓(xùn)練。醫(yī)療健康大型語言模型是基于通用大型語言模型的領(lǐng)域增強(qiáng)模型。為了提高大型語言模型在醫(yī)療健康領(lǐng)域的專業(yè)性和可靠性,通常需要在GPT、BERT、T5等大型語言模型基礎(chǔ)上,利用基因或蛋白質(zhì)序列信息、醫(yī)學(xué)文本數(shù)據(jù)或脫敏后的患者全記錄周期內(nèi)的醫(yī)療代碼序列,進(jìn)行再訓(xùn)練或微調(diào),以適應(yīng)特定領(lǐng)域或任務(wù)的需求。例如,分別基于HealthCareMagic網(wǎng)站的醫(yī)患對話、PubMeCentral(PMC)全文、MIMIC-IⅡ物醫(yī)學(xué)大型語言模型已經(jīng)在生物醫(yī)學(xué)文本挖掘與知識發(fā)現(xiàn)、醫(yī)學(xué)對話系統(tǒng)、生物與化學(xué)序列等場景中展現(xiàn)出強(qiáng)大的應(yīng)用能力。2.視覺大模型和視覺-語言大模型醫(yī)療健康視覺大模型快速發(fā)展,模型架構(gòu)和性能有待持續(xù)探索和優(yōu)化。自然語言處理領(lǐng)域Transformer架構(gòu)的突破,帶動了視覺領(lǐng)域大模型的新發(fā)展。視覺大模型在視覺數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練并應(yīng)用于視覺 (ViT)架構(gòu),采用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)范式進(jìn)行預(yù)訓(xùn)練4。ViT是一種基于Transformer架構(gòu)的純視覺模型,借鑒了自然語言處理中的通過將圖片信息切割成patch并進(jìn)行線性映射,將圖像轉(zhuǎn)換為序列輸入,從而可以使用Transformer進(jìn)行編碼和解碼。ViT在醫(yī)療健康領(lǐng)域應(yīng)用優(yōu)勢突出,能夠通過注意力機(jī)制有效地學(xué)習(xí)長期依賴關(guān)系,有效地整合多種醫(yī)學(xué)模態(tài),并通過多頭注意力結(jié)構(gòu)提供更可解釋的模型,相較傳統(tǒng)的CNN更加高效、更接近人類感知。整合語言和視覺數(shù)據(jù)的醫(yī)療實(shí)際需求,催生出醫(yī)療健康視覺-語言大模型。視覺-語言醫(yī)療健康大模型可以結(jié)合視覺數(shù)據(jù)(如圖像或視頻)處理和生成自然語言文本,利用大量的圖像-文本對進(jìn)行預(yù)訓(xùn)練,從而學(xué)習(xí)到視覺和語言之間的對齊和關(guān)聯(lián),實(shí)現(xiàn)多種跨模態(tài)的任務(wù),如圖像-文本生成、檢索、分類、標(biāo)注等。在醫(yī)療健康場景中,視覺-語言醫(yī)療健康大模型可以自動生成醫(yī)學(xué)報告、對醫(yī)學(xué)圖像和視頻進(jìn)行標(biāo)注和解釋、通過分析視覺信息輔助臨床決策等,為智慧醫(yī)療發(fā)展提供底層支撐,有望用于個性化預(yù)測和早期干預(yù)、患者遠(yuǎn)程監(jiān)測、疾病診斷等方面。目前,典型的視覺-語言大模型DALL-E、CLIP、ALIGN和Flamingo等在醫(yī)療領(lǐng)域的應(yīng)用探索加快,也已涌現(xiàn)出MedViLL、PubMedCLIP、ConVIRT、Med-Flamingol3、PLIP等針對醫(yī)療健康領(lǐng)域的視覺-語言大模型。LLaVA-Med模型由微軟推出,是一種基于GPT-4的視覺-語言對話助手,LLaVA-Med利用從PubMedCentral提取的大規(guī)模、廣覆蓋的生物醫(yī)學(xué)圖題(figure-caption)數(shù)據(jù)集(包括胸部X光、MRI、組織學(xué)、病理學(xué)和CT圖像等)進(jìn)行預(yù)訓(xùn)練,使用GPT-4從圖題中自我指導(dǎo)生成開放性指并使用一種創(chuàng)新性的分階段學(xué)習(xí)方法(anovelcurriculumlearningmethod)對通用領(lǐng)域的視覺-語言大模型進(jìn)行微調(diào)。具體來說,該生物醫(yī)學(xué)詞匯,然后使用GPT-4生成的指令跟隨數(shù)LLaVA-Med具有較強(qiáng)的多模態(tài)對話能力,可根據(jù)CT、X光圖片等推測出患者病理狀況,并生成有關(guān)圖像的問答。LLaVA-Med不僅可以提高疾病檢測效率以及醫(yī)學(xué)影像領(lǐng)域的智能化分析,還可以以自然語言回答用戶有關(guān)生物醫(yī)醫(yī)學(xué)概念對齊醫(yī)學(xué)概念對齊醫(yī)學(xué)指令調(diào)整□醫(yī)學(xué)視覺對話口醫(yī)學(xué)視覺問答(VQA)圖4LLaVA-Med的預(yù)訓(xùn)練和微調(diào)流程3.圖學(xué)習(xí)大模型圖學(xué)習(xí)大模型可以有效應(yīng)對生物序列數(shù)據(jù)的復(fù)雜性。生物測序數(shù)據(jù),如蛋白質(zhì)和藥物分子序列,具有復(fù)雜的結(jié)構(gòu)和關(guān)系,傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以有效地處理和生成此類數(shù)據(jù)。圖學(xué)習(xí)大模型利用圖神經(jīng)網(wǎng)絡(luò)(GNN)等圖學(xué)習(xí)技術(shù),將生物序列數(shù)據(jù)表示為圖形,并通過圖形算法進(jìn)行分析和推理,在生物計算和藥物研發(fā)領(lǐng)域有著重要的應(yīng)用價值。GraphTransformer是一種基于Transformer架構(gòu)的圖學(xué)習(xí)大模型,引入了注意力機(jī)制,能有效地學(xué)習(xí)長期依賴關(guān)系,并且能夠與頻域信息相結(jié)合,以提高表達(dá)能力。GraphTransformer有三種架構(gòu):1)在GNN上加入transformerblocks;2)交替使用GNNblocks和通用GraphTransformer包含三個要素16:位置/結(jié)構(gòu)編碼、局部消息傳遞機(jī)制和全局注意力機(jī)制。近年來,將結(jié)構(gòu)編碼納入模型中成為一個熱點(diǎn)研究方向,涌現(xiàn)出SAT和GraphiT典型案例。圖學(xué)習(xí)模型可實(shí)現(xiàn)生物分子結(jié)構(gòu)、藥物-靶點(diǎn)相互作用分析等多種功能。蛋白質(zhì)序列與自然語言存在相似之處,也存在一定差異,將圖學(xué)習(xí)模型引入蛋白質(zhì)、藥物分子相關(guān)任務(wù),可以預(yù)測蛋白質(zhì)功能、評估蛋白質(zhì)質(zhì)量、預(yù)測蛋白質(zhì)-配體結(jié)合位點(diǎn)和蛋白質(zhì)-DNA結(jié)合位點(diǎn)、預(yù)測藥物-靶點(diǎn)相互作用等。例如,ADesign針對從3D結(jié)構(gòu)預(yù)測蛋白質(zhì)序列問題,使用簡化的圖形Transformer編碼器(SGT)和置信感知蛋白質(zhì)解碼器(CPD),提高蛋白質(zhì)設(shè)計效率17。MHTAN-DTI是一種基于Transformer和層次圖注意力網(wǎng)絡(luò)的藥物-靶點(diǎn)相互作用預(yù)測模型18,可用于發(fā)現(xiàn)作用于特定蛋白質(zhì)的潛在藥物,助力藥物重定位、紡物副作用預(yù)測、多重藥理學(xué)和耐藥性的研究。4.語言條件多智能體大模型語言條件多智能體模型有望成為未來醫(yī)療機(jī)器人的心臟和基石。語言條件多智能體模型是一種利用語言作為多個大模型之間的中介接口的新技術(shù),可以將不同類型和領(lǐng)域的大模型串聯(lián)起來,形成一個強(qiáng)大的智能體,能夠完成單個模型難以完成的任務(wù),代表性案例有能體模型可能使用包括大型語言模型、視覺-語言模型、音頻-語言模型、視覺-導(dǎo)航模型等不同的基礎(chǔ)大模型,來執(zhí)行更復(fù)雜和多模態(tài)的任務(wù),如人機(jī)對話或多方協(xié)作等。例如,基于語言條件多智能體模型打造的虛擬醫(yī)療助理和手術(shù)機(jī)器人對真實(shí)世界理解、交互能力將顯著提升,前者可以用來與患者進(jìn)行遠(yuǎn)程交流、診斷、預(yù)約、檢查、治療等,后者可以用來接收和解釋醫(yī)生的指令、處理和生成手術(shù)圖像和聲音、控制機(jī)械臂進(jìn)行手術(shù)操作等。未來,醫(yī)療健康語言條件多智能體大模型可以更自然、更智能、更靈活地與人類醫(yī)生和患者溝通協(xié)作,提高醫(yī)療質(zhì)量和效率,降低醫(yī)療成本和風(fēng)險;也可以利用醫(yī)療大數(shù)據(jù),從海量的醫(yī)學(xué)文獻(xiàn)、圖像、視頻等數(shù)據(jù)中學(xué)習(xí)新知識新技能,為醫(yī)學(xué)創(chuàng)新和發(fā)現(xiàn)提供支持;還可以根據(jù)不同的場景和需求,動態(tài)地調(diào)整自己的行為和策略,以適應(yīng)復(fù)雜和不斷變化的醫(yī)療環(huán)境。5.多模態(tài)大模型多模態(tài)大模型綜合分析各種類型的醫(yī)學(xué)數(shù)據(jù),實(shí)現(xiàn)架構(gòu)、模態(tài)、任務(wù)統(tǒng)一。多模態(tài)大模型在多種模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并應(yīng)用于各種單模態(tài)或多模態(tài)下游任務(wù)。隨著醫(yī)療信息化的快速發(fā)展以及醫(yī)療設(shè)備的更新迭代,海量且類型多樣的醫(yī)學(xué)數(shù)據(jù)應(yīng)運(yùn)而生,涵蓋臨床文本、影像和波形、音頻、視頻、生物組學(xué)數(shù)據(jù)等多種類型。醫(yī)療多模態(tài)大模型能夠融合和分析各種類型的醫(yī)學(xué)數(shù)據(jù),將多模態(tài)任務(wù)表達(dá)為序列到序列生成的形式,結(jié)合任務(wù)特定的指令在經(jīng)典的Transformer架構(gòu)中實(shí)現(xiàn)架構(gòu)統(tǒng)一、模態(tài)統(tǒng)一和任務(wù)統(tǒng)一。架構(gòu)統(tǒng)一是指預(yù)訓(xùn)練和微調(diào)使用同一Transformer編碼-解碼器;模態(tài)統(tǒng)一是指將自然語言處理、計算機(jī)視覺和多模態(tài)任務(wù)統(tǒng)一到同一框架和訓(xùn)練范式中;任務(wù)統(tǒng)一是指將任務(wù)統(tǒng)一表達(dá)成序列到序列的形式,預(yù)訓(xùn)練和微調(diào)均使用生成范式進(jìn)行訓(xùn)練,模型可以同時學(xué)習(xí)多任務(wù),讓一個模型通過一次預(yù)訓(xùn)練即可獲得多種能力,包括文本生成、圖像生成、跨模態(tài)理解等。多模態(tài)大模型提升醫(yī)療診斷準(zhǔn)確性,是實(shí)現(xiàn)臨床落地和智能化價值的關(guān)鍵。獲取患者相關(guān)數(shù)據(jù)的每類方式均為一種數(shù)據(jù)模態(tài),不同模態(tài)的醫(yī)學(xué)數(shù)據(jù)都從特定的角度提供了患者的診療信息,信息間既有重疊又有互補(bǔ)。以往單模態(tài)的模型只能分析疾病某一層面的信息,具有較大局限性,極大限制了人工智能的醫(yī)療應(yīng)用,而多模態(tài)大模型結(jié)合多種模態(tài)的醫(yī)學(xué)信息,進(jìn)一步提高了診斷治療的準(zhǔn)確性,是人工智能診療產(chǎn)品臨床落地的關(guān)鍵。目前國內(nèi)外涌現(xiàn)多個醫(yī)療多模態(tài)大模型案例,服務(wù)于患者診斷、手術(shù)導(dǎo)航、康復(fù)訓(xùn)練、影像報告生成等場景。案例:Med-PaLMMl?Med-PaLM-M由谷歌Research和DeepMind團(tuán)隊共同研發(fā),是一務(wù)多模態(tài)的通用生物醫(yī)學(xué)大模型,可以處理包括臨床文本、醫(yī)學(xué)圖像和基因組學(xué)數(shù)據(jù)在內(nèi)的多種醫(yī)療健康數(shù)據(jù)。Med-PaLMM基于PaLM-E多模態(tài)模型構(gòu)建,通過指令微調(diào)和生物醫(yī)學(xué)領(lǐng)域?qū)R,在MultiMedBench上進(jìn)行了訓(xùn)練;還在通用領(lǐng)域語料庫(英語Wikipedia和BooksCorpus)上進(jìn)行了預(yù)訓(xùn)練,學(xué)習(xí)了跨模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)和知識PaLM-E是谷歌于2023年發(fā)布的迄今最大的多模態(tài)具身視覺語言大模型20,擁有5620億個參數(shù),在需要多模態(tài)理解和推理的零樣本任務(wù)上表現(xiàn)良PaLM-E使用不同的編碼器將來自不同模態(tài)的信息映射到語言嵌入空間,然后將這些模態(tài)、狀態(tài)向量整合到一個大型語言模型中。主要括2D圖像(使用ViT進(jìn)行編碼)以及3D感知信息人控制規(guī)劃、視覺問答、圖像描述、知識獲取等多模態(tài)理解和推理任務(wù)上都取得了最先進(jìn)的結(jié)果。MultiMedBench是谷歌自建的多模態(tài)醫(yī)學(xué)測試基準(zhǔn)。該基準(zhǔn)由12數(shù)據(jù)集和14個單獨(dú)的任務(wù)組成,用于測量通用生物醫(yī)學(xué)AI執(zhí)行各種臨床任務(wù)的能力。其中12個數(shù)據(jù)集共包含了六種生物醫(yī)學(xué)數(shù)據(jù)模式(文本、放射學(xué)(CTMRI和X光)、病理學(xué)、皮膚病學(xué)、乳房X光檢查和基因組學(xué)),14則涵蓋五種類型(問題回答、報告生成和摘要、視覺問題回答、醫(yī)學(xué)圖像分類和基因組變異識別)。Med-PaLM-M在14個不同的醫(yī)療任務(wù)上接近或超過了現(xiàn)有的最型,包括醫(yī)療問答、影像分類、基因預(yù)測等。Med-PaLM-M為醫(yī)療領(lǐng)域提供了強(qiáng)大、靈活的生成模型,可處理多種數(shù)據(jù)類型和任務(wù),促進(jìn)醫(yī)療知識的發(fā)現(xiàn)和應(yīng)用。Med-PaLM-M能靈活地編碼和解釋多模態(tài)的生物醫(yī)學(xué)數(shù)據(jù),并且具備僅使用基于語言的指令和提示就能準(zhǔn)確識別和描述未見過的圖像中的醫(yī)療狀況的能力。醫(yī)學(xué)問答基因組學(xué)醫(yī)學(xué)視覺問答放射影像放射報告總結(jié)放射報告生成放射學(xué)報告醫(yī)學(xué)知識病理學(xué)基因變體識別醫(yī)學(xué)圖像分類(三)四種范式助力大模型在醫(yī)療健康垂直領(lǐng)域的應(yīng)用實(shí)踐目前,有多種策略可使通用基礎(chǔ)模型適應(yīng)生命科學(xué)與醫(yī)療健康領(lǐng)域的特定任務(wù)??傮w而言,在生命科學(xué)與醫(yī)療領(lǐng)域應(yīng)用大模型主要有四種技術(shù)范式2”,由難到易分別從頭開始預(yù)訓(xùn)練、繼續(xù)訓(xùn)練通用大模型、各種指令/任務(wù)微調(diào)和提示工程。當(dāng)有大量數(shù)據(jù)、計算資源和專業(yè)知識時,可以通過從頭開始或繼續(xù)訓(xùn)練通用大模型,來開發(fā)生命科學(xué)與醫(yī)療健康領(lǐng)域特定模型,但成本相對昂貴。各種指令/任務(wù)微調(diào)和提示工程更具成本效益。不同范式可以單獨(dú)或組合使用,以滿足生命科學(xué)與醫(yī)療健康場景需求。在大型生物醫(yī)學(xué)語料庫上用隨機(jī)初始化的參數(shù)預(yù)訓(xùn)練語言大模型,使用填充或自回歸語言模型的訓(xùn)練目標(biāo)典型案例:通過設(shè)計和構(gòu)建輸入提示來控制大型語言模型的輸出,從而提高生成文本的準(zhǔn)確性和可靠性。提示工程有兩種主要的技術(shù):硬提示和軟提示特定任務(wù)的微調(diào)(fine-tuning),常用于為特定下tuning)或和人類反饋強(qiáng)化從現(xiàn)有通用語言模型的然后在生物醫(yī)學(xué)語料庫上進(jìn)一步預(yù)訓(xùn)練該橫型,以達(dá)到填充或自回歸語言模型的訓(xùn)難度來源:中國信息通信研究院1.從頭開始的預(yù)訓(xùn)練從頭開始進(jìn)行預(yù)訓(xùn)練是創(chuàng)建醫(yī)療健康大模型的最具挑戰(zhàn)性的范式。這種范式不依賴于通用領(lǐng)域的預(yù)訓(xùn)練模型,而是直接在大型生物醫(yī)學(xué)數(shù)據(jù)庫上用隨機(jī)初始化的參數(shù)預(yù)訓(xùn)練大模型,這樣可以避免領(lǐng)域不匹配的問題,提高模型在下游任務(wù)上的泛化能力。同時它可以根據(jù)不同的任務(wù)需求,選擇不同的預(yù)訓(xùn)練目標(biāo)和策略,例如使用掩碼語言模型(MLM)或自回歸語言模型(ARLM)作為訓(xùn)練目標(biāo),使用課程學(xué)習(xí)或?qū)Ρ葘W(xué)習(xí)等方法進(jìn)行優(yōu)化。典型的大模型案例有生物醫(yī)學(xué)文本生成和挖掘類模型BioMedLM(以前被稱為PubMedGPT)以及臨床語言模型GatorTron22。案例:GatorTron23GatorTron由佛羅里達(dá)大學(xué)(UF)與英偉達(dá)的研究人員合作開發(fā),是一種經(jīng)過電子健康記錄中超過900億字文本訓(xùn)練的大型語言模型,可以快速準(zhǔn)確地從大量臨床數(shù)據(jù)中提取見解來加速醫(yī)學(xué)研究和支持醫(yī)療決臨床語言大模型GatorTron在UFhealth臨床筆記(超過820億字文本),PubMed文章(60億字文本)、維基百科(25億字文本)和MIMIC-IⅢ(5億字文本)的大型數(shù)據(jù)集上進(jìn)行了訓(xùn)練。UFHealth臨床數(shù)據(jù)集收集了2011-2021年超過126個科室的臨床筆記,大約200萬患者的5000萬次住院、門診和急診環(huán)境下的就診記錄。MIMIC數(shù)據(jù)庫(MedicalInformationMartforIntensiveCare)是麻省理工學(xué)院(MIT)下屬管理的一個大型、單中心、可供自由使用的公共臨床數(shù)據(jù),MIMIC-IIIv1.4版由2001年~I(xiàn)sraelDeaconess醫(yī)療中心重癥監(jiān)護(hù)室中住院的4萬多病人的200萬條臨床記研究人員在五個臨床自然語言處理任務(wù)(臨床概念識別)、醫(yī)療關(guān)系提取、語義文本相似性、自然語言推理和醫(yī)學(xué)問答)上評估了GatorTron模型,并發(fā)現(xiàn)其性能優(yōu)于現(xiàn)有的生物醫(yī)學(xué)和臨床筆記訓(xùn)練的Transformer模型。具有更多參數(shù)的較大模型會比相對較小的文本Fin-tuningGatorTron文本MIMIC- 圖7GatorTron模型的預(yù)訓(xùn)練和微調(diào)過程2.繼續(xù)訓(xùn)練通用大模型繼續(xù)訓(xùn)練通用大模型是一種兼顧了時間、成本和多功能性的技術(shù)范式。該范式充分利用現(xiàn)有通用基礎(chǔ)模型的知識和能力,從現(xiàn)有通用語言模型的checkpoints初始化模型參數(shù),然后在生物醫(yī)學(xué)數(shù)據(jù)庫上進(jìn)一步預(yù)訓(xùn)練,以達(dá)到掩碼語言模型或自回歸語言模型的訓(xùn)練目標(biāo)。這種策略可以利用通用基礎(chǔ)模型已經(jīng)學(xué)習(xí)到的通用知識和能力,同時在特定領(lǐng)域的數(shù)據(jù)上進(jìn)行適應(yīng)、優(yōu)化和增強(qiáng),提高模型的性能和泛化能力。繼續(xù)訓(xùn)練通用大模型可以節(jié)省預(yù)訓(xùn)練的時間和成本,同時保留通用基礎(chǔ)模型的多功能性,可以實(shí)現(xiàn)多種功能,例如文本生成、文本理解、文本分類、文本檢索、文本摘要等,為生命科學(xué)與醫(yī)療領(lǐng)域提供多樣化的服務(wù)和應(yīng)用。典型的大模型案例有生物醫(yī)學(xué)文本挖掘大型語言模型BioBERT和醫(yī)療問答大型語言模型PMC-LLaMA,前者基于BERT在PubMed等生物醫(yī)學(xué)語料庫上進(jìn)行進(jìn)一步預(yù)訓(xùn)練而得到,后者通過在PubMedCentral文章上進(jìn)一步預(yù)訓(xùn)練LLaMA-7B模型而案例:BioBERTl2BioBERT是由韓國NAVER公司和韓國科學(xué)技術(shù)研究院(KAIS人員合作研發(fā),是一種用于生物醫(yī)學(xué)文本挖掘的生物醫(yī)學(xué)大型語言模型BioBERT在大型生物醫(yī)學(xué)語料庫(PubMed摘要和PMC全文BERT進(jìn)行預(yù)訓(xùn)練,適應(yīng)生物醫(yī)學(xué)領(lǐng)域的術(shù)語和表達(dá)方式。BioBERT利的強(qiáng)大的語言表示能力,提高了下游任務(wù)的性能和泛化能力。BioBERT在生物醫(yī)學(xué)命名實(shí)體識別、生物醫(yī)學(xué)關(guān)系抽取和生這些生物醫(yī)學(xué)文本挖掘任務(wù)上取得了最先進(jìn)的性能。BioBERT為生物醫(yī)學(xué)領(lǐng)域提供了一個通用和高效的語言模型,可以應(yīng)用于各種場景和需求。BioBERTBioBERT的預(yù)訓(xùn)練過程CorporaBioBERTWeightIni醫(yī)療問答B(yǎng)ioBERT的微調(diào)過程biomedicaldomainc命名實(shí)體識別3.各種指令/任務(wù)微調(diào)各種指令/任務(wù)微調(diào)是醫(yī)療健康大模型中應(yīng)用最為廣泛的技術(shù)范式。該范式可以在已經(jīng)預(yù)訓(xùn)練好的大模型的基礎(chǔ)上,對其進(jìn)行不同程度和方式的優(yōu)化,以適應(yīng)不同的下游任務(wù)和場景。各種指令/任務(wù)微調(diào)有兩種方式,一種是特定任務(wù)的微調(diào)(fine-tuning),常用于為特定下游任務(wù)調(diào)整較小的模型。這種策略是先在一個大規(guī)模的未標(biāo)注數(shù)據(jù)集上訓(xùn)練一個大模型,然后在一個較小的任務(wù)特定數(shù)據(jù)集上對其進(jìn)行性能提升。但微調(diào)需要很多任務(wù)特定的樣本,只能在訓(xùn)練過的任務(wù)上運(yùn)行,并且可能會導(dǎo)致災(zāi)難性遺忘。例如,BioGPT就是在從頭開始預(yù)訓(xùn)練后,又在特定任務(wù)數(shù)據(jù)上進(jìn)行了微調(diào)。另一種則是指令微調(diào)(instructiontuning)或人類反饋強(qiáng)化學(xué)習(xí)微過有監(jiān)督學(xué)習(xí)和/或強(qiáng)化學(xué)習(xí),在指令-響應(yīng)對的數(shù)據(jù)上對模型進(jìn)行微調(diào),從而使大模型與更好的指令響應(yīng)特性或領(lǐng)域知識保持一致。指令微調(diào)使用一組多樣化的指令對模型進(jìn)行微調(diào),強(qiáng)調(diào)知識理解。指令微調(diào)可以使模型同時學(xué)習(xí)多個任務(wù),并有效地處理未見過的任務(wù)。人類反饋強(qiáng)化學(xué)習(xí)微調(diào)則使用人類偏好數(shù)據(jù)集來訓(xùn)練一個獎勵模型,可以預(yù)測獎勵函數(shù),并通過強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化。案例:ChatDoctor24ChatDoctor是一個主要在LLaMA上微調(diào)的醫(yī)學(xué)領(lǐng)域的大型語言模型。ChatDoctor在大量醫(yī)學(xué)文獻(xiàn)上訓(xùn)練,可理解醫(yī)學(xué)術(shù)語、程序和診斷情況?;颊呖梢酝ㄟ^聊天接口與ChatDoctor模型互動,詢問有關(guān)健康、癥狀或醫(yī)療狀況的問題。ChatDoctor在LLaMA模型的基礎(chǔ)上進(jìn)行微調(diào)訓(xùn)練,樣本數(shù)據(jù)包含真實(shí)醫(yī)患對話,同時加入自主知識檢索能力,比如Wikipedia或者疾病數(shù)據(jù)庫。通過微調(diào)訓(xùn)練,模型在理解患者需求、提供合理建議并在各種醫(yī)療相關(guān)領(lǐng)域提供幫助方面能力顯著提升。自主知識檢索能力能夠?qū)崟r訪問權(quán)威信息,提示模型回答的準(zhǔn)確具體來說,ChatDoctor首先基于Alpaca的數(shù)據(jù)集微調(diào)了“HealthCareMagic”獲得的100k條真實(shí)的醫(yī)患對話數(shù)據(jù)集上進(jìn)行條醫(yī)患對話用于評估ChatDoctor模型的性能。此外,為了提高模型的可信度,該項目還設(shè)計了一個基于Wikipedia和醫(yī)療領(lǐng)域數(shù)據(jù)庫的知識大腦,它可以實(shí)時訪問權(quán)威信息,并根據(jù)這些可靠信息回答醫(yī)生,我胃痛。因?yàn)槲疫€沒有看到你的報告,請給我來自在線醫(yī)療咨詢網(wǎng)站的醫(yī)患對話謝謝你的詢問,如果疼痛在腹部上部,可能是消化道疾病4.提示工程提示工程通常與其他范式結(jié)合使用,增強(qiáng)大模型在生命科學(xué)與醫(yī)療特定領(lǐng)域和任務(wù)上的表現(xiàn)。提示工程是一種利用大模型的能力和潛力來完成特定的下游任務(wù)的方法,通過設(shè)計和構(gòu)建輸入提示來控制大模型的輸出,從而提高生成內(nèi)容的準(zhǔn)確性和可靠性。提示工程有兩種主要的技術(shù):硬提示和軟提示。硬提示是由人工設(shè)計的由具體詞匯組成的提示,是人類可讀的提示;而軟提示是由機(jī)器自動優(yōu)化生成的由特征向量組成的提示,不是人類可讀的提示。硬提示需要人工根據(jù)不同的任務(wù)和模型進(jìn)行嘗試和調(diào)整,而軟提示可以通過梯度搜索等方法自動學(xué)習(xí)最佳的向量表示。軟提示通常比硬提示更有效地利用了預(yù)訓(xùn)練語言模型的潛力。提示工程可以減少所需的任務(wù)特定樣本的數(shù)量,提高少樣本性能,但是需要進(jìn)行提示設(shè)計,并且可能會受到上下文長度的限制。提示工程已經(jīng)在多個領(lǐng)域和場景中得到了應(yīng)用,例如Med-PaLM模型是通過軟提示調(diào)整將Flan-PaLM應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的典型案例。在Flan-PaLM的基礎(chǔ)上,Med-PaLM使用了一個小規(guī)模的生物醫(yī)學(xué)語料庫進(jìn)行微調(diào),并使用了一個基于梯度下降法優(yōu)化的軟提示向量來調(diào)節(jié)Flan-PaLM的參數(shù)。通過這種方式,Med-PaLM在多個生物醫(yī)學(xué)自然語言處理任務(wù)上都取得了最先進(jìn)或接近最先進(jìn)的結(jié)果。這表明,提示工程可以有效地利用現(xiàn)有通用語言模型的知識和能力,并在特定領(lǐng)域和任務(wù)上進(jìn)行適應(yīng)和優(yōu)化。案例:Med-PaLM22Med-PaLM2由谷歌研究和DeepMind團(tuán)隊共同研發(fā),是一種用于種醫(yī)學(xué)領(lǐng)域問題的醫(yī)學(xué)領(lǐng)域微調(diào)大型語言模型Med-PaLM2基于谷歌的大型語言模型PaLM2,進(jìn)行針對醫(yī)學(xué)領(lǐng)調(diào)訓(xùn)練。Med-PaLM2利用了一種新的提示策略——集成精煉(ensemblerefinement),它可以通過多個推理路徑來提高大型語言模型生和消費(fèi)者的高度認(rèn)可。例如,Med-PaLM2在MedQA數(shù)據(jù)集上得分高達(dá)86.5%,比Med-PaLM提高了超過19%;對消費(fèi)者醫(yī)學(xué)問題的長篇回答進(jìn)行人類評估顯示,Med-PaLM2的回答在與臨床效用相關(guān)的九個軸線中有八個軸線優(yōu)于臨床醫(yī)生和Med-PaLM的回答,例如事實(shí)性、醫(yī)學(xué)推理能力和低危害可能性等。Med-PaLM2為醫(yī)學(xué)考試、消費(fèi)者健康和醫(yī)學(xué)研究等場景提供了一個更(四)模型發(fā)展呈現(xiàn)家族化、多模態(tài)、融合化、協(xié)同化趨勢1.家族化、系列化大模型將持續(xù)涌現(xiàn),迭代升級不斷加快醫(yī)療健康大模型的橫向和縱向拓展,提供醫(yī)療人工智能多樣化發(fā)展路徑。橫向來看,業(yè)界出現(xiàn)以BERT系列、GPT系列、ViT系列為代表的基礎(chǔ)模型,以BERT系列、GPT系列、PaLM系列、ViT系列為代表的基礎(chǔ)模型引領(lǐng)大模型在生命科學(xué)與醫(yī)療領(lǐng)域的應(yīng)用,同時該領(lǐng)域也出現(xiàn)了Megatron26、Vicuna?等其他的模型系列。這些模型在自然語言處理、自然語言生成和視覺識別乃至多模態(tài)任務(wù)等領(lǐng)域具有強(qiáng)大的能力。通過微調(diào)、提示工程等技術(shù),這些基礎(chǔ)模型可以適應(yīng)不同的醫(yī)療任務(wù),涌現(xiàn)出了大量以GPT、BERT為后綴的家族化醫(yī)療健康等??v向來看,業(yè)界領(lǐng)先的醫(yī)療健康大模型的系列化升級和迭代也是大勢所趨,例如Med-PaLM系列逐代升級,不斷刷新醫(yī)療健康細(xì)分領(lǐng)域的最先進(jìn)水平?;A(chǔ)模型的升級顯著地提升醫(yī)療健康大模型的性能和功能。例如GPT系列從GPT-2到GPT-4,參數(shù)規(guī)模從1億數(shù)量級增加到10,000億數(shù)量級,訓(xùn)練數(shù)據(jù)規(guī)模更是大幅度提升。參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)規(guī)模的增加,使得GPT-4相比于GPT-2和GPT-3,在語言能力、泛化能力和多模態(tài)能力上有了顯著的提升,闡述更準(zhǔn)確,且可實(shí)現(xiàn)多模態(tài)輸入,推動了其在醫(yī)療領(lǐng)域更廣泛的應(yīng)用?;贕PT-4打造的醫(yī)療健康大模型因此可以更好地理解和生成復(fù)雜、多樣、專業(yè)的文本、圖像、語音、視頻等醫(yī)療健康數(shù)據(jù),實(shí)現(xiàn)了更好的數(shù)據(jù)融合、信息挖掘、人機(jī)交互2.生物醫(yī)學(xué)數(shù)據(jù)復(fù)雜多樣,催化大模型多模態(tài)化發(fā)展提速醫(yī)療健康大模型的多模態(tài)發(fā)展,邁向通往通用醫(yī)療人工智能的關(guān)鍵一步。由于醫(yī)療健康數(shù)據(jù)和應(yīng)用場景的復(fù)雜性,多模態(tài)、跨尺度的數(shù)據(jù)格式和處理需求推動了醫(yī)療健康大模型多模態(tài)融合發(fā)展。一是多模態(tài)醫(yī)療健康模型的規(guī)模將更大,能處理的醫(yī)學(xué)模態(tài)將更豐富。目前的多模態(tài)醫(yī)療健康大模型主要涉及視覺和語言兩種模態(tài),未來可以融合更多模態(tài)進(jìn)行大規(guī)模預(yù)訓(xùn)練,結(jié)合各種數(shù)據(jù)類型(文本、圖像、視頻、音頻、數(shù)據(jù)庫)和尺度(分子、基因、細(xì)胞、組織、患者、群體),進(jìn)一步釋放大模型在科學(xué)發(fā)現(xiàn)和臨床診療方面的潛力。二是多模態(tài)醫(yī)療健康大模型的訓(xùn)練將加速。多模態(tài)大模型需要統(tǒng)一架構(gòu)、模態(tài)和任務(wù),復(fù)雜多樣的生物信息和醫(yī)學(xué)健康數(shù)據(jù)處理對算法和算力的要求很高,因此需要采用更高效、更經(jīng)濟(jì)的訓(xùn)練方法和技術(shù)。類似FastMoE的優(yōu)化算法將不斷涌現(xiàn),大模型的計算效率和訓(xùn)練速度將進(jìn)一步提高。三是多模態(tài)醫(yī)療健康大模型將走向“真正統(tǒng)一”,將能夠適應(yīng)多種不同類型、模態(tài)和層次的生物醫(yī)學(xué)數(shù)據(jù),實(shí)現(xiàn)有效且魯棒的信息編碼、解釋、生成等操作的能力,還將適應(yīng)多重醫(yī)療場景和診療需求,服務(wù)大健康產(chǎn)業(yè)。當(dāng)前,微軟KOSMOS-1和谷歌PaLM-E都是適應(yīng)多模態(tài)數(shù)據(jù)的通用人工智能模型,經(jīng)過醫(yī)學(xué)領(lǐng)域微調(diào)后可以打造生物醫(yī)學(xué)領(lǐng)域的通用大模型,這些技術(shù)的進(jìn)步與迭代使得人們對于未來完全通才的醫(yī)療健康人工智能有了更清晰的具象。3.知識融合趨勢日漸顯現(xiàn),推動多維生物信息醫(yī)療健康大模型將進(jìn)一步融合不同領(lǐng)域、任務(wù)和模態(tài)的知識,并將其創(chuàng)新地應(yīng)用于各種生命科學(xué)研究和醫(yī)療健康場景中??珙I(lǐng)域知識融合方面,醫(yī)療健康大模型將整合多個領(lǐng)域和學(xué)科的知識,如基因組學(xué)、生物信息學(xué)、藥物化學(xué)、臨床醫(yī)學(xué)、公共衛(wèi)生、物理化學(xué)等,以實(shí)現(xiàn)對多模態(tài)、多層次、多維度的生物醫(yī)學(xué)數(shù)據(jù)的全面理解和綜合分析??缛蝿?wù)知識融合方面,醫(yī)療健康大模型將具備跨任務(wù)的泛化能力,能夠在不同的醫(yī)療健康任務(wù)之間進(jìn)行知識遷移和共享,如臨床問題問答、消費(fèi)者醫(yī)學(xué)問題回答、X光報告生成等。跨模態(tài)知識融合方面,醫(yī)療健康大模型將具備跨模態(tài)的表達(dá)能力,即能夠處理和生成包括文本、圖像、聲音、視頻等在內(nèi)的多種類型的醫(yī)療健康數(shù)據(jù),實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的語義對齊和信息互補(bǔ),從而更好地服務(wù)科學(xué)家、臨床醫(yī)生和病患。4.大小模型協(xié)同進(jìn)化,性能與成本平衡是未來重點(diǎn)研究目前大多數(shù)醫(yī)療AI企業(yè)都是基于小模型的模式,未來大模型和小模型將長期共存發(fā)展。人工智能模型不一定參數(shù)越大越好,也不是所有的醫(yī)療健康場景都需要部署使用大模型,滿足業(yè)務(wù)場景需求、平衡成本和模型性能、便捷化部署、可靠足量數(shù)據(jù)獲取等在實(shí)踐應(yīng)用中也十分重要。小模型更易在窄域場景實(shí)現(xiàn)較高精度,比如醫(yī)療影像分析等對精度要求高、對泛化能力要求低的場景更合適小模型,但大模型更適合泛化和通用能力要求高的廣域場景,但往往對精度要求沒那么高29。小模型更適合要求低成本、低時延的場景,而大模型目前還是適合對成本和時延要求沒那么敏感的領(lǐng)域。未來,大模型和小模型有望協(xié)同推動人工智能的發(fā)展,大模型向小模型輸出模型能力,小模型更精確地執(zhí)行任務(wù),再將相關(guān)數(shù)據(jù)與結(jié)果反哺給大模型,促進(jìn)大模型迭代更新,從而達(dá)到降低能耗、提高整體模型精度的效果30,高效率、低成本地解決業(yè)務(wù)問題。三、醫(yī)療健康大模型的應(yīng)用場景中國信通院通過桌面調(diào)研、案例征集、專家訪談等方式,收集并整理了一個醫(yī)療健康大模型應(yīng)用案例庫(截至2023年9月底),囊括國內(nèi)外超過260個典型案例(已發(fā)布或在研),涵蓋生命科學(xué)研究、醫(yī)藥研發(fā)、醫(yī)療器械、醫(yī)療服務(wù)、健康管理、行業(yè)支撐等多個細(xì)分領(lǐng)域,涉及高校、新型科研機(jī)構(gòu)、科技企業(yè)、智能醫(yī)療企業(yè)等多個創(chuàng)新主體?;诖税咐龓?,結(jié)合大模型發(fā)展?jié)摿?,中國信通院對大模型賦能生命科學(xué)與醫(yī)療健康應(yīng)用發(fā)展態(tài)勢進(jìn)行了整體分析,并由此梳理出發(fā)展較快、潛力較大的應(yīng)用場景(一級場景和二級場景)。(一)整體發(fā)展分析科研院校大多基于開源模型進(jìn)行微調(diào),以LLaMA為底座的模型呈引領(lǐng)之勢。開源大模型成本更低、迭代速度快、定制化上限高,目前學(xué)術(shù)界已經(jīng)出現(xiàn)了以不同開源基礎(chǔ)模型底座發(fā)展起來的一眾醫(yī)療大模型。其中,以Meta的LLaMA為底座的模型最多,約占50%,如MedAlpaca、NHS-LLM、ChatDoctor、DoctorGPT,這些模型可完成醫(yī)療問答任務(wù)。其次是以ChatGLM為底座的模型,如DoctorGLM、SoulChat等,這些模型可完成醫(yī)療問答、慢性病和心理咨詢?nèi)蝿?wù)。第三是以bloomz為底座的模型,如ClinicalGPT、MING等,這些模型可完成醫(yī)療問答任務(wù)。此外,少數(shù)醫(yī)療健康大模型使用Baichuan、元語智能(ChatYuan)作為底座。ClinicalGPT由北京郵電大學(xué)信息智能與數(shù)字健康研究所研究團(tuán)隊研發(fā),是面向醫(yī)學(xué)場景的基礎(chǔ)大模型。ClinicalGPT使用超過數(shù)千萬條醫(yī)學(xué)記錄及數(shù)百萬例患者的大規(guī)模電子病歷進(jìn)行了增量預(yù)訓(xùn)練和指令微調(diào),并通過人類反饋強(qiáng)化學(xué)習(xí)進(jìn)行了人類醫(yī)生行為和醫(yī)療安全性的對齊。目前,ClinicalGPT包括7B、13B、176B的版本,其中ClinicalBERT、ClinicalGPT7B已經(jīng)開源,上線HuggingFace以來,平均單月下載超過10,000+。診斷、醫(yī)學(xué)考試、以及醫(yī)學(xué)知識問答上均體現(xiàn)出了優(yōu)秀的能力。此外,通過結(jié)合圖像語義理解,ClinicalGPT也具備了多模態(tài)的理解能力,能夠基于人臉進(jìn)行多種疾病風(fēng)險預(yù)測,通過上傳人臉的照片即,可給出包括心血管疾病的智能問診系統(tǒng)與中醫(yī)智能導(dǎo)診系統(tǒng)已在多家知名醫(yī)院進(jìn)行了臨床及醫(yī)療服務(wù)場景的應(yīng)用落地。在通用醫(yī)學(xué)方面,ClinicalGPT具備結(jié)合病史進(jìn)行多輪問診能力,并且在智能導(dǎo)診、癥狀分析、疾病類型診斷、疾病鑒別診斷等方面具備了出色的能力,其輔助臨床決策能力覆蓋了呼吸、消化、泌尿、精神病學(xué)、神經(jīng)病學(xué)、婦科和血液學(xué)等科室。在中醫(yī)臨床方面,基于中醫(yī)理論、辨證施治、經(jīng)絡(luò)穴位、中藥配方、術(shù)語準(zhǔn)確性、劑量準(zhǔn)確性、區(qū)分中西醫(yī)概念等維度,ClinicalGPT覆蓋了包括心臟、腫瘤、針灸等16大科室,能夠根據(jù)用戶提供的主訴、疾病、癥狀、體征信息,給出辨證施治結(jié)果和中醫(yī)方劑方案,同時能夠根據(jù)患者的主訴及病歷信息提供健康、食療、推拿、針灸等多維度調(diào)理方案。圖11ClinicalGPT的訓(xùn)練及對齊流程大型科技公司紛紛自研通用大模型,平臺化賦能生命科學(xué)與醫(yī)療健康行業(yè)發(fā)展??萍季揞^依托算力、資金優(yōu)勢,在自研通用大模型之上,加快推出生命科學(xué)與醫(yī)療垂直行業(yè)通用基礎(chǔ)模型及平臺,賦能下游細(xì)分應(yīng)用發(fā)展。英偉達(dá)推出生物醫(yī)藥基礎(chǔ)模型云服務(wù)平臺BioNeMo,提供生成式化學(xué)、蛋白質(zhì)語言和結(jié)構(gòu)預(yù)測相關(guān)開源模型,支持蛋白質(zhì)、DNA和生物化學(xué)數(shù)據(jù)處理,加速藥物研發(fā)。英特爾研發(fā)萬億參數(shù)的醫(yī)學(xué)和其他來源的通用文本、代碼、科學(xué)文本和結(jié)構(gòu)化科學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練,可加速科學(xué)研究和新藥研發(fā)。騰訊基于“混元”大模型底座的“騰訊醫(yī)療大模型”賦能文案生成、智能問答、病歷結(jié)構(gòu)化和檢索、醫(yī)大模型”已全面向公立醫(yī)院、藥械企業(yè)、互聯(lián)網(wǎng)醫(yī)院、連鎖藥房等機(jī)構(gòu)開放體驗(yàn),并支持其他生態(tài)合作方進(jìn)行API調(diào)用、插件集成。阿里基于“通義”大模型底座的“通義醫(yī)療行業(yè)大模型”助力醫(yī)療、醫(yī)藥業(yè)務(wù)場景模型構(gòu)建和全生命周期二次訓(xùn)練、推理、評測和模型加速案例:商量大醫(yī)參數(shù)規(guī)模的大型語言模型“商量”為基座(擁有萬億token預(yù)訓(xùn)練語料),利用超200億tokens的高質(zhì)量醫(yī)學(xué)知識數(shù)據(jù)訓(xùn)練而成,數(shù)據(jù)范圍涵蓋醫(yī)學(xué)教材、醫(yī)學(xué)指南、臨床路徑、藥品庫、疾病庫、體檢報告等資料,以及4000萬真實(shí)病歷、醫(yī)患問答和對話等。習(xí)訓(xùn)練基礎(chǔ)上,商湯自主研發(fā)了長程記憶存取、醫(yī)學(xué)知識庫查詢、醫(yī)學(xué)計等實(shí)用性插件功能,使得“大醫(yī)”能夠精確回答用領(lǐng)域,已覆蓋智能自診、體檢咨詢、健康問答、導(dǎo)診、預(yù)問診、用藥咨詢、結(jié)構(gòu)化及病歷結(jié)構(gòu)化共13個細(xì)分醫(yī)療健康場景,實(shí)現(xiàn)模型功能與具體場景的期識類數(shù)爆部署優(yōu)化運(yùn)營管理平智慧臨床數(shù)管建設(shè)代長程記憶存取數(shù)頻集應(yīng)用場景圖12商量大醫(yī)模型工作原理和應(yīng)用場景在行業(yè)賦能方面,“大醫(yī)”支持私有化部署、API接口調(diào)用兩種合作模式,針對醫(yī)療健康大模型落地時面臨的個性化需求,“大醫(yī)”提供“醫(yī)療模型DIY”功能及定制化服務(wù),包括一鍵調(diào)整提示工程,以及構(gòu)建專屬知識庫插件等模式,為機(jī)構(gòu)打造緊密貼合其需求的專屬醫(yī)療健康大模型,為行業(yè)提供了更多元的解決方案,推動了醫(yī)療健康大模型與實(shí)際需求場景的緊密融合。為了滿足差異化部署需求,商湯推出多個“大醫(yī)”版本,參數(shù)量從千億到百億級別不等,既可以公有云服務(wù)方式為合作機(jī)構(gòu)提供服務(wù),也可幫助合作機(jī)構(gòu)高效完成模型私有化部署。借助創(chuàng)新的模型量化技術(shù),可降低“大醫(yī)”落地部署的硬件需求,降低了醫(yī)療健康大模型的部署門檻。目前“大醫(yī)”已面向醫(yī)療健康產(chǎn)業(yè)鏈上下游機(jī)構(gòu)客戶開放服務(wù),并將進(jìn)一步探索與營養(yǎng)保健、健康管理等領(lǐng)域企業(yè)、機(jī)構(gòu)的合作,為產(chǎn)業(yè)鏈高質(zhì)量發(fā)展賦能。此外,商湯科技還與行業(yè)伙伴合作,推出了醫(yī)療影像大模型、生信大模型等多種垂類基礎(chǔ)模型群,覆蓋CT、MRI、超聲、內(nèi)鏡、病理、醫(yī)學(xué)文本、生信數(shù)據(jù)等不同醫(yī)療數(shù)據(jù)模態(tài)。藥械醫(yī)健類企業(yè)具有行業(yè)數(shù)據(jù)優(yōu)勢,以調(diào)用接口或基于開源模型自研方式切入。制藥企業(yè)、醫(yī)學(xué)影像設(shè)備企業(yè)、CXO企業(yè)(生物醫(yī)藥外包服務(wù)企業(yè))、互聯(lián)網(wǎng)醫(yī)療企業(yè)、醫(yī)療AI創(chuàng)業(yè)企業(yè)等通常積累了豐富的生物醫(yī)學(xué)行業(yè)數(shù)據(jù)、用戶資源和細(xì)分領(lǐng)域?qū)I(yè)能力,一是可以通過直接調(diào)用先進(jìn)大模型API接口或基于相關(guān)大模型微調(diào)改進(jìn)自身產(chǎn)4大模型,提供更加便捷、智能的生物技術(shù)及制藥咨詢、自動化病歷生成、醫(yī)學(xué)文檔處理、個人健康管理功能;二是可以基于開源大模型和自有行業(yè)數(shù)據(jù)開發(fā)研制醫(yī)療大模型產(chǎn)品,利用開源模型技術(shù)能力和研發(fā)資源,充分發(fā)揮自有數(shù)據(jù)價值,不斷迭代提升模型效率和水平,但該模式對軟/硬件算力基礎(chǔ)設(shè)施要求較高。目前在虛擬健康助手、注冊審評咨詢、互聯(lián)網(wǎng)問診、醫(yī)保商保、醫(yī)藥信息情報領(lǐng)域都涌現(xiàn)一批醫(yī)療大模型商業(yè)化落地尚處早期探索階段,部分科技巨頭初試商業(yè)變現(xiàn)路徑。當(dāng)前,國內(nèi)醫(yī)療大模型產(chǎn)品大多處于研發(fā)內(nèi)測或定向體驗(yàn)階段,國外部分醫(yī)療健康A(chǔ)I應(yīng)用通過集成ChatGPT/GPT-4大模型來增強(qiáng)對外服務(wù)能力。整休來看,由于技術(shù)成熟度和醫(yī)療健康領(lǐng)域特殊性,大模型產(chǎn)品實(shí)際部署使用范圍較小,未來有較大拓展空間。商業(yè)模式上,醫(yī)療基礎(chǔ)模型接口調(diào)用收費(fèi)、大模型定制開發(fā)收費(fèi)、數(shù)據(jù)標(biāo)注和處理服務(wù)收費(fèi)、模型訓(xùn)練加速和優(yōu)化服務(wù)收費(fèi)等模式或?qū)⑴d起。國外GPT-4大模型通常按調(diào)用接口的服務(wù)量收費(fèi);國內(nèi)百度靈醫(yī)大模型已面向醫(yī)療機(jī)構(gòu)、藥械企業(yè)、藥房等用戶群體提供不同服務(wù),嘗試多元變現(xiàn)路徑。除模型調(diào)用和模型開發(fā)外,目前已出現(xiàn)一些工具型、平臺型方案,通過提供醫(yī)學(xué)數(shù)據(jù)庫、醫(yī)療專用智能計算平臺、系列基礎(chǔ)模型組合平臺、模型訓(xùn)練降本提效技術(shù)服務(wù)而盈利。未來,隨著醫(yī)療大模型技術(shù)的創(chuàng)新發(fā)展、應(yīng)用的加速落地,相關(guān)商業(yè)模式將更加清案例:百度靈醫(yī)大模型靈醫(yī)大模型是百度集團(tuán)研發(fā)推出的“產(chǎn)業(yè)級”醫(yī)療大模型,是基于百度文心大模型底座和百度智能云千帆算力資源,經(jīng)過算法訓(xùn)練和精調(diào),結(jié)合靈醫(yī)智惠臨床脫敏數(shù)據(jù)和醫(yī)學(xué)知識、百度健康線上優(yōu)質(zhì)就醫(yī)問診數(shù)據(jù)和GBI醫(yī)藥數(shù)靈醫(yī)大模型是以自研國產(chǎn)、知識增強(qiáng)的文心大模型為底座,通過海量醫(yī)療健康的優(yōu)質(zhì)語料進(jìn)行預(yù)訓(xùn)練和指令精調(diào),以及循證醫(yī)學(xué)對齊后獲得的醫(yī)療行業(yè)內(nèi)置了知識增強(qiáng)、檢索增強(qiáng)和上下文增強(qiáng)等多項增強(qiáng)技術(shù),提升了大模型生成的準(zhǔn)確性和多樣性。算力方面,靈醫(yī)大模型基于萬卡算力集群和全生命周期的靈醫(yī)大模型使用了千億Token的訓(xùn)練語料數(shù)據(jù),包括海量臨床脫敏數(shù)據(jù)、海量醫(yī)學(xué)知識圖譜、300萬+例多模態(tài)影像數(shù)據(jù),6億+條健康科普內(nèi)容,70萬+臨床試驗(yàn)研究信息,豐富的語料數(shù)據(jù)提高了模型的全產(chǎn)業(yè)鏈服務(wù)能力 3Z+用戶搜素戰(zhàn)配間日 70萬+項臨床式驗(yàn)介招信息 海量臨床脫取歌據(jù)1000萬+優(yōu)質(zhì)醫(yī)療問答政據(jù)2000萬+1000萬+優(yōu)質(zhì)醫(yī)療問答政據(jù)2000萬+在服務(wù)模式上,靈醫(yī)大模型可劃分為四層架構(gòu),按需為不同用BOT為助手,聚焦在智能健康管家、智能醫(yī)生助手、智能企業(yè)服務(wù)三大方向,滿足“醫(yī)-患-藥”各自的特定需要。智能健康管家提供康咨詢等能力,為患者提供就醫(yī)咨詢引導(dǎo)。智能醫(yī)生助手成、文獻(xiàn)速覽等方面為醫(yī)生提供服務(wù),節(jié)省醫(yī)生時間,提高工作效率。智能企業(yè)服務(wù)從運(yùn)營助手、職業(yè)培訓(xùn)和知識服務(wù)等方面為企業(yè)客戶提供能力,創(chuàng)新營銷方式,幫助企業(yè)快速完成新藥上市后的推廣。能力層:主要以API或AI插件的方式,為生態(tài)合作伙伴提供高質(zhì)量的AI服務(wù),幫助合作伙伴進(jìn)行二次開發(fā),打造AI原生應(yīng)用。模型層:主要根據(jù)不同的應(yīng)用需要和部署資源,提供旗艦版、Lite版和定制版服務(wù)。旗艦版提供公有云服務(wù),用戶無需擔(dān)心部署成本。Lite版面向醫(yī)院客戶或?qū)λ接袛?shù)據(jù)較為重視的客戶提供模型服務(wù),以私有化方式部署,分檔設(shè)置十億和百億參數(shù)量級的模型。定制版針對自有高質(zhì)量數(shù)據(jù)且具有一定研發(fā)能力的客戶,需針對具體場景,如??茖2。峁┒ㄖ苹P陀?xùn)練或調(diào)優(yōu)服務(wù)。算力層:重點(diǎn)面向有私有化部署需求的用戶,提供三個等級的軟硬一體的算力支持能力。一體機(jī)版,將模型和算力進(jìn)行了一體化封裝,主要針對對算力要求高且預(yù)算充足的客戶,可在內(nèi)部私有化環(huán)境中直接部署使用,也可基于內(nèi)部數(shù)據(jù)進(jìn)行訓(xùn)練和微調(diào),更好地滿足業(yè)務(wù)場景需要。信創(chuàng)版,針對國產(chǎn)化需要的客戶,基于百度自研的昆侖芯芯片,提供全棧國產(chǎn)的算力支持。CPU版,針對算力和預(yù)算緊張的客戶,提供開箱即用的能力,無需訓(xùn)練和微調(diào)模型,有限算力下,直接使用大模型推理能力,滿足特定任務(wù)的應(yīng)用需要。(超高算力性能)(十億、百億級)NWL旗艦取(干億參酸)(高性能CPUAm速器)圖14靈醫(yī)大模型的商業(yè)化服務(wù)模式(二)具體場景分析1.AI大模型在生命科學(xué)研究領(lǐng)域的應(yīng)用生命科學(xué)領(lǐng)域的Al大模型發(fā)展較為成熟,起步早、模型數(shù)量較多,迭代發(fā)展快。生命科學(xué)研究生物大分子(如DNA、RNA、蛋白質(zhì))在生命過程中的作用,描述分子的結(jié)構(gòu)、功能和合成等各種生命活動和現(xiàn)象,研究成本高、實(shí)驗(yàn)周期長、生產(chǎn)難度高。傳統(tǒng)的信息處理和分析方法往往受限于龐大的數(shù)據(jù)量和高度的復(fù)雜性,生物數(shù)據(jù)如基因組序列、蛋白質(zhì)結(jié)構(gòu)、臨床數(shù)據(jù)和生物圖像等需要強(qiáng)大的計算能力和數(shù)據(jù)分析工具。由于參數(shù)量大且學(xué)習(xí)能力強(qiáng),大模型在處理多維復(fù)雜生物數(shù)據(jù)上具有獨(dú)特優(yōu)勢,極大助力蛋白質(zhì)語言表征、生命組學(xué)計算,并可通過科學(xué)文本檢索和提取來輔助科研工作。AI大模型可完成蛋白質(zhì)語言理解和生成任務(wù),助力蛋白質(zhì)結(jié)構(gòu)預(yù)測和從頭設(shè)計合成。大模型可以預(yù)測蛋白質(zhì)的結(jié)構(gòu)、功能以及最優(yōu)催化溫度、催化效率、穩(wěn)定性等屬性,完成蛋白質(zhì)理解任務(wù);也可根據(jù)不同條件設(shè)計對應(yīng)的蛋白質(zhì),完成蛋白質(zhì)生成任務(wù),如根據(jù)給定的功能標(biāo)簽生成能實(shí)現(xiàn)該功能的蛋白質(zhì),或根據(jù)給定的蛋白質(zhì)結(jié)構(gòu),設(shè)計一段可折疊成該結(jié)構(gòu)的氨基酸序列?;赥ransformer架構(gòu)的AlphaFold2、ESMFold及其衍生模型,可以快速而準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)語言模型ProGen能夠生成跨大型蛋白質(zhì)家族、具有可預(yù)測功能的蛋白質(zhì)序列31,其在包含19000個家族的2.8億個蛋白質(zhì)序列的公開數(shù)據(jù)集上進(jìn)行訓(xùn)練,可用于從頭設(shè)計蛋白質(zhì)。AI大模型賦能DNA/RNA等生命組學(xué)計算,為病因推斷、疾病預(yù)測、精準(zhǔn)醫(yī)療提供新思路。生命多組學(xué)研究通常包括在脫氧核糖核酸(DNA)復(fù)制、轉(zhuǎn)錄、翻譯、翻譯后修飾的過程中,產(chǎn)生的全部基轉(zhuǎn)錄組學(xué))和蛋白質(zhì)(蛋白質(zhì)組學(xué)),以及下游的小分子代謝產(chǎn)物(代謝組學(xué))。大模型以生物醫(yī)學(xué)大數(shù)據(jù)作為輸入,不斷進(jìn)行算法訓(xùn)練、迭代,輸出模擬真實(shí)生命系統(tǒng)的結(jié)構(gòu)與功能特征,有助于從分子、細(xì)胞微觀層面捕捉、理解疾病發(fā)生機(jī)制,推動精準(zhǔn)醫(yī)療發(fā)展。生物計算工具Geneformer在約3000萬個單細(xì)胞轉(zhuǎn)錄組的大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練,可通過遷移學(xué)習(xí)應(yīng)用于多種下游任務(wù),以加速發(fā)現(xiàn)生物網(wǎng)絡(luò)關(guān)鍵調(diào)節(jié)因子和候選治療靶點(diǎn)32。單細(xì)胞生物學(xué)大型語言模型scGPT在單細(xì)胞生物學(xué)下游任務(wù)上表現(xiàn)優(yōu)異,包括multi-batch整合、多組學(xué)整合、細(xì)胞類型注釋、遺傳擾動預(yù)測和基因網(wǎng)絡(luò)推斷等,可以有效地AI大模型作為科研助手輔助生物醫(yī)學(xué)研究開發(fā)工作,優(yōu)化科研流程。大模型具有生物醫(yī)學(xué)信息檢索、醫(yī)學(xué)文本摘要、信息提取、科學(xué)知識推理等能力,可以幫助生物科學(xué)家、臨床科研人員、醫(yī)藥產(chǎn)品研發(fā)人員等快速讀取生物醫(yī)學(xué)論文、生成研究綜述、總結(jié)臨床研究報告(CSR)、整理藥物數(shù)據(jù)、生成代碼,提升科研工作效率。MetaAI發(fā)布的面向科學(xué)領(lǐng)域的大型語言模型Galactica,在人類科學(xué)知識的大型語料庫上進(jìn)行訓(xùn)練,可以總結(jié)學(xué)術(shù)文獻(xiàn),解決數(shù)學(xué)問題、生成百科研大數(shù)據(jù)平臺可以實(shí)現(xiàn)患者臨床數(shù)據(jù)、心電圖、心電時序、發(fā)病時水文氣象環(huán)境等多模態(tài)數(shù)據(jù)融合處理、解析與埋解,完成高維度深度學(xué)習(xí)建模,助力臨床科研數(shù)據(jù)處理,減小人工篩選數(shù)據(jù)的工作難度與耗EyeGPT由溫州眼視光國際創(chuàng)新中心(中國眼谷)開發(fā),是眼科專用大型語言模型,目前主要應(yīng)用于科研場景以及臨床醫(yī)療輔互式問答形式提供服務(wù),未來將進(jìn)一步向眼健康早期檢測和智能診斷場景拓展。EyeGPT基于大量自然語料以及醫(yī)學(xué)專業(yè)語料進(jìn)行預(yù)景使用專業(yè)數(shù)據(jù)進(jìn)行微調(diào)而得到。訓(xùn)練內(nèi)容不僅涵蓋了通用醫(yī)學(xué)知識,還針對眼科??齐娮硬v信息,如視網(wǎng)膜疾病、近視、青光眼等眼科疾病相關(guān)信息進(jìn)行了訓(xùn)練。該眼科專用大型語言模型將為眼科知識圖譜建立、分診問診系統(tǒng)開發(fā)、用藥治療建議提供重要工具。EyeGPT已在研究性論文、病歷報告生成、醫(yī)學(xué)學(xué)術(shù)文及審稿意見輔助撰寫、醫(yī)療文檔寫作、醫(yī)學(xué)相關(guān)知識問答等方面有較為成熟的落地應(yīng)用。EyeGPT可以根據(jù)某研究題目生成一篇關(guān)于該研究方法的論文大綱,可以根據(jù)需要信息創(chuàng)建一篇病例報告,可以根據(jù)輸入的需要潤色的文章部分進(jìn)行進(jìn)一步闡述,可以輔助進(jìn)行封面信件及審稿意見的撰寫,可以輔助進(jìn)行SOAP病歷、交班記錄、實(shí)習(xí)生急診交班記錄、臨床診療計劃等醫(yī)療文件寫作以及制作PPT文件,也可以輔助醫(yī)學(xué)生進(jìn)行醫(yī)學(xué)相關(guān)考試的復(fù)習(xí),可以進(jìn)行醫(yī)學(xué)相關(guān)知識的講解。當(dāng)然,這是對上述問題的詳細(xì)回答:1.知識背景:視網(wǎng)膜神經(jīng)節(jié)細(xì)胞(RGC)是一種神經(jīng)元,從光感受器接收視覺信息并將其發(fā)送到大腦中更高的視覺中樞。他們很容易受到各種傷害,例如青光眼和外傷,他們的喪失與視力障礙和失明有關(guān)。2實(shí)驗(yàn)方法:利用分子生物學(xué)技術(shù)產(chǎn)生氨基酸突變的CaMKⅡ修飾版,并利用腺相關(guān)病毒載體將其轉(zhuǎn)入小昆原始RGC中。使用免疫染色和蛋白質(zhì)印跡驗(yàn)證了修飾后的CaMKⅡ的表達(dá)。3.數(shù)據(jù)分析:使用統(tǒng)計檢驗(yàn)分析實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù),以比較對照組和實(shí)驗(yàn)組。4.數(shù)據(jù)結(jié)果:實(shí)驗(yàn)結(jié)果表明,修飾后的CaMKⅡ?qū)GC存活、軸突生長、突觸形成具有保護(hù)作用。5.局限性:實(shí)驗(yàn)的局限性包括樣本量小、使用圖15EyeGPT根據(jù)需求輸出研究題目的文章大綱EyeGPT通過整合自然語言處理和計算機(jī)視覺,為醫(yī)學(xué)專業(yè)人士和患者提供了智能輔助工具,用于更好地理解、分析和應(yīng)用醫(yī)學(xué)及眼科專業(yè)知識,在眼科醫(yī)學(xué)領(lǐng)域的診斷、治療、研究和教育方面具有巨大的潛力。眼視光4圖16未來EyeGPT在眼健康智能診斷一體化應(yīng)用示范2.AI大模型在藥械研發(fā)領(lǐng)域的應(yīng)用型具備更高的預(yù)測能力,實(shí)現(xiàn)藥物設(shè)計、篩選、優(yōu)化、驗(yàn)證關(guān)鍵環(huán)節(jié)效率和效果的雙重提升,節(jié)省藥物研發(fā)時間,降低研發(fā)費(fèi)用。在分子性質(zhì)預(yù)測方面,通過使用SMILES字符串或分子圖表征分子結(jié)構(gòu)來預(yù)測分子性質(zhì),如GROVER通過運(yùn)用分子圖來表示分子形式,在100多萬個未標(biāo)記的分子數(shù)據(jù)上訓(xùn)練了超1億個參數(shù),能夠獲取豐可以在短時間內(nèi)生成大量的分子供藥物學(xué)家進(jìn)行篩選,加快篩選到有效的分子。如MolGPT模型基于Transformer解碼器模塊構(gòu)建,能夠生成具有特定分子性質(zhì)的分子,或者含有用戶指定骨架的分子。在靶點(diǎn)發(fā)現(xiàn)方面,大模型通過來自細(xì)胞、動物模型、病人身體組織的數(shù)據(jù)進(jìn)行AI建模,助力生物標(biāo)記物發(fā)現(xiàn)和靶點(diǎn)發(fā)現(xiàn)。此外,大模型在藥物-靶標(biāo)相互作用(DTI)預(yù)測、藥物篩選、先導(dǎo)化合物優(yōu)化等方面也具有較大潛力。目前,業(yè)內(nèi)開始開發(fā)具有藥物發(fā)現(xiàn)全過程優(yōu)化能力的AI大模型可提高臨床試驗(yàn)執(zhí)行效率,節(jié)省時間和成本。在臨床試驗(yàn)方案設(shè)計上,大模型可以檢索分析大量文獻(xiàn),快速總結(jié)近年來藥物臨床試驗(yàn)設(shè)計和結(jié)果,輔助自動撰寫臨床研究文檔,幫助研究者節(jié)省時間,還可以根據(jù)數(shù)據(jù)及時預(yù)測試驗(yàn)風(fēng)險,生成優(yōu)化建議。在臨床試提高患者-試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論