從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫

上傳人：多*** IP屬地：江蘇上傳時(shí)間：2022-09-15 格式：DOCX 頁數(shù)：28 大?。?.09MB 積分：15 舉報(bào) 版權(quán)申訴

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫_第2頁

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫_第3頁

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫_第4頁

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫_第5頁

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)大數(shù)據(jù)可謂是當(dāng)紅炸子雞，關(guān)于它的應(yīng)用場景，人們差不多做了充分的想象，專門多也在逐步落地，比如智慧醫(yī)療。醫(yī)療行業(yè)正更多的融入人工智慧、傳感技術(shù)等高科技，使醫(yī)療服務(wù)走向真正意義的智能化。面對(duì)不同受眾，智慧醫(yī)療有著不同的內(nèi)涵。關(guān)于公眾，意味著更便捷可及的醫(yī)療服務(wù)；關(guān)于醫(yī)護(hù)人員，不僅能夠提高診療速度，還能夠讓診療更加精準(zhǔn)，通過大量的數(shù)據(jù)分析支持他們的診斷。那個(gè)地點(diǎn)就不得不提到專家系統(tǒng)，它應(yīng)該是一個(gè)典型的醫(yī)療應(yīng)用，是大數(shù)據(jù)和人工智能的緊密結(jié)合。專家系統(tǒng)是一個(gè)具有大量的專門知識(shí)與經(jīng)驗(yàn)的程序系統(tǒng)，它應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù)，依照某領(lǐng)域一個(gè)或多個(gè)專家提供的知識(shí)和經(jīng)驗(yàn)，進(jìn)

2、行推理和推斷，模擬人類專家的決策過程，以便解決那些需要人類專家處理的復(fù)雜問題。簡言之，專家系統(tǒng)是一種模擬人類專家解決領(lǐng)域問題的計(jì)算機(jī)程序系統(tǒng)。專家系統(tǒng)的進(jìn)展差不多歷了3個(gè)時(shí)期，正向第四代過渡和進(jìn)展。第一代專家系統(tǒng)（dendral、macsyma等）以高度專業(yè)化、求解專門問題的能力強(qiáng)為特點(diǎn)。但在體系結(jié)構(gòu)的完整性、可移植性、系統(tǒng)的透明性和靈活性等方面存在缺陷，求解問題的能力弱。第二代專家系統(tǒng)（mycin、casnet、prospector、hearsay等）屬單學(xué)科專業(yè)型、應(yīng)用型系統(tǒng)，其體系結(jié)構(gòu)較完整，移植性方面也有所改善，而且在系統(tǒng)的人機(jī)接口、解釋機(jī)制、知識(shí)獵取技術(shù)、不確定推理技術(shù)、增強(qiáng)專家系統(tǒng)

3、的知識(shí)表示和推理方法的啟發(fā)性、通用性等方面都有所改進(jìn)。第三代專家系統(tǒng)屬多學(xué)科綜合型系統(tǒng)，采納多種人工智能語言，綜合采納各種知識(shí)表示方法和多種推理機(jī)制及操縱策略，并開始運(yùn)用各種知識(shí)工程語言、骨架系統(tǒng)及專家系統(tǒng)開發(fā)工具和環(huán)境來研制大型綜合專家系統(tǒng)。在總結(jié)前三代專家系統(tǒng)的設(shè)計(jì)方法和實(shí)現(xiàn)技術(shù)的基礎(chǔ)上，已開始采納大型多專家協(xié)作系統(tǒng)、多種知識(shí)表示、綜合知識(shí)庫、自組織解題機(jī)制、多學(xué)科協(xié)同解題與并行推理、專家系統(tǒng)工具與環(huán)境、人工神經(jīng)網(wǎng)絡(luò)知識(shí)獵取及學(xué)習(xí)機(jī)制等最新人工智能技術(shù)來實(shí)現(xiàn)具有多知識(shí)庫、多主體的第四代專家系統(tǒng)。接下來將通過生動(dòng)有味的過程講解，關(guān)心讀者了解使用SmartMining敏捷挖掘桌面版，以決策樹算

4、法為背景，依托大數(shù)據(jù)如何構(gòu)建專家診病模型，以及如何通過可視化探究數(shù)據(jù)，實(shí)現(xiàn)決策樹同樣的計(jì)算結(jié)果！該案例的工作流如下：商業(yè)目標(biāo)業(yè)務(wù)理解：該案例所用的數(shù)據(jù)是一份大夫診病的數(shù)據(jù)，如下：表1 數(shù)據(jù)視圖其中，年齡、性不、血壓、膽固醇、鈉、鉀是病人的指標(biāo)，而藥物是大夫針對(duì)病人的情況開出的藥物。業(yè)務(wù)目標(biāo)：建立專家診病系統(tǒng)，當(dāng)把病人的指標(biāo)輸入到該系統(tǒng)時(shí)，系統(tǒng)會(huì)自動(dòng)輸出該給此類病人開出的藥物。數(shù)據(jù)挖掘目標(biāo)：建立專家診病模型，該模型以病人的病例指標(biāo)為輸入，以藥物為目標(biāo)，建立預(yù)測模型，該模型能夠依照輸入指標(biāo)的值，計(jì)算預(yù)測值（藥物）。操作實(shí)現(xiàn)：新建工作流能夠點(diǎn)擊文件菜單下的新建或者點(diǎn)擊工具欄左方的新建按鈕（）開始創(chuàng)

5、建工作流。點(diǎn)擊后會(huì)彈出以下向?qū)Ы缑妫狠斎牍ぷ髁鞯拿趾蠹纯赏瓿蓜?chuàng)建：圖1 新建工作流導(dǎo)入數(shù)據(jù)現(xiàn)在要依照數(shù)據(jù)存儲(chǔ)文件的格式選擇相應(yīng)的導(dǎo)入節(jié)點(diǎn)。在那個(gè)地點(diǎn)由于數(shù)據(jù)源是CSV文件，因此能夠選擇CSV導(dǎo)入節(jié)點(diǎn)（也能夠使用可變文件）。左側(cè)節(jié)點(diǎn)庫中CSV導(dǎo)入節(jié)點(diǎn)拖到右側(cè)的工作流中。雙擊節(jié)點(diǎn)或者右鍵菜單中選擇配置，彈出如下配置窗口：圖2 CSV節(jié)點(diǎn)配置點(diǎn)擊按鈕，選擇相應(yīng)的數(shù)據(jù)文件。注意，此處假如數(shù)據(jù)第一行包含字段名，則選中（該數(shù)據(jù)有），假如有行ID字段，則選中（該數(shù)據(jù)無，則不選中）。配置完成后，點(diǎn)擊。節(jié)點(diǎn)下方的預(yù)警符號(hào)從變成了。紅色表示節(jié)點(diǎn)尚未配置或者配置有誤，現(xiàn)在節(jié)點(diǎn)不可執(zhí)行；黃色表示節(jié)點(diǎn)能夠

6、執(zhí)行。點(diǎn)擊右鍵菜單的或者點(diǎn)擊工具欄的，即可執(zhí)行工作流。執(zhí)行完成后預(yù)警符號(hào)變成。點(diǎn)擊右鍵菜單的能夠查詢數(shù)據(jù)。另外，節(jié)點(diǎn)的右端口也會(huì)懸停顯示數(shù)據(jù)的行數(shù)和字段數(shù)。理解數(shù)據(jù)使用統(tǒng)計(jì)分析菜單下的統(tǒng)計(jì)節(jié)點(diǎn)能夠?qū)?shù)據(jù)進(jìn)行描述，這是建模之前必須要做的工作，一方面是為了設(shè)計(jì)合理的實(shí)施方案，另外一方面也是為了更好的選擇合適的算法。從表2中能夠看出每種分類變量的取值及每種取值的個(gè)數(shù)。比如，從那個(gè)地點(diǎn)我們能夠看出藥物字段一共包含五種取值，且出現(xiàn)最多的是Y藥物。在那個(gè)地點(diǎn)目標(biāo)變量為分類型，因此只能選擇分類預(yù)測類模型，如決策樹、邏輯回歸等。表2 數(shù)據(jù)描述預(yù)建模接下來便是嘗試建模，看看建模效果。圖3 預(yù)建模首先，從

7、數(shù)據(jù)預(yù)備列轉(zhuǎn)換菜單下選擇類型轉(zhuǎn)換節(jié)點(diǎn)。由于性不、血壓、膽固醇三個(gè)字段實(shí)際存儲(chǔ)類型該是字符型，但那個(gè)地點(diǎn)是整型，因此為了便于以下分析，使用類型轉(zhuǎn)換節(jié)點(diǎn)將它們的類型從整型轉(zhuǎn)化為字符型。配置如下：其次，使用類型節(jié)點(diǎn)指定目標(biāo)變量的角色，將藥物的角色設(shè)為目標(biāo)。再次，從數(shù)據(jù)預(yù)備的行菜單中選擇分區(qū)節(jié)點(diǎn)。使用分區(qū)節(jié)點(diǎn)能夠?qū)?shù)據(jù)集分成測試集和訓(xùn)練集，訓(xùn)練集用于訓(xùn)練模型，測試集用于測試模型。配置如下：注意，假如選中使用隨機(jī)種子（），則每次運(yùn)行分區(qū)結(jié)果將會(huì)是一樣的，否則每次運(yùn)行的結(jié)果將會(huì)不同，進(jìn)而建模的結(jié)果也會(huì)不同。通常是選擇選中該項(xiàng)，使得訓(xùn)練集和測試集都固定。另外，此處還有個(gè)專門重要的用途，不選中，多次運(yùn)行能

8、夠測試數(shù)據(jù)分布規(guī)律和模型穩(wěn)定性。還有一點(diǎn)要注意，那個(gè)地點(diǎn)分區(qū)即把數(shù)據(jù)集隨機(jī)分成兩份，通常訓(xùn)練集要比測試集大，通常分為5：5，6：4，7：3，8：2，9：1。數(shù)據(jù)集越小，訓(xùn)練集應(yīng)該分的更多，緣故是要保證模型的穩(wěn)定性，參與訓(xùn)練的數(shù)據(jù)要足夠多。實(shí)際中，各種比例都會(huì)嘗試，目的有二：一是選擇最佳的比例，二是測試模型的穩(wěn)定性。然后，選擇分類預(yù)測節(jié)點(diǎn)，因?yàn)槟繕?biāo)變量（藥物）為分類型。此處我們重點(diǎn)學(xué)習(xí)決策樹算法，因此就先選擇決策樹算法節(jié)點(diǎn)。節(jié)點(diǎn)連接如上圖3所示，在決策樹（訓(xùn)練）節(jié)點(diǎn)配置中選擇目標(biāo)變量藥物。其中，決策樹（訓(xùn)練）節(jié)點(diǎn)連接分區(qū)節(jié)點(diǎn)。決策樹訓(xùn)練節(jié)點(diǎn)能夠采納默認(rèn)配置，無需修改配置，如下：最后，使用分類評(píng)估

9、節(jié)點(diǎn)評(píng)估模型的準(zhǔn)確性。配置如下圖所示：評(píng)估結(jié)果：表3 模型評(píng)估1從表3中能夠看出，模型測試準(zhǔn)確度為95%，誤判5%。預(yù)建模的目的是為了從整體推斷現(xiàn)有變量與目標(biāo)變量的相關(guān)性，以便能夠依照經(jīng)驗(yàn)預(yù)估最終的效果和可操作性。接下來如何優(yōu)化模型呢？通常來講有三種方法：第一，增加新數(shù)據(jù)，以便引入更多重要的阻礙因素；第二，嘗試其他模型，以便找到更適合的模型；第三，優(yōu)化輸入，即基于已有數(shù)據(jù)派生更多重要的變量，或者過濾不重要的變量。這三者中，第一種最難以實(shí)現(xiàn)，一般企業(yè)的數(shù)據(jù)是有限的，企業(yè)內(nèi)部可用數(shù)據(jù)及外部可用網(wǎng)絡(luò)數(shù)據(jù)，在項(xiàng)目需求調(diào)研時(shí)期就應(yīng)該明確，而企業(yè)外部行業(yè)數(shù)據(jù)難以獵取。第二種最容易嘗試，所有可用模型能夠快速

10、嘗試一遍，那個(gè)是每個(gè)項(xiàng)目中都必做的，但卻不是最重要的方法。而第三種方法才是項(xiàng)目中最可行，也是最重要的方法。如何優(yōu)化輸入？這是第三種方法的實(shí)現(xiàn)目標(biāo)。而優(yōu)化輸入最重要的環(huán)節(jié)確實(shí)是數(shù)據(jù)探究。數(shù)據(jù)探究圖4 數(shù)據(jù)可視化探究數(shù)據(jù)探究最核心的一項(xiàng)工作確實(shí)是探究輸入變量與目標(biāo)變量的相關(guān)性。分析變量的相關(guān)性能夠使用相關(guān)性計(jì)算，也能夠使用圖形化分析，而后者最直觀常用。分析兩個(gè)分類型變量能夠使用條形圖、網(wǎng)絡(luò)圖或者交叉表。分析兩個(gè)數(shù)值型變量能夠使用散點(diǎn)圖。分析一個(gè)數(shù)值型變量和一個(gè)分類型變量能夠使用直方圖。通過分析，血壓和藥物字段有著強(qiáng)相關(guān)性，因?yàn)閺膱D中能夠看出使用藥物B和藥物A的人差不多上高血壓（3表示高血壓，2表示

11、正常，1表示低血壓），使用藥物C的人差不多上低血壓，這種專門明細(xì)的規(guī)律反映出兩個(gè)字段間存在專門強(qiáng)的相關(guān)關(guān)系，如下圖所示：同理，膽固醇和選擇藥物之間也有一定相關(guān)性，而性不和選擇藥物相關(guān)性不大，如下圖所示：接下來分析數(shù)值型字段的相關(guān)性，從圖中能夠看出血液中的鈉和鉀相關(guān)性專門弱或者沒有。從圖形化的方式推斷相關(guān)性強(qiáng)弱的方法確實(shí)是看圖形中的規(guī)律，規(guī)律越明顯，相關(guān)性就越強(qiáng)，否則越弱。就此圖來講，散點(diǎn)圖中的每一個(gè)點(diǎn)表示一個(gè)病例，而我們最想明白的還不是鈉和鉀的相關(guān)性，而是兩者與藥物的相關(guān)性，因?yàn)樗幬锊攀俏覀兎治龅哪繕?biāo)。因此我們還想明白散點(diǎn)圖中的每個(gè)病例使用的什么藥物。因此，我們使用藥物作為顏色區(qū)分，重新修正散

12、點(diǎn)圖。如下：從圖中可見，上三角區(qū)差不多上淺紅色，講明這部分病例使用的差不多上Y藥物。這是專門明顯的規(guī)律，講明那個(gè)地點(diǎn)面有一種專門強(qiáng)的關(guān)聯(lián)。用數(shù)學(xué)的語言來描述，確實(shí)是鈉和鉀的比例與藥物有專門強(qiáng)的相關(guān)性。因此，我們發(fā)覺了一個(gè)專門重要的變量確實(shí)是鈉和鉀的比例。因此，我們能夠派生一個(gè)變量：鈉鉀比例。優(yōu)化輸入首先，使用派生字段節(jié)點(diǎn)或者Java代碼段節(jié)點(diǎn)生成鈉鉀比例字段。配置如下：其次，使用過濾節(jié)點(diǎn)過濾鈉和鉀字段，否則它們的重復(fù)存在會(huì)導(dǎo)致多重共線性問題。配置如下：過濾后預(yù)覽數(shù)據(jù)如下：重新建模模型整體評(píng)估如下：表4 模型評(píng)估2從表4中可看出，模型精度從原來的95%提升帶了100%。因此實(shí)際中假如遇到預(yù)測精

13、度為100%的情況一定確實(shí)是錯(cuò)的。下面我們再來解讀一下得到的決策樹模型。如下圖所示，從整體來看，得此類病的人有大約一半的人（45%）選擇服用了Y藥物；假如病人血液中鈉和鉀的比例大于14.8285，則選擇服用Y藥物，準(zhǔn)確率為100%；假如病人血液中鈉和鉀的比例不大于14.8285，若全部判成X藥物準(zhǔn)確率只有47.5%，因此再看病人的另外一個(gè)指標(biāo)血壓；假如血壓（其值有1、2和3）為2，則全部判為X藥物，準(zhǔn)確率為100%；假如血壓為1，全部判為C藥物，準(zhǔn)確率僅50%。再看另外一個(gè)指標(biāo)膽固醇，若膽固醇的值為1，全部判為X藥物，則準(zhǔn)確率為100%。若膽固醇的值為2，全部判為C 藥物，則準(zhǔn)確率為100%。假如血壓為3，全部判為A藥物，則準(zhǔn)確率僅56.8%。再看另外一個(gè)指標(biāo)年齡，若年齡大于50.5歲，判為B藥物，則準(zhǔn)確率100%。若年齡不大于50.5歲，判為A藥物，準(zhǔn)確率為100%。小結(jié)第一，在建模中，應(yīng)該注意過擬合問題。在商業(yè)中建模的目的是為了商業(yè)應(yīng)用，因此不僅要保證模型的準(zhǔn)確性，更要保

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫

文檔簡介

溫馨提示

最新文檔

評(píng)論

從專家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔