人工智能(知識工程和數(shù)據(jù)挖掘)課件_第1頁
人工智能(知識工程和數(shù)據(jù)挖掘)課件_第2頁
人工智能(知識工程和數(shù)據(jù)挖掘)課件_第3頁
人工智能(知識工程和數(shù)據(jù)挖掘)課件_第4頁
人工智能(知識工程和數(shù)據(jù)挖掘)課件_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

指導(dǎo)教師:XXX9.1知識工程簡介9.2專家系統(tǒng)可以解決的問題9.3模糊專家可以解決的問題9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題9.5遺傳算法可以解決的問題9.6混合智能系統(tǒng)可以解決的問題9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)第九章知識工程和數(shù)據(jù)挖掘9.1本章討論如何選擇正確的工具,構(gòu)建智能系統(tǒng)并將數(shù)據(jù)轉(zhuǎn)化為知識?選擇正確的工具對于構(gòu)建智能系統(tǒng)而言是最關(guān)鍵的部分構(gòu)建智能系統(tǒng)的過程從理解問題域開始。首先要評估問題,確定可用的數(shù)據(jù)及解決問題需要的信息。一旦理解了問題,就可以選擇合適的工具并用這個(gè)工具開發(fā)系統(tǒng)了9.2專家系統(tǒng)可以解決什么問題?9.2專家系統(tǒng)可以解決什么問題?案例:診斷專家系統(tǒng)開發(fā)一個(gè)智能系統(tǒng),幫助修理Mac電腦的故障。專家系統(tǒng)可以解決這樣的問題嗎?要開發(fā)計(jì)算機(jī)診斷系統(tǒng),就要獲取計(jì)算機(jī)故障排除的知識。使用故障排除手冊是比較好的方法,手冊中的知識非常簡練,幾乎可以直接用在專家系統(tǒng)中。完全可以不必咨詢專家。9.2專家系統(tǒng)可以解決什么問題?故障是通過一系列可視的檢查或測試來發(fā)現(xiàn)的。首先收集最初的信息(系統(tǒng)沒有啟動),根據(jù)其作出推斷。然后,收集另外的信息(電源良好、電線沒有問題)。最終確定導(dǎo)致故障的原因。9.2專家系統(tǒng)可以解決什么問題?Rule:1if taskis‘systemstart-up’then askproblemRule:2if taskis‘systemstart-up’and problemis‘systemdoesnotstart’then ask‘testpowercords’Rule:3if taskis‘systemstart-up’and problemis‘systemdoesnotstart’and ‘testpowercords’isokthen ask‘testPowerstrip’9.2專家系統(tǒng)可以解決什么問題?如何選擇專家系統(tǒng)開發(fā)工具?應(yīng)該使問題的特征和工具的功能相匹配工具不僅包含高級程序語言,如LISP、OPS、C、Java,也包含專家系統(tǒng)框架語言提供了更大的靈活性,但是要求的編程技巧也很高框架雖然不靈活,但是提供了內(nèi)建推理引擎、解釋工具盒用戶界面,只需輸入英語編寫的規(guī)則,可快速構(gòu)建原型9.2專家系統(tǒng)可以解決什么問題?公司穩(wěn)定性的指標(biāo)是什么一些重要的指標(biāo),例如,公司是哪年成立的、員工的人數(shù)、總收入、智能系統(tǒng)產(chǎn)品的總收入如、已售產(chǎn)品的數(shù)量等。9.2專家系統(tǒng)可以解決什么問題?要先確定模糊技術(shù)是否適合解決這類問題如果不能為每個(gè)可能的情況制定出一系列的規(guī)則,那就使用模糊邏輯。如果問題本身就不嚴(yán)密,那么模糊技術(shù)就是最好的選擇案例3:決策支持模糊技術(shù)開發(fā)一個(gè)智能系統(tǒng)來評估抵押申請。模糊專家系統(tǒng)能處理這樣的問題嗎?9.3模糊專家系統(tǒng)可以解決的問題首先用模糊術(shù)語表達(dá)抵押申請?jiān)u估中的基本概念然后用合適的模糊工具在原型系統(tǒng)中實(shí)現(xiàn)這個(gè)概念最后用選定的測試用例來測試和優(yōu)化系統(tǒng)9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題9.3模糊專家系統(tǒng)可以解決的問題案例5:預(yù)測神經(jīng)網(wǎng)絡(luò)開發(fā)一個(gè)進(jìn)行房地產(chǎn)評估的智能系統(tǒng),神經(jīng)網(wǎng)絡(luò)可以解決這個(gè)問題嗎?房地產(chǎn)評估是一個(gè)根據(jù)類似住房銷售價(jià)格的知識預(yù)測給定房產(chǎn)的市場價(jià)的問題選擇神經(jīng)網(wǎng)絡(luò),我們無法理解房產(chǎn)的估價(jià)是如何得出的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)對于用戶來講是個(gè)黑盒子9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題輸入(房產(chǎn)的位置、居住面積、臥室數(shù)量、浴室數(shù)量、土地尺寸、供熱系統(tǒng)等)輸出就是我們試圖預(yù)測的結(jié)果我們有很多例子來訓(xùn)練神經(jīng)網(wǎng)絡(luò),即最近銷售的房屋及其價(jià)格的特征,訓(xùn)練集需要足夠的豐富9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題如何讓確定訓(xùn)練集“足夠大”?網(wǎng)絡(luò)的推廣能力取決于三個(gè)主要因素:訓(xùn)練集大小、網(wǎng)絡(luò)的架構(gòu)和問題的復(fù)雜性。公式其中N是訓(xùn)練例子的數(shù)量,nw是網(wǎng)絡(luò)中突出權(quán)重的數(shù)量,e是測試允許額網(wǎng)絡(luò)誤差有些特征(例如房子的條件和位置)可以確定在1(沒有吸引力)到10(很有吸引力之間)9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題離散數(shù)據(jù),例如臥室的數(shù)量和浴室的數(shù)量,也有最大值和最小值臥室的數(shù)量一般為0~4修改后的離散數(shù)據(jù)9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題分類數(shù)據(jù),例如性別和婚姻狀態(tài)可以用1/N編碼來修改例如,婚姻狀態(tài)可以是單身、離異、已婚、#寡,已婚的人可以用(0010)表示9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題輸入層(有十個(gè)神經(jīng)元)將修改后的輸入值傳到隱含層隱含層包含兩個(gè)神經(jīng)元,輸出層只有一個(gè)神經(jīng)元,隱含層和輸出層的神經(jīng)元使用S型激活函數(shù)9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題如何解釋網(wǎng)絡(luò)的輸出?網(wǎng)絡(luò)輸出層的值為0~1之間的連續(xù)值,要解釋這個(gè)結(jié)果只需要倒轉(zhuǎn)程序即可例如,在訓(xùn)練集中,銷售價(jià)格的范圍在$52500~$225000之間,輸出值將$50000映射為0,$250000映射為1,如果網(wǎng)絡(luò)的輸出是0.3546,結(jié)果為9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題如何驗(yàn)證結(jié)果?為了驗(yàn)證結(jié)果可以使用沒有遇到過的例子集。在訓(xùn)練前,將所有可用的數(shù)據(jù)隨機(jī)分成訓(xùn)練集和測試集,可以用測試集進(jìn)行測試神經(jīng)網(wǎng)絡(luò)是不透明的,要想把握輸入輸出之間的關(guān)系,可以通過靈敏度分析執(zhí)行靈敏度分析要將每個(gè)輸入設(shè)成最小值,然后再設(shè)成最大值,并測量網(wǎng)絡(luò)的輸出9.4神經(jīng)網(wǎng)絡(luò)可以解決的問題遺傳算法可以用于很多優(yōu)化問題。優(yōu)化是為問題尋找較好解決方法的基本過程。問題可能有多余一個(gè)的解決方案,而這些解決方案品質(zhì)不同。遺傳算法產(chǎn)生候選解決種群,然后通過自然選擇使這些解決方案進(jìn)化,不好的解決方案趨向于淘汰,好的方案存活并繼續(xù)繁殖。不斷的重復(fù)這個(gè)過程,遺傳算法就得到了最優(yōu)解9.5遺傳算法可以解決的問題案例:旅行推銷員問題開發(fā)一個(gè)可以產(chǎn)生優(yōu)化路線的智能系統(tǒng),開車旅行并參觀歐洲中部和西部的主要城市然后再回家,遺傳算法可以解決這個(gè)問題嗎?這就是著名的旅行推銷員問題(TSP)。給定有限個(gè)城市N,以及每兩個(gè)城市之間旅行的費(fèi)用(或距離),我們要找出花費(fèi)最少(或路程最短)的路線,而每個(gè)城市都能到達(dá)且僅到達(dá)一次后回到出發(fā)點(diǎn)TSP問題經(jīng)常出現(xiàn)在運(yùn)輸和后勤應(yīng)用中,例如學(xué)校所屬區(qū)域接送孩子,給回家的人送飯,安排收取郵件的卡車路線9.5遺傳算法可以解決的問題遺傳算法是怎么解決TSP問題的?首先,要決定如何表達(dá)推銷員的路線。最自然的方法就是路徑表示法。每個(gè)城市用字母或數(shù)字命名,城市間的路線用染色體來表示,用合適的遺傳操作來產(chǎn)生新的路線9.5遺傳算法可以解決的問題TSP中的交叉操作如何進(jìn)行傳統(tǒng)形式的交叉操作不能直接在TSP中使用9.5遺傳算法可以解決的問題TSP交叉過程9.5遺傳算法可以解決的問題TSP突變操作如何進(jìn)行?有兩種突變操作:倒數(shù)交換和倒置9.5遺傳算法可以解決的問題如何定義TSP的適應(yīng)函數(shù)?(標(biāo)準(zhǔn))一旦定義了適應(yīng)性函數(shù)和遺傳操作,就可以實(shí)現(xiàn)并運(yùn)行GA例如,假設(shè)在一個(gè)1*1的正方形中有20個(gè)城市首先選擇染色體種群的大小和遺傳代數(shù)??梢宰尫N群從小到大。9.5遺傳算法可以解決的問題9.5遺傳算法可以解決的問題如何得知已經(jīng)找到了最佳路線?實(shí)際上我們不可能知道是否找到了最佳路線。只有用不同的染色體種群大小、不同的交叉率和突變率做更多的測試,才能得到答案9.5遺傳算法可以解決的問題要解決現(xiàn)實(shí)世界中復(fù)雜的應(yīng)用問題,需要融合專家系統(tǒng)、模糊邏輯、神經(jīng)網(wǎng)絡(luò)和進(jìn)化計(jì)算這些方法的優(yōu)點(diǎn)的復(fù)雜智能系統(tǒng)混合智能系統(tǒng)還在發(fā)展中,神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí),模糊邏輯最重要的優(yōu)勢是模擬人類的決策能力9.6混合智能系統(tǒng)可以解決的問題案例:神經(jīng)模糊決策支持系統(tǒng)開發(fā)一個(gè)根據(jù)心臟圖像進(jìn)行心肌灌注診斷的智能系統(tǒng)。有一些心臟圖像以及臨床說明和應(yīng)聲的注解?;旌舷到y(tǒng)可以解決這個(gè)問題嗎?9.6混合智能系統(tǒng)可以解決的問題現(xiàn)代心臟內(nèi)科學(xué)診斷的基礎(chǔ)是分析SPECT(單光子發(fā)射計(jì)算機(jī)斷層圖像)圖像。給患者注入放射性示蹤劑,就可以獲得兩套SPECT圖像(負(fù)荷圖像和靜息圖像),心臟專家通過比較兩個(gè)圖像就可以發(fā)現(xiàn)心臟功能的異常SPECT圖像時(shí)一種256個(gè)灰度的高分辨率的二維黑白圖像。圖像中比較明亮的地方和心肌灌注良好的部分對應(yīng),較暗的地方表示缺血,通過觀察SPECT圖像比較主觀,容易出錯,所以智能系統(tǒng)就體現(xiàn)了很大的價(jià)值所在9.6混合智能系統(tǒng)可以解決的問題在本案例中我們使用276個(gè)心臟診斷病例。每個(gè)病例有2個(gè)SPECT圖像,每個(gè)圖像分成22個(gè)區(qū)域,用0~100的整數(shù)表示灌注是否良好每個(gè)心臟診斷病例用44個(gè)連續(xù)的特征和一個(gè)二值特征來表示,二值特征表示最后的診斷異?;蛘哒U麄€(gè)SPECT的數(shù)據(jù)集有55個(gè)正常病例(陽性病例)和212個(gè)異常病例(陰性病例)。數(shù)據(jù)集分成訓(xùn)練集和測試集。訓(xùn)練集有40個(gè)陽性病例和40個(gè)陰性病例,測試集有15個(gè)陽性病例和172個(gè)陰性病例9.6混合智能系統(tǒng)可以解決的問題可以訓(xùn)練后向傳送神經(jīng)網(wǎng)絡(luò)來SPECT圖像分成正常圖像和異常圖像嗎?后向傳送神經(jīng)網(wǎng)絡(luò)確實(shí)可以用于分類SPECT圖像-訓(xùn)練集足夠大,則網(wǎng)絡(luò)就可以完成分類。但是,在用測試集進(jìn)行測試時(shí),我們發(fā)現(xiàn)網(wǎng)絡(luò)的性能很差-大概25%的正常心臟診斷病例被無分為異常,而超過35%的異常病例被診斷為正常,總的誤差達(dá)到了33%。9.6混合智能系統(tǒng)可以解決的問題這就表示訓(xùn)練集中缺少些重要的病例對異常病例的誤分類的后果要比正常對正常病例誤分類的結(jié)果嚴(yán)重的多。因此,要減少異常的誤分類比例,就要增加正常圖像的誤分類比例神經(jīng)網(wǎng)絡(luò)陳勝兩種輸出:圖像屬于normal類的概率和abnormal例:0.92和0.16正常017和0.51異常0.51和0.49無法判斷9.6混合智能系統(tǒng)可以解決的問題可以在醫(yī)學(xué)診斷的決策制定中使用模糊邏輯嗎?實(shí)際上,醫(yī)生通過依賴于自身的經(jīng)驗(yàn)和直覺來發(fā)現(xiàn)心肌的異常情況。模糊邏輯就是一種模擬心臟專家評估心臟病發(fā)作風(fēng)險(xiǎn)的辦法構(gòu)建模糊系統(tǒng),首先要確定輸入(NNoutput1和NNoutput2[0~1])和輸出(心臟病發(fā)作的風(fēng)險(xiǎn)),定義模糊集,構(gòu)建模糊規(guī)則9.6混合智能系統(tǒng)可以解決的問題9.6混合智能系統(tǒng)可以解決的問題9.6混合智能系統(tǒng)可以解決的問題9.6混合智能系統(tǒng)可以解決的問題9.6混合智能系統(tǒng)可以解決的問題風(fēng)險(xiǎn)在30%~50%之間的病例很難歸類為normal或abnormal,這樣的病例是不確定的我們可以用心臟專家的經(jīng)驗(yàn)和知識將這些不確定的病例分類嗎?9.6混合智能系統(tǒng)可以解決的問題1)如果區(qū)域i在負(fù)荷時(shí)的灌注高于靜息時(shí)的灌注,則心臟病的風(fēng)險(xiǎn)減少2)如果區(qū)域i在負(fù)荷時(shí)的灌注不高于靜息時(shí)的灌注,則心臟病的風(fēng)險(xiǎn)增加步驟1:將心臟病病例輸入神經(jīng)模糊系統(tǒng)步驟2:如果風(fēng)險(xiǎn)不在30%~50%之間,結(jié)束。否則,到步驟3步驟3:對于區(qū)域1,負(fù)荷時(shí)的灌注高于靜息時(shí)的灌注,則將結(jié)果乘以0.99以減少當(dāng)前風(fēng)險(xiǎn),否則乘以1.01來增加當(dāng)前的風(fēng)險(xiǎn)。重復(fù)直至22個(gè)區(qū)域都計(jì)算完步驟4:如果還有在30%~50%之間的則還確定為uncertain類9.6混合智能系統(tǒng)可以解決的問題發(fā)現(xiàn)分類的準(zhǔn)確性得到了很大的提升:總體的診斷誤差率不超過5%,僅有3%的異常病例誤歸到正常類。正常病例的誤診率較高,但是也好過心臟專家的分類結(jié)果9.6混合智能系統(tǒng)可以解決的問題數(shù)據(jù)是我們收集和存儲的,知識是幫助我們做決策的。從數(shù)據(jù)中提取知識稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘也可以定義成在大量數(shù)據(jù)中進(jìn)行探索和分析,以便發(fā)現(xiàn)有意義的模式和規(guī)則。數(shù)據(jù)挖掘的最終目標(biāo)是發(fā)現(xiàn)知識我們生活在數(shù)據(jù)快速增長的時(shí)代,需要有能夠幫助我們提取有意義的信息和知識的方法9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)現(xiàn)代企業(yè)必須對市場的變化做出快速響應(yīng),需要快速的助理數(shù)據(jù)倉庫中當(dāng)前的數(shù)據(jù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的主要特征是容量數(shù)據(jù)倉庫是用來支持企業(yè)制定決策的,所需要的數(shù)據(jù)通過查詢工具來獲得查詢工具和數(shù)據(jù)挖掘之間區(qū)別查詢工具需要假設(shè),數(shù)據(jù)挖掘不需要假設(shè)9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)數(shù)據(jù)挖掘還是一個(gè)全新的不斷發(fā)展的領(lǐng)域,但是他在銀行、金融、營銷和電信領(lǐng)域已經(jīng)有了大量的應(yīng)用統(tǒng)計(jì)方法不能解決數(shù)據(jù)挖掘的問題數(shù)據(jù)挖掘通常使用神經(jīng)網(wǎng)絡(luò)和神經(jīng)模糊系統(tǒng)。數(shù)據(jù)挖掘最常見的工具是決策樹9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)決策樹可以定義為推理過程的圖。通過樹形結(jié)構(gòu)來表述數(shù)據(jù)集。特別適合解決分類問題決策樹包含節(jié)點(diǎn)、分支和葉子9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)大因變量決定研究的目標(biāo),他是由用戶選擇的。Household被設(shè)置成因變量取值可以是responded或notresponded兩種根節(jié)點(diǎn)下面是樹的下一層。書選擇了變量Homeownership作為因變量的預(yù)測器,并將所有的家庭按照預(yù)測器的值進(jìn)行拆分。數(shù)據(jù)的拆分也叫分割。9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)最佳分割最適合用于創(chuàng)建某一類占主導(dǎo)地位的節(jié)點(diǎn)有幾種方法可以計(jì)算分割數(shù)據(jù)的預(yù)測器的能力,最好的方法是基于基尼不均勻系數(shù)基尼系數(shù)是評價(jià)預(yù)測器分割秦代節(jié)點(diǎn)中所包含的類的好壞的一種度量方法9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)對角線和財(cái)富絕對均等分配相對應(yīng),上曲線為真實(shí)的經(jīng)濟(jì)情況基尼系數(shù)就是陰影面積除以對角線下方的面積9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)決策樹要盡力分割出最大的一個(gè)類不存在可以把一個(gè)類和另一個(gè)類明確分隔開的數(shù)據(jù)庫字段9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)大9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)用基尼不均等度量選擇的分割自動生長大9.7數(shù)據(jù)挖掘和知識發(fā)現(xiàn)按照經(jīng)驗(yàn)進(jìn)行猜測來分割大9.7數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論