下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大連底N大孕人工智能(小論文)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)班級(jí):電計(jì)1203學(xué)號(hào):201281303姓名:劉陽(yáng)知識(shí)發(fā)現(xiàn)及數(shù)據(jù)挖掘中的決策樹(shù)方法及其應(yīng)用概述摘要:決策樹(shù)是一種用于分類、聚類和預(yù)測(cè)的預(yù)測(cè)型建模方法,對(duì)數(shù)據(jù)探查、分類等具有廣泛的適應(yīng)性。決策樹(shù)以樹(shù)形結(jié)構(gòu)來(lái)表示決策集合,由葉節(jié)點(diǎn)代表類或者類分布。由預(yù)分類組成的訓(xùn)練集經(jīng)過(guò)每一步最佳拆分生成決策樹(shù)。拆分的純度可以由基尼系數(shù)等方式衡量。為了獲得穩(wěn)定的決策樹(shù)需要進(jìn)行剪枝。引言:數(shù)據(jù)挖掘(DataMining,DM)是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。而決策樹(shù)是數(shù)據(jù)挖掘分類算法的一個(gè)重要方法。在各種分類算法中,決策樹(shù)是最直觀的一種正文:什么是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)是我們收集和存儲(chǔ)的,知識(shí)是幫助我們做決策的。從數(shù)據(jù)中提取知識(shí)稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘也可以定義為在大量數(shù)據(jù)中進(jìn)行探索和分析,提取出有意義的模式和規(guī)則的過(guò)程。數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是指從大量數(shù)據(jù)中辨識(shí)出有效的、新穎的、潛在有用的并可理解的模式的高級(jí)處理過(guò)程??梢钥闯觯瑪?shù)據(jù)發(fā)現(xiàn)的最終目標(biāo)是發(fā)現(xiàn)知識(shí),而數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。什么是決策樹(shù)2.1決策樹(shù)的定義決策樹(shù)是一種用于分類、聚類和預(yù)測(cè)的預(yù)測(cè)型建模方法。決策樹(shù)可以定義為推理過(guò)程的圖,它是一個(gè)預(yù)測(cè)模型,代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)方法著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出分類規(guī)則,是一種直觀的分類表示方法,同時(shí)也是高效的分類器,可以非常高效的產(chǎn)生分類規(guī)則。2.2.決策樹(shù)的結(jié)構(gòu)決策樹(shù)以樹(shù)形結(jié)構(gòu)來(lái)表示決策集合,其中包括內(nèi)部節(jié)點(diǎn)、分支和葉節(jié)點(diǎn)。決策樹(shù)的每一個(gè)非終葉節(jié)點(diǎn)表示所考慮的數(shù)據(jù)項(xiàng)的測(cè)試或決策。一個(gè)確定分支的選擇取決于測(cè)試的結(jié)果,代表一個(gè)測(cè)試輸出,而每個(gè)葉節(jié)點(diǎn)代表類或者類分布。為了對(duì)數(shù)據(jù)集分類,從根節(jié)點(diǎn)開(kāi)始,根據(jù)判定自頂向下,趨向終葉節(jié)點(diǎn)或葉節(jié)點(diǎn)。決策樹(shù)的生成3.1發(fā)現(xiàn)拆分首先,有一個(gè)預(yù)分類記錄組成的訓(xùn)練集,其中所有的目標(biāo)變量值都是已知的。我們的任務(wù)是生成一棵樹(shù),基于輸入變量的數(shù)值給新紀(jì)錄的目標(biāo)字段指派一個(gè)類。遞歸執(zhí)行,我們?cè)诿恳粋€(gè)節(jié)點(diǎn)按照單一輸入字段的功能拆分紀(jì)錄可以建立樹(shù),因而,在這里需要判斷哪一個(gè)輸入字段會(huì)產(chǎn)生最佳拆分。所謂最佳拆分,是指能夠把記錄很好的分割為不同的群組,是每個(gè)群組里的單個(gè)類成為主導(dǎo)。3.2生成完全樹(shù)決策樹(shù)建立算法通常始于在期望類別中試圖發(fā)現(xiàn)能夠最好的拆分?jǐn)?shù)據(jù)的輸入變量,即首次拆分產(chǎn)生兩個(gè)或更多的子節(jié)點(diǎn),然后以與根節(jié)點(diǎn)相同的方式繼續(xù)拆分每一個(gè)子節(jié)點(diǎn),在樹(shù)的每一后繼層,前一次拆分創(chuàng)建的子集本身按照最利于其工作的規(guī)則拆分,書繼續(xù)生長(zhǎng),直到不可能發(fā)現(xiàn)更好的方法拆分新的記錄。3.3決策樹(shù)歸納這里列舉一種決策樹(shù)歸納的基本算法,是一種貪心算法。樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開(kāi)始如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為葉節(jié)點(diǎn),并用該類標(biāo)記否則,算法使用信息增益(一種基于熵的度量)或者基尼(也稱整體發(fā)散性),選擇能夠最好的將樣本分類的屬性。將屬性作為該節(jié)點(diǎn)的“測(cè)試”或“判定”屬性。對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并據(jù)此劃分樣本。使用同樣的過(guò)程,遞歸的對(duì)每個(gè)劃分上的樣本生成樣本決策樹(shù)。當(dāng)遞歸到以下條件之一成立時(shí)停止1)給定節(jié)點(diǎn)的所有樣本屬于同一類2)沒(méi)有剩余的屬性可以用于進(jìn)一步的劃分樣本3)分枝沒(méi)有樣本3.4選擇最佳拆分的測(cè)試如3.1中所說(shuō),最佳拆分是指能夠把記錄很好的分割為不同的群組,是每個(gè)群組里的單個(gè)類成為主導(dǎo)。那么,我們需要引入一個(gè)評(píng)價(jià)可能拆分的度量一一純度。低純度意味著該集合包含了各個(gè)類的典型分布,而高純度意味著但各類別的成員占主流。用于評(píng)價(jià)拆分分類目標(biāo)變量的純度度量包括:?基尼(也稱總體發(fā)散性)熵(也稱信息增益)?信息增益比率卡方檢驗(yàn)這些方法的具體使用超出了本文的范圍,也超出了筆者的知識(shí)水平,有意者可以翻閱相關(guān)書籍,如參考文獻(xiàn)[5];另外還有一些拆分方法,如參考文獻(xiàn)[3]中基于粗糙集的方法。4決策樹(shù)的剪枝4.1為什么要進(jìn)行剪枝如前所述,只要能找到新的拆分,能夠改善把訓(xùn)練集中的記錄分割為更純的子集的能力,決策樹(shù)就會(huì)繼續(xù)長(zhǎng)高。這樣的決策樹(shù)已針對(duì)訓(xùn)練集進(jìn)行優(yōu)化,因而去掉任何葉節(jié)點(diǎn)都會(huì)增加該樹(shù)在訓(xùn)練集上的誤差率。但是事實(shí)上,并非完整的樹(shù)一定是最好的分類工具。決策樹(shù)算法首先在有大量記錄的根節(jié)點(diǎn)處做出最好的拆分,隨著節(jié)點(diǎn)變得越來(lái)越小,一個(gè)節(jié)點(diǎn)上特定訓(xùn)練記錄的特性開(kāi)始支配該過(guò)程??梢赃@么理解,一棵樹(shù)在大節(jié)點(diǎn)處發(fā)現(xiàn)通用模式,而在小節(jié)點(diǎn)發(fā)現(xiàn)訓(xùn)練集的具體模式,導(dǎo)致該樹(shù)過(guò)度適應(yīng)于該訓(xùn)練集,結(jié)果將是一個(gè)不會(huì)做出好的預(yù)測(cè)的不穩(wěn)定的樹(shù)。解決這個(gè)問(wèn)題需要一個(gè)成為剪枝的過(guò)程。4.2剪枝的簡(jiǎn)單分類剪枝分預(yù)先剪枝和后剪枝兩種。預(yù)先剪枝是在樹(shù)的生長(zhǎng)過(guò)程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長(zhǎng),這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說(shuō)這些已停止的分支會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹(shù)不純度降差最大的地方過(guò)分靠近根節(jié)點(diǎn)。后剪枝中樹(shù)首先要充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對(duì)所有相鄰的成對(duì)葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長(zhǎng),那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種合并小的葉節(jié)點(diǎn)以排除不穩(wěn)定的拆分的做法和節(jié)點(diǎn)分支的過(guò)程恰好相反,經(jīng)過(guò)剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹(shù)也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無(wú)需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。通用的剪枝算法有:CART修剪算法、C5修剪算法等,這里不作展開(kāi)討論。從決策樹(shù)中提煉規(guī)則決策樹(shù)應(yīng)用簡(jiǎn)單舉例參考文獻(xiàn):蔡自興,徐光祐《人工智能及其應(yīng)用》清華大學(xué)出版社MichaelNegnevitsky著顧力栩、沈晉惠等譯《人工智能智能系統(tǒng)指南》機(jī)械工業(yè)出版社鄒瑞芝,羅可,曾正亮《基于粗糙集理論的決策樹(shù)分類方法》計(jì)算機(jī)工程與科學(xué)2009年第31卷第10期1007-130X(2009)10-0112-03JiaweiHan,MichelineKa
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 班級(jí)戶外策劃方案
- 石河子大學(xué)《園林工程制圖》2021-2022學(xué)年第一學(xué)期期末試卷
- 房屋維修協(xié)議書范本(11篇)
- 石河子大學(xué)《跨文化傳播》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《數(shù)字圖像處理》2022-2023學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《俄羅斯文學(xué)史》2022-2023學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《超精密制造工程》2023-2024學(xué)年第一學(xué)期期末試卷
- 國(guó)家工商總局 建設(shè)工程勘察合同
- 合伙人招募合同
- 2024高考政治一輪復(fù)習(xí)第三單元發(fā)展社會(huì)主義民主政治第六課我國(guó)的人民代表大會(huì)制度課時(shí)作業(yè)含解析必修2
- 川教版《生命-生態(tài)-安全》第9課-防止窒息-課件
- 數(shù)學(xué)五上《平行四邊形的面積》公開(kāi)課教學(xué)設(shè)計(jì)西南師大版-五年級(jí)數(shù)學(xué)教案
- 教科版(2023秋)小學(xué)科學(xué) 五年級(jí)上冊(cè) 2.5風(fēng)的作用 教案
- 毛澤東思想和中國(guó)特色社會(huì)主義理論體系概論(復(fù)旦大學(xué))智慧樹(shù)知到課后章節(jié)答案2023年下復(fù)旦大學(xué)
- 22.第10課第2框課件《促進(jìn)文化交流文明互鑒》
- 物流倉(cāng)庫(kù)消防改造施工方案
- 九月質(zhì)量評(píng)估(月考)-六年級(jí)上冊(cè)數(shù)學(xué)人教版
- 初中化學(xué)新課程標(biāo)準(zhǔn)實(shí)驗(yàn)?zāi)夸?2
- 采用新技術(shù)、新工藝、新材料、新設(shè)備的安全管理措施
- 9.1.1.1化學(xué)品普查表
- 保健食品進(jìn)銷臺(tái)帳、經(jīng)營(yíng)目錄
評(píng)論
0/150
提交評(píng)論