![決策樹在學(xué)生考試成績中應(yīng)用_第1頁](http://file4.renrendoc.com/view/5006d2bcda87e84a496e1bdd4a1bc14b/5006d2bcda87e84a496e1bdd4a1bc14b1.gif)
![決策樹在學(xué)生考試成績中應(yīng)用_第2頁](http://file4.renrendoc.com/view/5006d2bcda87e84a496e1bdd4a1bc14b/5006d2bcda87e84a496e1bdd4a1bc14b2.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
學(xué)院_信息與電 專業(yè)_計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)_1502本專學(xué)院_信息與電 專業(yè)_計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)_1502本專學(xué)號(hào) 任課教 成題目(可指定題目,也可說明題目范圍決在學(xué)生考試成績中的應(yīng)要求(對(duì)題目、內(nèi)容、行文、字?jǐn)?shù)等作出判分規(guī)定1、結(jié)合自己感的實(shí)際應(yīng)用領(lǐng)域,自擬題目,并使用本學(xué)數(shù)據(jù)挖掘課程中所學(xué)習(xí)的基本數(shù)據(jù)分析和處理方法,包括數(shù)理、探索性分析、數(shù)據(jù)倉庫、相似度計(jì)算、決分類、最近鄰類、樸素分類、邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)則、K-means聚類、層次聚類和密度聚類等知識(shí),對(duì)所解決的實(shí)際題從基本理論、數(shù)學(xué)原理、算法設(shè)計(jì)、數(shù)據(jù)描述和實(shí)驗(yàn)結(jié)果等角度展開描2、要求結(jié)構(gòu)清晰、語言通順、圖文并茂,字?jǐn)?shù)不少于字。正文首行縮進(jìn)2個(gè)漢字,多倍行距設(shè)置為1.25,字體要求為宋體,英文為TimesNewRoman,大小為小四。一定要親自撰寫,自己動(dòng)手設(shè)計(jì)算法和編寫程序,如發(fā)現(xiàn)來自網(wǎng)上,或他人,按處理,本門課程考核總成績計(jì)0分3上交時(shí)每人提交一個(gè)文件夾里面包含電子版和程序文件夾;文件夾和名格式統(tǒng)一為“學(xué)號(hào)姓名-班級(jí)-題目。此外,必須上交的打印稿,并要與電子的內(nèi)容一致,不規(guī)范者將酌情扣分教師教師簽字 日地、隱含的、以前未知的、有潛在使用價(jià)值的信息的過程。決算法是數(shù)據(jù)挖掘用決分類算法中的C4.5算法對(duì)成績進(jìn)行分析得到了成績分析決,分析研究數(shù)據(jù)挖掘(Datamining(Knowledge-DiscoveryinDatabasesKDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘通常通過統(tǒng)計(jì)、分析處理、檢索、機(jī)器生成分類器的一個(gè)特別有效的方法是生成一棵決該方法廣泛應(yīng)用與數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域用來解釋與分類相關(guān)的問題決表示法是應(yīng)用最廣泛的邏輯方法之一。目前生成決方法的算法主要有三種:CART算法、ID3算法和C4.5
C4.5算法具有分類速度快且精度高的特點(diǎn),是發(fā)展比較完善的一種決法首先通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決然后采用建好的決對(duì)對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。決分類算法是將數(shù)據(jù)分類、預(yù)測和規(guī)格的提取。隨著ID3算法和C4.5算法的提出決技術(shù)在數(shù)據(jù)挖掘領(lǐng)域得到了進(jìn)一步的拓展并且在人們生產(chǎn)生活中得到了廣泛應(yīng)用。決是一種根據(jù)自變量的值進(jìn)行遞歸劃分以及預(yù)測因變量的方法。決的主要作用是揭示數(shù)據(jù)中的結(jié)構(gòu)化信息它提供一種在什么條件下會(huì)得到什么值的類似規(guī)則的方法。若因變量為分類變量,稱相應(yīng)的決為分類樹;若因變量為連續(xù)變量,則稱相應(yīng)的決為回歸樹。分類樹對(duì)離散變量做決,回歸樹對(duì)連續(xù)變量做決。一般的數(shù)據(jù)挖掘工具,允許選擇條件和修剪規(guī)則,以及控制參數(shù)(最小結(jié)點(diǎn)的大小,最大樹的深度等等,來限制決。首先介紹一下ID3(inductiondecision-tree)算法,它是一種由數(shù)據(jù)來構(gòu)造決的遞歸過程,是在1986年由Quinlan首先,該算法以信息論為基礎(chǔ),信息論是量標(biāo)準(zhǔn),從而實(shí)現(xiàn)數(shù)據(jù)的歸納分類,它是一個(gè)從上到下、分而治之的歸納過程。ID3算法的大概過程是:先試探性的選擇一個(gè)屬性放置在根節(jié)點(diǎn),并對(duì)該屬性的得在每一個(gè)非葉結(jié)點(diǎn)進(jìn)試時(shí)能獲得關(guān)于被測試記錄的最大的類別信息其具體C4.5算法是對(duì)ID3ID3算法的優(yōu)點(diǎn)并對(duì)ID3算法進(jìn)行了改進(jìn)和補(bǔ)充。C4.5ID3算法些具有很少元素的結(jié)點(diǎn)可能會(huì)使構(gòu)造的決過適應(yīng)如果不考慮這些結(jié)點(diǎn)可能會(huì)更信息增益率等于信息增益與信息的比值,定義如下GainRatio(A)=Gain(A)/SplitInfo(A上式中SplitInfo(A)表示屬性A的信息,信息用來衡量屬性數(shù)據(jù)的廣。C4.5既可以處理離散型描述屬性,也可以處理連續(xù)性描述屬性。在選擇某結(jié)點(diǎn)上的分枝屬性時(shí),對(duì)于離散型描述屬性,C4.5ID3相同,按照該屬性性的取值由小到大進(jìn)行排序;2、兩個(gè)屬性取值之間的中點(diǎn)作為可能的點(diǎn),將該結(jié)點(diǎn)上的數(shù)據(jù)集分成兩部分,計(jì)算每個(gè)可能的點(diǎn)的信息增;3、計(jì)算每一種分割割為單一實(shí)例節(jié)點(diǎn)。為了避免這種情況,我們給出一個(gè)停止閾值a。當(dāng)由一個(gè)節(jié)點(diǎn)分a時(shí),就把該節(jié)點(diǎn)看作是一個(gè)葉子節(jié)點(diǎn)。在該方法
然很高時(shí)就停止分。此時(shí)由于生長不足,導(dǎo)致決過小,分類的錯(cuò)誤率過高。當(dāng)閾值a選擇過小時(shí),例如a0,節(jié)點(diǎn)的分割過程近似等同于原始的分割過a的選擇存在相當(dāng)大的性。如何精確的給出適當(dāng)?shù)拈撝礱以獲得適當(dāng)規(guī)模的決是十分1N23N;4、如果候N作為葉節(jié)點(diǎn),標(biāo)記為訓(xùn)練集中最普通的類;5、foreach候選屬性attribute_list;6、if候選屬性是連續(xù)的then;7、對(duì)該屬性進(jìn)行離散化;8、選擇候選屬性attribute_list中具有最高信息增益的屬性D;9、標(biāo)記節(jié)點(diǎn)N為屬性D;10、foreachDd;11ND=d的分支;12sD=d的訓(xùn)練樣本的集合;13、ifs為空;14、加上一個(gè)樹葉,標(biāo)記為訓(xùn)練集中最普通的類;15、else加上一個(gè)有C4.5(R-{D},C,s)返回的點(diǎn)。1、計(jì)算的SplitI的值得到SplitI()=-5/13LOG2(5/13)-對(duì)于決策學(xué)習(xí)成績來說,計(jì)算屬性每個(gè)分布的期望信息得到對(duì)于=‘男,SI1=4,S21=4,I(4,)=1;對(duì)于=‘女,S12=2,S22=3,I(2,3)=.970;Gain()=I(Sl,S2)-E()=0.2377;信息增益比例為:GainRatio()=0.2377/0.9612=0.24732SplitI-對(duì)于基礎(chǔ)程度=‘良好’,S13= S33=0,I(2,0)因此得到基礎(chǔ)程度屬性的熵為:E(基礎(chǔ)程度)=6/l3*0.9180+5/13*0.9710=3SplitISplitI(上機(jī)時(shí)間)3/13LOG2(3/13)-4/13LOG2(4/13)-上機(jī)時(shí)間>=3,上機(jī)時(shí)間1—2,S21=4S22=0,上機(jī)時(shí)間<=1,S31=3,S33=3Gain(上機(jī)時(shí)間)=0.9957-0.4615=0.5342;信息增益比例:GainRatio(上機(jī)時(shí)間=0.5342/1.5262=0.35004GainRatio(上機(jī)時(shí)間)=0.5342/1.5262=0.3500ID3算法的根節(jié)
男男女1—男好男男
首先獲取一份成績表,然后按成績是否良好進(jìn)行劃分,yes表示良好,no表示一般。計(jì)算學(xué)習(xí)成績屬性分類的期望信息得到:I(sl,s2)=1(6,7)=-6/13log2(6/13)-女女1—男好1—男男0女好男好女男好1—
IF'<=1'and基礎(chǔ)程度=‘一般’thenIF上機(jī)時(shí)間'<=1'and基礎(chǔ)程度=‘好’and=‘男’then學(xué)習(xí)成績良好lF上機(jī)時(shí)間'<=1'and基礎(chǔ)程度=‘好’and
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年實(shí)木類家具項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模式
- 2025年跨境電商產(chǎn)業(yè)園項(xiàng)目提案報(bào)告模范
- 2025年中介促成的辦公室租賃合同示例
- 2025年公司員工福利與激勵(lì)咨詢協(xié)議
- 市政綠化工程申請(qǐng)實(shí)施協(xié)議
- 2025年公路護(hù)欄維護(hù)保養(yǎng)合同范本
- 2025年倉儲(chǔ)調(diào)度員勞動(dòng)合同范文
- 2025年供熱網(wǎng)絡(luò)運(yùn)營維護(hù)服務(wù)合同示范文本
- 2025年農(nóng)藥使用與安全管理技術(shù)合作協(xié)議
- 2025年勞務(wù)派遣合同分析
- 廣州2025年第一次廣東廣州市白云區(qū)政務(wù)服務(wù)和數(shù)據(jù)管理局政府雇員招聘筆試歷年參考題庫附帶答案詳解
- 2025年四川中煙工業(yè)有限責(zé)任公司招聘筆試參考題庫含答案解析
- 【市質(zhì)檢】泉州市2025屆高中畢業(yè)班質(zhì)量監(jiān)測(二) 生物試卷(含答案解析)
- 六年級(jí)2025寒假特色作業(yè)
- DCS-應(yīng)急預(yù)案演練方案
- 2025年江蘇轄區(qū)農(nóng)村商業(yè)銀行招聘筆試參考題庫含答案解析
- 2025年中華財(cái)險(xiǎn)湖南分公司招聘筆試參考題庫含答案解析
- 人教版六年級(jí)數(shù)學(xué)下冊(cè)完整版教案及反思
- 少兒財(cái)商教育講座課件
- 2025年中國科協(xié)所屬單位招聘15名社會(huì)在職人員歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025藥劑科工作人員工作計(jì)劃
評(píng)論
0/150
提交評(píng)論