下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、C4.5 算法在一個(gè)學(xué)生成績管理系統(tǒng)中的應(yīng)用0 引言智能化管理手段在高校教學(xué)管理中應(yīng)用越來越普及, 但大多 數(shù)系統(tǒng)功能單一技術(shù)陳舊, 缺乏歸納推算及決策功能。 高校管理 者迫切希望能夠從系統(tǒng)大量的數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)規(guī)律、 研究數(shù)據(jù)間 深層次的聯(lián)系, 制定規(guī)則,幫助管理者更有依據(jù)的制定教學(xué)決策, 調(diào)整教學(xué)計(jì)劃。本文將討論如何應(yīng)用 C4.5 算法數(shù)據(jù)挖掘技術(shù) ID3 算法 的改良算法, 通過對(duì)學(xué)生已經(jīng)修過的專業(yè)基礎(chǔ)課構(gòu)造決策樹, 創(chuàng) 建規(guī)則,使學(xué)生成績管理系統(tǒng)具有能夠預(yù)測學(xué)生后續(xù)專業(yè)課程成 績的功能。1 C4.5 算法在 ID3 算法上的改進(jìn)ID3 算法在實(shí)際應(yīng)用時(shí),一些問題出現(xiàn)了。學(xué)生成績數(shù)據(jù)是 連
2、續(xù)的,而 ID3 算法要求數(shù)據(jù)必須是離散的某些課程的總體成績 偏高或者偏低, ID3 算法無法計(jì)算信息增益時(shí)偏向選擇取值較多 的屬性。因此在 C4.5 算法是在 ID3 算法上進(jìn)行了優(yōu)化的決策樹 生成算法。和 ID3 相比,它作了如下改進(jìn) 1 :1)用信息增益率取代信息增益,克服了以往偏向選擇取值 多的屬性作為分裂屬性的不足;2)在數(shù)構(gòu)造過程中或構(gòu)造完成后進(jìn)行剪枝;3)能夠?qū)崿F(xiàn)連續(xù)的屬性的離散化處理;4)能夠?qū)缥粗膶傩灾颠M(jìn)行不完整數(shù)據(jù)處理;5)能夠最終生成產(chǎn)生式規(guī)則。2 用 C4.5 算法構(gòu)建決策樹下面抽取本校軟件開發(fā)專業(yè)的 14 名學(xué)生成績作為樣本集,其中高等數(shù)學(xué)、C語言程序設(shè)計(jì)、數(shù)據(jù)
3、結(jié)構(gòu)為先導(dǎo)課程,算法思 想為學(xué)生還未修的后續(xù)課程,通過 C4.5 算法構(gòu)建決策樹,建立 規(guī)則,找出這三門課程對(duì)“算法思想”的影響程度并對(duì)該門課程 作出成績預(yù)測。“高等數(shù)學(xué)”、“C 語言程序設(shè)計(jì)”、“數(shù)據(jù)結(jié) 構(gòu)”為決策屬性集, 表 1中“1”代表該門課程及格,“0”代表該門課程不及格。選定數(shù)據(jù)模型Score (高等數(shù)學(xué)、C語言程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)、算法思想),選取訓(xùn)練樣本集為:Score (高等數(shù)學(xué)、C語言程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)、算法思想)1 , 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0 , 0 , 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1
4、, 1, 1 , 0, 0, 1, 1, 1, 0, 0, 1 , 1, 0,0, 0, 1, 1, 0 , 0, 1, 1, 1, 0 , 1, 1, 1, 1, 1, 1, 1 。2.1 構(gòu)造決策樹 21)信息熵的計(jì)算:算法思想及格 9 人,不及格 5 人。2)條件熵的計(jì)算:高等數(shù)學(xué)的條件熵計(jì)算。3)信息增益:高等數(shù)學(xué)的信息增益。5)信息增益率:高等數(shù)學(xué)信息增益率。同理計(jì)算出C語言程序設(shè)計(jì)的信息增益率是0.0174,數(shù)據(jù)結(jié)構(gòu)的信息增益率是 0.2396 ,因此選取信息增益率最大的“數(shù) 據(jù)結(jié)構(gòu)”作為決策樹的根節(jié)點(diǎn)。樹的左分支表示數(shù)據(jù)結(jié)構(gòu)不及格導(dǎo)致算法思想不及格, 左分 支的準(zhǔn)確度達(dá)到了 7/
5、8=87.5%,因此對(duì)左分支停止分割。繼續(xù)對(duì) 右分支進(jìn)行分割。2.2 選取決策樹的分支屬性右分支還有 6 個(gè)樣本, 因?yàn)閿?shù)據(jù)結(jié)構(gòu)已被選做根節(jié)點(diǎn), 所以 在C語言程序設(shè)計(jì)和高等數(shù)學(xué)中選一個(gè)作為右分支的根節(jié)點(diǎn)。1) 信息熵的計(jì)算:右支中算法思想及格2 人,不及格 4 人。2)條件熵的計(jì)算:高等數(shù)學(xué)的條件熵計(jì)算。4)屬性V的信息屬性:高等數(shù)學(xué)的信息增益屬性。率已經(jīng)達(dá)到 2/2=100%,停止對(duì)右分支繼續(xù)分割。對(duì)于左分支,三個(gè)屬性:高等數(shù)學(xué)、C語言程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)現(xiàn)在只有 C語言程序 設(shè)計(jì)還未被用, 因而用該屬性繼續(xù)對(duì)子樹左分支進(jìn)行分割, 如圖 1。2.3 對(duì)決策樹的剪枝分析以C語言程序設(shè)計(jì)為根節(jié)點(diǎn)
6、的子樹的右分支,準(zhǔn)確率為0/1=0%,左分支準(zhǔn)確率為 1/3=33.3%,為此進(jìn)一步對(duì)此樹進(jìn)行修剪3。對(duì)于決策樹C語言程序設(shè)計(jì)屬性節(jié)點(diǎn)右分支用葉節(jié)點(diǎn)代替此分支,如圖 2,此時(shí)其準(zhǔn)確率為 2/4=50%3 用決策樹制定規(guī)則規(guī)則 1,如果“數(shù)據(jù)結(jié)構(gòu)”及格,則算法思想也及格;準(zhǔn)確 度=7/8=87.5% ;覆蓋率 =8/14=57.1%。規(guī)則 2,如果“數(shù)據(jù)結(jié)構(gòu)”不及格,并且“高等數(shù)學(xué)”也不 及格,則算法思想不及格;準(zhǔn)確度 =2/2=100%;覆蓋率 =8/14=57.1%。規(guī)則 3,如果“數(shù)據(jù)結(jié)構(gòu)”不及格,但“高等數(shù)學(xué)”及格, 則算法思想及格;準(zhǔn)確度 =2/4=50%;覆蓋率 =4/14=28.6% 。通過決策樹規(guī)則就能通過“高等數(shù)學(xué)”、“C語言程序設(shè)計(jì)”、“數(shù)據(jù)結(jié)構(gòu)”這三門課成績預(yù)測學(xué)生的“算法思想”是否 能夠及格。幫助教師及時(shí)調(diào)整教學(xué)方法,同時(shí)也給學(xué)生以警示。4 結(jié)束語C4.5 算法還可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂大學(xué)《工程軟件B》2021-2022學(xué)年期末試卷
- 臨沂大學(xué)《輔助設(shè)計(jì)軟件2》2021-2022學(xué)年第一學(xué)期期末試卷
- 臨沂大學(xué)《傳播學(xué)概論B》2021-2022學(xué)年第一學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《生活中的法律》2022-2023學(xué)年期末試卷
- 2024年市場總監(jiān)聘請(qǐng)合同樣本
- 2024年企業(yè)間股權(quán)轉(zhuǎn)讓與投資合同
- 2024年塔吊施工進(jìn)度合同
- 2024年農(nóng)業(yè)種植勞務(wù)合作合同
- (2024版)股權(quán)投資合同標(biāo)的及詳細(xì)條款
- 2024-2030年中國奶粉行業(yè)市場銷售預(yù)測及未來五發(fā)展趨勢報(bào)告
- 2024秋期國家開放大學(xué)《政治學(xué)原理》一平臺(tái)在線形考(形考任務(wù)三)試題及答案
- 化工企業(yè)中試階段及試生產(chǎn)期間的產(chǎn)品能否對(duì)外銷售
- 多圖中華民族共同體概論課件第十一講 中華一家與中華民族格局底定(清前中期)根據(jù)高等教育出版社教材制作
- 中國馬克思主義與當(dāng)代思考題(附答案)
- 金屬風(fēng)管支架重量計(jì)算表
- 技術(shù)標(biāo)書綜合說明
- 中國行政區(qū)劃空白圖
- 圖文解讀油氣罐區(qū)防火十條規(guī)定
- 關(guān)于少先隊(duì)儀式教育的實(shí)踐研究初探
- 市政管網(wǎng)工程安全文明施工方案
- 門座式起重機(jī)安裝作業(yè)指導(dǎo)書
評(píng)論
0/150
提交評(píng)論