(計算機軟件與理論專業(yè)論文)基于數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究.pdf_第1頁
(計算機軟件與理論專業(yè)論文)基于數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究.pdf_第2頁
(計算機軟件與理論專業(yè)論文)基于數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究.pdf_第3頁
(計算機軟件與理論專業(yè)論文)基于數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究.pdf_第4頁
(計算機軟件與理論專業(yè)論文)基于數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究.pdf_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于教據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 摘要 教學評價是一個復雜的過程,它依據(jù)一定的教學目標和規(guī)范,對學校教學情 況進行系統(tǒng)檢測和考核,評定教學效果和教學目標的實現(xiàn)程度,并做出相應(yīng)的價 值判斷。教學評價過程具有復雜性、多因素性和模糊性等特點,屬于半結(jié)構(gòu)化或 非結(jié)構(gòu)化問題,許多不確定因素難以科學地計算和評估,是一項主觀性很強的工 作評價結(jié)果可能偏離被評估對象的實際情況因此,提高教學評價的科學性、 客觀性和準確性,是現(xiàn)代教學評價研究中一個十分重要的課題 本文首先根據(jù)課堂教學質(zhì)量評價系統(tǒng)及其數(shù)據(jù)特點,設(shè)計數(shù)據(jù)挖掘模式,選 擇基于約束的關(guān)聯(lián)規(guī)則挖掘算法,對教學評價體系的科學性、學生差異和課程差 異對評價結(jié)果的影響等進行驗證性研究,以此來評估評價結(jié)果的客觀準確性;再 將驗證后的數(shù)據(jù)作為訓練樣本,應(yīng)用決策樹算法,生成根據(jù)教師基本信息預測教 學效果的分類模型 元規(guī)則設(shè)計基于。教學評價結(jié)果受到與教學無關(guān)的因素影響”的假設(shè),挖 掘過程經(jīng)過數(shù)值離散化方式、置信度和支持度閥值調(diào)整等對比優(yōu)化,排除或肯定 各屬性與評價結(jié)果之間的關(guān)聯(lián)關(guān)系,從而驗證假想的影響是否存在和存在的程 度,為數(shù)據(jù)及結(jié)論的可信度、可用性提供依據(jù)。 決策樹挖掘的樣本集來自驗證后的數(shù)據(jù),經(jīng)過優(yōu)化預處理,生成一個以“教 師+ 課程+ 班級”為關(guān)鍵字、包括教師和課程基本信息的二維表采用1 1 ) 3 算法 構(gòu)造決策樹,并應(yīng)用相對支持度剪技技術(shù)和簡化的悲觀錯誤剪枝算法進行剪技, 獲得若干符合錯分率要求的決策規(guī)劃,即預測模型。將教師基本信息輸入預測模 型,可得到該教師的教學質(zhì)量分類,這將有助于提高教學管理的科學性,為學校 在師資隊伍建設(shè)方面提供決策支持 關(guān)鍵詞:數(shù)據(jù)挖掘約束關(guān)聯(lián)挖掘決策樹教學評價 基f 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 ar e s e a r c ho nt e a c h i n ge v a l u a t i o ns y s t e mb a s e do n d a t am i n i n gt e c h n o l o g y a b s t r a c t t e a c h i n ge v a l u a t i o ni sac o m p l e xp r o c e s s a c c o r d i n gt oc e r t a i nt e a c h i n gg o a l s a n ds t a n d a r d s i tc a r r i e so u ts y s t e m a t i cd e t e c t i o na n da c c e t ot h et e a c h i n g t a k e a s s e s s m e l v t ot h ei m p l e m e n t a t i o nd e g r e eo ft e a c h i n ge f f e c ta n dg o a l s , a n dm a k e c o r r e s p o n d i n 8 v a l u ej u d g e m e n lt h e t e a c h i n g e v a l u a t i o n p r o c e s s h a st h e c h a r a c t e r i s t i c ss u c ha sc o m p l e x i t y , m u l t i - f a c t o ra n df u z z i n e s s , a n di ti sak i n do ft h e s e m i - s t r u c t u r e do rn o rs t r u c t u r e dp r o b l e m , i nw h i c hp l e n t yo fn o n d e t e r m i n i g k f a c t o r s b e 吣h a r dt o b ec a l c u l a t e da n de v a l u a t e d s c i c m i f i c a l l y s o i tj sa s t r o n g - s u b j e c t i v ej o b ,a n di t sr e s u km a ya l s od e v i m et h ea c t u a lc i r c u m s t a n c eo ft h e e v a l u a t e do b j e c t t h e r e f o r e ,t oi m p r o v et h es c i e n t i f i c i t y , a c c u r a c ya n do b j e c t i v i t yo f t h ea s s e s s m c n li sav e r yi m p o r t a mp r o g r a mi nm o d e r nt e a c h i n ge v a l u a t i o nr e s e a r c h f i r s t ,a c c o r d i n gt ot h es y s t e mo fc l a s s r o o mt e a c h i l l gq u a l i t ya s s e s s m e n ta n di t s d a t ac h a r a c t e r i s t i c s ,t h i sp a p e rh a sd e s i g n e daa d a p t i v ed a t am i l l i n gp a t t e r na n du s e d t h ea l g o r i t h mf o rm i n i n ga s s o c i a t i o nr u l e sb a s e do i lr e s t r a i n tt o c a r r i e so u ta e o n f i r m a t i o nr e s e a r c h , w h i c hs t u d yt h ei n f l u e n c et 0e v a l u a t i o nr e s u l t b yc o u r s e d i s c r e p a n c y , s t u d e n td i s c r e p a n c ya n dt h es e i e n t i f i c i t yo f t e a c h i n ga s s e s s m a u ts y s t e m , a n dt oe v a l u a t et h eo b j e c t i v ea c c u r a c yo f e v a l u a t i o nr e s u l t ;t h e n , w eu s et h ev a l i d a t e d d a t aa st r a i n i n gs a m p l e st 0c r e a t eac l a s s i f i c a t i o nm o d e lt h a ta c c o r d i n gt ot e a c h e r b a s i ci n f o r m a t i o nf o r e c a s tt e a c h i n ge f f e c tb ya p p l y i n gt h ed e c i s i o nt r e ea l g o r i t h m m e t ar e g u l a rd e s i g n i n gi sb a s e do nh y p o t h e s i st h a tt e a c h i n ge v a l u a t i o nr e s u l ti s i n f l u e n c e d b yf a c t o r , w h i c hi si r r e l e v a n t i ot e a c h i n g m 證訪gp r o c e s si sv a l u eo f d i s c r e t e ,o p t i m i z a t i o no f c o n t r a s tt oe o n f i d e a c ea n ds u p p o r tt h r e s h o l da d j u s t m e n t , a n d r e m o v eo ra m r mt h a tt h ea s s o c i a t i o nr e h t i o nb e t w e e ne a c hp r o p e r t ya n dr e s u l t a n t a p p r a i s e m e n t t h e r l nw i l lv e r i 毋w h e t h e rh y p o t h e s i si n f l u e a c ee x i s t e n c eo rn o ta n d t t 基于教據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 t h ed e g r e eo fi n f l u e n c e ,o f f e r i n gt h e 砌i c n c e sf o rd a t aa n dc o n c l u s i o no fa v a i l a b i l i t y u s ea n dt h ec o n f i d e n c e t h r o u g ho p t i m i z i n gp r e t r e a t n t n t ,t h es a m p l e s e to fd e c i s i o nt r e e sm i n i n g g e n e r a t e df r o mt h ev e r i f i e dd a t a , i sat w o - d i a g n s i o nt a b l ew h o k e y w o r di s “t e a c h e r + c o t l r + c l a s s 。,i n c l u d i n gt e 目a n d u r g e li n f o r m a t i o n t h ea u t h o r a d o p ti d 3a l g o r i t h mt oc r e a t ed e c i s i o nt r e ea n du s et h er e l a t i v es u p p o r tp r u n j l l g t e c h n i q u eo fi m p r o v e m e n ta n ds i m p n e dp c 蚓址i s c i cn l i 血a k ep n m 咄a l g o r i t h mt o 珥咖恤gh a n d l e 1 h m w cg e ts o l n ed e c i s i o nr u l e s t or a t eo fw r o n gr e q u i r e m e n t , n a n l yp r e d i c t i o nm o d e l - i n p u t t i n g “目c h 。rb a s i ci n f o r m a t i o nt op r e d i c t i o nm o d e lw e m a yg e tt h et c i i i l 1 9 刪時f o r e c a s tc l a s s i f i c a t i o no f t h et e a c h e r i tw i l lb et t t p f u tf o r b a h m i n st e a c h e r s “:5 0 u mi na r r a n g e m e n tt e a c h i n gt a s kf t a t h ai m p r o v i n gt e a c h i n g q u a l i t y k 何w o r t h :d a t am i n i n g ,t e m a i n ta s s o c i a t i o nr u l e ,d e c i s i o nt r e e t e a c h i n ge l c a l u a t i o n t l i 華南師范大學學位論文原創(chuàng)性聲明 立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論 文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文 的研究做出重要貢獻的個人和集體,均已在文中以明確的方式標明。 本人完全意識到本聲明的法律結(jié)果由本人承擔。 j 論文作者躲鼎斬 e t 期:溈降6b 日 學位論文使用授權(quán)聲明 本人完全了解華南師范大學有關(guān)收集、保留和使用學位論文的規(guī) 定,即:研究生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬華南師 范大學。學校有權(quán)保留并向國家主管部門或其指定機構(gòu)送交論文的電 子版和紙質(zhì)版,允許學位論文被檢索、查閱和借閱。學??梢怨紝W 位論文的全部或部分內(nèi)容,可以允許采用影印、縮印、數(shù)字化或其他 復制手段保存、匯編學位論文。( 保密的論文在解密后遵守此規(guī)定) 保密論文注釋:本學位論文屬于保密范圍,在后解密適用 本授權(quán)書。非保密論文注釋:本學位論文不屬于保密范圍,適用本授權(quán) 機:嬲輪豁論文作者簽名:j 甲6 。fe 日期:唧年爿f 日 導師簽名:骺旌 日期:0 7 年勿月 基f 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 第1 章概述 1 1 論文背景 隨著高校信息化的逐步深入,傳統(tǒng)的高校教學、科研與管理模式已經(jīng)不能滿 足新時期下高等學校深層次建設(shè)與發(fā)展的需要,高校運行與管理體制需要變革 推動這種變革的動因,一是高校信息化建設(shè)產(chǎn)生的教學、科研模式的變革;二是 以信息技術(shù)為手段的校務(wù)管理機制與手段的變革正基于此,一場以。數(shù)字化校 園( d i g i t a l c a m p u s ) ”建設(shè)為突破口的高校教學及管理改革,正如火如荼地在全國 范圍各高校迅猛發(fā)展。 在國內(nèi)高校中。計算機技術(shù)應(yīng)用于教學管理始于上世紀如年代,已有2 0 多年歷史很長一段時問以來,由于各個部門的管理系統(tǒng)處于分布、獨立運行狀 態(tài),發(fā)展較慢。數(shù)字化校園的建設(shè),使得備高校進入了網(wǎng)上辦公、網(wǎng)上教學管理 的新時代,原來孤立存儲在部門管理系統(tǒng)中、格式不一的大量數(shù)據(jù)得以統(tǒng)一,同 時,管理方式的變革使得信息系統(tǒng)中的數(shù)據(jù)置快速增長面對巨大的數(shù)據(jù)資源, 如何利用它為教學管理服務(wù),成為各高校關(guān)注的問題。 過去,由于缺乏發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的知識的手段,無法發(fā)現(xiàn)數(shù)據(jù)中存在的 規(guī)律和內(nèi)在聯(lián)系,導致“數(shù)據(jù)爆炸但知識貧乏”,大量數(shù)據(jù)無法商效地為未來工 作服務(wù)上世紀9 0 年代,數(shù)據(jù)挖掘技術(shù)突飛猛進的發(fā)展,為克服傳統(tǒng)的數(shù)據(jù)庫 管理和決策支持存在的問題提供了技術(shù)上的支持 數(shù)據(jù)挖掘嘲( d a t am i n m g , d m ) ,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)( i w l c d g c d i 嗍i n d 砒a b b s e k d d ) ,是一個從大量數(shù)據(jù)中抽取、挖掘出來知的、有價值 的模式或規(guī)律等知識的復雜過程作為一個新興的多學科交叉應(yīng)用領(lǐng)域( 包括數(shù) 據(jù)庫系統(tǒng)、人工智能、統(tǒng)計學、機器學習、信息科學等) ,數(shù)據(jù)挖掘在各行各業(yè) 的決策支持活動中扮演著越來越重要的角色,如金融、零售等行業(yè),但在教育領(lǐng) 域的應(yīng)用還沒有引起人們廣泛的關(guān)注。 利用數(shù)據(jù)挖掘技術(shù)為高校的教學管理與決策服務(wù),是當今高校教學及管理改 革的重要基礎(chǔ)。本論文以高校的課堂教學質(zhì)量評價系統(tǒng)為突破,利用數(shù)據(jù)挖掘技 術(shù)中的關(guān)聯(lián)規(guī)則算法,試圖揭示數(shù)據(jù)中存在的相互關(guān)系,并用決策樹算法生成教 基于數(shù)據(jù)挖掘i 童術(shù)的教學評價系統(tǒng)研究 學質(zhì)量預測模型,為學校的教學管理和決策提供參考。 1 2 研究意義 課堂教學質(zhì)量評價是學校讓師生參與教學管理監(jiān)督的一種手段,旨在提高師 生對學校的責任感、保障教學質(zhì)量。教學評價的實施過程是:由教學研究專家設(shè) 計評價體系,管理部門在課程結(jié)束后,組織學生按照評價體系的要求,從教學態(tài) 度,教學內(nèi)容、教學方法、教學效果等方面給予任課教師評分。對學生評價最好 和最差的教師,學校將派督導專家進一步確認,并按制度給與獎勵和處罰。 教學質(zhì)量評價1 4 1 i 具有復雜性、多因素性和模糊性等特點,是一類帶有大量 不確定因素的半結(jié)構(gòu)化問題或非結(jié)構(gòu)化問題,許多因素難以科學地計算和評估, 因此是一項主觀性很強的工作,其結(jié)果可能偏離被評估對象的實際情況。因此, 如何客觀、科學、全面地對教學質(zhì)量進行評價,以提高教學評價的科學性、客觀 性和準確性,是現(xiàn)代教學評價研究中一個非常重要的課題,它對于提高教師的業(yè) 務(wù)水平和教學效果,提高人才培養(yǎng)質(zhì)量,促進教育事業(yè)的發(fā)展具有理論意義和實 際應(yīng)用價值。 正確、合理地利用教學評價結(jié)果,使其能夠?qū)崿F(xiàn)原始設(shè)計目標,達到督促教 師端t f 教學態(tài)度、改進教學方法、提高課黿教學質(zhì)量的目的,首先要保障教學評 價體系設(shè)計的科學性,評價過程公平合理,否則,教學評價也可能岡打擊教師的 積極性而產(chǎn)生適得其反的效果。所以驗證并完善評價體系是一個重要的過程 本文透過基于約束的關(guān)聯(lián)規(guī)則挖掘,考察評價結(jié)果是否受到與教學質(zhì)量無關(guān) 的因素影響,對教學評價體系的科學性、學生差異的影響和課程差異的影響進行 驗證性研究,以此來評估評價結(jié)果的客觀和公正性,并為評價數(shù)據(jù)的可用度提供 依據(jù)。 驗證后的教學質(zhì)量評價數(shù)據(jù)應(yīng)用決策樹挖掘,可從數(shù)據(jù)中發(fā)現(xiàn)教師的基本信 息( 如學歷、職稱) 對課堂教學質(zhì)量的影響,并生成預測模型。根據(jù)教師基本信 息預測教師的教學效果,有助于在安排教學任務(wù)時均衡師資力量,進一步掌握、 提高教學質(zhì)量。 摹r 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 1 3 研究的基本內(nèi)容和重點 1 3 1 基本內(nèi)容 本文研究的內(nèi)容分為兩部分?;诩s束的關(guān)聯(lián)規(guī)則挖掘和決策樹挖掘。 1 基于約束的關(guān)聯(lián)規(guī)則挖掘 構(gòu)建一個多維數(shù)據(jù)空間,包含教師縟分細節(jié)( 1 1 項考核指標的具體得分) 、 課程基本情況、學生成績、教師基本信息和學生學籍瓷料等數(shù)據(jù)字典根據(jù)各種 假設(shè)設(shè)計若干元模式,在該數(shù)據(jù)空間進行元規(guī)則指導下的關(guān)聯(lián)挖掘,通過置信度 和支持度篩選,獲取屬性之間存在的強規(guī)則集規(guī)則表示如:( 關(guān)聯(lián)規(guī)則的序號。 關(guān)聯(lián)規(guī)則前件,關(guān)聯(lián)規(guī)則后件,可信度) 通過對結(jié)果分析得出類似下面的結(jié)論: 學生在給教師的評價中哪些指標是客觀的、與學生自身情況無關(guān)的;哪些指標是 與學生本身的因素關(guān)系較大的( 不客觀的) 元模式的設(shè)計基于“教學評價結(jié)果受到各種與教學質(zhì)量無關(guān)的因素的影響” 的假設(shè)。在將這種模糊假設(shè)模式化時,具體歸結(jié)為對“評價體系的科學性、管理 過程的科學性,學生差異對評價的影響、課程差異對評價的影響”等四個方面的 驗證。應(yīng)用關(guān)聯(lián)挖掘,排除或肯定各屬性與評價結(jié)果之間的關(guān)聯(lián)關(guān)系,從而驗證 假設(shè)的影響是否存在或存在的程度為數(shù)據(jù)及結(jié)論的可信度、可用性提供依據(jù) 教學管理部門可據(jù)此對評價體系進行調(diào)整,以便更客觀地評價教師的課堂教學效 果。 2 預測模型 決策樹挖掘的樣本集來自驗證后的數(shù)據(jù),經(jīng)過預處理生成一個以“教師+ 課 程+ 班級”為關(guān)鍵字、包括性別、學歷、年齡、職稱、課程、班級名、學生人數(shù)、 得分等字段的二維表。應(yīng)用q u i n l a n 設(shè)計的i d 3 算法從訓練樣本集構(gòu)造決鐿樹, 然后進行前、后剪枝處理,獲得若干個符合錯分率要求的決策規(guī)則,即預測模型 將教師的基本信息輸入預鍘模型,可得到該教師的教學質(zhì)量預測結(jié)果 1 3 2 研究重點 本文研究重點主要有如下三個方面: 1 數(shù)據(jù)挖掘模式設(shè)計 摹1 :數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 ( 1 ) 根據(jù)教學評價系統(tǒng)及其數(shù)據(jù)的特點,針對不同挖掘算法設(shè)計數(shù)據(jù)處理 方法。 ( 2 ) 算法選擇。 ( 3 ) 關(guān)聯(lián)挖掘中元規(guī)則設(shè)計 ( 4 ) 挖掘過程優(yōu)化。通過對比不同離散化方式,在不同支持度和胃信度閥 值下,對關(guān)聯(lián)挖掘結(jié)果進行優(yōu)化。 2 算法改進 根據(jù)樣本集的特點,對常用的決策樹剪技算法進行改進,提出以“相對支持 度”作為剪支參數(shù),并應(yīng)用該方法獲得了生長比較理想的決策樹和預測模型。 3 結(jié)果分析 通過對數(shù)據(jù)挖掘結(jié)果的分析研究,總結(jié)現(xiàn)行課堂教學質(zhì)量評價系統(tǒng)存在的問 題,提出改進的建議。 基r 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 第2 章數(shù)據(jù)挖掘相關(guān)技術(shù) 2 1 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘嗍( 叫d a t am i n i n g ) 就是從大量的、不完全的、有噪聲的、模糊 的、隨機的數(shù)據(jù)中,提取隱含在其中的人們事先不知道的、但又是潛在有用的 信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識 ( k d d ) 、數(shù)據(jù)分析,知識抽取、模式分析、數(shù)據(jù)考古,數(shù)據(jù)采集、信息收割、商 業(yè)智能、數(shù)據(jù)融合以及決策支持等人們把原始數(shù)據(jù)看作是彤成知識的源泉。就 像從礦石中采礦一樣原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),也可 以是半結(jié)構(gòu)化的。如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù) 發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納 的發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還 可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門廣義的交叉學科,它匯聚了不同 領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能,數(shù)理統(tǒng)計,可視化、并行計算等方面 的學者和工程技術(shù)人員 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的,它不僅是面向特定數(shù)據(jù)庫的簡單檢 索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和 推理,以指導實際問題的求解,企圖發(fā)現(xiàn)事件問的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù) 對未來的活動進行預測。例如加拿大b c 省電話公司要求加拿大s i m o n f r a s e r 大 學k d d 研究組,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié)、分析并提出新的電話收費和 管理辦法,制定既有利于公司又有利于客戶的優(yōu)惠政策美國著名國家籃球隊 n b a 的教練,利用某公司提供的數(shù)據(jù)挖掘技術(shù)臨場決定替換隊員,一度在數(shù)據(jù)庫 界被傳為佳話這樣一來。就把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢操作,提 高到為各級經(jīng)營決策者提供決策支持這種需求驅(qū)動力,比數(shù)據(jù)庫查詢更為強大 同時需要指出的是,這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準的真理, 也不是受去發(fā)現(xiàn)嶄新的自然科學定理和純數(shù)學公式,更不是什么機器定理證明。 所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時還 要能夠易于被用戶理解最好能用自然語言表達發(fā)現(xiàn)結(jié)果最近,有就不少數(shù)據(jù)挖 5 璉?。荷鈸?jù)挖掘技術(shù)的教學評價系統(tǒng)研究 掘產(chǎn)品用來篩選i n t e r n e t 上的新聞,保護用戶不受無聊電子郵件的干擾和商業(yè) 推銷。 2 2 數(shù)據(jù)挖掘分類 數(shù)據(jù)挖掘系統(tǒng)利用的技術(shù)越多,褥出的結(jié)果精確性就越高。這主要取決于問 題的類型以及數(shù)據(jù)的類型和規(guī)模。 數(shù)據(jù)挖掘涉及許多學科領(lǐng)域,有多種分類方法i ”n 。根據(jù)挖掘任務(wù),可分為 分類或預測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類,關(guān)聯(lián)規(guī)則發(fā)現(xiàn),序列模式發(fā)現(xiàn)、依賴關(guān) 系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等根據(jù)挖掘?qū)ο蠓?,有關(guān)系數(shù)據(jù)庫、面向 對象數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異構(gòu)數(shù)據(jù) 庫、遺產(chǎn)數(shù)據(jù)庫以及w e b 根據(jù)挖掘方法,可分為機器學習方法、統(tǒng)計方法、神 經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機器學習又包臺歸納學習方法,基于案例學習、遺傳 算法等統(tǒng)計方法包含回歸分析、判別分析、聚類分析、探索性分析等。神經(jīng)網(wǎng) 絡(luò)方法包含前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析 方法,另外還有面向?qū)眯缘臍w納方法。 數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種i z l :廣義型知識,反映同類事物其同性 質(zhì)的知識;特征型知識,反映事物各方面的特祉知識;差異型知識,反映不同事 物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)關(guān)系的知識;預 測型知識,根據(jù)歷史的和當前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離 常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹 的提升,從微觀到宏觀,以滿足不同用戶、不同層次決策的需要。 1 分類和預測分析 分類( c l a s s i f i c a t i o n ) 的過程是:找出描述并區(qū)分數(shù)據(jù)類或概念模型( 或 函數(shù)) ,以便能夠使用模型預測類標記未知的對象類。導出模型是基于對訓練數(shù) 據(jù)集( 即其類標記己知的數(shù)據(jù)對象) 的分析。 導出模型可以用多種形式表示,如分類( i f - t h e n ) 規(guī)則、判定鐘、教學公 式或神經(jīng)網(wǎng)絡(luò)。 分類町以用來預測數(shù)據(jù)對象的類標記。然而,在某然應(yīng)用中,人們可能希望 預測某些空缺的或不知道的數(shù)據(jù)值,而不是類標記。當被預測的值是數(shù)值數(shù)據(jù)時, 通常稱之為預測( p r e d i c t i o n ) 盡管預測可以涉及數(shù)據(jù)值預測和類標記預測,通 6 墓f 教據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 常預測限于值預測,并因此不同于分類。預測也包含基于可用數(shù)據(jù)的分布趨勢識 別 2 聚類分析 與分類和預測不同,聚類( c l u s t e r i n g ) 分析數(shù)據(jù)對象,而不考慮已知的類 標記一般情況下,訓練數(shù)據(jù)中不提供類標記,因為不知道從何開始聚類可以 用于產(chǎn)生這種標記。對象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則 進行聚類或分組即對象的簇( 聚類) 是這樣形成的:使得在一個簇中的對象具 有很高的相似性。而與其他簇中對象的相似性盡量低所形成的每個簇可以看作 一個類,由它可以導出規(guī)則聚類也便于分類編制( t a x o n o m yf o r m a t i o n ) ,將 觀察到的內(nèi)容組織成類分層結(jié)構(gòu)將類似的事件組織在一起 3 關(guān)聯(lián)分析 關(guān)聯(lián)分析( a s s o c i a t i o na n a l y s i s ) 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性一值 頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)分析廣泛用于購物籃或事務(wù)數(shù)據(jù)分 析。更形式地。關(guān)聯(lián)規(guī)則( a s s o c i a t i o nr u l e ) 是形如xjy 的規(guī)則,即: 4 t j 馬 最 a 島, 其中4 ( t 1 , a ,肼) ) 口,( j e 1 ,月 ) 是屬性一值對關(guān)聯(lián)規(guī)則x j y 解釋為 “滿足x 中條件的數(shù)據(jù)庫元組多半也滿足y 中的條件” 4 序列分析及時問序列 序列分析和時間序列說明數(shù)據(jù)中的序列信息和與時間相關(guān)的序列分析時間 數(shù)據(jù)庫和時間序列數(shù)據(jù)庫中都存放了與時間有關(guān)的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)可以用來 發(fā)現(xiàn)這種數(shù)據(jù)庫中對象演變的特征或?qū)ο蟮淖兓厔?,這些信息對于決策支特是 有用的 5 孤立點分析 數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一致這 些數(shù)據(jù)對象就是孤立點( o u t l i e r ) 大部分數(shù)據(jù)挖掘方法將孤立點視為噪聲或異 常數(shù)據(jù)而丟棄然而,在一些應(yīng)用中( 如欺騙檢測) ,罕見的事件可能比i f 常出 現(xiàn)的那些更有趣孤立點數(shù)據(jù)分析稱為孤立點挖掘( o u t l i e rm i n i n g ) 6 其他分析 ( 1 ) 依賴關(guān)系分析:數(shù)據(jù)依賴關(guān)系代表一類重要的可發(fā)現(xiàn)的知識。一個依 基于教據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 賴關(guān)系存在于兩個元素之間。如果一個元素a 的值可以推出另一個元素b 的值 ( a b ) ,則稱b 依賴于a 這個元素可以是字段,也可以是字段間的關(guān)系。 ( 2 ) 概念描述:用戶常常還需要抽像的、有意義的描述。經(jīng)過歸納的抽像 描述能概括大量的關(guān)于類的信息。有兩種典型的描述:特性描述和判別描述。特 性用于描述類的所有記錄之問的共同處,而判別則描述兩個或更多個類之間有何 差異。 ( 3 ) 偏差檢測:通過發(fā)現(xiàn)異常,可以引起人們對特殊情況的加倍注意。異 常包括如下幾種可能引起人們興趣的模式:不滿足常規(guī)類的異常例子;出現(xiàn)在模 式邊緣的特異點;與父類或兄弟類有顯著不同的類;在不同時刻發(fā)生了顯著變化 的某個元素或集合;觀察值與模型推算出的期望值之間有顯著差異的事例偏差 分析的個重要特征就是它可以有效地過濾大量的不感興趣的模式 2 3 數(shù)據(jù)挖掘步驟 數(shù)據(jù)挖掘過程可粗略地分為五個階段鯽:問題定義( t a s kd e f i n i t i o n ) 、數(shù) 據(jù)收集和預處理( d a t ap r e p a r a t i o na n dp r e p r o c e s s i n g ) 、數(shù)據(jù)挖掘( d a t a m i n i n g ) 算法執(zhí)行、結(jié)果解釋和評估( i n t e r p r e t a t i o na n de v a l u a t i o n ) ,如圖2 - l 所示。 圖2 - i 數(shù)據(jù)挖掘過程示意圖口1 1 問題定義 數(shù)據(jù)挖掘是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的信息。發(fā)現(xiàn)何種知識便成為整個過 程的第一個也是最重要的一個階段。在問題定義過程中,數(shù)據(jù)挖掘人員必須和領(lǐng) 域?qū)<乙约白罱K用戶緊密協(xié)作,一方面明確實際工作對數(shù)據(jù)挖掘的要求;另一方 面通過各種學習算法的對比進而確定可用的學習方法。后續(xù)的學習算法和數(shù)據(jù)集 8 基r 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 準備都是在此基礎(chǔ)上進行的 課堂教學質(zhì)量評價系統(tǒng)數(shù)據(jù)挖掘的問題定義是在管理部門提出的要求指導 下,經(jīng)過與教學研究專家進行探討,并根據(jù)現(xiàn)有數(shù)據(jù)的具體情況,提出了如下兩 個問題: ( 1 ) 課堂教學質(zhì)量評價體系是否合理? ( 2 ) 從現(xiàn)有數(shù)據(jù)中可根據(jù)哪些屬性預測教師未來的教學質(zhì)量 2 數(shù)據(jù)收集和數(shù)據(jù)預處理 數(shù)據(jù)準備又可分為三個子步驟i 數(shù)據(jù)選取( d a t as e l e c t i o n ) 數(shù)據(jù)預處理 ( d a t af r e p r o c e s s i n g ) 和數(shù)據(jù)變換( d a t at r a n s f o r m a t i o n ) 數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對象,即目標數(shù)據(jù)( t a r g e to a t a ) , 是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)數(shù)據(jù)預處理可能包括消除噪 聲、推導計算缺值數(shù)據(jù)、消除重復記錄、完成數(shù)據(jù)類型轉(zhuǎn)換( 如把連續(xù)值數(shù)據(jù)轉(zhuǎn) 換為離散型數(shù)據(jù),便于符號歸納,或是把離散型數(shù)據(jù)轉(zhuǎn)換成連續(xù)型,以便于神經(jīng) 網(wǎng)絡(luò)) 等當數(shù)據(jù)挖掘的對象是數(shù)據(jù)倉庫時,一般來說,數(shù)據(jù)預處理已經(jīng)在生成 數(shù)據(jù)倉庫時完成數(shù)據(jù)變換的主要目的是消減數(shù)據(jù)維數(shù)或降維( d i m e n s i o n r e d u c t i o n ) ,即從初始特征中找出真正有用的特征,以減少數(shù)據(jù)挖掘時要考慮的 特征或變量個數(shù) 3 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘算法執(zhí)行階段首先根據(jù)對問題的定義明確挖掘的任務(wù)和目的,如分 類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等。確定了挖掘任務(wù)后,就要決定使用 哪種算法。選擇實現(xiàn)算法有兩個考慮因素:一是不同的數(shù)據(jù)有不同的特點,因此 需要用與數(shù)據(jù)相關(guān)的算法束挖掘:二是用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可 能希望獲取描述型( d e s c r i p t i v e ) 的、容易理解的知識( 采用規(guī)則表示的挖掘方 法此時就比神經(jīng)網(wǎng)絡(luò)之類的方法更合適) ,而有的用戶只是希望獲取預測準確度 盡可能高的預測型( p r e d i c t i v e ) 知識,并不在意獲取的知識是否易于理解。 根據(jù)課堂教學質(zhì)量評價系統(tǒng)數(shù)據(jù)挖掘的問題定義,選擇關(guān)聯(lián)規(guī)則和決策樹分 剮作為兩個任務(wù)的實現(xiàn)算法。 4 結(jié)果解釋和評估 數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估可能存在冗余或無關(guān)的模式,這 9 摹f 數(shù)據(jù)挖掘技術(shù)的教學評價系統(tǒng)研究 時需要將其剔除;也有可能模式不滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回退 到前一階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至 換一種算法等。另外k d d 由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模 式進行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示,如把分類決策樹轉(zhuǎn)換 為“i f t h e n ”規(guī)則。 數(shù)據(jù)挖掘算法執(zhí)行,僅僅是整個過程中的一個步驟。數(shù)據(jù)挖掘質(zhì)量的好壞有 兩個影響要素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性:二是用于挖掘的數(shù)據(jù)的質(zhì) 量和數(shù)量( 數(shù)據(jù)量的大小) 如果選擇了錯誤或不適當?shù)膶傩?,或?qū)?shù)據(jù)進行了 不適當?shù)霓D(zhuǎn)換,必將損失挖掘結(jié)果的質(zhì)量。 數(shù)據(jù)挖掘過程是一個不斷反饋的過程。如果用戶在挖掘過程中發(fā)現(xiàn)了數(shù)據(jù)或 挖掘技術(shù)方面的問題,產(chǎn)生不了期望的結(jié)果時,常需要重復某些過程。甚至從頭 開始。 2 4 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中一種常用算法,屬無指導學習過程,適應(yīng)于驗證 性研究。本文選擇了關(guān)聯(lián)規(guī)則作為驗證課堂教學質(zhì)量評價體系合理性研究挖掘工 具,下面詳細介紹該算法的基本原理。 2 4 1 基本概念胡 定義2 - 1 :關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集記為口( 一般為事務(wù)數(shù)據(jù)庫) ,肛 t , 如“,甜,如= ,厶厶,硝,“( k - l ,2 ,n ) 稱為事務(wù)( t r a n s a c t i o n s ) , l ( 1 l f l ,2 ,p ) 稱為項目( i t e m ) 定義2 - 2 :設(shè),- ( ,。西l 是口中全體項目組成的集合,的任何子集 x 稱為口中的項目集( i t e m s e t ) ,l x i = k 稱為集合x 的k 項集。設(shè)“和x 分別為口 中的事務(wù)和項集,如果x c t ”稱事務(wù)“包含項目集x 。每一個事務(wù)都有一個唯一 的標識符,成為t i d 。 定義2 - 3 :數(shù)據(jù)集口中包含項目集x 的事務(wù)數(shù)稱為項目集x 的支持度,記為 0l 項目集x 的支持度記為s u p p o r t ( x ) : s u p p o r t ( x ) = 尚1 0 0 ( 2 - 1 ) 基于敦據(jù)挖捆技術(shù)的教學評價系統(tǒng)研究 其中i d l 是數(shù)據(jù)集口的事務(wù)數(shù),若s u p p o r t ( x ) 不小于用戶指定的最小支持度 ( m i n s u p p o r t ) ,則成x 為頻繁項目集。簡稱頻集( 或大項目集) ,否則成x 為非 頻繁項目集。簡稱非頻集( 或小項目集) 定理2 - 1 :設(shè)x 、y 是數(shù)據(jù)集d 中的項目集: ( 1 ) 若x y ,則s u p p o r t ( x ) s u p p o r t ( y ) ( 2 - 2 ) ( 2 ) 若j c 】,。如果x 是非頻集,則y 也是非頻集 ( 3 ) 若z c y ,若y 是頻集,則x 也是頻集 定義2 - 4 l 若x 、y 為項目集。且x n y - = - 。蘊含式x j y 稱為關(guān)聯(lián)規(guī)則,x 、y 分別稱為關(guān)聯(lián)規(guī)則x j y 的前提和結(jié)論。項目集x u y 的支持度稱為關(guān)聯(lián)規(guī)則x 寺y 的支持度。記作;s u p p o r t ( x = 蚪) s u p p o r t ( x 辛y ) = s u p p o r t ( x u y )( 2 3 ) 關(guān)聯(lián)規(guī)則x j y 的置信度i 己作:c o n f i d e n c e ( x j y ) c o n f i d e n c e ( xjy ) :嬰咝墜塵1 0 0 ( 2 4 ) s u p d 0 r t x i 通常,用戶根據(jù)挖掘情況需要指定最小置信度,記為m i n c o n f i d e n c e 支持度和置信度是描述關(guān)聯(lián)規(guī)則的兩個重要概念,前者用于衡量關(guān)聯(lián)規(guī)則在 整個數(shù)據(jù)集中的統(tǒng)計重要信,后者用于衡量關(guān)聯(lián)規(guī)則的可信程度一般來說只有 支持度和置信度均較高的規(guī)則才可能是用戶感興趣、對用戶有價值的關(guān)聯(lián)規(guī)則。 定義2 - 5 :若s u p p o r t ( x = “) m i n s u p p o r t ,且c o n f i d e n c e ( x - j y ) m i n c o n f i d e n c e ,稱關(guān)聯(lián)規(guī)則x j y 為強規(guī)則,否則稱關(guān)聯(lián)規(guī)則x j y 為弱規(guī) 則 。 2 4 2 關(guān)聯(lián)規(guī)則挖掘算法 關(guān)聯(lián)規(guī)則挖掘的任務(wù)鼢卅就是要挖掘出0 中所有的強規(guī)則強規(guī)則x ,y 對 應(yīng)的項目集( x u y ) 必定是頻集( 由定義2 - 5 和式( 2 - 3 ) 可知) ,由式( 2 - 2 ) 和式( 2 4 ) 可知,頻集( x u y ) 導出的關(guān)聯(lián)規(guī)則x j y 的置信度可由頻集x 和( x u y ) 的支持度 計算因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為以下兩個子問題”: ( 1 ) 根據(jù)最小支持度找出數(shù)據(jù)集d 中的所有頻集。 ( 2 ) 根據(jù)頻繁項目集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則 蘑于數(shù)據(jù)挖掘技術(shù)的教學評價秉統(tǒng)研究 第一個子問題的任務(wù)是迅速高效地找出d 中全部頻集,是關(guān)聯(lián)規(guī)q 挖掘的中 心問題,是衡量戈聯(lián)規(guī)則挖掘算法的標準;第二個子問題求解是比較容易、直接 的,日前所有的關(guān)聯(lián)規(guī)則挖掘算法都是針對第一個子問題而提出的,a p r i o r i 算 法是解決這個問題的雖初方法。 一a p r i o r i 算法的基本思想 a p r i o r i 算法州( 找頻繁項集算法) 是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻 繁項集的算法。算法的名稱基于這樣的事實:算法使用頻繁項集性質(zhì)的先驗知識, a p r i o r i 使用一種稱作逐層搜索的迭代方法,k 一項集用于探索( k + 1 ) 一項集首 先,找出頻繁卜項集。該集合記作l l ,l ,用于找頻繁2 一項集的集合l ,而l :用 于找1 4 ,如此下去,直到不能找到頻繁k 一項集。找每個l k 需要一次數(shù)據(jù)庫掃描 為了提高頻繁項集逐層產(chǎn)生的效率,一種稱作h p r i o r i 性質(zhì)的重要性質(zhì)用于 壓縮搜索空問。 a p r i o r i 性質(zhì):頻繁項集的所有非空子集都必須也是頻繁的。h p r i o r i 性質(zhì) 可以解釋為:如果項集x 不滿足最小支持度閥值m i n s u p p o r t ,則x 不是頻繁的, 即s u p p o r t ( x ) m i n s u p p o r t 。如果項y 添加到x ,則結(jié)果項集( 即x u y ) 不可 能比x 更頻繁出現(xiàn)。因此,x u y 也不是頻繁的,即s u p p o r t ( x u y ) ( m i n s u p p o r t 。 該性質(zhì)屬于一種特殊的分類,稱作反單調(diào),意指如果一個集合不能通過測試,則 它的所有超集也都不能通過相同的測試。 h p r i o r i 算法在第k 次循環(huán)中,先產(chǎn)生候選k - 項集的集合c k ,c k 的項集是用 來產(chǎn)生頻繁項集的候選集。c - 中的每個元素需在事物數(shù)據(jù)庫中進行驗證。決定是 否加入l l 。 根據(jù)h p r i o r i 的性質(zhì),我們分析如何由l 一推出k 。算法分兩步完成: 1 連接步。 為了找k ,通過k 一與自己連接產(chǎn)生候選k 一項集,該候選項集記為c 。 設(shè)和,2 是b 一中的項集,記號t j 表示的第j 項。如果( ,e t = ,: 1 】) a ( 2 = ,2 2 ) a ( k 一2 i ,2e k 一2 ) a ( k 1 ,2 k 一1 ) ,則做連接l t , c o l 。,連接條件是兩個項的前k - 2 項相同,連接結(jié)果為: ,。 1 “2 l k l 】f 2 k 1 基于數(shù)掂挖掘技術(shù)的教學評價系統(tǒng)研宄 2 剪枝步 聯(lián)結(jié)之后的結(jié)果6 是l i 的超集,它的成員可能是不頻繁的,但所有的頻繁 k _ 項集都包古在b 中,這時要從掃描數(shù)據(jù)庫確定& 中每個候選的計數(shù)從而確 定l i 確定l 可用h p r i o r i 性質(zhì)對也進行刪減,把子集不在l 一中的候選k 項從 q 中刪除。 2 5 決策樹和決策規(guī)則 2 5 1 決策樹的定義 決策樹( d e c i s i o nt r e e ) 是一個類似于流程圖的樹結(jié)構(gòu)淵,其中每個內(nèi)部節(jié) 點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點代表 類或類分布樹的最頂層節(jié)點是根節(jié)點一棵典型的決策樹如圖2 - 2 所示 圖2 - 2 決策樹示例 這是一棵用于判斷貸款風險的決策樹。銀行負責貸款的職員可i = 衛(wèi)用貸款申請 表來運行這棵決策樹,以便判斷風險的大小。年收入大t ¥4 0 0 0 0 ”并且“高負 債”的用戶被認為是“高風險”,應(yīng)該拒絕貸款;而“年收入小于y 4 0 0 0 0 ”但“工 作時間大于5 年”的申請,被認為是“低風險”,可以給予貸款 決策樹是數(shù)據(jù)挖掘中的一種重要技術(shù),可以用于分析數(shù)據(jù),也可以用來預測 2 5 2 決策樹算法 常用的決策樹算法有i d 3 ,c a r t ,o u s t ,c 4 5 等,其中以q u i n l a n 的1 0 3 算法 應(yīng)用最廣 1 算法的基本思想 基于數(shù)據(jù)挖掘技術(shù)的教學評價鬟統(tǒng)研究 d 3 算法刪從樹的根節(jié)點處的所有訓練樣本開始,首先檢測訓練樣本集的所 有特征,選擇信息增益最大的特征a 建立決策樹根節(jié)點,由該特征的不同取值建 立分枝,對各分枝的實例子集遞歸,用該方法建立樹的節(jié)點和分技,直到某一子 集中的數(shù)據(jù)都屬于同一類別,或者沒有特征可用于對數(shù)據(jù)進行分割。 在建立決策討的過程中,i d 3 算法具有如下性質(zhì): ( 1 ) 決策樹中每一個非葉節(jié)點對應(yīng)著一個非類別屬性,樹枝代表這個屬性 的值一個葉節(jié)點代表從樹根到葉節(jié)點之間的路徑所對應(yīng)的記錄所屬的類別屬性 值。 ( 2 ) 在決簸樹中,每一個非葉節(jié)點都將與屬性中具有最大信息量的非類別 屬性相關(guān)聯(lián) ( 3 ) 熵通常是用于測量一個非葉節(jié)點的信息量大小的具體參數(shù)。 ( 4 ) 算法使用同樣的過程,遞歸地形成每個劃分上的子樹,一旦一個屬性 出現(xiàn)在一個節(jié)點上,就不必考慮該節(jié)點的任何后代; ( 5 ) 遞歸劃分的停止條件: 給定結(jié)點的所有樣本屬于同一類; 沒有剩余屬性可以用來進一步劃分樣本,則將給定的節(jié)點轉(zhuǎn)換成樹葉, 并按大多數(shù)原則用大多數(shù)樣本所在的類標記它 分技中樣本為空,這時樣本也按大多數(shù)原則創(chuàng)建一個樹葉。 2 算法描述1 算法:g e n e r a t e _ d e c i s i o n _ t r e e ,根據(jù)給定數(shù)據(jù)集產(chǎn)生一棵決策樹。 輸入:訓練樣本s a m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論