數(shù)據(jù)挖掘概念與技術(shù)_第1頁(yè)
數(shù)據(jù)挖掘概念與技術(shù)_第2頁(yè)
數(shù)據(jù)挖掘概念與技術(shù)_第3頁(yè)
數(shù)據(jù)挖掘概念與技術(shù)_第4頁(yè)
數(shù)據(jù)挖掘概念與技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘概念與技術(shù)第一課分類一、數(shù)據(jù)挖掘及知識(shí)的定義1、數(shù)據(jù)挖掘定義:從大量數(shù)據(jù)中提取或“挖掘”知識(shí);2、數(shù)據(jù)挖掘技術(shù):分類、預(yù)測(cè)、關(guān)聯(lián)和聚類等;3、數(shù)據(jù)挖掘過(guò)程:數(shù)據(jù)的清理、集成、選擇、變換、挖掘、模型評(píng)估、知識(shí)表示;4、知識(shí)定義:知識(shí)就是“壓縮”一濃縮就是精華!1) Occam Razor:因不宜超出果之需!2)3)信息論:嫡 H(X) =-工p(x)logp(x)MDL準(zhǔn)則:minimum description length終咗L第課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備1、回歸方法分類r連續(xù)型因變量(y)線性回歸分析一個(gè)因變量丿分類型因變量(y) Logistic回歸分析

2、生存時(shí)間因變量(t)生存風(fēng)險(xiǎn)回歸分析時(shí)間序列因變量(t)時(shí)間序列分析多個(gè)因變量路徑分析結(jié)構(gòu)方程模型分析分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備2、回歸方法適用前提1)大樣本,樣本量為自變量個(gè)數(shù)的20倍左右;2)因變量或其數(shù)學(xué)變換與自變量有線性關(guān)系;3)擾動(dòng)項(xiàng)(誤差項(xiàng))符合正態(tài)分布;4)自變量間不存在諸如多重共線性等關(guān)系;5)誤差項(xiàng)方差不變;等等。第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備3、Logistic回歸方法介紹1) Logit變換Logit變換是Logistic回歸模型的基礎(chǔ)?,F(xiàn)實(shí)中常要研究某一事件A發(fā)生的概率P及P值的大小與某些影響因此之間的關(guān)系,但由于P對(duì)X

3、的變化在P = 0或P=1的附近不是很敏感的,或說(shuō)是緩慢 的,比如像可靠系統(tǒng),可靠度P已經(jīng)是0.998T ,即使再改善條件和系統(tǒng)結(jié)構(gòu),它的可靠度增長(zhǎng)也只能 是在小數(shù)點(diǎn)后面的笫三位或第四位之后,于是自然希望尋找一個(gè)P的函數(shù)形式什(P),使它在P = 0或P=1 附近變化幅度較大,且最好函數(shù)形式簡(jiǎn)單,根據(jù)數(shù)學(xué)上導(dǎo)數(shù)的意義,提出用 氣件反映訊p)是在P附近 的變化是很適合的,同時(shí)希望P = ()或P=1時(shí),駕彈大的值,因此取晉2 “(1 腫卩:&(。)= In P1- P第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備3、Logistic回歸方法介紹2) Logistic回歸設(shè)因變量是一個(gè)二

4、分類變量,其取值為=1和=0。影響取值的個(gè)自變量分別為則Logistic變換如下式表示:P皿口) 一炕 +0N +02/ + 1第一課分類神經(jīng)網(wǎng)絡(luò)與Logistic回歸優(yōu)缺點(diǎn)對(duì)比1、神經(jīng)網(wǎng)絡(luò)優(yōu)缺點(diǎn)1)優(yōu)點(diǎn):數(shù)據(jù)類型無(wú)要求,高度智能,強(qiáng)“魯棒”性,可進(jìn)行非 線性擬合,能容忍缺失值,異常值的出現(xiàn)等;2)缺點(diǎn):“黑箱”過(guò)程導(dǎo)致知識(shí)結(jié)果難于解釋。2、Logistic回歸方法優(yōu)缺點(diǎn)1)優(yōu)點(diǎn):線性回歸方程的知識(shí)結(jié)果使得所獲知識(shí)易于解釋;2)缺點(diǎn):數(shù)據(jù)類型要求高,回歸方法成立前提多,只適用于線性擬合,缺失值,異常值會(huì)導(dǎo)致結(jié)果精確度大為下降。3、二者區(qū)別:硬計(jì)算與軟計(jì)算,知識(shí)表達(dá)三迂霽第二課預(yù)測(cè)一、相關(guān)概念1

5、、神經(jīng)網(wǎng)絡(luò)的“過(guò)擬合”現(xiàn)象1)“過(guò)擬合”指的是神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練的過(guò)程中,無(wú)法識(shí)別數(shù)據(jù)中的“噪音”,并且把“噪音”的影響毫無(wú)保留的存貯于網(wǎng)絡(luò)參數(shù)(權(quán)重、偏置)中?!斑^(guò)擬 合”會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試集進(jìn)行分類、預(yù)測(cè)時(shí),產(chǎn)生不必要的偏差。2)解決“過(guò)似合”現(xiàn)象辦法之一為N-fold交差驗(yàn)證。2、MSE、NMSE等概念的定義1) MSE:均方誤差(注:與均方差的區(qū)別),其定義為誤差平方和除以它的自由MSE =ni=CHONGQING UNIVERSITY第二課預(yù)測(cè)一、相關(guān)概念2) NMSE定義:NMSE 二MSE=云注:此處的方差 號(hào) 為樣本總體方差。NMSE的物理意義為標(biāo)準(zhǔn)化的MSEO第二課預(yù)

6、測(cè)二、預(yù)測(cè)實(shí)驗(yàn)1、實(shí)驗(yàn)?zāi)康?1)理解分類與預(yù)測(cè)區(qū)別2)熟練使用神經(jīng)網(wǎng)絡(luò)軟件NeuroSolutions解決預(yù)測(cè)問(wèn)題。3)學(xué)會(huì)運(yùn)用靈敏度分析,對(duì)屬性進(jìn)行靈敏度測(cè)量。4)學(xué)會(huì)通過(guò)多次訓(xùn)練模型,避免模型停止在局部最優(yōu)。2、實(shí)驗(yàn)原理1)神經(jīng)網(wǎng)絡(luò)方法原理X | Y2)多元線性統(tǒng)計(jì)方法原理(注意什么是線性,其內(nèi)涵是什么?)丫 = 0。+0內(nèi)+,+0丸一、聚類分析定義、特征、應(yīng)用及評(píng)估1、定義:將物理或抽象的集合分組成為曲類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。1)聚類的方法類型(1) 劃分方法:I平均和I1 j=l二E尸(兒)工P(X, /兒)log 2 P(兀/兒)J=1i=l、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論2、

7、信息論基本原理5)互信息/(y7;%/) = log2p(yj/xi)P(E決策樹(shù)Z = 12;丿2,z、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論2、信息論基本原理6)平均互信息量/( X ; 丫)= H P (兀兒”(兀;兀)匸1 iPgn m匸1 7=1、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論2、信息論基本原理6)平均互信息量、嬌及條件嬌之間的關(guān)系/(X;Y) =53y)k)g2i=l J=1pg y)P(xJn m=)噸21P(xJn m+ H)log2P(兀 / 兒)/=1 J=l= H(X) H(X/Y)二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例1、蔬菜案例顏色形狀蔬菜紅圓番茄紫長(zhǎng)茄子綠長(zhǎng)黃瓜二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例2、蔬菜案例惰、條件炳及互信息

8、(信息增益)1)爛、條件爛:H(蔬菜)=?H(蔬菜,顏色)二?H(蔬菜,形狀)二?2)信息增益1(蔬菜,顏色)二H(蔬菜)- H(蔬菜,顏色)二?1(蔬菜,形狀)二H (蔬菜)H (蔬菜,形狀)二?3)結(jié)論:信息增益越大,就用之作為決策樹(shù)第一分類屬性。二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例3、蔬菜案例分類樹(shù)如下:決策樹(shù)三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例1、分類樹(shù)屬性選擇度量標(biāo)準(zhǔn)信息增益Information gain (ID3)增益比率Gain ration (C4.5)基尼指數(shù)Gini index (SLIQ, SPRING三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例2、ID3算法基本思想構(gòu)造決策樹(shù),決策樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)非類別屬性,每條邊

9、對(duì)應(yīng)該屬性 的每個(gè) 可能值。以信息嫡的下降速度作為選取測(cè)試屬性的標(biāo)準(zhǔn),即所選的測(cè)試屬性是從根到 當(dāng)前節(jié)點(diǎn)的路徑上尚未被考慮的具有最高信息增益的屬性。三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例3、ID3算法案例序號(hào)年齡收入學(xué)生信用率購(gòu)買(mǎi)電腦1=30高否正常否240中否正常是540低是正常是640低是好否731 40低是好是8=30中否正常否940中是正常是1140中否好1三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例3、ID3算法案例54分類C1:買(mǎi)電腦=“是”H(C1,C2,年齡)=區(qū)刃(2/5,3/5) + 區(qū)(4/4,0/4)分類 C2:買(mǎi)電腦=“否+A/(3/5,2/5) = 0.6935 H(C1,C2) = H(9/74,14

10、5/14) =0.940計(jì)算年齡的增益:因此/(Cl, C2,年齡)=H(C1, C2) 一 H(Ch C2,年齡)二 0.21年齡C1C2H(C15 C2)40320.971相似地/(C1,C2,收入)=0.029/(C1,C2,學(xué)生)=0.151/(Cl, C2,信用率)=0.048:第四課三、稍復(fù)雜案例否是4、ID3算例決策樹(shù)呈現(xiàn)年齡?40Go 加(收入)=0.029決策樹(shù)方法總結(jié)4、SPSS16.0中決策樹(shù)分類算法介紹 Chi-Squared Automatic Interaction Detector (CHAID): 一迅速有效 率探索數(shù)據(jù)的多元樹(shù)統(tǒng)計(jì)算法,可依據(jù)所希望的分類結(jié)果來(lái)建立其 區(qū)隔及數(shù)據(jù)概況說(shuō)明。 Exhaustive CHAID:改良自CHAID算法,可切割預(yù)測(cè)變量的每種 可能來(lái)做探究。 Classification and Regression Tree (CART):二元樹(shù)算法,可切割 數(shù)據(jù)并產(chǎn)生精確同質(zhì)的子集合。 Quick Unbiased Efficient Statistical Tree (QUEST):無(wú)偏誤選擇變 量及迅速有效率建立二元樹(shù)的算法5、決策樹(shù)的應(yīng)用:市場(chǎng)營(yíng)銷(xiāo)、數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)、教學(xué)研究、信用度研究、生物醫(yī)學(xué)研究及質(zhì)量管理研究。決

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論