數(shù)據挖掘概念與技術課件

上傳人：4*** IP屬地：貴州上傳時間：2023-10-01 格式：PPT 頁數(shù)：33 大小：269.09KB 積分：25 舉報 版權申訴

已閱讀5頁，還剩28頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

數(shù)據挖掘概念與技術數(shù)據挖掘概念與技術

第一課分類一、數(shù)據挖掘及知識的定義

1、數(shù)據挖掘定義：從大量數(shù)據中提取或“挖掘”知識；2、數(shù)據挖掘技術：分類、預測、關聯(lián)和聚類等；

3、數(shù)據挖掘過程：數(shù)據的清理、集成、選擇、變換、挖掘、模型評估、知識表示；4、知識定義：知識就是“壓縮”－濃縮就是精華！

1）OccamRazor:因不宜超出果之需！2）信息論：熵3）MDL準則：minimumdescriptionlength第一課分類一、數(shù)據挖掘及知識的定義

第一課分類二、神經網絡知識預備

1、單層神經網絡；

2、多層神經網絡。第一課分類二、神經網絡知識預備

第一課分類三、SPSS軟件及Logistic回歸知識預備1、回歸方法分類多個因變量(y1,y2,…yk)路徑分析結構方程模型分析一個因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時間序列因變量(t)---時間序列分析生存時間因變量(t)---生存風險回歸分析第一課分類三、SPSS軟件及Logistic回歸知識預備

第一課分類三、SPSS軟件及Logistic回歸知識預備2、回歸方法適用前提1）大樣本，樣本量為自變量個數(shù)的20倍左右；2）因變量或其數(shù)學變換與自變量有線性關系；3）擾動項（誤差項）符合正態(tài)分布；4）自變量間不存在諸如多重共線性等關系；5）誤差項方差不變；

等等。。。。。。。。

第一課分類三、SPSS軟件及Logistic回歸知識預備

第一課分類三、SPSS軟件及Logistic回歸知識預備3、Logistic回歸方法介紹1）Logit變換

Logit變換是Logistic回歸模型的基礎?，F(xiàn)實中常要研究某一事件A發(fā)生的概率P及P值的大小與某些影響因此之間的關系，但由于P對X的變化在P＝0或P＝1的附近不是很敏感的，或說是緩慢的，比如像可靠系統(tǒng)，可靠度P已經是0.998了，即使再改善條件和系統(tǒng)結構，它的可靠度增長也只能是在小數(shù)點后面的第三位或第四位之后，于是自然希望尋找一個P的函數(shù)形式θ(P),使它在P＝0或P＝1附近變化幅度較大，且最好函數(shù)形式簡單，根據數(shù)學上導數(shù)的意義，提出用來反映θ(p)是在P附近的變化是很適合的，同時希望P＝0或P＝1時，有較大的值，因此?。?，即：

第一課分類三、SPSS軟件及Logistic回歸知識預備

第一課分類三、SPSS軟件及Logistic回歸知識預備3、Logistic回歸方法介紹2）Logistic回歸設因變量是一個二分類變量，其取值為=1和=0。影響取值的個自變量分別為，則Logistic變換如下式表示：

第一課分類三、SPSS軟件及Logistic回歸知識預備

第一課分類四、神經網絡與Logistic回歸優(yōu)缺點對比

1、神經網絡優(yōu)缺點1）優(yōu)點：數(shù)據類型無要求，高度智能，強“魯棒”性，可進行非線性擬合，能容忍缺失值，異常值的出現(xiàn)等；2）缺點：“黑箱”過程導致知識結果難于解釋。2、Logistic回歸方法優(yōu)缺點1）優(yōu)點：線性回歸方程的知識結果使得所獲知識易于解釋；2）缺點：數(shù)據類型要求高，回歸方法成立前提多，只適用于線性擬合，缺失值，異常值會導致結果精確度大為下降。

3、二者區(qū)別：硬計算與軟計算，知識表達方式不同第一課分類四、神經網絡與Logistic回歸優(yōu)缺點對比

第二課預測一、相關概念

1、神經網絡的“過擬合”現(xiàn)象1）“過擬合”指的是神經網絡對訓練集進行訓練的過程中，無法識別數(shù)據中的“噪音”，并且把“噪音”的影響毫無保留的存貯于網絡參數(shù)（權重、偏置）中?！斑^擬合”會導致神經網絡對測試集進行分類、預測時，產生不必要的偏差。2）解決“過似合”現(xiàn)象辦法之一為N－fold交差驗證。2、MSE、NMSE等概念的定義1）MSE：均方誤差（注：與均方差的區(qū)別），其定義為誤差平方和除以它的自由度。第二課預測一、相關概念

第二課預測一、相關概念

2）NMSE定義：

注：此處的方差為樣本總體方差。NMSE的物理意義為標準化的MSE。

第二課預測一、相關概念

第二課預測二、預測實驗

1、實驗目的：

1）理解分類與預測區(qū)別2）熟練使用神經網絡軟件NeuroSolutions解決預測問題。3）學會運用靈敏度分析，對屬性進行靈敏度測量。4）學會通過多次訓練模型，避免模型停止在局部最優(yōu)。

2、實驗原理

1）神經網絡方法原理

2）多元線性統(tǒng)計方法原理（注意什么是線性，其內涵是什么？）

第二課預測二、預測實驗

第三課聚類分析一、聚類分析定義、特征、應用及評估

1、定義：將物理或抽象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。

1）聚類的方法類型（1）劃分方法：K－平均和K－中心算法；（2）層次方法：系統(tǒng)聚類；

（3）基于密度方法：種類較多，對發(fā)現(xiàn)數(shù)據“噪音”有優(yōu)勢；（4）基于網格方法：小波聚類為典型，效率高，復雜度低；（5）基于模型方法：統(tǒng)計學中的分類樹方法－利用信息熵、貝葉斯統(tǒng)計原理為分類原則、競爭學習與自組織特征圖。

第三課聚類分析一、聚類分析定義、特征、應用及評估

2、聚類與分類的區(qū)別1）聚類所要劃分的類未知，而分類要劃分的類已知；2）聚類不依賴預先定義的類和帶類標號的訓練實例，因此它是觀察式的學習，而不是示例學習；3）聚類的有監(jiān)督與分類的無監(jiān)督的區(qū)別。3、聚類分析的應用：是一種重要的數(shù)據挖掘方法，廣泛應用于信用卡欺詐、定制市場（移動客戶劃分及定價等）、醫(yī)療分析。特別是孤立點的挖掘與分析，有著重要的實際應用。4、聚類質量的評估：相異度

第三課聚類分析一、聚類分析定義、特征、應用及評估

第三課聚類分析二、K－平均聚類方法、系統(tǒng)聚類及決策樹方法

1、K－平均聚類方法

1）原理：隨機選擇k個對象，每個對象初始地代表一個類的平均值或中心，對剩余每個對象，根據其到類中心的距離，被劃分到最近的類；然后重新計算每個類的平均值。不斷重復這個過程，直到所有的樣本都不能再分配為止(指中心點改變很小的時候，稱之為收斂)。2)特征：k事先定好；創(chuàng)建一個初始劃分；再采用迭代的重定位技術進行；不必確定距離矩陣；比系統(tǒng)聚類法運算量要??；適用于處理龐大的樣本數(shù)據；適用于發(fā)現(xiàn)球狀類。3)缺點：平均值必須有定義，對于有些分類變量的集合不適用一；不同的初始值，結果可能不同；有些k均值算法的結果與數(shù)據輸入順序有關，如在線k均值算法，用爬山式技術（hill-climbing）來尋找最優(yōu)解，容易陷入局部極小值；對孤立點敏感。

第三課聚類分析二、K－平均聚類方法、系統(tǒng)聚類及決策樹方法

1、系統(tǒng)聚類

1）原理：SPSS軟件中，HierarchicalCluster過程使用的就是系統(tǒng)聚類法來進行分析，該方法的原理是先將所有N個變量看成不同的N類，然后將性質最接近(距離最近)的兩類合并為一類；再從這N-1類中找到最接近的兩類加以合并，依此類推，直到所以的變量被合成一類為止。得到該結果后，再根據具體問題和聚類結果決定對該事物應該分成幾類。顯然，一量某變量被劃定在一個類別中后，它的分類結果將不會再改變，這是它和非系統(tǒng)聚類的顯著區(qū)別。2)特征：聚類變量可以為連續(xù)及離散性質，表達結果層次豐富；變量間如存在多重共線性，對聚類結果影響較大，應先通過主成分分析方法或剔除權重較小變量再進行分析。3)缺點：由于需要反復計算距離，計算量較大；異常值對聚類結果影響巨大；。

第三課聚類分析二、K－平均聚類方法、系統(tǒng)聚類及決策樹方法

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

1、信息論

美國工程師Shannon于1948年發(fā)表“AMathematicalTheoryofcommunication”，標致著信息論的誕生。Shannon于1949年發(fā)表“CommunicationTheoryofSecrecysystem”，以信息論為基礎，用概率統(tǒng)計為數(shù)學手段對保密通信問題進行了分析。由香農提出的保密系統(tǒng)模型目前仍然是現(xiàn)代密碼學的基本模型

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

1)信息量信息是指消息消除掉的不確定性，消息的信息量就是它消除掉的不確定性的量度。假設隨機變量為，發(fā)生的概率定義為,它的信息量為

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

2)信息熵各個互不相容事件的自信息量的統(tǒng)計平均值(期望值)為該事件集合的信息熵：

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

3)聯(lián)合熵

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

4)條件熵

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

5)互信息

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

6)平均互信息量

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

2、信息論基本原理

6)平均互信息量、熵及條件熵之間的關系

第四課決策樹一、關聯(lián)規(guī)則挖掘相關理論

第四課決策樹二、關聯(lián)規(guī)則簡單案例

1、蔬菜案例

顏色形狀蔬菜紅圓番茄紫長茄子綠長黃瓜第四課決策樹二、關聯(lián)規(guī)則簡單案例顏色形狀蔬菜紅圓番茄紫長

第四課決策樹二、關聯(lián)規(guī)則簡單案例

2、蔬菜案例熵、條件熵及互信息(信息增益)1)熵、條件熵：H(蔬菜)=？H(蔬菜，顏色)=？H(蔬菜，形狀)=？2)信息增益I(蔬菜，顏色)=H(蔬菜)-H(蔬菜，顏色)=？I(蔬菜，形狀)=H(蔬菜)-H(蔬菜，形狀)=？3)結論：信息增益越大，就用之作為決策樹第一分類屬性。

第四課決策樹二、關聯(lián)規(guī)則簡單案例

3、蔬菜案例分類樹如下：

顏色紅紫綠

番茄茄子黃瓜

第四課決策樹二、關聯(lián)規(guī)則簡單案例

第四課決策樹三、關聯(lián)規(guī)則稍復雜案例

1、分類樹屬性選擇度量標準信息增益——Informationgain（ID3）增益比率——Gainration（C4.5）基尼指數(shù)——Giniindex(SLIQ，SPRINT)

…………

第四課決策樹三、關聯(lián)規(guī)則稍復雜案例

2、ID3算法基本思想構造決策樹，決策樹的每個節(jié)點對應一個非類別屬性，每條邊對應該屬性的每個可能值。以信息熵的下降速度作為選取測試屬性的標準，即所選的測試屬性是從根到當前節(jié)點的路徑上尚未被考慮的具有最高信息增益的屬性。

判定樹分類算法output訓練集決策樹input第四課決策樹三、關聯(lián)規(guī)則稍復雜案例判定樹分類算法outp

第四課決策樹三、關聯(lián)規(guī)則稍復雜案例

3、ID3算法案例

第四課決策樹三、關聯(lián)規(guī)則稍復雜案例

3、ID3算法案例

分類C1:買電腦=“是”分類C2:買電腦=“否”H(C1,C2)=H(9/14,5/14)=0.940計算年齡的增益:因此相似地第四課決策樹三、關聯(lián)規(guī)則稍復雜案例分類C1:買電腦=

第四課決策樹三、稍復雜案例

4、ID3算例決策樹呈現(xiàn)

年齡?overcast學生?信用?是否正常好<=30>40否否是是是30..40第四課決策樹三、稍復雜案例年齡?overcast學生?信

第四課

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據挖掘概念與技術課件

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據挖掘概念與技術課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔