基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.ppt_第1頁
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.ppt_第2頁
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.ppt_第3頁
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.ppt_第4頁
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.ppt_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1神經(jīng)網(wǎng)絡(luò)基本概念2前饋神經(jīng)網(wǎng)絡(luò)3反饋網(wǎng)絡(luò)模型Hopfield網(wǎng)絡(luò)4數(shù)據(jù)挖掘技術(shù)5基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究,基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究,1神經(jīng)網(wǎng)絡(luò)基本概念,1.1生物神經(jīng)元,細胞體、樹突、軸突和突觸。,生物神經(jīng)元的工作機制,興奮和抑制兩種狀態(tài)。,(1)興奮狀態(tài)傳遞興奮信號(2)抑制狀態(tài)傳遞抑制信息,1.2人工神經(jīng)元,人工神經(jīng)元:生物神經(jīng)元的簡化模擬。,人工神經(jīng)元間的互連:信息傳遞路徑軸突-突觸-樹突的簡化。,連接的權(quán)值:兩個互連的神經(jīng)元之間相互作用的強弱。,圖8.2人工神經(jīng)元模型,接收的信息(其它神經(jīng)元的輸出),互連強度,作比較的閾值,n維輸入向量X,輸出,輸出函數(shù),神經(jīng)元的動作:,輸出函數(shù)f:也稱作用函數(shù),非線性。,閾值型,S型,f為閾值型函數(shù)時:,設(shè),點積形式:,式中,,1.3神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),學(xué)習(xí):,從環(huán)境中獲取知識并改進自身性能,主要指調(diào)節(jié)網(wǎng)絡(luò)參數(shù)使網(wǎng)絡(luò)達到某種度量,又稱為網(wǎng)絡(luò)的訓(xùn)練。,實質(zhì):,神經(jīng)網(wǎng)絡(luò)的最重要特征之一。,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式-監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí):對每一個輸入訓(xùn)練樣本,都有一個期望得到的輸出值(也稱教師信號),將它和實際輸出值進行比較,根據(jù)兩者之間的差值不斷調(diào)整網(wǎng)絡(luò)的連接權(quán)值,直到差值減少到預(yù)定的要求。,教師,神經(jīng)網(wǎng)絡(luò),比較,環(huán)境,實際輸出,輸入,期望輸出,誤差信號,p(n),t(n),a(n),e(n),神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式-無監(jiān)督、自組織學(xué)習(xí),無監(jiān)督學(xué)習(xí):網(wǎng)絡(luò)的學(xué)習(xí)完全是一種自我調(diào)整的過程,不存在教師信號。輸入模式進入網(wǎng)絡(luò)后,網(wǎng)絡(luò)按照預(yù)先設(shè)定的某種規(guī)則反復(fù)地自動調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán)值,使網(wǎng)絡(luò)最終具有模式分類等功能。,1.4神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分類,分層結(jié)構(gòu),有明顯層次,信息流向由輸入層到輸出層。,前饋網(wǎng)絡(luò),沒有明顯層次,任意兩個神經(jīng)元之間可達,具有輸出單元到隱層單元或輸入單元的反饋連接。,反饋網(wǎng)絡(luò),相互連接結(jié)構(gòu),2前饋神經(jīng)網(wǎng)絡(luò),2.1感知器,感知器(Perceptron):FRosenblatt于1957年提出。,感知器結(jié)構(gòu)示意圖,*雙層(輸入層、輸出層);*兩層單元之間為全互連;*連接權(quán)值可調(diào)。,結(jié)構(gòu)特點:,*輸出層神經(jīng)元個數(shù)等于類別數(shù)。,設(shè)輸入模式向量,共M類。,輸出層第j個神經(jīng)元對應(yīng)第j個模式類,,j:第j個神經(jīng)元的閾值;,wij:輸入模式第i個分量與輸出層第j個神經(jīng)元間的連接權(quán)。,令。取,有,輸出為,輸出單元對所有輸入數(shù)值加權(quán)求和,經(jīng)閾值型輸出函數(shù)產(chǎn)生一組輸出模式。,M類問題判決規(guī)則(神經(jīng)元的輸出函數(shù))為,*正確判決的關(guān)鍵:,輸出層每個神經(jīng)元必須有一組合適的權(quán)值。,*感知器采用監(jiān)督學(xué)習(xí)算法得到權(quán)值;,*權(quán)值更新方法:學(xué)習(xí)規(guī)則。,算法描述,第一步:設(shè)置初始權(quán)值wij(1),w(n+1)j(1)為第j個神經(jīng)元的閾值。,第二步:輸入新的模式向量。,第三步:計算神經(jīng)元的實際輸出。,設(shè)第k次輸入的模式向量為Xk,與第j個神經(jīng)元相連的權(quán)向量為,第j個神經(jīng)元的實際輸出為,第四步:修正權(quán)值。,dj:第j個神經(jīng)元的期望輸出。,第五步:轉(zhuǎn)到第二步。,當(dāng)全部學(xué)習(xí)樣本都能正確分類時,學(xué)習(xí)過程結(jié)束。,經(jīng)驗證明,當(dāng)隨k的增加而減小時,算法一定收斂。,2.2BP網(wǎng)絡(luò),BP網(wǎng)絡(luò):采用BP算法(Back-PropagationTrainingAlgorithm)的多層感知器。,誤差反向傳播算法,認(rèn)識最清楚、應(yīng)用最廣泛。,性能優(yōu)勢:識別、分類,1多層感知器,針對感知器學(xué)習(xí)算法的局限性:模式類必須線性可分。,輸入層,第一隱層,第二隱層,輸出層,中間層為一層或多層處理單元;,前饋網(wǎng)絡(luò);,結(jié)構(gòu):,只允許一層連接權(quán)可調(diào)。,學(xué)習(xí)過程分為兩個階段:第一階段(正向傳播過程):給出輸入信息通過輸入層經(jīng)各隱層逐層處理并計算每個單元的實際輸出值第二階段(反向傳播過程):若在輸出層未能得到期望的輸出值,則逐層遞歸地計算實際輸出與期望輸出之間的差值(即誤差),通過梯度下降法來修改權(quán)值,使得總誤差函數(shù)達到最小。,2BP算法,BP算法的學(xué)習(xí)過程,設(shè):某層任一神經(jīng)元j的輸入為netj,輸出為yj;相鄰低一層中任一神經(jīng)元i的輸出為yi。,wij:神經(jīng)元i與j之間的連接權(quán);,f():神經(jīng)元的輸出函數(shù)。,S型輸出函數(shù):,j:神經(jīng)元閾值;h0:修改輸出函數(shù)形狀的參數(shù)。,設(shè):輸出層中第k個神經(jīng)元的實際輸出為yk,輸入為netk;與輸出層相鄰的隱層中任一神經(jīng)元j的輸出為yj。,對輸入模式Xp,若輸出層中第k個神經(jīng)元的期望輸出為dpk,實際輸出為ypk。輸出層的輸出方差:,若輸入N個模式,網(wǎng)絡(luò)的系統(tǒng)均方差為:,當(dāng)輸入Xp時,wjk的修正增量:,其中,,由式得到:,令,可得,輸出單元的誤差:,輸出單元的修正增量:,對于與輸出層相鄰的隱層中的神經(jīng)元j和該隱層前低一層中的神經(jīng)元i:,輸出層中神經(jīng)元輸出的誤差反向傳播到前面各層,對各層之間的權(quán)值進行修正。,BP算法步驟:,第一步:對權(quán)值和神經(jīng)元閾值初始化:(0,1)上分布的隨機數(shù)。,第二步:輸入樣本,指定輸出層各神經(jīng)元的期望輸出值。,第三步:依次計算每層神經(jīng)元的實際輸出,直到輸出層。,第四步:從輸出層開始修正每個權(quán)值,直到第一隱層。,若j是輸出層神經(jīng)元,則:,若j是隱層神經(jīng)元,則:,第五步:轉(zhuǎn)到第二步,循環(huán)至權(quán)值穩(wěn)定為止。,初始化,加輸入和期望輸出,計算隱層和輸出層的輸出,迭代次數(shù)加1,調(diào)節(jié)輸出層和隱層的連接權(quán)值,改變訓(xùn)練樣板,訓(xùn)練樣終止?,迭代終止?,BP算法的基本流程,No,No,y,y,BP算法存在問題:,*存在局部極小值問題;*算法收斂速度慢;*隱層單元數(shù)目的選取無一般指導(dǎo)原則;*新加入的學(xué)習(xí)樣本影響已學(xué)完樣本的學(xué)習(xí)結(jié)果。,2.3RBF神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)(RBF-RadialBasisFunction)神經(jīng)網(wǎng)絡(luò)是由J.Moody和C.Darken在80年代末提出的一種神經(jīng)網(wǎng)絡(luò),它是具有單隱層的三層前饋網(wǎng)絡(luò)。由于它模擬了人腦中局部調(diào)整、相互覆蓋接收域(或稱感受野-ReceptiveField)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因此,RBF網(wǎng)絡(luò)是一種局部逼近網(wǎng)絡(luò),它能夠以任意精度逼近任意連續(xù)函數(shù),特別適合于解決分類問題。,RBF網(wǎng)絡(luò)結(jié)構(gòu)RBF網(wǎng)絡(luò)的結(jié)構(gòu)與多層前向網(wǎng)絡(luò)類似,它是一種三層前向網(wǎng)絡(luò)。第一層即輸入層由信號源節(jié)點組成;第二層為隱含層,隱單元數(shù)視所描述的問題的需要而定,隱單元的變換函數(shù)是RBF,它是對稱中心徑向?qū)ΨQ且衰減的非線性函數(shù);第三層為輸出層,它對輸入模式的作用做出響應(yīng)。由于輸入到輸出的映射是非線性的,而隱含層空間到輸出空間的映射是線性的,從而可以大大加快學(xué)習(xí)速度并避免局部極小問題。,RBF網(wǎng)絡(luò)特點前向網(wǎng)絡(luò);RBF網(wǎng)絡(luò)的作用函數(shù)為高斯函數(shù),是局部的,BP網(wǎng)絡(luò)的作用函數(shù)為S函數(shù),是全局的;如何確定RBF網(wǎng)絡(luò)隱層節(jié)點的中心及基寬度參數(shù)是一個困難的問題;RBF網(wǎng)絡(luò)具有唯一最佳逼近的特性,且無局部極小。,圖2RBF神經(jīng)網(wǎng)絡(luò)逼近,在RBF網(wǎng)絡(luò)結(jié)構(gòu)中,為網(wǎng)絡(luò)的輸入向量。設(shè)RBF網(wǎng)絡(luò)的徑向基向量:其中hj為高斯基函數(shù):式中,表示歐式范數(shù)網(wǎng)絡(luò)的第j個結(jié)點的中心矢量為:其中,i=1,2,n;j=1,2,m。,設(shè)網(wǎng)絡(luò)的基寬向量為:為節(jié)點的基寬度參數(shù),且為大于零的數(shù)。網(wǎng)絡(luò)的權(quán)向量為:k時刻網(wǎng)絡(luò)的輸出為:設(shè)理想輸出為y(k),則性能指標(biāo)函數(shù)為:,學(xué)習(xí)算法需要求解的參數(shù)徑向基函數(shù)的中心方差隱含層到輸出層的權(quán)值RBF學(xué)習(xí)方法分類(按RBF中心選取方法的不同分)隨機選取中心法自組織選取中心法有監(jiān)督選取中心法正交最小二乘法等,自組織選取中心學(xué)習(xí)方法(1)第一步、自組織學(xué)習(xí)階段無導(dǎo)師學(xué)習(xí)過程,求解隱含層基函數(shù)的中心與方差;(2)第二步、有導(dǎo)師學(xué)習(xí)階段求解隱含層到輸出層之間的權(quán)值。,學(xué)習(xí)算法具體步驟如下:,1基于K-均值聚類方法求解基函數(shù)中心(1)網(wǎng)絡(luò)初始化:隨機選取個訓(xùn)練樣本作為聚類中心(2)將輸入的訓(xùn)練樣本集合按最近鄰規(guī)則分組:按照與中心之間的歐式距離將分配到輸入樣本的各個聚類集合中。,(3)重新調(diào)整聚類中心:計算各個聚類集合中訓(xùn)練樣本的平均值,即新的聚類中心,如果新的聚類中心不再發(fā)生變化,則所得到的即為RBF神經(jīng)網(wǎng)絡(luò)最終的基函數(shù)中心,否則返回(2),進入下一輪的中心求解。,2求解方差該RBF神經(jīng)網(wǎng)絡(luò)的基函數(shù)為高斯函數(shù),因此方差可由下式求解:式中所選取中心與其他中心之間的最大距離。,3計算隱含層和輸出層之間的權(quán)值隱含層至輸出層之間神經(jīng)元的連接權(quán)值可以用最小二乘法直接計算得到,計算公式如下:,3反饋網(wǎng)絡(luò)模型Hopfield網(wǎng)絡(luò),尋找記憶:,3.1Hopfield網(wǎng)絡(luò),網(wǎng)絡(luò)由初始狀態(tài)向穩(wěn)定狀態(tài)演化的過程。,初始輸出模式向量,單層全互連、權(quán)值對稱的神經(jīng)網(wǎng)絡(luò)。,結(jié)構(gòu):,Hopfield網(wǎng)絡(luò)(HNN),離散型HNN(DHNN):M-P模型二值神經(jīng)元,連續(xù)型HNN(CHNN):神經(jīng)元為連續(xù)時間輸出。,設(shè)是第s類的記憶樣本。為了存儲M個記憶樣本,神經(jīng)元i和神經(jīng)元j之間的權(quán)值wij為,若神經(jīng)元i的輸入為ui,輸出為,則,式中,,說明:,定義網(wǎng)絡(luò)的能量函數(shù),由某一神經(jīng)元的狀態(tài)的變化量引起的E變化量為,式中,。,E0,E有界,網(wǎng)絡(luò)最終可達到一個不隨時間變化的穩(wěn)定狀態(tài)。,穩(wěn)定性:如果網(wǎng)絡(luò)從t=0的任一初始狀態(tài)x(0)開始變化時,存在某一有限時刻t,此后網(wǎng)絡(luò)狀態(tài)不再變化,則稱網(wǎng)絡(luò)是穩(wěn)定的。,3.2算法步驟:,第一步:給神經(jīng)元的連接權(quán)賦值,即存貯記憶樣本。,第二步:用輸入的未知類別的模式設(shè)置網(wǎng)絡(luò)的初始狀態(tài)。,若表示神經(jīng)元i在t時刻的輸出狀態(tài),則初始值:,第三步:迭代計算至算法收斂。,第四步:轉(zhuǎn)到第二步,輸入新模式。,神經(jīng)元輸出與未知模式匹配最好的記憶樣本。,4數(shù)據(jù)挖掘技術(shù),4.1數(shù)據(jù)挖掘的含義:數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是從大量數(shù)據(jù)中獲取有效、新穎、潛在有用、最終可理解的模式的非平凡過程。簡單地說,數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術(shù)。這些知識是是隱含的,事先未知的潛在的有用的信息。,4.2數(shù)據(jù)挖掘的主要功能:分類:按照對象的屬性、特征,建立不同的組類來描述事物。聚類:識別出分析對象內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。,數(shù)據(jù)挖掘的主要功能:關(guān)聯(lián)規(guī)則和序列模式:關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。預(yù)測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。,4.3數(shù)據(jù)挖掘的處理過程:數(shù)據(jù)挖掘的過程主要分為5個部分:問題的定義數(shù)據(jù)準(zhǔn)備數(shù)據(jù)整理建立模型評價和解釋,4.4現(xiàn)行的數(shù)據(jù)挖掘方法:統(tǒng)計方法、關(guān)聯(lián)發(fā)現(xiàn)、聚類分析、分類與回歸和決策樹、聯(lián)機分析處理(OLAP)、查詢工具、主管信息系統(tǒng)(EIS)等。這些方法幫助分析包含在數(shù)據(jù)倉庫中的數(shù)據(jù),它們的共同特點是問題驅(qū)動的。用戶必須提出許多問題,才能得到包含在復(fù)雜關(guān)系中的結(jié)果,當(dāng)提不出問題或提出的問題不正確時,將得不到正確的數(shù)據(jù)。,5基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究,5.1基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分三個階段,選擇與預(yù)處理數(shù)據(jù)網(wǎng)絡(luò)訓(xùn)練與剪紙規(guī)則提取與評估,(1)選擇與預(yù)處理數(shù)據(jù)為構(gòu)造網(wǎng)絡(luò)準(zhǔn)備數(shù)據(jù),包括訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。選擇數(shù)據(jù)之前首先要觀察和理解數(shù)據(jù),選擇一個或幾個合適的樣本數(shù)據(jù)集。結(jié)合挖掘任務(wù)、數(shù)據(jù)的特點和采用的挖掘方法選擇合適的編碼(轉(zhuǎn)化)方法,(2)網(wǎng)絡(luò)訓(xùn)練與剪紙這個階段需要選擇擬采用的網(wǎng)絡(luò)模型,選擇或設(shè)計一種網(wǎng)絡(luò)訓(xùn)練算法。訓(xùn)練后的網(wǎng)絡(luò)可能有些臃腫,剪枝就是在不影響網(wǎng)絡(luò)準(zhǔn)確性的前提下,將網(wǎng)絡(luò)中冗余的連接和結(jié)點去掉。沒有冗余結(jié)點和連接的網(wǎng)絡(luò)產(chǎn)生的模式更精練和更易于理解。,(3)規(guī)則提取與評估,經(jīng)過學(xué)習(xí)和剪枝之后,網(wǎng)絡(luò)中蘊含著學(xué)習(xí)到的規(guī)則(知識),但以這種形式存在規(guī)則不易理解。規(guī)則提取目的就是從網(wǎng)絡(luò)中提取規(guī)則,并轉(zhuǎn)換為某種易理解的形式表達出來,如決策樹、模糊邏輯等方法。再利用測試樣本對規(guī)則的可靠性進行測試和評估。,5.2適合神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘問題:分類是數(shù)據(jù)挖掘的一個主要問題。單層感知器的線性可分能力早已證明,但是對于非線性可分問題單層網(wǎng)絡(luò)是無能為力的??赏ㄟ^加入中間層,引入轉(zhuǎn)換函數(shù),將非分線性可分的問題映射后變?yōu)榫€性可分。一個多層的神經(jīng)網(wǎng)絡(luò)具有非常強的分類能力,并且分類誤差率較低。,聚類是無監(jiān)督學(xué)習(xí)過程,它依據(jù)數(shù)據(jù)間的相似度將數(shù)據(jù)集劃分為不同的簇。目的是概觀數(shù)據(jù)的全貌,了解數(shù)據(jù)點的分布情況以及可能存在的問題。,時序預(yù)測是依據(jù)當(dāng)前已知的數(shù)據(jù)來預(yù)測將來未知數(shù)據(jù)的狀態(tài)。神經(jīng)網(wǎng)絡(luò)固有的輸人輸出映射特性,特別適合用來建立預(yù)測模型。不管是線性問題還是非線性問題,只要輸入輸出間存在連續(xù)映射關(guān)系,就可以用一個多層神經(jīng)網(wǎng)絡(luò)以任意精度來逼近之。,5.3神經(jīng)網(wǎng)絡(luò)實現(xiàn)的驅(qū)動方式驅(qū)動數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)實現(xiàn)實際上是以神經(jīng)網(wǎng)絡(luò)為工具的聯(lián)機分析處理技術(shù)。基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘的驅(qū)動方式可以分為以下五種。(1)自發(fā)知識驅(qū)動方式(2)數(shù)據(jù)驅(qū)動方式(3)查詢驅(qū)動方式(4)交互式驅(qū)動方式(5)專家知識驅(qū)動方式,(1)自發(fā)知識驅(qū)動方式:給定網(wǎng)絡(luò)一個數(shù)據(jù)挖掘規(guī)則(關(guān)聯(lián)、特征、分類、聚類、偏差、判別、時序等規(guī)則)或規(guī)則組合模式,以在線方式連接知識庫和數(shù)據(jù)庫,當(dāng)知識庫中的規(guī)則滿足時,驅(qū)動網(wǎng)絡(luò)進行數(shù)據(jù)挖掘。(2)數(shù)據(jù)驅(qū)動方式:當(dāng)數(shù)據(jù)滿足挖掘規(guī)則時,就驅(qū)動網(wǎng)絡(luò)開始挖掘。(3)查詢驅(qū)動方式:給定網(wǎng)絡(luò)查詢對象及規(guī)則后,進行自動挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論