貝氏機率分類演算法_第1頁
貝氏機率分類演算法_第2頁
貝氏機率分類演算法_第3頁
貝氏機率分類演算法_第4頁
貝氏機率分類演算法_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、貝氏機率分類演算法Microsoft 貝氏機率分類演算法是 Microsoft SQL Server Analysis Services 所提供用於預測模型的分類演算法。貝氏 (Naive Bayes) 這個名稱源自此演算法使用貝氏定理但卻沒有考量可能存在的相依性,因此其假設被視為Naive(亦即天真之意)。此演算法比其他 Microsoft 演算法更少計算,因此對於快速產(chǎn)生採礦模型來探索輸入資料行和可預測資料行之間的關聯(lián)性很有用。您可以使用此演算法來執(zhí)行資料的初始瀏覽,然後您可以套用其結果,以其他更多計算和更精確的演算法來建立其他採礦模型。演算法的運作方式 在提供了可預測資料行的每一個可能狀

2、態(tài)之後,Microsoft 貝氏機率分類演算法可計算出每一個輸入資料行的每一個狀態(tài)的機率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,來查看演算法如何散發(fā)狀態(tài)的視覺表示法。在提供了可預測資料行的每一個狀態(tài)之後,Microsoft 貝氏機率分類檢視器可列出資料集內(nèi)的每一個輸入資料行,並顯示如何散發(fā)每一個資料行的狀態(tài)。您可以使用此檢視來識別在區(qū)分可預測資料行的狀態(tài)時很重要的輸入資料行。例如,在此處所顯示的 Commute Distance 資料行中,如果客戶與工作地點的通勤距離是 1 到 2 英里,則其

3、購買腳踏車的機率是 0.387,而不購買腳踏車的機率是 0.287。在此範例中,演算法會使用從客戶特性中衍生的數(shù)值資訊 (例如通勤距離),來預測客戶是否會購買腳踏車。如需有關使用 Microsoft 貝氏機率分類檢視器的詳細資訊,請參閱以 Microsoft 貝氏機率分類檢視器檢視採礦模型。貝氏機率分類模型所需的資料 當您準備資料以供貝氏機率分類模型定型使用時,應該要瞭解特定演算法的需求,包括所需的資料量及資料的使用方式等。貝氏機率分類模型的需求如下:· 單一索引鍵資料行:每個模型都必須包含一個能唯一識別每一筆記錄的數(shù)值或文字資料行。不允許複合的索引鍵。· 輸入資料行:在貝

4、氏機率分類模型中,所有的資料行都必須是離散或離散化的資料行。如需有關分隔資料行的資訊,請參閱分隔方法 (資料採礦)。對貝氏機率分類模型而言,確保輸入屬性彼此無關很重要。· 至少有一個可預期的資料行:可預期的屬性必須包含離散或離散化的值??深A期資料行的值可以也經(jīng)常當做輸入,可用來找出資料行之間的關聯(lián)性。貝氏網(wǎng)在教育上的應用傳統(tǒng)用在教育心測驗的方法是試題反應(item response theory, IRT),其是將學生的資訊用單一變模式化。應用在學生的等第分,這模型是適合的;但是如需要測驗出有關學生多的資訊就有問題貝氏網(wǎng)在教育域中,最早是Millan et al 使用貝氏網(wǎng)建構電腦化

5、適性測驗,Millan et al 用貝氏網(wǎng)針對多個變進推、預測。另外Almondet al.也應用貝氏網(wǎng)條件機的特性於教育測驗統(tǒng)計中。Almod 和Mislevy 提出使用圖形模式的電腦化適性測驗(CAT),他們的模式是由一個學生模式和個證據(jù)模式所組成。一個測驗的設計者,要具體指定測驗技能Y= Y1,.,YK和問題庫X = X1,.,Xm,並藉由y= y1,., yk表示Yi 的態(tài)。其中學生模式用描述學生的技能、能迷失概之間的關係。換言之,學生的知藉由貝氏網(wǎng)的應用,能將其合機分布加以表示出以供用。Vomlel 於2004 所發(fā)表貝氏網(wǎng)模型的學習過程使用在測驗分基本運算的應用,首先分析學生基本

6、技能(如:加,減,乘,除),四個運算技能(如:消去,規(guī)則分和帶分之間的約化,以及同分母比較)和一些應用型式的運算技能、複雜工作的能。並藉由位域專家確定這些技能及其迷失概為其主要原因。接著用Hugin 所改的PC 演算法第一次透視技能和迷失概之間的關係。然後,域專家用隱藏變和引入某些限制解釋一些關係。並再用PC演算法於同限制下對模型做學習而獲取最後的模型,且最後模型再用EM演算法校準,以確定最後貝氏網(wǎng)的結構。使用證據(jù)中心的評設計,以貝氏網(wǎng)模式為推方法,對於高中計算機概課程中進位換算的單元分別題出敘式教學貝氏網(wǎng)模式架構和分組解題式貝氏網(wǎng)模式架構,並進實際施測與樣本回收,再用所提出的架構進分析,實驗

7、結果指出分組式教的貝氏網(wǎng)模式架構對於學生的基本能和錯誤型較敘式教學的貝氏網(wǎng)模式架構有較佳辨,可供教師在教學時是否採用敘式教學或分組解題式教學的考。羅吉斯迴歸演算法技術參考 (Analysis Services - 資料採礦)Microsoft 羅吉斯迴歸演算法是 Microsoft 類神經(jīng)網(wǎng)路演算法的演變,其中 HIDDEN_NODE_RATIO 參數(shù)設定為 0。此設定會建立不包含隱藏層的類神經(jīng)網(wǎng)路模型,而這相等於羅吉斯迴歸。特徵選取所有 Analysis Services 資料採礦演算法都會自動使用特徵選取來改善分析並減少處理的負載。在羅吉斯迴歸模型中,特徵選取所使用的方法取決於屬性的資料類

8、型。羅吉斯迴歸是以 Microsoft 類神經(jīng)網(wǎng)路演算法為基礎,因此,它會使用適用於類神經(jīng)網(wǎng)路的特徵選取方法子集。如需詳細資訊,請參閱資料採礦的特徵選取。計分輸入在類神經(jīng)網(wǎng)路模型或羅吉斯迴歸模型的內(nèi)容中,計分(Scoring) 表示一種程序,會將資料中出現(xiàn)的值轉換為使用相同小數(shù)位數(shù)的一組值,因此可以互相比較。例如,假設 Income 輸入的範圍是 0 到 100,000,而 Number of Children 輸入的範圍是 0 到 5。這個轉換程序可讓您計分(Score) 或比較每個輸入的重要性,而不管這些值的差異為何。對於出現(xiàn)在定型集中的每個狀態(tài),模型都會產(chǎn)生一個輸入。對於離散或離散化的輸

9、入,如果在定型集中至少出現(xiàn)一次遺漏狀態(tài),則會建立其他輸入來代表遺漏狀態(tài)。至於連續(xù)輸入,最多會建立兩個輸入節(jié)點:一個用於遺漏值 (如果出現(xiàn)在定型資料中),而另一個輸入則用於所有現(xiàn)有的值或非 Null 值。每個輸入都會使用 z-score 正規(guī)化方法 (x )/StdDev 來調(diào)整為數(shù)值格式。在 z-score 正規(guī)化期間,平均值 () 和標準差會透過完整的定型集取得。連續(xù)值 值存在:(X )/ / X 是要編碼的實際值)離散值 = p (狀態(tài)的優(yōu)先機率) 瞭解羅吉斯迴歸係數(shù)在統(tǒng)計文獻中,有各種方法可以執(zhí)行羅吉斯迴歸,但是所有方法的重要部分都是評估模型的符合度。在勝算比和共變模式之間,提出各種符合

10、程度統(tǒng)計資料。如何測量模型符合度的討論超出本主題的範圍,不過,您可以在模型中擷取係數(shù)的值,然後用於設計符合您自己的量值。資分群 分群(Clustering)與分(Classification)者常被混淆,分是從已知資及屬性別建模型,而分群則須知道各資的別,自動將屬性性質相似之資聚集成群。假設一資集包含n個資點 且每個資點有d個屬性 ( 維 ) ,則此資集可以用一個矩陣 12nX=x,x,.xndX× 12,.,kzzz表示之,此資集分為K群,用 表示且用 12,.,kCccc=Z= 表示K群的群中心,分群的方法有許多種,主要可分為階層法 ( Hierarchical method )

11、、分割法 ( Partitioning method )、密基準法 ( Density-base method )、模式基準法 ( Model-based method ) 與網(wǎng)格基準法 ( Grid-based method ) 等 17,將分述如下: 階層法 階層法通常以樹結構的方式,可再細分為聚合法 ( Agglomerative approach )分法 ( Divisive approach ) 。聚合方式為是由下而上凝聚而成。聚合法先將各資點視為獨的一群,計算各群組間的距,將距最短的個群組進合併,反覆斷的合併直到滿足指定的群組或是指定的停止條件為止。依群組間的距計算方法同,其方法有

12、:單一結法 ( Single Linkage ) 、完全結法 ( Complete Linkage )、平均結法 ( Average Linkage ) 及華德法 ( Wards method ) 等等。分方式為由上而下分而成,分法先將所有資點視為同一群組,反覆逐漸分成較小的群組,直到分出指定的群組或是指定的停止條件滿足為止。階層法的運算速很快,但當群組被合併或分後無法再修正分群結果 分割法 分割法須事先指定分割的群K,在n個資中,用群中心進指派分割。分群結果須滿足個條件:(1)每群最少要含有一個物件(2)每物件恰被分屬於某一群。分割法是用反覆再配置技術 ( Iterative relocat

13、ion technique ),使資在群組間移動,改善分群結果。好的分群結果會使同一群組內(nèi)的資彼此相似或接近,而同群組間的資彼此相或疏。 密基準法 分割法是運用群組間的距衡分群,較適用於球 ( Spherical-shaped ) 分佈的資集合,較於特殊形、任意形、任意大小分布的資集合,密基 準法可解決上述的問題。密基準法是運用資間的密進分群,群組內(nèi)的資點彼此緊密很高,與其他群組緊密很低,讓群組內(nèi)的資密大於群組外的密。當固定範圍內(nèi)資點已達到事先設定之閥值 ( Threshold ) 時,表示緊密夠,就加到鄰近的群組中,依此種方式讓群組持續(xù)的增大。反之則緊密夠,適合群聚。其代表性的方法有DBSCAN ( Density-based Spatial Clustering of Applications with Noise )、OPTICS ( Ordering Points To Identify the Cl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論