貝氏機(jī)率分類演算法_第1頁(yè)
貝氏機(jī)率分類演算法_第2頁(yè)
貝氏機(jī)率分類演算法_第3頁(yè)
貝氏機(jī)率分類演算法_第4頁(yè)
貝氏機(jī)率分類演算法_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、貝氏機(jī)率分類演算法Microsoft 貝氏機(jī)率分類演算法是 Microsoft SQL Server Analysis Services 所提供用於預(yù)測(cè)模型的分類演算法。貝氏 (Naive Bayes) 這個(gè)名稱源自此演算法使用貝氏定理但卻沒(méi)有考量可能存在的相依性,因此其假設(shè)被視為Naive(亦即天真之意)。此演算法比其他 Microsoft 演算法更少計(jì)算,因此對(duì)於快速產(chǎn)生採(cǎi)礦模型來(lái)探索輸入資料行和可預(yù)測(cè)資料行之間的關(guān)聯(lián)性很有用。您可以使用此演算法來(lái)執(zhí)行資料的初始瀏覽,然後您可以套用其結(jié)果,以其他更多計(jì)算和更精確的演算法來(lái)建立其他採(cǎi)礦模型。演算法的運(yùn)作方式 在提供了可預(yù)測(cè)資料行的每一個(gè)可能狀

2、態(tài)之後,Microsoft 貝氏機(jī)率分類演算法可計(jì)算出每一個(gè)輸入資料行的每一個(gè)狀態(tài)的機(jī)率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機(jī)率分類檢視器,來(lái)查看演算法如何散發(fā)狀態(tài)的視覺(jué)表示法。在提供了可預(yù)測(cè)資料行的每一個(gè)狀態(tài)之後,Microsoft 貝氏機(jī)率分類檢視器可列出資料集內(nèi)的每一個(gè)輸入資料行,並顯示如何散發(fā)每一個(gè)資料行的狀態(tài)。您可以使用此檢視來(lái)識(shí)別在區(qū)分可預(yù)測(cè)資料行的狀態(tài)時(shí)很重要的輸入資料行。例如,在此處所顯示的 Commute Distance 資料行中,如果客戶與工作地點(diǎn)的通勤距離是 1 到 2 英里,則其

3、購(gòu)買(mǎi)腳踏車(chē)的機(jī)率是 0.387,而不購(gòu)買(mǎi)腳踏車(chē)的機(jī)率是 0.287。在此範(fàn)例中,演算法會(huì)使用從客戶特性中衍生的數(shù)值資訊 (例如通勤距離),來(lái)預(yù)測(cè)客戶是否會(huì)購(gòu)買(mǎi)腳踏車(chē)。如需有關(guān)使用 Microsoft 貝氏機(jī)率分類檢視器的詳細(xì)資訊,請(qǐng)參閱以 Microsoft 貝氏機(jī)率分類檢視器檢視採(cǎi)礦模型。貝氏機(jī)率分類模型所需的資料 當(dāng)您準(zhǔn)備資料以供貝氏機(jī)率分類模型定型使用時(shí),應(yīng)該要瞭解特定演算法的需求,包括所需的資料量及資料的使用方式等。貝氏機(jī)率分類模型的需求如下:· 單一索引鍵資料行:每個(gè)模型都必須包含一個(gè)能唯一識(shí)別每一筆記錄的數(shù)值或文字資料行。不允許複合的索引鍵。· 輸入資料行:在貝

4、氏機(jī)率分類模型中,所有的資料行都必須是離散或離散化的資料行。如需有關(guān)分隔資料行的資訊,請(qǐng)參閱分隔方法 (資料採(cǎi)礦)。對(duì)貝氏機(jī)率分類模型而言,確保輸入屬性彼此無(wú)關(guān)很重要。· 至少有一個(gè)可預(yù)期的資料行:可預(yù)期的屬性必須包含離散或離散化的值??深A(yù)期資料行的值可以也經(jīng)常當(dāng)做輸入,可用來(lái)找出資料行之間的關(guān)聯(lián)性。貝氏網(wǎng)在教育上的應(yīng)用傳統(tǒng)用在教育心測(cè)驗(yàn)的方法是試題反應(yīng)(item response theory, IRT),其是將學(xué)生的資訊用單一變模式化。應(yīng)用在學(xué)生的等第分,這模型是適合的;但是如需要測(cè)驗(yàn)出有關(guān)學(xué)生多的資訊就有問(wèn)題貝氏網(wǎng)在教育域中,最早是Millan et al 使用貝氏網(wǎng)建構(gòu)電腦化

5、適性測(cè)驗(yàn),Millan et al 用貝氏網(wǎng)針對(duì)多個(gè)變進(jìn)推、預(yù)測(cè)。另外Almondet al.也應(yīng)用貝氏網(wǎng)條件機(jī)的特性於教育測(cè)驗(yàn)統(tǒng)計(jì)中。Almod 和Mislevy 提出使用圖形模式的電腦化適性測(cè)驗(yàn)(CAT),他們的模式是由一個(gè)學(xué)生模式和個(gè)證據(jù)模式所組成。一個(gè)測(cè)驗(yàn)的設(shè)計(jì)者,要具體指定測(cè)驗(yàn)技能Y= Y1,.,YK和問(wèn)題庫(kù)X = X1,.,Xm,並藉由y= y1,., yk表示Yi 的態(tài)。其中學(xué)生模式用描述學(xué)生的技能、能迷失概之間的關(guān)係。換言之,學(xué)生的知藉由貝氏網(wǎng)的應(yīng)用,能將其合機(jī)分布加以表示出以供用。Vomlel 於2004 所發(fā)表貝氏網(wǎng)模型的學(xué)習(xí)過(guò)程使用在測(cè)驗(yàn)分基本運(yùn)算的應(yīng)用,首先分析學(xué)生基本

6、技能(如:加,減,乘,除),四個(gè)運(yùn)算技能(如:消去,規(guī)則分和帶分之間的約化,以及同分母比較)和一些應(yīng)用型式的運(yùn)算技能、複雜工作的能。並藉由位域?qū)<掖_定這些技能及其迷失概為其主要原因。接著用Hugin 所改的PC 演算法第一次透視技能和迷失概之間的關(guān)係。然後,域?qū)<矣秒[藏變和引入某些限制解釋一些關(guān)係。並再用PC演算法於同限制下對(duì)模型做學(xué)習(xí)而獲取最後的模型,且最後模型再用EM演算法校準(zhǔn),以確定最後貝氏網(wǎng)的結(jié)構(gòu)。使用證據(jù)中心的評(píng)設(shè)計(jì),以貝氏網(wǎng)模式為推方法,對(duì)於高中計(jì)算機(jī)概課程中進(jìn)位換算的單元分別題出敘式教學(xué)貝氏網(wǎng)模式架構(gòu)和分組解題式貝氏網(wǎng)模式架構(gòu),並進(jìn)實(shí)際施測(cè)與樣本回收,再用所提出的架構(gòu)進(jìn)分析,實(shí)驗(yàn)

7、結(jié)果指出分組式教的貝氏網(wǎng)模式架構(gòu)對(duì)於學(xué)生的基本能和錯(cuò)誤型較敘式教學(xué)的貝氏網(wǎng)模式架構(gòu)有較佳辨,可供教師在教學(xué)時(shí)是否採(cǎi)用敘式教學(xué)或分組解題式教學(xué)的考。羅吉斯迴歸演算法技術(shù)參考 (Analysis Services - 資料採(cǎi)礦)Microsoft 羅吉斯迴歸演算法是 Microsoft 類神經(jīng)網(wǎng)路演算法的演變,其中 HIDDEN_NODE_RATIO 參數(shù)設(shè)定為 0。此設(shè)定會(huì)建立不包含隱藏層的類神經(jīng)網(wǎng)路模型,而這相等於羅吉斯迴歸。特徵選取所有 Analysis Services 資料採(cǎi)礦演算法都會(huì)自動(dòng)使用特徵選取來(lái)改善分析並減少處理的負(fù)載。在羅吉斯迴歸模型中,特徵選取所使用的方法取決於屬性的資料類

8、型。羅吉斯迴歸是以 Microsoft 類神經(jīng)網(wǎng)路演算法為基礎(chǔ),因此,它會(huì)使用適用於類神經(jīng)網(wǎng)路的特徵選取方法子集。如需詳細(xì)資訊,請(qǐng)參閱資料採(cǎi)礦的特徵選取。計(jì)分輸入在類神經(jīng)網(wǎng)路模型或羅吉斯迴歸模型的內(nèi)容中,計(jì)分(Scoring) 表示一種程序,會(huì)將資料中出現(xiàn)的值轉(zhuǎn)換為使用相同小數(shù)位數(shù)的一組值,因此可以互相比較。例如,假設(shè) Income 輸入的範(fàn)圍是 0 到 100,000,而 Number of Children 輸入的範(fàn)圍是 0 到 5。這個(gè)轉(zhuǎn)換程序可讓您計(jì)分(Score) 或比較每個(gè)輸入的重要性,而不管這些值的差異為何。對(duì)於出現(xiàn)在定型集中的每個(gè)狀態(tài),模型都會(huì)產(chǎn)生一個(gè)輸入。對(duì)於離散或離散化的輸

9、入,如果在定型集中至少出現(xiàn)一次遺漏狀態(tài),則會(huì)建立其他輸入來(lái)代表遺漏狀態(tài)。至於連續(xù)輸入,最多會(huì)建立兩個(gè)輸入節(jié)點(diǎn):一個(gè)用於遺漏值 (如果出現(xiàn)在定型資料中),而另一個(gè)輸入則用於所有現(xiàn)有的值或非 Null 值。每個(gè)輸入都會(huì)使用 z-score 正規(guī)化方法 (x )/StdDev 來(lái)調(diào)整為數(shù)值格式。在 z-score 正規(guī)化期間,平均值 () 和標(biāo)準(zhǔn)差會(huì)透過(guò)完整的定型集取得。連續(xù)值 值存在:(X )/ / X 是要編碼的實(shí)際值)離散值 = p (狀態(tài)的優(yōu)先機(jī)率) 瞭解羅吉斯迴歸係數(shù)在統(tǒng)計(jì)文獻(xiàn)中,有各種方法可以執(zhí)行羅吉斯迴歸,但是所有方法的重要部分都是評(píng)估模型的符合度。在勝算比和共變模式之間,提出各種符合

10、程度統(tǒng)計(jì)資料。如何測(cè)量模型符合度的討論超出本主題的範(fàn)圍,不過(guò),您可以在模型中擷取係數(shù)的值,然後用於設(shè)計(jì)符合您自己的量值。資分群 分群(Clustering)與分(Classification)者常被混淆,分是從已知資及屬性別建模型,而分群則須知道各資的別,自動(dòng)將屬性性質(zhì)相似之資聚集成群。假設(shè)一資集包含n個(gè)資點(diǎn) 且每個(gè)資點(diǎn)有d個(gè)屬性 ( 維 ) ,則此資集可以用一個(gè)矩陣 12nX=x,x,.xndX× 12,.,kzzz表示之,此資集分為K群,用 表示且用 12,.,kCccc=Z= 表示K群的群中心,分群的方法有許多種,主要可分為階層法 ( Hierarchical method )

11、、分割法 ( Partitioning method )、密基準(zhǔn)法 ( Density-base method )、模式基準(zhǔn)法 ( Model-based method ) 與網(wǎng)格基準(zhǔn)法 ( Grid-based method ) 等 17,將分述如下: 階層法 階層法通常以樹(shù)結(jié)構(gòu)的方式,可再細(xì)分為聚合法 ( Agglomerative approach )分法 ( Divisive approach ) 。聚合方式為是由下而上凝聚而成。聚合法先將各資點(diǎn)視為獨(dú)的一群,計(jì)算各群組間的距,將距最短的個(gè)群組進(jìn)合併,反覆斷的合併直到滿足指定的群組或是指定的停止條件為止。依群組間的距計(jì)算方法同,其方法有

12、:?jiǎn)我唤Y(jié)法 ( Single Linkage ) 、完全結(jié)法 ( Complete Linkage )、平均結(jié)法 ( Average Linkage ) 及華德法 ( Wards method ) 等等。分方式為由上而下分而成,分法先將所有資點(diǎn)視為同一群組,反覆逐漸分成較小的群組,直到分出指定的群組或是指定的停止條件滿足為止。階層法的運(yùn)算速很快,但當(dāng)群組被合併或分後無(wú)法再修正分群結(jié)果 分割法 分割法須事先指定分割的群K,在n個(gè)資中,用群中心進(jìn)指派分割。分群結(jié)果須滿足個(gè)條件:(1)每群最少要含有一個(gè)物件(2)每物件恰被分屬於某一群。分割法是用反覆再配置技術(shù) ( Iterative relocat

13、ion technique ),使資在群組間移動(dòng),改善分群結(jié)果。好的分群結(jié)果會(huì)使同一群組內(nèi)的資彼此相似或接近,而同群組間的資彼此相或疏。 密基準(zhǔn)法 分割法是運(yùn)用群組間的距衡分群,較適用於球 ( Spherical-shaped ) 分佈的資集合,較於特殊形、任意形、任意大小分布的資集合,密基 準(zhǔn)法可解決上述的問(wèn)題。密基準(zhǔn)法是運(yùn)用資間的密進(jìn)分群,群組內(nèi)的資點(diǎn)彼此緊密很高,與其他群組緊密很低,讓群組內(nèi)的資密大於群組外的密。當(dāng)固定範(fàn)圍內(nèi)資點(diǎn)已達(dá)到事先設(shè)定之閥值 ( Threshold ) 時(shí),表示緊密夠,就加到鄰近的群組中,依此種方式讓群組持續(xù)的增大。反之則緊密夠,適合群聚。其代表性的方法有DBSCAN ( Density-based Spatial Clustering of Applications with Noise )、OPTICS ( Ordering Points To Identify the Cl

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論