版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據挖掘技術之DM經典模型(下)數據分析微信公眾號datadw——關注你想了解的,分享你需要的。接著上篇大數據挖掘技術之DM經典模型(上)文章,接下來我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。4、樸素貝葉斯模型元格中訓練樣本的數量會迅速減少。如果維度為2,且每一維有10個不同的變量,那么就需要100個單元格,而當有3個維度時,就需要1000個單元格,4個維度就是10000.頸。當試圖預測某一個概率值時,樸素貝葉斯模型就提供這一辦法?;舅枷耄鹤兞縿澐衷诓煌姆秶?。B的條件下A的概率以及給定A的條件下B的概率。B的條件下A發(fā)生的概率,等于給定A的條件下B發(fā)生的概率乘以A和B發(fā)生的概率的比例。如果A代表停止續(xù)簽,B代表使用黑莓手機,然后給定使用黑莓手機的條停止續(xù)簽的概率與總體使用黑莓手機的概率之比。4.1、概率、幾率和釋然·概0到1之間的一個數字,表示一個特定結果發(fā)生的可能性。一種估計結果概率的方法是計算樣本數據中出現結果次數的百分比。·幾率:某一特定結果發(fā)生于不發(fā)生的概率比。如果一個事件發(fā)生的概率是0.2,那么不發(fā)生的概率是0.8。那么其發(fā)生的幾率就是1/4。幾率的取值是0到無窮。·似然:兩個相關的條件概率比。即給定B發(fā)生的情況下,某一特定結果A發(fā)生的概率和給定B不發(fā)生的情況下A發(fā)生的概率之比。4.2、樸素貝葉斯計算12戶停止的似然。3、在整個州市場停止續(xù)簽的似然。之所以定義為“樸素”樸素貝葉斯模型最吸引人的點:對于待評分的觀測,如果缺失某些輸入值,而公司對這種停止續(xù)簽的用戶更感興趣。4.3、樸素與表查詢模型的比較概率很低的屬性就不會出現。以支持一個可信的估計模型時,表查詢模型也許會做的更好。5、線性回歸Excel——量,回歸方程描述了兩者之間的一種算術關系?!白罴训摹标P系是指最大限度地減少了從數據點到擬合曲線的垂直距離的平方和。5.1最佳擬合曲線較不同的客戶組時,這種散點圖尤其有用。來的曲線更像是一個雙曲線。根據X軸,時間的遞增。Y軸,日訪問量的增加。勢。如果曲線更精確的化,我們甚至可以模擬出曲線的函數表達式。垂直距離的平方最下的那條曲線,散點圖顯示了每個點到曲線之間的距離。方,在沒有計算機的年代,計算歐式距離非常困難。當時,高斯提出這一觀點,數很容易計算。見,更多的是曲線擬合。5.2擬合的優(yōu)點多條曲線,哪條才是最佳的。這里引入“殘差”,就是度量預測值與實際值之差。還有一個標準方法,成為,用來衡量描述曲線對觀測數據的擬合程度。(1)殘差如圖,身高與體重模型的殘差。圖中我們也可以看到在曲線上與在曲線下的樣本點是不一樣的。是由于一些人為記錄的原因造成的。在統(tǒng)計學中,殘差在回歸方程中要考慮誤差項。最佳擬合曲線的方程是:Y=aX+b但該曲線,不是完整的模型。統(tǒng)計人員會將模型方程表示為:ε代表誤差項,因為X并不能完美的展示Y。誤差項表示模型無法解釋的Y的部分。Y=aX+b+ε(2)R(R這里代表是R的平方)R的取值始終在0~1100~1關系越下。R要比較最佳擬合曲線與y1減去兩個誤差的比值可以計算出RR度量了最佳擬合曲線優(yōu)于均值作為估計的程度。R度量了數據的穩(wěn)定性。同一數據集中不同的樣本是否會生成相似的模型。當R值較低時,不同的樣本可能會表現出非常不同的行為?;蛘撸诖嘶A上,再加入少量觀察值可能會極大地改變模型的系數。當R值較高時,再加入少量觀察值就不會有上述的改變。5.3全局效應部模式。組,年齡的影響變化又會不同。值范圍的變量作為輸入參數。但是,回歸方程本身不會發(fā)現局部模式。6、多元回歸引入線性回歸的那個例子使用了單一的輸入——持續(xù)期——來解釋日訪問量隨時間的變化。當一個回歸模型有多個輸入時,就稱其為多元回歸。6.1、等式Y=a+a1x1+a2x2+a3x3+…..+anxn。展。——曲即可以由系數決定自變量貢獻的大小和方向。6.2、目標變量的范圍一個回歸方程可以產生任何值。如果對X沒有限制,那么Y也是沒有限制Y=aX+bX的回歸方程產生的Y值映射到目標變量的一個適合的范圍。當目標遵循某一已知射到目標的一個適當的范圍。圍映射到0~1的區(qū)間,該區(qū)間等價于概率估計。6.3、使用多元回歸的其他注意事項回歸模型中有多個輸入變量時,會產生一些在單一輸入中不存在的問題。理想情況下,所有輸入之間應該線性無關。被模型顯示地包含的輸入之間可能存在相互。添加一個新輸入將會改變所有原輸入的系值取值。(1)線性無關影響。(2)交互淋的吸引力可能依賴于價格和天氣——寒冷的時候,只有真正物美價廉才可能會吸引人民購買。同。這就是交互的例子。這些新變量是標準化交互中涉及變量值的產物。(3)添加變量可以改變模型中的原有變量的取值變量系數的正負值。6.4、多元回歸的變量選擇“領域知識”域知識對一時模型的預測可以提供一個很好的指標指向。件通??梢詭椭褂谜哌x擇出模型所需的最好變量。使用的方法:(1)前向選擇n個輸n得分最高的模型所對應的變量作為前向選擇模型中的第一個變量。選擇最佳模型的一種方法是選擇R值最低的模型。另一種方法是使用統(tǒng)計檢驗中F-檢驗的方法。最好的模型是在驗證集上的誤差最小的模型。這看上去更像是數據挖掘,因為它使用了驗證集,并沒有對輸入或目標值做出任何假設。量與第一步已選定的變量組合以創(chuàng)建包含有兩個輸入變量的n-1最大的選擇變量個數,或者繼續(xù)增加變量不能在繼續(xù)提高模型的某個閾值。(2)逐步選擇合作用而不再是有效變量。(3)后向消去后向消去選擇變量的方法首先使用所有的n個輸入變量創(chuàng)建了一個多元回滿足某些停止條件,比如到達理想變量的最小數目。7、邏輯回歸分析性是它可以向兩端無限延伸。除與X軸平行的直線外,回歸模型沒有最大值和量。模型。7.1建模二元輸出分配到其中的一個類。這就是一個分類任務。然而,該任務可以重述為“某個記錄屬于其中一個類的概率是多少?”,因為概率是數字,這個問題就轉化為一項評估任務。(1)使用線性回歸評估概率前面幾個星期,客戶不愿意付款的可能性非常大。目標值為011這就是直線的性質:顯然存在弊端,沒有最大值或最小值。(2)將回歸直線彎成曲線0~1之間的函數。這就是邏輯函數。7.2、邏輯函數回歸轉換成邏輯回歸也使用了這類技巧。P與1-P之間將概率P轉換為幾率。幾率和概率表示同一件事0~10生成一個從負無窮到正無窮的函數?!@正式線性回歸的優(yōu)勢。把幾率的對數值作為目標變量而建立回歸方程?!皬澢狈椒?,通過最大似然法擬合模型。最大似然法擬合模型分過程中,給定一組參數值模型,模型為某些輸入產生最佳的估計值。給定一個待定的參數值和一組觀察值,這一函數返回該參數值正確的概率。率和參數的似然之間存在一個有用的關系——決于使用特定的參數模型。最大化似然值,并可以保證找到最大點??偨Y:概率統(tǒng)計的思想是所有數據挖掘技術的基礎。給定一個理想目標統(tǒng)計描述,距
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版文化衍生品租賃及轉售運營合同3篇
- 2024智能法院建設與運營協(xié)議
- 2025版金融資產管理居間合同糾紛起訴狀范本3篇
- 銀行工作總結客戶關系管理建議
- 電商行業(yè)工程師工作總結
- 酒店行業(yè)客服心得總結
- 2024年超市聯(lián)營協(xié)議3篇
- 咖啡廳行業(yè)制作方法培訓總結
- 2024指定工程修補及維護承包協(xié)議版B版
- 2024未成年人監(jiān)護人責任擔保執(zhí)行合同3篇
- 臨床醫(yī)學內科學消化系統(tǒng)疾病教案脂肪性肝病教案
- 2024年江蘇省南通市中考英語試卷(含答案解析)
- 期末練習(試題)-2024-2025學年譯林版(三起)(2024)英語三年級上冊
- 成人中心靜脈導管(CVC)堵塞風險評估及預防-2024團體標準
- DL∕T 5342-2018 110kV~750kV架空輸電線路鐵塔組立施工工藝導則
- 安全治本攻堅三年行動方案及重大事故隱患會議紀要(完整版)
- 部編版小升初語文必考點集訓-文言文專練(2)(含參考譯文及答案)
- 湖南省益陽市2023-2024學年九年級上學期期末物理試卷
- 中餐廳主題宴會設計方案
- 緩沖罐操作規(guī)程
- 幼兒教育-個別幼兒教育記錄表.文檔
評論
0/150
提交評論