SAS數(shù)據(jù)挖掘方法_第1頁
SAS數(shù)據(jù)挖掘方法_第2頁
SAS數(shù)據(jù)挖掘方法_第3頁
SAS數(shù)據(jù)挖掘方法_第4頁
SAS數(shù)據(jù)挖掘方法_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、SAS數(shù)據(jù)挖掘的方法一、基本概念那么什么是數(shù)據(jù)挖掘呢?簡單地說,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識、模型或規(guī)則的過程。對于企業(yè)而言,數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)的趨勢,揭示已知的事實(shí)、預(yù)測未知的結(jié)果。從這個(gè)意義上講,知識是力量,數(shù)據(jù)挖掘是財(cái)富。二、SAS數(shù)據(jù)挖掘的方法(SEMMA)作為智能型的數(shù)據(jù)挖掘集成工具,SAS/EM的圖形化界面、可視化操作可引導(dǎo)用 戶(即使是數(shù)理統(tǒng)計(jì)經(jīng)驗(yàn)不太多的用戶)按SEMMA原則成功地進(jìn)行數(shù)據(jù)挖掘,用戶只要將數(shù)據(jù)輸入,經(jīng)過SAS/EM運(yùn)行, 即可得到一些分析結(jié)果。有經(jīng)驗(yàn)的專家還可通過修改數(shù)據(jù)調(diào)整分析處理過程。SAS/EM可實(shí)現(xiàn)同數(shù)據(jù)倉庫和數(shù)據(jù)集市、商務(wù)智

2、能及報(bào)表工具的無縫集成,它內(nèi)含完整的數(shù)據(jù)獲取工具、數(shù)據(jù)取樣工 具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量轉(zhuǎn)換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘評價(jià)工具。rSample -數(shù)據(jù)取樣當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與你要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是 動用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān),一定要保證取樣的代表性、真實(shí)性、完整性和有效,性。這樣才能通 過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。Explore據(jù)特征探索、分析和予處理當(dāng)我們拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們原來設(shè)想的要求;其中有沒有什么明顯的規(guī)律和趨勢;有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀態(tài);因素之間有什么

3、相關(guān)性;它們可區(qū)分成怎樣一些類別這都是要首先探索的內(nèi)容。進(jìn)行數(shù)據(jù)特征的探索、分析,最好是能進(jìn)行可視化的操作,如SAS的SAS/INSIGHT和SAS/SPECTRAVIEW。 這兩個(gè)產(chǎn)品給你提供了可視化數(shù)據(jù)操作的最強(qiáng)有力的工具、方法和圖形。它們不僅 能做各種不同類型統(tǒng)計(jì)分析顯示,而且可做 多維、動態(tài)、甚至旋轉(zhuǎn)的顯示。應(yīng)用這兩個(gè)工具對樣本數(shù)據(jù)進(jìn)行預(yù)分析、推測主要的數(shù)據(jù)、異常趨勢和規(guī)律性。Modify 問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇通過Sample 和 explore兩步之后,對原來要解決的問題可能會有了進(jìn)一步的明確,這時(shí)要盡可能對問題解決的要求能 進(jìn)一步的量化。在問題進(jìn)一步明確化的基礎(chǔ)上,你就可

4、以按照問題的具體要求來審視你的數(shù)據(jù)集了,看它是否適應(yīng)你的問題的 需要。針對問題的需要,可能要對數(shù)據(jù)進(jìn)行增刪,也可能按照你對整個(gè)數(shù)據(jù)挖掘過程的新認(rèn)識,要組合或者生成一些新的變 量,以體現(xiàn)對狀態(tài)的有效的描述。SAS對數(shù)據(jù)強(qiáng)有力的存取、管理和操作的能力保證了對數(shù)據(jù)的調(diào)整、修改和變動的可能性。4.Model 模型的研發(fā)、知識的發(fā)現(xiàn)數(shù)理統(tǒng)計(jì)方法是數(shù)據(jù)挖掘工作中最常用的主流技術(shù)手段。SAS/STAT軟件包中就覆蓋了所有的實(shí)用數(shù)理統(tǒng)計(jì)方法,提 供了十多個(gè)過程可進(jìn)行各種不同類型模型、不同特點(diǎn)數(shù)據(jù)的回歸分析,如正交回歸、響應(yīng) 面回歸、Logistic回歸、非線性回 歸等,且有多種形式模型化的方法選擇??商幚淼臄?shù)

5、據(jù)有實(shí)型數(shù)據(jù)、有序數(shù)據(jù)和屬性數(shù)據(jù),并能產(chǎn)生各種有用的統(tǒng)計(jì)量和診斷 信息。在方差分析方面,SAS/STAT為多種試驗(yàn)設(shè)計(jì)模型提供了方差分析工具。更一般的,它還有處理一般線性模型和廣義線性模型的專用過程。在多變量統(tǒng)計(jì)分析方面, SAS/STAT為主成分分析、典型相關(guān)分析、判別分析和因子分析提供了許多專用過程。SAS/STAT含有多種聚類準(zhǔn)則的聚類 分析方法。利用SAS/STAT可進(jìn)行生存分析(這對客戶保有程度分析等特別有用)。這些工具不僅能揭示企業(yè)已有數(shù)據(jù)間的新關(guān)系、隱藏著的規(guī)律,性;而且能反過來預(yù)測它的發(fā)展趨勢,或是在一定條件下 將會出現(xiàn)什么結(jié)果。另外,SAS人工神經(jīng)元網(wǎng)絡(luò)和決策樹的方法結(jié)合起來

6、可用于從相關(guān)性不強(qiáng)的多變量中選出重要的變量。采用哪一個(gè)模型,一方面,主要取決于你的數(shù)據(jù)集的特征和你要實(shí)現(xiàn)的目標(biāo),另一方面,數(shù)據(jù)挖掘是一個(gè)反復(fù)的、不籪 深化的和實(shí)踐的過程。在實(shí)踐中選出最適合于你的模型。5. Assess型和知識的綜合解釋和評價(jià)從上述過程中將會得出一系列的分析結(jié)果、模式或模型。若能得出一個(gè)直接的結(jié)論當(dāng)然很好。但更多的時(shí)候會得出對目 標(biāo)問題多側(cè)面的描述。這時(shí)就要能很好的綜合它們的影響規(guī)律性提供合理的決策支持信息。所謂合理,實(shí)際上往往是要你在所 付出的代價(jià)和達(dá)到預(yù)期目標(biāo)的可靠性的平衡上作出選擇。假如在你的數(shù)據(jù)挖掘過程中,就預(yù)見到最后要進(jìn)行這樣的選擇的話, 那末你最好把這些平衡的指標(biāo)盡

7、可能的量化,以利你綜合抉擇。你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數(shù)據(jù)處理過程中SAS軟件提供給你的許多檢 驗(yàn)參數(shù)外,評價(jià)的辦法之一是直接使用你原來建立模型的樣板數(shù)據(jù)來進(jìn)行檢驗(yàn)。假如這一關(guān)就通不過的話,那末你的決策支持 信息的價(jià)值就不太大了。一般來說,在這一步應(yīng)得到較好的評價(jià)。這說明你確實(shí)從這批數(shù)據(jù)樣本中挖掘出了符合實(shí)際的規(guī)律 性。三、案例分析本案例是應(yīng)用SAS的數(shù)據(jù)挖掘方法(SEMMA)、工具(SAS/EM)及采用人工神經(jīng)網(wǎng)絡(luò)模型對某集團(tuán)對其某一個(gè)產(chǎn) 品客戶是否愿意購買的調(diào)查表響應(yīng)的分析和決策。圖1是用SAS/EM 一個(gè)數(shù)據(jù)挖掘的界面。在SAS/EM的窗口下,只需Dr

8、ag-and-Drop即可迅速的實(shí)現(xiàn)該項(xiàng)目的挖 掘過程的搭建,包括創(chuàng)建數(shù)據(jù)源、數(shù)據(jù)取樣、數(shù)據(jù)分割、變量轉(zhuǎn)換、數(shù)據(jù)探索及預(yù)處理、人工神經(jīng)網(wǎng)絡(luò)建模、模型評估和決策 及展示等。圖1 : SAS/EM數(shù)據(jù)挖掘的過程及界面訂口舄S * !* ca, Cu*ba. 4. FihihLhkf uJ E luJnt AmIe S COIHM p AmIe $ Utl 3h 刊圖2是對該活動利用人工神經(jīng)網(wǎng)絡(luò)做出的結(jié)果。從圖2中可以看出,當(dāng)企業(yè)不進(jìn)行任何建模分析時(shí),盲目的將調(diào)查表發(fā)出,其響應(yīng)率約為23.9%。這樣既浪費(fèi)了人力、才力和時(shí)間,又不能調(diào)查者進(jìn)行分析,我們并不知道具有什么特征的客戶喜歡這個(gè)產(chǎn)品并將調(diào)查表提交。神經(jīng)網(wǎng)絡(luò)能夠根據(jù)數(shù)據(jù)集的分布特征自動的發(fā)現(xiàn)規(guī)律,并以權(quán)值表示之。這些權(quán)值實(shí)際上表征著并隱藏著客戶的特征,如年齡在30-45歲之間的大多數(shù)客戶喜歡該產(chǎn)品并樂意將調(diào)查表提交。從圖2中看出,如果企業(yè)將調(diào)查表減少為原來的30%,并按神經(jīng)網(wǎng)絡(luò)權(quán)值隱含的規(guī)則散發(fā)調(diào)查表,其響應(yīng)率可望達(dá)到33%。如果企業(yè)將調(diào)查表減少為原來的10%,并按神經(jīng)網(wǎng)絡(luò)權(quán)值隱含的規(guī)則散發(fā)調(diào)查表,其響應(yīng)率可望達(dá)到51%。 R W W W W圖2 :神經(jīng)網(wǎng)絡(luò)模型的分析圖3是在圖2神經(jīng)網(wǎng)絡(luò)模型指導(dǎo)下,對新的數(shù)據(jù)源進(jìn)行決策的結(jié)果的展示。按照該神經(jīng)網(wǎng)絡(luò)模型權(quán)值 隱含的規(guī)則,發(fā)出調(diào)查表,響應(yīng)率高達(dá)48%。這樣,既節(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論