數(shù)據(jù)挖掘方法論SEMMA_第1頁
數(shù)據(jù)挖掘方法論SEMMA_第2頁
數(shù)據(jù)挖掘方法論SEMMA_第3頁
數(shù)據(jù)挖掘方法論SEMMA_第4頁
數(shù)據(jù)挖掘方法論SEMMA_第5頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、sAsa據(jù)挖掘方法論SEMMA(2009-07-2021:15:48)Sample-數(shù)據(jù)取樣Explore-數(shù)據(jù)特征探索、分析和予處理Modify一問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇Model一模型的研發(fā)、知識的發(fā)現(xiàn)Assess一模型和知識的綜合解釋和評價Sample數(shù)據(jù)取樣當進行數(shù)據(jù)挖掘時,首先要從企業(yè)大量數(shù)據(jù)中取出一個與你要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是動用全部企業(yè)數(shù)據(jù)。這就象在對開采出來礦石首先要進行選礦一樣。通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān)。在任何時候都不要忽視數(shù)據(jù)的質(zhì)量,

2、即使你是從一個數(shù)據(jù)倉庫中進行數(shù)據(jù)取樣,也不要忘記檢查其質(zhì)量如何。因為通過數(shù)據(jù)挖掘是要探索企業(yè)運作的規(guī)律性的,原始數(shù)據(jù)有誤,還談什么從中探索規(guī)律性。若你真的從中還探索出來了什么“規(guī)律性”,再依此去指導工作,則很可能是在進行誤導。若你是從正在運行著的系統(tǒng)中進行數(shù)據(jù)取樣,則更要注意數(shù)據(jù)的完整性和有效性。再次提醒你在任何時候都不要忽視數(shù)據(jù)的質(zhì)量,慎之又慎!從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達到的目標來區(qū)分采用不同的辦法:如果你是要進行過程的觀察、控制,這時你可進行隨機取樣,然后根據(jù)樣本數(shù)據(jù)對企業(yè)或其中某個過程的狀況作出估計。SAS不僅支持這一取樣過程,而且可對所取出的樣本數(shù)

3、據(jù)進行各種例行的檢驗。若你想通過數(shù)據(jù)挖掘得出企業(yè)或其某個過程的全面規(guī)律性時,必須獲得在足夠廣泛范圍變化的數(shù)據(jù),以使其有代表性。你還應(yīng)當從實驗設(shè)計的要求來考察所取樣數(shù)據(jù)的代表性。唯此,才能通過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。利用它支持你進行決策才是真正有效的,并能使企業(yè)進一步獲得技術(shù)、經(jīng)濟效益。Explore數(shù)據(jù)特征探索、分析和予處理前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對如何達到數(shù)據(jù)挖掘目的的先驗的認識進行操作的。當我們拿到了一個樣本數(shù)據(jù)集后,它是否達到我們原來設(shè)想的要求;其中有沒有什么明顯的規(guī)律和趨勢;有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀態(tài);因素之間有什么相關(guān)性;它們可區(qū)分成怎樣一些類別,

4、這都是要首先探索的內(nèi)容。進行數(shù)據(jù)特征的探索、分析,最好是能進行可視化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW兩個產(chǎn)品給你提供了可視化數(shù)據(jù)操作的最強有力的工具、方法和圖形。它們不僅能做各種不同類型統(tǒng)計分析顯示,而且可做多維、動態(tài)、甚至旋轉(zhuǎn)的顯示。這里的數(shù)據(jù)探索,就是我們通常所進行的深入調(diào)查的過程。你最終要達到的目的可能是要搞清多因素相互影響的,十分復雜的關(guān)系。但是,這種復雜的關(guān)系不可能一下子建立起來。一開始,可以先觀察眾多因素之間的相關(guān)性;再按其相關(guān)的程度,以了解它們之間相互作用的情況。這些探索、分析,并沒有一成不變操作規(guī)律性;相反,是要有耐心的反復的試探,仔細的

5、觀察。在此過程中,你原來的專業(yè)技術(shù)知識是非常有用的,它會幫助你進行有效的觀察。但是,你也要注意,不要讓你的專業(yè)知識束縛了你對數(shù)據(jù)特征觀察的敏銳性??赡軐嶋H存在著你的先驗知識認為不存在的關(guān)系。假如你的數(shù)據(jù)是真實可靠的話,那末你絕對不要輕易地否定數(shù)據(jù)呈現(xiàn)給你的新關(guān)系。很可能這里就是發(fā)現(xiàn)的新知識!有了它,也許會導引你在此后的分析中,得出比你原有的認識更加符合實際的規(guī)律性知識。假如在你的操作中出現(xiàn)了這種情況,應(yīng)當說,你的數(shù)據(jù)挖掘已挖到了有效的礦脈。在這里要提醒你的是要有耐心,做幾種分析,就發(fā)現(xiàn)重大成果是不大可能的。所幸的是SAS向你提供了強有力的工具,它可跟隨你的思維,可視化、快速的作出反應(yīng)。免除了數(shù)

6、學的復雜運算過程和編制結(jié)果展現(xiàn)程序的煩惱和對你思維的干擾。這就使你數(shù)據(jù)分析過程集聚于你業(yè)務(wù)領(lǐng)域的問題,并使你的思維保持了一個集中的較高級的活動狀態(tài),從而加速了你的思維過程,提高了你的思維能力。Modify問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇通過上述兩個步驟的操作,你對數(shù)據(jù)的狀態(tài)和趨勢可能有了進一步的了解。對你原來要解決的問題可能會有了進一步的明確;這時要盡可能對問題解決的要求能進一步的量化。問題越明確,越能進一步量化,問題就向它的解決更前進了一步。這是十分重要的。因為原來的問題很可能是諸如質(zhì)量不好、生產(chǎn)率低等模糊的問題,沒有問題的進一步明確,你簡直就無法進行有效的數(shù)據(jù)挖掘操作。在問題進一步明確化的基

7、礎(chǔ)上,你就可以按照問題的具體要求來審視你的數(shù)據(jù)集了,看它是否適應(yīng)你的問題的需要。Gartnergroup在評論當前一些數(shù)據(jù)挖掘產(chǎn)品時特別強調(diào)指出:在數(shù)據(jù)挖掘的各個階段中,數(shù)據(jù)挖掘的產(chǎn)品都要使所使用的數(shù)據(jù)和所將建立模型處于十分易于調(diào)整、修改和變動的狀態(tài),這才能保證數(shù)據(jù)挖掘有效的進行。針對問題的需要可能要對數(shù)據(jù)進行增刪;也可能按照你對整個數(shù)據(jù)挖掘過程的新認識,要組合或者生成一些新的變量,以體現(xiàn)對狀態(tài)的有效的描述。SAS對數(shù)據(jù)強有力的存取、管理和操作的能力保證了對數(shù)據(jù)的調(diào)整、修改和變動的可能性。若使用了SAS的數(shù)據(jù)倉庫產(chǎn)品技術(shù)時就更進一步保證了有效、方便的進行這些操作。在問題進一步明確;數(shù)據(jù)結(jié)構(gòu)和內(nèi)

8、容進一步調(diào)整的基礎(chǔ)上,下一步數(shù)據(jù)挖掘應(yīng)采用的技術(shù)手段就更加清晰、明確了。Model模型的研發(fā)、知識的發(fā)現(xiàn)這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。雖然數(shù)據(jù)挖掘模型化工作涉及了非常廣闊的技術(shù)領(lǐng)域,但對SAS研究所來說并不是一件新鮮事。自從SAS問世以來,就一直是統(tǒng)計模型市場領(lǐng)域的領(lǐng)頭羊,而且年年提供新產(chǎn)品,并以這些產(chǎn)品體現(xiàn)業(yè)界技術(shù)的最新發(fā)展。按照SAS提出的SEMMA方法論走到這一步時,你對應(yīng)采用的技術(shù)已有了較明確的方向;你的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容也有了充分的適應(yīng)性。SAS在這時也向你提供了充分的可選擇的技術(shù)手段:回歸分析方法等廣泛的數(shù)理統(tǒng)計方法;關(guān)聯(lián)分析方法;分類及聚類分析方法;人工神經(jīng)元網(wǎng)絡(luò);決策樹,等。在你

9、的數(shù)據(jù)挖掘中使用哪一種方法,用SAS軟件包中什么方法來實現(xiàn),這主要取決于你的數(shù)據(jù)集的特征和你要實現(xiàn)的目標。實際上這種選擇也不一定是唯一的。好在SAS軟件運行效率十分高,你不妨多試幾種方法,從實踐中選出最適合于你的方法。Assess一模型和知識的綜合解釋和評價從上述過程中將會得出一系列的分析結(jié)果、模式或模型。同一個數(shù)據(jù)源可以利用多種數(shù)據(jù)分析方法和模型進行分析,ASSESS的目的之一就是從這些模型中自動找出一個最好的模型出來,另外就是要對模型進行針對業(yè)務(wù)的解釋和應(yīng)用。若能從模型中得出一個直接的結(jié)論當然很好。但更多的時候會得出對目標問題多側(cè)面的描述。這時就要能很好的綜合它們的影響規(guī)律性提供合理的決策

10、支持信息。所謂合理,實際上往往是要你在所付出的代價和達到預期目標的可靠性的平衡上作出選擇。假如在你的數(shù)據(jù)挖掘過程中,就預見到最后要進行這樣的選擇的話,那末你最好把這些平衡的指標盡可能的量化,以利你綜合抉擇。你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數(shù)據(jù)處理過程中SAS軟件提供給你的許多檢驗參數(shù)外,評價的辦法之一是直接使用你原來建立模型的樣板數(shù)據(jù)來進行檢驗。假如這一關(guān)就通不過的話,那末你的決策支持信息的價值就不太大了。一般來說,在這一步應(yīng)得到較好的評價。這說明你確實從這批數(shù)據(jù)樣本中挖掘出了符合實際的規(guī)律性。另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實際的規(guī)律性的。這次

11、的檢驗效果可能會比前一種差。差多少是要注意的。若是差到你所不能容忍程度,那就要考慮第一次構(gòu)建的樣本數(shù)據(jù)是否具有充分的代表性;或是模型本身不夠完善。這時候可能要對前面的工作進行反思了。若這一步也得到了肯定的結(jié)果時,那你的數(shù)據(jù)挖掘應(yīng)得到很好的評價了。SASEnterpriseMinerSEMMATheacronymSEMMA-sample,explore,modify,model,assess-referstothecoreprocessofconductingdatamining.Beginningwithastatisticallyrepresentativesampleofyourdata,

12、SEMMAmakesiteasytoapplyexploratorystatisticalandvisualisationtechniques,selectandtransformthemostsignificantpredictivevariables,modelthevariablestopredictoutcomes,andconfirmamodel'saccuracy.BeforeexaminingeachstageofSEMMA,acommonmisunderstandingistorefertoSEMMAasadataminingmethodology.SEMMAisnot

13、adataminingmethodologybutratheralogicalorganisationofthefunctionaltoolsetofSASEnterpriseMinerforcarryingoutthecoretasksofdatamining.EnterpriseMinercanbeusedaspartofanyiterativedataminingmethodologyadoptedbytheclient.Naturallystepssuchasformulatingawelldefinedbusinessorresearchproblemandassemblingqua

14、lityrepresentativedatasourcesarecriticaltotheoverallsuccessofanydataminingproject.SEMMAisfocusedonthemodeldevelopmentaspectsofdatamining:Sample(optional)yourdatabyextractingaportionofalargedatasetbigenoughtocontainthesignificantinformation,yetsmallenoughtomanipulatequickly.Foroptimalcostandperforman

15、ce,SASInstituteadvocatesasamplingstrategy,whichappliesareliable,statisticallyrepresentativesampleoflargefulldetaildatasources.Miningarepresentativesampleinsteadofthewholevolumereducestheprocessingtimerequiredtogetcrucialbusinessinformation.Ifgeneralpatternsappearinthedataasawhole,thesewillbetraceabl

16、einarepresentativesample.Ifanicheissotinythatit'snotrepresentedinasampleandyetsoimportantthatitinfluencesthebigpicture,itcanbediscoveredusingsummarymethods.WealsoadvocatecreatingpartitioneddatasetswiththeDataPartitionnode:Training-usedformodelfitting.Validation-usedforassessmentandtopreventoverf

17、itting.Test-usedtoobtainanhonestassessmentofhowwellamodelgeneralizes.Exploreyourdatabysearchingforunanticipatedtrendsandanomaliesinordertogainunderstandingandideas.Explorationhelpsrefinethediscoveryprocess.Ifvisualexplorationdoesn'trevealcleartrends,youcanexplorethedatathroughstatisticaltechniqu

18、esincludingfactoranalysis,correspondenceanalysis,andclustering.Forexample,indataminingforadirectmailcampaign,clusteringmightrevealgroupsofcustomerswithdistinctorderingpatterns.Knowingthesepatternscreatesopportunitiesforpersonalizedmailingsorpromotions.Modifyyourdatabycreating,selecting,andtransformi

19、ngthevariablestofocusthemodelselectionprocess.Basedonyourdiscoveriesintheexplorationphase,youmayneedtomanipulateyourdatatoincludeinformationsuchasthegroupingofcustomersandsignificantsubgroups,ortointroducenewvariables.Youmayalsoneedtolookforoutliersandreducethenumberofvariables,tonarrowthemdowntothe

20、mostsignificantones.Youmayalsoneedtomodifydatawhenthe"mined"datachange.Becausedataminingisadynamic,iterativeprocess,youcanupdatedataminingmethodsormodelswhennewinformationisavailable.Modelyourdatabyallowingthesoftwaretosearchautomaticallyforacombinationofdatathatreliablypredictsadesiredout

21、come.Modelingtechniquesindataminingincludeneuralnetworks,tree-basedmodels,logisticmodels,andotherstatisticalmodels-suchastimeseriesanalysis,memory-basedreasoning,andprincipalcomponents.Eachtypeofmodelhasparticularstrengths,andisappropriatewithinspecificdataminingsituationsdependingonthedata.Forexamp

22、le,neuralnetworksareverygoodatfittinghighlycomplexnonlinearrelationships.Assessyourdatabyuatingtheusefulnessandreliabilityofthefindingsfromthedataminingprocessandestimatehowwellitperforms.Acommonmeansofassessingamodelistoapplyittoaportionofdatasetasideduringthesamplingstage.Ifthemodelisvalid,itshoul

23、dworkforthisreservedsampleaswellasforthesampleusedtoconstructthemodel.Similarly,youcantestthemodelagainstknowndata.Forexample,ifyouknowwhichcustomersinafilehadhighretentionratesandyourmodelpredictsretention,youcanchecktoseewhetherthemodelselectsthesecustomersaccurately.Inaddition,practicalapplicationsofthemodel,suchaspartialmailingsinadirectmailcampaign,helpproveitsvalidity.ByassessingtheresultsgainedfromeachstageoftheSEM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論