




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章SPSS數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘概述如何進(jìn)行成功的數(shù)據(jù)挖掘SPSS數(shù)據(jù)挖掘模塊介紹2.1
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是按照既定的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性并進(jìn)一步模型化的先進(jìn)、有效的方法。OLAP和數(shù)據(jù)挖掘的主要區(qū)別在于:在輔助決策時(shí),前者是基于用戶建立的一系列假設(shè)驅(qū)動,通過OLAP來證實(shí)或者推翻這些假設(shè),是一個(gè)演繹推理的過程;數(shù)據(jù)挖掘是通過歸納的方式,在海量數(shù)據(jù)中主動找尋模型,自動發(fā)掘隱藏在數(shù)據(jù)中的價(jià)值信息。數(shù)據(jù)挖掘并不是對統(tǒng)計(jì)學(xué)的代替。實(shí)際上,統(tǒng)計(jì)學(xué)是對數(shù)據(jù)挖掘的很好的補(bǔ)充。數(shù)據(jù)挖掘,通過了解過去和現(xiàn)在,得出準(zhǔn)確的預(yù)測,使人有能力掌握和改變公司的命運(yùn)。SPSS數(shù)據(jù)挖掘產(chǎn)品和服務(wù)通過支持交叉行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-IndustryStandardProcessforDataMining,CRISP-DM)而保證及時(shí)、可靠的結(jié)果。由工業(yè)專家創(chuàng)造的CRISP-DM為數(shù)據(jù)挖掘過程的每一階段的任務(wù)和目標(biāo)提供指導(dǎo)。CRISP-DM是工業(yè)標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘過程。CRISP-DM階段包括以下幾個(gè)部分。商業(yè)理解:明確了解所面臨的商務(wù)挑戰(zhàn);數(shù)據(jù)理解:決定什么數(shù)據(jù)可以用于數(shù)據(jù)挖掘,以得到答案;數(shù)據(jù)準(zhǔn)備:以合適的格式來準(zhǔn)備數(shù)據(jù),回答商務(wù)問題;建立模型:設(shè)計(jì)數(shù)據(jù)模型來滿足要求;模型評估:用結(jié)果逆向檢測項(xiàng)目目標(biāo);成果發(fā)布:使項(xiàng)目結(jié)果有用于決策者。2.2
成功的數(shù)據(jù)挖掘CRPIS-DM的各個(gè)階段:商務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備模型成功發(fā)布實(shí)施開放計(jì)劃選擇數(shù)據(jù)挖掘工具尋找一個(gè)已被證實(shí)的可用于解決項(xiàng)目所陳述商務(wù)問題的數(shù)據(jù)挖掘工具:即選擇一種所知道的,可以用于解決公司問題,并在計(jì)劃應(yīng)用方面有成功記錄的工具。選擇用于在商務(wù)理解和數(shù)據(jù)挖掘技術(shù)方面起到溝通作用的工具:確保工具所用的步驟與數(shù)據(jù)挖掘的商務(wù)需要相匹配。確保工具可對現(xiàn)有的數(shù)據(jù)資源和格式進(jìn)行操作:如果能選擇一種能提取和合并多來源、多格式數(shù)據(jù),將會節(jié)省時(shí)間和金錢,并最大可能地得到可靠結(jié)果的工具。這一點(diǎn)很重要,尤其是在數(shù)據(jù)挖掘過程的后期發(fā)現(xiàn)不得不從新的來源加入新的數(shù)據(jù)時(shí)。尋找交互式開發(fā)和可視化能力:選擇一種可提供交互式可視技術(shù)的工具會使開發(fā)和理解數(shù)據(jù)變得容易。這些技術(shù)會使你通過在圖內(nèi)變化及根據(jù)不同的數(shù)據(jù)尺度產(chǎn)生新的圖表更快地獲得直覺。5.選擇一種可高效、易解的進(jìn)行數(shù)據(jù)準(zhǔn)備的工具:選擇一種可高效進(jìn)行數(shù)據(jù)準(zhǔn)備(從初始步驟到模型建立),且以易于理解的方式表達(dá)數(shù)據(jù)準(zhǔn)備步驟的工具會節(jié)省時(shí)間和資源。這會使不同經(jīng)驗(yàn)水平的項(xiàng)目成員獲得有效的結(jié)果。
確保工具可自動地提取數(shù)據(jù):選擇一種可為不同數(shù)據(jù)步驟自動提取數(shù)據(jù)的工具,可以避免耗時(shí)的人工書寫查詢。該工具是否可在合理的時(shí)間內(nèi)建立有效的模型:尋找一種工具,它可使分析家快速找到最有效的模型。這種工具應(yīng)該支持有效的建立和檢測多個(gè)模型。選擇一種含寬范圍技術(shù)的工具:為了確保最好的結(jié)果,確保工具能為可視化、分類、聚類、相關(guān)和回歸提供一個(gè)寬范圍的技術(shù)或運(yùn)算法則。例如,可能發(fā)現(xiàn),對某一數(shù)據(jù)而言,一種技術(shù)比另一種更好。你需要能靈活地試用多種技術(shù)以獲得準(zhǔn)確、有效的結(jié)果。這種工具應(yīng)該能聯(lián)合應(yīng)用在不同情況下可獲最佳結(jié)果的多種技術(shù)。
該工具是否可利用現(xiàn)有的數(shù)據(jù)和設(shè)備:選擇一種數(shù)據(jù)挖掘工具,它能利用現(xiàn)存的數(shù)據(jù)——或數(shù)據(jù)庫中或文件中,也能與現(xiàn)有的分析和可視化工具相兼容。你不會愿意因?yàn)椴荒芾矛F(xiàn)有的數(shù)據(jù)庫而浪費(fèi)時(shí)間和資源再新建一個(gè)。選擇一種可發(fā)送一致的、高質(zhì)的結(jié)果的工具:要得到準(zhǔn)確的結(jié)果,需利用在各種情形下都能很好工作的、適應(yīng)性強(qiáng)的數(shù)據(jù)挖掘環(huán)境和各種數(shù)據(jù)的工具,而不是單一地為某一類型的數(shù)據(jù)或環(huán)境而設(shè)計(jì)的工具。工具應(yīng)該能管理任何可能有助于闡釋商務(wù)問題的數(shù)據(jù)。工具的開發(fā)能力:選擇一種能將結(jié)果合并入現(xiàn)有的和將來的操作應(yīng)用中的工具,是很重要的。評估與工具相關(guān)的所有權(quán)潛在的成本。SPSS
BaseSPSS
Base是一個(gè)服務(wù)于分析過程——計(jì)劃、數(shù)據(jù)收集,數(shù)據(jù)獲取和管理、分析、報(bào)告和開發(fā)的,有標(biāo)準(zhǔn)組件、緊密結(jié)合、全系列的產(chǎn)品線,也是數(shù)據(jù)挖掘程序的關(guān)鍵組件。首先,SPSS可以讓你更快訪問和分析大型數(shù)據(jù),并且可以處理其他分析工具無法解決的大型數(shù)據(jù),因?yàn)镾PSS事實(shí)上完全取消了一般分析工具普遍存在的文件大小限制。進(jìn)行數(shù)據(jù)分析之前,需要準(zhǔn)備數(shù)據(jù)以便分析。利用SPSS
Base,可以輕松地實(shí)現(xiàn)數(shù)據(jù)字典的建立,并且利用定義數(shù)據(jù)屬性工具,可使分析前進(jìn)行的數(shù)據(jù)準(zhǔn)備工作更加快捷。SPSS使人們能夠輕松地識別重復(fù)觀測,以便在數(shù)據(jù)分析前刪除它們。而且,SPSS能使分析連續(xù)型數(shù)據(jù)的準(zhǔn)備工作簡單易行??梢栽谝粋€(gè)SPSS會話同時(shí)打開多個(gè)數(shù)據(jù)集,這樣既節(jié)省時(shí)間,又精簡了數(shù)據(jù)文件合并的步驟。這也確保了在多個(gè)數(shù)據(jù)集間,復(fù)制數(shù)據(jù)字典的連貫性等。在數(shù)據(jù)分析方面,除了一般常見的摘要統(tǒng)計(jì)和行列計(jì)算,SPSSBase還包括在基本分析中最受歡迎的統(tǒng)計(jì)功能,如集合、計(jì)數(shù)、交叉分析、分類、描述性統(tǒng)計(jì)、因子分析、回歸及聚類分析等,而且還可以把分析結(jié)果回寫到數(shù)據(jù)庫。SPSS
ClementineClementine是ISL(Integral
SolutionsLimited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺。
1999年,SPSS公司收購了ISL公司,對Clementine產(chǎn)品進(jìn)行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點(diǎn)。Clementine
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中小學(xué)體育教師隊(duì)伍建設(shè)中的問題與挑戰(zhàn)
- 工業(yè)旅游的產(chǎn)業(yè)鏈結(jié)構(gòu)
- 公司運(yùn)營贊助合同范本
- 兜底房合同范本
- 醫(yī)藥購銷合同范例
- 陶行知“生活教育”思想下的小學(xué)習(xí)作教學(xué)研究
- 公司抵押轉(zhuǎn)讓合同范本
- 合同范本意義是
- 專利出售合同范本
- 修路運(yùn)輸合同范本
- 最大攝氧量的測定
- 人教版四年級上冊脫式計(jì)算200題及答案
- 2024年北京戲曲藝術(shù)職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 國網(wǎng)充電站運(yùn)維安全管理
- 青海2024年01月青海省省直機(jī)關(guān)遴選公務(wù)員69人^2024年國家公務(wù)員考試考試大綱歷年真題筆試歷年高頻考點(diǎn)難、易錯(cuò)點(diǎn)薈萃附答案帶詳解
- 無產(chǎn)權(quán)房屋買賣合同模板
- 一年級美術(shù)課后輔導(dǎo)教案-1
- 六年級上冊數(shù)學(xué)200道口算題
- 2023內(nèi)蒙古烏審旗圖克鎮(zhèn)圖克工業(yè)園區(qū)中天合創(chuàng)化工分公司招聘20人歷年高頻難易度、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 能斷金剛:超凡的經(jīng)營智慧
- 甲狀旁腺疾病匯報(bào)演示課件
評論
0/150
提交評論