版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘與商務(wù)智能實(shí)驗(yàn)實(shí) 驗(yàn) 報(bào) 告實(shí)驗(yàn)題目:數(shù)據(jù)挖掘的基本數(shù)據(jù)分析 姓名:王俊 學(xué)號(hào):201430850164 指導(dǎo)教師: 張大斌 實(shí)驗(yàn)時(shí)間:201611.10 2016年 11月 10日 實(shí)驗(yàn)題綱:一、 實(shí)驗(yàn)?zāi)康?) 熟悉基本數(shù)據(jù)分析的處理流程。2) 進(jìn)一步熟練掌握拍SPSS Modeler工具的操作。二、 實(shí)驗(yàn)內(nèi)容內(nèi)容一:數(shù)據(jù)的質(zhì)量探索步驟1 建立數(shù)據(jù)流1) 在“源”中通過(guò)拖入“Statistics”文件節(jié)點(diǎn)讀入Telephone.sav數(shù)據(jù)。2) 建立“類型”節(jié)點(diǎn),并說(shuō)明各個(gè)變量角色。這里指定“流失”為目標(biāo)變量。3) 選擇“輸出”選項(xiàng)卡中“數(shù)據(jù)審核”節(jié)點(diǎn)并將其連接到數(shù)據(jù)流的恰當(dāng)位置,點(diǎn)
2、擊鼠標(biāo)右鍵,在“質(zhì)量”選項(xiàng)卡下,選擇檢測(cè)方法為平均值的標(biāo)準(zhǔn)差。步驟2 結(jié)果輸出實(shí)驗(yàn)結(jié)果輸出如圖所示。圖中藍(lán)色部分表示輸出變量取YES,即客戶流失的樣本數(shù),可以看出,各個(gè)變量上流失客戶的取值均不同。內(nèi)容二:基本描述分析這里分析的目標(biāo)是對(duì)電信客戶數(shù)據(jù)的基本服務(wù)、開(kāi)通月數(shù)、免費(fèi)部分和無(wú)線費(fèi)用之間的相關(guān)系數(shù)以反映變量之間的相互關(guān)系。步驟1 建立數(shù)據(jù)流選擇“輸出”選項(xiàng)卡中的“統(tǒng)計(jì)量”節(jié)點(diǎn)。步驟2 設(shè)置相關(guān)參數(shù)1) 雙擊“統(tǒng)計(jì)量”節(jié)點(diǎn),進(jìn)行相應(yīng)的設(shè)置。在“檢查”框中添加開(kāi)通月數(shù)、基本費(fèi)用、免費(fèi)部分和無(wú)線費(fèi)用。2) 在“相關(guān)”框中添加年齡、收入和家庭人數(shù)。如圖所示。3)在“相關(guān)設(shè)置”中,勾選“按重要性定義相
3、關(guān)強(qiáng)度”。如圖所示。計(jì)算結(jié)果如圖所示。可以看出,以“基本費(fèi)用”為例,它與“年齡”和“收入”都有相關(guān)性,它們之間簡(jiǎn)單相關(guān)系數(shù)雖然為0.401和0.195,但從統(tǒng)計(jì)量的角度來(lái)看有95%以上的把握認(rèn)為它們之間是非0相關(guān)?!盎举M(fèi)用”與“家庭人數(shù)”呈負(fù)弱相關(guān)。內(nèi)容三:繪制散點(diǎn)圖數(shù)值之間變量的相關(guān)性可以采用上一個(gè)實(shí)驗(yàn),也可以通過(guò)散點(diǎn)圖來(lái)直接觀察,此次主要觀察基本費(fèi)用和年齡之間的相關(guān)性。步驟1 構(gòu)建數(shù)據(jù)流選擇“圖形”選項(xiàng)卡中的“圖”節(jié)點(diǎn)。步驟2 設(shè)置相關(guān)參數(shù)1) 雙擊“圖”節(jié)點(diǎn),選擇編輯菜單,進(jìn)行參數(shù)窗口的設(shè)置。2) 在“X字段”和“Y”字段框中分別選擇“基本費(fèi)用”和“年齡”。在“交疊字段”下,選擇“顏色
4、”-“流失”,不同顏色表示流失量不同取值的樣本點(diǎn)。如圖所示“圖”節(jié)點(diǎn)的參數(shù)設(shè)置窗口。輸出的結(jié)果如圖所示。內(nèi)容四:兩分類變量相關(guān)性的研究?jī)煞诸愖兞肯嚓P(guān)性研究可以從圖形分析入手,然后采用數(shù)值分析的方法。下面采用網(wǎng)狀圖分析。步驟1 設(shè)置相關(guān)參數(shù)選擇圖形中的網(wǎng)絡(luò)節(jié)點(diǎn),進(jìn)入編輯狀態(tài),在“字段”下選擇“套餐類型”和“流失”。設(shè)置線值為“絕對(duì)值”。步驟2 結(jié)果輸出可以由結(jié)果圖中得到,其電信客戶保持是最好的,結(jié)果輸出如圖所示。內(nèi)容五:變量中重要性分析步驟1 窗口設(shè)置選擇“模型”選項(xiàng)卡中的“特征選擇”節(jié)點(diǎn),將其連接到數(shù)據(jù)流的恰當(dāng)位置,點(diǎn)擊鼠標(biāo)右鍵,選擇彈出菜單中的編輯窗口,將“流失”添加到目標(biāo)選項(xiàng)中,其他的全部
5、添入輸入,具體操作如圖所示步驟 2 結(jié)果輸出由結(jié)果輸出可以看出,開(kāi)通月數(shù)、基本費(fèi)用、電子支付、年齡、受教育程度、套餐類型、收入以及各種費(fèi)用等變量對(duì)預(yù)測(cè)用戶是否流失很重要,其他的變量則意義不大,結(jié)果輸出如圖所示3、 實(shí)驗(yàn)步驟與結(jié)果實(shí)驗(yàn)步驟和結(jié)果見(jiàn)實(shí)驗(yàn)內(nèi)容4、 實(shí)驗(yàn)分析與擴(kuò)展練習(xí)實(shí)驗(yàn)分析:本次實(shí)驗(yàn)通過(guò)對(duì)數(shù)據(jù)質(zhì)量、基本描述、散點(diǎn)圖、相關(guān)性、重要性五個(gè)方面進(jìn)行內(nèi)容分析,比較全面地了解了該數(shù)據(jù)的相關(guān)信息,并得到了相應(yīng)的結(jié)果。請(qǐng)總結(jié)分析以下問(wèn)題:(1) 針對(duì)上述案例,分析保存客戶與流失客戶的基本費(fèi)用是否存在顯著的差異。(2) 如何評(píng)價(jià)數(shù)據(jù)質(zhì)量?相關(guān)性和重要性有何區(qū)別?答:(1)根據(jù)分析客戶流失的樣本數(shù)的比
6、例(灰色為流失)然后分析基本費(fèi)用和流失之間的關(guān)系,通過(guò)建立統(tǒng)計(jì)量和繪制散點(diǎn)圖最后比較重要度可以得出結(jié)論:保存客戶與流失客戶的基本費(fèi)用存在顯著性差異(2) 數(shù)據(jù)質(zhì)量是保證數(shù)據(jù)應(yīng)用的基礎(chǔ),它的評(píng)估標(biāo)準(zhǔn)主要包括四個(gè)方面,完整性、相關(guān)性、一致性、及時(shí)性。評(píng)估數(shù)據(jù)是否達(dá)到預(yù)期設(shè)定的質(zhì)量要求,就可以通過(guò)這四個(gè)方面來(lái)進(jìn)行判斷。相關(guān)性:高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù),即數(shù)據(jù)源和要處理的業(yè)務(wù)具有很強(qiáng)的聯(lián)系;重要性:數(shù)據(jù)有很大價(jià)值和影響的性質(zhì),能為數(shù)據(jù)處理提供很多方便2. 擴(kuò)展練習(xí)(1) 針對(duì)上述的五個(gè)內(nèi)容,分別更改一些參數(shù),觀察是否對(duì)結(jié)果造成影響答:內(nèi)容一:更改“數(shù)據(jù)審核”中的部分參數(shù),結(jié)果如下
7、 左邊是沒(méi)有更改,右邊是更改后的,該系數(shù)更改無(wú)明顯變化五、結(jié)論與討論(重點(diǎn)) 通過(guò)這次實(shí)驗(yàn),我了解到數(shù)據(jù)分析是數(shù)據(jù)挖掘中很重要的一部分,數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過(guò)程。 分析數(shù)據(jù)的時(shí)候不要盲目,首先要確定你要分析的方向,以更直觀的方式表現(xiàn)出來(lái),然后從所得的數(shù)據(jù)了解這些數(shù)據(jù)背后所代表的是什么,我們可以以其他方式更好的體現(xiàn)出來(lái)嗎?怎么數(shù)據(jù)說(shuō)話能更直觀表明問(wèn)題?數(shù)據(jù)分析的步驟:1、探索性數(shù)據(jù)分析,當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無(wú)章,看不出規(guī)律,通過(guò)作圖、造表、用各種形式的方程擬
8、合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過(guò)進(jìn)一步的分析從中挑選一定的模型。3、推斷分析,通常使用數(shù)理統(tǒng)計(jì)方法對(duì)所定模型或估計(jì)的可靠程度和精確程度作出推斷。親愛(ài)的用戶:煙雨江南,畫(huà)屏如展。在那桃花盛開(kāi)的地方,在這醉人芬芳的季節(jié),愿你生活像春天一樣陽(yáng)光,心情像桃花一樣美麗,感謝你的閱讀。1、最困難的事就是認(rèn)識(shí)自己。20.10.910.9.202016:3216:32:2010月-2016:322、自知之明是最難得的知識(shí)。二二二二年十月九日2020年10月9日星期五3、越是無(wú)能的人,越喜歡挑剔別人。16:3210.9.202016:3210.9.202016:3216:32:2010.9.202016:3210.9.20204、與肝膽人共事,無(wú)字句處讀書(shū)。10.9.202010.9.202016:3216:3216:32:2016:32:205、三軍可奪帥也。星期五, 十月 9, 2020十月 20星期五, 十月 9, 202010/9/20206、最大的驕傲于最大的自卑都表示心靈的最軟弱無(wú)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 按揭購(gòu)房貸款合同范本
- 展覽宣傳活動(dòng)合同
- 企業(yè)資產(chǎn)抵押貸款合同
- 2024購(gòu)車協(xié)議書(shū)合同范本
- 批量購(gòu)房合同協(xié)議
- 2024企業(yè)員工勞動(dòng)合同樣本
- 企業(yè)資產(chǎn)買賣合同模板
- 房屋轉(zhuǎn)讓協(xié)議標(biāo)準(zhǔn)合同范本
- 2024建設(shè)施工合同有些分類
- 2024公司股權(quán)轉(zhuǎn)讓及后續(xù)合伙經(jīng)營(yíng)合同
- 公司組織架構(gòu)圖模板課件
- 遼寧省葫蘆島市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 植物種子的傳播方式課件
- 電纜敷設(shè)施工方案及安全措施
- 百合干(食品安全企業(yè)標(biāo)準(zhǔn))
- 肺血栓栓塞癥臨床路徑(縣級(jí)醫(yī)院版)
- 國(guó)開(kāi)成本會(huì)計(jì)第10章綜合練習(xí)試題及答案
- 《西游記》-三打白骨精(劇本臺(tái)詞)精選
- T∕CSCS 012-2021 多高層建筑全螺栓連接裝配式鋼結(jié)構(gòu)技術(shù)標(biāo)準(zhǔn)-(高清版)
- 充電站項(xiàng)目合作方案-高新
- 急診科臨床診療指南-技術(shù)操作規(guī)范更新版
評(píng)論
0/150
提交評(píng)論