電信行業(yè)案例研究.doc_第1頁(yè)
電信行業(yè)案例研究.doc_第2頁(yè)
電信行業(yè)案例研究.doc_第3頁(yè)
電信行業(yè)案例研究.doc_第4頁(yè)
電信行業(yè)案例研究.doc_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

案例研究:電信行業(yè)市場(chǎng)研究將以臺(tái)灣電信業(yè)手機(jī)購(gòu)買(mǎi)情況和大眾對(duì)電信公司的滿(mǎn)意程度的調(diào)查,進(jìn)行客戶(hù)市場(chǎng)的細(xì)分和流失模型的建立,由于本案例的特點(diǎn)是數(shù)據(jù)量相當(dāng)龐大,異常數(shù)據(jù)參差不齊。因此,研究這一數(shù)據(jù)分析方法具有重要的現(xiàn)實(shí)意義。 消費(fèi)者行為研究-6W+2H:購(gòu)買(mǎi)什么(what)?為什么要購(gòu)買(mǎi)(why)?購(gòu)買(mǎi)者是誰(shuí)(who)?何時(shí)購(gòu)買(mǎi)(when)?何處購(gòu)買(mǎi)(where)?信息管道來(lái)自何處(where)?購(gòu)買(mǎi)多少(how much)?如何決策購(gòu)買(mǎi)(how)? 電信流失模型的基本概念電信行業(yè)中的流失(churn)一詞專(zhuān)指客戶(hù)的流失,它通過(guò)影響客戶(hù)流失可能的原因分析,預(yù)測(cè)哪些客戶(hù)不久將流失。建立客戶(hù)流失模型是數(shù)據(jù)挖掘在許多不同行業(yè)的共同的應(yīng)用。特別對(duì)電信而言,全球幾乎每一家電信企業(yè)(只要置身于市場(chǎng)競(jìng)爭(zhēng)中)都正在或?qū)⒁⒖蛻?hù)流失模型,如果哪一個(gè)企業(yè)不想,或還沒(méi)有準(zhǔn)備建立流失模型,將使企業(yè)逐漸喪失競(jìng)爭(zhēng)力。此外,流失模型中的流失評(píng)分,除了幫助設(shè)計(jì)促銷(xiāo)活動(dòng),保留客戶(hù)的用途以外,短期目標(biāo)是提供一份可能流失者的名單。之后,建模技術(shù)可以自動(dòng)地用于客戶(hù)流失管理系統(tǒng)的應(yīng)用。進(jìn)一步,客戶(hù)流失管理系統(tǒng)又是更大的客戶(hù)關(guān)系管理系統(tǒng)的子模塊。顯然,要實(shí)現(xiàn)如此內(nèi)容豐富的三個(gè)目標(biāo),建立流失模型是建立一套流失管理系統(tǒng)的第一步。建立流失管理程系統(tǒng)是將數(shù)據(jù)挖掘應(yīng)用于商業(yè)活動(dòng)的優(yōu)秀范例。數(shù)據(jù)挖掘從一開(kāi)始就在引導(dǎo)建模工作,而不是在最后才被引入。因此,一個(gè)流失模型主要研究的內(nèi)容包括:1、影響流失的變量;2、易流失人群的特征提?。?、預(yù)測(cè)流失的得分模型的建立三部分內(nèi)容。無(wú)論對(duì)電信公司還是手機(jī)的經(jīng)銷(xiāo)商來(lái)說(shuō),在市場(chǎng)競(jìng)爭(zhēng)中采取怎樣的決策,都是具有重要意義的。過(guò)去對(duì)流失模型的建立主要依賴(lài)于電信公司的通話(huà)流數(shù)據(jù),主要依賴(lài)的測(cè)量指標(biāo)是客戶(hù)的通話(huà)時(shí)間。這些數(shù)據(jù)無(wú)法反映客戶(hù)流失的主、客觀(guān)原因,易流失人群的特征也不容易得到,因此僅僅利用通話(huà)時(shí)間的長(zhǎng)與短,來(lái)判斷哪些客戶(hù)容易流失的可能性,是有局限的。我們?cè)噲D從用戶(hù)使用產(chǎn)品和感受服務(wù)的角度,探索客戶(hù)流失模型的建立,解釋客戶(hù)流失的不同性,為電信行業(yè)客戶(hù)流失模型的建立提供新的參考模型。電信行業(yè)的特點(diǎn)電話(huà)公司和金融業(yè)、保險(xiǎn)業(yè)以及公共服務(wù)業(yè)一樣,都屬于典型的服務(wù)業(yè)。但是從另一些方面看,電信服務(wù)營(yíng)銷(xiāo)更像零售產(chǎn)品的營(yíng)銷(xiāo),電信客戶(hù)市場(chǎng)具有以下幾個(gè)特點(diǎn):1 相對(duì)獨(dú)立的服務(wù)供應(yīng)商(“客戶(hù)壟斷”)。電信公司具有壟斷客戶(hù)的傾向。也就是說(shuō),每一名客戶(hù)都有只享用某家電信公司特定服務(wù)的傾向(盡管他們可能有幾種選擇)。而在其他行業(yè),客戶(hù)每購(gòu)買(mǎi)一次產(chǎn)品就做出一次選擇,客戶(hù)的錢(qián)分流向兩個(gè)甚至更多的競(jìng)爭(zhēng)對(duì)手。作為壟斷經(jīng)營(yíng)者也意味著電信業(yè)比其他行業(yè)更能充分了解其客戶(hù)與產(chǎn)品相關(guān)的行為。在我們的數(shù)據(jù)中74%的手機(jī)用戶(hù)有過(guò)更換電信公司的記錄,而相比之下,更換過(guò)手機(jī)的用戶(hù)有35%之多。2 爭(zhēng)取客戶(hù)的成本相對(duì)較高。手機(jī)的折扣以及信用卡結(jié)算,提高了爭(zhēng)取客戶(hù)的成本,這超過(guò)了通常的營(yíng)銷(xiāo)成本。而每一名客戶(hù)的服務(wù)支出決定了其對(duì)公司的價(jià)值。這意味著留住一名現(xiàn)有客戶(hù)比吸引一名新客戶(hù)更具價(jià)值,因?yàn)橥炝艨蛻?hù)就避免了預(yù)先爭(zhēng)取客戶(hù)的開(kāi)銷(xiāo)。3 沒(méi)有直接的客戶(hù)合同。電信客戶(hù)與其服務(wù)供應(yīng)商之間沒(méi)有直接面對(duì)面的合同。事實(shí)上,唯一的電信合同只是針對(duì)客戶(hù)服務(wù)通常僅當(dāng)服務(wù)出現(xiàn)問(wèn)題時(shí)才履行。這表明,電信公司主要通過(guò)品牌管理和營(yíng)銷(xiāo)活動(dòng)來(lái)樹(shù)立公司形象。4 手機(jī),同其他零售產(chǎn)品一樣,無(wú)線(xiàn)通信業(yè)也有其外部載體手機(jī)。新款手機(jī)更加輕巧,擁有更多功能,因而也更具吸引力。結(jié)果是,手機(jī)在客戶(hù)流失管理中扮演越來(lái)越重要的角色。流失按照客戶(hù)流失意愿,應(yīng)分為被動(dòng)流失和主動(dòng)流失兩大類(lèi)。區(qū)別這兩種不同的流失非常重要??蛻?hù)連續(xù)幾個(gè)月不付費(fèi),則引發(fā)被動(dòng)流失,原因可能是手機(jī)被盜、手機(jī)損壞或客戶(hù)離開(kāi)服務(wù)區(qū)等,在被動(dòng)流失中,客戶(hù)流失的原因相對(duì)復(fù)雜,很多變量更突出地表現(xiàn)為社會(huì)問(wèn)題,大多不能依靠企業(yè)來(lái)加以改進(jìn)。與被動(dòng)流失相對(duì)的是主動(dòng)流失。促成主動(dòng)流失與非主動(dòng)流失的動(dòng)機(jī)很不相同,不能用被動(dòng)流失模型去預(yù)測(cè)主動(dòng)流失。特別是在服務(wù)競(jìng)爭(zhēng)激烈的市場(chǎng),找到影響主動(dòng)流失的變量,是企業(yè)客戶(hù)流失模型的核心所在。另一個(gè)明顯不同的應(yīng)用是預(yù)先對(duì)客戶(hù)群進(jìn)行分類(lèi)。如果某一客戶(hù)群體明顯可能會(huì)流失,或許他們就不應(yīng)該享受為新裝機(jī)用戶(hù)推出的驚人的折扣因?yàn)檫@要到幾個(gè)月后才會(huì)開(kāi)始盈利。定義流失變量包括了下列幾種不同的情況:1. 遷出服務(wù)區(qū)的客戶(hù)。2. 已經(jīng)去世的客戶(hù)。3. 無(wú)力承擔(dān)電話(huà)費(fèi)的客戶(hù)。4. 為其他服務(wù)供應(yīng)商所拉走的客戶(hù)。5. 想買(mǎi)新手機(jī)的客戶(hù)。(一) 其中最后兩類(lèi)值得重視,為其他服務(wù)供應(yīng)商所拉走的客戶(hù),以及被稱(chēng)作手機(jī)轉(zhuǎn)移族的最后一類(lèi)。如果其他公司為客戶(hù)提供更好的服務(wù)?;?yàn)樾驴蛻?hù)提供的手機(jī)折扣比現(xiàn)有客戶(hù)要多。就可能會(huì)鼓勵(lì)現(xiàn)有客戶(hù)先流失再重新加入,以獲得更多折扣。而這兩者通??梢詮臑榭蛻?hù)對(duì)現(xiàn)有公司服務(wù)滿(mǎn)意程度、手機(jī)物理性能的滿(mǎn)意度、手機(jī)的收訊情況、手機(jī)外型的滿(mǎn)意度等經(jīng)營(yíng)指標(biāo)反映出來(lái)。MuIIer(1991)認(rèn)為顧客滿(mǎn)意度有助于企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的達(dá)成。當(dāng)產(chǎn)品價(jià)格優(yōu)勢(shì)不顯著,顧客滿(mǎn)意度將是唯一有意義的競(jìng)爭(zhēng)優(yōu)勢(shì),而擁有愈高的顧客滿(mǎn)意度,公司將會(huì)獲得持久競(jìng)爭(zhēng)優(yōu)勢(shì)。KotIer(I997)認(rèn)為顧客滿(mǎn)意度是增加企業(yè)競(jìng)爭(zhēng)力的利器,顧客滿(mǎn)意度是公司未來(lái)獲利能力的最好評(píng)價(jià)根據(jù)。案例分析數(shù)據(jù)挖掘的核心是將數(shù)據(jù)轉(zhuǎn)換成可以操作的結(jié)果,在案例研究中,我們將具體按照數(shù)據(jù)挖掘的DM流程,對(duì)分析數(shù)據(jù)的每一重要步驟進(jìn)行說(shuō)明。我們要強(qiáng)調(diào)的是,數(shù)據(jù)挖掘過(guò)程一個(gè)互動(dòng)往復(fù)的過(guò)程。6.2.1 數(shù)據(jù)的預(yù)準(zhǔn)備一、數(shù)據(jù)的來(lái)源和組織結(jié)構(gòu)4、更換手機(jī)情況7、更換電信公司情況現(xiàn)狀層滿(mǎn)意層流失層1、使用現(xiàn)狀2、收訊滿(mǎn)意情況5、服務(wù)現(xiàn)狀6、電信公司滿(mǎn)意程度8、消費(fèi)者特征3、物理特性的滿(mǎn)意程度手機(jī)的滿(mǎn)意情況手機(jī)使用者 服務(wù)公司客戶(hù)層論文實(shí)證研究的數(shù)據(jù)是臺(tái)灣電話(huà)調(diào)查數(shù)據(jù),共有1,313,206筆電信市場(chǎng)調(diào)查數(shù)據(jù),變量32個(gè),以*.dat的形式存在。問(wèn)題按照用戶(hù)使用手機(jī)的情況和服務(wù)公司展開(kāi),分別考察了在手機(jī)使用情況和接受電信公司服務(wù)兩個(gè)結(jié)構(gòu)面上的基本使用(或服務(wù))情況、更換情況、滿(mǎn)意程度,以及消費(fèi)者的基本特征:數(shù)據(jù)結(jié)構(gòu)如圖1所示,組織結(jié)構(gòu)對(duì)應(yīng)的問(wèn)項(xiàng)如表2。圖1 數(shù)據(jù)組織結(jié)構(gòu)框圖1 1、消費(fèi)者使用手機(jī)的基本情況 A3 目前使用手機(jī)的品牌 A4 手機(jī)的付費(fèi)方式A6 手機(jī)的收訊情況A17目前所使用手機(jī)的品牌A18目前所使用手機(jī)的型號(hào)2、手機(jī)的收訊情況A5 在室內(nèi)(不包括電梯和地下室)A6 在室外A7 在郊外A8 在車(chē)上 3、對(duì)手機(jī)物理特性的滿(mǎn)意程度: A22 外形是否滿(mǎn)意 A23 目前手機(jī)功能是否滿(mǎn)意 A24 手機(jī)整體是否滿(mǎn)意 A25 是否擔(dān)心手機(jī)電磁波的危險(xiǎn)4、更換手機(jī)的情況A19 是否更換手機(jī)A20 更換次數(shù)A21 再次購(gòu)買(mǎi)的考慮因素5、服務(wù)公司A2 目前使用的移動(dòng)電話(huà)所屬的服務(wù)公司6、對(duì)電信公司的滿(mǎn)意程度:A9 通話(huà)清晰度的大、A10 計(jì)費(fèi)方式合理、A11 服務(wù)效率A12 服務(wù)人員的態(tài)度。A13 整體服務(wù)態(tài)度7、更換電信公司A14 是否更換A15 更換次數(shù)A16 上次服務(wù)公司(90%缺失)8、消費(fèi)者的基本特征A26性別A27年齡A28政治信仰A29教育程度A30籍貫A31政治主張A32職業(yè)A33戶(hù)籍 表2 數(shù)據(jù)組織結(jié)構(gòu)所對(duì)應(yīng)的問(wèn)項(xiàng)以及題目編號(hào)列表二、研究假設(shè)和研究主題(一)主題的物理概念分析定義業(yè)務(wù)問(wèn)題是成功數(shù)據(jù)挖掘過(guò)程中最有技巧的一個(gè)階段,因?yàn)樗枰粩嗟貙?duì)問(wèn)題進(jìn)行交流,以得到對(duì)問(wèn)題正確的理解。從結(jié)構(gòu)圖上,已經(jīng)發(fā)現(xiàn)數(shù)據(jù)中存在橫向和縱向,外部和內(nèi)部的復(fù)雜關(guān)系,這無(wú)疑是進(jìn)行關(guān)聯(lián)分析研究的非常好的數(shù)據(jù)。如果我們從企業(yè)的角度來(lái)看數(shù)據(jù)結(jié)構(gòu)圖,則不同層面上的數(shù)據(jù)有著不同的分析用途。比如:手機(jī)經(jīng)銷(xiāo)商客戶(hù)關(guān)系管理的角度來(lái)看,流失層的作用非常關(guān)鍵。首先,由流失層和現(xiàn)狀層的綜合分析,可以告知潛在客戶(hù)“名單”,當(dāng)前客戶(hù)“名單”,競(jìng)爭(zhēng)對(duì)手“名單”,唯一不能回答的是新老客戶(hù)的區(qū)分。其次,對(duì)三類(lèi)客戶(hù)“名單”,可以進(jìn)行不同的分析目的,如圖2所示: 現(xiàn)狀 新客戶(hù)未知潛在客戶(hù)問(wèn)題:客戶(hù)偏好客戶(hù)忠誠(chéng)度競(jìng)爭(zhēng)對(duì)手客戶(hù)問(wèn)題:客戶(hù)偏好客戶(hù)購(gòu)買(mǎi)意愿問(wèn)題:客戶(hù)細(xì)分目標(biāo)市場(chǎng)定位流失層老客戶(hù)問(wèn)題:交叉銷(xiāo)售風(fēng)險(xiǎn)管理圖2從生產(chǎn)和銷(xiāo)售手機(jī)的企業(yè),看市場(chǎng)研究和客戶(hù)關(guān)系管理的關(guān)系首先, 對(duì)當(dāng)前的手機(jī)客戶(hù),主要可以集中在研究滿(mǎn)意度評(píng)價(jià)模型,也就是說(shuō)通過(guò)研究客戶(hù)對(duì)電信公司以及手機(jī)的滿(mǎn)意度,建立手機(jī)或電信公司主動(dòng)流失模型。在我們的數(shù)據(jù)中,事實(shí)上,大部分用戶(hù)都會(huì)傾向于對(duì)服務(wù)滿(mǎn)意的狀態(tài),而對(duì)商家來(lái)講,重點(diǎn)在于找到不滿(mǎn)意的人群,并針對(duì)這些人群,提出新的戰(zhàn)略。分析的過(guò)程分為兩步:首先,比較不同的滿(mǎn)意程度之間互相影響程度,找到有意義的不滿(mǎn)意組合,提取不滿(mǎn)意指標(biāo),降低變量的個(gè)數(shù),然后,建立不滿(mǎn)意因素與人口特征方面的客戶(hù)細(xì)分模型,通過(guò)這個(gè)模型的建立,來(lái)定位目標(biāo)市場(chǎng),或進(jìn)行一些有利于業(yè)務(wù)拓展的促銷(xiāo)活動(dòng),抵御客戶(hù)流失的風(fēng)險(xiǎn)。 其次,競(jìng)爭(zhēng)對(duì)手的客戶(hù)。雖然也可以類(lèi)似研究客戶(hù)的滿(mǎn)意程度,找到不滿(mǎn)意客戶(hù)的族群,這些客戶(hù)將是可以拉動(dòng)需求的潛在客戶(hù)。但是,在電信行業(yè),爭(zhēng)取客戶(hù)的成本相對(duì)較高。手機(jī)的折扣以及信用卡結(jié)算,可能構(gòu)成提高爭(zhēng)取客戶(hù)的成本的原因,這超過(guò)了通常的營(yíng)銷(xiāo)成本。而每一名客戶(hù)的服務(wù)支出決定了其對(duì)公司的價(jià)值。這意味著留住一名現(xiàn)有客戶(hù)比吸引一名新客戶(hù)更具價(jià)值。因此,對(duì)于競(jìng)爭(zhēng)對(duì)手,選擇重點(diǎn)研究客戶(hù)對(duì)不同手機(jī)的認(rèn)知差異程度,來(lái)幫助企業(yè)做到知己知彼。最后,潛在客戶(hù)的研究。這些客戶(hù)雖然表面看來(lái),調(diào)查問(wèn)卷中并沒(méi)有他們的信息。但是,頻繁更換手機(jī)者以及部分沒(méi)有手機(jī)者構(gòu)成了這一族的大部分成員。同其他零售產(chǎn)品一樣,電信產(chǎn)品也有其外部載體手機(jī)。新款手機(jī)更加輕巧,擁有更多功能,因而也更具吸引力。結(jié)果是,手機(jī)的頻繁更換就為制造商制造了一個(gè)競(jìng)爭(zhēng)的空間。另外,沒(méi)有手機(jī)的用戶(hù)大多都填寫(xiě)了背景資料,因此這也是可以挖掘的領(lǐng)域。所以,對(duì)品牌偏好的客戶(hù),主要研究可以集中在品牌偏好研究,而對(duì)于目前還沒(méi)有手機(jī)的客戶(hù)來(lái)說(shuō),注重研究客戶(hù)的特征提取。由于問(wèn)卷調(diào)查數(shù)據(jù)的類(lèi)型基本為定性或定序數(shù)據(jù),數(shù)據(jù)之間的關(guān)系分析主要依賴(lài)關(guān)聯(lián)分析的結(jié)果。本案例將重點(diǎn)集中在下面四個(gè)問(wèn)題中:(1) 客戶(hù)在對(duì)手機(jī)功能、服務(wù)、電信公司的不滿(mǎn)意變量的研究,找到影響電信公司易流失客戶(hù)的數(shù)量模型。(2) 易流失客戶(hù)的流失預(yù)測(cè)得分模型的建立。(3) 潛在手機(jī)客戶(hù)的特征研究。(4) 頻繁更換手機(jī)的客戶(hù)對(duì)手機(jī)品牌偏好研究。(二)研究假設(shè)本研究的主要目的是探討影響手機(jī)使用情況的客戶(hù)滿(mǎn)意度的因素有哪些,并希望借助滿(mǎn)意度得分建立客戶(hù)流失模型,探討不同背景的客戶(hù)在滿(mǎn)意度方面的差異如何。為驗(yàn)證上面這些問(wèn)題,本研究提出如下兩條重要假設(shè):1、 手機(jī)用戶(hù)對(duì)手機(jī)性能、手機(jī)整體滿(mǎn)意度以及對(duì)電信公司的滿(mǎn)意程度是影響用戶(hù)主動(dòng)更換電信公司的直接原因。2、 不同背景的客戶(hù)由于年齡、性別、教育程度、戶(hù)籍、政治信仰、政治主張、職業(yè)的不同,會(huì)造成用戶(hù)對(duì)手機(jī)滿(mǎn)意度上的感受存在差異。(三)數(shù)據(jù)質(zhì)量的考察和主題進(jìn)一步確定本案例研究的調(diào)查數(shù)據(jù),所以數(shù)據(jù)中會(huì)有大量的缺失和異常現(xiàn)象,缺失數(shù)據(jù)的嚴(yán)重情況如圖3所示。按照缺失數(shù)據(jù)的提示和缺失情況,來(lái)確定主題、主題數(shù)據(jù)庫(kù)和分析的整體框架,是本案例的最大的特點(diǎn)。圖3從數(shù)據(jù)的行看缺失數(shù)據(jù)個(gè)數(shù)的分布情況我們首先從110萬(wàn)條數(shù)據(jù)中,隨機(jī)產(chǎn)生3808筆數(shù)據(jù),研究缺失數(shù)據(jù)的結(jié)構(gòu)和分布情況。圖3表示的是每條數(shù)據(jù)上缺失數(shù)據(jù)個(gè)數(shù)的整體分布情況,我們從圖上很容易發(fā)現(xiàn),缺失數(shù)據(jù)個(gè)數(shù)的眾數(shù)比較明顯,從缺失的個(gè)數(shù)相對(duì)集中,可以推斷數(shù)據(jù)的缺失情況大致可以分為4類(lèi),也就是缺失個(gè)數(shù)較多的2,3,23和31。原因如表3所示:缺失數(shù)據(jù)的個(gè)數(shù)原 因缺失率=缺失記錄條數(shù)/總樣本容量2a15,a16沒(méi)有填答,這些項(xiàng)目涉及更換電信公司的詳細(xì)信息9.5%3a15,a16,a20沒(méi)有填答,這些項(xiàng)目涉及更換手機(jī)和電信公司的詳細(xì)信息24%23a2 上回答目前沒(méi)有手機(jī),但是它們都填答了個(gè)人背景資料31%31a1上資料有問(wèn)題,因此后面的選項(xiàng)均未填答5%表3缺失個(gè)數(shù)較多的原因分析首先,問(wèn)項(xiàng)中有三道題目是篩選題目,它們構(gòu)成了無(wú)回答數(shù)據(jù)的主要原因。其中a1表示數(shù)據(jù)是否有問(wèn)題,a1=1的后續(xù)題目全部空白,這樣的記錄占總數(shù)據(jù)的10.5%,這些數(shù)據(jù)首先被刪除,同時(shí)變量a1也被刪除,因?yàn)樗挥幸粋€(gè)值。變量a2表示被訪(fǎng)問(wèn)者目前擁有手機(jī)的情況,1表示擁有手機(jī),而2表示目前沒(méi)有手機(jī),所幸的是,在a2=2的被訪(fǎng)問(wèn)者在個(gè)人資料方面填答的完整率高達(dá)89%,因此,為手機(jī)潛在客戶(hù)的研究提供了寶貴的數(shù)據(jù)。按照a2的取值,將數(shù)據(jù)分為潛在客戶(hù)群和當(dāng)前手機(jī)客戶(hù)群,這樣操作之后的缺失數(shù)據(jù)和整理之前的缺失數(shù)據(jù)情況如表4所示:NameValuesMissing %刪除a1=1NameValuesMissing %刪除a1=1NameValuesMissing %刪除a1=1A120%A12553%43%A23555%44%A2212%1.3%A13553%43%A24555%45%A3850%40%A14354%43%A25556%45%A4351%40%A15390%80%A26218%6%A5351%41%A16*890%79%A27717%6%A6351%41%A17954%43%A28727%15%A7351%41%A181254%43%A29421%8%A8352%41%A19254%44%A30522%9%A9552%42%A201083%72%A31722%9%A10553%42%A21254%44%A321022%10%A11553%42%A22555%44%A332422%10%表4 缺失數(shù)據(jù)情況表(*表失該變量缺失嚴(yán)重)(四)研究框架下一步,確定分析的主題,商家提出的問(wèn)題是否可行,數(shù)據(jù)挖掘的目的就是要讓數(shù)據(jù)說(shuō)話(huà)。用來(lái)建立客戶(hù)滿(mǎn)意度模型的數(shù)據(jù)分布在5個(gè)層面的數(shù)據(jù):用戶(hù)對(duì)手機(jī)的滿(mǎn)意評(píng)價(jià)、用戶(hù)對(duì)電信公司服務(wù)的滿(mǎn)意情況、手機(jī)用戶(hù)的收訊情況等等。由于變量之間的關(guān)系復(fù)雜,直接建立模型,所以首要的問(wèn)題是減少分析的變量,將有關(guān)系的變量組成主題,研究框架如圖6.4所示: 圖4 確定主題和主題數(shù)據(jù)立方體生成三、整理數(shù)據(jù)和準(zhǔn)備建模數(shù)據(jù)集(一)、軟件使用說(shuō)明:由于所有的發(fā)現(xiàn)過(guò)程都只依賴(lài)于數(shù)據(jù),這與傳統(tǒng)、早期的數(shù)據(jù)分析一樣,數(shù)據(jù)挖掘的每一個(gè)步驟都面臨著同樣的挑戰(zhàn),需要經(jīng)驗(yàn)和專(zhuān)業(yè)技術(shù)。上面這些步驟在后面的案例中很清楚地描述。在我們的工作中,相當(dāng)大的努力投入到這些數(shù)據(jù)挖掘的前期工作,而不是僅僅用于建立模型,模型是否成功依賴(lài)于前面的對(duì)數(shù)據(jù)的探索。只有對(duì)數(shù)據(jù)有著良好的理解,數(shù)據(jù)挖掘的過(guò)程,以及由數(shù)據(jù)挖掘技術(shù)發(fā)展出來(lái)的模型的才是有價(jià)值的。雖然發(fā)現(xiàn)過(guò)程的很多工作已經(jīng)由機(jī)器來(lái)代替,通過(guò)可視化的大大簡(jiǎn)化了上述的步驟,但是在半自動(dòng)化的操作中,人的因素起到關(guān)鍵的作用,特別是在建立模型和執(zhí)行效率方面,最新發(fā)展起來(lái)的很多工具,依然有很多限制?;谏鲜鲋T多因素的考慮,我們對(duì)本案例的分析采用的主要工具是S-plus2000和SASEM(試用版)。S-plus的優(yōu)點(diǎn)是統(tǒng)計(jì)計(jì)算效率高,很多S庫(kù)函數(shù)在設(shè)計(jì)的時(shí)候,已經(jīng)考慮了缺失值和異常數(shù)值按用戶(hù)指定的方式進(jìn)行處理。它的缺點(diǎn)是不能容納超過(guò)5X106的數(shù)據(jù)量,即內(nèi)存中不能一次性滯留50萬(wàn)筆以上的數(shù)據(jù)。但是,如果數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)庫(kù),則其執(zhí)行效率非常高。由于我們?cè)诜治鲋惺褂玫氖荢ASEM是由網(wǎng)絡(luò)上下載的試用版本,因此具有不可編程的特點(diǎn)(盡管SAS的其它模塊都可以編寫(xiě)程序),這樣阻礙了我們分析的自由度,而s-plus本身的編程自由度相對(duì)較大,所以我們?cè)诒景咐乃袛?shù)據(jù)的預(yù)處理,都是在s-plus之下進(jìn)行的,而只是在建立模型階段,才使用了SASEM,SASEM的優(yōu)勢(shì)在于,它設(shè)計(jì)了很友好的圖形可視化界面,通過(guò)圖形傳達(dá)了數(shù)據(jù)挖掘?qū)δP捅磉_(dá)和模型評(píng)價(jià)的基本概念。另外,由于關(guān)聯(lián)規(guī)則的計(jì)算涉及到非項(xiàng)目集上的運(yùn)算,而這一功能試用版本SASEM中也不具備。為了提高運(yùn)算效率,筆者首先將110萬(wàn)條數(shù)據(jù)拆分成11萬(wàn)條一組,共計(jì)10個(gè)分段數(shù)據(jù)集(最后一組的數(shù)據(jù)量超過(guò)10萬(wàn)條)。由于本研究中,并未涉及到抽樣的方式,只用到隨機(jī)抽樣。因此,這樣的拆分并不影響計(jì)算的結(jié)果,如果忽略在不同的數(shù)據(jù)集上轉(zhuǎn)換抽樣所花費(fèi)的時(shí)間,則在S-plus上的計(jì)算效率是很高的??傊景咐Y(jié)合了S-plus自由的編程能力和SASEM的數(shù)據(jù)挖掘流程的良好輸出功能,來(lái)輔助完成本案例的研究,為數(shù)據(jù)挖掘軟件的實(shí)踐提供重要參考。(二)、缺失、異常數(shù)據(jù)處理當(dāng)確認(rèn)了我們的數(shù)據(jù)適合問(wèn)題的研究之后,就是復(fù)雜而瑣碎的數(shù)據(jù)的清理。在建模的時(shí)候,我們需要盡可能完整的數(shù)據(jù)。 首先計(jì)算缺失數(shù)據(jù)的情況,從表2中,比如:感興趣的評(píng)價(jià)滿(mǎn)意度的三個(gè)變量a22,a23,a24,a25,缺失比例超過(guò)40%。接下來(lái),是有關(guān)缺失值的處理工作。怎樣對(duì)付缺失數(shù)據(jù)呢?通常情況下,有下面的幾種方法:u 漠然處之: 當(dāng)使用決策樹(shù)建立模型的時(shí)候,少量的缺失數(shù)據(jù)是可以被允許的。因?yàn)樵跊Q策樹(shù)建模過(guò)程中,為了防止過(guò)度擬合,都會(huì)假定訓(xùn)練樣本的每個(gè)節(jié)點(diǎn)所允許的最少的樣本點(diǎn)的個(gè)數(shù)不能低于某個(gè)域值,我們?cè)诒景咐?,選擇目標(biāo)變量的缺失率不超過(guò)1%,則不對(duì)訓(xùn)練數(shù)據(jù)做任何處理。u 刪除含有異常值的行:這樣做,可能意味著對(duì)數(shù)據(jù)進(jìn)行了帶有歧視性的抽樣,如果刪除的數(shù)據(jù)很多,就會(huì)影響數(shù)據(jù)的分布,可能會(huì)造成數(shù)據(jù)的有偏,因此應(yīng)該謹(jǐn)慎使用。這里,首要的問(wèn)題是缺失數(shù)據(jù)質(zhì)量的判斷。如果某條記錄上數(shù)據(jù)缺失相當(dāng)嚴(yán)重,那么就應(yīng)該采取刪除的辦法,刪除最壞的影響就是樣本代表性問(wèn)題。因?yàn)槲覀兊臄?shù)據(jù)是電話(huà)調(diào)查的數(shù)據(jù),樣本是根據(jù)各個(gè)地區(qū)人口的比例,分層抽樣得到的,因此在刪除的時(shí)候,應(yīng)該對(duì)比刪除以后和刪除以前各個(gè)地區(qū)刪除的號(hào)碼比例(計(jì)算公式=刪除個(gè)數(shù)/地區(qū)人口數(shù))是否一致。在各個(gè)地區(qū)內(nèi)數(shù)據(jù)的一致性問(wèn)題。圖5顯示了刪除a1=1之前和之后的數(shù)據(jù)在各地區(qū)的分布情況,由圖上,很容易發(fā)現(xiàn)號(hào)碼代表性比例基本保持不變。事實(shí)上,只要在可能刪除的地方,插入t檢驗(yàn),就有可能避免錯(cuò)誤的刪除操作。 圖5 刪除數(shù)據(jù)以后的比例和刪除以前的比例比較圖u 忽略相應(yīng)的變量:忽略掉含有缺失值較高的變量,將注意力集中到完整的數(shù)據(jù)上。如果僅有少量的列含有缺失值。通常,忽略掉它們是可以接受的,或者用一個(gè)顯示數(shù)據(jù)是否缺失的標(biāo)示變量來(lái)替代這些變量。u 采用預(yù)測(cè)值:一個(gè)較為粗糙的辦法是將列均值或眾數(shù)值插入缺失的列。當(dāng)研究單一變量的時(shí)候,這樣做是可能的。而在多變量的情況下,可能造成不公平。另外,在已有的SOLAS for Missing Data Analysis 1.0標(biāo)準(zhǔn)中,主張利用變量之間的關(guān)系,比如:采用回歸分析插補(bǔ)數(shù)據(jù),而對(duì)于定性數(shù)據(jù),可能通過(guò)關(guān)聯(lián)規(guī)則插補(bǔ)。如果定性變量較多,可以嘗試使用決策樹(shù)或神經(jīng)網(wǎng)絡(luò)算法值來(lái)預(yù)測(cè)缺失列中的值。這里,由于我們的目標(biāo)是預(yù)測(cè),因此,將三種方法對(duì)比,從中選擇表現(xiàn)較好的方法,篩選模型的方法采用累積增長(zhǎng)圖。三種方法的預(yù)測(cè)效果在客戶(hù)對(duì)手機(jī)性能和手機(jī)使用情況,刪除缺失數(shù)據(jù),并保持抽樣隨機(jī)性不變的情況下,目標(biāo)變量中仍然存在少量的異常數(shù)據(jù)。因此采用首先忽略異常數(shù)值,建立模型之后,又將預(yù)測(cè)的結(jié)果用于目標(biāo)變量的估計(jì)。u 建立獨(dú)立的模型:更換電信公司較為頻繁的客戶(hù),可以作為一類(lèi)特殊的群體來(lái)對(duì)待,因?yàn)檫@部分的數(shù)據(jù)只有6萬(wàn)條,應(yīng)該將這些數(shù)據(jù)單獨(dú)提取出來(lái),進(jìn)行模型的建構(gòu)。根據(jù)所能獲得的各個(gè)消費(fèi)者的數(shù)據(jù)對(duì)他們進(jìn)行劃分可以消除許多棘手的問(wèn)題。該方法對(duì)取值不存在的缺失數(shù)據(jù)尤為有效。如果將所有的缺失數(shù)據(jù)都除掉,也就是說(shuō),將會(huì)有怎樣的后果。因?yàn)樘蕹囊粋€(gè)數(shù)值和剔除哪些變量,是和變量、以及記錄之間的關(guān)系有關(guān)。本文這里剔除異常值和剔除缺失數(shù)據(jù),都采用了插補(bǔ)法,具體將在下面的關(guān)聯(lián)規(guī)則中仔細(xì)敘述。除此之外,由于a19問(wèn)項(xiàng)“是否有更換手機(jī)歷史”是篩選題,它用來(lái)篩選a20,因此,對(duì)前一題目作出否定回答的被訪(fǎng)問(wèn)者,在此a20上造成缺失數(shù)據(jù)者,恰恰是企業(yè)的忠實(shí)客戶(hù)。這也解釋了為什么a20的缺失率達(dá)到83%。從單變量分布的觀(guān)察來(lái)看,由于問(wèn)題中還有拒絕回答項(xiàng),拒絕回答的數(shù)據(jù)顯示為“88”或“99”這樣的數(shù)據(jù),如果量不多,比如只占到1%,可以考慮刪除個(gè)別,或?qū)o(wú)回答數(shù)據(jù)用其它的變量按照取值的比例賦權(quán)重,分配到其它的回答中間。反之,如果客戶(hù)的變量相對(duì)無(wú)回答數(shù)據(jù)較多,則可以將無(wú)回答數(shù)據(jù)用其它的變量按照取值的比例賦權(quán)重,必須將這些數(shù)值重新賦值,分配到其它的回答中間。從我們的問(wèn)題來(lái)看,有關(guān)手機(jī)滿(mǎn)意度的5個(gè)指標(biāo)拒答率極高,超過(guò)5%,最高達(dá)到26%,因此需要進(jìn)行處理。而客戶(hù)特征變量相對(duì)較少。清理完的數(shù)據(jù)集用于滿(mǎn)意度模型的數(shù)據(jù)只有10萬(wàn)筆,而用于客戶(hù)細(xì)分的數(shù)據(jù)只有4萬(wàn)筆。粒度是指建模數(shù)據(jù)的級(jí)別大小。通常情況下,數(shù)據(jù)挖掘算法作用于原始數(shù)據(jù)的每一行。所有關(guān)于一個(gè)客戶(hù)(或者其他我們感興趣的對(duì)象)的數(shù)據(jù)資料都應(yīng)該放在同一行中,這些數(shù)據(jù)通常會(huì)根據(jù)粒度的大小來(lái)匯總,如圖6。比如,在更換手機(jī)這個(gè)變量上,由于變量取值較多,而缺失數(shù)據(jù)又比較多,因此就可能造成某些取值的記錄過(guò)分稀少,不利于抽樣和推斷。因此,將數(shù)據(jù)合并處理。1234560.3910.3020.1790.050.0350.01778910880.0020.0060.00030.0170合并數(shù)據(jù),整理成合適粒度012以上0.3910.3020.307圖6 將a20 合并匯總(三)、在線(xiàn)抽樣算法在關(guān)聯(lián)規(guī)則計(jì)算中的應(yīng)用關(guān)聯(lián)規(guī)則在本案例的作用主要表現(xiàn)在以下兩個(gè)方面:首先,用于數(shù)據(jù)的分割和變量的選擇,也就是說(shuō),哪些變量之間的關(guān)系值得研究,得到的結(jié)果是有意義的,這稱(chēng)為變量的選擇。使用手機(jī)物理性能、更換手機(jī)情況、以及對(duì)電信公司的滿(mǎn)意程度三組變量:a5、a6、a7、a8、 a22、a23、a24、a25、a9、a10、a11、a12、a13變量建立客戶(hù)對(duì)于電信公司的滿(mǎn)意度模型,首先,不考慮關(guān)聯(lián)性如果將所有的對(duì)數(shù)據(jù)不實(shí)施分割,則計(jì)算得到的不滿(mǎn)意度指數(shù),在不同的用戶(hù)上沒(méi)有太大的區(qū)別。將變量引入模型,由于a5_a8僅取兩個(gè)數(shù)值,將數(shù)據(jù)2倍,消除量綱,然后提取主成分,將主成分上的得分作為目標(biāo)變量,建立客戶(hù)細(xì)分模型,發(fā)現(xiàn)只有a33上有明顯不同。事實(shí)上,在沒(méi)有選擇變量的基礎(chǔ)上,各滿(mǎn)意度變量在用戶(hù)的背景上沒(méi)有顯著差異,表5顯示的是各影響變量上滿(mǎn)意的用戶(hù)背景和不滿(mǎn)意的用戶(hù)背景之間的t.test檢驗(yàn)p-值: a5a6a7A8a9a10A111.001.001.000.980.850.970.96a12a13a22a23A24a251.001.000.961.000.960.86表5各影響變量用戶(hù)背景差異的最小的t.test檢驗(yàn)p-值主要原因,是沒(méi)有進(jìn)行變量的選擇和數(shù)據(jù)的分割。我們限制輸出為不滿(mǎn)意的變量值,采用關(guān)聯(lián)分析,發(fā)現(xiàn)排列有意義的二、三元規(guī)則如表6:序號(hào)關(guān)聯(lián)規(guī)則支持度可信度所用到的樣本容量1A8=2-a7=120%2.51872A7=2-a6=120%2.32543A6=2-a5=120%1.63424A8=2,a7=1-a33=420%87%4725A8=2,a7=1-a27=320%82%4326A7=2,a6=1-a26=120%80%5727A7=2,a6=1-a33=1020%80%6628A6=2,a5=1-a27=420%80%6899A6=2,a5=1-a29=220%81%739 表6關(guān)聯(lián)分析部分結(jié)果按照a8、a7、a6上的取值,將數(shù)據(jù)分成三類(lèi),分別建立不滿(mǎn)意度模型。第二、將掛念分析用于缺失數(shù)據(jù)處理方法的選擇上。雖然理論上可以用沒(méi)有缺失的變量估計(jì)缺失變量,但是,如果用于預(yù)測(cè)的變量上仍然缺失,即便回答數(shù)據(jù)的關(guān)聯(lián)性非常強(qiáng),也無(wú)法做出預(yù)測(cè)。因此應(yīng)該選擇被預(yù)測(cè)的變量和預(yù)測(cè)變量之間缺失數(shù)量上關(guān)聯(lián)性較差,作為進(jìn)入預(yù)測(cè)缺失數(shù)據(jù)的輸入條件。也就是說(shuō),通過(guò)計(jì)算不同變量上缺失數(shù)據(jù)的關(guān)聯(lián)情況,可以推算用哪些變量進(jìn)行預(yù)測(cè),因?yàn)椴⒂纱送扑愠瞿男┳兞可系娜笔?shù)據(jù)可以由與它關(guān)聯(lián)性較強(qiáng)的同行的數(shù)據(jù)來(lái)替代。第三,可以利用變量之間的關(guān)聯(lián)性進(jìn)行估計(jì)。比如:更換過(guò)手機(jī)的用戶(hù)相對(duì)于沒(méi)有更換過(guò)手機(jī)的客戶(hù)更容易在手機(jī)的性能上回答滿(mǎn)意,因此可以利用變量的關(guān)聯(lián)性進(jìn)行插補(bǔ)。如果變量之間多元規(guī)則成立較多,也就是說(shuō)缺失數(shù)據(jù)關(guān)聯(lián)性強(qiáng),那么就可以將這些數(shù)據(jù)刪除。如果缺失數(shù)據(jù)關(guān)聯(lián)性差,如果將數(shù)據(jù)全部刪除,則可能導(dǎo)致數(shù)據(jù)量的不足,一般統(tǒng)計(jì)軟件內(nèi)設(shè)的成批刪除(list-wise deletion)缺失值和異常數(shù)值。但若遺漏值較多則會(huì)損失大量的資料,導(dǎo)致樣本偏誤這一標(biāo)準(zhǔn)如何制訂,現(xiàn)在尚沒(méi)有標(biāo)準(zhǔn)。已有的SOLAS for Missing Data Analysis 1.0標(biāo)準(zhǔn)中,主張采用回歸分析來(lái)插補(bǔ)數(shù)據(jù),其實(shí)也就是利用了連續(xù)變量要間的關(guān)聯(lián)性,而對(duì)于定性數(shù)據(jù),需要通過(guò)關(guān)聯(lián)規(guī)則的建立插補(bǔ)規(guī)則。為簡(jiǎn)單起見(jiàn),我們僅僅考察了二元關(guān)聯(lián)規(guī)則的建立。以手機(jī)滿(mǎn)意程度和手機(jī)的收訊情況和手機(jī)的更換情況為例,所有可能的關(guān)聯(lián)規(guī)則為8*5=40。因此,將所有變量采用ASAR算法和Apriori算法相結(jié)合,去除缺失缺失的情況,就是我們需要的結(jié)果。為提高運(yùn)行效率,我們僅僅取前10位表現(xiàn)最好的規(guī)則,按照前一章符號(hào)表示,首先,我們規(guī)定最小支持度為15%,最小支持度的下界為=10%,也就是說(shuō),置信度取值為0.1,按照第六章的定理2,可以計(jì)算批量抽樣的樣本容量,另外,為提高計(jì)算效率,將取值較多的變量a33,a32,a20暫時(shí)沒(méi)有計(jì)算在內(nèi),原因是這兩個(gè)變量的密度比較分散,這樣的分布情況,很難表現(xiàn)出高支持度成立的規(guī)則。計(jì)算可能的二元關(guān)聯(lián)規(guī)則為|C|=798,由Hoeffding不等式計(jì)算所需要的樣本容量為:=7188而超過(guò)15%的規(guī)則中,超過(guò)的部分越多,算法的執(zhí)行效率越高,比如:某規(guī)則的支持度在15%以上,則只要3594個(gè)樣本就足夠達(dá)到以90%的可能性,接受規(guī)則超過(guò)15%,由于規(guī)則的實(shí)際支持度和所需要的樣本容量成正比,因此,從規(guī)則出現(xiàn)的先后順序就可以決定插補(bǔ)原則的順序,比如規(guī)則1和規(guī)則2都支持a19=1,但選擇的先后順序以前者為優(yōu)先考慮。最后的結(jié)果是在線(xiàn)產(chǎn)生了4,718筆數(shù)據(jù),得到了近似的關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則均以90%的置信度成立,和理想值的支持度上差異在0.05左右,而置信度在90%。在線(xiàn)抽樣的結(jié)果顯示最先產(chǎn)生的10個(gè)關(guān)聯(lián)規(guī)則,以及他們所用到的樣本容量,以及支持度的反估計(jì)如下:序號(hào)關(guān)聯(lián)規(guī)則支持度可信度所用到的樣本容量支持度的反估計(jì)1A8=2-a19=120%89%13421.5%2A8=2-a19=220%87%12321.5%3A6=2-a19=120%91%20321.3%4A6=2-a19=220%83%30420.3%5A2=1-a19=520%87%20420%6A5=2-a19=120%80%32020%7A8=2-a19=120%80%59119.6%8A6=2-a19=120%80%60719.5%9A5=2-a19=220%81%65318.7%10A5=1-a19=220%79%66818.3%表7 在線(xiàn)抽樣算法排名前10位強(qiáng)關(guān)聯(lián)規(guī)則 假定ax與a19的可信度為按照可信度,則如下建立估計(jì)原則如下: 。這些變量與a19不同時(shí)缺失的比例如表8所示:序號(hào)解釋變量P(A19缺失|不缺失)1A80.972A70.97 3A60.97 4A50.97 5A24100%6A22100%7A25100%8A23100%表8與a19不同時(shí)缺失的變量比例實(shí)驗(yàn)中對(duì)a19進(jìn)行插補(bǔ)的原則基本按上述強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行,插補(bǔ)以后的a19缺失率為14%,和其他變量的強(qiáng)關(guān)聯(lián)關(guān)系基本保持不變,插補(bǔ)前和插補(bǔ)后各個(gè)取值的比例如圖6所示,圖中顯示了插補(bǔ)后a19的取值和插補(bǔ)前基本比例沒(méi)有改變。 圖6 插補(bǔ)前后數(shù)據(jù)分布變化不大由圖中,可以明顯發(fā)現(xiàn)插補(bǔ)變量的分布沒(méi)有造成巨大的有偏現(xiàn)象出現(xiàn),表示插補(bǔ)基本成功。我們的實(shí)驗(yàn)再次展示了在線(xiàn)抽樣算法計(jì)算的效率,只要700個(gè)樣本,就基本可以完成我們的任務(wù),而批量抽樣則需要8843個(gè)樣本,才能將好的規(guī)則挑選出來(lái)。 建立模型和分析結(jié)果1、電信公司滿(mǎn)意度關(guān)聯(lián)分析:調(diào)查問(wèn)卷中有關(guān)手機(jī)和電信公司服務(wù)方面的滿(mǎn)意度的評(píng)測(cè),共計(jì)10個(gè)題目,被調(diào)查對(duì)象需要對(duì)他們的回答從5-1進(jìn)行排序,意思表示非常滿(mǎn)意到不滿(mǎn)意。一共有136,0260份問(wèn)卷?;卮鹗且淮蔚摹_@樣大量的樣本在數(shù)據(jù)庫(kù)中,每個(gè)問(wèn)答的問(wèn)題的大代表著一種屬性,屬性的取值從1到4。除此之外,數(shù)據(jù)中的缺失數(shù)據(jù)平均達(dá)到50%以上,對(duì)每個(gè)屬性來(lái)講。其中的一些屬性語(yǔ)義相關(guān)(獨(dú)立),比如,只有當(dāng)客戶(hù)從競(jìng)爭(zhēng)對(duì)手中購(gòu)買(mǎi)了服務(wù),客戶(hù)對(duì)競(jìng)爭(zhēng)對(duì)手的評(píng)價(jià)才會(huì)出現(xiàn)在回答問(wèn)卷中。理解這些互相的關(guān)系對(duì)于分類(lèi)問(wèn)題是至關(guān)重要。這個(gè)數(shù)據(jù)集里的數(shù)據(jù)是定序數(shù)據(jù)所構(gòu)成的。這些數(shù)據(jù)可以用傳統(tǒng)的統(tǒng)計(jì)技術(shù)來(lái)測(cè)量客戶(hù)的滿(mǎn)意程度。而我們現(xiàn)在的任務(wù)是要分析這些數(shù)據(jù),提出建議的方案,得到客戶(hù)的不滿(mǎn)意程度。在建立不同的模型的時(shí)候,將采用不同的整合數(shù)據(jù)的方法:1、首先是模型的選擇,電信因變量和自變量關(guān)系的研究,電信公司有7個(gè),滿(mǎn)意度影響方式有5個(gè)變量,我們?cè)诰€(xiàn)隨機(jī)抽取了50000筆數(shù)據(jù),得到下面的結(jié)果。在分析之前,我們?nèi)匀幌駛鹘y(tǒng)分析方法一樣,將在線(xiàn)抽取部分?jǐn)?shù)據(jù)和母體做適合度檢驗(yàn),得知樣本與母體間的結(jié)構(gòu)相符,表示我們下面的分析是有效的。支持中華電信 (0932 0933)清晰度、計(jì)費(fèi)方式、服務(wù)效率和服務(wù)人員態(tài)度和整體服務(wù)品質(zhì)基本滿(mǎn)意成立,支持度依次為12%,12%,13%,8%,11%;支持臺(tái)灣大哥大(0920 0922)清晰度、計(jì)費(fèi)方式、服務(wù)效率整體服務(wù)品質(zhì)基本滿(mǎn)意成立10%,7%,7%,9%,其中服務(wù)效率規(guī)則表現(xiàn)不明顯。同時(shí),從最先淘汰的規(guī)則是對(duì)五種服務(wù)完全不滿(mǎn)意,而從不滿(mǎn)意的維度來(lái)看,對(duì)中華電信公司不滿(mǎn)意的規(guī)則最后淘汰,說(shuō)明對(duì)中華電信公司的滿(mǎn)意程度存在兩種,其中大部分的觀(guān)點(diǎn)是滿(mǎn)意的,而有一小部分不滿(mǎn)意的意見(jiàn)。到底哪些對(duì)象對(duì)臺(tái)灣大哥大(09200922)的哪些服務(wù)指標(biāo)不滿(mǎn)意,是我們下面要深入探討的問(wèn)題,這一問(wèn)題的解決有助于幫助企業(yè)找到他們服務(wù)方面的問(wèn)題癥結(jié),從而為企業(yè)提供更有利的決策支持。進(jìn)一步分析發(fā)現(xiàn),在滿(mǎn)意度評(píng)價(jià)方面,下面三種規(guī)則得到支持:1、對(duì)通話(huà)清晰度基本滿(mǎn)意,但對(duì)計(jì)費(fèi)方式認(rèn)為有不合理傾向。(6%,90%)2、對(duì)通話(huà)計(jì)費(fèi)基本滿(mǎn)意,但對(duì)電信公司的服務(wù)效率認(rèn)為不滿(mǎn)意傾向。(7%,90%)3、對(duì)通話(huà)計(jì)費(fèi)表示滿(mǎn)意,但對(duì)整體服務(wù)表示不滿(mǎn)。(6.5%)2、不滿(mǎn)意客戶(hù)細(xì)分由于篇幅所限,我們僅列出a8=2,a7=1分類(lèi)上的不滿(mǎn)意模型。通過(guò)關(guān)聯(lián)分析得到的不滿(mǎn)意變量組合: a22、a23、a24、a25、a9、a10、a11、a12、a13變量建立滿(mǎn)意度模型。提取滿(mǎn)意度指數(shù)的方法是主成分分析方法,在采用主成分分析方法之前,首先,先考察缺失數(shù)據(jù)的分布情況,以及刪除缺失數(shù)據(jù)對(duì)樣本有偏性的影響。通過(guò)類(lèi)似于前面的關(guān)聯(lián)分析和t檢驗(yàn),并沒(méi)有發(fā)現(xiàn)刪除后各個(gè)地區(qū)變量上的數(shù)值分布有很大的變化。事實(shí)上,兩兩比例之間的比較,最小的t檢驗(yàn)p值是0.67,最大的是0.99。主成分分析結(jié)果如圖7:圖7:主成分分析結(jié)果從中提取三個(gè)主成分:prin1=0. 31*a22+0.32*a23+0.41*a24+0.19*a25+0.53*a9 prin2=0. 11*a22+0.07*a23+0.03*a24-5.19*a25+0.11*a9+0.21*a10+0.11*a12 prin3=0. 35*a10+0.41*a11+0.56*a12+0.51*a13prin1反映用戶(hù)對(duì)手機(jī)使用的不滿(mǎn)意情況,prin2反映的是用戶(hù)對(duì)電磁波的影響,prin3則主要反映用戶(hù)對(duì)電信公司的不滿(mǎn)意情況。按不滿(mǎn)意度指數(shù)(prin1,prin2,prin3)進(jìn)行分類(lèi),分類(lèi)權(quán)重為三個(gè)變量對(duì)方差的貢獻(xiàn)率,手機(jī)在車(chē)上沒(méi)有收訊正常,但在郊外有問(wèn)題的用戶(hù)的類(lèi)型如表9所示:項(xiàng)目第1群第2群第3群教育程度a29職業(yè)a32白領(lǐng)級(jí)上班族學(xué)生、黨派a28年齡a2730-3940-49歲20以下民族閩南、原住客家、外省戶(hù)籍地理所在地a33 (4,10,13)(5,11,1,3)對(duì)電磁輻射關(guān)心程度a25非常人數(shù)比例53%32%15%表9 手機(jī)在車(chē)上沒(méi)有收訊正常,但在郊外有問(wèn)題的用戶(hù)的類(lèi)型從上面的分析中,第一群人的特征非常明顯,這類(lèi)人年齡中年,事業(yè)成功,有財(cái)力進(jìn)行野外旅游,因此會(huì)對(duì)郊外的手機(jī)使用較為敏感,是一類(lèi)應(yīng)該注意的群體。 3、客戶(hù)流失模型的建立找到對(duì)臺(tái)灣大哥大不滿(mǎn)意的群體類(lèi)型。因此,以該變量上是否滿(mǎn)意為類(lèi)別,問(wèn)卷中第26-33題是對(duì)客戶(hù)對(duì)手機(jī)健康的重視程度、心理能力、性別、年齡、教育程度、職業(yè)、政治信仰和地區(qū)五個(gè)變量進(jìn)行的決策判斷。 圖8 建立模型的步驟圖由于政治信仰兩個(gè)題目均有90%的數(shù)據(jù)反映有中立傾向,又由于臺(tái)灣政治信仰方面的信息了解不完善等原因。所以在分析滿(mǎn)意度模型的時(shí)候,暫時(shí)將這兩個(gè)變量去掉。由于數(shù)據(jù)是定性的數(shù)據(jù)。首先,這里,有25103條記錄接受中華電信的服務(wù)。而對(duì)中華電信不滿(mǎn)意的記錄條數(shù)約占總記錄的12%,占中華電信客戶(hù)的68%,那么這部分人群有怎樣的特征。在抽樣方法上,選擇重抽樣的,它的基本原理是少數(shù)全抽,多數(shù)的少抽。7.5%, 10,5053圖9 待分析的數(shù)據(jù)比例太少我們采用了類(lèi)神經(jīng)網(wǎng)絡(luò)、邏輯斯回歸和決策樹(shù)模型,進(jìn)行預(yù)測(cè)模型的建立,圖中發(fā)現(xiàn),身體健康、性別和教育程度三個(gè)變量表現(xiàn)比較顯著,圖10 SASEM所呈現(xiàn)出來(lái)的預(yù)測(cè)模型的累積增益圖比較4、頻繁更換手機(jī)的目標(biāo)人群的客戶(hù)細(xì)分模型:這類(lèi)潛在客戶(hù)定義為所有數(shù)據(jù)記錄中,更換次數(shù)多于2次的客戶(hù),我們采用CART決策樹(shù)建立模型的方法,建立如下模型: 圖11 決策樹(shù)預(yù)測(cè)模型結(jié)果精度較高深度為5的樹(shù)狀圖如圖12 :圖12 樹(shù)形圖如果用深度為6的樹(shù)型圖分析,則可以得到如表10所示的七個(gè)類(lèi)別特征:項(xiàng)目第1群第2群第3群第4群教育程度a29高中職中居多職業(yè)a32退休、家庭主婦上班族學(xué)生、白領(lǐng)級(jí)黨派a28國(guó)民黨、親民黨國(guó)民黨、親民黨146年齡20-29歲、30-39歲、40-49歲20以下、30-39歲、40-49歲民族外省、原住客家、閩南戶(hù)籍地理所在地a33南部(4,9,14)北部、中部、東部(2,3,10,11,12,17,19)北部居多2,11,17對(duì)電磁輻射關(guān)心程度a25非常不太關(guān)心政治主張民進(jìn)、中立更換頻繁率93.2%95.368.7%70%人數(shù)5656214187項(xiàng)目第5群第6群第7群教育程度a29高中及以上、大專(zhuān)大學(xué)及以上高中、大專(zhuān)以上職業(yè)a32主婦、白領(lǐng)白領(lǐng)、專(zhuān)業(yè)技術(shù)學(xué)生1347黨派a28年齡20-29,40-49民族戶(hù)籍地理所在地a337,13,16,20,224571568,15,18對(duì)電磁輻射關(guān)心程度a25不關(guān)心政治主張新黨更換頻繁率70.4%68.4%100%人數(shù)886716表10 頻繁更換手機(jī)的客戶(hù)細(xì)分從樹(shù)形圖中容易得到下面的分析結(jié)果:對(duì)手機(jī)更換次數(shù)來(lái)講,表現(xiàn)顯著的變量有:地理位置、職業(yè)、民族、教育程度、健康狀況的影響以及黨派觀(guān)念六個(gè)變量,由于我們的目標(biāo)在于更換手機(jī)較為頻繁的人群。因此,容易我們找到下面三種特征的人群(重度更換人群):1、 地處臺(tái)中和臺(tái)南、無(wú)黨派或?qū)φ尾桓信d趣的家庭主婦或退休人員,為更換兩次以上手機(jī)的高發(fā)人群,具體傾向估計(jì)為88.1% 。2、 原住民、外省籍,稍有政治傾向的學(xué)生、白領(lǐng)、公務(wù)員,有較高的對(duì)更換兩次以上手機(jī)有較高的更換傾向。3、 臺(tái)北一帶學(xué)生、白領(lǐng)人員,是對(duì)電磁輻射較為敏感的人群,他們有較高的更換傾向。4、 擁護(hù)民進(jìn),以及保持中立的高雄等南方一帶。5、 居住在臺(tái)南、臺(tái)中、云村、臺(tái)東等地,學(xué)歷一般,對(duì)政治不感興趣的家庭主婦和白領(lǐng)人員。6、 居住在新竹、臺(tái)中、臺(tái)南,大學(xué)及以上,20-29,40-49歲的白領(lǐng)和高級(jí)技術(shù)人員。7、 居住在北部,擁護(hù)新黨的人群。5、目前沒(méi)有手機(jī)的潛在客戶(hù)項(xiàng)目第1群第3群第3群教育程度a29高中、大專(zhuān)及以上職業(yè)a32軍公教、民營(yíng)企業(yè)白領(lǐng)上班族、專(zhuān)業(yè)技術(shù)人員醫(yī)師、律勞力工作者包括技工黨派a28年齡a2730-39、40-49,50-5940-49,50-59政治信仰a31主流黨派4、5、6非主流黨派主流黨派民族a30本省閩南 外省籍客家、外省戶(hù)籍地理所在地a33 人數(shù)比例61%12%27% 表11 目前沒(méi)有手機(jī)的潛在客戶(hù)類(lèi)型從上面的分類(lèi)中,發(fā)現(xiàn)88%的非手機(jī)用戶(hù)的年齡在中年,政治信仰集中在主流黨派,這個(gè)年齡群體值得注意。6、目標(biāo)客戶(hù)群的偏好分析 在這一部分,我們將重點(diǎn)研究不同品牌的手機(jī)和他們?cè)谑謾C(jī)功能上的滿(mǎn)意度評(píng)價(jià)之間的關(guān)系,首先,我們?cè)谏弦还?jié)分析的基礎(chǔ)上,找到我們感興趣的潛在客戶(hù)群,比如對(duì)于第6組,女性小資類(lèi)我們使用的工具是多維標(biāo)度法,分別找到這類(lèi)人群在手機(jī)各滿(mǎn)意度上的平均得分(平均的計(jì)算按中位數(shù)),如表1。各個(gè)不同品牌的手機(jī)和他們?cè)谑謾C(jī)功能上的滿(mǎn)意度評(píng)價(jià):MOTOROLANOKIAERICSSONSAGENPANASONICACER功能21365 4收訊能力413265整體256134外型412365輻射3125641) 各變量評(píng)價(jià)總平均整合如下圖:根據(jù)變量總平均計(jì)算距離矩陣如下:Proximity MatrixMOTOROLANOKIAERICSSONSAGENPANASONICACERMOTOROLA2.088

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論