【基于K-Means聚類算法的航空客戶的價值探析12000字(論文)】_第1頁
【基于K-Means聚類算法的航空客戶的價值探析12000字(論文)】_第2頁
【基于K-Means聚類算法的航空客戶的價值探析12000字(論文)】_第3頁
【基于K-Means聚類算法的航空客戶的價值探析12000字(論文)】_第4頁
【基于K-Means聚類算法的航空客戶的價值探析12000字(論文)】_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于K-Means聚類算法的航空客戶的價值分析摘要二十世紀(jì)90年代開始,互聯(lián)網(wǎng)不斷發(fā)展,企業(yè)的工作重心逐漸從產(chǎn)品轉(zhuǎn)移到客戶。企業(yè)想要獲得更大的利潤,就要服務(wù)好客戶。建立以客戶為核心的營銷體系是最為重要的,利用數(shù)據(jù)挖掘的相關(guān)技術(shù)去分析數(shù)據(jù)背后的特征,將客戶進行詳細(xì)分類,對建立和完善企業(yè)營銷體系尤為重要。本文針對航空客戶數(shù)據(jù)采用數(shù)據(jù)挖掘技術(shù),分析客戶價值屬性指標(biāo),在對傳統(tǒng)CRM模型進行優(yōu)化改進的基礎(chǔ)上,建立了由消費時間間隔、客戶關(guān)系長度、消費頻率、飛行里程以及平均折扣率五個指標(biāo)組成的LRMFC模型。借助K-Means聚類算法,建立了航空客戶價值細(xì)分模型,將客戶群體分為五類:重要保持客戶、重要發(fā)展客戶、重要挽留客戶、一般客戶以及低價值客戶。最終對五種群體進行價值排名,并提出了會員制度、盲盒促銷和差異化管理三種策略,從而為企業(yè)在客戶價值管理方面提供有效的幫助。關(guān)鍵詞:航空客戶;數(shù)據(jù)挖掘;價值分析;K-Means聚類算法目錄TOC\o"1-3"\h\u18128摘要 128253Abstract 222521第一章緒論 5293871.1.研究背景及意義 5292031.1.1.研究背景 5166241.1.2.研究意義 5313381.2.研究現(xiàn)狀 5305231.3.研究內(nèi)容和組織結(jié)構(gòu) 629368第二章相關(guān)理論基礎(chǔ) 685432.1.數(shù)據(jù)挖掘綜述 633952.1.1.定義 642212.1.2.功能 7263182.1.3.工具 7260592.2.基于數(shù)據(jù)挖掘的客戶價值管理體系 8156662.2.1.CRM理論綜述 8274772.2.2.RFM模型綜述 9285682.3.聚類分析綜述 9296302.3.1.聚類分析的定義 10157872.3.2.聚類分析的算法 10314第三章K-Means聚類算法 1195343.1.K均值聚類模型 11135823.2.距離度量 12312873.2.1.歐式距離 12215963.2.2.曼哈頓距離 12293773.2.3.余弦相似度 13215093.2.4.切比雪夫距離 13291993.3.質(zhì)心計算 13114933.4.K值選取 14282123.4.1.手肘法 147023.4.2.輪廓系數(shù)法 1429161第四章基于K-Means聚類算法的航空客戶的價值分析 15152314.1.挖掘目標(biāo) 152984.1.1.分析方法與過程 15209464.1.2.數(shù)據(jù)抽取 1682104.1.3.探索性分析 17176874.2.數(shù)據(jù)預(yù)處理 18300594.2.1.數(shù)據(jù)清洗 19230934.2.2.數(shù)據(jù)變換 2037734.2.3.屬性規(guī)約 21153294.3.模型構(gòu)建 22148274.3.1.客戶聚類 22159624.3.2.客戶價值分析 27185874.4.模型應(yīng)用 28270374.4.1.會員制度 29296924.4.2.盲盒促銷 30180784.4.3.管理模式 302987結(jié)論 313864參考文獻 32緒論研究背景及意研究背景隨著通信技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,世界經(jīng)濟進入了全球化、電子化的時代。在當(dāng)今激烈競爭的商業(yè)環(huán)境中,競爭對手的增加、業(yè)務(wù)的多樣化和全球化使得企業(yè)間的競爭急劇增強REF_Ref4479\n\h[1]。傳統(tǒng)的以“產(chǎn)品為中心”,以銷售貨物為目標(biāo)的形式已經(jīng)逐漸被以“客戶為中心”,以服務(wù)為宗旨的目標(biāo)所取代。企業(yè)要想在激烈的競爭中長盛不衰,就必須采用多種方法與同客戶進行有效的交流獲取其行為數(shù)據(jù)和相關(guān)信息,從而有效的發(fā)掘和管理客戶資源來獲取更大的利潤REF_Ref25594\n\h[17]。目前,傳統(tǒng)的信息系統(tǒng)產(chǎn)生大量的信息,但是這些信息僅僅局限于表面的記載,沒有深度的分析,企業(yè)面對海量的數(shù)據(jù)只能憑經(jīng)驗辦事,對客戶價值挖掘的研究僅附帶于客戶關(guān)系管理中REF_Ref21401\n\h[7]。近年來,航空公司飛速增加與高速發(fā)展,加劇了航空市場的競爭,各大航空公司紛紛推行各種營銷對策以提升其競爭地位REF_Ref17793\n\h[9]。對航空客戶價值進行細(xì)分,為不同類型用戶提供定制化的服務(wù),制定精準(zhǔn)化的營銷策略,對實現(xiàn)航空公司在有限資源情況下的利潤最大化具有重要的意義REF_Ref17793\n\h[9]。隨著數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)的興起,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于客戶的價值管理逐漸成為研究熱點REF_Ref14361\n\h[8]。為此,本課題以某航空公司的客戶信息數(shù)據(jù)為研究對象,開展基于數(shù)據(jù)挖掘技術(shù)的航空客戶價值管理研究。研究意義市場競爭逐漸激烈,航空公司要想抓住客戶,提升企業(yè)效益,就必須深挖客戶數(shù)據(jù),研究客戶價值,提升客戶滿意度。企業(yè)只有在不斷地分析客戶價值的同時,也要盡可能地滿足不同客戶的需求,制定個性化的營銷方案,使得客戶對企業(yè)的忠誠度和依賴性不斷上升?;贙均值聚類的航空客戶價值分析,可以給大多數(shù)航空公司帶來便利,幫助他們發(fā)掘隱藏客戶,準(zhǔn)確發(fā)現(xiàn)高價值客戶,為企業(yè)提供有效的技術(shù)支持,也為整個航空業(yè)的發(fā)展帶來一定的幫助。研究現(xiàn)狀文獻REF_Ref4730\n\h[22]中以臺灣航空旅客市場為例進行實證,利用數(shù)據(jù)挖掘技術(shù)為航空公司發(fā)現(xiàn)有價值旅客的模型。目的是為當(dāng)?shù)睾娇展镜臓I銷或客戶關(guān)系管理系統(tǒng)尋找高價值的市場。文獻REF_Ref4479\n\h[1]中基于數(shù)據(jù)挖掘?qū)χ行∩虡I(yè)銀行的客戶價值進行研究,提出現(xiàn)在企業(yè)要想獲得勝利的關(guān)鍵在于對客戶關(guān)系的管理,要深刻的認(rèn)識到客戶的價值所在??蛻糇鳛槠髽I(yè)的一種有價值的資源,但是并不是所有的客戶都能為企業(yè)帶來價值,因此有必要對客戶價值進行評價,從而找出為企業(yè)帶來效益的有價值的客戶。文獻REF_Ref14361\n\h[8]基于數(shù)據(jù)挖掘的農(nóng)商行客戶關(guān)系管理,利用數(shù)據(jù)挖掘技術(shù),加強了優(yōu)質(zhì)客戶的培育,提高了客戶的粘稠度和忠誠度。從大數(shù)據(jù)對農(nóng)商行客戶關(guān)系管理的意義入手,分析了現(xiàn)狀以及重點,提出了基于數(shù)據(jù)挖掘的農(nóng)商行優(yōu)質(zhì)客戶培育和維護的策略。文獻REF_Ref17793\n\h[9]研究利用數(shù)據(jù)挖掘技術(shù)、聚類方法,建立客戶分析模型,通過對微信客戶數(shù)據(jù)庫的挖掘、進行客戶細(xì)分,可以獲得重要保持客戶類型,幫助企業(yè)提取數(shù)據(jù)中潛在的商業(yè)價值,從而改變企業(yè)營銷策略或者產(chǎn)品方向,對客戶數(shù)據(jù)的深入分析可以為智能服務(wù)提供支持,期望發(fā)掘更大的應(yīng)用前景。文獻REF_Ref17871\n\h[14]本文通過分析精細(xì)化市場管理的核心內(nèi)容和特點,結(jié)合全球經(jīng)濟的發(fā)展和我國企業(yè)的戰(zhàn)略營銷管理,探討了精細(xì)化市場營銷戰(zhàn)略在企業(yè)經(jīng)營過程中,特別是在煉油分銷行業(yè)中的應(yīng)用。研究內(nèi)容和組織結(jié)構(gòu)本文采用數(shù)據(jù)挖掘的技術(shù),以航空公司為研究對象,將K-Means聚類算法應(yīng)用于航空企業(yè)客戶價值分析,并提出相應(yīng)建議本項目將研究和討論以下方面:將CRM(客戶關(guān)系管理)、RFM等客戶價值分析理論與航空客戶數(shù)據(jù)相結(jié)合,構(gòu)建航空客戶價值分析模型。對數(shù)據(jù)進行缺失值、異常值處理以及數(shù)據(jù)清洗、屬性規(guī)約、數(shù)據(jù)變換的操作。構(gòu)建聚類模型,并分析不同類型客戶價值。根據(jù)結(jié)果針對不同的客戶人群制定相應(yīng)的營銷戰(zhàn)略。

相關(guān)理論基礎(chǔ)數(shù)據(jù)挖掘綜述定義從技術(shù)角度上看,數(shù)據(jù)挖掘就是從海量的、不完整的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取隱藏的、未知、但具有潛在價值信息的過程。從商業(yè)角度上看,數(shù)據(jù)挖掘又是一種先進的處理信息的技術(shù)。以往,收集數(shù)據(jù)的目的主要用在科學(xué)研究上面,同時,當(dāng)時的計算能力也很薄弱,對于海量數(shù)據(jù)的分析能力十分有限?,F(xiàn)在,計算能力的提升使得數(shù)據(jù)分析不再是局限于科學(xué)研究方面,對于企業(yè)而言,利用數(shù)據(jù)挖掘技術(shù)處理客戶數(shù)據(jù),分析出有價值的東西,進而提升企業(yè)效益。功能通過數(shù)據(jù)挖掘的技術(shù),可以對還未發(fā)生的行為作出預(yù)測,做出具有科學(xué)依據(jù)的決定。其主要的目標(biāo)是從海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的,具有價值的信息,其主要功能分為五類:預(yù)測通過數(shù)據(jù)挖掘技術(shù),我們可以在龐大數(shù)據(jù)庫中發(fā)現(xiàn)有價值的信息,找出發(fā)展的規(guī)律,進而對未來事物的發(fā)展做出的預(yù)測。例如:對若干年后經(jīng)濟發(fā)展的預(yù)測關(guān)聯(lián)分析尋找海量數(shù)據(jù)中的相關(guān)性,假如幾個數(shù)據(jù)之間存在某種規(guī)律,那么就可以說這幾個數(shù)據(jù)之間有關(guān)聯(lián)。關(guān)聯(lián)分析中常用的技術(shù)是關(guān)聯(lián)規(guī)則和列序模式。前者是找出在同一個事情中出現(xiàn)不同項目的相關(guān)性;后者則是尋找出事件之間時間上的相關(guān)性。例如:股市行情的預(yù)測,基金的漲跌聚類是指將數(shù)據(jù)依據(jù)一定的規(guī)則分為若干個不同的群組。組與組之間存在很大的區(qū)別,而組內(nèi)的數(shù)據(jù)差別不大。這種方法主要在客戶細(xì)分方面應(yīng)用。通過細(xì)分可以將具有相似特征的客戶分為一個群體,例如性別、年齡等。并根據(jù)結(jié)果制定針對性的營銷方案。數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)的主要目的是對匯總進行細(xì)化,對其內(nèi)涵概括說明。常用的方法如求和法,求平均值法,直方圖,餅狀圖等形式來表示。偏差檢測偏差檢測是指對異常的數(shù)據(jù)進行檢測,發(fā)現(xiàn)其內(nèi)在的問題,進而解決問題。例如在銀行的交易數(shù)據(jù)中發(fā)現(xiàn)異常的交易記錄,可能是存在犯罪行為,所以銀行為了安全起見,就要去研究產(chǎn)生這些異常記錄的內(nèi)在原因,減小風(fēng)險工具數(shù)據(jù)挖掘的工具主要分為四類:基于神經(jīng)網(wǎng)絡(luò)現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)應(yīng)用越來越廣泛,一個可以從訓(xùn)練中學(xué)習(xí)的非線性預(yù)測模型可以完成許多數(shù)據(jù)提取任務(wù),如分類、分組、挖掘等?;跊Q策樹采用樹形結(jié)構(gòu)來表示,通過對數(shù)據(jù)集進行分類產(chǎn)生規(guī)則。決策樹法作為一種決策技術(shù),常見的決策樹方法有CART,主要在企業(yè)中應(yīng)用。遺傳算法它以生物進化的概念為基礎(chǔ),通過不斷的優(yōu)化來實現(xiàn)目標(biāo),遺傳重組、交叉、變異和自然選擇是主要的過程,將遺傳算法應(yīng)用于數(shù)據(jù)提取時,必須將任務(wù)轉(zhuǎn)化為研究問題。規(guī)則歸納通過統(tǒng)計方法總結(jié)有價值的if-then規(guī)則,例如提取相關(guān)規(guī)則的挖掘算法。基于數(shù)據(jù)挖掘的客戶價值管理體系CRM理論什么是客戶關(guān)系管理(customerrelationsmanagement,CRM)?簡單來說,就是以客戶為中心,掌握有價值的信息,增加客戶對企業(yè)的依賴程度,從而為企業(yè)帶來更高的效益的一種策略。企業(yè)客戶關(guān)系管理的基本理論主要包括以下幾點。關(guān)系營銷理論。這個概念是由美國教授倫納德L。貝瑞在1983年的一份報告中,提出了這樣一個定義:“營銷關(guān)系就是吸引、維持和改善客戶關(guān)系”。杰克遜證明了這一點;關(guān)系營銷的重點是吸引、發(fā)展和維護與顧客的關(guān)系,在營銷關(guān)系理論中最重要的是與消費者、供應(yīng)商、零售商、競爭對手、政府和其他利益相關(guān)者的互動,建立長期的信任和互利關(guān)系,其目的是不斷增加顧客對公司的依賴,只有當(dāng)公司的產(chǎn)品和服務(wù)滿足顧客的愿景,讓顧客達到預(yù)期的目的,顧客才能依賴公司。可以看出,如何讓客戶更滿意是最重要的問題,而實現(xiàn)這一目標(biāo)最重要的一步就是找到真正有價值的客戶,他們不僅可以給公司帶來短期的利潤,它也可以作為一種廣告效應(yīng),向更多的人推薦商業(yè)服務(wù),從長遠(yuǎn)來看,我們必須在客戶關(guān)系上下功夫,這樣才能有更多的客戶。一對一服務(wù)。顧名思義,一對一服務(wù)是一種個性化的私人服務(wù),讓顧客體驗貼心的護理。服務(wù)人員為客戶提供一對一的服務(wù),全心全意幫助客戶,建立長期的友誼,作為一個企業(yè),你需要了解不同的客戶,不同的客戶需求是不一樣的,所以我們可以為不同的客戶開發(fā)定制化的服務(wù),以提高客戶滿意度。隨著大數(shù)據(jù)時代的到來,我們的生活每天都會產(chǎn)生大量的數(shù)據(jù)。作為一家公司,充分利用這些數(shù)據(jù)可以幫助您快速找到目標(biāo)客戶和市場機會,并根據(jù)不同客戶的不同需求制定更準(zhǔn)確的營銷策略??蛻舻纳芷谥饕譃樗膫€階段,第一階段:調(diào)查階段,這一階段是關(guān)系的測試階段,在這一階段,雙方嘗試著相互探討。如果經(jīng)營業(yè)績達到顧客的基本指標(biāo),顧客就會購買公司的產(chǎn)品或服務(wù),使公司與顧客開始溝通和建立聯(lián)系;第二階段:培訓(xùn)階段,關(guān)系的快速發(fā)展,進入這一階段,說明雙方在上一階段對對方都很滿意,并建立了一定程度的信任和依賴。第三階段:穩(wěn)定時期,是關(guān)系發(fā)展的最高階段,這一階段具有以下明顯的特點:雙方對對方提供的價值都非常滿意;為了保持穩(wěn)定的長期關(guān)系,雙方進行了大量的物質(zhì)和無形投資;交往更加頻繁,在這段時間里,雙方的關(guān)系變成了“你有我,我有你”的形式,雙方的關(guān)系趨于穩(wěn)定,此時公司將以較少的投入獲得更多的利潤。第四階段:退化階段,即關(guān)系發(fā)展過程中關(guān)系水平的逆轉(zhuǎn)階段,減少操作次數(shù)是退化期的主要特征;RFM模型在眾多的客戶關(guān)系管理(customerrelationsmanagement,CRM)的分析模式中,RFM模型是最為常見的。該模型不僅可以用來評估客戶的價值,還可以用來評估客戶創(chuàng)造價值的能力。該模型通過三項指標(biāo)來描述客戶的價值。在RFM模型中,R(Recency)表示客戶最近一次購買行為發(fā)生的時間距今的長度,F(xiàn)(Frequency)表示最近一段時間購買的總數(shù),M(Monetary)表示客戶在這一時間產(chǎn)生的消費量。一般的分析模型CRM側(cè)重于結(jié)果的分析,RFM則更側(cè)重于消費的過程。下面我們對R(Recency)、F(Frequency)、M(Monetary)做出解釋:最近一次消費(Recency)最近一次消費是指客戶最近一次發(fā)生購買行為距今的長度。我們直觀地認(rèn)為,如果客戶的最后一次購買行為比較接近,那么我們可以認(rèn)為這個客戶的購買行為比較好。也就是說這個客戶的價值也就越高。假如我們給客戶推薦最新上市的產(chǎn)品或者新的服務(wù),那么客戶接受我們的推銷的可能性也就越大,從而選擇我們的產(chǎn)品或者接受我們的服務(wù)。作為營銷人員,我們要多向這類客戶推薦我們最新的產(chǎn)品和服務(wù),這樣而來,我們企業(yè)的業(yè)績才會不斷提升,才能在市場中取得更大的占有率。所以作為企業(yè)的營銷人員,要密切關(guān)注消費者消費行為的和購買行為,并且更加關(guān)注那些有價值的客戶。從過去的角度來看,如果我們能成功勸說消費者購買我們的產(chǎn)品或者選擇我們的服務(wù),那么客戶將繼續(xù)為我們公司帶來利益。所以我們的工作重心要放在還沒有對我們產(chǎn)品和服務(wù)進行消費的人群,將他們轉(zhuǎn)化為我們的老客戶,而對我們本身擁有的老客戶,我們也要稍加用心維護。消費頻率(Frequency)消費頻率是指最近一段時間購買的總數(shù)。一般來說,顧客消費的越多,顧客對產(chǎn)品就越滿意。比如說一個客戶經(jīng)常去李寧店里購買衣服、鞋子,說明該客戶對李寧產(chǎn)品的滿意度很大。所以說購買頻率越高的用戶對產(chǎn)品的滿意度越大。因此作為企業(yè)要不斷提高產(chǎn)品的質(zhì)量,作為營銷人員要不斷維護現(xiàn)有客戶、發(fā)掘潛在客戶。消費金額(Monetary)表示顧客在這一段時間所產(chǎn)生的消費量。這項指標(biāo)是統(tǒng)計數(shù)據(jù)數(shù)據(jù)中最為重要的一項。通過觀察后我們發(fā)現(xiàn),我們可以將工作重點放在貢獻度高的客戶身上,重點拜訪和聯(lián)系,以最有效的方式獲取最大的利潤。最近一次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)這三項指標(biāo)對營銷人員的活動具有非常重要的指導(dǎo)意義。聚類分析綜述隨著科學(xué)技術(shù)以及互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,每天都會產(chǎn)生很多的數(shù)據(jù),聚類分析就是從海量的數(shù)據(jù)中獲取我們想要的。依靠聚類分析的多種方法理論,使數(shù)據(jù)挖掘變?yōu)榱丝赡堋>垲惙治鍪且环N模擬人類行為來分析數(shù)據(jù)的方法。這是一個無監(jiān)督的學(xué)習(xí)過程。它不基于訓(xùn)練數(shù)據(jù)集,可以獨立確定類別標(biāo)簽,將數(shù)據(jù)集中相似的對象收集到一個類中,得到數(shù)據(jù)分布,通過觀察每類數(shù)據(jù)的特征,重點對這類數(shù)據(jù)進行進一步的分析。聚類分析的定義聚類分析是指通過對于輸入的對象集合進行分組化操作,并將分組后的類進行分析的過程。分組聚類過程最重要的考慮因素是對象之間的相似程度,同一個類中的對象擁有高相似性,與其它類有著較高的相異性。聚類分析的算法近年來,隨著數(shù)據(jù)集的日益龐大,相比于硬件方面提升已經(jīng)趨近極限外,不斷的修改完善我們的聚類算法成為新的研究重點,不同側(cè)重點的算法被不斷地提出改進,以適應(yīng)不同形勢下的需求。聚類分析算法主要分為四個方面:基于劃分的聚類算法、基于層次聚類算法、基于密度的聚類算法、基于網(wǎng)絡(luò)的聚類算法?;趧澐值木垲愃惴ɑ趧澐值木垲愃惴?,常見于機器學(xué)習(xí)應(yīng)用上,它的原理是通過將設(shè)置微分函數(shù),首先將輸入數(shù)據(jù)集進行劃分,其次在使用這個結(jié)果通過不斷的循環(huán)迭代,持續(xù)的改進,最終對目標(biāo)函數(shù)進行優(yōu)化?;趯哟蔚木垲愃惴ㄟ@類算法首先計算每個樣本之間的距離,并對類中最近的點進行分類,然后計算類之間的距離,將最近的類分類為一個大類,繼續(xù)合并,直到它成為一個類。其主要方法有,計算最短距離,最長距離,中間距離等。這類算法的優(yōu)點在于可以不用設(shè)置分組數(shù)量,組與組之間的關(guān)系能夠清楚的表述。但是自身也有一定的局限性。其一是在分析的過程中,形成上一層次的組后,在其后的分析過程中不能自己調(diào)試;其二是該算法在分析大量繁多的數(shù)據(jù)時候效率不高?;诿芏鹊木垲愃惴ㄖ饕歉鶕?jù)密度來對數(shù)據(jù)進行判斷,與基于相似度的算法不同,這類算法可以通過對數(shù)據(jù)分布的不同密度,將其分割成不同的組類并將其分成不同的形狀,同時也能夠很好的清除噪聲。基于網(wǎng)格的聚類算法這類算法最重要的功能是可以將計算的效率大幅度的提升,將網(wǎng)絡(luò)單元的數(shù)量大小作為時間復(fù)雜度的計算,但由于自身的局限性,無法對于斜側(cè)邊界聚類進行檢測。下面是sklearn中對各種聚類算法的比較。圖3-SEQ圖3-\*ARABIC1sklearn中對各種聚類算法的比較

K-Means聚類算法K均值聚類模型聚類算法的種類有很多,其中最為廣泛使用的是K-Means算法,其中K表示的是聚類為K個簇,means表示取每一個聚類中數(shù)據(jù)值的均值作為該簇的中心,或者稱為質(zhì)心,即用每一個的類的質(zhì)心對該簇進行描述。主要思想是:首先從樣本集中選取k個樣本作為簇中心,并且計算每個樣本與這k個簇中心的距離,然后將其劃分到距離最近的簇中心所在的簇中,然后再計算各個簇的簇中心。因此我們總結(jié)出K-Means聚類算法的主要內(nèi)容:確定簇的個數(shù)k計算出每個樣本到簇中心的距離將其劃分到距離最近的簇中,更新簇中心重復(fù)上面的(2)、(3)過程,直到簇中心不再移動其優(yōu)勢在于效率高,且容易實現(xiàn),可處理海量的數(shù)據(jù)。但是也存在一些缺點,例如在收斂時可能會產(chǎn)生局部最優(yōu)解,或者在處理大量數(shù)據(jù)時收斂的速度下降。在實際的應(yīng)用中,K-Means算法往往利用在客戶價值的管理和分析上。在實際操作中,最重要的是簇中心選擇,假如選擇不好就會使得結(jié)果不具有代表性。對于這一問題,為了使得結(jié)果更具代表性,我們怎么做呢?使用不一樣的初始聚類為中心,不斷地使用K-Means算法。距離度量歐式距離是一種最為直觀的、最易理解的距離度量的方法。例如空間中兩個點之間的距離就指的是歐氏距離。如圖3-3表示的就是空間中A,B兩點的歐氏距離。圖3-SEQ圖3-\*ARABIC2A,B兩點的歐氏距離在n維空間中其公式為:(3-4)曼哈頓距離曼哈頓距離,表示的就是在街區(qū)駕車從一個地方到另一個地方的實際駕駛距離。曼哈頓距離也稱作為是“城市街區(qū)距離”。用來計算實值向量之間的距離。圖3-3表示曼哈頓距離圖3-SEQ圖3-\*ARABIC3曼哈頓距離在二維平面上的兩點與之間的曼哈頓距離:(3-5)在n維空間上的兩點的曼哈頓距離為:)(3-6)余弦相似度相當(dāng)于計算向量夾角的余弦值,并以此來作為兩個衡量相似度的大小。在二維空間中的向量A與向量B的夾角余弦公式為:(3-7)對于兩個n維的樣本點和的夾角余弦為:(3-8)切比雪夫距離切比雪夫距離是指兩個向量在任意坐標(biāo)維度上的最大差值。在二維平面中的兩點和之間的切比雪夫距離可表示為:(3-9)在n維空間中的兩點與之間的切比雪夫距離表示為:(3-10)切比雪夫距離通常只能使用在特殊的例子中,不像歐氏距離和余弦相似度可作為通用的距離度量,所以在使用時要先確定是否適用。質(zhì)心計算對于分類后產(chǎn)生的k個簇,分別計算到簇內(nèi)其他點距離均值最小的點作為質(zhì)心。K值選取手肘法隨著k的增大,樣本的劃分更加精細(xì),那么所有樣本的聚類誤差SSE會逐漸減小,計算公式為:(3-11)當(dāng)選取的k值小于真實的聚類數(shù)時,k的增加會對聚類的效果產(chǎn)生很大的影響,所以SSE下降的幅度很大;當(dāng)選取的k值大于真實的聚類數(shù)時,k的增加不會對聚類的效果有太大的影響,所以SSE下降的幅度不是很大,整個SSE-K圖會呈現(xiàn)一個手肘的樣子。所以拐點處對應(yīng)的數(shù)值就是我們要找的k值。圖3-SEQ圖3-\*ARABIC4SSE-K圖此時的k=4。輪廓系數(shù)法類中樣本的距離越近,類間樣本的距離越遠(yuǎn),聚類的效果越好。用平均輪廓系數(shù)來衡量。方法:計算樣本i到同簇其他樣本的平均距離a(i)。a(i)越小,說明樣本類中的不相似度越低,那么它的凝聚度就越高,更應(yīng)該聚為一類計算樣本到其他類中所有樣本的平均距離b(i)。b(i)越大,說明類間的不相似度越高,那么它的分離度就越高,越不該聚為一類定義樣本i的輪廓系數(shù):(3-2)(3-3)總結(jié):s(i)越接近1,說明樣本i聚類合理s(i)越接近-1,說明樣本i聚類不合理,更應(yīng)該分類到其他簇中s(i)越接近0,說明樣本i在兩個簇的邊界上基于K-Means聚類算法的航空客戶的價值分析挖掘目標(biāo)隨著國家政策的扶持和經(jīng)濟的高速發(fā)展,機場和航空公司的數(shù)量在未來的會有井噴式的增長,市場的競爭將會越來越激烈,各大航空公司為了能在這場戰(zhàn)爭中獲得一席之地或者成為其中的領(lǐng)頭羊,紛紛使出渾身解數(shù)想出各種營銷對策。營銷的重點逐漸從“產(chǎn)品為中心”轉(zhuǎn)變?yōu)橐浴翱蛻魹橹行摹?。特別的是,針對不同的顧客群體進行分類管理,為不同類型的顧客提供定制化的解決方案,將有限的資源集中于高價值的客戶。因此,如何對客戶進行合理的分類成為了管理中亟待解決的關(guān)鍵問題。我們以某航空公司的客戶數(shù)據(jù)為數(shù)據(jù)集,對數(shù)據(jù)集進行如下處理:利用航空公司客戶數(shù)據(jù),對客戶進行分類對不同類型的客戶進行特征分析,比較不同類型客戶的價值對不同價值的客戶類別進行個性化的服務(wù),并指定相應(yīng)的營銷策略分析方法與過程首先,我們要了解這次的實驗?zāi)康氖欠治隹蛻魞r值。分析客戶價值,最為實用的是三種指標(biāo):消費時間間隔(Recency),消費頻率(Frequency),消費金額(Monetary)。這三種指標(biāo)簡稱為RFM模型,其作用是分析出價值高的客戶群體。但這個模型又有自身的局限性,并不是所有的行業(yè)都可以使用RFM模型。但我們在使用的時候會發(fā)現(xiàn),該模型也存在一定的局限性。所以我們要改進模型,進而確定了五個指標(biāo),R(消費時間間隔),L(客戶關(guān)系長度),F(xiàn)(消費頻率),M(飛行里程)和C(折扣系數(shù)的平均值)。這些指標(biāo),我們來作為航空公司識別客戶價值指標(biāo),我們把它稱為LRFMC模型。因此,本次實驗課題,利用聚類的辦法進行識別客戶價值,采用改進后的LRFMC模型。本次案例航空客戶價值分析的總體流程如圖4-1所示圖4-SEQ圖4-\*ARABIC1航空客戶價值分析的總體流程航空客戶信息挖掘主要包括以下步驟:從航空公司的數(shù)據(jù)集中,有選擇地提取數(shù)據(jù)并添加數(shù)據(jù)以生成歷史數(shù)據(jù)和新數(shù)據(jù)對第一階段的兩個數(shù)據(jù)集,進行數(shù)據(jù)探索性分析和預(yù)處理,主要操作有缺失值與異常值的分析處理,屬性規(guī)約、數(shù)據(jù)清洗和數(shù)據(jù)變換。對第二階段中的已處理數(shù)據(jù)為依據(jù)進行建模,利用LRFMC模型進行顧客分類,對各個客戶群再進行特征分析,識別出有價值顧客。根據(jù)模型的結(jié)果,我們可以獲得不同價值的客戶,使用不同的營銷手段,制定個性化的營銷方案。數(shù)據(jù)抽取本課題采用理論和實驗研究相結(jié)合的方法。首先,通過數(shù)據(jù)清洗,屬性規(guī)約,缺失值處理等方式對在kaggle上提取的某航空公司的客戶信息進行預(yù)處理,將客戶關(guān)系時長L,最近消費的時間間隔R,客戶消費頻率F,客戶總飛行里程M,客戶所享受的平均折扣率C作為特征值,得到處理后的數(shù)據(jù)集;其次對特征值進行標(biāo)準(zhǔn)化處理,使得各特征值的均值為0,方差為1;最后利用雷達圖,通過數(shù)據(jù)可視化的方式更為清晰直觀地了解數(shù)據(jù)基本特征,發(fā)現(xiàn)潛在的關(guān)系;根據(jù)某種度量方式,對數(shù)據(jù)挖掘出來的數(shù)據(jù)信息進行解釋和評價;分析整個過程可能存在的問題,優(yōu)化計劃。航空公司包含的客戶信息總共有44種屬性,具體的屬性對應(yīng)的含義如下圖4-2所示。圖4-SEQ圖4-\*ARABIC2各種屬性含義探索性分析首先導(dǎo)入數(shù)據(jù),代碼和部分結(jié)果如下圖4-3和圖4-4所示:圖4-SEQ圖4-\*ARABIC3導(dǎo)入數(shù)據(jù)代碼圖4-SEQ圖4-\*ARABIC4導(dǎo)入數(shù)據(jù)后的結(jié)果發(fā)現(xiàn)存在缺失值和異常值,例如票價,飛行里程等等。查找每列屬性觀測值中空值的個數(shù)、最大值、最小值的代碼和結(jié)果如下圖4-5和圖4-6所示:圖4-SEQ圖4-\*ARABIC5查找空值、最大值、最小值代碼圖4-SEQ圖4-\*ARABIC6查找后的結(jié)果數(shù)據(jù)預(yù)處理本課題的數(shù)據(jù)預(yù)處理方法包括數(shù)據(jù)清洗、屬性規(guī)約與數(shù)據(jù)變換數(shù)據(jù)清洗通過對數(shù)據(jù)的研究我們可以看到,發(fā)現(xiàn)在原始數(shù)據(jù)中有很多異常,例如機票價格為空,最低票價為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。分析后可以得出,票價為空可能是客戶不存在乘機記錄造成的。而其他的數(shù)據(jù)可能是客戶乘坐0折機票或者積分兌換機票造成的,又由于原始數(shù)據(jù)量大,這類數(shù)據(jù)占比很小,對問題的影響不大,所以考慮將此類數(shù)據(jù)清除,具體操作如下:丟棄票價為空記錄;丟棄票價為0、平均折扣率不為0、總飛行公里數(shù)大于0的記錄;數(shù)據(jù)清洗的代碼實現(xiàn)以及清洗結(jié)果分別如圖4-7、圖4-8、圖4-9所示:#只保留票價非零的,或者平均折扣率和總飛行公里數(shù)同時為0的記錄圖4-SEQ圖4-\*ARABIC7數(shù)據(jù)清洗代碼圖4-SEQ圖4-\*ARABIC8數(shù)據(jù)清洗后的結(jié)果圖4-SEQ圖4-\*ARABIC9數(shù)據(jù)清洗后的結(jié)果數(shù)據(jù)變換意思是,將原始數(shù)據(jù)轉(zhuǎn)換成合適的形式,用來適應(yīng)算法和分析等等的需要。本課題,主要采用數(shù)據(jù)變換的方式為屬性構(gòu)造和數(shù)據(jù)標(biāo)準(zhǔn)化。由圖4-11可以看出不同屬性的取值范圍差異較大,這種情況會導(dǎo)致模型在學(xué)習(xí)的時候可能會對不同的屬性有著錯誤的重要性衡量。因此,我們要讓不同屬性的取值范圍一致,即數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的方法有極大極小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化等方法,這里我們采用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的方法對數(shù)據(jù)進行處理。對特征進行標(biāo)準(zhǔn)化,使得各特征值的均值為0,方差為1。處理后的結(jié)果如下圖4-10、4-11所示:圖4-SEQ圖4-\*ARABIC10標(biāo)準(zhǔn)化代碼圖4-SEQ圖4-\*ARABIC11標(biāo)準(zhǔn)化后的結(jié)果屬性規(guī)約考慮到原始數(shù)據(jù)中的屬性有44種,并不是全都需要。依據(jù)上述的分析,我們構(gòu)建的LRFMC模型,我們只選擇與課題研究相關(guān)的屬性,刪除其他不相關(guān)屬性,現(xiàn)在需要構(gòu)造LRFMC的六個指標(biāo):L:客戶關(guān)系時長R:最近消費時間間隔F:客戶消費頻率M:客戶總飛行里程C:客戶所享受的平均折扣率LRFMC對應(yīng)到數(shù)據(jù)集的字段分別為:L=LOAD_TIME-FFP_DATER=LAST_TO_ENDF=FLIGHT_COUNTM=SEG_KM_SUMC=avg_discount屬性規(guī)約的代碼和結(jié)果分別如圖4-12和4-13所示圖4-SEQ圖4-\*ARABIC12屬性規(guī)約代碼圖4-SEQ圖4-\*ARABIC13屬性規(guī)約后的結(jié)果模型構(gòu)建客戶價值分析模型構(gòu)建主要有兩個部分組成,第一部分是對經(jīng)過模型處理后的數(shù)據(jù)分類;第二部分是分析各客戶群的特點以及客戶的價值。客戶聚類利用K-Means聚類算法對客戶數(shù)據(jù)進行客戶分群,計算兩個向量的歐式距離的平方;計算不同的k值時,SSE的大小變化,找出合適的k值。圖4-SEQ圖4-\*ARABIC14計算k值圖4-SEQ圖4-\*ARABIC15圖4-SEQ圖4-\*ARABIC16SSE-K通過對折線圖的觀察,并沒有發(fā)現(xiàn)“手肘法”中的拐點存在,經(jīng)過多次試驗,發(fā)現(xiàn)當(dāng)k=5時,聚類的效果最好。所以我們將客戶分為五類。圖4-SEQ圖4-\*ARABIC17客戶群特征分析圖當(dāng)k=5時,客戶聚類的代碼實現(xiàn)和結(jié)果如下圖4-18、圖4-19所示:圖4-SEQ圖4-\*ARABIC18客戶聚類代碼圖4-SEQ圖4-\*ARABIC19客戶聚類后的代碼圖4-SEQ圖4-\*ARABIC20繪制特征分析圖代碼圖4-SEQ圖4-\*ARABIC21客戶特征圖分析圖繪制折線圖,代碼和結(jié)果分別對應(yīng)圖4-22以及4-23、4-24、4-25、4-26、4-27,橫坐標(biāo)分別代表屬性L、R、F、M、C,縱坐標(biāo)對應(yīng)的數(shù)值表示該屬性對應(yīng)的程度。圖4-SEQ圖4-\*ARABIC22數(shù)據(jù)可視化代碼圖4-SEQ圖4-\*ARABIC23客戶群0圖4-SEQ圖4-\*ARABIC24客戶群1圖4-SEQ圖4-\*ARABIC25客戶群2圖4-SEQ圖4-\*ARABIC26客戶群3圖4-SEQ圖4-\*ARABIC27客戶群4客戶群0:red,客戶群1:green,客戶群2:yellow,客戶群3:blue,客戶群4:black客戶價值分析分析上面折線圖,從圖中可以看出:客戶群3的F,M很高,L也不低,可以看做是重要保持的客戶;客戶群2的F、M雖然不高,但是L、R、C很高,可以作為重要發(fā)展客戶客戶群0的L相對較高客戶群1一般客戶客戶群4低價值客戶重要保持客戶:這類客戶對于航空公司來說是高價值的客戶,同時也是最為理想的客戶,他們給公司帶來了最大的利潤,但是人數(shù)卻不多。作為一個航空公司,要想在激烈的市場競爭中奪得一席之地,獲得更大的利潤,就必須采取各種各樣的措施盡可能的把更好的資源放在這類客戶身上,進行差異化的管理,來提高這類客戶的忠誠度和滿意度,為了讓這類人保持更長久的高質(zhì)量的消費。重要發(fā)展客戶:這類客戶是潛伏的有價值的客戶?,F(xiàn)在看來,他們?yōu)楣緞?chuàng)造的收益不大,但是卻能在未來對公司很高的回報。作為企業(yè),我們要不斷地維護這類顧客,向他們提供優(yōu)質(zhì)的服務(wù),例如打折機票,會員升級等服務(wù),讓他們繼續(xù)選擇乘坐我們公司的航班。重要挽留客戶:針對此類客戶群體,作為企業(yè)要經(jīng)常與他們聯(lián)系,了解情況,采取一定手段,挽留他們,從而延長客戶的生命周期,最終促使他們成為重要的發(fā)展的客戶。一般與低價值客戶:這類客戶我定義為一般與低價值客戶,他們可能一般選擇出行的方式大多不是乘坐飛機,只有在機票打折或者必要的時候才會選擇乘坐飛機來出行。為了企業(yè)的高效發(fā)展,我認(rèn)為這類顧客不必消耗太多的時間。重點還是要放在維護其他幾類顧客上面。根據(jù)不同客戶群的主要特點,對其價值進行了排名,其結(jié)果如下表4-1所示??蛻魞r值排名客戶群排名排名含義客戶群31重要發(fā)展客戶客戶群22重要保持客戶客戶群03重要挽留客戶客戶群14一般客戶客戶群45低價值客戶表4-SEQ表_4-\*ARABIC1客戶價值排名模型應(yīng)用通過對各個客戶群進行特征分析,現(xiàn)采取以下手段和策略,為企業(yè)的提供參考。會員制度現(xiàn)在航空公司都采用了會員制度,會員大致分為四種,主要是鉆石,鉑金,黃金,白銀四種會員,這四種會員對于航空公司來說是重要客戶,屬于企業(yè)的優(yōu)質(zhì)客戶。給公司規(guī)模不同,企業(yè)文化不同,理念和宗旨也不盡相同,但是在對于會員制度上是基本相似的。作為企業(yè)的會員,會因為對制度的不清晰而錯過很多升級的機遇。因此,作為企業(yè)人員要及時對臨近升級的客戶進行提醒,進行促銷活動,刺激他們達到消費標(biāo)準(zhǔn),進行會員的升級或者保級。很多企業(yè)對這些問題不重視,但這確恰好是提升客戶滿意度和企業(yè)服務(wù)效果的好機會。盲盒促銷最近很多航空公司都推出了“盲盒飛行家”的活動,只需支付99元,就能開一個盲盒,盲盒里有兩張隨機的城市往返機票,對于年輕人來說,這無疑是一場說走就走的旅行。盲盒本身就是一個充滿未知與刺激的事物,無論是盲盒玩偶還是盲盒口紅,都是利用了人對于未知事物的好奇心和對于賭博的欲望,萬一隨機到一個想去但是一直因為路途遙遠(yuǎn)票價太貴一直沒有取得的地方,那豈不是很賺。作為企業(yè)而言,我認(rèn)為經(jīng)常搞這種活動可以提高一般客戶和低價值客戶的價值,同時也可以吸引新客戶乘坐該公司的航班,進而轉(zhuǎn)化為重要客戶。管理模式企業(yè)想要獲得長期的豐厚利潤,必須需要大量穩(wěn)定的、高質(zhì)量的客戶。作為企業(yè)要知道維持老客戶的成本要遠(yuǎn)遠(yuǎn)低于拓展新客戶,如果維護不好客戶就會造成客戶的流失,而客戶的流失就一定會造成公司利益的損失。針對優(yōu)質(zhì)客戶,企業(yè)要提供更加優(yōu)質(zhì)的服務(wù)和更加好的產(chǎn)品來提升客戶對公司的滿意度,使其對公司產(chǎn)生依賴,所以保持優(yōu)質(zhì)客戶是十分重要的。但是這類客戶的占比往往也是最少的,所以差異化管理是必須的。要做到一對一個性化管理,定要采取一切必要措施來提高這類客戶對自身品牌的忠誠度與滿意度,盡可能在相當(dāng)長的時間內(nèi)引導(dǎo)這類客戶在公司保持高水平消費。結(jié)論通過上述對航空公司客戶價值的研究,我們可以對客戶群體做出如下總結(jié):本文主要利用數(shù)據(jù)挖掘的技術(shù),對某航空公司的客戶數(shù)據(jù)進行了價值分析,以此來提高企業(yè)的競爭力。現(xiàn)如今信息技術(shù)高速發(fā)展,傳統(tǒng)銷售公司仍然無法正確挖掘客戶的價值。而且雖然有些企業(yè)實施了客戶價值管理(CRM),但是仍然沒有給企業(yè)帶來好的效益。原因就在于很多企業(yè)對CRM的理論缺乏了解,沒有更好的把握客戶的價值。通過CRM模型,企業(yè)可以對客戶進行精準(zhǔn)的分類,對不同的客戶群體制定不同的營銷策略,長遠(yuǎn)下來,企業(yè)才能不斷發(fā)展,不斷進步,在激烈的市場競爭中取得成果。針對航空公司的客戶價值分析,我們對傳統(tǒng)模型CRM進行了改造,衍生出了LRMFC模型,最后通過聚類的結(jié)果,選出客戶價值排行,并且制定相應(yīng)策略??蛻魞r值的探索和研究對于企業(yè)而言,不論是現(xiàn)在市場的競爭還是未來市場的競爭都有著重要的意義,大數(shù)據(jù)時代的背景下,數(shù)據(jù)挖掘等相關(guān)技術(shù)會越來越多的應(yīng)用于客戶價值的分析上來。企業(yè)通過研究客戶數(shù)據(jù),不斷的提升自身產(chǎn)品質(zhì)量,增強客戶滿意度和忠誠度,依此來制定相應(yīng)的營銷方案。由于本人時間和能力有限,而數(shù)據(jù)挖掘的技術(shù)還有很多種方法。本文只采用了K-Means聚類一種算法進行分析,所以還有很多方法可以使用,下一步可以從以下兩個方面進行優(yōu)化:第一,進一步完善客戶價值的模型;第二,使用不同的數(shù)據(jù)挖掘技術(shù)來進行更深的程度的分析。參考文獻汪龍海.中小商業(yè)銀行客戶價值管理與數(shù)據(jù)挖掘研究[J].湖北廣播電視大學(xué)學(xué)報2014,34(01):95-96.陳火榮.數(shù)據(jù)挖掘中決策樹算法的應(yīng)用研究[J].電腦編程技巧與維護,2017(14):63-65.王順意,陳非,張遠(yuǎn)雄,陳灝生,陳磊.基于數(shù)據(jù)挖掘的電力客戶關(guān)系管理系統(tǒng)的設(shè)計[J].微型電腦應(yīng)用,2020,36(12):86-89.郭秀峰.大數(shù)據(jù)時代的數(shù)據(jù)挖掘與思考[J].電腦編程技巧與維護,2020(12):111-113.戴艷麗.分析數(shù)據(jù)挖掘中決策樹算法及其應(yīng)用[J].科技傳播,2015,7(23):33-34.劉寶龍.基于數(shù)據(jù)挖掘的決策支持系統(tǒng)分析研究[J].電子技術(shù)與軟件工程,2015(15):198丁楊軍,王寧.基于K-means算法的航空旅客價值細(xì)分應(yīng)用研究[J].信息技術(shù)與信息化,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論