




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
5-1聚類分析模塊?物以類聚:發(fā)現(xiàn)新簇群目錄CONTENTS何為聚類分析01常見聚類方法02聚類性能度量03一.何為聚類分析1.定義聚類分析:他是一種典型的無監(jiān)督學習,也就是在事先不知道每個樣本的類別、沒有對應(yīng)標簽值的情況下,將未知類別的樣本按照一定的規(guī)則劃分成若干個相對獨立的簇。簇的特點:同一個簇中的樣本盡可能相似不同的簇中的樣本盡可能不相似一.何為聚類分析2.典型應(yīng)用領(lǐng)域領(lǐng)域銷售領(lǐng)域醫(yī)學領(lǐng)域生物領(lǐng)域安全領(lǐng)域一.何為聚類分析3.幾個概念如何去描述簇?簇質(zhì)心簇大小簇密度簇號…二.常見聚類方法1.基于劃分的聚類二.常見聚類方法2.基于層次的聚類二.常見聚類方法3.基于密度的聚類三.聚類性能度量2.三個概念無論使用什么聚類方法對樣本進行分簇,都會涉及如何對聚類后的結(jié)果進行評估,以度量聚類模型的性能的問題。聚類性能度量指標用于對聚類后的結(jié)果進行評估,分為內(nèi)部指標和外部指標兩大類。外部指標要事先指定聚類模型作為參考來評估聚類結(jié)果的好壞,稱為有標簽的評估;而內(nèi)部指標是指不借助任何外部參考,只用參與聚類的樣本本身評估聚類結(jié)果的好壞。內(nèi)部指標慣性值輪廓系數(shù)CH分數(shù)該值越小越好,越小證明樣本在類間的分布越集中值越大,說明同類樣本相距越近,不同樣本相距越遠。當簇密集且分離較好時,CH分數(shù)更高,因此CH值越大越好。人工智能基礎(chǔ)與應(yīng)用Thankyouverymuch!5-2k均值聚類模塊?物以類聚:發(fā)現(xiàn)新簇群目錄CONTENTSk均值算法01k均值算法應(yīng)用提示02一.k均值算法1.概念k均值(k-means)算法是一種基于距離劃分的聚類算法,由于其具有算法簡單、靈活性高、運行效果足夠好等特點,因此較常用。該算法計算樣本與簇質(zhì)心的距離,與簇質(zhì)心相近的樣本被劃分為同一簇。重用歐式距離計算樣本之間的相似度一.k均值算法2.算法流程一.k均值算法2.算法流程“×”為質(zhì)心,第一輪迭代后用分別標記為星形和圓形來表示兩個類別,此時新的質(zhì)心的位置已經(jīng)發(fā)生了改變。圖5-5(e)和圖5-5(f)重復(fù)了圖5-5(c)和圖5-5(d)所示的過程。××二.k均值算法應(yīng)用提示1.k的初值k的初值。k是一個提前定義好的數(shù),其目標是最小化每個簇內(nèi)部的差異,最大化簇之間的差異。那k取什么值合適呢?它取決于具體的業(yè)務(wù)需求或分析動機。例如,營銷部門只有3種不同的客戶資源來支撐拓展市場,那么設(shè)定k=3以聚類3種不同的客戶可能是一個不錯的決定。k=沒有先驗知識,建議令然后在附近值搜索。二.k均值算法應(yīng)用提示2.初始質(zhì)心的選擇k均值算法對初始質(zhì)心是比較敏感的,這意味著隨機的初始質(zhì)心可能會對最終的聚類結(jié)果產(chǎn)生較大的影響。選擇初始質(zhì)心的方法有3種:一是如果事先知道某幾個樣本彼此之間完全不同,就選擇它們作為初始質(zhì)心;二是跳出樣本范圍,在特征空間的任意地方取隨機值為初始質(zhì)心;三是分段選擇初始質(zhì)心,第一個初始質(zhì)心隨機選擇,其他初始質(zhì)心按距離已定初始質(zhì)心最遠的樣本點來選擇。建議:通過多次運行,以聚類性能最優(yōu)的聚類結(jié)果為最優(yōu)解。二.k均值算法應(yīng)用提示3.聚類完畢后有簇號聚類后所有樣本都是有簇號的。原來沒有標簽號(簇號)的樣本經(jīng)過聚類會擁有一個簇號。相同簇號的樣本的特征平均值就是該簇質(zhì)心的坐標,這也是k均值算法名稱的由來。提示:簇號默認從0開始,相同簇號的樣本屬于一類。二.k均值算法應(yīng)用提示4.聚類結(jié)束條件盡管聚類能產(chǎn)生新的信息,但人們不應(yīng)該在新信息的準確性上花費太多時間,因為聚類是無監(jiān)督學習,所以更應(yīng)該關(guān)注對新信息的洞察和理解。當樣本數(shù)量很大,或者定義的聚類誤差很嚴苛時,為避免聚類陷入遲遲不出結(jié)果的尷尬局面,必須設(shè)定最大迭代次數(shù)和誤差閾值,滿足其一即可停止聚類。提示:迭代達到最大值,停止;或相鄰兩次聚類后質(zhì)心移動的距離小于誤差閾值,停止。人工智能基礎(chǔ)與應(yīng)用Thankyouverymuch!5-3項目1—探究企鵝物種的分類模塊?物以類聚:發(fā)現(xiàn)新簇群目錄CONTENTS提出問題01預(yù)備知識03解決方案02任務(wù)1—樣本數(shù)據(jù)的預(yù)處理04任務(wù)3—繪制企鵝聚類后的散點圖06任務(wù)2—確定企鵝物種數(shù)量k的最佳值05一.提出問題問題描述由于全球氣候變暖和人類活動的影響,企鵝的生存狀況并不樂觀。因此,我們應(yīng)該采取行動來保護這些迷人的生物,以確保它們能夠正常繁衍、繼續(xù)生存。為此,一項必要的工作就是研究如何區(qū)分企鵝的種類、哪些特征決定了它們的差異。一眼看企鵝都很相似,如何區(qū)分不用物種的企鵝呢?弄清這些問題就能更好地保護不同的企鵝,使它們成為人類永遠的朋友。二.解決方案1.選擇聚類法k均值算法解決問題基本思想:基于企鵝的一些形態(tài)特征(如嘴的大小、體重等)反映了企鵝的獨特之處和一些重要信息,然后用聚類算法K-Means對樣本進行聚類,最后得到各樣本的類別。聚類0類1類0類二.解決方案2.具體方案三.預(yù)備知識1.企鵝常識已知地球上現(xiàn)存的企鵝共有20余種,它們的頭部顏色、個體大小、體型等不盡相同。其中喙的長度、深度,鰭肢的長度和重量等特征對企鵝的生存影響較大。這些特征之間是否存在強相關(guān)關(guān)系,這樣的關(guān)系是否會對企鵝的分類造成影響?可以通過后期的數(shù)據(jù)分析找到該問題的答案。三.預(yù)備知識2.數(shù)據(jù)降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根什么是降維?為什么要降維?前文已經(jīng)談到,在衡量采用什么方法來分析數(shù)據(jù)之前最好能對數(shù)據(jù)的全貌有一個可視化的了解,能從中發(fā)現(xiàn)一些內(nèi)在規(guī)律或啟示,以便更好地指導(dǎo)人們選擇相對合理的方法來解決問題。通常只在二維或三維的空間可視化數(shù)據(jù),但原始數(shù)據(jù)的實際維度可能是四維甚至更高維度。采用數(shù)據(jù)降維的方法將原始數(shù)據(jù)的維度降為二維或三維,以便進行可視化處理,從而直觀了解數(shù)據(jù)的分布。除此之外,數(shù)據(jù)降維還有提高計算速度、提高模型擬合度等好處。三.預(yù)備知識2.數(shù)據(jù)降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數(shù)據(jù)集中可能存在的強相關(guān)特征,選取合適的特征集,采用PCA對企鵝數(shù)據(jù)集penguins進行降維,并繪制降維后的數(shù)據(jù)散點圖。(1)繪制出熱力圖,了解各特征之間的相關(guān)度。三.預(yù)備知識2.數(shù)據(jù)降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數(shù)據(jù)集中可能存在的強相關(guān)特征,選取合適的特征集,采用PCA對企鵝數(shù)據(jù)集penguins進行降維,并繪制降維后的數(shù)據(jù)散點圖。(1)繪制出熱力圖,了解各特征之間的相關(guān)度。運行結(jié)果三.預(yù)備知識2.數(shù)據(jù)降維(2)繪制散點圖,觀察數(shù)據(jù)樣本在三維空間中的分布情況。運行結(jié)果三.預(yù)備知識2.數(shù)據(jù)降維(2)繪制散點圖,觀察數(shù)據(jù)樣本在三維空間中的分布情況。運行結(jié)果企鵝是否劃分為4個物種比較合適三.預(yù)備知識3.認識k均值聚類點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根四.任務(wù)1——樣本數(shù)據(jù)的預(yù)處理1.查看數(shù)據(jù)的異常情況(1)觀察數(shù)據(jù)空值情況數(shù)據(jù)集空值分布統(tǒng)計:四.任務(wù)1——樣本數(shù)據(jù)的預(yù)處理1.查看數(shù)據(jù)的異常情況(2)異常值的統(tǒng)計四.任務(wù)1——樣本數(shù)據(jù)的預(yù)處理2.對數(shù)據(jù)進行預(yù)處理對數(shù)據(jù)進行空值刪除、異常值剔除和數(shù)據(jù)的標準化處理四.任務(wù)2——確定企鵝物種數(shù)量k的最佳值1.導(dǎo)入相關(guān)的第三方庫及模塊要對企鵝樣本數(shù)據(jù)進行聚類,在讀取樣本數(shù)據(jù)的基礎(chǔ)上,除進行聚類操作外,還要計算輪廓系數(shù)和慣性值,所以要通過以下代碼導(dǎo)入相關(guān)的第三方庫及模塊。四.任務(wù)2——構(gòu)建及訓練KNN模型2.繪制k值與輪廓系數(shù)、慣性值的變化關(guān)系圖四.任務(wù)2——構(gòu)建及訓練KNN模型2.繪制k值與輪廓系數(shù)、慣性值的變化關(guān)系圖代碼的運行結(jié)果四.任務(wù)3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數(shù)據(jù)進行聚類(1)算法訓練(2)觀察標簽值及質(zhì)心四.任務(wù)3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數(shù)據(jù)進行聚類(1)算法訓練(2)觀察標簽值及質(zhì)心四組質(zhì)心四.任務(wù)3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(1)實現(xiàn)代碼:四.任務(wù)3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖運行結(jié)果四.任務(wù)3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(2)分析結(jié)論:企鵝分為4類比較合適,同時不難看出:企鵝的喙深度、重量和性別3個指標可能是區(qū)分企鵝物種的主要因素。人工智能基礎(chǔ)與應(yīng)用Thankyouverymuch!5-4項目2—電商客戶分類模塊?物以類聚:發(fā)現(xiàn)新簇群目錄CONTENTS提出問題01預(yù)備知識03解決方案02任務(wù)1—選擇最佳的客戶群分數(shù)目k04任務(wù)3—為3類客戶提出營銷建議06任務(wù)2—計算3類客戶的RFM平均值05一.提出問題問題描述隨著電商市場的快速發(fā)展,眾多的企業(yè)將營銷重點從產(chǎn)品轉(zhuǎn)向客戶,維持良好的客戶關(guān)系逐漸成為企業(yè)發(fā)展的核心。充分了解客戶群體,知道哪些客戶是重要保持客戶、哪些客戶是重要發(fā)展客戶、哪些客戶是一般挽留客戶等,事實現(xiàn)企業(yè)利潤最大化的重要保證。哪如何精準區(qū)分電商系統(tǒng)中客戶的群體類別,并根據(jù)客戶群分結(jié)果采取不同的營銷措施呢二.解決方案2.解決方案(1)先驗知識消費間隔消費頻率消費總額客戶群分營銷策略二.解決方案2.解決方案(2)具體方案三.預(yù)備知識1.RFM模型介紹利用消費間隔R、消費頻率F和消費總額M這3個指標,采用k均值算法對客戶進行聚類。三.預(yù)備知識2.k均值模型主要屬性【引例5-2】對比聚類后4種企鵝的質(zhì)心數(shù)據(jù)。(1)導(dǎo)入相關(guān)三方庫三.預(yù)備知識2.k均值模型主要屬性(2)數(shù)據(jù)處理及獲取聚類后的質(zhì)心三.預(yù)備知識2.k均值模型主要屬性(3)繪制4類企鵝在6個維度上的雷達圖四.任務(wù)1——選擇最佳的客戶群分數(shù)目k1.清洗掉無關(guān)的數(shù)據(jù)kfm_datas數(shù)據(jù)四.任務(wù)1——選擇最佳的客戶群分數(shù)目k2.對數(shù)據(jù)進行標準化處理X部分值:四.任務(wù)1——選擇最佳的客戶群分數(shù)目k3.求不同k值下客戶群分的聚類性能指標CH分數(shù)輪廓系數(shù)慣性值四.任務(wù)1——選擇最佳的客戶群分數(shù)目k4.繪制3個內(nèi)部聚類性能指標的變化圖四.任務(wù)1——選擇最佳的客戶群分數(shù)目k4.繪制3個內(nèi)部聚類性能指標的變化圖運行結(jié)果五.任務(wù)2——計算3類客戶的RFM平均值1.重新聚類最后得到聚類后的各樣本標簽五.任務(wù)2——計算3類客戶的RFM平均值2.求質(zhì)心數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 外企工會活動方案
- 夜校大講堂活動方案
- 夏日瑜伽活動方案
- 培訓茂腔活動方案
- 大學班級入學活動方案
- 地產(chǎn)比賽活動方案
- 夏季夜場活動方案
- 夜場淡季活動方案
- 大學生工作交流活動方案
- 多人跳傘活動方案
- 2025年 北京門頭溝大峪街道社區(qū)儲備人才招募考試試題附答案
- 危險性較大工程管理制度
- 智慧檢驗與大數(shù)據(jù)分析知到智慧樹期末考試答案題庫2025年溫州醫(yī)科大學
- 2024北京西城區(qū)四年級(下)期末數(shù)學試題及答案
- 中國慢性阻塞性肺疾病基層診療指南(2024年)解讀
- 湖北省宜昌市(2024年-2025年小學三年級語文)部編版期末考試(下學期)試卷(含答案)
- 華泰基本面輪動系列之七:行業(yè)配置策略趨勢追蹤視角
- “一站到底”知識競賽題庫及答案(1590題)
- GB∕T 19673.1-2013 滾動軸承 套筒型直線球軸承附件 第1部分 1、3系列外形尺寸和公差
- 亞馬遜品牌授權(quán)書(英文模板)
- 《現(xiàn)代漢語修辭》PPT課件(完整版)
評論
0/150
提交評論