




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
聚類分析1注意我們考核非常松盡可能全部高于80分。2一個簡單的聚類例子這是按照顏色進(jìn)行一維聚類。實(shí)踐中,維度經(jīng)常多于一個。3基本特點(diǎn)聚類(clustering)是指根據(jù)“物以類聚”原理,將本身尚未歸類的樣本根據(jù)多個維度(多個屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇或群組。怎樣聚類算成功呢?經(jīng)過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應(yīng)該足夠不相似。4分類與聚類的區(qū)別分類(Classification)有訓(xùn)練過程。分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標(biāo)注的分類訓(xùn)練數(shù)據(jù)集訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。而聚類則是沒有訓(xùn)練過程。在進(jìn)行聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類則沒有事先預(yù)定的類別,類別數(shù)不確定。聚類不需要人工標(biāo)注和預(yù)先訓(xùn)練分類器,類別在聚類過程中自動生成。5聚類分析的主要應(yīng)用領(lǐng)域作為獨(dú)立的工具來分析數(shù)據(jù)發(fā)現(xiàn)離群點(diǎn)為其他算法做數(shù)據(jù)預(yù)處理6聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進(jìn)而制定差異化的營銷方案
7聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進(jìn)而制定差異化的營銷方案
例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他應(yīng)用按照血型對學(xué)生進(jìn)行分班確定婚禮客人如何排座位9離群點(diǎn)檢測離群點(diǎn)檢測和聚類是高度相關(guān)的。聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點(diǎn)檢測則試圖識別那些顯著偏離多數(shù)實(shí)例的異常情況。離群點(diǎn)檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信用卡欺詐檢測。這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點(diǎn)和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。比如,其一次購物量比卡主大得多,并且購物地點(diǎn)遠(yuǎn)離卡主的通常的購物地點(diǎn)。10聚類算法的分類類聚類算法主要包括:劃分方法((PartitioningMethod):包括K均值方法等等層次方法((HierarchicalMethod)基于密度的方法(Density-based)基于網(wǎng)格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法法最常用。11K均值算法K-means算法是無可可爭議的使使用最多的的算法。它是劃分方方法的一種種。它原理簡單單,容易實(shí)實(shí)現(xiàn)。它適合使用用數(shù)值型屬屬性,而不不是類別型型屬性。它的一個不不足之處是是:對于離兩個群組組的中心都都很近的點(diǎn)點(diǎn),你會不不知道該放放到哪個群群組中。這其實(shí)也也是其他一一些聚類算算法的局限限性。12K均值算法的步驟驟K均值算法,,概括起來來有五個步步驟:設(shè)定一個數(shù)數(shù)K,表明總共共有幾個群群簇(組));從所有實(shí)例中中隨機(jī)選擇K個實(shí)例,分別代表一一個群簇的的初始中心;對剩余的每個實(shí)例,,根據(jù)其與各各個組的初始中心的距離,將它們分配到離自己最近近的一個群群簇中;然后,更新群簇中心,即:重新新計算得出出每個群簇簇的新的中中心點(diǎn);這個過程不斷重復(fù)(即:重復(fù)復(fù)第3、4步),直到每個群群簇中心不再變化,即直到所所有實(shí)例在K組分布中都都找到離自自己最近的群簇。13K均值算法——什么是中心心值14K均值算法的的步驟注意看C點(diǎn),它離上上面的群的的新的的距距離中心比比離下面那那個群的新新的中心更更近,所以以它被重新新劃分到上上面那個群群了。15K均值算法的步驟驟16K均值算法的的應(yīng)用:圖圖像壓縮群的個數(shù)越越少,意味味著圖像被被轉(zhuǎn)化成顏顏色數(shù)量很很少的圖像像了。17K均值算法的的應(yīng)用:圖圖像壓縮原理和上面面人物照片片是一致的的。18K均值算法可以用用于三個維維度前面圖像壓壓縮的例子子是基于一一個維度。。這里抽象展展示了基于于三個維度度的聚類。。19如何在軟件中為K均值算法設(shè)設(shè)定參數(shù)在軟件中,,通常都要要設(shè)定群的個數(shù)。還可以指定距離的度量量方式。例如如選擇歐幾幾里德距離離或曼哈頓頓距離。大大多數(shù)聚類類分析都使使用距離度度量來衡量量兩個實(shí)例例之間的遠(yuǎn)遠(yuǎn)近。20如何在軟件件中為K均值算法設(shè)設(shè)定參數(shù)此外,還可可以設(shè)定聚聚類時采用哪些屬性同時,數(shù)據(jù)標(biāo)準(zhǔn)化是聚類分析析中最重要要的一個數(shù)數(shù)據(jù)預(yù)處理理步驟。如果果之前沒做做過標(biāo)準(zhǔn)化化,可以現(xiàn)現(xiàn)在進(jìn)行。。21如何評價聚聚類分析的的結(jié)果?這方面和分分類算法有有一個顯著著不同:分類算法的的評判有訓(xùn)訓(xùn)練集、驗(yàn)驗(yàn)證集的客客觀參照。。而聚類結(jié)果果的評判缺乏很明確確、客觀的、、統(tǒng)計學(xué)意意義上的參照依據(jù)。對于聚類,,業(yè)務(wù)專家從實(shí)踐踐角度的評評估是最重重要的評價價層面。如如果多數(shù)業(yè)業(yè)務(wù)專家對對于聚類的的結(jié)果都看看不懂,那那么這個結(jié)結(jié)果很可能能是值得懷懷疑的。如果聚類的的結(jié)果比較較容易理解解、解釋,,業(yè)務(wù)人員員會更能實(shí)實(shí)施這個結(jié)結(jié)果。22聚類之前的的預(yù)處理——特征篩選在實(shí)踐中,,聚類中的的輸入變量不不能太多,尤其是在在樣本數(shù)量量有限的情情況下。否則:運(yùn)算耗時;;更重要的是是變量之間間的相關(guān)性性會損害聚聚類效果;;變量太多會使人難難以理解每每個群的實(shí)實(shí)際含義。。因此,通常常會采用相關(guān)性分析、結(jié)合合業(yè)務(wù)知識識進(jìn)行變量量篩選等方方法來降維維。然后根根據(jù)少量幾幾個維度進(jìn)進(jìn)行聚類類。被篩掉的變變量可以在在聚類完成成后再用于于對每個群群的進(jìn)一步步分析,比比如描述性性統(tǒng)計、分分類算法。。23聚類之前的的預(yù)處理——異常值K-means對數(shù)據(jù)的噪噪聲和異常值比較敏感。。這些個別數(shù)數(shù)據(jù)對于平平均值的影影響非常大大。為此,我們們可以:直接刪除那那些比其他他任何數(shù)據(jù)據(jù)點(diǎn)都要遠(yuǎn)遠(yuǎn)離聚類中中心點(diǎn)的異異常值。與此類似地地,在聚類類之后,有些些群體內(nèi)樣樣本數(shù)量太太少、這種種群體在實(shí)實(shí)際應(yīng)用中中可以忽略略不計。采用隨機(jī)抽樣。。這樣,作作為稀有事事件的數(shù)據(jù)據(jù)噪聲和異異常值能被被抽進(jìn)樣本本的概率會會
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 住房酒店投資合同標(biāo)準(zhǔn)文本
- 2025年五大項(xiàng)目工程合同全面啟動
- 賣房外包合同標(biāo)準(zhǔn)文本
- 個人出售別墅合同標(biāo)準(zhǔn)文本
- 業(yè)務(wù)轉(zhuǎn)包合同范例
- 保姆合同標(biāo)準(zhǔn)文本護(hù)工
- 借錢合同標(biāo)準(zhǔn)文本標(biāo)準(zhǔn)文本
- 公司采訪合同標(biāo)準(zhǔn)文本
- 冷藏廠出售轉(zhuǎn)讓合同范例
- 與安保公司合同標(biāo)準(zhǔn)文本
- (5年高職)商務(wù)談判教學(xué)課件全套電子教案匯總整本書課件最全教學(xué)教程完整版教案(最新)
- 高中數(shù)學(xué) 分類變量與列聯(lián)表 課件
- 骨科手術(shù)學(xué)課件:髖及大腿的手術(shù)入路及部分手術(shù)介紹
- 智慧園區(qū)平臺用戶操作手冊
- 歷史專題--唐宋變革論P(yáng)PT課件
- 中國飲食禮儀(課堂PPT)
- 張素芳--孫重三小兒推拿流派特色與臨床應(yīng)用完整版
- 卡通小學(xué)生文明禮儀主題班會內(nèi)容宣講PPT課件
- 萬科物業(yè)服務(wù)公司有償維修收費(fèi)準(zhǔn)則
- 關(guān)于發(fā)布《信息系統(tǒng)工程監(jiān)理及相關(guān)信息技術(shù)咨詢服務(wù)取費(fèi)計算方法(參照標(biāo)準(zhǔn))》的通知
- 貝類增養(yǎng)殖學(xué)重點(diǎn)(共5頁)
評論
0/150
提交評論