數(shù)據(jù)挖掘基本算法

上傳人：卓*** IP屬地：廣東上傳時(shí)間：2023-04-10 格式：PPT 頁(yè)數(shù)：122 大?。?.53MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩117頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘基本算法第1頁(yè)，共122頁(yè)，2023年，2月20日，星期五數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉(cāng)庫(kù)的分析第三章數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施第四章信息分析的基本技術(shù)第五章數(shù)據(jù)挖掘過程第六章數(shù)據(jù)挖掘基本算法第七章非結(jié)構(gòu)化數(shù)據(jù)挖掘第八章離群數(shù)據(jù)挖掘第九章數(shù)據(jù)挖掘語(yǔ)言與工具的選擇第十章知識(shí)管理與知識(shí)管理系統(tǒng)第2頁(yè)，共122頁(yè)，2023年，2月20日，星期五第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第3頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4數(shù)據(jù)挖掘的聚類算法聚類分析是對(duì)群體及成員進(jìn)行分類的遞歸過程。一個(gè)簇是一組數(shù)據(jù)對(duì)象的集合，在同一簇中的對(duì)象彼此類似，而不同簇中的對(duì)象彼此相異。將一組物理或抽象對(duì)象分組成由類似對(duì)象組成的多個(gè)簇的過程被稱為聚類。聚類就是將數(shù)據(jù)對(duì)象分組成多個(gè)類或簇，在同一個(gè)簇中的對(duì)象之間具有較高的相似度，而不同簇中的對(duì)象差別較大。距離是經(jīng)常采用的度量方式。第4頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4數(shù)據(jù)挖掘的聚類算法聚類分析的應(yīng)用：市場(chǎng)或客戶分割、模式識(shí)別、生物學(xué)研究、空間數(shù)據(jù)分析、Web文檔分類等。聚類分析可以用作獨(dú)立的數(shù)據(jù)挖掘式工具，來獲得對(duì)數(shù)據(jù)分布的了解，也可以作為其他數(shù)據(jù)挖掘算法的預(yù)處理步驟。聚類的質(zhì)量是基于對(duì)象相異度來評(píng)估的。相異度是描述對(duì)象的屬性值來計(jì)算的。相異度可以對(duì)多種類型的數(shù)據(jù)來計(jì)算，包括區(qū)間標(biāo)度變量、二元變量、標(biāo)稱變量、序數(shù)型變量和比例度型變量類型的組合。第5頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4數(shù)據(jù)挖掘的聚類算法聚類分析的算法可以分為：劃分方法：首先得到初始的K個(gè)劃分的集合。如K-平均、K-中心點(diǎn)、CLARANS以及對(duì)它們的改進(jìn)。層次方法：創(chuàng)建給定數(shù)據(jù)對(duì)象集合的一個(gè)層次性的分解。根據(jù)層次分解的過程可以分為凝聚（自底向上）或分裂（自頂向下）?；诿芏鹊姆椒ǎ焊鶕?jù)密度的概念來聚類對(duì)象，如DBSCAN、DENCLUE、OPTICS?；诰W(wǎng)格的方法：首先將對(duì)象空間量化為有限數(shù)目的單元，形成網(wǎng)格結(jié)構(gòu)，然后在網(wǎng)格結(jié)構(gòu)上進(jìn)行聚類，如STING、CLIQUE、WaveCluster?；谀Ｐ偷姆椒ǎ簽槊總€(gè)簇假設(shè)一個(gè)模型，發(fā)現(xiàn)數(shù)據(jù)對(duì)模型的最好匹配，如COBWEB、CLASSIT和AutoClass。第6頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4數(shù)據(jù)挖掘的聚類算法類別算法分裂/劃分方法K-MEANS（K-平均）、K-MEDOIDS算法（K-中心點(diǎn)）、CLARANS算法（基于選擇的方法）層次法BIRCH算法（平衡迭代規(guī)約和聚類）、CURE算法（代表聚類）、CHAMELEON算法（動(dòng)態(tài)模型）基于密度的方法DBSCAN算法（基于高密度連接區(qū)域）、OPTICS算法（對(duì)象排序識(shí)別）、DENCURE算法（密度分布函數(shù)）基于網(wǎng)格的方法STING算法（統(tǒng)計(jì)信息網(wǎng)格）、CLIQUE算法（聚類高維空間）、WAVE-CLUSTER算法（小波變換）基于模型的方法統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法表6.9主要的聚類算法的分類第7頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法6.4.3劃分方法6.4.4層次方法*6.4.5基于密度的方法*6.4.6基于網(wǎng)格的方法*6.4.7基于模型的聚類方法*6.4.8模糊聚類算法*第8頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.1聚類分析的概念聚類就是按照事物的某些屬性，把事物聚集成類，使類間的相似性盡可能小，類內(nèi)相似性盡可能大。聚類是一個(gè)無監(jiān)督學(xué)習(xí)的過程，它與分類的根本區(qū)別在于，分類是需要事先知道所依據(jù)的數(shù)據(jù)特征，而聚類是要找到這個(gè)數(shù)據(jù)特征。因此在很多應(yīng)用中，聚類分析作為一種數(shù)據(jù)預(yù)處理過程，是進(jìn)一步分析和處理數(shù)據(jù)的基礎(chǔ)。聚類是一種對(duì)具有共同趨勢(shì)和模式的數(shù)據(jù)元組進(jìn)行分組的方法，試圖找出數(shù)據(jù)集中的共性和差異并將具有共性的元組聚合在相應(yīng)的類或段中。第9頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.1聚類分析的概念數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笕缦拢?）可伸縮性：算法能夠處理海量的數(shù)據(jù)庫(kù)對(duì)象。2）處理不同類型屬性的能力3）發(fā)現(xiàn)具有任意形狀的聚類的能力4）輸入?yún)?shù)對(duì)領(lǐng)域知識(shí)的弱依賴性5）處理噪聲數(shù)據(jù)或離群數(shù)據(jù)的能力6）結(jié)果對(duì)于輸入記錄順序的無關(guān)性7）處理高維度數(shù)據(jù)的能力8）結(jié)果的可解釋性和可用性9）基于約束的聚類分析能力第10頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法基于內(nèi)存的聚類算法多選擇如下兩種有代表性的數(shù)據(jù)結(jié)構(gòu)：（1）數(shù)據(jù)矩陣（datamatrix）數(shù)據(jù)矩陣用m個(gè)變量（也稱屬性）來表現(xiàn)n個(gè)對(duì)象，這種數(shù)據(jù)結(jié)構(gòu)是關(guān)系表的形式，或nm維（n個(gè)對(duì)象m

個(gè)屬性）的矩陣。(6-12)第11頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法（2）相異度矩陣（dissimilatorymatrix）存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似性，通常用一個(gè)nn維的矩陣表示。其中d(i,j)是對(duì)象i和對(duì)象j之間的測(cè)量差或相異度，通常它是一個(gè)非負(fù)的數(shù)值。對(duì)象i和j之間越相似，其值越接近0；兩個(gè)對(duì)象越不同，其值越大。由于d(i,j)=d(j,i)；且d(i,i)=0，可以得到（6-13）。(6-13)第12頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法數(shù)據(jù)矩陣的行和列代表不同的實(shí)體，也被稱為二模矩陣。相異度矩陣的行和列代表相同的實(shí)體，也被稱為單模矩陣。許多聚類算法都是以相異度矩陣為數(shù)據(jù)源運(yùn)行的，如果數(shù)據(jù)是用數(shù)據(jù)矩陣的形式存儲(chǔ)的，在使用聚類算法之前要將其轉(zhuǎn)化為相異度矩陣。第13頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法計(jì)算相異度的常用方法有：區(qū)間標(biāo)度變量計(jì)算方法，二元變量計(jì)算方法，標(biāo)稱、序數(shù)和比例標(biāo)度計(jì)算方法，或這些變量類型的組合來描述對(duì)象的相異度計(jì)算方法。第14頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法（1）區(qū)間標(biāo)度變量計(jì)算方法區(qū)間標(biāo)度變量是一個(gè)粗略線性標(biāo)度的連續(xù)度量。度量單位的選用將直接影響聚類分析的結(jié)果。一般而言，所用的度量單位越小，變量可能的值域就越大，這樣對(duì)聚類的結(jié)果影響就越大。因此為了避免對(duì)度量單位選擇的依賴，應(yīng)該對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化度量值試圖給所有的變量相等的權(quán)重，當(dāng)沒有關(guān)于數(shù)據(jù)的先驗(yàn)知識(shí)時(shí)，這樣做是十分有效的。第15頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法為了實(shí)現(xiàn)度量值的標(biāo)準(zhǔn)化，一種方法是將原來的度量值轉(zhuǎn)化為無單位的值。給定一個(gè)變量f的變量值，可以進(jìn)行如下的變換。其中，x1f,x2f,…,xnf是f的n個(gè)度量值，mf是f的平均值，即1）計(jì)算均值絕對(duì)偏差sf第16頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法均值絕對(duì)偏差sf比標(biāo)準(zhǔn)的偏差f對(duì)于孤立點(diǎn)具有更好的魯棒性。在計(jì)算均值絕對(duì)值偏差時(shí)，度量值與平均值的偏差沒有被平方，因此孤立點(diǎn)的影響在一點(diǎn)程度上減小了。采用均值絕對(duì)偏差的優(yōu)點(diǎn)在于孤立點(diǎn)的z-score值不會(huì)太小，因此孤立點(diǎn)仍可別發(fā)現(xiàn)。2）計(jì)算標(biāo)準(zhǔn)化的度量值第17頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法標(biāo)準(zhǔn)化后，或者在某些應(yīng)用中不需要標(biāo)準(zhǔn)化，區(qū)間標(biāo)度變量描述的對(duì)象間的相異度（或相似度）通?；趯?duì)象間的距離來計(jì)算。常用的距離度量方法如下：1）歐幾里德距離其中，是兩個(gè)n維的數(shù)據(jù)對(duì)象。第18頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法2）曼哈頓距離3）明考斯基距離是歐幾里德距離和曼哈頓距離的推廣。其中，p是一個(gè)正整數(shù)。p=1時(shí)，它表示曼哈頓距離；p=2時(shí)，它表示歐幾里德距離。第19頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法如果對(duì)每個(gè)變量根據(jù)其重要性賦予一個(gè)權(quán)重，加權(quán)的歐幾里德距離可以計(jì)算如下：同理，加權(quán)也可以用于曼哈頓距離和明考斯基距離。第20頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法例6.7x1=(2,9)和x2=(4,6)表示兩個(gè)對(duì)象，計(jì)算x1和x2的歐幾里德距離和曼哈頓距離。x1和x2的歐幾里德距離x1和x2的曼哈頓距離第21頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法（2）二元變量計(jì)算方法一個(gè)二元變量只有兩個(gè)狀態(tài)：0或1，其中0表示該變量為空，1表示該變量存在。如果所有的二元變量具有相同的權(quán)重，可以得到一個(gè)兩行兩列的可能性如表6.10所示。第22頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法表6.10中，q表示對(duì)象i和對(duì)象j的值都為1的變量的數(shù)目；r表示在對(duì)象i中值為1，但在該對(duì)象j中值為0的變量的數(shù)目；s表示在對(duì)象i中值為0，但在該對(duì)象j中值為1的變量的數(shù)目；t表示對(duì)象i和對(duì)象j的值都為0的變量的數(shù)目。變量的總數(shù)是p，p=q+r+s+t。對(duì)象j10求和對(duì)象i1qrq+r0sts+t求和q+sr+tp=q+r+s+t表6.10二元變量的相依表第23頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法評(píng)價(jià)兩個(gè)對(duì)象i和j之間的相異度標(biāo)準(zhǔn)如下。（1）簡(jiǎn)單匹配系數(shù)（2）Jaccard系數(shù)（3）Rao系數(shù)第24頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法例6.8二元變量之間的相異度使用實(shí)例假設(shè)一個(gè)病人記錄表（表6.11）包含屬性姓名、性別、發(fā)燒、咳嗽、test-1、test-2、test-3和test-4，其中姓名是對(duì)象標(biāo)識(shí)，屬性都是二元變量。值Y和P被置為1，值N被置為0。求病人間患病的相似情況。表6.11二元屬性的關(guān)系變量姓名性別發(fā)燒咳嗽test-1test-2test-3test-4ZhangMYNPNNNLiFYNPNPNWangMYNNNNP……………………第25頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法根據(jù)Jaccard系數(shù)公式，三個(gè)病人Zhang，Li和Wang兩兩之間的相異度如下：d(Zhang,Li)=(0+1)/(2+0+1)=0.33d(Zhang,Wang)=(1+1)/(1+1+1)=0.67d(Li,Wang)=(1+2)/(1+1+2)=0.75因此，Wang和Li患有相似的疾病可能性較低，因?yàn)樗麄冇兄罡叩南喈惗?，而Zhang和Li最可能有類似的疾病。第26頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法（3）標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計(jì)算方法1）標(biāo)稱變量標(biāo)稱變量是二元變量的推廣，它可以具有多于兩個(gè)狀態(tài)的值。假設(shè)一個(gè)標(biāo)稱變量的狀態(tài)數(shù)目是M。這些狀態(tài)可以用字母、符號(hào)，或者一組整數(shù)來表示（注意：這些整數(shù)只是用于數(shù)據(jù)處理，并不代表任何特定的順序）。兩個(gè)對(duì)象i和j之間的相異度可以用簡(jiǎn)單匹配方法來計(jì)算：這里m是匹配的數(shù)目，即對(duì)i和j取值相同的變量的數(shù)目；而p是全部變量的數(shù)目。可以通過賦權(quán)重來增加m的影響，或者賦給有較多狀態(tài)的變量的匹配更大的權(quán)重。第27頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法2）序數(shù)型變量一個(gè)離散的序數(shù)型變量類似于標(biāo)稱變量，不同在于序數(shù)型變量的M個(gè)狀態(tài)是以有意義的序列排序的。序數(shù)型變量對(duì)記錄那些難以客觀度量的主觀評(píng)價(jià)是非常有用的。一個(gè)連續(xù)的序數(shù)型變量看起來像一個(gè)未知刻度的的連續(xù)數(shù)據(jù)的集合，即值的相對(duì)順序是必要的，而其實(shí)際的大小則不重要。將區(qū)間標(biāo)度變量的值域劃分為有限個(gè)區(qū)間，從而將其值離散化，可以得到序數(shù)型變量。一個(gè)序數(shù)型變量的值可以映射為排序。例如，一個(gè)變量f有Mf個(gè)狀態(tài)，這些有序的狀態(tài)定義了一個(gè)序列1,…,Mf。第28頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法處理序數(shù)型變量：在計(jì)算對(duì)象的相異度時(shí)，序數(shù)型變量的處理與區(qū)間標(biāo)度變量的處理方法類似。假設(shè)f是用于描述n個(gè)對(duì)象的一組序數(shù)型變量之一，關(guān)于f的相異度計(jì)算步驟如下：Step1第i個(gè)對(duì)象的f值為xif，變量f有Mf個(gè)有序的狀態(tài)，對(duì)應(yīng)于序列1,…,Mf

。用對(duì)應(yīng)的秩rif代替xif，rif

{1,…,Mf}。Step2既然每個(gè)序數(shù)變量可以有不同數(shù)目的狀態(tài)，必須經(jīng)常將每個(gè)變量的值域映射到[0.0,1.0]上，以便每個(gè)變量都有相同的權(quán)重。這一點(diǎn)可以通過zif代替rif來實(shí)現(xiàn)。(6-14)第29頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法Step3相異度的計(jì)算可以采用任意一種距離度量方法，采用zif作為第i個(gè)對(duì)象的f值。第30頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法3）比例標(biāo)度型變量比例標(biāo)度型變量在非線性的標(biāo)度取正的度量值，例如指數(shù)標(biāo)度，近似地遵循AeBT。計(jì)算用比例標(biāo)度型變量描述的對(duì)象之間的相異度，目前有三種方法：采用與處理區(qū)間標(biāo)度變量同樣的方法。缺點(diǎn)：標(biāo)度可能被扭曲。對(duì)比例標(biāo)度型變量進(jìn)行對(duì)數(shù)變換。變換得到的值可用區(qū)間標(biāo)度方法計(jì)算，對(duì)于比例標(biāo)度型變量可以采用log-log或者其他形式的變換，具體做法取決于定義和應(yīng)用。將xif看作連續(xù)的序數(shù)型數(shù)據(jù)，將其秩作為區(qū)間標(biāo)度的值來對(duì)待。第31頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法（4）混合類型的變量計(jì)算方法一個(gè)數(shù)據(jù)庫(kù)可能包含區(qū)間標(biāo)度量、對(duì)稱二元變量、不對(duì)稱二元變量、標(biāo)稱變量、序數(shù)型變量或者比例標(biāo)度變量。第一種方法：計(jì)算用混合類型變量描述的對(duì)象之間的相異度方法是將變量按類型分組，對(duì)每種類型的變量進(jìn)行單獨(dú)的聚類分析。如果這些分析得到兼容的結(jié)果，這種做法是可行的。但在實(shí)際應(yīng)用中，這種情況是不大可能的。第二種方法：將所有變量一起處理，只進(jìn)行一次聚類分析。將不同類型的變量組合在單個(gè)的相異度矩陣中，把所有有意義的變量轉(zhuǎn)換到共同的值域區(qū)間[0.0,1.0]上。第32頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法假設(shè)數(shù)據(jù)集包含p不個(gè)同類型的變量，對(duì)象i和對(duì)象j之間相異度d(i,j)定義為：(6-15)其中，如果xif或者xjf缺失，或者xif=xjf=0，且變量f是不對(duì)稱的二元變量，則指示項(xiàng)，否則。第33頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.2聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法變量f對(duì)i和j之間相異度的計(jì)算方式與其具體類型有關(guān)。1）如果f是二元變量或標(biāo)稱變量：2）如果f是區(qū)間標(biāo)度變量：3）如果f是序數(shù)型或者比例標(biāo)度型變量：第34頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法給定一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù)，以及要生成的簇的數(shù)目k，一個(gè)劃分類的算法將數(shù)據(jù)對(duì)象組織為k個(gè)劃分（k≤n），其中每個(gè)劃分代表一個(gè)簇。通常會(huì)采用一個(gè)劃分準(zhǔn)則（相似度函數(shù)）以便在同一個(gè)簇中的對(duì)象是“相似的”，而不同簇中的對(duì)象是“相異的”。第35頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法（1）典型的劃分方法：k-平均和k-中心點(diǎn)最著名與最常用的劃分方法是k-平均、k-中心點(diǎn)和它們的變種。1）基于簇的重心技術(shù)：k-平均方法k-means算法是基于質(zhì)心的算法。k-means算法以k為參數(shù)，把n個(gè)對(duì)象分為k個(gè)簇，以使簇內(nèi)具有較高的相似度，而簇間的相似度最低。相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均值（被看作簇的重心）來進(jìn)行。第36頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法k-means聚類算法的具體流程：Step1從數(shù)據(jù)集中任意選擇k個(gè)對(duì)象C1,C2,…,Ck作為初始的簇中心；Step2把每個(gè)對(duì)象分配到與之最相似的聚合。每個(gè)聚合用其中所有對(duì)象的均值來代表，“最相似”就是指距離最小。對(duì)于每個(gè)點(diǎn)Vi，找出一個(gè)質(zhì)心Cj，使它們之間的距離d(Vi,Cj)最小，并把Vi分到第j組。Step3把所有的點(diǎn)分配到相應(yīng)的簇之后，重新計(jì)算每個(gè)組的質(zhì)心Cj

。Step4循環(huán)執(zhí)行Step2和Step3，直到數(shù)據(jù)的劃分不再發(fā)生變化。第37頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法通常采用的準(zhǔn)則函數(shù)是平方誤差準(zhǔn)則函數(shù)，其定義如下：(6-16)其中，E是數(shù)據(jù)庫(kù)中所有對(duì)象的平方誤差的總和；p是空間中的點(diǎn)，表示給定的數(shù)據(jù)對(duì)象；mi是簇Ci的平均值（p和mi都是多維的）。也就是說，對(duì)于每個(gè)簇中的每個(gè)對(duì)象，求對(duì)象到其簇中心距離的平方，然后求和。這個(gè)準(zhǔn)則試圖使生成的結(jié)果簇盡可能地緊湊和獨(dú)立。第38頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法輸入：k：簇的數(shù)目n：數(shù)據(jù)庫(kù)對(duì)象的個(gè)數(shù)輸出：k個(gè)簇，使平方誤差最小方法：隨機(jī)選擇k個(gè)對(duì)象作為初始的代表對(duì)象；repeat；根據(jù)與每個(gè)中心的距離，將每個(gè)對(duì)象賦給最近的簇；重新計(jì)算每個(gè)簇的平均值；until不再發(fā)生變化。第39頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法例6.9k-means算法使用實(shí)例設(shè)數(shù)據(jù)對(duì)象集合如表6.12所示。簇?cái)?shù)目k=2，采用k-means算法對(duì)其進(jìn)行聚類。表6.12pxy11121.21.230.81.240.90.751.30.9611.473383.12.893.23.4102.73.3112.62.9第40頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法第一次迭代：選擇p3(0.8,1.2)，p8(3.1,2.8)為簇C1，C2的初始簇代表。所以，將p1分配給p3所屬的類C1，同理，將p2、p3、p4、p5、p6分配給p3所屬的類C1，將p7、p8、p9、p10、p11分配給p8所屬的類C2。第41頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法第二次迭代，用m1(1.033,1.067)，m2(2.92,3.08)作為簇C1，C2的簇中心，重新對(duì)數(shù)據(jù)進(jìn)行劃分。將p1、p2

、p3

、p4

、p5

、p6分類C1，將p7

、p8

、p9

、p10

、p11分配給類C2

。m1=(1.033,1.067)，m2=(2.92,3.08)，E=1.023第42頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法由于在兩次迭代過程中，2個(gè)簇中心都不變，所以停止迭代過程。得到的兩個(gè)聚類分別為：C1={p1,p2,p3,p4,p5,p6}C2={p7,p8,p9,p10,p11}第43頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法k-means聚類算法嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分。當(dāng)結(jié)果簇是密集的，而簇與簇之間區(qū)別明顯時(shí)，它的效果較好。對(duì)處理大數(shù)據(jù)集，該算法是相對(duì)可伸縮的和高效率的，復(fù)雜度是O(nkt)，n是所有對(duì)象的數(shù)目，k是簇的數(shù)目，t是迭代的次數(shù)。第44頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法不足：k-means算法只有在簇的平均值被定義的情況下才能使用。k-means算法的不足之處在于它要多次掃描數(shù)據(jù)庫(kù)。k-means算法只能找出球形的類，而不能發(fā)現(xiàn)任意形狀的類。初始質(zhì)心的選擇對(duì)聚類結(jié)果有較大的影響。k-means算法對(duì)于噪聲和孤立點(diǎn)數(shù)據(jù)是敏感的，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。k-平均算法的變種：k-模方法、EM算法等第45頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法2）基于有代表性的對(duì)象的技術(shù)：k-中心點(diǎn)法為了避免k-means算法對(duì)孤立點(diǎn)的敏感性，不采用簇中對(duì)象的平均值作為參照點(diǎn)，可以選用簇中位置最中心的對(duì)象，即medoid。這樣的劃分方法仍然是基于最小化所有對(duì)象與其參照點(diǎn)之間的相異度之和的原則來執(zhí)行的。這是k-medoids方法的基礎(chǔ)。通常采用的準(zhǔn)則函數(shù)是絕對(duì)誤差準(zhǔn)則函數(shù)，其定義如下：(6-17)其中，E是數(shù)據(jù)庫(kù)中所有對(duì)象的絕對(duì)誤差的總和；p是空間中的點(diǎn)，表示給定的數(shù)據(jù)對(duì)象；oi是簇Ci中的代表對(duì)象。第46頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法k-medoids算法的基本策略：首先隨機(jī)選擇k個(gè)對(duì)象，每個(gè)對(duì)象代表一個(gè)簇，把其余的對(duì)象分別分配給最相似的簇。然后，反復(fù)地嘗試把每個(gè)中心分別用其他非中心來代替，檢查聚類的質(zhì)量是否有所提高。若是，則保留該替換，重復(fù)上述過程，直到不再發(fā)生變化。為了判定一個(gè)非代表對(duì)象Orandom是否是當(dāng)前一個(gè)代表對(duì)象Oj的好的替代，對(duì)于每一個(gè)非中心點(diǎn)對(duì)象，考慮下面的四種情況：第一種情況：p當(dāng)前隸屬于中心點(diǎn)對(duì)象Oj。如果Orandom代替Oj作為一個(gè)中心點(diǎn)，且p離Oi最近，i≠j，那么p被重新分配給Oi

。第47頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法第二種情況：p當(dāng)前隸屬于中心點(diǎn)對(duì)象Oj。如果Orandom代替Oj作為一個(gè)中心點(diǎn)，且p離Orandom最近，那么p被重新分配給Orandom

。第三種情況：p當(dāng)前隸屬于中心點(diǎn)對(duì)象Oi，i≠j

。如果Orandom代替Oj作為一個(gè)中心點(diǎn)，且p離Oi最近，那么對(duì)象的隸屬不發(fā)生變化。第四種情況：p當(dāng)前隸屬于中心點(diǎn)對(duì)象Oi，i≠j

。如果Orandom代替Oj作為一個(gè)中心點(diǎn)，且p離Orandom最近，那么p被重新分配給Orandom

。第48頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法每當(dāng)重新分配時(shí)，平方-誤差E所產(chǎn)生的差別對(duì)代價(jià)函數(shù)有影響。因此，如果一個(gè)當(dāng)前的中心點(diǎn)對(duì)象被非中心點(diǎn)所代替，就通過代價(jià)函數(shù)計(jì)算平方-誤差值所產(chǎn)生的差別。替換的總代價(jià)是所有非中心點(diǎn)對(duì)象所產(chǎn)生的代價(jià)之和。如果總代價(jià)是負(fù)的，那么實(shí)際的平方-誤差將會(huì)減少，Oj可以被Orandom代替。如果總代價(jià)是正的，則當(dāng)前的中心點(diǎn)Oj被認(rèn)為是可接受的，在本次迭代中沒有變化發(fā)生。第49頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法輸入：k：簇的數(shù)目n：數(shù)據(jù)庫(kù)對(duì)象的個(gè)數(shù)輸出：k個(gè)簇，使所有對(duì)象與其最近代表對(duì)象的相異度總和最小方法：隨機(jī)選擇k個(gè)對(duì)象作為初始的代表對(duì)象；repeat；指派每個(gè)剩余的對(duì)象給離它最近的代表對(duì)象所代表的簇；隨意地選擇一個(gè)非代表對(duì)象Orandom；計(jì)算用Orandom代替Oj的總代價(jià)S；如果S<0，則用Orandom替換Oj

，形成新的k個(gè)代表對(duì)象的集合；

until不發(fā)生變化。第50頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法k-medoids算法的過程和k-means算法的不同之處在于：k-medoids算法用類中最靠近中心的一個(gè)對(duì)象來代表聚類，而k-means算法用質(zhì)心來代表聚類。k-means算法對(duì)噪聲非常敏感，因?yàn)橐粋€(gè)極大的值會(huì)對(duì)質(zhì)心的計(jì)算帶來很大的影響，而k-medoids算法中，通常用中心來代替質(zhì)心，可以有效地消除該影響。第51頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法PAM（partitioningaroundmedoid,圍繞中心點(diǎn)的劃分）是最早提出的k-中心點(diǎn)算法之一。它試圖對(duì)n個(gè)對(duì)象給出k個(gè)劃分。最初隨機(jī)選擇k個(gè)中心點(diǎn)后，該算法反復(fù)地進(jìn)行，試圖找出更好的中心點(diǎn)：對(duì)所有可能的對(duì)象進(jìn)行分析，每?jī)蓚€(gè)對(duì)象的一個(gè)對(duì)象被看作是中心點(diǎn)，而另一個(gè)不是；對(duì)可能的各種組合，計(jì)算聚類結(jié)果的質(zhì)量。一個(gè)對(duì)象Oj被可以產(chǎn)生最大平方-誤差值減少的對(duì)象代替，使在一次迭代中產(chǎn)生的最佳對(duì)象的集合為下次迭代的中心點(diǎn)。第52頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法（2）大型數(shù)據(jù)庫(kù)中的劃分方法：基于選擇的k-中心點(diǎn)CLARANS方法典型的k-中心點(diǎn)劃分算法PAM方法，對(duì)小的數(shù)據(jù)集合非常有效，由于沒有良好的可伸縮性，所以不適合答的數(shù)據(jù)集合。為了處理較大的數(shù)據(jù)集合，可以采用一個(gè)基于選擇的方法CLARA（clusteringlargeapplications,CLARA）。CLARA的基本思想是：不考慮整個(gè)數(shù)據(jù)集合，選擇實(shí)際數(shù)據(jù)的一小部分作為數(shù)據(jù)的樣本。然后用PAM方法從樣本中選擇中心點(diǎn)。如果樣本是以非隨機(jī)方式選取，它應(yīng)當(dāng)足以代表原來的數(shù)據(jù)集合。第53頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.3劃分方法改進(jìn)CLARA的聚類質(zhì)量和可伸縮性是將CLARANS（clusteringlargeapplicationsbaseduponrandomizedsearch,CLARANS）的采樣技術(shù)和PAM結(jié)合起來。與CLARA不同，CLARANS沒有在任一給定時(shí)間內(nèi)局限于任一樣本，即不同于CLARA在搜索的每個(gè)階段都有一個(gè)固定的樣本，CLARANS在搜索的每一步帶一定隨機(jī)性地抽取一個(gè)樣本。6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法第54頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.4層次方法一個(gè)層次的聚類方法將數(shù)據(jù)對(duì)象組成一棵聚類的樹。根據(jù)層次分解是自底向上，還是自頂向下形成，層次的聚類方法可以進(jìn)一步分為凝聚和分裂層次聚類。一個(gè)純粹的層次聚類方法的聚類質(zhì)量受限于如下特點(diǎn)：一個(gè)合并或分裂一旦執(zhí)行，就不能修正。（1）凝聚的和分裂的層次聚類（2）BIRCH：平衡迭代歸約和聚類（3）ROCK：分類屬性層次聚類算法（4）CURE：使用代表點(diǎn)聚類方法（5）Chameleon：動(dòng)態(tài)建模層次聚類第55頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）凝聚的和分裂的層次聚類1）凝聚的方法首先將每個(gè)對(duì)象作為單獨(dú)的一個(gè)原子簇然后相繼地合并相近的對(duì)象或原子簇直到所有的原子簇合并為一個(gè)（層次的最上層），或者達(dá)到一個(gè)終止條件2）分裂的方法首先將所有的對(duì)象置于一個(gè)簇中在迭代的每一步中，一個(gè)簇被分裂為更小的簇，直到最終每個(gè)對(duì)象在單獨(dú)的一個(gè)簇中，或者達(dá)到一個(gè)終止條件第56頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）凝聚的和分裂的層次聚類四個(gè)常用的簇間距離度量方法如下：最小距離：最大距離：平均值的距離：平均距離：(6-18)(6-19)(6-20)(6-21)其中，|p-p’|是兩個(gè)對(duì)象p和p’之間的距離，mi是簇Ci的平均值，而ni是簇Ci中對(duì)象的數(shù)目。第57頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）BIRCH：平衡迭代歸約和聚類利用層次方法的平衡迭代規(guī)約和聚類（BalancedIterativeReducingandClusteringusingHierarchies,BIRCH）用于歐幾里德向量空間數(shù)據(jù)，即平均值有意義的數(shù)據(jù)。該算法通過聚類特征（ClusteringFeature,CF）對(duì)簇的信息進(jìn)行匯總描述，然后對(duì)簇進(jìn)行分類。假設(shè)某個(gè)簇中包含N個(gè)d維的數(shù)據(jù)點(diǎn)或者數(shù)據(jù)對(duì)象{oi}，則該簇的聚類特征定義如下：(6-22)其中，N是簇中數(shù)據(jù)對(duì)象的數(shù)目，是N個(gè)對(duì)象的線性和，即SS是對(duì)象的平方和，即，它記錄了計(jì)算聚類和有效利用存儲(chǔ)的關(guān)鍵度量。第58頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）BIRCH：平衡迭代歸約和聚類BIRCH算法的主要目標(biāo)是使I/O時(shí)間盡可能小，原因在于大型數(shù)據(jù)集通常不能完全裝入內(nèi)存中。BIRCH算法通過把聚類分為多個(gè)階段來達(dá)到此目的。首先通過構(gòu)建CF-樹對(duì)原數(shù)據(jù)集進(jìn)行預(yù)聚類，在前面預(yù)聚類的基礎(chǔ)上進(jìn)行聚類。CF1CF2……CFnCF11CF12……CF1n根層第一層…………………………圖6.10CF樹的結(jié)構(gòu)第59頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）BIRCH：平衡迭代歸約和聚類BIRCH共包含四個(gè)階段：預(yù)聚類階段：掃描整個(gè)數(shù)據(jù)庫(kù)，構(gòu)建初始聚類特征樹，該樹保存在內(nèi)存中，用簡(jiǎn)潔的匯總信息或者葉子節(jié)點(diǎn)中的子聚類來代表數(shù)據(jù)點(diǎn)的密集區(qū)域。（可選階段）重新掃描葉子節(jié)點(diǎn)項(xiàng)，來構(gòu)建一個(gè)更小的CF-樹。采用別的聚類算法，對(duì)CF-tree的葉子節(jié)點(diǎn)進(jìn)行聚類。（可選階段）把前一個(gè)階段中找到的聚類的質(zhì)心，用作種子來創(chuàng)建最終的聚類。其它數(shù)據(jù)點(diǎn)根據(jù)到這些種子所代表聚類的遠(yuǎn)近來重新分配到各個(gè)聚類中。第60頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）BIRCH：平衡迭代歸約和聚類BIRCH算法的主要缺點(diǎn)之一就是在初始掃描完成之后，它使用基于質(zhì)心的方法來形成聚類，當(dāng)聚類的形狀不同或大小各異的情況下，就容易出現(xiàn)問題。BIRCH算法采用直徑作為控制參數(shù)，所以當(dāng)類的形狀非球形或不同大小的類時(shí)，聚類效果不佳。BIRCH算法對(duì)數(shù)據(jù)的輸入順序很敏感，還需要用戶手工設(shè)置一些參數(shù)。第61頁(yè)，共122頁(yè)，2023年，2月20日，星期五（3）ROCK：分類屬性層次聚類算法分類屬性的層次聚類算法（RobustClusteringusinglinKs），針對(duì)具有分類屬性的數(shù)據(jù)使用了鏈接（指兩個(gè)對(duì)象共同的近鄰數(shù)目）的概念。對(duì)于聚類包含布爾或分類屬性的數(shù)據(jù)，傳統(tǒng)聚類算法使用距離函數(shù)，然而實(shí)驗(yàn)表明對(duì)分類數(shù)據(jù)聚類時(shí)，這些距離度量不能產(chǎn)生高質(zhì)量的簇。大多數(shù)聚類算法在進(jìn)行聚類時(shí)只估計(jì)點(diǎn)與點(diǎn)之間的相似度；也就是說，在每一步中那些最相似的點(diǎn)合并到一個(gè)簇中。這種局部方法很容易導(dǎo)致錯(cuò)誤。第62頁(yè)，共122頁(yè)，2023年，2月20日，星期五（3）ROCK：分類屬性層次聚類算法ROCK算法采用一種比較全局的觀點(diǎn)，通過考慮成對(duì)點(diǎn)的鄰域情況進(jìn)行聚類。如果兩個(gè)相似的點(diǎn)同時(shí)具有相似的鄰域，那么這兩個(gè)點(diǎn)可能屬于同一個(gè)簇而合并。ROCK算法使用一個(gè)相似度閾值和共享鄰域的概念從一個(gè)給定的數(shù)據(jù)相似度矩陣中首先構(gòu)建一個(gè)稀疏圖，然后在這個(gè)稀疏圖上執(zhí)行凝聚層次聚類。使用一個(gè)優(yōu)度度量評(píng)價(jià)聚類。采用隨機(jī)抽樣處理大規(guī)模的數(shù)據(jù)集。ROCK算法在最壞情況下的時(shí)間復(fù)雜度為O(n2+nmmma+n2logn)，其中mm和ma分別是近鄰數(shù)目的最大值和平均值，n是對(duì)象的個(gè)數(shù)。第63頁(yè)，共122頁(yè)，2023年，2月20日，星期五（4）CURE：使用代表點(diǎn)聚類方法使用代表點(diǎn)的聚類方法（ClusteringUsingRepresentative,CURE）解決了偏好球形和相似大小的問題，在處理孤立點(diǎn)上也更加健壯。CURE選擇了位于基于質(zhì)心和基于代表對(duì)象方法之間的中間策略，它不用單個(gè)質(zhì)心或?qū)ο髞泶硪粋€(gè)簇，而是選擇數(shù)據(jù)空間中固定數(shù)目的具有代表性的點(diǎn)。一個(gè)簇的代表點(diǎn)通過如下方式產(chǎn)生：首先選擇簇中分散的對(duì)象然后根據(jù)一個(gè)特定的分?jǐn)?shù)或收縮因子向簇中心收縮或移動(dòng)它們?cè)谒惴ǖ拿恳徊?，有最近距離的代表點(diǎn)對(duì)（每個(gè)點(diǎn)來自于一個(gè)不同的簇）的兩個(gè)簇被合并第64頁(yè)，共122頁(yè)，2023年，2月20日，星期五（4）CURE：使用代表點(diǎn)聚類方法每個(gè)簇有多于一個(gè)的代表點(diǎn)使得CURE算法可以適應(yīng)非球形的幾何形狀。簇的收縮或凝聚可以有助于控制孤立點(diǎn)的影響。因此，CURE算法對(duì)于孤立點(diǎn)的處理更加健壯，而且能夠識(shí)別非球形和大小變化較大的簇。對(duì)于大規(guī)模數(shù)據(jù)庫(kù)，它也具有良好的伸縮性，而且沒有犧牲聚類質(zhì)量。第65頁(yè)，共122頁(yè)，2023年，2月20日，星期五（4）CURE：使用代表點(diǎn)聚類方法針對(duì)大型數(shù)據(jù)庫(kù)，CURE算法采用隨機(jī)取樣和劃分兩種方法的組合：一個(gè)隨機(jī)樣本首先被劃分，每個(gè)劃分在被部分聚類；然后這些聚類結(jié)果簇被聚類產(chǎn)生希望的結(jié)果。該算法的具體過程如下。Step1源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S；Step2將樣本S分割為一組劃分；Step3對(duì)每個(gè)劃分局部地聚類；Step4通過隨機(jī)取樣剔除孤立點(diǎn)。如果一個(gè)簇增長(zhǎng)的太慢，就去掉它；Step5對(duì)局部的簇進(jìn)行聚類。落在每個(gè)新形成的簇中的代表點(diǎn)根據(jù)用戶定義的一個(gè)收縮因子α收縮或向簇中心移動(dòng)。這些點(diǎn)代表了簇的形狀；Step6用相應(yīng)的簇標(biāo)簽來標(biāo)記數(shù)據(jù)。第66頁(yè)，共122頁(yè)，2023年，2月20日，星期五（4）CURE：使用代表點(diǎn)聚類方法CURE算法特點(diǎn)：CURE算法可以適應(yīng)非球形的幾何形狀算法對(duì)孤立點(diǎn)的處理更加健壯能夠識(shí)別非球形和大小變化較大的簇；CURE算法的復(fù)雜性為O(n)。CURE從源數(shù)據(jù)對(duì)象中抽取一個(gè)隨機(jī)樣本S，基于對(duì)此樣本的劃分進(jìn)行聚類，如果抽取的樣本發(fā)生傾斜，則會(huì)嚴(yán)重影響聚類結(jié)果。第67頁(yè)，共122頁(yè)，2023年，2月20日，星期五（5）Chameleon：動(dòng)態(tài)建模層次聚類Chameleon是一個(gè)在層次聚類中利用動(dòng)態(tài)模型的層次聚類算法，屬于凝聚聚類技術(shù)。在聚類過程中，如果兩個(gè)簇之間的互連性和近似度與簇內(nèi)部對(duì)象間的互連性和近似度高度相關(guān)，則合并這兩個(gè)簇。基于動(dòng)態(tài)模型的合并過程有利于自然的和相似的聚類的發(fā)現(xiàn)，而且只要定義了相似度函數(shù)就可以應(yīng)用于所有類型的數(shù)據(jù)。第68頁(yè)，共122頁(yè)，2023年，2月20日，星期五（5）Chameleon：動(dòng)態(tài)建模層次聚類Chameleon通過兩個(gè)簇的相對(duì)互連度RI(Ci,Cj)和相對(duì)接近度RC(Ci,Cj)來決定簇之間的相似度。相對(duì)互連度是被簇的內(nèi)部互聯(lián)度規(guī)范化的兩個(gè)簇的絕對(duì)互連度，如果結(jié)果簇中的點(diǎn)之間連接幾乎和原來的每個(gè)簇一樣強(qiáng)，兩個(gè)簇合并，數(shù)學(xué)表述為：其中，EC{Ci,Cj}是連接簇Ci和Cj的邊之和；類似地，ECCi（或ECCj

）是二分簇Ci（或Cj）的割邊最小和。(6-23)第69頁(yè)，共122頁(yè)，2023年，2月20日，星期五（5）Chameleon：動(dòng)態(tài)建模層次聚類相對(duì)接近度是被簇的內(nèi)部互聯(lián)度規(guī)范化的兩個(gè)簇的絕對(duì)接近度，兩個(gè)簇合并，僅當(dāng)結(jié)果簇中的點(diǎn)之間的接近程度幾乎與原來的每個(gè)簇一樣。數(shù)學(xué)表述為：其中，|Ci|和|Cj|分別是簇Ci和Cj的大??；(6-24)是連接Ci和Cj節(jié)點(diǎn)的邊的平均權(quán)值；是二分簇Ci（或Cj）的邊的平均權(quán)值；EC表示割邊。第70頁(yè)，共122頁(yè)，2023年，2月20日，星期五（5）Chameleon：動(dòng)態(tài)建模層次聚類Chameleon算法的思想是：首先通過一個(gè)圖劃分算法將數(shù)據(jù)對(duì)象聚類為大量相對(duì)較小的子聚類，然后用一個(gè)凝聚的層次聚類算法通過反復(fù)地合并子類來找到真正的結(jié)果簇。Chameleon既考慮了互連性，又考慮了簇間的近似度，特別是簇內(nèi)部的特征，來確定最相似的子簇。它不依賴于一個(gè)靜態(tài)的，用戶提供的模型，能夠自動(dòng)地適應(yīng)被合并的簇的內(nèi)部特征。第71頁(yè)，共122頁(yè)，2023年，2月20日，星期五（5）Chameleon：動(dòng)態(tài)建模層次聚類與CURE和DBSCAN相比：Chameleon在發(fā)現(xiàn)高質(zhì)量的任意形狀的聚類方面有更強(qiáng)的能力但是在最壞的情況下，高維數(shù)據(jù)的處理代價(jià)可能對(duì)n個(gè)對(duì)象需要O(n2)的時(shí)間第72頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.5基于密度的聚類方法基于密度的聚類方法將簇看作數(shù)據(jù)空間中由低密度區(qū)域分隔開的高密度對(duì)象區(qū)域。主要思想：只要臨近區(qū)域的密度（對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目）超過某個(gè)閾值，就繼續(xù)聚類，即對(duì)給定類中的每個(gè)數(shù)據(jù)點(diǎn)，在一個(gè)給定范圍的區(qū)域中必須至少包含某個(gè)數(shù)目的點(diǎn)?；诿芏鹊木垲惙椒梢杂脕磉^濾噪聲孤立點(diǎn)數(shù)據(jù)，發(fā)現(xiàn)任意形狀的簇。（1）DBSCAN：基于高密度連通區(qū)域聚類（2）OPTICS：通過點(diǎn)排序識(shí)別聚類結(jié)構(gòu)（3）DENCLUE：基于密度分布函數(shù)的聚類第73頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類基于高密度連通區(qū)域的聚類（Density-BasedSpatialClusteringofApplicationwithNoise,DBSCAN）將具有足夠高密度的區(qū)域劃分為簇，并可以在帶有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。它定義簇為密度相連的點(diǎn)的最大集合。定義：一個(gè)給定對(duì)象周圍半徑內(nèi)的區(qū)域稱為該對(duì)象的鄰域。如果一個(gè)對(duì)象的鄰域至少包含最小數(shù)目MinPts的對(duì)象，那么該對(duì)象稱為核心對(duì)象。給定一個(gè)對(duì)象集合D，如果p是在q的鄰域內(nèi)，而q是一個(gè)核心對(duì)象，我們說對(duì)象p從對(duì)象q出發(fā)是直接密度可達(dá)的。第74頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類如果存在一個(gè)對(duì)象鏈p1,p2,…,pn，p1=q，pn=p，對(duì)piD，1in，pi+1是從pi關(guān)于和MinPts直接密度可達(dá)的，則對(duì)象p是從對(duì)象q關(guān)于和MinPts密度可達(dá)的。如果對(duì)象集合D中存在一個(gè)對(duì)象o，使得對(duì)象p和q是從o關(guān)于和MinPts密度相連的。密度可達(dá)性是直接密度可達(dá)性的傳遞閉包，這種關(guān)系式非對(duì)稱的。只有核心對(duì)象之間是相互密度可達(dá)的。基于密度的簇是基于密度可達(dá)性的最大的密度相連對(duì)象的集合，不包含在任何簇中的對(duì)象認(rèn)為是噪聲。第75頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類DBSCAN算法通過檢查數(shù)據(jù)庫(kù)中每個(gè)點(diǎn)的ε-鄰域來尋找聚類。如果一個(gè)點(diǎn)p的ε鄰域包含多于MinPts個(gè)點(diǎn)，則創(chuàng)建一個(gè)以p作為核心對(duì)象的新簇。然后，DBSCAN算法迭代地尋找從這些核心對(duì)象直接密度可達(dá)的對(duì)象，這個(gè)過程可能涉及一些密度可達(dá)簇的合并。當(dāng)沒有新的點(diǎn)可以被添加到任何簇時(shí)，該過程結(jié)束。第76頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類算法：DBSCAN輸入：D：數(shù)據(jù)對(duì)象集合Eps：鄰域或稱為半徑MinPts：密度閾值輸出：k個(gè)簇，使平方誤差最小方法：Step1

讀取D中任意一個(gè)未分類的對(duì)象p；Step2

檢索出與p的距離不大于Eps的所有對(duì)象Neps(p)；Step3

如果|Neps(p)|<MinPts（即p為非核心對(duì)象），則將p標(biāo)記為噪聲，并執(zhí)行Step1；第77頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類Step4

否則（即p為核心對(duì)象），給Neps(p)中的所有對(duì)象打上一個(gè)新的類標(biāo)簽newid，然后將這些對(duì)象壓入堆棧的Seeds中；Step5

讓CurrentObject=Seeds.top；然后檢索屬于Neps(CurrentObject)的所有對(duì)象；如果|Neps(CurrentObject)|>MinPts，則剔除已經(jīng)打上標(biāo)記的對(duì)象，將余下的未分類對(duì)象打上類標(biāo)簽newid，然后壓入堆棧；Step6

Seeds.pop，判斷Seeds是否為空，是，則執(zhí)行Step1

，否則執(zhí)行Step5。第78頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）DBSCAN：基于高密度連通區(qū)域聚類DBSCAN算法不僅可以發(fā)現(xiàn)任意形狀的聚類，對(duì)數(shù)據(jù)輸入順序不敏感，并且具有處理異常數(shù)據(jù)（噪聲）的能力。DBSCAN算法對(duì)用戶定義的參數(shù)是敏感的，而參數(shù)的恰當(dāng)選擇是需要有相關(guān)經(jīng)驗(yàn)的。第79頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）OPTICS：通過點(diǎn)排序識(shí)別聚類結(jié)構(gòu)對(duì)于真實(shí)的，高維的數(shù)據(jù)集合而言，參數(shù)的設(shè)置通常是依靠經(jīng)驗(yàn)，難以確定。絕大多數(shù)算法對(duì)參數(shù)值是非常敏感的：設(shè)置的細(xì)微不同可能導(dǎo)致差別很大的聚類結(jié)果。OPTICS算法通過對(duì)象排序識(shí)別聚類結(jié)構(gòu)。OPTICS沒有顯式地產(chǎn)生一個(gè)數(shù)據(jù)集合簇，它為自動(dòng)和交互的聚類分析計(jì)算一個(gè)簇排序。這個(gè)次序代表了數(shù)據(jù)的基于密度的聚類結(jié)構(gòu)。第80頁(yè)，共122頁(yè)，2023年，2月20日，星期五（3）DENCLUE：基于密度分布函數(shù)的聚類DENCLUE是對(duì)k-means聚類算法的一個(gè)推廣：DENCLUE算法得到的是全局最優(yōu)劃分。DENCLUE主要基于：每個(gè)數(shù)據(jù)點(diǎn)的影響可以用一個(gè)數(shù)學(xué)函數(shù)來形式化地模擬，它描述了一個(gè)數(shù)據(jù)點(diǎn)在鄰域內(nèi)的影響，被稱為影響函數(shù)；數(shù)據(jù)空間的整體密度可以被模型化為所有數(shù)據(jù)點(diǎn)的影響函數(shù)的總和；然后聚類可以通過確定密度吸引點(diǎn)來得到，這里的密度吸引點(diǎn)是全局密度函數(shù)的局部最大。第81頁(yè)，共122頁(yè)，2023年，2月20日，星期五（3）DENCLUE：基于密度分布函數(shù)的聚類DENCLUE算法步驟：Step1對(duì)數(shù)據(jù)點(diǎn)占據(jù)的空間推導(dǎo)密度函數(shù)；Step2識(shí)別局部最大點(diǎn)；Step3通過沿密度增長(zhǎng)最大的方向移動(dòng)，將每個(gè)點(diǎn)關(guān)聯(lián)到一個(gè)密度吸引點(diǎn)；Step4定義與特定的密度吸引點(diǎn)相關(guān)聯(lián)的點(diǎn)構(gòu)成的簇；Step5丟棄密度吸引點(diǎn)的密度小于用戶指定閾值ξ的簇；Step6合并通過密度大于等于ξ的點(diǎn)路徑連接的簇。第82頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.6基于網(wǎng)格的聚類方法基于網(wǎng)格的方法把對(duì)象空間量化為有限數(shù)目的單元，形成了一個(gè)網(wǎng)格結(jié)構(gòu)。所有的聚類操作都在這個(gè)網(wǎng)格結(jié)構(gòu)（即量化的空間）上進(jìn)行。這種方法的主要優(yōu)點(diǎn)是處理速度快，其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目，僅依賴于量化空間中每一維上的單元數(shù)目。（1）STING：統(tǒng)計(jì)信息網(wǎng)格聚類（2）WaveCluster：利用小波變換聚類第83頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）STING：統(tǒng)計(jì)信息網(wǎng)格聚類STING是一種基于網(wǎng)格的多分辨率聚類技術(shù)，它將空間區(qū)域劃分為矩形單元。針對(duì)不同級(jí)別的分辨率，通常存在多個(gè)級(jí)別的矩形單元，這些單元形成了一個(gè)層次結(jié)構(gòu)：高層的每個(gè)單元被劃分為多個(gè)低一層的單元。關(guān)于每個(gè)網(wǎng)格單元屬性的統(tǒng)計(jì)信息（例如平均值、最大值和最小值）被預(yù)先計(jì)算和存儲(chǔ)。這些統(tǒng)計(jì)信息用于回答查詢。第84頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）STING：統(tǒng)計(jì)信息網(wǎng)格聚類優(yōu)點(diǎn)：計(jì)算是獨(dú)立于查詢的；有利于并行處理和增量更新；效率很高。第85頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）STING：統(tǒng)計(jì)信息網(wǎng)格聚類缺點(diǎn)如果粒度比較細(xì)，處理的代價(jià)會(huì)顯著增加；但是，如果網(wǎng)格結(jié)構(gòu)最低層的粒度太粗，將會(huì)降低聚類分析的質(zhì)量；在構(gòu)建一個(gè)父親單元時(shí)沒有考慮孩子單元和其相鄰單元之間的關(guān)系，因此，結(jié)果簇的形狀是isothetic，即所有的聚類邊界或者是水平的，或者是豎直的，沒有對(duì)角的邊界。盡管該技術(shù)有快速的處理速度，但可能降低簇的質(zhì)量和精確性。第86頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）WaveCluster：利用小波變換聚類WaveCluster是一種多分辨率的聚類算法，首先通過在數(shù)據(jù)空間上加一個(gè)多維網(wǎng)格結(jié)構(gòu)來匯總數(shù)據(jù)，然后采用一種小波變換來變換原特征空間，在變換后的空間中找到密集區(qū)域。在該方法中，每個(gè)網(wǎng)格單元匯總了一組映射到該單元中的點(diǎn)的信息。這種匯總信息適合于在內(nèi)存中進(jìn)行多分辨率小波變換和隨后的聚類分析使用。第87頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）WaveCluster：利用小波變換聚類強(qiáng)調(diào)點(diǎn)密集的區(qū)域，而忽視在密集區(qū)域外的較弱的信息。在原始特征空間中的密集區(qū)域成為了附近點(diǎn)的吸引點(diǎn)，距離較遠(yuǎn)的點(diǎn)成為抑制點(diǎn)。能夠自動(dòng)地排除孤立點(diǎn)。有助于發(fā)現(xiàn)不同精度的聚類。聚類速度很快?？梢圆⑿谢５?8頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.7基于模型的聚類方法（1）統(tǒng)計(jì)學(xué)方法COBWEB（2）神經(jīng)網(wǎng)絡(luò)方法SOMs（3）高維數(shù)據(jù)聚類方法第89頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）統(tǒng)計(jì)學(xué)方法COBWEB

COBWEB算法將對(duì)象增量地加入到分類樹中。

COBWEB算法沿著一條適當(dāng)?shù)穆窂较蛳?，修改?jì)數(shù)，尋找可以分類該對(duì)象的最好節(jié)點(diǎn)。

COBWEB算法也計(jì)算為給定對(duì)象創(chuàng)建一個(gè)新的節(jié)點(diǎn)所產(chǎn)生的分類效用。它與基于現(xiàn)存節(jié)點(diǎn)的計(jì)算相比較。根據(jù)產(chǎn)生最高分類效用的劃分，對(duì)象被置于一個(gè)已存在的類，或者為它創(chuàng)建一個(gè)新類。COBWEB算法可以自動(dòng)修正劃分中類的數(shù)目。它不需要用戶提供這樣的輸入?yún)?shù)。第90頁(yè)，共122頁(yè)，2023年，2月20日，星期五（1）統(tǒng)計(jì)學(xué)方法COBWEB

CORWEB算法的優(yōu)點(diǎn)：它不需要用戶輸入?yún)?shù)來確定分類的個(gè)數(shù)，它可以自動(dòng)修正劃分中類的數(shù)目。缺點(diǎn)：首先，它基于這樣一個(gè)假設(shè)：在每個(gè)屬性上的概率分布是彼此獨(dú)立的。由于屬性間經(jīng)常是相關(guān)的，這個(gè)假設(shè)并不總是成立。此外，聚類的概率分布表示使得更新和存儲(chǔ)類相當(dāng)昂貴。因?yàn)闀r(shí)間和空間復(fù)雜度不只依賴于屬性的數(shù)目，而且取決于每個(gè)屬性的值的數(shù)目，所以當(dāng)屬性有大量的取值時(shí)情況尤其嚴(yán)重。第91頁(yè)，共122頁(yè)，2023年，2月20日，星期五（2）神經(jīng)網(wǎng)絡(luò)方法SOMs算法步驟：Step1隨機(jī)選取一組輸入層神經(jīng)元到輸出層神經(jīng)元之間的權(quán)值；Step2選取輸出神經(jīng)元j的鄰接神經(jīng)元集合Sj。Sj(0)是初始時(shí)刻為0的神經(jīng)元集合形狀，Sj(t)則為t

時(shí)刻的形狀；Step3輸入一個(gè)新樣本X；Step4計(jì)算歐式距離dj，即輸入樣本與每個(gè)輸入神經(jīng)元j之間的距離；Step5修正輸出神經(jīng)元j*及其鄰近神經(jīng)元的權(quán)值；Step6重復(fù)Step3-Step5的學(xué)習(xí)過程。第92頁(yè)，共122頁(yè)，2023年，2月20日，星期五（3）高維數(shù)據(jù)聚類方法1）CLIQUE：維增長(zhǎng)子空間聚類方法2）PROCLUS：維歸約子空間聚類方法第93頁(yè)，共122頁(yè)，2023年，2月20日，星期五1）CLIQUE：維增長(zhǎng)子空間聚類方法算法步驟：Step1找出對(duì)應(yīng)于每個(gè)屬性的一維空間中的所有稠密區(qū)域；Step22k；Step3repeat；Step4由稠密的k-1維單元產(chǎn)生所有的候選稠密k維單元；Step5刪除點(diǎn)數(shù)少于ξ的單元；Step6kk+1

；Step7until不存在候選稠密k維單元；Step8通過取所有鄰接的、高密度的單元并發(fā)現(xiàn)簇；Step9使用一小組描述簇中單元的屬性值閾的不等式概括每一個(gè)簇。第94頁(yè)，共122頁(yè)，2023年，2月20日，星期五1）CLIQUE：維增長(zhǎng)子空間聚類方法缺點(diǎn)：CLIQUE算法容易破壞密集區(qū)域的邊緣，降低最終結(jié)果的準(zhǔn)確性。不能自動(dòng)去除數(shù)據(jù)集中的孤立點(diǎn)，增加了計(jì)算復(fù)雜性?？赡軙?huì)剪掉一些密集單元，對(duì)最終的聚類結(jié)果質(zhì)量造成影響。算法的多步驟都采用近似算法，聚類結(jié)果的精確性可能因此降低。第95頁(yè)，共122頁(yè)，2023年，2月20日，星期五2）PROCLUS：維歸約子空間聚類方法投影聚類（PROjectedCLUstering,PROCLUS）是一種典型的維規(guī)約子空間聚類方法，即它不是從單維空間開始，而是從高維的屬性空間中尋找簇的初始近似開始。對(duì)每組各簇賦值一個(gè)權(quán)值，并且在下一輪迭代中使用這些更新的權(quán)重產(chǎn)生簇。這導(dǎo)致在某期望維度的所有子空間中檢測(cè)稠密區(qū)域，并且避免在較低維度的投影維產(chǎn)生大量重疊的維。第96頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.4.8模糊聚類FCM由于模糊聚類得到了樣本屬于各個(gè)類別的不確定性程度，表達(dá)了樣本類屬的中介性，因此更能客觀地反映現(xiàn)實(shí)世界。第97頁(yè)，共122頁(yè)，2023年，2月20日，星期五第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第98頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.5.1辨別分析6.5.2回歸建模6.5.3優(yōu)點(diǎn)和缺點(diǎn)第99頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.5.1辨別分析辯別分析找出一系列數(shù)或權(quán)重描述性分類函數(shù)，該函數(shù)能最大限度地劃分變量類別。辨別分析在發(fā)現(xiàn)變量的相似集合方面很流行，進(jìn)行顧客市場(chǎng)細(xì)分時(shí)此技術(shù)很有用。閾值決定是否將對(duì)象歸入一個(gè)組，如果對(duì)象大于等于閾值，則屬于該組；對(duì)象小于閾值，則屬于另一組。權(quán)重被稱之為辨別系數(shù)，聚類的數(shù)據(jù)挖掘過程與此相似。第100頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.5.2回歸建?；貧w方程用一組獨(dú)立變量和常量估計(jì)一因變量，因此分類研究可以用傳統(tǒng)統(tǒng)計(jì)回歸技術(shù)構(gòu)建。線性回歸模型致力于實(shí)現(xiàn)許多數(shù)據(jù)挖掘工具的功能，如預(yù)測(cè)顧客對(duì)直接郵寄廣告活動(dòng)的反應(yīng)。引入條件概率技術(shù)后，回歸技術(shù)可用于預(yù)測(cè)，預(yù)測(cè)反應(yīng)所用的回歸模型有時(shí)叫做線性概率模型。Logit模型就是回歸模型的一種，其中所有獨(dú)立變量都是分類的；logisticregression模型與logit模型相似，但是此模型中還可有連續(xù)變量。第101頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.5.3優(yōu)點(diǎn)和缺點(diǎn)優(yōu)點(diǎn)精確、易理解且已廣泛使用。缺點(diǎn)統(tǒng)計(jì)學(xué)受到的最大批判是很難有效使用，許多商業(yè)人員更容易掌握數(shù)據(jù)挖掘而無法搞清楚統(tǒng)計(jì)術(shù)語(yǔ)，因此統(tǒng)計(jì)學(xué)家與想利用預(yù)測(cè)模型的商業(yè)人員總是存在隔閡。IBM，SPSS和SAS公司一直在努力將標(biāo)準(zhǔn)的統(tǒng)計(jì)模型與神經(jīng)元網(wǎng)絡(luò)、決策樹及其他與數(shù)據(jù)挖掘有關(guān)的技術(shù)結(jié)合在一起。第102頁(yè)，共122頁(yè)，2023年，2月20日，星期五第六章數(shù)據(jù)挖掘基本算法6.1分類規(guī)則挖掘6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第103頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化6.6.2品種優(yōu)化的算法第104頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6.1品種優(yōu)化品種優(yōu)化是選擇恰當(dāng)?shù)漠a(chǎn)品組合以高質(zhì)量地完成零售商預(yù)定商業(yè)目標(biāo)的過程。這些目標(biāo)可以是短期利潤(rùn)、也可以是長(zhǎng)期市場(chǎng)占有率，還可以構(gòu)建長(zhǎng)期客戶群及其綜合率等。一般品種優(yōu)化包括檢查現(xiàn)有類別產(chǎn)品的品種和決定是否增加或剔除有關(guān)產(chǎn)品。品種優(yōu)化過程可分成兩部分：第一部分要解決的問題是當(dāng)我們從現(xiàn)有的品種減少或往其中增加若干產(chǎn)品時(shí)銷量如何變化；第二部分考慮品種的變化如何影響成本。第105頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6.1品種優(yōu)化（1）銷量銷量具有多樣性和替換性。當(dāng)我們從某一類的產(chǎn)品中去掉一種產(chǎn)品后，去掉產(chǎn)品的部分銷量會(huì)轉(zhuǎn)嫁到剩余產(chǎn)品中，而另一部分銷量則會(huì)消失。當(dāng)我們向某一類產(chǎn)品中添加一種產(chǎn)品，那么這種產(chǎn)品的銷量部分是由原有產(chǎn)品調(diào)撥過來的，而其余銷量則來自從來沒有買過此類產(chǎn)品的新客戶或那些來購(gòu)買此產(chǎn)品的同時(shí)附帶購(gòu)買其他產(chǎn)品的客戶。每一類別中產(chǎn)品的多樣性和替換性之間就呈現(xiàn)出競(jìng)爭(zhēng)的趨勢(shì)。第106頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6.1品種優(yōu)化某一類別所包含的產(chǎn)品越多，該類產(chǎn)品的銷量就可能越高。然而由于產(chǎn)品的替換性，某一產(chǎn)品類別包含的品種越多，每一附加產(chǎn)品對(duì)銷量的邊際影響就越小，所以隨著產(chǎn)品類別中品種數(shù)的增加，銷量的邊際回報(bào)反而減少。由于產(chǎn)品的相似性和可替換性，客戶對(duì)某一產(chǎn)品的需求可能轉(zhuǎn)移到本類產(chǎn)品中的其他產(chǎn)品；同樣，客戶對(duì)某一產(chǎn)品的需求也可能來自本類產(chǎn)品中的其他產(chǎn)品。對(duì)需求轉(zhuǎn)移進(jìn)行評(píng)估的一個(gè)簡(jiǎn)單方法就是采用變化曲線。第107頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6.1品種優(yōu)化（2）成本當(dāng)一個(gè)品種中產(chǎn)品數(shù)量增加到某一水平時(shí)，銷量不再增加。品種數(shù)量在不斷地增加，因此成本總是在增加的。這兩種趨勢(shì)的結(jié)果是，隨著品種的增加，利潤(rùn)會(huì)持續(xù)增加到某一最大值，然后開始減少。因此，存在著一種能獲得最大利潤(rùn)的最優(yōu)的品種數(shù)。品種優(yōu)化問題與兩種成本密切相關(guān)：可避免成本和機(jī)會(huì)成本。第108頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.6.1品種優(yōu)化可避免成本是指通過改變品種可以免除的成本。機(jī)會(huì)成本是改變品種時(shí)損失的利益。第109頁(yè)，共122頁(yè)，2023年，2月20日，星期五6.

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘基本算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘基本算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔