數(shù)據(jù)挖掘(第2版) 課件 第5章 聚類_第1頁
數(shù)據(jù)挖掘(第2版) 課件 第5章 聚類_第2頁
數(shù)據(jù)挖掘(第2版) 課件 第5章 聚類_第3頁
數(shù)據(jù)挖掘(第2版) 課件 第5章 聚類_第4頁
數(shù)據(jù)挖掘(第2版) 課件 第5章 聚類_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)5.1什么是聚類分析?第五章

聚類5.2聚類方法分類5.3

k均值聚類5.4

層次聚類of432高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類5.1

什么是聚類分析?第五章聚類簇:一個(gè)數(shù)據(jù)對象的集合。聚類是將對象集合中的對象分類到不同的類或者簇這樣的一個(gè)過程,使得同一個(gè)簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。簇內(nèi)的相似性越大,簇間差別越大,聚類就越好。聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實(shí)現(xiàn),聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式。按照聚類的主要思路的不同,聚類可以分為:劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類、基于模型的聚類。5.1

什么是聚類分析?第五章聚類聚類典型的應(yīng)用市場銷售。幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個(gè)目標(biāo)明確的市場計(jì)劃。保險(xiǎn)。對購買了汽車保險(xiǎn)的客戶,標(biāo)識哪些有較高平均賠償成本的客戶。城市規(guī)劃。根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅。對搜索引擎返回的結(jié)果進(jìn)行聚類,使用戶迅速定位到所需要的信息。對用戶感興趣的文檔(如用戶瀏覽過的網(wǎng)頁)聚類,從而發(fā)現(xiàn)用戶的興趣模式并用于信息過濾和信息主動推薦等服務(wù)。數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅嚎缮炜s性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域知識;能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的5.1

什么是聚類分析?第五章聚類5.2

第五章

聚類5.1什么是聚類分析?5.3

k均值聚類5.4

層次聚類of436高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類聚類方法分類5.2

聚類方法分類第五章聚類按照聚類方法的主要思路的不同,聚類方法分為:劃分聚類層次聚類基于密度的聚類基于網(wǎng)格的聚類基于模型的聚類5.3

第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.4

層次聚類of438高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類k均值聚類5.3

k均值聚類第五章聚類對于給定的數(shù)據(jù)集,劃分聚類方法首先創(chuàng)建一個(gè)初試劃分,然后采用一種迭代的重定位技術(shù),嘗試通過對象在劃分間的移動來改進(jìn)劃分,直到使評價(jià)聚類性能的評價(jià)函數(shù)的值達(dá)到最優(yōu)為止。劃分聚類方法以距離作為數(shù)據(jù)集中不同數(shù)據(jù)間的相似性度量,將數(shù)據(jù)集劃分成多個(gè)簇。劃分聚類方法是最基本的聚類方法,屬于這樣的聚類方法、k中心點(diǎn)(k-medoids)等。有k均值(k-means)k中心點(diǎn)(k-medoids)5.3

k均值聚類第五章聚類劃分聚類方法的主要思想

給定一個(gè)包含n個(gè)數(shù)據(jù)對象的數(shù)據(jù)集,劃分聚類方法將數(shù)據(jù)對象的數(shù)據(jù)集進(jìn)行k個(gè)劃分,每個(gè)劃分表示一個(gè)簇(類),并且k≤n,同時(shí)滿足兩個(gè)條件:每個(gè)簇至少包含一個(gè)對象,每個(gè)對象屬于且僅屬于一個(gè)簇。對于給定k,劃分聚類方法首先給出一個(gè)初始的劃分,然后采用一種迭代的重定位技術(shù),嘗試通過對象在劃分間移動來改進(jìn)劃分,使得每一次改進(jìn)之后的劃分方案都較前一次更好。好的劃分是指同一簇中的對象之間盡可能“接近”,不同簇中的對象之間盡可能“遠(yuǎn)離”。5.3

k均值聚類第五章聚類劃分聚類方法的評價(jià)函數(shù)評價(jià)函數(shù)著重考慮兩方面,即每個(gè)簇中的對象應(yīng)該是緊湊的,各個(gè)簇間的對象的距離應(yīng)該盡可能遠(yuǎn)。實(shí)現(xiàn)這種考慮的一種直接方法就是觀察聚類C的類內(nèi)差異w(C)和類間差異b(C)。類內(nèi)差異衡量類內(nèi)的對象之間的緊湊性,類間差異衡量不同類之間的距離。類內(nèi)差異可以用距離函數(shù)來表示,最簡單的就是計(jì)算類內(nèi)的每個(gè)對象點(diǎn)到它所屬類的中心的距離的平方和。類間差異定義為類中心之間距離的平方和。5.3

k均值聚類第五章聚類k均值聚類的算法思想(1)從包含n個(gè)數(shù)據(jù)對象的數(shù)據(jù)集中隨機(jī)的選擇k個(gè)對象,每個(gè)對象代表一個(gè)簇的平均值或質(zhì)心或中心;(2)對剩余的每個(gè)數(shù)據(jù)對象點(diǎn)根據(jù)其與各個(gè)簇中心的距離,將它指派到最近的簇;(3)根據(jù)指派到簇的數(shù)據(jù)對象點(diǎn),更新每個(gè)簇的中心;(4)重復(fù)指派和更新步驟,直到簇不發(fā)生變化,或直到中心不發(fā)生變化,或度量聚類質(zhì)量的目標(biāo)函數(shù)收斂。

5.3

k均值聚類第五章聚類k均值算法輸入:所期望的簇的數(shù)目k,包含n個(gè)對象的數(shù)據(jù)集D輸出:k個(gè)簇的集合①從D中任意選擇k個(gè)對象作為初始簇中心;②repeat③將每個(gè)點(diǎn)指派到最近的中心,形成k個(gè)簇;④重新計(jì)算每個(gè)簇的中心;⑤計(jì)算目標(biāo)函數(shù)E;⑥until目標(biāo)函數(shù)E不再發(fā)生變化或中心不再發(fā)生變化;5.3

k均值聚類第五章聚類Python實(shí)現(xiàn)對鳶尾花數(shù)據(jù)集k均值聚類可使用sklearn.cluster中的KMeans模型來實(shí)現(xiàn)k均值算法:sklearn.cluster.KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',n_jobs=1)n_clusters:整形,缺省值為8,擬打算生成的聚類數(shù)。init:簇質(zhì)心初始值的選擇方式,有k-means++、random、以及一個(gè)ndarray三種可選值。n_init:用不同的初始化質(zhì)心運(yùn)行算法的次數(shù),多運(yùn)行幾次以選擇一個(gè)較好的聚類效果,默認(rèn)是10precompute_distances:預(yù)計(jì)算距離,計(jì)算速度快但占用更多內(nèi)存。5.3

k均值聚類第五章聚類KMeans模型的屬性cluster_centers_:輸出聚類的質(zhì)心,數(shù)據(jù)形式是數(shù)組。labels_:輸出每個(gè)樣本點(diǎn)對應(yīng)的類別。inertia_:float型,每個(gè)點(diǎn)到其簇的質(zhì)心的距離的平方和KMeans模型的方法fit(X):在數(shù)據(jù)集X上進(jìn)行k-means聚類。predict(X):對X中的每個(gè)樣本預(yù)測其所屬的類別。fit_predict(X):計(jì)算X的聚類中心,并預(yù)測X中每個(gè)樣本的所屬的類別,相當(dāng)于先調(diào)用fit(X)再調(diào)用predict(X)。score(X[,y]):X中每一點(diǎn)到聚類中心的距離平方和的相反數(shù)。5.3

k均值聚類第五章聚類使用k-means對鳶尾花數(shù)據(jù)集聚類fromsklearn.datasetsimportload_irisfromsklearn.clusterimportKMeansimportmatplotlib.pyplotaspltimportnumpyasnpimportmatplotlibfromsklearn.cross_validationimporttrain_test_split#交叉驗(yàn)證iris=load_iris()#加載數(shù)據(jù)

target=iris.target#提取數(shù)據(jù)集中的標(biāo)簽(花的類別)set(target)#查看數(shù)據(jù)集中的標(biāo)簽的不同值,{0,1,2}iris['feature_names']#查看數(shù)據(jù)的特征名['sepallength(cm)','sepalwidth(cm)','petallength(cm)','petalwidth(cm)']5.3

k均值聚類第五章聚類使用k-means對鳶尾花數(shù)據(jù)集聚類data=iris.data#提取數(shù)據(jù)集中的特征數(shù)據(jù)X=data[:,[0,2]]#提取第1列和第3列,即花萼與花瓣長度y=iris.target#獲取類別屬性數(shù)據(jù)label=np.array(y)#轉(zhuǎn)換數(shù)據(jù)類型index_0=np.where(label==0)#獲取類別為0的數(shù)據(jù)索引#按選取的兩個(gè)特征繪制散點(diǎn)plt.scatter(X[index_0,0],X[index_0,1],marker='o',color='red',edgecolors='k',label='label0')index_1=np.where(label==1)#獲取類別為1的數(shù)據(jù)索引plt.scatter(X[index_1,0],X[index_1,1],marker='*',color='purple',label='label1')5.3

k均值聚類第五章聚類使用k-means對鳶尾花數(shù)據(jù)集聚類index_2=np.where(label==2)#獲取類別為2的數(shù)據(jù)索引plt.scatter(X[index_2,0],X[index_2,1],marker='+',color='blue',label='label2')plt.xlabel('sepallength',fontsize=15)plt.ylabel('petallength',fontsize=15)plt.legend(loc='lowerright')plt.show()#顯示按鳶尾花數(shù)據(jù)集的兩個(gè)特征繪制的散點(diǎn)圖5.3

k均值聚類第五章聚類使用k-means對鳶尾花數(shù)據(jù)集聚類X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)kms=KMeans(n_clusters=3)#構(gòu)造k均值模型,設(shè)定聚類數(shù)為3kms.fit(X_train)#在數(shù)據(jù)集X_train上進(jìn)行k-means聚類label_pred=kms.labels_#獲取聚類標(biāo)簽#繪制k-means結(jié)果x0=X_train[label_pred==0]x1=X_train[label_pred==1]x2=X_train[label_pred==2]plt.scatter(x0[:,0],x0[:,1],color='red',marker='o',edgecolors='k',label='label0')5.3

k均值聚類第五章聚類使用k-means對鳶尾花數(shù)據(jù)集聚類plt.scatter(x1[:,0],x1[:,1],color='blue',marker='*',edgecolors='k',label='label1')plt.scatter(x2[:,0],x2[:,1],c="k",marker='+',label='label2')>>>plt.xlabel('sepallength',fontsize=15)>>>plt.ylabel('petallength',fontsize=15)>>>plt.legend(loc='lowerright')>>>plt.show()#顯示鳶尾花數(shù)據(jù)集k-means聚類的結(jié)果5.3

第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.3

k均值聚類of4321高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類k均值聚類5.3

k均值聚類5.4層次聚類5.4層次聚類第五章聚類層次聚類原理層次聚類是通過遞歸地對數(shù)據(jù)對象進(jìn)行合并或者分裂,直到滿足某種終止條件為止。根據(jù)層次分解是自底向上(合并)還是自頂向下(分裂)形成,層次聚類方法分為凝聚型聚類方法和分裂型聚類方法。自底向上的凝聚層次聚類輸入:n個(gè)對象,終止條件簇的數(shù)目k輸出:k個(gè)簇1:將每個(gè)對象當(dāng)成一個(gè)初始簇2:Repeat3:根據(jù)兩個(gè)簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個(gè)簇4:合并兩個(gè)簇,生成新的簇的集合5:Until達(dá)到定義的簇的數(shù)目5.4層次聚類第五章聚類使用AGNES算法將表格中的數(shù)據(jù)聚為2個(gè)簇。序號屬性1屬性21112123214225346357448455.4層次聚類第五章聚類使用AGNES算法將表格中的數(shù)據(jù)聚為2個(gè)簇。步驟最近的簇距離選取最近的兩個(gè)簇合并后的新簇11{1}、{2}{1,2}、{3}、{4}、{5}、{6}、{7}、{8}21{3}、{4}{1,2}、{3,4}、{5}、{6}、{7}、{8}31{5}、{6}{1,2}、{3,4}、{5,6}、{7}、{8}41{7}、{8}{1,2}、{3,4}、{5,6}、{7,8}51{1、2}、{3、4}{1,2,3,4}、{5,6}、{7,8}61{5、6}、{7、8}

{1,2,3,4}、{5,6,7,8}5.4層次聚類第五章聚類自頂向下的分裂層次聚類首先將所有對象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到每個(gè)對象自成一簇,或者達(dá)到了某個(gè)終止條件,例如達(dá)到了某個(gè)希望的簇?cái)?shù)目,或者兩個(gè)最近的簇之間的距離超過了某個(gè)閾值。經(jīng)典的分裂層次聚類算法以DIANA算法為代表。簇間距離度量方法1)簇間最小距離是指用兩個(gè)簇中所有數(shù)據(jù)點(diǎn)的最近距離代表兩個(gè)簇的距離。2)簇間最大距離是指用兩個(gè)簇所有數(shù)據(jù)點(diǎn)的最遠(yuǎn)距離代表兩個(gè)簇的距離。5.4層次聚類第五章聚類自頂向下的分裂層次聚類簇間距離度量方法3)簇間均值距離是指用兩個(gè)簇各自中心點(diǎn)之間的距離代表兩個(gè)簇的距離。4)簇間平均距離用兩個(gè)簇所有數(shù)據(jù)點(diǎn)間的距離的平均值代表兩個(gè)簇的距離。最小最大度量代表了簇間距離度量的兩個(gè)極端,它們趨向?qū)﹄x群點(diǎn)或噪聲數(shù)據(jù)過分敏感。使用均值距離和平均距離是對最小和最大距離之間的一種折中方法,而且可以克服離群點(diǎn)敏感性問題。盡管均值距離計(jì)算簡單,但是平均距離也有它的優(yōu)勢,因?yàn)樗饶芴幚頂?shù)值數(shù)據(jù)又能處理分類數(shù)據(jù)。5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法importpandasaspdimportnumpyasnpnp.random.seed(150)features=['f1','f2','f3']#設(shè)置特征的名稱labels=["s0","s1","s2","s3","s4"]#設(shè)置數(shù)據(jù)樣本編號X=np.random.random_sample([5,3])*10#生成一個(gè)(5,3)的數(shù)組#通過pandas將數(shù)組轉(zhuǎn)換成一個(gè)DataFrame類型df=pd.DataFrame(X,columns=features,index=labels)5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法print(df)#查看生成的數(shù)據(jù)運(yùn)行上述代碼得到的輸出結(jié)果如下:f1f2f3s09.0858392.5797168.776551s17.3896556.9807655.172086s29.5210969.1364450.781745s37.8232051.1366546.408499s40.7976302.3196603.8595155.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法下面使用scipy庫中spatial.distance子模塊下的pdist函數(shù)來計(jì)算距離矩陣,將矩陣用一個(gè)DataFrame對象進(jìn)行保存。pdist:計(jì)算兩兩樣本間的歐氏距離,返回的是一個(gè)一維數(shù)組squareform:將數(shù)組轉(zhuǎn)成一個(gè)對稱矩陣fromscipy.spatial.distanceimportpdist,squareformdist_matrix=pd.DataFrame(squareform(pdist(df,metric='euclidean')),columns=labels,index=labels)print(dist_matrix)#查看距離矩陣在上述代碼中,基于樣本的特征f1、f2和f3,使用歐幾里得距離計(jì)算了兩兩樣本間的距離,運(yùn)行上述代碼得到的結(jié)果如下:5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法

s0s1s2s3s4s00.0000005.93619810.3487723.0470239.640502s15.9361980.0000005.3352695.9891848.179458s210.3487725.3352690.0000009.92672511.490870s33.0470235.9891849.9267250.0000007.566738s49.6405028.17945811.4908707.5667380.0000005.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法下面通過scipy的linkage函數(shù),獲取一個(gè)以簇間最大距離作為距離判定標(biāo)準(zhǔn)的關(guān)系矩陣。fromscipy.cluster.hierarchyimportlinkage#linkage()以簇間最大距離作為距離判斷標(biāo)準(zhǔn),得到一個(gè)關(guān)系矩陣#linkage()返回長度為n-1的數(shù)組,其包含每一步合并簇的信息,n為數(shù)據(jù)集的樣本數(shù)row_clusters=linkage(pdist(df,metric='euclidean'),method="complete")print(row_clusters)#輸出合并簇的過程信息輸出結(jié)果如下:5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法輸出結(jié)果如下:[[0.3.3.047022522.][1.2.5.335268652.][4.5.9.64050243.][6.7.11.490869655.]]每一行的格式是[idx1,idx2,dist,sample_count]。在第一步[0.3.3.047022522.]中,linkage()決定合并簇0和簇3,因?yàn)樗麄冎g的距離為3.04702252,為當(dāng)前最短距離。這里的0和3分別代表簇在數(shù)組中的下標(biāo)。在這一步中,一個(gè)具有兩個(gè)實(shí)驗(yàn)樣本的簇(該簇在數(shù)組中的下標(biāo)為5)誕生了。5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法#將關(guān)系矩陣轉(zhuǎn)換成一個(gè)DataFrame對象clusters=pd.DataFrame(row_clusters,columns=["label1","label2","distance","samplesize"],index=["cluster%d"%(i+1)foriinrange(row_clusters.shape[0])])print(clusters)輸出結(jié)果如下:label1label2distancesamplesizecluster10.03.03.0470232.0cluster21.02.05.3352692.0cluster34.05.09.6405023.0cluster46.07.011.4908705.0結(jié)果的第一列表示合并過程中新生成的簇,第二列和第三列表示被合并的兩個(gè)簇,第四列表示的是兩個(gè)簇的歐氏距離,最后一列表示的是合并后的簇中的樣本的數(shù)量。第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.3

k均值聚類of4334高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.4層次聚類5.5密度聚類5.5

密度聚類第五章聚類密度聚類原理基于密度的聚類方法以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)進(jìn)行聚類,無需預(yù)先設(shè)定簇的數(shù)量,特別適合對于未知內(nèi)容的數(shù)據(jù)集進(jìn)行聚類?;诿芏鹊木垲惙椒ǖ拇硭惴镈BSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪聲的基于密度的聚類)算法?;诿芏染垲惙椒ǖ幕舅枷胧牵褐灰粋€(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)閾值,就把它加到與之相近的聚類中去,對于簇中每個(gè)對象,在給定的半徑的ε鄰域中至少要包含最小數(shù)目(MinPts)個(gè)對象。5.5

密度聚類第五章聚類DBSCAN聚類算法所用到的基本術(shù)語對象的

鄰域:給定對象半徑為

內(nèi)的區(qū)域稱為該對象的

鄰域。核心對象:如果給定對象

鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts,則稱該對象為核心對象。如下圖中,設(shè)定

=1、MinPts=5,q是一個(gè)核心對象。MinPts:數(shù)據(jù)對象的

鄰域中至少包含的對象數(shù)目。直接密度可達(dá):如果p在q的

鄰域內(nèi),而q是一個(gè)核心對象,則稱對象p從對象q出發(fā)是直接密度可達(dá)的。5.5

密度聚類第五章聚類密度可達(dá)如果存在一個(gè)對象鏈p1,…,pn,q=p1,p=pn,使得pi+1是從pi關(guān)于

和MinPts是直接密度可達(dá)的,則對象p是從對象q關(guān)于

和MinPts密度可達(dá)的 密度相連如果存在對象o∈D,使對象p和q都是從o關(guān)于

和MinPts密度可達(dá)的,那么對象p和q是關(guān)于

和MinPts密度相連的pqop=pnq=p1p25.5

密度聚類第五章聚類DBSCAN算法

5.5

密度聚類第五章聚類Python實(shí)現(xiàn)DBSCAN密度聚類sklearn.cluster庫提供了DBSCAN模型來實(shí)現(xiàn)DBSCAN聚類,其語法格式如下。DBSCAN(eps=0.5,min_samples=5,metric='euclidean',algorithm='auto',leaf_size=30,p=None,n_jobs=1)參數(shù)說明如下:eps:ε參數(shù),float型,可選,用于確定鄰域大小。min_samples:int型,MinPts參數(shù),用于判斷核心對象。metric:string型,用于計(jì)算特征向量之間的距離,可以用默認(rèn)的歐氏距離,還可以自己定義距離函數(shù)。algorithm:{'auto','ball_tree','kd_tree','brute'},最近鄰搜索算法參數(shù),默認(rèn)為auto,brute是蠻力實(shí)現(xiàn),kd_tree是kd樹實(shí)現(xiàn),ball_tree是球樹實(shí)現(xiàn),auto則會在三種算法中做權(quán)衡,選擇一個(gè)最好的算法。5.5

密度聚類第五章聚類Python實(shí)現(xiàn)DBSCAN密度聚類DBSCAN(eps=0.5,min_samples=5,metric='euclidean',algorithm='auto',leaf_size=30,p=None,n_jobs=1)參數(shù)說明如下:leaf_size:int型,默認(rèn)為30,控制kd樹或者球樹中葉子中的最小樣本個(gè)數(shù)。這個(gè)值越小,則生成的kd樹或者球樹就越大,層數(shù)越深,建樹時(shí)間越長,反之,則生成的kd樹或者球樹會小,層數(shù)較淺,建樹時(shí)間較短。p:最近鄰距離度量參數(shù)。只用于閔可夫斯基距離和帶權(quán)重閔可夫斯基距離中p值的選擇,p=1為曼哈頓距離,p=2為歐式距離。n_jobs:整型,指定計(jì)算所用的進(jìn)程數(shù)。若值為-1,則用所有的CPU進(jìn)行運(yùn)算。若值為1,則不進(jìn)行并行運(yùn)算,這樣方便調(diào)試。5.5

密度聚類第五章聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論