版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Course5
集群分析
ClusterAnalysisOutlines什麼是集群分析?集群分析的典型應(yīng)用集群分析應(yīng)用實(shí)例什麼是好的集群分析?資料挖掘?qū)悍治龅囊蠹悍治鲋械馁Y料類型相異度計(jì)算主要的集群方法離異值挖掘什麼是集群分析?集群(Cluster:聚類、簇、分群):資料對(duì)象的集合所謂集群是指一群人、事、物或資料的組合,這些人、事、物或資料統(tǒng)稱為Object或?qū)ο笤谕粋€(gè)集群(簇)中的Object彼此相似不同集群中的Object則相異集群分析將一堆Objects分成幾個(gè)群,使性質(zhì)相似的對(duì)象自成一個(gè)小集群的過程假設(shè)每個(gè)對(duì)象在許多屬性(或欄位)上均有一個(gè)觀測(cè)分?jǐn)?shù),有人在某些屬性上分?jǐn)?shù)較高,在其它屬性上分?jǐn)?shù)較低。每個(gè)對(duì)象在這些屬性上分?jǐn)?shù)高低的情況,即為該Object在這些欄位上分?jǐn)?shù)的Profiles(輪廓),每個(gè)profile在幾何座標(biāo)圖中以一點(diǎn)表示。集群是一種無指導(dǎo)的學(xué)習(xí)︰沒有預(yù)先定義的類別編號(hào)集群分析的資料挖掘功能作為一個(gè)獨(dú)立的工具來獲得資料分配的情況作為其他演算法(如︰特徵和分類)的預(yù)先處理步驟以不同方式對(duì)相同集合之資料點(diǎn)做分群集群分析的典型應(yīng)用模式識(shí)別空間資料分析在GIS系統(tǒng)中,對(duì)相似區(qū)域進(jìn)行集群,產(chǎn)生主題地圖檢測(cè)空間集群,並給出它們?cè)诳臻g資料挖掘中的解釋圖像處理市場(chǎng)研究WWW對(duì)WEB上的文件進(jìn)行分類對(duì)WEB日誌的資料進(jìn)行集群,以發(fā)現(xiàn)相同的用戶訪問模式資訊檢索什麼是好的集群分析?一個(gè)好的集群分析方法會(huì)產(chǎn)生高品質(zhì)的集群高的群內(nèi)相似度低的群間相似度作為統(tǒng)計(jì)學(xué)的一個(gè)分支,集群分析的研究主要是基於距離的集群;一個(gè)高品質(zhì)的集群分析結(jié)果,將取決於所使用的集群方法集群方法所使用的相似性度量和方法的實(shí)施方法發(fā)現(xiàn)隱藏模式的能力資料挖掘?qū)悍治龅囊罂闪慷刃?Scalability)許多分群的方法運(yùn)用在少量資料的分群結(jié)果很好,但是對(duì)於龐大的資料其結(jié)果會(huì)造成偏差(Bias),因此分群的可量度性是需要的。處理不同資料類型的能力數(shù)字型,二元類型,類別型/區(qū)間型,順序型,比例型等等。發(fā)現(xiàn)任意形狀群體的能力基於距離的集群演算法往往發(fā)現(xiàn)的是球形的集群,然而現(xiàn)實(shí)的集群可能是任意形狀的決定輸入?yún)?shù)的最少領(lǐng)域知識(shí)許多方法都需要輸入?yún)?shù),然而參數(shù)很難決定,尤其是對(duì)於高維度資料,這使得集群的結(jié)果品質(zhì)很難控制處理雜訊資料的能力對(duì)空缺值、離異值、資料雜訊不敏感對(duì)於輸入資料的順序不敏感某些方法不能將新資料加入現(xiàn)有的群組資料中,它必須對(duì)全部資料重新進(jìn)行群。也有一些方法會(huì)受輸入資料順序的影響。同一個(gè)資料集合,以不同的次序提交給同一個(gè)演算法,應(yīng)該產(chǎn)生相似的結(jié)果。高維度高維度(多屬性)的資料往往比較稀疏或高度扭曲。基於限制的集群實(shí)際應(yīng)用需要在不同的限制下進(jìn)行分群。分群要使每個(gè)群組滿足特定限制??山忉屝院涂捎眯允褂谜邥?huì)希望群組的結(jié)果具解釋性、了解性與使用性。相異度計(jì)算許多集群演算法都是以相異矩陣為基礎(chǔ),如果資料是用資料矩陣形式表示,則往往要將其先轉(zhuǎn)化為相異矩陣。相異度d(i,j)的具體計(jì)算會(huì)因所使用的資料類型不同而不同,常用的資料類型包括︰區(qū)間變數(shù)二元變數(shù)類別型、順序型和比例型變數(shù)混合類型的變數(shù)區(qū)間變數(shù)(Interval-scaledVariables)區(qū)間變數(shù)是一個(gè)線性尺度下的連續(xù)值,比如重量、高度等選用的度量單位將直接影響集群分析的結(jié)果,因此需要實(shí)現(xiàn)度量值的標(biāo)準(zhǔn)化,將原來的值轉(zhuǎn)化為無單位的值,讓每個(gè)變數(shù)能有相同的權(quán)重。給定一個(gè)變數(shù)f的度量值,可使用以下兩步驟轉(zhuǎn)換︰計(jì)算平均絕對(duì)偏差其中計(jì)算標(biāo)準(zhǔn)化的度量值(z-score)使用平均絕對(duì)偏差往往比使用標(biāo)準(zhǔn)差更具有健壯性對(duì)象間的相似度和相異度對(duì)象間的相似度和相異度是基於兩個(gè)對(duì)象間的距離來計(jì)算的歐幾里得(Euclidean)距離i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是兩個(gè)p維資料對(duì)象曼哈頓(Manhattan)距離二元變數(shù)(BinaryVariable)一個(gè)二元變數(shù)只有兩種狀態(tài)︰0或1;e.g.smoker來表示是否吸煙一個(gè)對(duì)象可以包含多個(gè)二元變數(shù)。二元變數(shù)的列聯(lián)表(ContingencyTable)︰如何計(jì)算兩個(gè)二元變數(shù)之間的相似度?ObjectiObjectj對(duì)稱的v.s.不對(duì)稱的二元變數(shù)對(duì)稱的二元變數(shù)指變數(shù)的兩個(gè)狀態(tài)具有同等價(jià)值,相同權(quán)重;e.g.性別根據(jù)對(duì)稱的二元變數(shù)所產(chǎn)生的不相似度稱為對(duì)稱二元相異度(SymmetricBinaryDissimilarity),可以使用簡(jiǎn)單匹配系數(shù)評(píng)估它們的相異度︰不對(duì)稱的二元變數(shù)中,變數(shù)的兩個(gè)狀態(tài)的重要性是不同的;e.g.HIV陽(yáng)性v.sHIV陰性根據(jù)不對(duì)稱的二元變數(shù)所產(chǎn)生的不相似度稱為非對(duì)稱二元相異度(AsymmetricBinaryDissimilarity)。兩個(gè)0的一致在這裡並不重要。二元變數(shù)的相異度──範(fàn)例二元變數(shù)之間的相異度(病患記錄表)“姓名”是對(duì)象標(biāo)識(shí)“性別”是對(duì)稱的二元變數(shù)其餘屬性都是非對(duì)稱的二元變數(shù)如過Y和P(positive陽(yáng)性)為1,N為0,則︰有一個(gè)混合類型變數(shù)的資料表如下:假設(shè)目前僅使用到屬性1來建構(gòu)一個(gè)4×4相異矩陣(如下左),利用簡(jiǎn)單匹配方法可計(jì)算出該矩陣之所有值(如下右):個(gè)體編號(hào)屬性1(類別)屬性2(順序)屬性3(比例)1黃極佳4452綠一般223藍(lán)佳1644黃極佳1210方法二︰對(duì)M個(gè)類別狀態(tài)中的每個(gè)狀態(tài)創(chuàng)建一個(gè)新的二元變數(shù),並用非對(duì)稱的二元變數(shù)來編碼類別變數(shù)個(gè)體編號(hào)紅綠藍(lán)黃粉紅取值10 00 10黃20 10 00綠
30 01 00藍(lán)40 00 10黃順序變數(shù)(DiscreteordinalVariable)一個(gè)順序型變數(shù)可以是離散的或者是連續(xù)的順序型變數(shù)的值之間是有順序關(guān)係的,比如︰講師、助理教授、副教授、正教授。假設(shè)有n個(gè)objects,f是一個(gè)順序變數(shù),f的相異度計(jì)算如下︰1.xif為objecti於變數(shù)f中的值,並假設(shè)變數(shù)f有Mf個(gè)順序狀態(tài)1,2,…,Mf。用xif相對(duì)應(yīng)之狀態(tài)的順序狀態(tài)取代xif。2.將每個(gè)變數(shù)的值域映射到[0,1]的空間3.採(cǎi)用區(qū)間變數(shù)的相異度計(jì)算方法,利用zif計(jì)算相異度比例變數(shù)(Ratio-scaledVariable)一個(gè)比例變數(shù)xif是使用非線性的尺標(biāo)中所取的正度量值,例如指數(shù)標(biāo)度。AeBtorAe-Bt
其中,A與B為正常數(shù),t通常是表示時(shí)間有三種計(jì)算比例變數(shù)對(duì)象之間的相異度方法:採(cǎi)用與區(qū)間變數(shù)同樣的方法─但尺度可能被扭曲。將比例變數(shù)進(jìn)行對(duì)數(shù)變化,轉(zhuǎn)換後的yif可視為區(qū)間變數(shù)。yif=log(xif)將xif看作連續(xù)順序資料,將其視作有順序的區(qū)間值來處理利用前述混合類型變數(shù)資料表中的屬性3。此屬性爲(wèi)比例變數(shù),對(duì)屬性3進(jìn)行對(duì)數(shù)轉(zhuǎn)換,我們將object1到4的值轉(zhuǎn)換為2.65,1.34,2.21與3.08。再利用歐幾里得距離計(jì)算相異矩陣。利用前述混合類型變數(shù)資料表。屬性1和屬性2處理方式和先前相同,結(jié)果皆介於0到1之間。對(duì)屬性3進(jìn)行對(duì)數(shù)轉(zhuǎn)換後的值分別為2.65,1.34,2.21與3.08,所以max=3.08、min=1.34。將原先比例變數(shù)所得到的相異矩陣之所有值除以(3.08-1.34)=1.74,會(huì)得到新的相異矩陣接下來,將三個(gè)不同類型變數(shù)所求得之相異矩陣,其每個(gè)相對(duì)位置之值代入下列公式即可。
例如:d(2,1)=[1(1)+1(1)+1(0.75)]/3=0.92。所以,會(huì)得到新的混合變數(shù)之相異矩陣:主要的集群方法集群分析演算法種類繁多,主要有以下幾類:分割方法(PartitioningMethods)階層式的方法(HierarchicalMethods)基於密度的方法(Density-basedMethods)基於網(wǎng)格的方法(Grid-basedMethods)基於模型的方法(Model-basedMethods)…實(shí)際應(yīng)用中的集群演算法,往往是上述集群方法中多種方法的整合分割式集群分析主要概念:事先挑選集群核心和訂定臨界值,所有Objects與該集群核心之距離只要沒有超過臨界值,一律歸併入該集群內(nèi),否則屬於其它集群。ABCDEFG給定一個(gè)具有n個(gè)對(duì)象的資料庫(kù),一個(gè)分割方法會(huì)構(gòu)建資料的k個(gè)分割區(qū)域,每個(gè)區(qū)域表示一個(gè)集群,並且k≤n。每個(gè)組至少包含一個(gè)對(duì)象每個(gè)對(duì)象屬於且僅屬於一個(gè)組分割準(zhǔn)則︰同一個(gè)集群中的對(duì)象儘可能的接近或相關(guān),不同集群中的對(duì)象儘可能的遠(yuǎn)離或不同集群的表示k-平均演算法(k-Means)由集群的平均值來代表整個(gè)集群k中心點(diǎn)演算法(k-Medoids)由處?kù)都褐行膮^(qū)域的某個(gè)值代表整個(gè)集群以上兩種方法的變形基於質(zhì)心的技術(shù):K平均方法集群的相似度是關(guān)於集群中對(duì)象的平均值之度量,可以看成集群的質(zhì)心(Centroid)K平均方法的計(jì)算流程:隨機(jī)選擇K個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)集群的初始平均值或中心對(duì)剩餘的每個(gè)對(duì)象,根據(jù)它與集群均值的距離,將它指派到最相似的集群計(jì)算每個(gè)集群的新均值回到步驟2循環(huán)執(zhí)行,直到準(zhǔn)則函數(shù)收斂常用的準(zhǔn)則函數(shù):平方差準(zhǔn)則(p是空間中的點(diǎn),mi是集群Ci的均值)K-Means分群法
範(fàn)例K=2任意選擇K個(gè)體當(dāng)作起始群組中心將每個(gè)個(gè)體分配至最接近中心更新群組均值012345678910012345678910更新群組均值重新分配重新分配012345678910012345678910K-Means法建議優(yōu)勢(shì):
相當(dāng)有效率:O(tkn),n為Object數(shù)目,k為群組數(shù)目,t為重複次數(shù)。一般來說k與t皆遠(yuǎn)小於n.相較於其他方法:PAM:O(k(n-k)2),CLARA:O(ks2+k(n-k))經(jīng)常找到區(qū)域最佳解。滿足收歛狀態(tài)的集群可能會(huì)有很多種(初始點(diǎn)、距離公式不同)全域最佳解可用下列方法找到:絕對(duì)降溫法或基因運(yùn)算法則弱勢(shì)是用於均值可定義,那類別資料呢?需要事先設(shè)定群組數(shù)目k無法處理雜訊與離異值不適合發(fā)掘非凸面形狀群組K-Means法變異一些不同k-means主要差異在選擇起始k個(gè)均值不相似計(jì)算計(jì)算群組均值的方法處理類別資料:k-modes(Huang’98)用模式取代群組均值對(duì)類別個(gè)體使用新的不相似指標(biāo)使用頻率式方法來更新群組模式類別與數(shù)值資料混合:k-prototype方法K-means與不同類型的群集K-means和它的變形法在找尋不同類型的群集時(shí)有一些限制,尤其是當(dāng)群集是非球型(non-sphericalshapes),或有各種不同之大小或密度時(shí)。K-means在發(fā)現(xiàn)「自然的」(natural)群集會(huì)有困難有不同大小之K-means群集有不同密度之K-means群集非球狀之K-means群集K-Means方法的問題?k-means對(duì)離異值非常敏感!因?yàn)榫哂袠O大值Object會(huì)扭曲資料分佈平方差函數(shù)將進(jìn)一步惡化這個(gè)這種影響K-Medoids:不使用均值作為群組的參考點(diǎn),我們使用medoids,它是群組最中心的個(gè)體降低對(duì)離異值的敏感度K中心點(diǎn)方法執(zhí)行步驟:K中心點(diǎn)方法仍然基於最小化所有對(duì)象與其對(duì)應(yīng)的參照點(diǎn)之間的相異度之和的原則,使用的是絕對(duì)誤差標(biāo)準(zhǔn)(p是空間中的點(diǎn),代表集群Cj中的個(gè)給定對(duì)象;oj是集群Cj中的代表對(duì)象)本法通常會(huì)重複執(zhí)行,直到每個(gè)代表對(duì)象都成為它的集群之實(shí)際中心點(diǎn)首先隨意選擇初始代表對(duì)象只要能夠提高聚類結(jié)果的品質(zhì),迭代過程就使用非代表對(duì)象替換代表對(duì)象聚類結(jié)果的品質(zhì)是用代價(jià)函數(shù)來評(píng)估,該函數(shù)測(cè)量對(duì)象與其集群的代表對(duì)象之間的平均差異程度。代表對(duì)象替換為了確定非代表對(duì)象Orandom是否能夠替代當(dāng)前代表對(duì)象Oj,對(duì)於每一個(gè)非代表對(duì)象p,考慮四種情況:重新分配將對(duì)代價(jià)函數(shù)產(chǎn)生影響,如果當(dāng)前的代表對(duì)象被非代表對(duì)象所取代,代價(jià)函數(shù)就是計(jì)算絕對(duì)誤差值的差。變換的總代價(jià)是所有非代表對(duì)象所產(chǎn)生的代價(jià)之和總代價(jià)為負(fù),實(shí)際的絕對(duì)誤差E將減少,Oj可以被Orandom所取代總代價(jià)為正,則本次迭代沒有變化K均値法vs.K中心點(diǎn)法當(dāng)存在雜訊和離群點(diǎn)時(shí),K中心點(diǎn)法比K均值法更加強(qiáng)健中心點(diǎn)受離群點(diǎn)的影響較少K中心點(diǎn)方法的執(zhí)行代價(jià)比K均值法要高K均值法:O(nkt)K中心點(diǎn)法:O(k(n-k)2)n與k較大時(shí),K中心點(diǎn)法的執(zhí)行代價(jià)很高兩種方法都要使用者指定集群的數(shù)目K6524階層集群分析N個(gè)Objects未分類前,每個(gè)Object自成一類,共有N類。經(jīng)過N-1次歸類程序後,所有Objects成一個(gè)大集群。每次歸類時(shí)各集群合併的情形及合併後組內(nèi)誤差增加的數(shù)量,會(huì)以階層樹狀圖(Dendrogram)表示。FEGDCBAABCDEFG13使用距離矩陣作為分群條件.這個(gè)方法不需群組數(shù)目k
作為輸入,但是它需要一個(gè)結(jié)束條件步驟0步驟1步驟2步驟3步驟4bdceaabdecdeabcde步驟4步驟3步驟2步驟1步驟0凝聚式(AGNES)分裂式(DIANA)産生階層分群的方法凝聚式的(Agglomerative):開始將每個(gè)對(duì)象作為單獨(dú)的一個(gè)組,然後相繼的合併相近的對(duì)象或組,直到所有的組合併為一個(gè),或者達(dá)到一個(gè)終止條件。這需要定義群集鄰近值(clusterproximity)的概念分裂式的(Divisive):開始將所有的對(duì)象置於一個(gè)集群中,在迭代的每一步,一個(gè)集群被分裂為多個(gè)更小的集群,直到最終每個(gè)對(duì)象在一個(gè)單獨(dú)的集群中,或達(dá)到一個(gè)終止條件在這個(gè)情況下,需要決定在每一步驟中哪一個(gè)群集要被切割,以及如何做切割缺點(diǎn)︰合併或分裂的步驟不能被撤銷凝聚式階層分群階層分群技術(shù)(hierarchicalclusteringtechniques)是第二重要的分群方法類別如同K-means,這些方法和許多分群演算法比起來相對(duì)較久遠(yuǎn),但它們?nèi)匀槐粡V泛使用四個(gè)資料點(diǎn)的階層分群以樹狀圖和巣狀群集表示基本的凝聚式階層分群演算法華德氏階層羣集分析這個(gè)方法在集群分析之始,將每個(gè)Object各視為一個(gè)集群,然後將各集群依次合併。何者先合併,何者後合併,完全視合併後集群之組內(nèi)總變異程度而定。範(fàn)例:距離函數(shù)平方和d2AB=利用前面所求得的距離函數(shù)平方和矩陣,來計(jì)算每對(duì)Objects的組內(nèi)誤差矩陣(ErrorMatrixforEachPairofObjects).組內(nèi)誤差矩陣:同一集群內(nèi)各Profiles間距離函數(shù)之平方和,除以該集群之Objects數(shù)EAB=d2AB/N這些數(shù)據(jù)中以E和F所組成的集群之組內(nèi)誤差最小,因此將E和F合併成一集群,並將之定名為E’EAE’=[EAE(NA+NE)+EAF(NA+NF)+EEF(NE+NF)-EAA(NA)-EEE(NE)EFF(NF)]/(NA+NE+NF)=[38.5(1+1)+33(1+1)+0.5(1+1)-0(1)-0(1)-0(1)]/(1+1+1)=48基於密度的方法基於距離的集群方法的缺點(diǎn)︰只能發(fā)現(xiàn)球狀的集群,難以發(fā)現(xiàn)任意形狀的集群?;睹芏鹊膿?jù)類︰只要臨近區(qū)域的密度(對(duì)象或資料點(diǎn)的數(shù)目)超過某個(gè)臨界值,就繼續(xù)集群。優(yōu)點(diǎn)︰可以過濾掉“雜訊”和“離異值”,發(fā)現(xiàn)任意形狀的集群?;毒W(wǎng)格的方法把對(duì)象空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)格架構(gòu)。所有的集群都在這個(gè)網(wǎng)格架構(gòu)上進(jìn)行。優(yōu)點(diǎn)︰處理數(shù)度快(因?yàn)樘幚頃r(shí)間獨(dú)立於資料對(duì)象數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān))基於模型的方法為每個(gè)集群假定一個(gè)模型,嘗試將資料與給定模型進(jìn)行最適化。一個(gè)基於模型的演算法可能透過構(gòu)建反映資料點(diǎn)空間分配的密度函數(shù)來定位集群這種方法同時(shí)也用於自動(dòng)的決定資料集中集群的數(shù)目透過統(tǒng)計(jì)學(xué)的方法,考慮雜訊和離異值,從而產(chǎn)生健壯的集群方法如何有效的使用集群分析變項(xiàng)的選擇在集群分析之前,研究者首先應(yīng)決定每個(gè)Object應(yīng)具有哪些變項(xiàng)之分?jǐn)?shù)變項(xiàng)的選擇對(duì)集群分析的結(jié)果有重大的影響由於變項(xiàng)的選擇沒有任何統(tǒng)計(jì)法則可供指引,研究者只有依據(jù)理論架構(gòu)小心翼翼的決定變項(xiàng)的標(biāo)準(zhǔn)化如果各變項(xiàng)單位大略一致,可以不必予以標(biāo)準(zhǔn)化;如果單位不一致,則有的研究者常根據(jù)全體資料之標(biāo)準(zhǔn)差將之標(biāo)準(zhǔn)化,使其平均數(shù)各為零,標(biāo)準(zhǔn)差各為1。不過這種標(biāo)準(zhǔn)化方式會(huì)使各羣體在最具區(qū)別力之變項(xiàng)上的差距縮減尚有下列處理辦法:利用其它外界資料(ExternalData)作為尋找同質(zhì)性羣體的參考如果沒有辦法找到外界資料,則可先用全體資料的標(biāo)準(zhǔn)差進(jìn)行集群分析,再根據(jù)分類後各組的組內(nèi)標(biāo)準(zhǔn)差將各組資料標(biāo)準(zhǔn)化相關(guān)變項(xiàng)的處理在集群分析時(shí),如果變項(xiàng)愈多,所需的電腦時(shí)間就隨之急劇增加。因此,如果變項(xiàng)很多,且各變項(xiàng)的相關(guān)性很大,則常使用因素分析(如:主成份分析)將各變項(xiàng)濃縮成數(shù)目較少的因素。然後以幾個(gè)較重要的因素分?jǐn)?shù)作為變項(xiàng),進(jìn)行集群分析。集群分析方法的挑選集群分析的方法非常繁多,但到現(xiàn)在還沒有任何方法被確定為最優(yōu)異的方法,而每個(gè)方法所得的結(jié)果有時(shí)又略有出入。此外,目前集群分析的結(jié)果應(yīng)保留多少集群,雖然學(xué)者已發(fā)展出各種集群顯著性考驗(yàn),但迄今尚乏一個(gè)大家公認(rèn)的理想方法。因此,目前一般研究者採(cǎi)用的應(yīng)對(duì)措施是在做研究時(shí)兼採(cǎi)幾種不同的集群分析,再根據(jù)各種結(jié)果的意義性和可解釋性,從中挑選一個(gè)。樣本的拆半考驗(yàn)為考驗(yàn)集群分析結(jié)果的推廣性,研究者可將樣本隨機(jī)分成二半,對(duì)各半樣本分別進(jìn)行集群分析,然後再檢查這兩半樣本所得的結(jié)果是否一致。各變項(xiàng)重要性的辨認(rèn)在集群分析中所用的各變項(xiàng)並非具有同等的區(qū)別力。如果能了解在一羣變項(xiàng)中何者是關(guān)鍵的變項(xiàng),將是研究上的重要發(fā)現(xiàn)??上纫运械淖冺?xiàng)進(jìn)行集群分析,然後再將所認(rèn)為的可能重要變項(xiàng),從整個(gè)資料矩陣中刪除,再對(duì)剩餘的資料矩陣進(jìn)行集群分析。如果所刪除的變項(xiàng)確為重要變項(xiàng),則兩次分析的結(jié)果將有顯著的不同。離異値挖掘什麼是離異值(Outlier)?與其他一般資料行為或模型有著顯著區(qū)別的資料集合例如︰MichaelJordon,比爾蓋茲…離異值產(chǎn)生原因設(shè)定或執(zhí)行上之錯(cuò)誤(年齡︰-999)與生俱來的資料變異之結(jié)果離異值挖掘給定一個(gè)n個(gè)資料的集合,以及預(yù)期可能找出的離異值個(gè)數(shù)k,發(fā)現(xiàn)與剩餘的資料有著顯著差異的頭k個(gè)資料對(duì)象離異值挖掘可用於異常偵測(cè),主要是要在很多物件中找到不同的物件,通常異常的物件為離異值。異常偵測(cè)(anomalydetection)也稱為偏差偵測(cè)(deviationdetection),因?yàn)楫惓N锛膶傩灾禃?huì)與預(yù)期的或基本的屬性值有顯著的偏差。異常的應(yīng)用範(fàn)例詐欺偵測(cè)(frauddetection):竊取信用卡者的購(gòu)買行為可能會(huì)與信用卡持有人不同,信用卡公司觀察購(gòu)買行為模式或注意基本行為的變化,可偵測(cè)到竊賊。類似的方法也可用於其他類型的詐欺入侵偵測(cè)(intrusiondetection):電腦系統(tǒng)和電腦網(wǎng)路是常見的攻擊行為。部分攻擊是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷凍海水產(chǎn)品購(gòu)銷協(xié)議
- 測(cè)量不確定度
- 八年級(jí)英語上冊(cè) Unit 9 Can you come to my party Section B(2a-2e)教案 (新版)人教新目標(biāo)版
- 安徽省長(zhǎng)豐縣2024-2025學(xué)年高中政治 第四課 第二框 認(rèn)識(shí)運(yùn)動(dòng) 把握規(guī)律教案 新人教版必修4
- 2024年春九年級(jí)化學(xué)下冊(cè) 9 溶液 課題2 溶解度教案 (新版)新人教版
- 2024-2025學(xué)年高中數(shù)學(xué)上學(xué)期第10周 3.1.1方程的根與函數(shù)的零點(diǎn)教學(xué)設(shè)計(jì)
- 2023七年級(jí)英語下冊(cè) Unit 3 How do you get to school Section A 第1課時(shí)(1a-2e)教案 (新版)人教新目標(biāo)版
- 2024-2025年新教材高中生物 第6章 第3節(jié) 細(xì)胞的衰老和死亡教案 新人教版必修1
- 預(yù)制房屋采購(gòu)合同范本(2篇)
- 美味冰淇淋課件
- 循證教學(xué)評(píng)價(jià):數(shù)智化時(shí)代下高校教師教學(xué)評(píng)價(jià)的新取向
- (完整word版)兒童感覺統(tǒng)合能力發(fā)展評(píng)定量表
- 《各種管道的護(hù)理》PPT課件.ppt
- 世界500強(qiáng)企業(yè)簡(jiǎn)要情況及在華機(jī)構(gòu)聯(lián)系方式
- EDQM分析方法驗(yàn)證指導(dǎo)原則
- 專題關(guān)于同一溶質(zhì)不同濃度溶液混合的計(jì)算1
- 商城開發(fā)合同
- 220千伏變電站現(xiàn)場(chǎng)運(yùn)行通用規(guī)程
- 海綿城市建設(shè)難點(diǎn)與對(duì)策
- 幼兒園《交通工具(火車篇)家長(zhǎng)代課》PPT課件
- 我的叔叔于勒(劇本)精編版
評(píng)論
0/150
提交評(píng)論