版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
DataMining
期末報(bào)告
MicrosoftSQL2005Clustering模組運(yùn)用
指導(dǎo)老師:徐俊傑教授
MI0961006陳志傑
MI0961010張哲倫
MI0961014張勝閔
Agenda:前言群集分析群集演算法範(fàn)例實(shí)做-以某旅行社的客戶資料為例解釋與評(píng)估結(jié)果3前言:在人類混沌的歷史中,智慧的開端往往是在於對(duì)週遭環(huán)境的觀察以及歸納,以累積對(duì)於這個(gè)未知世界的理解。西元前2778年,古埃及人發(fā)現(xiàn)根據(jù)星象可以歸納出大約365天的曆法週期。從人類的歷史觀來,從觀察、歸納,一直到產(chǎn)生預(yù)測,正是人類文明累積的必經(jīng)流程,因此在採礦技術(shù)中,除了眾所皆知的預(yù)測演算法之外,同時(shí)也有能夠協(xié)助從大量資料中歸納出有意義的群落。人類將滿天繁星依照位置的相似性構(gòu)成了星座,而星座的象徵性意涵成為了預(yù)測人世的重要基礎(chǔ)。相同的,當(dāng)我們要分析客戶行為的同時(shí),若能將顧客依照行為的同質(zhì)性歸類,這樣的分群架構(gòu)同樣會(huì)成為進(jìn)行後續(xù)預(yù)測的必然前置處理。4前言:在採礦技術(shù)中可以根據(jù)挖掘規(guī)則的型態(tài)大致分成兩類:監(jiān)督式學(xué)習(xí)根據(jù)輸入的變數(shù)來找出與預(yù)測變數(shù)之間的關(guān)連,因此他本身具有預(yù)測能力,如決策樹,正式利用樹狀規(guī)則來歸估未知的預(yù)測變數(shù)。分類規(guī)則是由輸入變數(shù)組合,來對(duì)應(yīng)到預(yù)測變數(shù)各類別發(fā)生的機(jī)率。非監(jiān)督式學(xué)習(xí)找出輸入變數(shù)之間的內(nèi)部關(guān)聯(lián)與型樣(Pattern),沒有要『預(yù)測』的對(duì)象。如哪些客戶的行為比較相似、哪些事物總是相伴或先後發(fā)生。分群規(guī)則是根據(jù)客戶間基本資料或行為模式的相似性,歸納出主要的客戶行為模式,而落再同一群的客戶只是相似性較高,並不具備預(yù)測功能。5前言:由於非監(jiān)督式學(xué)習(xí)沒有明確的輸出形式,因此無法像分類問題般使用準(zhǔn)確度來描述模型好壞,所以相較於監(jiān)督式學(xué)習(xí)可以使用量化的方式來評(píng)估模型的效益,非監(jiān)督式學(xué)習(xí)就有比較多『詮釋』的空間。非監(jiān)督式學(xué)習(xí)呈現(xiàn)的是變數(shù)之間的相似性結(jié)構(gòu),而這些結(jié)構(gòu)往往代表的是一種抽象觀念,是沒有標(biāo)準(zhǔn)答案的,因此不同的角度來觀察事物,可能會(huì)有不同的詮釋角度。6群集分析:群集分析的目的目的在將相似的事物歸類??梢詫⒆償?shù)分類,但更多的應(yīng)用是透過顧客特性做分類,使同類中的事物相對(duì)於某些變數(shù)來說是相同的、相似的或是同質(zhì)的;而類與類之間確有著顯著的差異或是異質(zhì)性。主要是在檢驗(yàn)?zāi)撤N相互依存關(guān)係,主要是顧客間特性的相似或是差異關(guān)係;透過將顧客特性進(jìn)一步分割成若干類別而達(dá)到市場區(qū)隔之目的。7群集分析:群集演算法在商業(yè)上的運(yùn)用包括市場區(qū)隔/顧客行為區(qū)隔透過群集演算法可以根據(jù)既有的資料來找出顧客間自然的相似結(jié)構(gòu)關(guān)係,並根據(jù)群集來設(shè)定市場區(qū)隔策略。最重要的是,群集演算法可以明確地標(biāo)示出每個(gè)顧客是屬於哪個(gè)群組,這對(duì)於行銷人員篩選名單或設(shè)計(jì)客製化行銷話術(shù)都相當(dāng)有幫助。詐欺偵測群集演算法可以找出存在於顧客間的常態(tài)模式,相對(duì)來說,如果某客戶的行為偏離了這些常態(tài)模式,就代表是異常的極端案例。製程問題排除在商品製成的過程中會(huì)進(jìn)行數(shù)十道不等的品管數(shù)值偵測,透過這些品管數(shù)值的分群,可以找出品管數(shù)值之間的相關(guān)性,以及瑕疵品分布的常態(tài)模式,以找出改良製程的關(guān)鍵因素。8群集演算法:集群分析演算法,不需要事先知道資料該分成幾個(gè)已知的類型,而可以依照資料間彼此的相關(guān)程度來完成分類分群的目的。此法可概分為三大類:分割演算法(PartitioningAlgorithms)K-meansK-medoid階層演算法(HierarchicalAlgorithms)凝聚法(Agglomerative)分散法(Divisive)密度演算法(Density-BasedAlgorithms)最大期望值群組(ExpectationMaximization通常稱作E-M演算法)9分割演算法:資料由使用者指定分割成K個(gè)集群群組。每一個(gè)分割(partition)代表一個(gè)集群(cluster),集群是以最佳化分割標(biāo)準(zhǔn)(partitioningcriterion)為目標(biāo),分割標(biāo)準(zhǔn)的目標(biāo)函數(shù)又稱為相似函數(shù)(similarityfunction)。因此,同一集群的資料物件具有相類似的屬性。
分割演算法中最常見的是K-means及K-medoid兩種。此兩種方法是屬於啟發(fā)式(heuristic),是目前使用相當(dāng)廣泛的分割演算法。
10K-means演算法:K-means演算法:集群內(nèi)資料平均值為集群的中心。K-means集群演算法,因?yàn)槠浜唵我嘴恫t解使用的特性,對(duì)於球體形狀(spherical-shaped)、中小型資料庫的資料採礦有不錯(cuò)的成效,可算是一種常被使用的集群演算法。1967年由學(xué)者J.B.MacQueen
所提出,也是最早的組群化計(jì)算技術(shù)。屬於前設(shè)式的群集演算法,也就是必須事前設(shè)定群集的數(shù)量。11K-means演算法:步驟一:任意由n個(gè)物件中選取k個(gè)物件當(dāng)作起始群集中心。步驟二:對(duì)於每個(gè)物件,計(jì)算與各群集中心的距離,取距離最近(相似度高)的群集中心,將該物件歸屬於該群集。步驟三:根據(jù)步驟二的結(jié)果,重新計(jì)算k個(gè)群集中心(群集中各物件的平均值)。步驟四:重複步驟二及步驟三,直到每個(gè)資料物件都沒有再變動(dòng)其所屬群集,完成群集分析。12K-medoid演算法:K-medoid演算法大致與K-means相同,差別在於群集中心的計(jì)算方式不同。K-means是取所有資料物件的平均值做為群集中心,而K-medoid是取最接近中心位置的物件作為群集中心。與K-means演算法只有在步驟三計(jì)算各個(gè)集群中心點(diǎn)的方式略有不同。將步驟三改為隨意由目前不是當(dāng)作集群中心的資料中,選取一欲取代某一集群中心的物件,如果因?yàn)榧褐行母淖?,?dǎo)致物件重新分配後的結(jié)果較好(目標(biāo)函數(shù)值較為理想),則該隨意所選取的物件即取代原先的集群中心,成為新的集群中心。13分割演算法:K-means對(duì)於處理分群資料有明確集中某些地方的情形,有相當(dāng)不錯(cuò)的成效,而雜訊或者獨(dú)立特行資料的處理,K-medoid要比K-means來得好。K-means有一個(gè)比較大的限制是只適合於數(shù)值資料。但從另一個(gè)角度而言,K-medoid相對(duì)於K-means而言計(jì)算較為複雜煩瑣。14階層演算法:此法主要是將資料物件以樹狀的階層關(guān)係來看待。依階層建構(gòu)的方式,一般分成兩種來進(jìn)行:凝聚法:
由下而上(Bottom-up)的演算法,初始時(shí)設(shè)定每個(gè)物件獨(dú)自成為一個(gè)群組,接著依物件的相似度作為群組的合併,直到停止條件到達(dá)或者只剩一個(gè)群組為止。分散法:
由上而下(Top-down)的演算法,初始時(shí)全部物件以歸類為同一群組,接著依相似度將群組分裂,直到停止條件到達(dá)或者每個(gè)群組只剩單一物件為止。當(dāng)建立出階層樹狀結(jié)構(gòu)後,便可依需求得出群集分析結(jié)果。15密度演算法:以資料的密度作為同一集群評(píng)估的依據(jù)。起始時(shí),每個(gè)資料代表一個(gè)集群,接著對(duì)於每個(gè)集群內(nèi)的資料點(diǎn),根據(jù)鄰近區(qū)域半徑及臨界值(threshold),找出其半徑所含鄰近區(qū)域內(nèi)的資料點(diǎn)。如果資料點(diǎn)大於臨界值,將這些鄰近區(qū)域內(nèi)的點(diǎn)全部歸為同一集群,以此慢慢地合併擴(kuò)大集群的範(fàn)圍。如果臨界值達(dá)不到,則考慮放大鄰近區(qū)域的半徑。此法不受限於數(shù)值資料的問題,可適合於任意形狀資料分佈的集群問題,也可以過濾掉雜訊,較適合於大型資料庫及較複雜的集群問題。演算法時(shí)間的複雜度取決於基本單位的數(shù)目多寡,正常狀況下,其時(shí)間複雜度可在有限的時(shí)間內(nèi)完成。
16E-M演算法:輸入n個(gè)資料物件及分群數(shù)k,輸出結(jié)果為k個(gè)機(jī)率分布函數(shù);不同於K-means等演算法,資料物件所屬群別的判斷的判斷為計(jì)算k個(gè)機(jī)率分布函數(shù),求得期望值最大的便是該所屬群別。步驟如下步驟一:初始k個(gè)機(jī)率分布函數(shù)。步驟二:對(duì)每個(gè)資料物件計(jì)算其在各群組的機(jī)率。步驟三:根據(jù)步驟二的結(jié)果重新估計(jì)(最大化期望值)新的k個(gè)分布函數(shù)。步驟四:重複步驟二及步驟三,直到無法提升分群品質(zhì)為止,完成群集分析。17密度演算法:分群品質(zhì)的評(píng)估通常是計(jì)算各資料物件在各群集分布之期望值和,每個(gè)資料物件之期望值和相乘作為評(píng)估值,越大代表群集結(jié)果越好,也就是群集間的相異度越大。缺點(diǎn)是鄰近區(qū)域範(fàn)圍、及門檻值大小的設(shè)定;此兩參數(shù)的設(shè)定直接關(guān)係此演算法的效果。18剛性與柔性群集K-means是以距離作為相似性的依據(jù),屬於「剛性群集(hardclustering)」。將絕對(duì)的「距離」觀念改為相對(duì)的「機(jī)率」觀念時(shí),此時(shí)每一個(gè)案例就會(huì)同時(shí)屬於「所有」的群集,只不過看其中各群集的機(jī)率高低而已。打破了所謂群集邊界的概念,這樣的群集演算法我們稱之為柔性群集(SoftClustering)19群集模型的資料預(yù)處理建議實(shí)務(wù)上在建立群集演算法時(shí)最好還是不要放入類別變數(shù),如果非放不可,請(qǐng)改採用連續(xù)性指派(Arbitrarily
assignment)的技巧來處理類別變數(shù)。例如利用「就學(xué)年限」來取代「學(xué)歷」,如此一來計(jì)算距離時(shí)就會(huì)反映出實(shí)際的大小關(guān)係。常見的連續(xù)性指派可以人工自義數(shù)值之外,還可以利用一些外部統(tǒng)計(jì)資料來取代。20群集模型的資料預(yù)處理如果目標(biāo)是用群集演算法來找出客戶的市場區(qū)隔時(shí),自然是希望找出「常態(tài)」的行為模式,此時(shí)就必頇要處理極端值。如果分析的目的是希望要進(jìn)行詐欺偵測,那麼反而目標(biāo)是希望要找出「極端」的群集,那麼其實(shí)極端值就不需要處理。連續(xù)變數(shù)母體的統(tǒng)計(jì)值是處於經(jīng)常變動(dòng)的狀態(tài)下,如果我們使用該變數(shù)的絕對(duì)數(shù)值來進(jìn)行建模時(shí),可能會(huì)因?yàn)閿?shù)值基準(zhǔn)變動(dòng)而造成誤差。則建議不要使用「絕對(duì)數(shù)值」,而建議改用「相對(duì)數(shù)值」。而「相對(duì)數(shù)值」最常用的就是「Z分?jǐn)?shù)」以及「比率」。避免使用大量意義重複的變數(shù)。21範(fàn)例-某旅行社之客戶資料以下將利用一組某旅行社之客戶基本資料來說明MicrosoftSQL2005DataMiningCluster之實(shí)際程序與應(yīng)用。此組資料型態(tài)並不完全類似於真正的企業(yè)結(jié)構(gòu),其中資料也經(jīng)過了些許的修改與轉(zhuǎn)換。其Mining過程分為下列四個(gè)步驟:步驟一:定義目標(biāo)。步驟二:準(zhǔn)備資料。步驟三:運(yùn)用資料探勘技術(shù)。步驟四:解釋及評(píng)估結(jié)果。22定義目標(biāo)本範(fàn)例共記錄了115筆客戶資料,依據(jù)9類輸入變數(shù),期望能針對(duì)不同客戶族群進(jìn)行有效的行銷。23準(zhǔn)備資料本範(fàn)例之輸入變數(shù)如下:24運(yùn)用資料探勘技術(shù)開啟MicrosoftVisualStudio2005新增AnalysisServices專案25運(yùn)用資料探勘技術(shù)於右側(cè)方案總管之資料來源處點(diǎn)滑鼠右鍵,選擇新增資料來源26運(yùn)用資料探勘技術(shù)選擇『依據(jù)現(xiàn)有或新的聯(lián)接建立資料來源』27運(yùn)用資料探勘技術(shù)依需求選擇身分認(rèn)證方式28運(yùn)用資料探勘技術(shù)輸入DataSource名稱29運(yùn)用資料探勘技術(shù)於右側(cè)方案總管之資料來源檢視處點(diǎn)滑鼠右鍵,選擇新增資料來源檢視30運(yùn)用資料探勘技術(shù)確認(rèn)左側(cè)之『關(guān)聯(lián)式資料來源』為剛剛所建立之DataSource31運(yùn)用資料探勘技術(shù)依需求選擇不同之關(guān)聯(lián)32運(yùn)用資料探勘技術(shù)於左側(cè)『可用物件』處選擇欲探勘之資料表,將其移至右側(cè)『包含的物件』當(dāng)中33運(yùn)用資料探勘技術(shù)輸入資料來源檢視之名稱,點(diǎn)擊完成。34運(yùn)用資料探勘技術(shù)於右側(cè)方案總管之採礦結(jié)構(gòu)處點(diǎn)滑鼠右鍵,選擇新增採礦結(jié)構(gòu)35運(yùn)用資料探勘技術(shù)選取『從現(xiàn)有的關(guān)聯(lián)式資料庫或資料倉儲(chǔ)』。36運(yùn)用資料探勘技術(shù)採礦技術(shù)處選擇『Microsoft群集』。37運(yùn)用資料探勘技術(shù)於資料來源檢視的地方選擇之前所建立的資料來源檢視。38運(yùn)用資料探勘技術(shù)此處只有單一資料表,故勾選案例即可。39運(yùn)用資料探勘技術(shù)將欲輸入的變數(shù)在輸入處打勾,並將身分證字號(hào)當(dāng)作key值,勾選於索引鍵處。群集演算法本身並沒有要預(yù)測的標(biāo)的,而是根據(jù)輸入變數(shù)來找出案例之間的相似關(guān)係,因此群集演算法不需輸入預(yù)測變數(shù)。Microsoft群集演算法是支援輸入可預(yù)測變數(shù),同時(shí)可以產(chǎn)生預(yù)測結(jié)果,但預(yù)測能力很差,因此不建議使用。40運(yùn)用資料探勘技術(shù)調(diào)整輸入變數(shù)的內(nèi)容類型與資料類型。41運(yùn)用資料探勘技術(shù)輸入採礦結(jié)構(gòu)名稱與採礦模型名稱,即可完成。42解釋及評(píng)估結(jié)果切換至『採礦模型檢視器』分頁43解釋及評(píng)估結(jié)果『採礦模型』處理步驟44解釋及評(píng)估結(jié)果顏色越深的群集代表所包含的案件數(shù)越多比例表現(xiàn),其數(shù)字表示最大之比例選擇關(guān)聯(lián)強(qiáng)度45解釋及評(píng)估結(jié)果群集1的單筆交易金額超過7.2萬以上的比例最高,有99%群集2、3、5、7、8、9中之單筆交易金額皆低於7.2萬46解釋及評(píng)估結(jié)果類別變數(shù)群集類型與變數(shù)圖示連續(xù)變數(shù)集群類型比例集群類型與變數(shù)解釋47解釋及評(píng)估結(jié)果集群類型各解釋變數(shù)之機(jī)率值選擇欲查詢之群組平均每年出國2.5~3.4的人佔(zhàn)全部的24.98%各變數(shù)範(fàn)圍48解釋及評(píng)估結(jié)果集群類型間之比較選擇欲比較之群組自由行次數(shù)在2.6~6.0完全落在群集149解釋及評(píng)估結(jié)果由以上過程可看出群集1對(duì)於公司而言是屬於『大戶』,為方便人員解讀,可將其改為較有意義之文字。50參數(shù)調(diào)整CLUSTER_COUNT:群集數(shù)量,預(yù)設(shè)值是10,如果設(shè)定為0,則系統(tǒng)會(huì)自動(dòng)偵測可能的群集數(shù)量。CLUSTER_SEED:初始群集的隨機(jī)種子。CLUSTER_METHOD:選擇用來進(jìn)行群集計(jì)算的演算法種類,目前提供的是(1)可擴(kuò)充的E-M、(2)不可擴(kuò)充的E-M、(3)可擴(kuò)充的K-means或(4)不可擴(kuò)充的K-means。MAXIMUM_INPUT_ATTRIBUTES:最大輸入變數(shù)數(shù)量,如果輸入變數(shù)超過此值,則演算法會(huì)自動(dòng)啟動(dòng)變數(shù)篩選功能。MAXIMUM_STATES:最大變數(shù)「選項(xiàng)」數(shù)量。MINIMUM_SUPPORT:在每個(gè)群集中所符合之最小案例數(shù),若是低於此值,則該規(guī)則會(huì)被系統(tǒng)自動(dòng)刪減掉。將此值設(shè)定為小於1的小數(shù)時(shí),代表最小案例數(shù)目為總案例的百分比(例如設(shè)為0.01,則代表每個(gè)規(guī)則案例數(shù)至少必頇佔(zhàn)總體案例的1%)。將此值設(shè)定為大於1的整數(shù)時(shí),則代表最小案例數(shù)目為指定的絕對(duì)數(shù)目。51參數(shù)調(diào)整2MODELLING_CARDINALITY:設(shè)定MODELLING_CARDINALITY後,演算法會(huì)同時(shí)產(chǎn)生多組隨機(jī)樣本,並且各自迴圈計(jì)算群集結(jié)構(gòu),並從結(jié)果中找出最佳結(jié)果SAMPLE_SIZE:如果演算法種類選擇可擴(kuò)充模式後,方會(huì)使用此參數(shù),此參數(shù)表示抽樣階段的樣本數(shù)STOPPING_TOLERANCE:STOPPING_TOLERANCE便是用來定義當(dāng)質(zhì)量中心變動(dòng)低到什麼程度時(shí),演算法可以停止訓(xùn)練52參數(shù)調(diào)整1.切換至『採礦模型』頁面2.點(diǎn)選『Microsoft_Clustering』3.點(diǎn)選『設(shè)定演算法參數(shù)』4.輸入欲調(diào)整之參數(shù)值53參數(shù)調(diào)整範(fàn)例1-1_cluster_count輸入欲調(diào)整之參數(shù)值由於某些因素,我們希望資料不要分為那麼多群組,例如:公司的業(yè)務(wù)人數(shù)是5位,希望將性質(zhì)較為雷同的客戶分為五群,此時(shí)就修改Cluster_count參數(shù)為5。54參數(shù)調(diào)整範(fàn)例1-2_cluster_count此時(shí)發(fā)現(xiàn)群集5的年收入都高於69.9萬元,且有96%是參加團(tuán)體型是有潛力的客戶如果以年齡觀察則可觀察到50~57歲的人都集中在群集4 55參數(shù)調(diào)整範(fàn)例2-1_cluster_methodSQL2005預(yù)設(shè)使用可擴(kuò)充的E-M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能設(shè)備內(nèi)容版權(quán)使用合同(2篇)
- 服務(wù)協(xié)議書(2篇)
- 斷絕姐弟關(guān)系合同書
- 2025至2031年中國PVC復(fù)合布卷簾面料行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年度特種工程船舶光租與施工進(jìn)度管理合同
- 2025年度花店店面轉(zhuǎn)讓與供應(yīng)鏈整合合同
- 二零二五年度網(wǎng)絡(luò)安全防護(hù)企業(yè)競業(yè)限制合同生效流程與風(fēng)險(xiǎn)控制
- 二零二五年度汽車修理工維修技術(shù)交流與勞務(wù)合同
- 2025年度醫(yī)院停車場車位租賃服務(wù)合同
- 2025年度冷庫租賃與冷鏈配送一體化服務(wù)合同
- 2025版茅臺(tái)酒出口業(yè)務(wù)代理及銷售合同模板4篇
- 2025年N1叉車司機(jī)考試試題(附答案)
- 《醫(yī)院財(cái)務(wù)分析報(bào)告》課件
- 2024年考研政治試題及答案
- 2025年初級(jí)社會(huì)工作者綜合能力全國考試題庫(含答案)
- 2022-2023學(xué)年五年級(jí)數(shù)學(xué)春季開學(xué)摸底考(四)蘇教版
- 【螞蟻?!?024中國商業(yè)醫(yī)療險(xiǎn)發(fā)展研究藍(lán)皮書
- 授信審批部工作計(jì)劃及思路
- 財(cái)務(wù)管理學(xué)(第10版)課件 第3章 財(cái)務(wù)分析
- 小學(xué)語文大單元教學(xué)設(shè)計(jì)與實(shí)施
- 小型餐飲店退股協(xié)議書
評(píng)論
0/150
提交評(píng)論