廣工數(shù)據(jù)挖掘復(fù)習(xí)要點

上傳人：新*** IP屬地：河北上傳時間：2022-12-24 格式：DOCX 頁數(shù)：14 大?。?37.21KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

第一章緒論.數(shù)據(jù)挖掘要解決的問題：面對高維，復(fù)雜，異構(gòu)的海量數(shù)據(jù)，如何集中獲取有用的信息和知識。.數(shù)據(jù)挖掘定義：?技術(shù)層面上：數(shù)據(jù)挖掘就是從大量數(shù)據(jù)提取有用信息的過程；?商業(yè)層面上：數(shù)據(jù)挖掘就是對大量業(yè)務(wù)數(shù)據(jù)進行抽取，轉(zhuǎn)換和分析以及建模處理，從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。.數(shù)據(jù)挖掘的特征：先前未知，有效和實用。.數(shù)據(jù)挖掘?qū)ο螅?關(guān)系數(shù)據(jù)庫（借助集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù)）?數(shù)據(jù)倉庫（數(shù)據(jù)集合，用于支持管理決策）?事務(wù)數(shù)據(jù)庫（每個記錄代表一個事務(wù)）?空間數(shù)據(jù)庫?事態(tài)數(shù)據(jù)庫和時間序列數(shù)據(jù)庫?流數(shù)據(jù)?多媒體數(shù)據(jù)庫?文本數(shù)據(jù)庫?萬維數(shù)據(jù)庫.數(shù)據(jù)挖掘任務(wù)：分類分析（按照某種規(guī)則），聚類分析（具有共性），回歸分析，關(guān)聯(lián)分析（具有關(guān)聯(lián)規(guī)則），離群點檢測（發(fā)現(xiàn)與眾不同的數(shù)據(jù)），演化分析（隨時間變化的數(shù)據(jù)對象的趨勢），序列模式挖掘（分析前后序列模式）.數(shù)據(jù)挖掘過程：數(shù)據(jù)清洗，數(shù)據(jù)集成（考慮數(shù)據(jù)一致性和冗余），數(shù)據(jù)選擇，數(shù)據(jù)轉(zhuǎn)換，數(shù)據(jù)挖掘，模式評估，知識表示。例題：1.1數(shù)據(jù)挖掘處理的對象有哪些？請從實際生活中舉出至少三種。答：數(shù)據(jù)挖掘處理的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù)，對象既可以來自社會科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù)，還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同，可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒墧?shù)據(jù)庫系統(tǒng)，也可以是面向特殊應(yīng)用的數(shù)據(jù)庫，如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等，還可以是Web數(shù)據(jù)信息。實際生活的例子：①電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進行客戶行為分析，包含客戶通話記錄、通話時間、所開通的服務(wù)等，據(jù)此進行客戶群體劃分以及客戶流失性分析。②天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)據(jù)進行分類與分析，幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。③制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。④市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行市場定位、消費者分析、輔助制定市場營銷策略等。1.5定義下列數(shù)據(jù)挖掘功能：關(guān)聯(lián)、分類、聚類、演變分析、離群點檢測。使用你熟悉的生活中的數(shù)據(jù)，給出每種數(shù)據(jù)挖掘功能的例子。答：關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如，一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為：major（X,**computingscience）owns（X,**personalcomputerw）[support=12%,confidence=98%]其中，X是一個表示學(xué)生的變量。該規(guī)則指出主修計算機科學(xué)并且擁有一臺個人計算機的學(xué)生所占比例為12%,同時，主修計算機專業(yè)的學(xué)生有98%擁有個人計算機。分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型（或功能），分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如，通過對過去銀行客戶流失與未流失客戶數(shù)據(jù)的分析，得到一個預(yù)測模型，預(yù)測新客戶是否可能會流失。聚類是將數(shù)據(jù)劃分為相似對象組的過程，使得同一組中對象相似度最大而不同組中對象相似度最小。例如，通過對某大型超市客戶購物數(shù)據(jù)進行聚類，將客戶聚類細(xì)分為低值客戶、高值客戶以及普通客戶等。數(shù)據(jù)演變分析描述和模型化隨時間變化的對象的規(guī)律或趨勢，盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測，這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析。離群點檢測就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)?？捎糜诎l(fā)現(xiàn)金融領(lǐng)域的欺詐檢測。第二章數(shù)據(jù)處理基礎(chǔ).數(shù)據(jù)及數(shù)據(jù)類型：數(shù)據(jù)是數(shù)據(jù)庫存儲的基本對象，數(shù)據(jù)類型：標(biāo)稱屬性，序數(shù)屬性，區(qū)間屬性，比率屬性。.數(shù)據(jù)集分為三類：記錄數(shù)據(jù)，基于圖形的數(shù)據(jù)和有序的數(shù)據(jù)集。補充：數(shù)據(jù)統(tǒng)計特征：均值，中位數(shù)，中列數(shù)（數(shù)據(jù)集中最大和最小值的平均值），眾數(shù)（出現(xiàn)頻率最高的值），截斷均值（指定。?10間的百分位數(shù)p.丟棄高端的和低端的（p/2）%的數(shù)據(jù)，然后按照計算均值那樣計算）.數(shù)據(jù)挖掘的效果直接受到數(shù)據(jù)源的影響。.數(shù)據(jù)清理的目的：試圖填充缺失數(shù)據(jù)，去除噪聲并識別離群點，糾正數(shù)據(jù)中的不一致值。.缺失值的處理方法：（分析時）忽略元組，（分析時）忽略屬性列，（估計缺失值）人工填寫缺失數(shù)據(jù)，（估計缺失值）自動填充缺失數(shù)據(jù)。.噪聲平滑方法：分箱，聚類。.數(shù)據(jù)聚合的目的：將兩個或多個數(shù)據(jù)源中的數(shù)據(jù)，存放在一個一致的數(shù)據(jù)存儲設(shè)備中。.數(shù)據(jù)變換的內(nèi)容：數(shù)據(jù)泛化（把學(xué)科分為理學(xué)和工學(xué)，忽略細(xì)節(jié)），規(guī)范化，特征構(gòu)造（集中數(shù)據(jù)特征構(gòu)造新的特征，減少特征維數(shù)），數(shù)據(jù)離散化（出現(xiàn)了嫡計算）。.數(shù)據(jù)歸約：維度歸約和特征變換：維度歸約可以刪除不相關(guān)的特征并降低噪聲，降低維度災(zāi)難風(fēng)險，降低數(shù)據(jù)挖掘的時間復(fù)雜度和空間復(fù)雜度，特征變幻可以反應(yīng)出數(shù)據(jù)的不同視角的不同特征。抽樣：長期用于數(shù)據(jù)的事先調(diào)查和最終的數(shù)據(jù)分析，在數(shù)據(jù)挖掘中，抽樣是選擇數(shù)據(jù)子集進行分析的常用方法。1）無放回的簡單隨機抽樣方法2）有放回的簡單隨機抽樣方法3）分層抽樣方法特征選擇：從一組已知特征的集合中選取最具有代表性的特征子集，使其保留原有數(shù)據(jù)的大部分特征，正確區(qū)分?jǐn)?shù)據(jù)集中的每個數(shù)據(jù)對象。根據(jù)特征選擇過程與后續(xù)數(shù)據(jù)挖掘任務(wù)的關(guān)聯(lián)可分為三種方法：過濾，封裝和嵌入。根據(jù)是否用到類信息的指導(dǎo)，分為監(jiān)督式，無監(jiān)督式和半監(jiān)督式特征選擇?特征子集選擇的搜索策略：逐步向前選擇（從空集開始，逐步添加），逐步向后刪除（從整個屬性集開始，逐個刪除），向前選擇和向后刪除相結(jié)合，決策樹歸約。特征搜索過程中不可缺少的環(huán)節(jié)就是逐步評估。★數(shù)據(jù)預(yù)處理方法：數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)歸約，數(shù)據(jù)離散化例題：假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age的值如下（按遞增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,7 0。（a）使用按箱平均值平滑對以上數(shù)據(jù)進行平滑，箱的深度為3。解釋你的步驟。評論對于給定的數(shù)據(jù)，該技術(shù)的效果。（b）對于數(shù)據(jù)平滑，還有哪些其它方法？答：（a）已知數(shù)據(jù)元組中age的值如下（按遞增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為3,劃分為（等頻）箱：箱1:13,15,16箱2：16,19,20箱3：20,21,22箱4：22,25,25箱5：25,25,30箱6：33,33,33箱7：35,35,35箱8：35,36,40箱9：45,46,52箱10：70用箱均值光滑：箱1：15,15,15箱2：18,18,18箱3：21,21,21箱4：24,24,24箱5：27,27,37箱6：33,33,33箱7：35,35,35箱8：37,37,37箱9：48,48,48箱10：70；(b)對于數(shù)據(jù)平滑，其它方法有：(1)回歸：可以用一個函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)；(2)聚類：可以通過聚類檢測離群點，將類似的值組織成群或簇。直觀地，落在簇集合之外的值視為離群點。使用習(xí)題2.5給出的age數(shù)據(jù)，回答以下問題：(a)使用min-max規(guī)范化，將age值35轉(zhuǎn)換到［0.0,1.0］區(qū)間。(b)使用z-s8re規(guī)范化轉(zhuǎn)換age值35.其中，age的標(biāo)準(zhǔn)偏差為12.94年。(c)使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。(d)指出對于給定的數(shù)據(jù)，你愿意使用哪種方法。陳述你的理由。135-13答：(a)已知最大值為70,最小值為13,則可將35規(guī)范化為：* ,*=0.386；/U-Id一 35?30八c”(b)已知均值為30,標(biāo)準(zhǔn)差為12.94,則可將35規(guī)范化為： ?.^=0.386；35(c)使用小數(shù)定標(biāo)規(guī)范化可將35規(guī)范化為： ——=0.35；1002.17給定兩個向量對象，分別表示為p1(22,1,42,10),p2(20.0,36,8)：(a)計算兩個對象之間的歐幾里得距離(b)計算兩個對象之間的曼哈頓距離(c)計算兩個對象之間的閔可夫斯基距離.用x=3(d)計算兩個對象之間的切比雪夫距離答：(a)計算兩個對象之間的歐幾里得距離d=^2—20)2+(1—0)2+(42—36)2+(10—8)2=1/4512(b)計算兩個對象之間的曼哈頓距離d12=|22-20|+|1-0|+|42-36|+|10-8|=11(C)計算兩個對象之間的閔可夫斯基距離，其中參數(shù)r=3d=3722—20|3+11—0|3+|42—36|3+|10—12(d)切比雪夫距離：d12=max(|p—q|)=6以下是一個商場所銷售商品的價格清單(按遞增順序排列，括號中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。請分別用等寬的方法和等高的方法對上面的數(shù)據(jù)集進行劃分。答：(D等寬方法：劃分為3個數(shù)據(jù)集，每個數(shù)據(jù)集的寬度為價格10。價格在1-10之間出現(xiàn)次數(shù)為13；價格在11-20之間出現(xiàn)的次數(shù)為24；價格在21-30之間出現(xiàn)的次數(shù)為13。(2)等高方法：劃分為2個數(shù)據(jù)集，每個數(shù)據(jù)集的高度為出現(xiàn)的次數(shù)4。出現(xiàn)次數(shù)1―4之間的價格為1、8、10、12、14、21、28、30,共8個數(shù)據(jù)；出現(xiàn)次數(shù)5—8之間的價格為5、15、18、20、25,共5個數(shù)據(jù)。討論數(shù)據(jù)聚合需要考慮的問題。答：數(shù)據(jù)聚合需要考慮的問題有：(1)模式識別：這主要是實體識別問題；(2)冗余：一個屬性是冗余的，即它能由另一個表導(dǎo)出，如果屬性或維的命名不一致，也可能導(dǎo)致冗余，可以用相關(guān)分析來檢測；(3)數(shù)據(jù)值沖突的檢測與處理：有些屬性因表示比例或編碼不同，會導(dǎo)致屬性不同。第三章分類與回歸.分類：分類是數(shù)據(jù)挖掘中的主要手段，其任務(wù)是對數(shù)據(jù)集進行學(xué)習(xí)并構(gòu)造一個擁有預(yù)測功能的分類模型，用于預(yù)測未知樣本的類標(biāo)號，把類標(biāo)號未知的樣本映射到某個預(yù)先給定的類標(biāo)號中。.分類模型學(xué)習(xí)方法：基于決策樹的分類方法，貝葉斯分類方法，k-最近鄰分類方法，神經(jīng)網(wǎng)絡(luò)方法。.決策樹的概念與構(gòu)建：決策樹是一種樹形結(jié)構(gòu)，包括決策節(jié)點，分支節(jié)點和頁節(jié)點三個部分。決策節(jié)點：代表某個測試，通常對應(yīng)帶分類對象的某個屬性。該屬性上的不同測試結(jié)果對應(yīng)一個分支。葉節(jié)點：每個葉節(jié)點對應(yīng)一個類標(biāo)號，表示一種可能的分類結(jié)果。決策樹的構(gòu)建：1)屬性的選擇(很重要，一般要最大限度地增大樣本集純度)2)獲得大小適合的決策樹3)使用ID3等經(jīng)典算法構(gòu)建決策樹.分類模型的評價：分類過程一般分為兩步：第一步是利用分類算法對訓(xùn)練集進行學(xué)習(xí)，建立分類模型：第二步是用分類模型對標(biāo)號未知的測試數(shù)據(jù)進行分類。.分類模型性能評價指標(biāo)：(1)分類準(zhǔn)確率：指模型正確地預(yù)測新的或先前未知的數(shù)據(jù)的類標(biāo)號的能力。(影響分類準(zhǔn)確率的因素：訓(xùn)練數(shù)據(jù)集，記錄的數(shù)目，屬性的數(shù)目，屬性中的信息，測試數(shù)據(jù)集記錄的分布情況)(2)計算復(fù)雜度：決定著算法執(zhí)行的速率和占用的資源，依賴于具體的實現(xiàn)細(xì)節(jié)和軟、硬件環(huán)境。(3)可解釋性：分類結(jié)果只有可解釋性好，容易理解，才能更好地用于決策支持。(4)可伸縮性。(5)穩(wěn)定性：指不會隨著數(shù)據(jù)的變化而發(fā)生劇烈變化。(6)強壯性：指數(shù)據(jù)集含有噪聲和空缺值的情況下，分類器正確分類數(shù)據(jù)的能力。.分類模型的誤差：(1)訓(xùn)練誤差和泛化誤差。.評估分類模型的性能的方法：(1)保持方法：以無放回抽樣方式把數(shù)據(jù)集分為兩個相互獨立的子集，訓(xùn)練集(2/3)

和測試集(1/3)；(2)隨機子抽樣：保持方法的多次迭代；3)k-折交叉驗證。例題：考慮表3-23所示二元分類問題的數(shù)據(jù)集。表3-23習(xí)題3.4數(shù)據(jù)集A B 類標(biāo)號TOC\o"1-5"\h\zT F +T +T T +(1)計算按照屬性A和B劃分時的信息增益。決策樹歸納算法將會選擇那個屬性？(2)計算按照屬性A和B劃分時Gini系數(shù)。決策樹歸納算法將會選擇那個屬性？按照屬性A和B劃分時，數(shù)據(jù)集可分為如下兩種情況：B=TB=FB=TB=F劃分前樣本集的信息懶為E=-0.4log20.4-0.6log20.6=0.9710按照屬性A劃分樣本集分別得到的兩個子集(A取值T和A取值F)的信息嫡分別為:43 3E=—log--log-=0.9852A=T7^277飛7r3, 30, 0oE=—log log—=0a=f323323按照屬性A劃分樣本集得到的信息增益為：A=E--^E-^-E=0.281310A=T10A=F按照屬性B劃分樣本集分別得到的兩個子集(B取值T和B取值F)的信息懶分別為:按照屬性B劃分樣本集得到的信息增益為：A=Er±ETe=0.256510B=T10B=F因此，決策樹歸納算法將會選擇屬性A。劃分前的Gini值為G=1-0.42-0.62=0.48按照屬性A劃分時Gini指標(biāo)：G=1JEfJ3y=0.4898A=T(7) (7)GJ-需囪=。Gini增益A=G-2g--^-G=0.137110A=T10A=F按照屬性B劃分時Gini指標(biāo)：Gbt=1 =0.3750G=1 =0.2778b-'(6)'(6jGini增益A=G-4g--G=0.163310B=T10B=F因此，決策樹歸納算法將會選擇屬性B。3.2考慮表3-24數(shù)據(jù)集，請完成以下問題：表3-24習(xí)題3.7數(shù)據(jù)集日記錄號ABC類1000+2001301140115001+6101710181019111+10101+⑴估計條件概率P(A|+),P(B|+),P(C|+),P(A|-),P(B|-),P(C|-).(2)根據(jù)(1)中的條件概率，使用樸素貝葉斯方法預(yù)測測試樣本(A=0,B=1,C=0)的類標(biāo)號；⑶使用Laplace估計方法，其中p=1/2,1=4,估計條件概率P(A|+),P(B|+),P(C|+),P(A|-).P(B|-).P(C|-).(4)同(2),使用(3)中的條件概率(5)比較估計概率的兩種方法，哪一種更好，為什么？答：⑴P(A|+)=3/5P(B|+)=1/5P(A|-)=2/5P(B|-)=2/5P(C|-)=1(2)假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個類的概率為：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0|+)xP(+)/K(貝葉斯算法)=P(A=0|+)P(B|+)P(C=0|+)xP(+)/K=0.4x0.2x0.2x0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=O|-)xP(-)/K=P(A=0|-)P(B|-)P(C=0|-)xP(-)/K=0.4x0.2x0x0.5/K=0/K則得到，此樣本的類標(biāo)號是+。(3)P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4)假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個類的概率為：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=O)xP(+)/K=P(A=O|+)P(B|+)P(C=O|+)xP(+)/K=(4/9)x(1/3)x(1/3)x0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=O)xP(-)/K=P(A=O|-)P(B|-)P(C=O|-)xP(-)/K=(5/9)x(4/9)x(2/9)x0.5/K=0.0274/K則得到，此樣本的類標(biāo)號是“(5)當(dāng)條件概率為0的時候，條件概率的預(yù)測用Laplace估計方法比較好，因為我們不想整個條件概率計算結(jié)果為0.第四章聚類分析.聚類：聚類就是將數(shù)據(jù)集劃分為由若干相似對象組成的多個組或簇的過程，使得同一組中的對象的相似度最大化，不同組中的相似度最小化?；蛘哒f聚類是由彼此相似的一組對象構(gòu)成的集合。分類：分類是數(shù)據(jù)挖掘中的主要手段，其任務(wù)是對數(shù)據(jù)集進行學(xué)習(xí)并構(gòu)造一個擁有預(yù)測功能的分類模型，用于預(yù)測未知樣本的類標(biāo)號，把類標(biāo)號未知的樣本映射到某個預(yù)先給定的類標(biāo)記：聚類和分類的區(qū)別.典型的聚類分析任務(wù)包括的步驟：1)模式表示(聚類算法的基礎(chǔ))，2)適合于數(shù)據(jù)領(lǐng)域的模式相似性定義(是聚類分析最基本的問題)，3)聚類或者劃分算法(聚類分析的核心)，4)數(shù)據(jù)摘要(如有必要)，5)輸出結(jié)果的評估，有效性的評估(如有必要).數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅?)可伸縮性，2)處理不同類型屬性的能力3)發(fā)現(xiàn)任意形狀的聚類4)用于決定輸入?yún)?shù)的領(lǐng)域知識最小化5)處理噪聲數(shù)據(jù)的能力6)對輸入記錄的順序不敏感7)高維度8)基于約束的聚類9)可解釋性和可用性。.典型聚類方法：1)劃分方法(每個劃分表示一個聚類)2)層次方法(將數(shù)據(jù)對象組成一個聚類樹)3)基于密度的方法(絕大多數(shù)劃分方法都是基于對象之間的距離大小進行聚類)4)基于模型的方法(試圖將給定數(shù)據(jù)與某個數(shù)學(xué)模型搭成最佳擬合)5)基于圖的聚類算法(利用圖的許多重要性質(zhì)和特性).k-means算法，層次聚類算法的優(yōu)缺點：k-means算法：優(yōu)點：算法描述容易，實現(xiàn)簡單快速；不足：?簇的個數(shù)要預(yù)先給定，?對初始值的依賴極大?不適合大量數(shù)據(jù)的處理?對噪聲點和離群點很敏感?很難檢測到“自然的”簇。(2)層次聚類算法：BIRCH算法：優(yōu)點：利用聚類特征樹概括了聚類的有用信息，節(jié)省內(nèi)存空間；具有對象數(shù)目呈線性關(guān)系，可伸縮性和較好的聚類質(zhì)量。不足：?每個節(jié)點只能包含有限數(shù)目的條目，工作效率受簇的形狀的影響大。CURE算法：優(yōu)點：對孤立點的處理能力強；?適用于大規(guī)模數(shù)據(jù)處理，伸縮性好，沒有犧牲聚類質(zhì)量；缺點：算法在處理大量數(shù)據(jù)時必須基于抽樣，劃分等技術(shù)。ROCK算法：優(yōu)點：分類恰當(dāng)，可采用隨機抽樣處理數(shù)據(jù)；缺點：最壞的情況下時間復(fù)雜度級數(shù)大?；诿芏鹊木垲愃惴ǎ嚎勺R別具有任意形狀不同大小的簇，自動確定簇的數(shù)目，分離簇和環(huán)境噪聲，一次掃描即可完成聚類，使用空間索引時間復(fù)雜度為O(NlbN)例題：1.假設(shè)描述學(xué)生的信息包含屬性：性別，籍貫，年齡。有兩條記錄p、q及兩個簇C1>C2的信息如下，分別求出記錄和簇彼此之間的距離。(k-means算法的拓展)p=｛男,廣州，18｝q=｛女,深圳，20)C1=｛男：25,女：5；廣州：20,深圳：6,韶關(guān)：4；19)C2=｛男：3,女：12；汕頭：12,深圳：1,湛江：2；24)解：按定義4-3,取x=1,得到的各距離如下：d(p,q)=1+1+20-18=4d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15d(C1,C2)=[1-(25*3+5*12)/(30*15)]+[1-(6*1)/(30*15)]+(24-19)=1003/1504.1什么是聚類？簡單描述如下的聚類方法：劃分方法，層次方法，基于密度的方法，基于模型的方法。為每類方法給出例子。答：聚類是將數(shù)據(jù)劃分為相似對象組的過程，使得同一組中對象相似度最大而不同組中對象相似度最小。主要有以下幾種類型方法：(1)劃分方法給定一個有N個元組或者記錄的數(shù)據(jù)集，分裂法將構(gòu)造K個分組，每一個分組就代表一個聚類，K<No而且這K個分組滿足下列條件：第一，每一個分組至少包含一條記錄；第二，每一條記錄屬于且僅屬于一個分組(注意：這個要求在某些模糊聚類算法中可以放寬)；對于給定的K,算法首先給出一個初始的分組方法，以后通過反復(fù)迭代的方法改變分組，使得每一次改進之后的分組方案都較前一次好，而所謂好的標(biāo)準(zhǔn)就是：同一分組中的記錄越近越好，而不同分組中的記錄越遠(yuǎn)越好。使用這個基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法。

（2）層次方法這種方法對給定的數(shù)據(jù)集進行層次似的分解，直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下''兩種方案。例如在“自底向上''方案中，初始時每一個數(shù)據(jù)記錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合并成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等。（3）基于密度的方法基于密度的方法與其它方法的一個根本區(qū)別是：它不是基于各種各樣的距離，而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)"類圓形''的聚類的缺點。這個方法的指導(dǎo)思想就是：只要一個區(qū)域中的點的密度大過某個閾值，就把它加到與之相近的聚類中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等。（4）基于模型的方法基于模型的方法給每一個聚類假定一個模型，然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在假定就是：目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。基于模型的方法主要有兩類：統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法（SOM）。4.10下表中列出了4個點的兩個最近鄰。使用SNN相似度定義，計算每對點之間的SNN相似度 E點第一個近鄰第二個近鄰143234342431答：SNN即共享最近鄰個數(shù)為其相似度。點1和點2的SNN相似度：0（沒有共享最近鄰）點1和點3的SNN相似度：1（共享點4這個最近鄰）點1和點4的SNN相似度：1（共享點3這個最近鄰）點2和點3的SNN相似度：1（共享點4這個最近鄰）點2和點4的SNN相似度：1（共享點3這個最近鄰）點3和點4的SNN相似度：0（沒有共享最近鄰）第五章關(guān)聯(lián)分析.FP-tree（基于FP-growth算法）FP樹的構(gòu)建.Apriori算法的例子(最小支持度計數(shù)閾值=2)SUft.金成貨集文拷厘計效(Cola)3(Diap?r)3(Beer)3{Ham}2L1■交最小支持?計敏.fliSUft.金成貨集文拷厘計效(Cola)3(Diap?r)3(Beer)3{Ham}2L1■交最小支持?計敏.fli集項集

(ColaDiaper}

(ColaBeer)

(ColaHanf"

(DiaperBee「)

(DiaperHam|

{BeerHam)*st七個計度集支紿度計數(shù){ColaDiaper)2(ColsBeer)2(ColaHam!2{DiaperBeer}1(DiaperHam}a{BeerHarrl1支持度計收{(diào)ColaDiaper) 2(ColaBeer) 2{CotaHam) 2(DiaperBeer) 3電口生成候Cl(C(＞『DiaperBe€r).概述：在關(guān)聯(lián)分析中，包含。個或多個項的集合稱為項集，一個包含k個數(shù)據(jù)項的項集就稱為k-項集。若一個項集的支持度大于或等于某個閾值，則稱為頻繁項集。★：(1)產(chǎn)生頻繁項集：發(fā)現(xiàn)滿足最小支持度閾值的所有項集，即頻繁項集。(2)產(chǎn)生規(guī)則：從上一步發(fā)現(xiàn)的頻繁項集中提取大于置信度閾值的規(guī)則，即強規(guī)則。列舉關(guān)聯(lián)規(guī)則在不同領(lǐng)域中應(yīng)用的實例。答：在醫(yī)學(xué)領(lǐng)域：發(fā)現(xiàn)某些癥狀與某種疾病之間的關(guān)聯(lián)，為醫(yī)生進行疾病診斷和治療提供線索；在商業(yè)領(lǐng)域：發(fā)現(xiàn)商品間的聯(lián)系，為商場進行商品促銷及擺放貨架提供輔助決策信息;在地球科學(xué)領(lǐng)域：揭示海洋、陸地和大氣過程之間的關(guān)系。給出如下幾種類型的關(guān)聯(lián)規(guī)則的例子，并說明它們是否是有價值的。(a)高支持度和高置信度的規(guī)則：(b)高支持度和低置信度的規(guī)則；(c)低支持度和低置信度的規(guī)則；(d)低支持度和高置信度的規(guī)則。數(shù)據(jù)集如表舁14所示:表5-14習(xí)題5.3數(shù)據(jù)集^CustomerIDTransactionIDItemsBought10001{a,d,e)10024{a,b,c,e}20012{a,b,d,e}20031{a,c,d,e}30015{b,c,e}30022{b,d,e)40029{c,d}40040{a,b,c}50033{a,d,e}50038{a,b,e}(a)把每一個事務(wù)作為一個購物籃，計算項集{e},{b,d}和{b,d,e}的支持度。(b)利用(a)中結(jié)果計算關(guān)聯(lián)規(guī)則{b,d}-{e}和{e}-{b,d}的置信度。置信度是一個對稱的度量嗎？(c)把每一個用戶購買的所有商品作為一個購物籃，計算項集{e},{b,d}和{b,d,e}的支持度.(d)利用(b)中結(jié)果計算關(guān)聯(lián)規(guī)則{b,d}-{e}和{e}-{b,d}的置信度。置信度是一個對稱的度量嗎？答：(a)s({e})=8/10=0.8;s({b,d})=2/10=0.2;s({b,d,e})=2/10=0.2.(b)c({b,d}->{e})=s({b,d,e})/s({b,d})=0.2/0.2=1;c({e}->{b,d})=s({b,d,e})/s({e})=0.2/0.8=0.25.由于c({b,db>{e})Wc({e}>>{b,d}),所以置信度不是一個對稱的度量。(c)如果把每一個用戶購買所有的所有商品作為一個購物籃，則s({e})=4/5=0.8;s({b,d))=5/5=1;s({b,d,e})=4/5=0.8.(d)利用c中結(jié)果計算關(guān)聯(lián)規(guī)則{b,dL{e}和{e}一{b,d}的置信度，則c({b,d}->{e})=0.8/1=0.8c({e}->{b,d})=0.8/0.8=1置信度不是一個對稱的度量考慮如下的頻繁3-項集：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5)。(a)根據(jù)Apriori算法的候選項集生成方法，寫出利用頻繁3-項集生成的所有候選4-項集。(b)寫出經(jīng)過剪枝后的所有候選4-項集答：(a)利用頻繁3-項集生成的所有候選4-項集：{1,2,3,4}{1,2,3,5} {1,2,4,5}{1,3,4,5}{2,3,4,5}(b)經(jīng)過剪枝后的所有候選4-項集：{1,2,3,4}{1,2,3,5)一個數(shù)據(jù)庫有5個事務(wù)，如表5-15所示。設(shè)min_sup=60%,min_conf=80%□表5*15習(xí)題5.7數(shù)據(jù)集當(dāng)務(wù)ID購買的商品T100{M,0,N,K,E,Y)T200{D,0,N,K,E,Y}T300{M,A,K,日T400{M,U,C,K,Y)T500{C,0,0,K,I,E)(a)分別用Apriori算法和FP-growth算法找出所有頻繁項集。比較兩種挖掘方法的效率。(b)比較窮舉法和Apriori算法生成的候選項集的數(shù)量。(c)利用(1)所找出的頻繁項集，生成所有的強關(guān)聯(lián)規(guī)則和對應(yīng)的支持度和置信度。答：(1)頻繁1-項集：M,O,K,E,Y頻繁2-項集：{M,K}, {0,K}, {0,E},{K,Y},{K,E}頻繁3-項集：{O,K,E)(2)窮舉法：M=2k-1=2ii-1

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

廣工數(shù)據(jù)挖掘復(fù)習(xí)要點

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔