數(shù)據(jù)挖掘?qū)д摰?章-關(guān)聯(lián)分析-高級概念_第1頁
數(shù)據(jù)挖掘?qū)д摰?章-關(guān)聯(lián)分析-高級概念_第2頁
數(shù)據(jù)挖掘?qū)д摰?章-關(guān)聯(lián)分析-高級概念_第3頁
數(shù)據(jù)挖掘?qū)д摰?章-關(guān)聯(lián)分析-高級概念_第4頁
數(shù)據(jù)挖掘?qū)д摰?章-關(guān)聯(lián)分析-高級概念_第5頁
已閱讀5頁,還剩96頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)系分析:高級概念,第7章關(guān)系分析:高級概念,關(guān)系分析處理事務(wù)數(shù)據(jù),rules discovered : diaper-beer,分類屬性處理,有關(guān)internet用戶特征的有趣信息:在線購物=隱私=是,對于很多應(yīng)用程序,對稱二進(jìn)制屬性表7-1中顯示的互聯(lián)網(wǎng)調(diào)查數(shù)據(jù)包括性別、家庭計(jì)算機(jī)、網(wǎng)絡(luò)聊天、網(wǎng)上購物和隱私等對稱二進(jìn)制屬性。還包括文化程度和公稱屬性,例如注釋。分類屬性處理,公稱屬性和對稱二進(jìn)制屬性必須轉(zhuǎn)換為“項(xiàng)目”,以便使用現(xiàn)有關(guān)聯(lián)規(guī)則挖掘算法提取這些模式。這種類型的變更可以通過為每個不同的屬性-值對創(chuàng)建新條目來實(shí)現(xiàn)。例如,表示屬性文化水平可以替換為文化水平=大學(xué)文化水平=研究生文化水平=

2、高中相似,對稱二進(jìn)制屬性性別可以替換為一對二進(jìn)制項(xiàng)目(性別=男性,性別=女性)。處理分類屬性和在二元化數(shù)據(jù)中使用相關(guān)性分析時,請考慮以下問題:(1)某些屬性值可能不會經(jīng)常使用,因?yàn)樗鼈儠蔀轭l繁模式的一部分。范例:注記名稱。解決方法:將相關(guān)屬性值分組以形成幾個類別。例如,每個州的名稱可以由相應(yīng)的地理區(qū)域代替。例如:分別替換為中西部、太平洋西北部、西南部和東部海岸。處理分類屬性和使用輔助數(shù)據(jù)的相關(guān)分析時,請考慮以下問題:(2)某些屬性值的頻率可能遠(yuǎn)高于其他屬性。例如,假設(shè)85%的被調(diào)查者擁有家庭計(jì)算機(jī)。如果為數(shù)據(jù)中經(jīng)常出現(xiàn)的每個屬性值創(chuàng)建兩階段條目,則可能會產(chǎn)生很多重復(fù)模式。家庭計(jì)算機(jī)=是,在線

3、購物=注重隱私=是解決方法:使用處理具有廣泛支持功能的極惡數(shù)據(jù)集的技術(shù)。處理分類屬性和使用輔助數(shù)據(jù)的相關(guān)分析時,請考慮以下問題:(3)計(jì)算時間可能會增加,尤其是經(jīng)常生成新生成的條目時。因?yàn)閷⑸筛嗟暮蜻x集。解決方法:不要創(chuàng)建包含具有相同屬性的多個項(xiàng)目的候選集。例如,您無需創(chuàng)建候選集(如州=X,州=Y),因?yàn)榇思С?度。連續(xù)屬性處理,internet調(diào)查數(shù)據(jù)還可以包含連續(xù)屬性,如表7-3所示。連續(xù)屬性挖掘?qū)晔杖氤^120k的用戶屬于45-60年齡組”或“擁有3個以上電子郵件帳戶,每周使用互聯(lián)網(wǎng)超過15個小時的用戶一般關(guān)注隱私”的:連續(xù)屬性的關(guān)聯(lián)規(guī)則稱為數(shù)量關(guān)聯(lián)規(guī)則(quantiativ

4、e association rule)。連續(xù)數(shù)據(jù)的相關(guān)分析方法:基于離散化的方法非基于統(tǒng)計(jì)的方法,基于離散化的方法,離散化是處理連續(xù)屬性最常用的方法。此方法將連續(xù)屬性的相鄰值分組,形成有限區(qū)間。例如:年齡屬性可以分為12、16、20、20、24)、56、60等部分。離散化技術(shù):等寬、等頻率、群集表7-4顯示了離散化和二元化后的互聯(lián)網(wǎng)調(diào)查數(shù)據(jù)。屬性分隔的核心是分割每個屬性的宗地數(shù)目和寬度。但是很難確定正確的間隔。支持閾值=5%,置信度閾值=65%。在表中,您可以介紹年齡和在線聊天的隱式強(qiáng)有力的規(guī)則。16,24)聯(lián)機(jī)聊天=是(s=8.8%,c=81.5%) 44,60)聯(lián)機(jī)聊天=否(s=16.8%

5、,c=70%)間隔寬度對關(guān)聯(lián)分析結(jié)果的影響。(1)間隔太大,可能會因可靠性不足而失去一些規(guī)則。例如,當(dāng)區(qū)間寬度為24歲時,上述兩條規(guī)則為16,36。在線聊天=是(s=30%,57.7%) 36,60)在線聊天=否(s=28%,58.3%),區(qū)間寬度對關(guān)聯(lián)分析結(jié)果的影響(2)間隔太窄,可能會因缺乏支持而失去一些規(guī)則。(。例如,區(qū)間寬度為4歲時,上述兩個規(guī)則為16,20。線上交談=是(s=4.4%,84.6%)線上交談=是(s=4.4%,78.6%) (3)區(qū)段寬度為8歲時,上述兩條規(guī)則為44,52)線上交談=否例如,在表7-6所示的文本文檔中查找單詞的關(guān)聯(lián)。在文本挖掘中,分析人員對搜索詞之間的關(guān)

6、聯(lián)性(如數(shù)據(jù)和挖掘)更感興趣。不是單詞頻率間隔(例如數(shù)據(jù):1,4,挖掘:2,3)之間的關(guān)聯(lián)。一種方法是將數(shù)據(jù)轉(zhuǎn)換為0/1矩陣。其中,如果規(guī)格化字?jǐn)?shù)超過了閾值t,則值為1,否則為0。該方法的缺點(diǎn)是很難確定閾值。另一種方法是使用min-apriori方法。S (word 1,word 2)=min (0.3,0.6) min (0.1,0.2) min (0.4,0.2) min (0.2,0)=隨著包含單詞的文檔數(shù)量的增加,單調(diào)地增加。處理概念分層,即在一個特定域中定義的各種實(shí)體或概念的多層組織。概念分層可以用直接非循環(huán)圖表示。概念分層的主要優(yōu)點(diǎn)(1)對AC適配器等分層子項(xiàng)的支持可能不足,但作為

7、概念分層的父節(jié)點(diǎn)(例如便攜式附件),支持程度較高。(2)在較低級別找到的規(guī)則往往過于專門化,可能不如較高級別的規(guī)則有趣。(例如,脫脂吳優(yōu)普通面包、脫脂吳優(yōu)白面包等太特別了),實(shí)現(xiàn)概念分層的方法每個事務(wù)t都被它的擴(kuò)展事務(wù)t取代。其中,t包含t的所有項(xiàng)目及其祖先。對于交易DVD,普通面包可以使用現(xiàn)有算法(如DVD、普通面包、家用電器、電子產(chǎn)品、面包、食品和擴(kuò)展數(shù)據(jù)庫的Apriori)在多個概念層中查找規(guī)則。概念分層的主要缺點(diǎn)(1)較高級別的項(xiàng)目比較低級的項(xiàng)目支持度高。(2)概念分層的引入增加了關(guān)聯(lián)分析的計(jì)算時間。(3)概念分層的引入可能產(chǎn)生冗余規(guī)則。規(guī)則X Y是重復(fù)的,并且具有更通用的規(guī)則X Y,

8、其中X是X的父代成員,Y是Y的父代成員,兩個規(guī)則具有非常相似的置信度。例如,面包吳優(yōu)、白面包脫脂吳優(yōu)、麥片圖案和購物車數(shù)據(jù)通常包含有關(guān)產(chǎn)品購買時間的信息。利用這些信息,可以將顧客一定時間內(nèi)的購物結(jié)合成交易序列。但是,到目前為止所描述的關(guān)聯(lián)模式的概念忽略數(shù)據(jù)的序列信息,僅強(qiáng)調(diào)并發(fā)關(guān)系。序列信息對于確定動態(tài)系統(tǒng)的鄭在玹特性或預(yù)測特定事件未來的發(fā)生可能非常有價值。序列模式、按時間順序?qū)εc對象a相關(guān)的所有事件進(jìn)行排序時,可以將a的序列、sequence database :通常將序列記錄為元素的已排序列表,以s=記錄。其中每個EJ是一個或多個事件的集合族ej=i1、I2、ik。sequence、e1e

9、2、e1e3、e2、E3 E4、E2、element (transaction)、event(),序列模式搜索,d是否支持包含一個或多個數(shù)據(jù)序列的數(shù)據(jù)集:序列s是包含s的所有數(shù)據(jù)序列所占的百分比。如果序列s的支持大于或等于用戶指定的閾值minsup,則s為序列模式(或頻繁的序列)。7.1序列模式搜索定義:搜索指定序列數(shù)據(jù)庫d和用戶指定的最小支持閾值minsup,序列模式搜索操作是查找支持大于或等于minsup的所有序列。是,minsup=50% examples of frequent subsequence s :s=60% s=60% s=80% s=80% s=80%以下兩個項(xiàng)目之一在項(xiàng)

10、目集中至少出現(xiàn)一次,但由于一個事件可能在序列中出現(xiàn)多次,因此生成了更多候選項(xiàng):給定兩個要素i1和I2,僅生成一個候選項(xiàng)2-要素集i1和I2,但是您可以生成多個候選項(xiàng)2-系列(例如,)。順序在序列中很重要,但在項(xiàng)目集中不重要。例如,1,2和2,1表示同一組項(xiàng)目,而和徐璐對應(yīng)于不同的序列,因此必須單獨(dú)創(chuàng)建。先驗(yàn)原理建立了序列數(shù)據(jù)。包含特定k系列的所有數(shù)據(jù)系列必須包含該k系列的所有(k-1)系列。序列模式發(fā)現(xiàn)的類Apriori算法,候選生成,一對頻繁(k-1)-序列組合,生成候選k-序列?,F(xiàn)有的Apriori算法僅在當(dāng)前k-1項(xiàng)相同的情況下合并一對頻繁的k-項(xiàng)集,以避免重復(fù)候選項(xiàng)。類似的方法可以用于

11、序列。例子是通過合并獲得的。事件3和事件4屬于第二個序列的其他元素,因此在合并的序列中也屬于其他元素。合并獲得。事件3和事件4屬于第二個序列的相同元素,因此4合并到第一個序列的最后一個元素中。候選修剪候選k序列被修剪(k-1)-至少有一個序列不經(jīng)常使用。例如,假設(shè)候選人4-序列。我們必須經(jīng)常檢查是否是3-序列。因?yàn)檫@些都不頻繁,所以可以刪除候選者。支持度計(jì)數(shù)支持度計(jì)數(shù)中,算法列出屬于特定數(shù)據(jù)序列的所有候選k序列。計(jì)數(shù)允許算法識別頻繁的k序列,丟棄支持?jǐn)?shù)量低于最小支持閾值minsup的候選。圖7-6,時間限制約束、模式中的事件和元素強(qiáng)制執(zhí)行時間限制約束。例如:學(xué)生a:學(xué)生b:感興趣的模式意味著注

12、冊數(shù)據(jù)挖掘課程的學(xué)生必須首先參加數(shù)據(jù)庫系統(tǒng)和統(tǒng)計(jì)科目。兩個學(xué)生都不是同時選擇了統(tǒng)計(jì)和數(shù)據(jù)庫系統(tǒng),但很明顯這種模式得到了支持。相比之下,10年前修過統(tǒng)計(jì)課程的學(xué)生不能認(rèn)為支持這門課程的間隔太長。圖7-7顯示了適用于模式的一些時間限制約束。最大范圍約束、最大范圍約束指定整個序列中允許的事件的最晚時間和最早發(fā)生時間的最大時間差異。下表假定最大時間范圍maxspan=3,并包含指定數(shù)據(jù)序列支持和不支持的序列模式。通常,maxspan越長,在數(shù)據(jù)序列中檢測模式的可能性就越大。但是,如果maxspan很長,捕獲不真實(shí)的圖案可能會包含過時的事件。最大跨度約束影響序列模式搜索算法的支持?jǐn)?shù)量。應(yīng)用最長持續(xù)時間約

13、束后,某些數(shù)據(jù)序列不再支持候選模式。最小和最大時間間隔約束,時間限制約束也可以通過限制序列中兩個連續(xù)元素之間的時間差異來指定。如果最大時差(maxgap)為一周,則元素的事件必須在之前元素的事件發(fā)生后一周內(nèi)出現(xiàn)。如果最小時差(mingap)為0,則元素的事件必須在之前元素的事件發(fā)生后出現(xiàn)。maxgap=3,mingap=1,下表顯示了陣列通過或不通過最大間距和最小間距約束的示例。與最大跨度類似,某些數(shù)據(jù)序列在具有最小間隔和最大間隔約束時不再支持候選模式,因此,這些約束會影響序列模式搜索算法的支持?jǐn)?shù)量。使用最大間隙約束可能會違反先驗(yàn)原理。要說明這一點(diǎn),請考慮圖7-5中的數(shù)據(jù)集。沒有最小或最大間隙

14、約束時,和的支撐度均為60%。但是,如果mingap=0,maxgap=1,則的支持級別下降到40%,的支持級別仍然為60%。這違反先驗(yàn)原則。例如,minsup=50% examples of frequent subsequence s :s=60% s=60% s=80% s=80% s=80% s(2)s從至少具有兩個事件的任意eiw中刪除一個事件,然后由w獲得。(3)s是t的相鄰子序列,t是w的相鄰子序列。7.3修訂版的先驗(yàn)原理定義k-序列頻繁,相應(yīng)的相鄰(k-1)-子序列也必須頻繁。在候選修剪階段,不需要檢查所有k序列,因?yàn)槠渲械囊恍┛赡苓`反最大間距約束。例如,如果maxgap=1,

15、則無需檢查候選子序列是否頻繁,因?yàn)樵?,3和5之間的時間差異大于一個小時單位。應(yīng)只調(diào)查相鄰的子序列,包括、和。窗口大小約束,最后,元素SJ的事件不必同時出現(xiàn)。在序列模式的任何元素中,都可以定義窗口大小閾值(ws),該閾值指定事件最晚發(fā)生的時間和最早發(fā)生的時間之間的最大允許時間差。如果窗口大小為零,則模式相同元素的所有事件必須同時出現(xiàn)。以下示例使用ws=2、mingap=0、maxgap=3、maxspan=、子圖形模式將關(guān)聯(lián)分析方法應(yīng)用于比項(xiàng)目集和序列復(fù)雜得多的圖元。例如,化學(xué)化合物、3-D蛋白質(zhì)結(jié)構(gòu)、網(wǎng)絡(luò)拓?fù)浜蜆浣Y(jié)構(gòu)的XML文檔。可以用圖形表示建模這些圖元。對這種類型數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的任務(wù)是在圖集中發(fā)現(xiàn)一組公共子結(jié)構(gòu)。這種操作稱為頻繁子圖挖掘、圖和子圖,定義了具有7.5支持度的圖的集合族(如圖7-10所示),子圖g的支持程度定義為包含該圖像的所有圖的百分比。7.2考慮了5個圖G1 G5,如圖7-10所示。右上角的圖G1是G1、G3、G4、G5的子圖形,因此s(g1)=4/5=80%。同樣,G2是G1、G2和G3的子項(xiàng),因此s(g2)=60%。而s(G3)=40%。因?yàn)镚3是G1和G3的子圖形。頻繁子圖形挖掘,7.6頻繁子圖形挖掘定義給定圖形的集合和支持閾值minsup,頻繁子圖形挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論