版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、知識回顧1.分類屬性的處理1.1概念介紹1.2處理方法1.3分類屬性二元化的不足2.連續(xù)屬性的處理2.1基于離散化的方法2.1基于統(tǒng)計學的方法2.3基于非離散化的方法關(guān)聯(lián)規(guī)則挖掘假定輸入數(shù)據(jù)由稱作項的二元屬性組成。還假定項在事物中出現(xiàn)比不出現(xiàn)更重要。這樣,項被看作非對稱的二元屬性,且只有頻繁模式才被認為是有趣的。例: 6-2購物籃數(shù)據(jù)的二元0/1表示TID面包牛奶尿布啤酒雞蛋可樂11100002101110301110141111005111001從上述的購物籃數(shù)據(jù)中,我們可得出尿布啤酒這一有趣的規(guī)則。這一頻繁項集的得出,我們可以運用:Apriori算法、Hash樹法、FP增長算法等等。關(guān)于該
2、規(guī)則的支持度和置信度的計算如下:上面規(guī)則的支持度s=尿布、啤酒支持度計數(shù)/事物個數(shù)=3/5=0.6上面規(guī)則的置信度c=尿布、啤酒支持度計數(shù)/尿布支持度計數(shù)=3/4=0.75性別文化程度州家庭計算機網(wǎng)上聊天網(wǎng)上購物關(guān)注隱私女研究生伊利諾伊是是是是男大學加利福尼亞否否否否男研究生密歇根是是是是女大學弗吉尼亞否否是是女研究生加利福尼亞是否否是男大學明尼蘇達是是是是男大學阿拉斯加是是是否男高中俄勒岡是否否否女研究生得克薩斯否是否否上面的因特網(wǎng)調(diào)查數(shù)據(jù)中,像性別、家庭計算機、網(wǎng)上聊天、網(wǎng)上購物和關(guān)注隱私這些屬性,我們稱為對稱二元屬性;而像文化程度、州稱之為標稱屬性。 1.2處理方法對于對稱二元屬性,可以
3、轉(zhuǎn)化成一對二元屬性如:性別分為男男和女女,而對于標稱屬性,則可以用多個二元項取代,例如:文化程度=大學大學,文化程度=研究生研究生,文化程度=高中高中。通過這樣將分類屬性和對稱二元屬性轉(zhuǎn)化成“項”之后,我們就可以如下二元化后的調(diào)查數(shù)據(jù):男女文化程度=研究生文化程度=大學關(guān)注隱私=是關(guān)注隱私=否011010100101101010010110011010100110100101100001011001使用關(guān)聯(lián)分析,從上表挖掘出的信息是:網(wǎng)上購物=是關(guān)注隱私=是1.2分類屬性二元化的不足利用二元化后的數(shù)據(jù)進行關(guān)聯(lián)分析時,需要注意以下幾點:(1)有些屬性值可能不夠頻繁,不能成為頻繁模式的一部分。這個
4、問題主要出在標稱屬性上,如例子中的州名這一屬性。若不加處理的將其用多個二元項取代,計算量將會過大,不太實際。所以實際做法是,將相關(guān)的屬性值分組,形成少數(shù)類別。例如,每個州名都可以用對應的地理區(qū)域如中西部、太平洋西北部、西南部和東海岸取代。另一種可能性是,將不太頻繁的屬性值聚合成一個稱作其他的類別。(2)某些屬性的頻率可能比其他屬性高很多,容易產(chǎn)生冗余模式。例如,假定85%的被調(diào)查人都有家庭計算機。如果為每個頻繁出現(xiàn)在數(shù)據(jù)中的屬性值創(chuàng)建一個二元項,我們可能產(chǎn)生許多冗余模式,如下面的例子所示:家庭計算機=是,網(wǎng)上購物=是關(guān)注隱私=是(3)盡管每個事物的寬度與原始數(shù)據(jù)中屬性個數(shù)相同,但是計算時間可能
5、增加,特別是當新創(chuàng)建的項變成頻繁項時。這是因為需要更多時間處理由這些項產(chǎn)生的候選集。減少計算時間的一種方法是,避免產(chǎn)生包含多個來自同一屬性的項的候選項集。例如,我們不必產(chǎn)生諸如州=X,州=Y,的候選項集,因為該項集的支持度計數(shù)為零。性別年齡年收入每周上網(wǎng)小時數(shù)E-mail帳號數(shù)關(guān)注隱私女2690K204是男51135K102否男2980K103是女45120K153是女3195K205是男2555K255是男37100K101否男4165K82否女2685K121否上表是具有連續(xù)屬性的因特網(wǎng)調(diào)查數(shù)據(jù),如年齡、年收入、每周上網(wǎng)小時數(shù)、e-mail賬號數(shù)就是連續(xù)屬性。對連續(xù)屬性數(shù)據(jù)進行關(guān)聯(lián)分析的方
6、法具體有(1)基于離散化的方法,(2)基于統(tǒng)計學的方法,(3)非離散化方法。 2.1基于離散化的方法所謂離散化就是將連續(xù)屬性的鄰近值分組,形成有限個區(qū)間。例如,年齡屬性可以劃分成如下區(qū)間:年齡12,16),年齡16,20),年齡20,24),年齡56,60)其中,a,b)代表包含a但不包含b的區(qū)間。離散的區(qū)間可以映射到非對稱的二元屬性,使得可以使用已有的關(guān)聯(lián)分析算法男女年齡網(wǎng)上聊天=是 (s=30%,c=57.7%)R2:年齡36,60)-網(wǎng)上聊天=否 (s=28%,c=58.3%)盡管它們有較高的支持度,但是較寬的區(qū)間導致兩個規(guī)則的置信度都低于最小置信度閾值。其結(jié)果是,離散化之后,兩個模式都
7、失去了。(2)如果區(qū)間太窄,則可能因為缺乏支持度丟失某些模式。例如,如果區(qū)間寬度為4歲,則R1被分裂成如下兩個子規(guī)則。R11:年齡16,20)-網(wǎng)上聊天=是 (s=4.4%,c=84.6%)R12:年齡36,60)-網(wǎng)上聊天=否 (s=4.4%,c=78.6%)由于兩個子規(guī)則都低于最小支持度閾值,離散化后R1丟失了。同理,規(guī)則R2被分裂成4個子規(guī)則,也因4個子規(guī)則的支持度都低于最小支持度閾值而丟失。如果區(qū)間寬度是8歲,則規(guī)則R2被分裂成如下兩個子規(guī)則。R21:年齡44,52)-網(wǎng)上聊天=否 (s=8.4%,c=70%)R22:年齡52,60)-網(wǎng)上聊天=否 (s=8.4%,c=70%)由于R2
8、1和R22都有足夠的支持度和置信度,R2可以通過聚合兩個子規(guī)則而恢復。與此同時,R1被分裂成如下兩個子規(guī)則。R11:年齡12,20)-網(wǎng)上聊天=是 (s=9.2%,c=60.5%)R12:年齡20,28)-網(wǎng)上聊天=是 (s=9.2%,c=60.0%)不像R2,我們不能通過聚合兩個子規(guī)則來恢復R1,因為兩個字規(guī)則的置信度都低于閾值。處理這些問題的一個方法是,考慮鄰近區(qū)間的每種可能的分組。例如,我們可以以寬度4歲開始,將臨近的區(qū)間合并成較寬的區(qū)間,年齡12,16),年齡12,20),年齡12,60),年齡16,20),年齡16,24)等等。這種方法能夠檢測出R1和R2是強規(guī)則。然而,這也導致如下
9、計算問題。(1)計算開銷非常大。如果值域被劃分成k個區(qū)間,則必須創(chuàng)建k(k-1)/2個二元項來代表所有可能的區(qū)間。此外,如果對應于區(qū)間a,b)的項是頻繁的,則包含a,b)的區(qū)間對應的所有項也必然是頻繁的。因此,這種方法可能產(chǎn)生過多的候選和頻繁項集。為了處理這些問題,可以使用最大支持度閾值,防止創(chuàng)建對應于非常寬的區(qū)間的項,并減少項集的數(shù)量。(2)提取許多冗余規(guī)則。例如,考慮下面的規(guī)則對:R3:年齡16,20),性別=男-網(wǎng)上聊天=是R4:年齡16,24),性別=男-網(wǎng)上聊天=是2.1基于統(tǒng)計學的方法需指定用于刻畫有趣總體段特性的目標屬性,保留目標屬性,對其余屬性進行二元化,產(chǎn)生頻繁項集時,對目標
10、屬性在每個段內(nèi)的分布進行匯總。例:對因特網(wǎng)用戶的年齡求平均值得到 年收入$100K,網(wǎng)上購物=是 -年齡:均值=38 這一有趣規(guī)則。方法:假設檢驗。實施(針對上面規(guī)則):先對一些符號進行說明,設u是滿足規(guī)則的事物中的年齡的均值,u是不滿足規(guī)則的事物中的年齡的均值。用戶可接受的年齡差(若年齡差小于 ,認為無差異)n1是滿足規(guī)則的事物個數(shù),n2是不滿足規(guī)則的事物個數(shù);s1是滿足規(guī)則的事務中年齡的標準差,s2是不滿足規(guī)則的事務中年齡的標準差。 2.3基于非離散化的方法文檔word1word2word3word4word5word6文檔10.30.60000.2文檔20.10.20000.2文檔30.40.20.7000.2文檔40.200.3000.1文檔50001.01.00.3對所有文檔的平均規(guī)范化頻率求和S(word1,word2)=(0.3+0.6)/2+(0.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 循環(huán)水崗位職責(共7篇)-
- PVC地膠材料供貨施工合同
- 2025-2030全球瓊脂糖基質(zhì)離子交換介質(zhì)行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國實驗室萜烯測試行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 二零二五年度豬圈養(yǎng)殖環(huán)境優(yōu)化承包協(xié)議194篇
- 綠色出行戰(zhàn)略家庭低碳生活新篇章
- 廚衛(wèi)裝修防水施工協(xié)議
- 餐飲空間裝修合同樣書
- 2025藝術(shù)院校教師師德師風自查報告范文
- 2025版房地產(chǎn)項目施工承包合同3篇
- 血透室護士長述職
- 2024年漢中市行政事業(yè)單位國有資產(chǎn)管理委員會辦公室四級主任科員公務員招錄1人《行政職業(yè)能力測驗》模擬試卷(答案詳解版)
- 藝術(shù)培訓校長述職報告
- 選擇性必修一 期末綜合測試(二)(解析版)2021-2022學年人教版(2019)高二數(shù)學選修一
- 《論語》學而篇-第一課件
- 《寫美食有方法》課件
- 學校制度改進
- 各行業(yè)智能客服占比分析報告
- 年產(chǎn)30萬噸高鈦渣生產(chǎn)線技改擴建項目環(huán)評報告公示
- 心電監(jiān)護考核標準
- (完整word版)申論寫作格子紙模板
評論
0/150
提交評論