數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 第5章_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 第5章_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 第5章_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 第5章_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 第5章_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、講師:講師: ( (papers 2) and (teaching courses 2)papers 2) and (teaching courses 2)副教授:副教授: ( (papers=3) and (teaching courses=2)papers=3) and (teaching courses=2)3. 概念描述和概念描述和OLAP概念描述概念描述能夠處理復(fù)雜的數(shù)據(jù)類型和各種匯總方法能夠處理復(fù)雜的數(shù)據(jù)類型和各種匯總方法更加自動化更加自動化OLAP只能限制于少量的維度和數(shù)據(jù)類型只能限制于少量的維度和數(shù)據(jù)類型用戶控制的流程用戶控制的流程TomMChem.Vancouver8-11-

2、822-3-446534233.38MarryFCompuMontreal 7-5-813-3-216534293.82NacyFChem.Seattle4-21-844-5-16534243.29ScottMPhysDenver2-12-835-4-38534273.08 countMScienceCanada25-30Very Good21FengineeringCanada 25-30Excellent25FScienceUSA20-25Very Good22MScienceUSA25-30Good190 0101020203030404050506060707080809090第一季度

3、第一季度第三季度第三季度計算機計算機手機手機空調(diào)空調(diào)電視電視冰箱冰箱15%):t.D.Mstutype(X)80%:tD.PHstutype(X)5%:tMBA)(stutype(Xexcellentstudent(X)X,niiaqcountqcountweightt1)(/)(_)(:)()(_arg,:111mmmwtXconditionwtXconditionXclassettX%)15:.)(%80:.)(%5:)()(,tDMXstutypetDPHXstutypetMBAXstutypeexcellentXstudentXsssssssIimiim2121log),()()(11

4、1mjjvjmjjssIsssAE)(),()(21AEsssIAgainm1. 挖掘類比較挖掘類比較比較比較: 比較兩個或者更多類比較兩個或者更多類方法方法: 將相關(guān)的數(shù)據(jù)分成目標類和比較類將相關(guān)的數(shù)據(jù)分成目標類和比較類 將兩個類別的數(shù)據(jù)概化到相同的層次將兩個類別的數(shù)據(jù)概化到相同的層次用相同層次的描述對元組進行比較用相同層次的描述對元組進行比較對于每個元組展現(xiàn)其描述和兩個衡量標準對于每個元組展現(xiàn)其描述和兩個衡量標準: support - distribution within single class comparison - distribution between classes將差異很

5、大的元組特別顯示出來將差異很大的元組特別顯示出來相關(guān)性分析相關(guān)性分析:發(fā)現(xiàn)最能體現(xiàn)類別之間差異的屬性發(fā)現(xiàn)最能體現(xiàn)類別之間差異的屬性1. 挖掘類比較挖掘類比較示例:示例:使用區(qū)別規(guī)則來分析本科生和研究生使用區(qū)別規(guī)則來分析本科生和研究生DMQL queryuse Bist_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_student

6、s”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student1. 挖掘類比較挖掘類比較條件:條件:attributes name, gender, major, birth_place, birth_date, residence, phone# and gpaGen(ai) = concept hierarchies on attributes aiUi = attribute analytical thresholds

7、for attributes aiTi = attribute generalization thresholds for attributes aiR = attribute relevance threshold1. 挖掘類比較挖掘類比較 數(shù)據(jù)收集數(shù)據(jù)收集目標類目標類: 研究生研究生比較類比較類: 本科生本科生 屬性相關(guān)性分析屬性相關(guān)性分析刪除屬性姓名、性別、專業(yè)、電話刪除屬性姓名、性別、專業(yè)、電話 同步概化同步概化由用戶設(shè)定的維度閾值控制由用戶設(shè)定的維度閾值控制目標類和控制類關(guān)系目標類和控制類關(guān)系 /立方體立方體Count%Canada25-30Very Good5.53%Canada 25-30Excellent3.41%USA20-25Very Good2.32%USA25-30Good4.81%Count%Canada15-20Excellent4.51%Canada 15-20Very Good3.573%USA20-25Very Good5.61%USA15-20Good6.30%1. 挖掘類比較挖掘類比較研究生研究生本科生本科生比較項比較項1. 挖掘類比較挖掘類比較 在目標和比較類上,在目標和比較類上, 經(jīng)上卷、下鉆、經(jīng)上卷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論