版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
DataMiningConceptsandTechniquesJiaweiHan MichelineKamber 范明孟曉峰譯11.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關聯(lián)和相關分析、預測聚征包括作為一種高的年級平均成績(GPA:Gradepointaversge的信息,區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般GPA的學生的一般特性可被用來與具有GPA的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓,就像具有高GPA的學生的75%是四年級計算機科學專業(yè)的學生,GPA65%不是。征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關聯(lián)規(guī)則為:major(X,“computingscience”)owns(X,“personalcomputer”) 其中,X98%(置信度,或確定度。或概念的模型(或功能,而后者是建立一個模型去預測缺失的或無效數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可1.9列舉并描述說明數(shù)據(jù)挖掘任務的五種原語。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特(也被稱為超規(guī)則)模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應該被顯示出來。為了使1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部1.142章數(shù)據(jù)預處理2.12.2∵∴20~50我們有:L120,N3197,(fq)l950,fqdian1500,wdt30,使用公式(2.3:
3197/2950medianL
width20
30
∴median=32.972.22.4ageage值(以遞增序)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等x1NN
8092729.9630(2.1。中位數(shù)應是第x14=25=Q2該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等這個數(shù)集的眾數(shù)有兩個:2535,發(fā)生在同樣最高的頻率處,因此是雙峰數(shù)據(jù)的中列數(shù)是最大術和最小是的均值。即:midrange=(70+13)/2=41.575%3×(N+1)/4=21處。所以:Q3=355數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變兩種分布分位數(shù)值展示。一條線(yx)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x的分布高。反之,對落在該線以下的點則低。2.32.72.4age3步驟1(23箱1:13,15,16 箱2:16,19,20 箱4:22,25,25 箱5:25,25,30 箱 箱 箱34箱1:44/3,44/3,44/3箱 箱箱 箱 箱箱 箱8:121/3,121/3,121/3箱2.42.10min-maxz-scoremin-max值域是[new_min,new_max]z-score值域是[(old_min-meanσ,(old_max-mean)/σ],總的來說,對于所有可能2.52.122.4age使用min-maxage35變換到[0.0,1.0]z-score規(guī)范化變換age35,其中age12.94使用小數(shù)定標規(guī)范化變換age35使用min-maxage35變換到[0.0,1.0]∵minA=13,maxA=70,new_minA=0.0,new_maxA=1.0
new_
new_
35131.00.00.00.38607013z-score規(guī)范化變換age35,其中age12.94A1315216192202122243023343536404546528092
AA
161.2949,
sAs或s2 167.4986,s
v'vA3529.963
0.3966
或vs
vA
35
5.0370.3892使用小數(shù)定標規(guī)范化變換age35。70j=2。v'
10
2.62.141250,55,72,92,204,215等頻(等深)等頻(等深)每個區(qū)間的寬度是:(215-232.72.152.4age10為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層510 為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層56mmiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddle2.83章數(shù)據(jù)倉庫與OLAPsudentstuden_nae,area_id,major,status,university),course(course_name,department),semester(semesteryearinstructor(dept,rank);2個度量:countavg_grade。在最低概念層,度量avg_grade存放學生的實際課程成績。在較高概念層,avg_grade存放給定組合的平均成績。[student,course,semester,instructor]BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作。all,[studentcoursesemesterinstructorBigUniversityCSOLAP操作。這些特殊的聯(lián)機分析處理(OLAP)沿課程(course)course_iddepartment沿學生(student)student_iduniversitydepartment=“CSuniversity=“BigUniversity”,沿課程(course)維和學生(student)沿學生(student)universitystudent_name5(allstudent<major<status<university<all,54=625
studentstudent
3.43.44章數(shù)據(jù)立方體計算與數(shù)據(jù)泛化4.12008-11-4.12考慮下面的多特征立方體查詢:按{item,region,month}2004100美元、貨架1.25~1.5倍之間的元組找出總銷售額部分。SQLSQL item,region,month,Min(shelf),SUM(R1) cube item,region,month:suchthat R1.shelf≥1.25*MIN(Shelf)and(R1.Shelf≤1.5*MIN(Shelf)and這不是一個分布多特征立方體,因為在“suchthat”語句中采用了“≤”條2008-11-2008-11-5章挖掘頻繁模式、關聯(lián)和相關Apriori5.2.2節(jié)介紹了由頻繁項集產生關聯(lián)規(guī)則的方法。提出了一個更有效的方5.2.2節(jié)的方法更有效(5.1(b)5.1(c)數(shù)據(jù)庫有5個事物。設min_sup=60%,min_conf=80。 {M,O,N,K,E, {D,O,N,K,E, {M,A,K, {M,U,C,K, {C,O,O,K,I,AprioriFP增長算法找出所有的頻繁項集。比較兩種挖列舉所有與下面的的元規(guī)則匹配的強關聯(lián)規(guī)則(給出支持度s和置A:AprioriFP增長算法找出所有的頻繁項集。比較兩種挖掘過Apriori55×min_sup=3 C LOKE
L1
C2
L2
C FP-growthAprioriL1。再按支持度計數(shù)的遞減序排序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)}。掃描沒個事LFP-樹。5.3FP條件FP效率比較:AprioriFP-增長算Apriori算法中的自身連接過程產生候選項集,候選項集產生的計算代價非常高,而FP-增長算法不需產生任列舉所有與下面的的元規(guī)則匹配的強關聯(lián)規(guī)則(給出支持度s和置信度c,其中,如“A:xtransaction,buys(X,“E”)∧buys(X,“E”)buys(X,“K”)[s=0.6,K,O→E[s(support)=0.660%,c(confidence)=1100%]E,O→K[s(support)=0.660%,c(confidence)=1Java2008-12-2009-01-6章分類和預測count?department,agesalary的值分別為“systems26…3046K…50使用上面得到的多層前饋神經網(wǎng)絡,給定訓練實例(sales,senior31…3546K…50K如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)給定一個數(shù)據(jù)元組,它的屬性department,agesalary的值分別為“systems26…3046K…50K解一:P(46K-∵∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-P(46K-∵∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-∵∵∴P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);Xjunior類。所以已知:X=(department=system,age=26…30,salary=46K…50K),元組總數(shù)status=senior當status=junior時,元組總數(shù)為:40+40+20+3+4+6=113status=seniorage=26
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 密碼鎖課程設計實驗
- 刷樹器課程設計
- 2024年監(jiān)測環(huán)境污染的衛(wèi)星系統(tǒng)項目資金籌措計劃書代可行性研究報告
- 08、Unit 3 Amazing animals Section B閱讀課教學設計-三年級上冊第三單元動物主題教學設計(人教PEP版2024)
- 《游泳陸上模仿課-漂浮與滑行》(教案)-2023-2024學年體育與健康
- 6秋天的雨第二課時教學設計2024-2025學年統(tǒng)編版語文三年級上冊
- 小學語文統(tǒng)編版二年級上冊 園地七 第二課時 教學設計
- 《運動與摩擦力》(教案)2024-2025學年教科版(2017)科學四年級上冊
- 11 蟋蟀的住宅 教學設計-2024-2025學年語文四年級上冊統(tǒng)編版
- 體育二年級下冊 30米冠軍賽 教學設計
- 企業(yè)融資方案
- 制片前期策劃方案
- 腫瘤病人臨終關懷護理課件
- 創(chuàng)設高中語文教學的情境與場景
- 泌尿外科前列腺增生病例討論課件
- 高分子材料的自組裝與功能化
- 寫字樓研究報告-中國寫字樓行業(yè)競爭分析及發(fā)展前景預測報告(2024年)
- 退役軍人培訓基地策劃方案
- 撬裝式加油站可行性方案
- 藝術欣賞與實踐(高職)全套教學課件
- 湖北省武漢市江岸區(qū)2023-2024學年七年級上學期期末數(shù)學試題(含解析)
評論
0/150
提交評論