數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.ppt_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.ppt_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.ppt_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.ppt_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.ppt_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

習(xí)題一,假定用于分析的數(shù)據(jù)包含屬性age.數(shù)據(jù)元組age值(以遞增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) 使用min-max規(guī)范化將age值35變換到0.0,1.0區(qū)間。 (b) 使用z-score規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為12.94歲。 (c) 使用小數(shù)定標(biāo)規(guī)范化變換age值35。 (d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。,解答一,(a) 使用min-max規(guī)范化將age值35變換到0.0,1.0區(qū)間。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35, (b) 使用z-score規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為12.94歲。,解答一(續(xù)),(c) 使用小數(shù)定標(biāo)規(guī)范化變換age值35。 由于最大的絕對值為70,所以j=2。 (d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。 答:更傾向于選擇小數(shù)定標(biāo)規(guī)范化。因為小數(shù)定標(biāo)規(guī)范化會保持?jǐn)?shù)據(jù)的分布,這種變換更直觀并容易解釋,習(xí)題二,2.14 假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個箱。 (a) 等頻(等深)劃分。 (b) 等寬劃分。,解答二,(a) 等頻(等深)劃分。 (b) 等寬劃分。 每個區(qū)間的寬度是:(215-5)/3=70,習(xí)題三,3假定BigUniversity的數(shù)據(jù)倉庫包含如下4個維:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept, rank);2個度量:count和avg_grade。在最低概念層,度量avg_grade存放學(xué)生的實際課程成績。在較高概念層,avg_grade存放給定組合的平均成績。 (a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。 (b)由基本方體student, course, semester, instructor開始,為列出BigUniversity每個學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些特殊的OLAP操作。 (c)如果每維有5層(包括all),如“studentmajorstatusuniversityall”,該立方體包含多少方體?,解答三,解答三,b)由基本方體student, course, semester, instructor開始,為列出BigUniversity每個學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些特殊的OLAP操作。 這些特殊的聯(lián)機(jī)分析處理(OLAP)操作有: 沿課程(course)維從course_id“上卷”到department。 沿學(xué)生(student)維從student_id“上卷”到university。 取department=“CS”和university=“Big University”,沿課程(course)維和學(xué)生(student)維切塊。 沿學(xué)生(student)維從university下鉆到student_name。 c)如果每維有5層(包括all),如“studentmajorstatusuniversityall”,該立方體包含多少方體? 這個立方體將包含54=625個方體。,習(xí)題四,4 假定數(shù)據(jù)倉庫包含4個維: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2個度量: count和charge。其中, charge是觀眾在給定的日期觀看節(jié)目的付費。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費標(biāo)準(zhǔn)。 (a) 畫出該數(shù)據(jù)倉庫的星形模式圖。 (b) 由基本方體 date, spectator, location, game開始,為列出2004 年學(xué)生觀眾在GM-Place 的總代價,應(yīng)當(dāng)執(zhí)行哪些OLAP 操作?,解答四,解答四,(b)由基本方體 date, spectator, location, game開始,為列出2004 年學(xué)生觀眾在GM-Place 的總代價,應(yīng)當(dāng)執(zhí)行哪些OLAP 操作? 這些特殊的聯(lián)機(jī)分析處理(OLAP)操作有: 沿date維從date id “上卷”到y(tǒng)ear 沿game維從game id “上卷”到all 沿location維從location id “上卷”到location name 沿spectator維從spectator id “上卷”到status 取status=“students”,location name=“GM Place”和year=2004切塊,習(xí)題五,5給定兩個對象,分別表示為(22,1,42,10),(20,0,36,8): (a)計算兩個對象之間的歐幾里得距離 (b)計算兩個對象之間的曼哈頓距離 (c)計算兩個對象之間的明考斯基距離,p=3,習(xí)題六,假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下 8個點(用(x,y)代表位置)聚類為3個簇: A1(2,10), A2(2,5),A3(8,4), B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9) 距離函數(shù)是歐幾里德距離.假設(shè)初始選擇A1, B1,C1為每個聚類的中心.用k-平均算法來給出 (a) 在第一次循環(huán)執(zhí)行后的三個聚類中心 (b) 最后的三個簇,解答六,(a) (2,10),(6,6),(1.5,3.5) (b) A1 B1 C2 A3 B2 C3 A2 C1,第一次迭代: 中心為1: A1(2,10), 2: B1(5,8), 3: C1(1,2),因此:,1: A1 (2,10),2:A3, B1,B2, B3, C2 (6, 6),3: A2, C1 (1.5,3.5),第二次迭代: 中心為1: (2,10), 2: (6,6), 3: (1.5,3.5),1: A1, C2 (3.5,9.5),2:A3, B1,B2, B3 (6.5, 5.25),3: A2, C1 (1.5,3.5),第三次迭代: 中心為1: (3.5,9.5 ), 2: (6.5,5.25), 3: (1.5,3.5),1: A1, B1,C2 (11/3,9),2:A3, B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論