版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 習(xí)題關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們 用你熟悉的現(xiàn)實(shí)生 要 戰(zhàn)。2.1 試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(構(gòu)造使用數(shù)據(jù)倉(cāng)庫(kù)), 而不愿使用查詢驅(qū)動(dòng)的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動(dòng)方法比更新驅(qū)動(dòng) 概念,可以用例子解釋你的觀點(diǎn)(a) 雪花模式、事實(shí)星座、星型網(wǎng)查詢模型(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c) 發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體、多特征方、虛擬倉(cāng)庫(kù) (a) 列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式。(b) 使用(a)列舉的模式之一
2、,畫出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖。P (a) 為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖; (c) 如果每維有 5 層(包括 all),如 studentMAJORSTATUSUNIVERSITY (c) 對(duì)于數(shù)據(jù)倉(cāng)庫(kù),位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問(wèn) 壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長(zhǎng)達(dá)十 (a) 根據(jù)計(jì)算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類; (即每次一小部分),為每種度量設(shè)計(jì)有效的計(jì)算和存儲(chǔ)方法。流行方法是構(gòu)造一個(gè)稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫(kù)。不幸的是,這常常產(chǎn)生大的、稀 (a) 給出一個(gè)例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;(b) 設(shè)
3、計(jì)一種實(shí)現(xiàn)方法,可以很好的克服這種稀疏矩陣問(wèn)題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論 (c) 修改你在(b)的設(shè)計(jì),處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計(jì)的理由。 (b)用戶時(shí)常想由一兩個(gè)特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?(a)假定每維只有一層,畫出完整的立方體的格。b放一個(gè) 4 字節(jié)的度量,若方是稠密的,所計(jì)算的立方體有多大?(c)指出立方體中空間需求量最小的塊計(jì)算次序,并對(duì)計(jì)算2維平面所需要的內(nèi)存空間計(jì)算空間量。0 d如下屬性子集選擇過(guò)程 youngmiddleaged和senior。 層。ndergrad假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中 56%的
4、在校本科生的專業(yè)是科學(xué), 64%的學(xué)生注 b下面的規(guī)則(4.9):major(X,biology)=status(X,undergrad) 17%,80% (4.9)標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語(yǔ)言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些 dtypeplacemadesupplierrnametypeheadquarterlocationownersizeassetsrevenue 向?qū)傩缘臍w納導(dǎo)出class &n bsp; birth-mer&nbs p; 180s&nbs p; 20a現(xiàn)實(shí)相關(guān) t-權(quán)和 d-權(quán)的交叉表(b) 將類 Programmer 轉(zhuǎn)換成(雙向的)量化描述規(guī)
5、則。例如erX5.3 討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包 5.4 對(duì)于數(shù)據(jù)離散的特征化,另外給出三個(gè)常用統(tǒng)計(jì)度量(未在本章說(shuō)明),并討論如何在大型數(shù)據(jù)庫(kù)中 25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70 A 該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B 該數(shù)據(jù)的模是多少?評(píng)論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C中列數(shù)是什么D你能找出(粗略地)數(shù)據(jù)的第一個(gè)四分位數(shù)(q1)和第三個(gè)四分位數(shù)(Q3)嗎?E數(shù)據(jù)的五數(shù)概括F 畫出數(shù)據(jù)的盒圖G數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?掘方法。Apri
6、ori使用子集支持度性質(zhì)的先驗(yàn)知識(shí)D IDDATEITEMSBOUGHTT0 10/15/99 K, A, D, BT0 10/15/99 D, A, C, E, BT00 10/19/99 C, A, B, ET0 10/22/99 B, A, Dxtransaction, buys(X, item1)buys(X, item2) = buys(X, item3) s, c 如“IBM desktop computer, b/w printer”的“后代”項(xiàng)集的挖掘嗎?給出一 HotdogshotdogsHamburgers 2000 500 2500hamburgers00 1500 25
7、00rgers TKings-Carb, Sunset-Milk, Dairyland-Cheese, best-BreadTBest-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-BreadTWestcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-PieTWonder-Bread, Sunset-Milk, Dairyland-Cheesea) 在 item_category 粒度(例如, itemi 可以是”milk” ),對(duì)于下面規(guī)則模板 xtransaction
8、, buys(X, item1)buys(X, item2) = buys(X, item3) s, cb) 在 brand-item_category 粒度(例如: item 可以是“sunset-milk ”),對(duì)于下面的規(guī)則模板:xcustomerbuysXitem)buys(X, item2) = buys(X, item3) 法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)。可以給出你的算法的要點(diǎn)。你的算法不必將所有的數(shù)據(jù) 6.8 假定大型事務(wù)數(shù)據(jù)庫(kù) DB 的頻繁項(xiàng)集已經(jīng)存儲(chǔ)。討論:如果新的事務(wù)集DB(增量地)加進(jìn),在相同 的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?出挖掘多層關(guān)聯(lián)
9、規(guī)則的層共享挖掘方法的要點(diǎn)。其中,每個(gè)項(xiàng)用它的層位置編碼,一次初 概念層的每個(gè)項(xiàng)的計(jì)數(shù),識(shí)別頻繁和子頻繁項(xiàng)集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與 6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。 c。7.4 比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對(duì)于懶散分類(如, k-最臨近、基于案例的推理) 7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率。陳述在這種情況下,你將使用何種 XY81 77 9086 7583 7965 7 7288 74 90usdepartmentStatusAgeSalary counts
10、alessenior35 46K.50K 30salesnbspjunior26K.30K 40salesjunior 31K.35K 40systemssystemsor.25 46K.50K 20systems senior 31.35 66K.70K 5systemsjunior 26.30 46K.50K 3systems senior 41.45 66K.70K 3marketing senior 36.40 46K.50K 10marketing junior 31.35 41K.45K 4secretarysenior50&nbs p;36K.40K 4secretaryjuni
11、or.30 26K.30K 6(a) 你將如何修改 ID3 算法,以便考慮每個(gè)概化數(shù)據(jù)元組(即每一行)的 count? alesseniorKK 8.2 給定兩個(gè)對(duì)象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示a之間的歐幾里的距離b計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離 什么是聚類?簡(jiǎn)單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方8.4 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下 8 個(gè)點(diǎn)(用(x , y )代表位置)聚類為 3 個(gè)簇:A1 ( 2 ,10 ), A2 ( 2 ,5 ), A3 ( 8 ,4 ),B1 ( 5 ,8 ), B2 ( 7 ,5
12、), B3 ( 6 ,4 ),C1 ( 1 ,2 ), C2 ( 4 ,9 ) 人眼在判斷聚類方法對(duì)二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計(jì)出一個(gè)數(shù)據(jù)可視的 給出如何集成特定聚類算法的例子,例如,什么情況下一個(gè)聚類算法被用作另一個(gè)算法的預(yù)處 對(duì)象之間的空間關(guān)聯(lián)關(guān)系;(ii)預(yù)先計(jì)算出空間對(duì)象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計(jì)算 結(jié)果求得。試述(i)如何高效實(shí)現(xiàn)上述方法;(ii)各方法的適用條件。 (b)可以從該空間數(shù)據(jù)倉(cāng)庫(kù)中挖掘什么樣的信息用于支持城市規(guī)劃人員?(c)該數(shù)據(jù)倉(cāng)庫(kù)既包含了空間數(shù)據(jù),也包含了時(shí)態(tài)數(shù)據(jù)。設(shè)計(jì)一種挖掘技術(shù),可以高效地從該空間時(shí)態(tài) 相似檢索已經(jīng)成為多媒體數(shù)據(jù)
13、檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方 。(b)請(qǐng)概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類質(zhì)量的實(shí)現(xiàn)技術(shù)。 (a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?(a)給出一種找出這種模式的有效方法。 于數(shù)據(jù)庫(kù)投影的頻繁模式(FP)增長(zhǎng)方法,對(duì)挖掘頻繁項(xiàng)集是十分有效的??煞駭U(kuò)展 FP增長(zhǎng)方法去找出 9.8 一個(gè)電子郵件數(shù)據(jù)庫(kù)是指包含了大量電子郵件(e-mail)信息的數(shù)據(jù)庫(kù)。它可以被視為主要包含文本 (a)如何使一個(gè) e-mail 數(shù)據(jù)庫(kù)變成結(jié)構(gòu)化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時(shí)問(wèn)等 bemail中可以挖掘什么信息?( c )假設(shè)對(duì)以前的一組 e-mail 信息有一個(gè)粗略的對(duì)類,如 junk (垃圾), unimportant (不重要), l 消息或反分類(unclassify ) e-mail 信息。何使用各種不同的數(shù)據(jù)挖掘方法(a)考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)耦合方式,試述無(wú)耦合、松耦合、半緊耦合和緊耦合之間 (b)行可伸縮性和列可伸縮性
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣告發(fā)布合同:品牌廣告投放
- 04年LED顯示屏戶外廣告投放代理合同
- 04安全生產(chǎn)塔吊安全監(jiān)管服務(wù)合同
- 金剛石拉絲模相關(guān)項(xiàng)目投資計(jì)劃書
- 多用途自控微型無(wú)人駕駛飛機(jī)相關(guān)項(xiàng)目投資計(jì)劃書范本
- 《工程項(xiàng)目現(xiàn)場(chǎng)簽證單》辦理原則及程序
- Pumafentrine-生命科學(xué)試劑-MCE
- 小鳥窩教案7篇
- 施工單位安全生產(chǎn)承諾書范文(35篇)
- 德邦實(shí)習(xí)報(bào)告
- 遠(yuǎn)離黃賭毒學(xué)習(xí)教案
- 影響健康因素多 課件 2024-2025學(xué)年人教版(2024)初中體育與健康七年級(jí)全一冊(cè)
- 幼兒園轉(zhuǎn)課協(xié)議書范文范本
- 2023年銀行反洗錢知識(shí)競(jìng)賽題庫(kù)及答案(120題)
- 廣東省深圳市寶安區(qū)2024-2025學(xué)年三年級(jí)上學(xué)期月考數(shù)學(xué)試卷(10月份)
- 人教版六年級(jí)上冊(cè)道德與法治知識(shí)點(diǎn)
- 與薊州區(qū)幼兒園結(jié)對(duì)幫扶協(xié)議書(2篇)
- 第三次全國(guó)農(nóng)作物種質(zhì)資源普查與收集行動(dòng)實(shí)施方案
- 安徽省2023-2024學(xué)年高一上學(xué)期期中考試物理試題(含答案)
- 第二單元 探索 3 物聯(lián)網(wǎng)的定位技術(shù) (教學(xué)設(shè)計(jì)) 2024-2025學(xué)年蘇科版(2023) 初中信息技術(shù)八年級(jí)上冊(cè)
- 一年級(jí)上冊(cè)勞動(dòng)《各種各樣的職業(yè)》課件
評(píng)論
0/150
提交評(píng)論