



免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘復(fù)習(xí)提綱分值分布一、 選擇題(單選10道20分多選5道20分)二、 填空題(10道20分)三、 名詞解釋(5道20分)四、 解答題(4道20分)五、 應(yīng)用題(Apriori算法20分)1什么是數(shù)據(jù)挖掘?1答:簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。2. 什么是數(shù)據(jù)清理?2答:填寫缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性3. 什么是數(shù)據(jù)倉(cāng)庫(kù)?3答:是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門決策的過程。(最顯著特征:數(shù)據(jù)不易丟失2分選擇題)4. 什么是數(shù)據(jù)集成?4.數(shù)據(jù)集成:集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件5. 什么是數(shù)據(jù)變換?5答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。6. 什么是數(shù)據(jù)歸約?6答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果7. 什么是數(shù)據(jù)集市?7答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。(是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而數(shù)據(jù)倉(cāng)庫(kù)正是由所有的數(shù)據(jù)集市有機(jī)組合而成的) 8.在數(shù)據(jù)挖掘過程中,耗時(shí)最長(zhǎng)的步驟是什么?8.答:數(shù)據(jù)清理9. 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類?9答:根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類 、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類10. 多維數(shù)據(jù)模型上的 OLAP 操作包括哪些? 10.答:上卷、 下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作 11. OLAP 服務(wù)器類型有哪幾種?11.答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器 (HOLAP)、特殊的 SQL 服務(wù)器 12. 數(shù)據(jù)預(yù)處理技術(shù)包括哪些? (選擇)12.答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。13. 形成“臟數(shù)據(jù)”的原因有哪些? 13. 答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時(shí)的編碼 14. 與數(shù)據(jù)挖掘類似的術(shù)語(yǔ)有哪些? 14答:數(shù)據(jù)庫(kù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。15.常用的四種興趣度的客觀度量是什么?15答:簡(jiǎn)單性 、確定性、 實(shí)用性、新穎性 16.數(shù)據(jù)立方體的物化可以有哪三種選擇?16q 全物化q 不物化q 部分物化17. 從軟件工程的觀點(diǎn)來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含哪些步驟?17 答:規(guī)劃、需求研究、問題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。18. 在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?18答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。19.臟數(shù)據(jù)形成的原因有哪些?如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?19答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時(shí)的編碼 不完整的、含噪聲的、不一致的、重復(fù)的20. 數(shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?20.答:忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值21. 什么是數(shù)據(jù)變換?包括哪些內(nèi)容?21. 答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造22. 數(shù)據(jù)歸約的策略包括哪些?22.答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生23. 提高數(shù)據(jù)挖掘算法效率有哪幾種思路?23.答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法24. 假定屬性income的最小值與最大值分別為12000和98000到區(qū)間0.0,1.0,根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)開0.716_。25. 假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為1.225。26. 假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為-0.98627. 從結(jié)構(gòu)角度來(lái)看,有哪三種數(shù)據(jù)倉(cāng)庫(kù)模型。27. 答:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)28. 什么是聚類分析?28.答:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程30. 可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行_B_,來(lái)觀察按月匯總的數(shù)據(jù)。 A 上卷 B 下鉆 C 切片 D 切塊31. 可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行_A_,來(lái)觀察按國(guó)家總的數(shù)據(jù)。 A 上卷 B 下鉆 C 切片 D 切塊 32. 通過不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為_B_。 A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約33. 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中,從底層到尾層分別是倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層_。34.已知事務(wù)數(shù)據(jù)庫(kù)D,假定最小支持度為2,求所有的頻繁項(xiàng)集35.給出數(shù)據(jù)倉(cāng)庫(kù)的某種概念模式圖,會(huì)用DMQL語(yǔ)句描述該概念模式,包括事實(shí)與維。見pptn DMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的語(yǔ)言原語(yǔ),這包括兩種原語(yǔ)定義:一種是立方體定義,一種是維定義q 立方體定義 (事實(shí)表)define cube : q 維定義 (維表) define dimension as ()q 特殊案例 (共享維表的定義) n 第一次作為維表定義 “cube definition” n 然后:define dimension as in cube 實(shí)例:使用DMQL定義星型模式q define cube sales_star time, item, branch, location:q dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)q define dimension time as (time_key, day, day_of_week, month, quarter, year)q define dimension item as (item_key, item_name, brand, type, supplier_type)q define dimension branch as (branch_key, branch_name, branch_type)q define dimension location as (location_key, street, city, province_or_state, country)實(shí)例:使用DMQL定義雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country) 使用DMQL定義事實(shí)星座模式define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales36. 四種常用的概念分層類型是什么?36. 答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層37. 各種DMQL子句的表述?(支持度、置信度) 37.見ppt eg: with support threshold = 15%38.數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)是什么?38.答:說(shuō)明數(shù)據(jù)庫(kù)的部分或用戶感興趣的數(shù)據(jù)集任務(wù)相關(guān)數(shù)據(jù)要挖掘的知識(shí)類型用于指導(dǎo)挖掘的背景知識(shí)模式評(píng)估、興趣度度量如何顯示發(fā)現(xiàn)的知識(shí)發(fā)現(xiàn)模式的可視化39.在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),對(duì)于離群點(diǎn)的處理方法是:視需要而定,有時(shí)需要?jiǎng)h除,有時(shí)需要保留。40. 多維數(shù)據(jù)倉(cāng)庫(kù)有哪幾種概念模型?40.答:星形模式、雪花形模式或事實(shí)星座形模式。41.Apriori算法的性質(zhì)是什么?41答:頻繁項(xiàng)集的所有非空子集也必須是頻繁的。AB模式不可能比A更頻繁地出現(xiàn)Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過測(cè)試,則該集合的所有超集也不能通過相同的測(cè)試。Apriori性質(zhì)通過減少搜索空間,來(lái)提高頻繁項(xiàng)集逐層產(chǎn)生的效率42.應(yīng)用Apriori算法進(jìn)行尋找頻繁項(xiàng)集時(shí),兩個(gè)關(guān)鍵的步驟是什么?42答:Apriori算法兩個(gè)關(guān)鍵的步驟是連接和剪枝。43.數(shù)據(jù)挖掘技術(shù)的發(fā)展動(dòng)力來(lái)自于什么?43.答:數(shù)據(jù)爆炸問題44.“數(shù)據(jù)挖掘”英文縮寫是DM,它源于英文Data Mining45.“數(shù)據(jù)挖掘”亦稱為KDD,其中文含義是什么?45.答:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)46.max()函數(shù)屬于分布函數(shù),avg()函數(shù)屬于代數(shù)函數(shù),median()函數(shù)屬于整體函數(shù)47.數(shù)據(jù)倉(cāng)庫(kù)的特征是什么?47.答:數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征1面向主題面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征2數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征3隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征4數(shù)據(jù)不易丟失48.數(shù)據(jù)倉(cāng)庫(kù)的概念模式有哪幾種?48.答:最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。49.一個(gè)數(shù)據(jù)立方體有3個(gè)維,則它的2-D,3-D方體有幾個(gè)?49.3個(gè) 1個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)醫(yī)療股權(quán)轉(zhuǎn)讓與健康管理合同
- 高管股權(quán)激勵(lì)及代持服務(wù)合同
- 2025-2030中國(guó)蘭晶石行業(yè)市場(chǎng)發(fā)展分析及商業(yè)模式與投資前景研究報(bào)告
- 2025-2030中國(guó)信用卡處理服務(wù)行業(yè)發(fā)展動(dòng)態(tài)與前景趨勢(shì)預(yù)測(cè)報(bào)告
- 進(jìn)料系統(tǒng)改造方案
- 超市降價(jià)清貨方案
- 外貿(mào)轉(zhuǎn)行廣告銷售方案
- 項(xiàng)目整體拆除方案
- 大宗酒店資產(chǎn)收購(gòu)方案
- 石材污跡清理方案
- 孵化場(chǎng)安全培訓(xùn)
- 鴉片戰(zhàn)爭(zhēng)+學(xué)習(xí)任務(wù)單 統(tǒng)編版八年級(jí)歷史上冊(cè)
- 派遣維保人員消防值班服務(wù)合同(2篇)
- 重慶市2022年中考數(shù)學(xué)試卷A卷(含答案)
- CT及MR對(duì)比劑種類、臨床應(yīng)用及常見副反應(yīng)
- 四年級(jí)數(shù)學(xué)上冊(cè) (學(xué)霸自主提優(yōu)拔尖)第一單元《升和毫升》學(xué)霸提優(yōu)卷(有詳細(xì)答案)(蘇教版)
- 內(nèi)燃機(jī)噪音控制技術(shù)
- 2024年離婚協(xié)議書范文模范本兩個(gè)孩子
- 人教版英語(yǔ)七年級(jí)上冊(cè)閱讀理解專項(xiàng)訓(xùn)練16篇(含答案)
- 中、小學(xué)文件材料分類方案、歸檔范圍、保管期限表(三合一制度)
- 2024年北京中考地理試卷
評(píng)論
0/150
提交評(píng)論