




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《數據挖掘》考試試題、單項選擇題(本大題共20小題,每小題1分,共20分)在每小題列出的四個備選項中選擇一項符合題目要求的,請將其代碼填寫在題后的括號內。錯選、多選或未選均無分。下列選項中哪個不屬于在線事務處理(OLTP)業(yè)務是()A、在線分析處理(OLAP) B、決策支持(DS)C、數據挖掘(DM) D、數據采集為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?( )A、探索性數據分析 B、建模描述C、預測建模 D、尋找模式和規(guī)則3.模式按實際應用分類時,下列哪個不包含在內()A、描述模式B、關聯模式 C、聚類模式D、序列模式4.下列那個不是聚類分析的常用方法()A、特征聚類 B、CF樹C、決策樹D、隨機搜索聚類法5.高層數據模型應該哪種表示方法()A、E-R圖 B、物理數據模型C、邏輯數據模型D、低層數據類型下列哪個不是星形圖的邏輯實體()A、指標B、維度C、詳細類別 D、關系下列哪個不是數據倉庫系統(tǒng)的完善工作()A、改正性維護 B、完善性維護 C、預防性維護 D、應用維護8.以下兩種描述分別對應哪兩種對分類算法的評價標準?( )(a) 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b) 描述有多少比例的小偷給警察抓了的標準。A.Precision,RecallB.Recall,PrecisionC.Precision,ROC D.Recall,ROC9.下列哪個不是包中包含的集合()A、步驟集合B、連接集合C、局部變量集合D、任務集合下列哪個不屬于構建數據倉庫系統(tǒng)的階段()A、設想階段B、規(guī)劃階段C、開發(fā)階段 D、實施階段下列哪個不屬于數據挖掘的過程()A、評價階段 B、鞏固和運用階段 C、挖掘階段 D、維護階段TOC\o"1-5"\h\z12.用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數據挖掘哪一類任務?( )A、根據內容檢索B、建模描述C、預測建模 D、尋找模式和規(guī)則假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?( )A、第一個8、第二個C、第三個 D、第四個只有非零值才重要的二元屬性被稱作:( )A計數屬性B離散屬性 C非對稱的二元屬性 D對稱屬性下面不屬于創(chuàng)建新屬性的相關方法的是:( )A特征提取 B特征修改 C映射數據到新的空間 D特征構造16.數據倉庫是隨著時間變化的,下面的描述不正確的是( )數據倉庫隨時間的變化不斷增加新的數據內容;捕捉到的新數據會覆蓋原來的快照;數據倉庫隨事件變化不斷刪去舊的數據內容;數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合.下面關于數據粒度的描述不正確的是:( )粒度是指數據倉庫小數據單元的詳細程度和級別;數據越詳細,粒度就越小,級別也就越高;數據綜合度越高,粒度也就越大,級別也就越高;粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.數據挖掘算法以( )形式來組織數據.A行B列C記錄D表格企業(yè)成功實施數據挖掘,需要以下( )知識或技術A預先的規(guī)劃 B對商業(yè)文體的理解C綜合商業(yè)知識和技能 D都需要.某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?( )A.關聯規(guī)則發(fā)現B.聚類 C.分類 D.自然語言處理二、簡答題(本大題共4小題,每小題10分,共40分).解釋說明概念分層與數據泛化。答:數據泛化是一個從相對低層概念到更高層概念且對數據庫中與任務相關的大量數據進行抽象概述的一個分析過程。
.聚類分析方法是什么?答:聚類通過把目標數據放入少數相對同源的組或“類”(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標準化,然后成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchicalclustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensionalscalinganalysis,MDS)是「一種在二維Euclidean"距離”中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使“類”內分散度最小化的方法。.面向屬性歸納的基本算法的四個步驟答:首先使用關系數據庫查詢收集任務相關的數據;然后通過考察任務相關數據中每個屬性的不同值的個數,進行概化(通過屬性刪除或者屬性概化)。聚集通過合并相等的廣義元組,并累計他們相應的技術值進行。這壓縮了概化后的數據集合。結果廣義關系可以映射到不同形式,如圖表或規(guī)則,提供用戶。.孤立點分析是什么?答:孤立點是指數據集中那些小模式數據,它可能是度量或執(zhí)行錯誤所導致的,也可能是固有數據變異性的結果。Hawkins給出了其本質性定義:孤立點是在數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。一般的孤立點挖掘中存在兩個基本任務:一是在給定的數據集合中定義什么樣的數據可以被認為不一致的;二是找到一個有效的方法來挖掘這樣的孤立點。目前已有的傳統(tǒng)的孤立點挖掘算法主要包括四類算法基于統(tǒng)計的方法,基于距離的方法,基于密度的方法,基于偏離的方法和基于聚類的挖掘算法。既然通撾點的悍在蘊含丁一些既要的隘鼻信0.那玄,如*4肥斑苴京挖羯出來井跚以分析荷帝鴕T為更有效地挖也挪立點,晰究者們椎菊權堂.中#在四不向雹既開找丁許暮孤立4掄期r吧大做上有成下低英施安.曲的控掘方某于統(tǒng)計李方準,暴于畫高的方性,幕于陶高的奔法、高俺牲據的就立點探潮,基:于)《則的#翼或立點推抿方搖卬買于害度啊抓立點挖到方法.爵賣握立由的挖糖方話部有*待別蛹用的疝囹.也者一迎的卜陷利限制.電丁攜市前掘立由段睨方諺是m已卻敷爵地的戚率分布及釜敦土如正擊分布'均值.標準船).用不一敢tt樓北確定風立盅及苴個敷,誼沖寺濟適用于敗更敷抿,不埴用于商嗟浪排?.搗期數翳用竹矣敷常的投拙.*i于韁H?站廈立點橙瀾JS用主葺湖在件斯計姓售域,這浪里是H3為忌藺職宣切道敷樞的分布特征.因此BtFtt制丁它的應用花匹■雄于偏離皙提史點控掘方注是知道敵崗特性迭威吾適的相弁度函敏.共40分)個個方法的特點三通過共40分)個個方法的特點*、項弗野好財映裁-個M中的咐.第二25.請下面洋雷件排桃干座fl的拓立是抱握方法,祖割通國壽拈桂堡的搜據方法欒引發(fā)大察的抓立點推轍的思號+數據挖掘統(tǒng)計分析操作指引在實施數據挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的計劃才能保LE資料采礦有條不紊的實施并取得成功。雖然我們把各個步驟按順序排列,但要注意數據挖掘過程并不是線性的,要取得好的結果就要不斷反復重復這些步驟。比如在“分析資料”時你可能覺得在"建衣數據挖掘數據庫”時做的不夠好,要往里州添加一些新的資料等等.數據挖掘過程主要包括以下幾個方面,1、 定義商業(yè)問題2、 建立數據挖掘庫3、 分析數據4、 準備數據5、 建立一模型6、 模型評價7、 模型實施其流程如下圖所示!26.數據挖掘項目是一項系統(tǒng)工程,它作為從數據庫中自動發(fā)現知識的過程,仍然需要來自不同領域專家共同參與知識發(fā)現的全部過程。請說明數據挖掘人員環(huán)境。答:1.主題領域專家:理解商業(yè)問題。這需要大數據科學家和行業(yè)專業(yè),以及客戶的業(yè)務專家一起來明確問題。這是整個大數據挖掘中最關鍵的一步。如果不理解業(yè)務就貿然開做,最后的項目一定是失敗的。2.數據專家/數據分析專家:分析數據。當明確了業(yè)務問題之后,我們就需要去分析數據,看看到底哪些數據能夠支撐我們的業(yè)務,用哪些數據去解決問題。在這個階段,我們可能發(fā)現
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息傳遞的有效性與準確性計劃
- 輸血護理查對制度
- 《貴州林東礦業(yè)集團有限責任公司百里杜鵑風景名勝區(qū)金坡鄉(xiāng)紅林煤礦(變更)礦產資源綠色開發(fā)利用方案(三合一)》評審意見
- 第六單元寫作《表達要得體》教學設計 2024-2025學年統(tǒng)編版語文八年級上冊
- 2025年繪畫防疫創(chuàng)意口罩標準教案
- 2025年濟南貨運從業(yè)資格證試題和答案
- 2025年濰坊道路貨運從業(yè)資格證模擬考試官方題下載
- 2025年銅川貨運上崗證考試題庫
- 2025年營口貨車從業(yè)資格證理考試
- 2025年安康道路貨運輸從業(yè)資格證模擬考試題庫
- 風力發(fā)電工程風機安裝技術標方案
- 2024年中國科學技術大學創(chuàng)新科學營測試數學試題真題
- 創(chuàng)新者的窘境讀書課件
- 《客艙安全與應急處置》-課件:釋壓的類型和跡象
- (2024年)量子計算機課件(精)
- 任務 離心式壓縮機的性能曲線
- 海上風電場選址與評估技術
- 港口航運運營管理專業(yè)總復習試題(四)及答案
- 《數字電子技術基礎 第4版》 課件 第 1 章 數字電路基礎(第4版)
- 高速鐵路客運組織與服務通用課件
- 物業(yè)管理費測算及物業(yè)增收途徑課件
評論
0/150
提交評論