工程碩士數據挖掘考試試卷_第1頁
工程碩士數據挖掘考試試卷_第2頁
工程碩士數據挖掘考試試卷_第3頁
工程碩士數據挖掘考試試卷_第4頁
工程碩士數據挖掘考試試卷_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《數據挖掘》考試試題一、單項選擇題(本大題共20小題,每小題1分,共20分)在每小題列出的四個備選項中選擇一項符合題目要求的,請將其代碼填寫在題后的括號內。錯選、多選或未選均無分。.下列選項中哪個不屬于在線事務處理(OLTP)業(yè)務是()A、在線分析處理(OLAP) B、決策支持(DS)C、數據挖掘(DM) D、數據采集.為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?( )A、探索性數據分析 B、建模描述C、預測建模 D、尋找模式和規(guī)則.模式按實際應用分類時,下列哪個不包含在內()人、描述模式B、關聯模式 C、聚類模式 D、序列模式.下列那個不是聚類分析的常用方法()A、特征聚類 B、CF樹C、決策樹D、隨機搜索聚類法.高層數據模型應該哪種表示方法()A、E-R圖B、物理數據模型 C、邏輯數據模型D、低層數據類型.下列哪個不是星形圖的邏輯實體()A、指標8、維度C、詳細類別D、關系.下列哪個不是數據倉庫系統(tǒng)的完善工作()A、改正性維護B、完善性維護C、預防性維護 D、應用維護.以下兩種描述分別對應哪兩種對分類算法的評價標準?( )(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準。A.Precision,Recall B.Recall,PrecisionC.Precision,ROC D.Recall,ROC.下列哪個不是包中包含的集合()A、步驟集合B、連接集合C、局部變量集合D、任務集合.下列哪個不屬于構建數據倉庫系統(tǒng)的階段()人、設想階段B、規(guī)劃階段C、開發(fā)階段 D、實施階段.下列哪個不屬于數據挖掘的過程()A、評價階段B、鞏固和運用階段 C、挖掘階段D、維護階段.用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數據挖掘哪一類任務?( )A、根據內容檢索B、建模描述C、預測建模D、尋找模式和規(guī)則.假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等TOC\o"1-5"\h\z頻(等深)劃分時,15在第幾個箱子內?( )A、第一個B、第二個&第三個D、第四個.只有非零值才重要的二元屬性被稱作:( )A計數屬性B離散屬性C非對稱的二元屬性 D對稱屬性.下面不屬于創(chuàng)建新屬性的相關方法的是:( )A特征提取B特征修改C映射數據到新的空間 D特征構造.數據倉庫是隨著時間變化的,下面的描述不正確的是( )A.數據倉庫隨時間的變化不斷增加新的數據內容;B,捕捉到的新數據會覆蓋原來的快照;C.數據倉庫隨事件變化不斷刪去舊的數據內容;D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合..下面關于數據粒度的描述不正確的是:( )A.粒度是指數據倉庫小數據單元的詳細程度和級別;B.數據越詳細,粒度就越小,級別也就越高;C.數據綜合度越高,粒度也就越大,級別也就越高;D.粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量..數據挖掘算法以( )形式來組織數據.A行B列C記錄D表格.企業(yè)成功實施數據挖掘,需要以下( )知識或技術A預先的規(guī)劃 B對商業(yè)文體的理解C綜合商業(yè)知識和技能 D都需要.某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?( )A.關聯規(guī)則發(fā)現B.聚類 C.分類 D.自然語言處理二、簡答題(本大題共4小題,每小題10分,共40分).解釋說明概念分層與數據泛化。答:數據泛化是一個從相對低層概念到更高層概念且對數據庫中與任務相關的大量數據進行抽象概述的一個分析過程。.聚類分析方法是什么?答:聚類通過把目標數據放入少數相對同源的組或“類"(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標準化,然后成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchicalclustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensionalscalinganalysis,MDS)是一一種在二維Euclidean“距離”中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使“類”內分散度最小化的方法。.面向屬性歸納的基本算法的四個步驟答:首先使用關系數據庫查詢收集任務相關的數據;然后通過考察任務相關數據中每個屬性的不同值的個數,進行概化(通過屬性刪除或者屬性概化)。聚集通過合并相等的廣義元組,并累計他們相應的技術值進行。這壓縮了概化后的數據集合。結果廣義關系可以映射到不同形式,如圖表或規(guī)則,提供用戶。.孤立點分析是什么?答:孤立點是指數據集中那些小模式數據,它可能是度量或執(zhí)行錯誤所導致的,也可能是固有數據變異性的結果。Hawkins給出了其本質性定義:孤立點是在數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。一般的孤立點挖掘中存在兩個基本任務:一是在給定的數據集合中定義什么樣的數據可以被認為不一致的;二是找到一個有效的方法來挖掘這樣的孤立點。目前已有的傳統(tǒng)的孤立點挖掘算法主要包括四類算法基于統(tǒng)計的方法,基于距離的方法,基于密度的方法,基于偏離的方法和基于聚類的挖掘算法。at拓印立本的存含也刊于一蛀as於啪隨啟標總*E組卜如何世孤立欣控制用出并加3分析利JH斃T由姐<1-住岫椎業(yè)■也立&-亞如西q1他祈工立單刊在蚪不問幔誕.開刀丁許圣球44l&IE#表卜人怦-L的口F幾貝懷宜八好蛇蠅方法R泰于吃“孚方砥、基手距鬲的力松.幫干旭高的方牯.高囪£妁期的紅立總原例、沖子族制的*美也業(yè)點稅融方注血型才離皮枝為立康原摑方法.用樓獨立成的挖as療法》5仃皿押劑那用的盜間■曲有一一建制量總和RMM.*丁檀計的M立點整用和注是當乙知取阻張的橫中好-布史西覿工蜘主筋分布,均值“蜒*.用市一■定斑立點顯次個這種方斷;■過用于成tffl生題的〃/■過.明寸象型>.限用助雷需」箭舞物第的撿物.甘i干像II的頊立衣掙熱田用士募周"Pk在科研TUI驛等玷*夔愚因外毋理?先M阻顫陽年分布怖征、呻曲酰釀叫了它的局用拈費.拄子停電附耦讓點整M方就用知道贛事始姓逸京告適的和并度函直通理檢直一用TSL叫主打醯米鼎正翼正點.月端出的描建?何席汗的鼠除WtiA為庭M比點,■莖于倬璃的定立扁掄湖-血油甘笳用的拉不^弟一升中湘畀母㈱落足麻巾的出蛟一令期森中的時傳一第二修修取用了一十下面肖華升用電千歷因的"立啟.延IKA也日制州1壯#馬接量:的帆加右隹辜引發(fā)大京對融文篇沱at的唐芍#三、應用題(本大題共2小題,每小題20分,共40分).請問這個數據挖掘的那種方法?說明這個方法的特點數據挖掘統(tǒng)計分析操作指引在實施數據挖掘之.前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的計劃才能保證資料采礦有條不紊的實施并取得成功.雖然我們把各個步驟按順序排列,但要注意數據挖掘過程并不是線性的,要取得好的結果就要不斷反復重復這些步驟.比如在"分析資料”時你可能覺得在“建立數據施掘數據庫”時做的不夠好,要往里加添加一些新的資料等等U數據挖掘過程主要包括以下幾個方面:定義商業(yè)問題建立數據挖掘庫分析數據準備數據能立模型模型評價模型實施其流程如下圖所示:其流程如下圖所示:26.數據挖掘項目是一項系統(tǒng)工程,它作為從數據庫中自動發(fā)現知識的過程,仍然需要來自不同領域專家共同參與知識發(fā)現的全部過程。請說明數據挖掘人員環(huán)境。答:1.主題領域專家:理解商業(yè)問題。這需要大數據科學家和行業(yè)專業(yè),以及客戶的業(yè)務專家一起來明確問題。這是整個大數據挖掘中最關鍵的一步。如果不理解業(yè)務就貿然開做,最后的項目一定是失敗的。2.數據專家/數據分析專家:分析數據。當明確了業(yè)務問題之后,我們就需要去分析數據,看看到底哪些數據能夠支撐我們的業(yè)務,用哪些數據去解決問題。在這個階段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論