下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、單選題1. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖 掘的哪類問題? (A)A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類C. 分類 D. 自然語言處理2. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準? (A)(a) 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b) 描述有多少比例的小偷給警察抓了的標準。A. Precision, Recall B. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)? (C)A. 頻繁模式挖掘 B. 分類和預(yù)
2、測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘4. 當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離? (B)A. 分類 B. 聚類5. 什么是 KDD? (A)A. 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)C. 文檔知識發(fā)現(xiàn) D.C. 關(guān)聯(lián)分析 D.B. 領(lǐng)域知識發(fā)現(xiàn) 動態(tài)知識發(fā)現(xiàn)隱馬爾可夫鏈6. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)? (B)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋
3、找模式和規(guī)則8. 建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的 哪一類任務(wù)? (C)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任 務(wù)? (A)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則11. 下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A 變量代換 B 離散化 C 聚集 D 估計遺漏值12. 假設(shè) 12 個銷售價格記錄組已經(jīng)排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如
4、下每種方法將它們劃分成四個箱。 等頻(等深)劃分時,15 在第幾個箱子內(nèi)? (B) A 第一個 B 第二個 C 第三個 D 第四個13. 上題中,等寬劃分時(寬度為A 第一個 B 第二個 C50),15 又在哪個箱子里? 第三個 D 第四個(A)14. 下面哪個不屬于數(shù)據(jù)的屬性類型: (D) A 標稱 B 序數(shù) C 區(qū)間 D 相異15. 在上題中,屬于定量的屬性類型是: (C) A 標稱 B 序數(shù) C 區(qū)間 D 相異16. 只有非零值才重要的二元屬性被稱作: ( C )A 計數(shù)屬性 B 離散屬性 C 非對稱的二元屬性 D 對稱屬性17. 以下哪種方法不屬于特征選擇的標準方法: (D)A 嵌入
5、B 過濾 C 包裝 D 抽樣18. 下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A 特征提取 B 特征修改 C 映射數(shù)據(jù)到新的空間 D 特征構(gòu)造19. 考慮值集1、2、3、4、5、90,其截斷均值(p=20%是(C)A 2 B 3 C 3.5 D 520. 下面哪個屬于映射數(shù)據(jù)到新的空間的方法? (A)A 傅立葉變換 B 特征加權(quán) C 漸進抽樣 D 維歸約21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:(B)A 1 比特 B 2.6 比特 C 3.2 比特 D 3.8 比特22. 假設(shè)屬性 income 的最大最小值分別是 12000 元和 98000 元。利用最大最
6、小規(guī)范化的方 法將屬性的值映射到 0 至 1 的范圍內(nèi)。對屬性 income 的 73600 元將被轉(zhuǎn)化為: (D)A 0.821 B 1.224 C 1.458 D 0.71623. 假定用于分析的數(shù)據(jù)包含屬性 age。數(shù)據(jù)元組中age的值如下(按遞增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 30, 33, 33, 35, 35, 36, 40, 45, 46, 52,70, 問題: 使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑, 箱的深度為 3。第二個箱子值為: (A)A 18.3 B 22.6 C 26.8 D 27.924
7、. 考慮值集 12 24 33 2 4 55 68 26 ,其四分位數(shù)極差是: (A)A 31 B 24 C 55 D 325. 一所大學(xué)內(nèi)的各年紀人數(shù)分別為:一年級 200人,二年級 160人, 三年級 130人,四年 級110人。則年級屬性的眾數(shù)是: (A)A 一年級 B 二年級 C 三年級 D 四年級26. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)A 等高線圖 B 餅圖 C 曲面圖 D 矢量場圖27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:(D)A 有放回的簡單隨機抽樣 B 無放回的簡單隨機抽樣 C 分層抽樣 D 漸進抽樣28. 數(shù)據(jù)倉庫是隨著時間變
8、化的 , 下面的描述不正確的是 (C)A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容 ;B. 捕捉到的新數(shù)據(jù)會覆蓋原來的快照 ;C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容 ;D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù) , 這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合 .29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指 : (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源 ,數(shù)據(jù)倉庫 ,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息 ;B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息 ;C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息 ;D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理 , 分析處理以及管理方面的信息 .30. 下面關(guān)于數(shù)據(jù)粒
9、度的描述不正確的是 : (C)A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別 ;B. 數(shù)據(jù)越詳細 ,粒度就越小 , 級別也就越高 ;C. 數(shù)據(jù)綜合度越高 , 粒度也就越大 , 級別也就越高 ;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量 .31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點 ,不正確的描述是 : (A)A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā) ;B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確 ;C. 數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程 , 是啟發(fā)式的開發(fā) ;D. 在數(shù)據(jù)倉庫環(huán)境中 , 并不存在操作型環(huán)境中所固定的和較確切的處理流 , 數(shù)據(jù)倉庫中數(shù)據(jù) 分析和處理更靈活 , 且沒有固定的模式32.
10、 在有關(guān)數(shù)據(jù)倉庫測試 , 下列說法不正確的是 : (D)A. 在完成數(shù)據(jù)倉庫的實施過程中 , 需要對數(shù)據(jù)倉庫進行各種測試 .測試工作中要包括單元測 試和系統(tǒng)測試 .B. 當數(shù)據(jù)倉庫的每個單獨組件完成后 , 就需要對他們進行單元測試 .C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試 .D. 在測試之前沒必要制定詳細的測試計劃 .33. OLAP 技術(shù)的核心是 : (D)A. 在線性 ;B. 對用戶的快速響應(yīng) ;C. 互操作性 .D. 多維分析 ;34. 關(guān)于OLAP的特性,下面正確的是:(D)(1) 快速性 (2) 可分析性 (3) 多維性 (4) 信息性 (5) 共享
11、性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:(C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與 OLTP樣均來自底層的數(shù)據(jù)庫系統(tǒng) 兩者面對的用戶是相同的 .36. OLAM 技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘” , 下面說法正確的是
12、 : (D)A. OLAP和OLAM都基于客戶機/服務(wù)器模式,只有后者有與用戶的交互性 ;B. 由于OLAM勺立方體和用于 OLAP的立方體有本質(zhì)的區(qū)別.C. 基于 WEB勺OLAM是 WE我術(shù)與 OLAM技術(shù)的結(jié)合.D. OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作 .37. 關(guān)于OLAP和OLTP的說法,下列不正確的是:(A)A. OLAP 事務(wù)量大 , 但事務(wù)內(nèi)容比較簡單且重復(fù)率高 .B. OLAP的最終數(shù)據(jù)來源與 OLTP不一樣.C. OLTP 面對的是決策人員和高層管理人員 .D. OLTP 以應(yīng)用為核心 , 是應(yīng)用驅(qū)動的 .38. 設(shè)
13、X=1 , 2, 3是頻繁項集,則可由X產(chǎn)生_(C)_個關(guān)聯(lián)規(guī)則。A、4 B、5 C、6 D、740. 概念分層圖是 _(B)_ 圖。A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關(guān)系是: (C)A、頻繁項集頻繁閉項集=最大頻繁項集B頻繁項集=頻繁閉項集最大頻繁項集C頻繁項集頻繁閉項集最大頻繁項集D頻繁項集=頻繁閉項集=最大頻繁項集42. 考慮下面的頻繁 3-項集的集合: 1 , 2, 3 ,1 , 2, 4 ,1 ,2, 5 , 1 , 3, 4 ,1 , 3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有 5 個項,采用 合并
14、策略,由 候選產(chǎn)生過程得到 4- 項集不包含( C)A、 1,2,3,4 B、 1, 2, 3,5 C、 1,2,4,5 D、 1,3,4,543. 下面選項中 t 不是 s 的子序列的是 ( C )A、s=<2,4,3,5,6,8> t=<2,3,6,8>B、s=<2,4,3,5,6,8> t=<2,8>C、s=<1,2,3,4> t=<1,2>D、s=<2,4,2,4> t=<2,4>44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)
15、項挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是 (D)A 系數(shù)B、幾率C、Cohen度量D、興趣因子46. 下列_(A)_ 不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A與同一時期其他數(shù)據(jù)對比B可視化C基于模板的方法D主觀興趣度量47. 下面購物籃能夠提取的 3- 項集的最大數(shù)量是多少( C)ID購買項1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4面包,黃油,餅干5啤酒,餅干,尿布6牛奶,尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,A, DBSCAN B, C4.5 C,K
16、-Mean D,EM(B)49. 以下哪些分類方法可以較好地避免樣本的不平衡問題,A,KNN B,SVM C,Bayes D,神經(jīng)網(wǎng)絡(luò)( A)50. 決策樹中不包含一下哪種結(jié)點,A,根結(jié)點(root node) B,內(nèi)部結(jié)點(internal node)C,外部結(jié)點(external node ) D,葉結(jié)點(leaf node ) (C)51. 不純性度量中 Gini 計算公式為(其中c 是類的個數(shù)) (A)A, B, C, D,( A)53. 以下哪項關(guān)于決策樹的說法是錯誤的(C)A. 冗余屬性不會對決策樹的準確率造成不利的影響B(tài). 子樹可能在決策樹中重復(fù)多次C. 決策樹算法對于噪聲的干擾
17、非常敏感D. 尋找最佳決策樹是 NP 完全問題54. 在基于規(guī)則分類器的中, 依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序, 保證每一個測試記錄都 是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)A. 基于類的排序方案B. 基于規(guī)則的排序方案C. 基于度量的排序方案D. 基于規(guī)格的排序方案。55. 以下哪些算法是基于規(guī)則的分類器 (A)A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果規(guī)則集 R 中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集 R 中的規(guī)則為( C);A, 無序規(guī)則 B ,窮舉規(guī)則 C , 互斥規(guī)則 D ,有序規(guī)則57. 如果對屬性值的任一組合, R
18、中都存在一條規(guī)則加以覆蓋, 則稱規(guī)則集 R 中的規(guī)則為 (B)A, 無序規(guī)則 B ,窮舉規(guī)則 C , 互斥規(guī)則 D ,有序規(guī)則58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是 (D)A, 無序規(guī)則 B ,窮舉規(guī)則 C , 互斥規(guī)則 D ,有序規(guī)則59. 如果允許一條記錄觸發(fā)多條分類規(guī)則, 把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次 投票,然后計票確定測試記錄的類標號,稱為(A)A, 無序規(guī)則 B ,窮舉規(guī)則 C , 互斥規(guī)則 D ,有序規(guī)則60. 考慮兩隊之間的足球比賽:隊 0和隊 1。假設(shè) 65%的比賽隊 0勝出,剩余的比賽隊 1 獲 勝。隊 0 獲勝的比賽中只有 30%是在隊 1
19、 的主場,而隊 1 取勝的比賽中 75%是主場獲勝。如 果下一場比賽在隊 1 的主場進行隊 1 獲勝的概率為 (C)A,0.75 B,0.35 C,0.4678 D, 0.573861. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN的描述錯誤的有(A)A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B ,可以處理冗余特征C ,訓(xùn)練ANN是一個很耗時的過程 D ,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)62. 通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為 (A)A, 組合 (ensemble) B, 聚集 (aggregate) C ,合并 (combination) D ,投票 (voting)63. 簡單地將數(shù)據(jù)對象集
20、劃分成不重疊的子集, 使得每個數(shù)據(jù)對象恰在一個子集中, 這種聚 類類型稱作( B )A 、層次聚類 B 、劃分聚類 C 、非互斥聚類 D 、模糊聚類64. 在基本K均值算法里,當鄰近度函數(shù)采用( A )的時候,合適的質(zhì)心是簇中各點的中 位數(shù)。A 、曼哈頓距離 B 、平方歐幾里德距離 C 、余弦距離 D 、 Bregman 散度65. ( C )是一個觀測值, 它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制 產(chǎn)生的。A 、邊界點B 、質(zhì)心 C、離群點 D 、核心點66. BIRCH 是一 種( B )。A 、分類器B 、聚類算法C 、關(guān)聯(lián)分析算法 D、特征選擇算法67. 檢測一元正態(tài)分
21、布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。A 、統(tǒng)計方法 B 、鄰近度 C 、密度 D 、聚類技術(shù)68. ( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。A、MIN (單鏈)B 、MAX(全鏈)C 、組平均 D 、Ward方法69. ( D )將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN (單鏈)B 、MAX(全鏈)C70. DBSCAN 在最壞情況下的時間復(fù)雜度是( BA 、 O(m) B 、 O(m2) C 、 O(log m)71. 在基于圖的簇評估度量表里面,如果簇度量為 么它的
22、類型是( C )。、組平均D 、Ward方法)。D 、 O(m*log m)proximity(Ci , C) ,簇權(quán)值為 mi ,那A 、基于圖的凝聚度 B 、基于原型的凝聚度 C 、基于原型的分離度 D基于圖的凝聚度和分離度72. 關(guān)于K均值和DBSCAN勺比較,以下說法不正確的是(A )。A、 K均值丟棄被它識別為噪聲的對象,而DBSCA一般聚類所有對象。B、 K均值使用簇的基于原型的概念,而DBSCA使用基于密度的概念。C、 K均值很難處理非球形的簇和不同大小的簇,DBSCA可以處理不同大小和不同形狀的 簇。D、 K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN合并 有重疊的簇。73. 以下是哪一個聚類算法的算法流程:構(gòu)造k-最近鄰圖。使用多層圖劃分算法劃分圖。repeat :合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until :不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 撥叉頭加工課程設(shè)計
- 環(huán)保行業(yè)工程師工作總結(jié)
- IT行業(yè)客戶服務(wù)心得
- 門診部醫(yī)生的工作總結(jié)
- 2024年蘇教版九年級語文上冊教學(xué)工作總結(jié)(共16篇)
- 2024年稅務(wù)師題庫(原創(chuàng)題)
- 《期貨市場投資分析》課件
- 2024年規(guī)章制度會議記錄(16篇)
- 【人教版九上歷史】知識清單
- 2025關(guān)于房地產(chǎn)銷售代理合同模板
- 功率因數(shù)調(diào)整電費辦法
- 美發(fā)基礎(chǔ)(課堂PPT)
- WordA4信紙(A4橫條直接打印版)
- 藥品庫存清單(2015年)
- (完整版)會計準則(全文)
- 百家姓全文拼音版A4打印
- 專家論證挖孔樁專項施工方案
- IPC標準解析學(xué)習(xí)課程
- 麻花鉆鉆孔中常見問題的原因和解決辦法
- 部分常用巖土經(jīng)驗值
- 外墻真石漆購銷合同
評論
0/150
提交評論