大數據時代下數據挖掘試題

上傳人：健*** IP屬地：山東上傳時間：2022-09-26 格式：DOC 頁數：24 大?。?91.50KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、海量數據挖掘技術及工程實踐題目一、單項選擇題（共80題）(D)的目的減小數據的取值范圍，使其更合適于數據挖掘算法的需要，并且能夠獲取和原始數據相同的剖析結果。A.數據沖刷B.數據集成C.數據變換D.數據歸約某商場研究銷售紀錄數據后發(fā)現，買啤酒的人很大概率也會購買尿布，這種屬于數據挖掘的哪一種問題(A)3)A.關系規(guī)則發(fā)現B.聚類4)C.分類D.自然語言辦理5)以下兩種描述分別對應哪兩種對分類算法的討論標準(A)(a)警察抓小偷，描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比率的小偷給警察抓了的標準。8)A.Precision,RecallB.Recall,Precision9)A.P

2、recision,ROCD.Recall,ROC10)將原始數據進行集成、變換、維度規(guī)約、數值規(guī)約是在以下哪個步驟的任務(C)11)A.頻頻模式挖掘B.分類和展望C.數據預辦理D.數據流挖掘當不知道數據所帶標簽時，能夠使用哪一種技術促使帶同類標簽的數據與帶其他標簽的數據相分別(B)13)A.分類B.聚類C.關系剖析D.隱馬爾可夫鏈建立一個模型，經過這個模型依照已知的變量值來展望其他某個變量值屬于數據挖掘的哪一類任務(C)15)A.依照內容檢索B.建模描述16)C.展望建模D.搜尋模式和規(guī)則17)下面哪一種不屬于數據預辦理的方法(D)18)A.變量代換B.失散化C.齊聚D.估計遺漏值19)假設1

3、2個銷售價格記錄組已經排序以下：5,10,11,13,15,35,50,55,72,92,204,215使用以下每種方法將它們劃分成四個箱。等頻（等深）劃分時，15在第幾個箱子內(B)20)A.第一個B.第二個C.第三個D.第四個下面哪個不屬于數據的屬性種類：(D)22)A.標稱B.序數C.區(qū)間D.相異只有非零值才重要的二元屬性被稱作：(C)A.計數屬性B.失散屬性C.非對稱的二元屬性D.對稱屬性以下哪一種方法不屬于特點選擇的標準方法：(D)26)A.嵌入B.過濾C.包裝D.抽樣27)下面不屬于創(chuàng)辦新屬性的相關方法的是：(B)28)A.特點提取B.特點更正C.照射數據到新的空間D.特點構造29

4、)下面哪個屬于照射數據到新的空間的方法(A)30)A.傅立葉變換B.特點加權C.漸進抽樣D.維歸約假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值照射到0至1的范圍內。對屬性income的73600元將被轉變成：(D)32)一所大學內的各年紀人數分別為：一年級200人，二年級160人，三年級130人，四年110人。則年級屬性的眾數是：(A)A.一年級B.二年級C.三年級D.四年級35)以下哪個不是特意用于可視化時間空間數據的技術：(B)36)A.等高線圖B.餅圖C.曲面圖D.矢量場圖37)在抽樣方法中，當合適的樣本容量很難確準時，能夠使用的抽

5、樣方法是：(D)A.有放回的簡單隨機抽樣B.無放回的簡單隨機抽樣C.分層抽樣D漸進抽樣數據庫房是隨著時間變化的,下面的描述不正確的選項是(C)A.數據庫房隨時間的變化不斷增加新的數據內容B.捕捉到的新數據會覆蓋原來的快照C.數據庫房隨事件變化不斷刪去舊的數據內容D.數據庫房中包括大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合下面關于數據粒度的描述不正確的選項是:(C)A.粒度是指數據庫房小數據單元的詳細程度和級別B.數據越詳細,粒度就越小,級別也就越高C.數據綜合度越高,粒度也就越大,級別也就越高D.粒度的詳細劃分將直接影響數據庫房中的數據量以及盤問質量相關數據庫房的開發(fā)特點,

6、不正確的描述是:(A)A.數據庫房開發(fā)要從數據出發(fā)B.數據庫房使用的需求在開發(fā)出去就要明確C.數據庫房的開發(fā)是一個不斷循環(huán)的過程,是啟示式的開發(fā)D.在數據庫房環(huán)境中,其實不存在操作型環(huán)境中所固定的和較確實的辦理流,數據庫房中數據剖析和辦理更靈便,且沒有固定的模式關于OLAP的特點,下面正確的選項是:(D)(1)快速性(2)可剖析性(3)多維性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)關于OLAP和OLTP的差別描述,不正確的選項是:(C)主若是關于如何理解齊聚的大量不一樣樣的數據.它與OTAP應用程序不一樣

7、樣B.與OLAP應用程序不一樣樣,OLTP應用程序包括大量相對簡單的事務的特點在于事務量大,但事務內容比較簡單且重復率高是以數據庫房為基礎的,但其最后數據本源與OLTP相同均來自基層的數據庫系統(tǒng),兩者面對的用戶是相同的關于OLAP和OLTP的說法,以下不正確的選項是:(A)事務量大,但事務內容比較簡單且重復率高的最后數據本源與OLTP不一樣樣樣面對的是決策人員和高層管理人員以應用為核心,是應用驅動的設X=1，2，3是頻頻項集，則可由X產生(C)個關系規(guī)則。71)考慮下面的頻頻3-項集的會合：1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假設數據集

8、中只有5個項,采用合并策略,由候選產生過程獲取4-項集不包括（C）,2,3,4,2,3,5,2,4,5,3,4,574)下面選項中t不是s的子序列的是(C)=t=t=t=t=在圖會合中發(fā)現一組公共子構造,這樣的任務稱為(B)A.頻頻子集挖掘B.頻頻子圖挖掘C.頻頻數據項挖掘D.頻頻模式挖掘以下胸襟不擁有反演性的是(D)82)A.系數B.幾率胸襟D.興趣因子以下(A)不是將主觀信息加入到模式發(fā)現任務中的方法。A.與同一時期其他數據比較B.可視化C.基于模板的方法D.主觀興趣胸襟下面購物藍能夠提取的3-項集的最大數量是多少（C）TID項集牛奶,啤酒,尿布面包,黃油,牛奶牛奶,尿布,餅干面包,黃油,

9、餅干啤酒,餅干,尿布牛奶,尿布,面包,黃油面包,黃油,尿布啤酒,尿布牛奶,尿布,面包,黃油啤酒,餅干以下哪些算法是分類算法（B）以下哪些分類方法能夠較好地防備樣本的不平衡問題（A）D.神經網絡決策樹中不包括一下哪一種結點(C)根結點（rootnode)內部結點（internalnode）外面結點（externalnode）葉結點（leafnode）以下哪項關于決策樹的說法是錯誤的(C)冗余屬性不會對決策樹的正確率造成不利的影響子樹可能在決策樹中重復多次決策樹算法關于噪聲的攪亂特別敏感搜尋最正確決策樹是NP圓滿問題在基于規(guī)則分類器的中,依照規(guī)則質量的某種胸襟對規(guī)則排序,保證每一個測試記錄都是由覆

10、蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于胸襟的排序方案D.基于規(guī)格的排序方案。以下哪些算法是基于規(guī)則的分類器(A)99)A.B.KNNC.NaiveBayesD.ANN可用作數據挖掘剖析中的關系規(guī)則算法有（C）。A.決策樹、對數回歸、關系模式K均值法、SOM神經網絡Apriori算法、FP-Tree算法RBF神經網絡、K均值法、決策樹若是對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A.無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則用于分類與回歸應用的主要算法有:(D)算法、HotSpot算法神經網絡、K均值法

11、、決策樹均值法、SOM神經網絡D.決策樹、BP神經網絡、貝葉斯40)假憂如意一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,此后計票確定測試記錄的類標號,稱為（A）A.無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則41)考慮兩隊之間的足球比賽：隊0和隊1。假設65%的比賽隊0勝出,節(jié)余的比賽隊1獲勝。0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。假以下一場比賽在隊1的主場進行隊1獲勝的概率為(C)以下關于人工神經網絡（ANN）的描述錯誤的有(A)A.神經網絡對訓練數據中的噪聲特別魯棒B.能夠辦理冗余特點C.訓練ANN是一個很耗時的過程D.最

12、少含有一個隱蔽層的多層神經網絡43)經過齊聚多個分類器的展望來提高分類正確率的技術稱為(A)A.組合(ensemble)B.齊聚(aggregate)C.合并(combination)D.投票(voting)44)簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類種類稱作（B）A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類45)在基本K均值算法里,當周邊度函數采用（A）的時候,合適的質心是簇中各點的中位數。A.曼哈頓距離B.平方歐幾里德距離C.余弦距失散度46)（C）是一個觀察值,它與其他觀察值的差別這樣之大,以致于思疑它是由不一樣樣的機制產生的。A.界線點B.

13、質心C.離群點D.核心點47)BIRCH是一種（B）。A.分類器B.聚類算法C.關系剖析算法D.特點選擇算法48)檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于（A）的離群點檢測。A.統(tǒng)計方法B.周邊度C.密度D.聚類技術49)（C）將兩個簇的周邊度定義為不一樣樣簇的所有點對的平均逐對周邊度，它是一種凝聚層次聚類技術。（單鏈）（全鏈）C.組平均方法50)（D）將兩個簇的周邊度定義為兩個簇合并時以致的平方誤差的增量,它是一種凝聚層次聚類技術。（單鏈）（全鏈）C.組平均方法以下算法中，不屬于外推法的是（B）。A.搬動平均法B.回歸剖析法C.指數圓滑法D.季節(jié)指數法關系規(guī)則的討論指標是：（C）。A

14、.均方誤差、均方根誤差Kappa統(tǒng)計、顯著性檢驗支持度、置信度平均絕對誤差、相對誤差53)關于K均值和DBSCAN的比較,以下說法不正確的選項是（A）。均值扔掉被它鑒別為噪聲的對象,而DBSCAN一般聚類所有對象。均值使用簇的基于原型的看法,而DBSCAN使用基于密度的看法。均值很難辦理非球形的簇和不一樣樣大小的簇,DBSCAN能夠辦理不一樣樣大小和不一樣樣形狀的簇。均值能夠發(fā)現不是明顯分其他簇,即便簇有重疊也能夠發(fā)現,但是DBSCAN會合并有重疊的簇。54）從研究現狀上看，下面不屬于云計算特點的是（C）A.超大規(guī)模B.虛假化C.私有化D.高可靠性55)考慮這么一種情況：一個對象碰巧與另一個對

15、象相對湊近,但屬于不一樣樣的類,由于這兩個對象一般不會共享好多近鄰,所以應入選擇（D）的相似度計算方法。A.平方歐幾里德距離B.余弦距離C.直接相似度D.共享近來鄰56)剖析顧客開支行業(yè)，以便有針對性的向其介紹感興趣的服務，屬于（A）問題。A.關系規(guī)則挖掘B.分類與回歸C.聚類剖析D.時序展望57)以下哪個聚類算法不是屬于基于原型的聚類（D）。A.模糊C均值算法58)關于混雜模型聚類算法的優(yōu)缺點,下面說法正確的選項是（B）。A.當簇只包括少量數據點,也許數據點近似協(xié)線性時,混雜模型也能很好地辦理。B.混雜模型比K均值或模糊c均值更一般,由于它能夠使用各種種類的分布。C.混雜模型很難發(fā)現不一樣樣

16、大小和橢球形狀的簇。D.混雜模型在有噪聲和離群點時不會存在問題。59)以下哪個聚類算法不屬于基于網格的聚類算法（D）。60)一個對象的離群點得分是該對象周圍密度的逆。這是基于（C）的離群點定義。A概率B周邊度C密度D聚類輿情研判，信息科學重視（C）,社會和管理科學重視突發(fā)集體事件管理中的集體心理行為及輿論控制研究，新聞流傳學重視對輿論的本體進行規(guī)律性的研究和研究。A.輿論的本體進行規(guī)律性的研究和研究B.輿論控制研究C.互聯(lián)網文本挖掘和剖析技術D.用戶行為剖析62)MapReduce的Map函數產生好多的（C）C.Mapreduce適用于（D）A.任意應用程序B.任意可在windowsserve

17、t2008上運行的程序C.能夠串行辦理的應用程序能夠并行辦理的應用程序PageRank是一個函數,它對Web中的每個網頁賞賜一個實數值。它的妄圖在于網頁的PageRank越高,那么它就（D）。A.相關性越高B.越不重要C.相關性越低D.越重要A.一對一B.一對多C.多對多D.多對一共同過濾剖析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些用戶對某一信息的討論,形成系統(tǒng)對該指定用戶對此信息的愛好程度（D）,并將這些用戶喜歡的項介紹給有相似興趣的用戶。A.相似B.相同C.介紹D.展望66)大數據指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、辦理、

18、并（B）成為幫助企業(yè)經營決策更積極目的的信息。A.收集B.整理C.規(guī)劃D.齊聚67)大數據科學關注大數據網絡發(fā)展和運營過程中（D）大數據的規(guī)律及其與自然和社會活動之間的關系。A.大數據網絡發(fā)展和運營過程C.規(guī)律和考據68)大數據的價值是經過數據共享、（B.規(guī)劃建設運營管理D.發(fā)現和考據D）后獲取最大的數據價值A.算法共享B.共享應用C.數據交換D.交錯復用社交網絡產生了海量用戶以及實時和圓滿的數據,同時社交網絡也記錄了用戶集體的（C）,經過深入挖掘這些數據來認識用戶,此后將這些剖析后的數據信息推給需要的品牌商家或是微博營銷企業(yè)。A.地址B.行為C.情緒D.本源70)經過數據收集和顯現數據背后的

19、（D）,運用豐富的、擁有互動性的可視化手段,數據新聞學成為新聞學作為一門新的分支進入主流媒體,即用數據報道新聞。A.數據收集B.數據挖掘C.真相D.關系與模式CRISP-DM模型中Evaluation表示對建立的模型進行評估,重點詳細考慮得出的結果可否切合（C）的商業(yè)目的。A.第二步B.第三步C.第一步D.最后一步發(fā)現關系規(guī)則的算法平時要經過以下三個步驟：連接數據,作數據準備；給定最小支持度和（D）,利用數據挖掘工具供應的算法發(fā)現關系規(guī)則；可視化顯示、理解、評估關系規(guī)則A.最小興趣度B.最小置信度C.最大支持度D.最小可信度規(guī)則I-j,“有可能”,等于所有包括I的購物籃中同時包括J的購物籃的比

20、率,為（B）。A.置信度B.可信度C.興趣度D.支持度74)若是一個般配中,任何一個節(jié)點都不一樣樣時是兩條或多條邊的端點,也稱作（C）A.極大般配B.二分般配C圓滿般配D.極小般配只要擁有合適的政策推動,大數據的使用將成為將來提高競爭力、生產力、創(chuàng)新能力以及（D）的重點要素。A.提高開支B.提高GDPC.提高生活水平D.創(chuàng)辦開支者盈余76)個性化介紹系統(tǒng)是建立在海量數據挖掘基礎上的一種高級商務智能平臺,以幫助D）為其顧客購物供應圓滿個性化的決策支持和信息服務。A.企業(yè)B.各單位C.跨國企業(yè)D.電子商務網站云計算是對（D）技術的發(fā)展與運用A.并行計算B.網格計算C.分布式計算D.三個選項都是（B

21、）是Google提出的用于辦理海量數據的并行編程模式和大規(guī)模數據集的并行運算的軟件架構。在Bigtable中，（A）主要用來積蓄子表數據以及一些日志文件A.GFSB.Chubby二、判斷題（共40題）1)分類是展望數據對象的失散種類，展望是用于數據對象的連續(xù)取值。(對)時序展望回歸展望相同，也是用已知的數據展望將來的值，但這些數據的差別是變量所處時間的不一樣樣。(錯)數據挖掘的主要任務是從數據中發(fā)現隱藏的規(guī)則，從而能更好的完成描述數據、展望數據等任務。(對)對遺漏數據的辦理方法主要有：忽略該條記錄；手工填充遺漏值；利用默認值填充遺漏值；利用均值填充遺漏值；利用同種類均值填充遺漏值；利用最可能的

22、值填充遺漏值。(對)神經網絡對噪音數據擁有高承受能力，并能對未經過訓練的數據擁有分類能力，但其需要很長的訓練時間，所以關于有足夠長訓練時間的應用更合適。(對)數據分類由兩步過程組成：第一步，建立一個聚類模型，描述指定的數據類集或看法集；第二步，使用模型進行分類。(錯)7)聚類是指將物理或抽象對象的會合分組成為由近似的對象組成的多個類的過程。(對)決策樹方法平時用于關系規(guī)則挖掘。(錯)數據規(guī)范化指將數據按比率縮放(如更換大單位)，使之落入一個特定的地域（如0-1）以提高數據挖掘效率的方法。規(guī)范化的常用方法有：最大-最小規(guī)范化、零-均值規(guī)范化、小數定標規(guī)范化。(對)原始業(yè)務數據來自多個數據庫或數據

23、庫房，它們的構造和規(guī)則可能是不一樣樣的，這將以致原始數據特其他紛亂、不能夠用，即便在同一個數據庫中，也可能存在重復的和不圓滿的數據信息，為了使這些數據能夠切合數據挖掘的要求，提高效率和獲取清楚的結果，必須進行數據的預辦理。(對)數據取樣時，除了要求抽樣時嚴把質量關外，還要求抽樣數據必定在足夠范圍內有代表性。(對)分類規(guī)則的挖掘方法平時有：決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。(對)可信度是對關系規(guī)則的正確度的衡量。(錯)孤立點在數據挖掘時總是被視為異常、無用數據而扔掉。(錯)15)Apriori算法是一種典型的關系規(guī)則挖掘算法。(對)16)用于分類的失散化方法之間的根本差別在

24、于可否使用類信息。（對）17)特點提取技術其實不依賴于特定的領域。（錯）模型的詳細化就是展望公式，公式能夠產生與觀察值有相似構造的輸出，這就是展望值。（對）文本挖掘又稱信息檢索，是從大量文本數據中提取以前未知的、適用的、可理解的、可操作的知識的過程。（錯）定量屬性能夠是整數值也許是連續(xù)值。（對）可視化技術關于剖析的數據種類平時不是專用性的。（錯）OLAP技術重視于把數據庫中的數據進行剖析、變換成輔助決策信息，是繼數據庫技術發(fā)展此后迅猛發(fā)展起來的一種新技術。（對）Web數據挖掘是經過數據庫仲的一些屬性來展望另一個屬性，它在考據用戶提出的假設過程中提守信息。（錯）關系規(guī)則挖掘過程是發(fā)現滿足最小支持

25、度的所有項集代表的規(guī)則。（錯）利用先驗原理能夠幫助減少頻頻項集產生時需要探查的候選項個數。（對）先驗原理能夠表述為：若是一個項集是頻頻的，那包括它的所有項集也是頻頻的。（錯）回歸剖析平時用于挖掘關系規(guī)則。（錯）擁有較高的支持度的項集擁有較高的置信度。（錯）維歸約能夠去掉不重要的屬性，減少量據立方體的維數，從而減少量據挖掘辦理的數據量，提高挖掘效率。（對）30)聚類（clustering）是這樣的過程：它找出描述并劃分數據類或看法的模型(或函數)，以便能夠使用模型展望類標記未知的對象類。（錯）關于SVM分類算法，待分樣本集中的大部分樣本不是支持向量，移去也許減少這些樣本對分類結果沒有影響。（對）

26、Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法，待分樣本的分類結果取決于各種域中樣本的全體。(錯)在決策樹中，隨著樹中結點數變得太大，即便模型的訓練誤差還在連續(xù)減低，但是檢驗誤差開始增大，這是出現了模型擬合不足的問題。（錯）在聚類剖析中間，簇內的相似性越大，簇間的差別越大，聚類的奏效就越差。（錯）聚類剖析能夠看作是一種非督查的分類。（對）K均值是一種產生劃分聚類的基于密度的聚類算法，簇的個數由算法自動地確定。（錯基于周邊度的離群點檢測方法不能夠辦理擁有不一樣樣密度地域的數據集。（對）若是一個對象不強屬于任何簇，那么該對象是基于聚類的離群點。（對）大數據的4V特點是Volum

27、e、Velocity、Variety、Veracity。（對）40)聚類剖析的相異度矩陣是用于積蓄所有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。（對）三、多項選擇題（共30題）噪聲數據的產生原因主要有：（ABCD）A.數據收集設備有問題B.在數據錄入過程中發(fā)生了人為或計算機錯誤C.數據傳輸過程中發(fā)生錯誤由于命名規(guī)則或數據代碼不一樣樣而引起的不一致搜尋數據集中的關系是為了搜尋精確、方便并且有價值地總結出數據的某一特點的表示,這個過程包括了以下哪些步驟(ABCD)A.選擇一個算法過程使評分函數最優(yōu)B.決定如何量化和比較不一樣樣表示擬合數據的利害C.決定要使用的表示的特點和構造D.決定用什么

28、樣的數據管理原則以高效地實現算法3)數據挖掘的展望建模任務主要包括哪幾大類問題(AB)分類回歸聚類關系規(guī)則挖掘以手下于不一樣樣的有序數據的有：(ABCD)A.時序數據B.序列數據C.時間序列數據D.事務數據E.空間數據下面屬于數據集的一般特點的有：(BCD)A.連續(xù)性B.維度C.稀有性D.分辨率E.相異性6）下面屬于維歸約常用的辦理技術的有：(AC)A.主成分剖析B.特點提取C.奇異值分解D.特點加權E.失散化7）噪聲數據辦理的方法主要有：（ABD）A.分箱B.聚類C.關系剖析D.回歸8）數據挖掘的主要功能包括看法描述、趨勢剖析、孤立點剖析及（ABCD）等方面。A.挖掘頻頻模式B.分類和展望C

29、.聚類剖析D.誤差剖析9）以下各項均是針對數據庫房的不一樣樣說法,你認為正確的有（BCD）。10）A數據庫房就是數據庫11）B數據庫房是所有商業(yè)智能系統(tǒng)的基礎12）C數據庫房是面向業(yè)務的,支持聯(lián)機事務辦理（OLTP）13）D數據庫房支持決策而非事務辦理10）聯(lián)機剖析辦理包括(BCD)基本剖析功能。A.聚類B.切片C.轉軸D.切塊11）利用Apriori算法計算頻頻項集能夠有效降低計算頻頻集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集，在候選2-項集中需要剪枝的是(BD)TID項集面包、牛奶面包、尿布、啤酒、雞蛋牛奶、尿布、啤酒、可樂面包、牛奶、尿布、啤酒面包、牛奶、尿布、可樂

30、A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶12）下表是一個購物籃,假設支持度閾值為40%,其中(AD)是頻頻閉項集。ID項集面包、牛奶、尿布面包、牛奶、尿布、啤酒牛奶、尿布、雞蛋面包、尿布、啤酒、雞蛋啤酒、雞蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、雞蛋13）Apriori算法的計算復雜度受(ABCD)影響。A.支持度閥值B.項數（維度）C.事務數D.事務平均寬度14）以下關于非頻頻模式說法,正確的選項是（AD）A.其支持度小于閾值B.都是不讓人感興趣的C.包括負模式和負相關模式D.對異常數據項敏感15）以手下于分類器討論或比較尺度的有:(ACD)A.展望正確度B.召回率C.模型描述的簡潔度D.計算復雜度16）貝葉斯信念網絡(BBN)有以下哪些特點。（AB）A.構造網絡費時費力B.對模型的過分問題特別魯棒C.貝葉斯網絡不合適辦理不圓滿的數據D.網絡構造確定后,增加變量相當麻煩17）以下哪些不是近來鄰分類器的特點。(C)A.它使用詳細的訓練實例進行展望，不用保護源自數據的模型B.分類一個測試樣例開支很大C.近來鄰分類器基于全局信息進行展望D.能夠生產任意形狀的決策界線18）以手下于聚類算法的是（AB）。1

人人文庫> 全部分類> 辦公材料 > 禮儀文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數據時代下數據挖掘試題

文檔簡介

溫馨提示

最新文檔

評論

大數據時代下數據挖掘試題

文檔簡介

溫馨提示

最新文檔

評論

相關文檔