下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
【MOOC】數(shù)據倉庫與數(shù)據挖掘-青島大學中國大學慕課MOOC答案數(shù)據挖掘導論單元測試1、【判斷題】數(shù)據挖掘的主要任務是從數(shù)據中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成數(shù)據描述、預測數(shù)據等任務.本題答案:【正確】2、【判斷題】尋找模式和規(guī)則主要是對數(shù)據進行干擾,使其符合某種規(guī)則以及模式。本題答案:【錯誤】3、【判斷題】分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。本題答案:【正確】4、【判斷題】數(shù)據挖掘的過程可以粗略分為:問題定義、數(shù)據準備、數(shù)據預處理、數(shù)據挖掘,以及結果的解釋和評估等步驟。本題答案:【正確】5、【判斷題】決策樹方法可以稱為一種數(shù)據挖掘技術,也可以稱為一種機器學習技術,所以數(shù)據挖掘和機器學習是一樣的。本題答案:【錯誤】6、【判斷題】數(shù)據挖掘是從大量的數(shù)據中篩選出有效的、可信的以及隱含信息的高級處理過程。本題答案:【正確】數(shù)據倉庫與OLAP單元測試1、【單選題】數(shù)據倉庫是隨著時間變化的,下面的描述不正確的是:本題答案:【數(shù)據倉庫隨事件變化不斷刪去舊的數(shù)據內容?!?、【單選題】OLAP技術的核心是:本題答案:【多維分析】數(shù)據預處理單元測試1、【單選題】假定某屬性的最小與最大值分別為8000元和14000元。要將其映射到區(qū)間[0.0,1.0],按照最小-最大規(guī)范化方法對屬性進行變換,屬性值12600將變換為:本題答案:【0.767】2、【單選題】若屬性income的平均值和標準差分別為32000元和17000元,則使用z-score規(guī)范化后,65600元被轉換為:本題答案:【1.867】3、【判斷題】等寬分箱法使每個箱子的取值區(qū)間相同。本題答案:【正確】4、【判斷題】數(shù)據取樣時,除了要求抽樣時嚴把質量關外,還要求抽樣數(shù)據必須在足夠范圍內有代表性。本題答案:【正確】5、【判斷題】數(shù)據集成是將多個數(shù)據源中的數(shù)據結合起來存放在一個一致的數(shù)據存儲(如數(shù)據倉庫)中。數(shù)據源可能涉及多個數(shù)據庫、數(shù)據立方體或一般文件。本題答案:【正確】6、【判斷題】數(shù)據歸約是用來得到數(shù)據集的歸約表示,它比源數(shù)據集小得多,但仍接近于保持源數(shù)據的完整性。本題答案:【正確】7、【判斷題】采用分箱方法不能進行數(shù)據離散化。本題答案:【錯誤】關聯(lián)分析單元測試1、【單選題】設X={1,2,3}是頻繁項集,則可由X產生個關聯(lián)規(guī)則。本題答案:【6】2、【單選題】某超市研究銷售紀錄數(shù)據后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據挖掘的哪類問題?本題答案:【關聯(lián)分析】3、【單選題】一般數(shù)據挖掘的流程順序,下列正確的是①選擇數(shù)據挖掘的技術、功能和合適的算法②選擇數(shù)據,數(shù)據清洗和預處理③了解應用領域,了解相關的知識和應用目標④尋找感興趣的模式、模式評估、知識表示⑤收集數(shù)據,創(chuàng)建目標數(shù)據集本題答案:【③⑤②①④】4、【判斷題】頻繁項集的非空子集一定是頻繁項集。本題答案:【正確】5、【判斷題】FP-Growth算法挖掘頻繁項集,只需掃描一次數(shù)據庫。本題答案:【錯誤】6、【判斷題】只要有兩個頻繁3項集,就一定能夠生成一個候選4項集。本題答案:【錯誤】7、【判斷題】非頻繁項集的超集有可能是頻繁的。本題答案:【錯誤】8、【判斷題】根據顧客去藥店的買藥記錄,想要知道哪些藥經常被同時服用,可以采用關聯(lián)規(guī)則挖掘技術來解決。本題答案:【正確】決策樹單元測試1、【單選題】決策樹中不包含以下哪種節(jié)點。本題答案:【外部節(jié)點(externalnode)】2、【單選題】下列應用場景不屬于分類的是本題答案:【為了解用戶特點,公司將客戶分群】3、【單選題】下面對C4.5決策樹算法的描述錯誤的是:本題答案:【只能處理連續(xù)屬性。】4、【單選題】已知某一連續(xù)屬性數(shù)據集如下,當分割點為31時,該分割點的信息增益比為:屬性值:25,30,32,40,48,67,98,100類別:1,1,1,1,2,2,2,2本題答案:【0.39】5、【單選題】假設有14個樣本,包含兩類,其中1類為9個樣本,2類為5個樣本,則根據熵的計算公式,此數(shù)據集的信息量為:本題答案:【0.940】6、【判斷題】分類是總結已有類別對象的特點,并根據這些特點,進行未知類別對象的類別預測的過程,又可稱為無監(jiān)督學習。本題答案:【錯誤】7、【判斷題】決策樹方法可用于連續(xù)數(shù)據離散化。本題答案:【正確】8、【判斷題】留一法是交叉驗證法的特殊情況。本題答案:【正確】9、【判斷題】ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。本題答案:【正確】10、【判斷題】決策樹構建之后,為了避免過度擬合,需要對樹進行剪枝。本題答案:【正確】11、【判斷題】數(shù)據分類由兩步過程組成:第一步,建立一個分類模型,描述指定的數(shù)據類集或概念集;第二步,使用模型進行分類。本題答案:【正確】貝葉斯單元測試1、【單選題】根據下表的訓練數(shù)據學習一個樸素貝葉斯分類器并確定x=(2,S)的類標簽y。表中X1,X2為特征,取值的范圍分別為{1,2,3}和{S,M,L},Y為類標簽。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------本題答案:【y=0】2、【單選題】假設吸煙的本科生比例為15%,而吸煙的研究生占23%。如果五分之一的大學生是研究生,其余的是本科生,那么吸煙的學生是研究生的概率是多少?本題答案:【0.277】3、【單選題】公司里面男性有60人,女性有40人,男性穿皮鞋的人數(shù)有25人,穿運動鞋的人數(shù)有35人,女性穿皮鞋的人數(shù)有10人,穿高跟鞋的人數(shù)有30人?,F(xiàn)在你只知道有一個人穿了皮鞋,推測他是男性的概率為:本題答案:【0.714】4、【判斷題】先驗概率是根據歷史資料或主觀估計的方法得到的概率。本題答案:【正確】5、【判斷題】后驗概率P(H|X)表示條件X下H的概率。本題答案:【正確】6、【判斷題】樸素貝葉斯算法能夠解決特征之間有相關性的問題。本題答案:【錯誤】聚類分析單元測試1、【單選題】簡單地將數(shù)據對象集劃分成不重疊的子集,使得每個數(shù)據對象恰在一個子集中,這種聚類類型稱作本題答案:【劃分聚類】2、【單選題】BIRCH是一種本題答案:【聚類算法】3、【單選題】關于K均值和DBSCAN的比較,以下說法不正確的是本題答案:【K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。】4、【單選題】設有6個二維樣本點,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想將其聚類為2類,首先選擇p1和p2為兩類中心點,采用歐式距離測算方式,則第一輪劃分結束,新生成的簇中心點分別為:本題答案:【(0,0),(6.2,5.6)】5、【判斷題】聚類分析可以作為其它算法的預處理步驟,如數(shù)據離散化,數(shù)據歸約等。本題答案:【正確】期末考試1、【單選題】假設數(shù)據挖掘的任務是將如下8個點(用(x,y)代表位置)聚類為3個簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐式距離。假設初始選擇A1,B1和C1分別為每個聚類的中心,用K-平均算法來給出在第一次循環(huán)執(zhí)行后的三個聚類中心:本題答案:【(2,10),(6,6),(1.5,3.5)】2、【單選題】設訓練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個特征,8條記錄如表所示,采用C4.5算法進行連續(xù)屬性劃分,請問“收入”屬性具有幾種劃分可能?12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【7】3、【單選題】設訓練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個特征,8條記錄如表所示,采用C4.5算法進行連續(xù)屬性劃分,對于“收入”屬性的劃分“2.75”,計算其信息增益率:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【0.255】4、【單選題】在下表中給定的樣本上進行合并(凝聚)層次聚類,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的終止條件為3個簇,則此3個簇為:序號屬性1屬性2序號屬性1屬性21210575225664384712458849本題答案:【最后3個簇為:{2,7},{1,4,8},{3,5,6}】5、【單選題】簡單的將數(shù)據對象集劃分成不重疊的子集,使得每個數(shù)據對象恰在一個子集中,這種聚類類型稱作本題答案:【劃分聚類】6、【多選題】1.數(shù)據庫有5個事物,設min_sup=60%,min_conf=80%。TID購買的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有頻繁項集包括:本題答案:【頻繁1項集:{M},{O},{K},{E},{Y}#頻繁2項集:{M,K},{O,K},{O,E},{K,E},{K,Y}#頻繁3項集:{O,K,E}】7、【多選題】數(shù)據庫有5個事物,設min_sup=60%,min_conf=80%。TID購買的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}列舉所有的強關聯(lián)規(guī)則(給出支持度s和置信度c):本題答案:【{O,K}-{E}(60%,100%)#{O,E}-{K}(60%,100%)】8、【多選題】假設數(shù)據挖掘的任務是將如下8個點(用(x,y)代表位置)聚類為3個簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐式距離。假設初始選擇A1,B1和C1分別為每個聚類的中心,用K-平均算法來給出最后的三個簇以及簇中心:本題答案:【最后三個簇為:{A1,B1,C2}、{A3,B2,B3}、{A2,C1}#最后三個簇中心為:(3.67,9),(7,4.33),(1.5,3.5)】9、【多選題】設訓練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個特征,8條記錄如表所示,采用C4.5算法進行連續(xù)屬性劃分,通過構建決策樹,輸出規(guī)則為:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是本題答案:【If收入5.8and婚否=“是”,則愛旅游=“是”;#If收入5.8and婚否=“否”,則愛旅游=“否”;#If收入=5.8,則愛旅游=“是”?!?0、【多選題】已知數(shù)據集如下,下面描述正確的為:贊成反對合計男性40120160女性103040合計50150200本題答案:【P(男性,贊成)=40/200#P(贊成)=5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂科技職業(yè)學院《人力資源管理前沿專題》2023-2024學年第一學期期末試卷
- 江蘇工程職業(yè)技術學院《生命科學基礎》2023-2024學年第一學期期末試卷
- 華東政法大學《無機材料綜合實驗II》2023-2024學年第一學期期末試卷
- 湖北黃岡應急管理職業(yè)技術學院《網絡存儲技術與實踐》2023-2024學年第一學期期末試卷
- 珠??萍紝W院《臨床醫(yī)學概論(內科學)》2023-2024學年第一學期期末試卷
- 浙江同濟科技職業(yè)學院《電氣傳動與控制》2023-2024學年第一學期期末試卷
- 中南財經政法大學《聚合過程與原理》2023-2024學年第一學期期末試卷
- 長沙理工大學城南學院《技法理論》2023-2024學年第一學期期末試卷
- 云南交通職業(yè)技術學院《醫(yī)藥市場調研與預測》2023-2024學年第一學期期末試卷
- 新一代信息技術產業(yè)布局
- 洞悉現(xiàn)狀 明確方向-初三上期末家長會
- 質控護理管理制度內容
- 幼兒園幼教集團2025學年第二學期工作計劃
- 2025版高考物理復習知識清單
- 2024年考研管理類綜合能力(199)真題及解析完整版
- 除數(shù)是兩位數(shù)的除法練習題(84道)
- 六年級下冊【默寫表】(牛津上海版、深圳版)(英譯漢)
- 北京外企勞動合同范例
- 《護患溝通》課件
- 2JaneEyre簡·愛-英文版-英文版
- 電子海圖模擬系統(tǒng)需求說明
評論
0/150
提交評論