MOOC 數據挖掘-國防科技大學 中國大學慕課答案_第1頁
MOOC 數據挖掘-國防科技大學 中國大學慕課答案_第2頁
MOOC 數據挖掘-國防科技大學 中國大學慕課答案_第3頁
MOOC 數據挖掘-國防科技大學 中國大學慕課答案_第4頁
MOOC 數據挖掘-國防科技大學 中國大學慕課答案_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MOOC數據挖掘-國防科技大學中國大學慕課答案單元作業(yè)單元作業(yè)測驗1、問題:什么是KDD?選項:A、數據挖掘與知識發(fā)現B、領域知識發(fā)現C、文檔知識發(fā)現D、動態(tài)知識發(fā)現正確答案:【數據挖掘與知識發(fā)現】2、問題:“8,000”和“10,000”表示:選項:A、數據B、信息C、知識D、智慧正確答案:【數據】3、問題:人從出生到長大的過程中,是如何認識事物的?選項:A、聚類過程B、分類過程C、先分類,后聚類D、先聚類,后分類正確答案:【先聚類,后分類】4、問題:“8,000米是飛機飛行最大高度”與“10,000米的高山”表示:選項:A、數據B、信息C、知識D、智慧正確答案:【信息】5、問題:“飛機無法飛過高山”表示:選項:A、數據B、信息C、知識D、智慧正確答案:【知識】單元作業(yè)測驗1、問題:下面哪個不屬于數據的屬性類型:選項:A、標稱B、序數C、區(qū)間D、相異正確答案:【相異】2、問題:只有非零值才重要的二元屬性被稱作:選項:A、計數屬性B、離散屬性C、非對稱的二元屬性D、對稱屬性正確答案:【非對稱的二元屬性】3、問題:一所大學內的各年紀人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是:選項:A、一年級B、二年級C、三年級D、四年級正確答案:【一年級】4、問題:杰卡德系數用來度量非對稱的二進制屬性的相似性選項:A、正確B、錯誤正確答案:【正確】5、問題:歐式距離用來度量連續(xù)數值屬性數據的相似性選項:A、正確B、錯誤正確答案:【正確】單元作業(yè)測驗1、問題:所謂高維數據,指的是選項:A、數據對象很多B、數據屬性很多C、以上都正確D、以上都錯誤正確答案:【數據屬性很多】2、問題:假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:選項:A、0.821B、1.224C、1.458D、0.716正確答案:【0.716】3、問題:假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?選項:A、第一個B、第二個C、第三個D、第四個正確答案:【第二個】4、問題:卡方測試用來度量離散標稱屬性數據的相關性選項:A、正確B、錯誤正確答案:【正確】5、問題:相關系數用來度量標稱屬性數據的相關性選項:A、正確B、錯誤正確答案:【錯誤】單元作業(yè)測驗1、問題:考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為選項:A、0.75B、0.35C、0.4678D、0.5738正確答案:【0.5738】2、問題:樸素貝葉斯分類器的樸素之處在于:選項:A、只能處理低維屬性B、只能處理離散型屬性C、分類效果一般D、屬性之間的條件獨立性假設正確答案:【屬性之間的條件獨立性假設】3、問題:Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。選項:A、正確B、錯誤正確答案:【錯誤】4、問題:可以利用概率統(tǒng)計方法估計數據的分布參數,再進一步估計待測試數據的概率,以此來實現貝葉斯分類選項:A、正確B、錯誤正確答案:【正確】5、問題:貝葉斯分類器對離群點敏感選項:A、正確B、錯誤正確答案:【錯誤】單元作業(yè)測驗1、問題:決策樹中不包含一下哪種結點選項:A、根結點(rootnode)B、內部結點(internalnode)C、外部結點(externalnode)D、葉結點(leafnode)正確答案:【外部結點(externalnode)】2、問題:以下哪些算法是分類算法選項:A、DBSCANB、ID3C、K-MeansD、EM正確答案:【ID3】3、問題:決策樹的父節(jié)點和子節(jié)點的熵的大小關系是什么?選項:A、決策樹的父節(jié)點更大B、子節(jié)點的熵更大C、兩者相等D、根據具體情況而定正確答案:【子節(jié)點的熵更大】4、問題:一個決策樹包括如下哪些要素選項:A、測試節(jié)點B、分支C、葉子D、以上均錯誤正確答案:【測試節(jié)點#分支#葉子】5、問題:采用決策樹分類算法,連續(xù)數據如何處理?選項:A、連續(xù)數據離散化B、選擇最佳劃分點分裂C、連續(xù)數據每2個值之間形成分裂D、以上均錯誤正確答案:【連續(xù)數據離散化#選擇最佳劃分點分裂】單元作業(yè)測驗1、問題:當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?選項:A、分類B、聚類C、關聯分析D、隱馬爾可夫鏈正確答案:【聚類】2、問題:簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作選項:A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類正確答案:【劃分聚類】3、問題:關于k-means算法,正確的描述是:選項:A、能找到任意形狀的聚類B、初始值不同,最終結果可能不同C、每次迭代的時間復雜度是O(n^2),其中n是樣本數量D、不能使用核函數(kernelfunction)正確答案:【初始值不同,最終結果可能不同】4、問題:K-Means算法中的初始中心點:選項:A、可隨意設置B、必須在每個簇的真實中心點的附近C、必須足夠分散D、直接影響算法的收斂結果正確答案:【直接影響算法的收斂結果】5、問題:下列說法正確的是選項:A、K-means算法能夠解決有離群點的聚類問題B、K-modes能夠解決離散數據的聚類問題C、K-means++能夠解決初始點影響聚類效果的問題D、K中心點能夠解決有離群點的聚類問題正確答案:【K-modes能夠解決離散數據的聚類問題#K-means++能夠解決初始點影響聚類效果的問題#K中心點能夠解決有離群點的聚類問題】單元作業(yè)測驗1、問題:logistic回歸是否對噪聲敏感選項:A、是B、否C、以上均錯誤D、無法判斷正確答案:【是】2、問題:樸素的邏輯回歸可以解決非線性的分類問題選項:A、正確B、錯誤正確答案:【錯誤】3、問題:分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數值選項:A、正確B、錯誤正確答案:【正確】4、問題:邏輯回歸正則化主要包括L1正則化和L2正則化選項:A、正確B、錯誤正確答案:【正確】5、問題:數據規(guī)范化能夠提高邏輯回歸算法參數學習的效率選項:A、正確B、錯誤正確答案:【正確】測驗1、問題:某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?選項:A、關聯規(guī)則發(fā)現B、聚類C、分類D、自然語言處理正確答案:【關聯規(guī)則發(fā)現】2、問題:數據挖掘的主要任務是從數據中發(fā)現潛在的規(guī)則,從而能更好的完成描述數據、預測數據等任務選項:A、正確B、錯誤正確答案:【正確】3、問題:具有較高的支持度的項集具有較高的置信度。選項:A、正確B、錯誤正確答案:【錯誤】4、問題:先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。選項:A、正確B、錯誤正確答案:【錯誤】5、問題:利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數選項:A、正確B、錯誤正確答案:【正確】單元作業(yè)測驗1、問題:以下模型中,在數據預處理時,不需要考慮歸一化處理的是:()選項:A、logistic回歸B、SVMC、樹形模型D、神經網絡正確答案:【樹形模型】2、問題:一組數據,均值中位數眾數,問這組數據?選項:A、左偏B、右偏C、鐘型D、對稱正確答案:【右偏】3、問題:如果現在需要對一組數據進行樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統(tǒng)計量,應該采?。ǎ┻x項:A、聚類分析B、回歸分析C、相關分析D、判別分析正確答案:【聚類分析】4、問題:時間序列數據更適合用()做數據規(guī)約。選項:A、小波變換B、主成分分析C、決策樹D、直方圖正確答案:【小波變換】5、問題:下面哪些場景合適使用PCA?()選項:A、降低數據的維度,節(jié)約內存和存儲空間B、降低數據維度,并作為其它有監(jiān)督學習的輸入C、獲得更多的特征D、替代線性回歸正確答案:【降低數據的維度,節(jié)約內存和存儲空間】6、問題:下列方面不可以防止過擬合的是選項:A、加入正則項B、增加樣本C、建立更加復雜的模型D、Bootstrap重采樣正確答案:【建立更加復雜的模型】7、問題:對于地震的預測,我們希望的是召回率recall非常高,也就是說每次地震我們都希望預測出來,這個時候我們可以犧牲精確率precision。情愿發(fā)出1000次警報,把10次地震都預測正確了,那么請問此時地震預測的假陽歷FP等于多少?()選項:A、10B、0C、990D、1000正確答案:【990】8、問題:一般情況下,KNN最近鄰方法在()情況下效果最好選項:A、樣本呈現團狀分布B、樣本呈現鏈狀分布C、樣本較多但典型性不好D、樣本較少但典型性好正確答案:【樣本較少但典型性好】9、問題:假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數據的兩個維度搞重復了,那么關于NB的說法中正確的是()選項:A、這個被重復的特征在模型中的決定作用會被加強B、模型效果相比無重復特征的情況下精確度會降低C、NB可以用來做最小二乘回歸D、當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題正確答案:【模型效果相比無重復特征的情況下精確度會降低#當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題】10、問題:下列哪些數據挖掘算法不需要做數據歸一化處理:()選項:A、K均值B、線性回歸C、決策樹D、樸素貝葉斯正確答案:【決策樹#樸素貝葉斯】11、問題:下列有關L1正則化和L2正則化說法正確的是?()選項:A、使用L1可以得到稀疏的權值B、使用L2可以得到稀疏的權值C、使用L1可以得到平滑的權值D、使用L2可以得到平滑的權值正確答案:【使用L1可以得到稀疏的權值#使用L2可以得到平滑的權值】12、問題:在分類問題中,我們經常會遇到正負樣本數據量不等的情況,比如正樣本為10w條數據,負樣本只有1w條數據,以下最合適的處理方法是選項:A、將負樣本重復10次,生成10w樣本量,打亂順序參與分類B、直接進行分類,可以最大限度利用數據C、從10w正樣本中隨機抽取1w參與分類D、將負樣本每個權重設置為10,正樣本權重為1,參與訓練過程正確答案:【將負樣本重復10次,生成10w樣本量,打亂順序參與分類#從10w正樣本中隨機抽取1w參與分類#將負樣本每個權重設置為10,正樣本權重為1,參與訓練過程】13、問題:在數據挖掘中需要劃分數據集,常用的劃分測試集和訓練集的劃分方法有哪些()選項:A、留出法B、交叉驗證法C、自助法D、評分法正確答案:【留出法#交叉驗證法#自助法】14、問題:邏輯回歸分析需要對離散值做預處理,決策樹則不需要。選項:A、正確B、錯誤正確答案:【正確】15、問題:分類模型的誤差大致分為兩種:訓練誤差(trainingerror)和泛化誤差(generalizationerror).選項:A、正確B、錯誤正確答案:【正確】單元作業(yè)測驗1、問題:所謂Kerneltrick,指的是:()選項:A、利用在高維空間定義的函數替代原始空間的向量內積操作B、利用在原始空間定義的函數替代高維空間的向量內積操作C、核函數的導數具有簡單的解析解,簡化了運算D、核函數具有固定的上下界,可以輸出(-1,+1)區(qū)間中的連續(xù)值正確答案:【利用在原始空間定義的函數替代高維空間的向量內積操作】2、問題:SVM模型通過最大化邊界實現線性分類,以下哪個可以使得SVM實現非線性分類()選項:A、松弛變量B、對偶空間求解C、kernelD、SMO算法正確答案:【kernel】3、問題:SVM(支持向量機)與LR(邏輯回歸)的數學本質上的區(qū)別是什么?()選項:A、損失函數B、是否有核技巧C、是否支持多分類D、選項皆錯正確答案:【損失函數】4、問題:在SVM當中,主要的運算形式是:()選項:A、矩陣乘法B、矩陣轉置C、矩陣分解D、向量內積正確答案:【向量內積】5、問題:下面關于支持向量機的說法正確的是?()選項:A、支持向量機的最終模型僅僅與支持向量有關B、支持向量機的最終模型由所有的訓練樣本共同決定C、支持向量機的最終模型由離決策邊界最近的幾個點決定D、訓練集越大,支持向量機的模型就一定越準確正確答案:【支持向量機的最終模型僅僅與支持向量有關#支持向量機的最終模型由離決策邊界最近的幾個點決定】單元作業(yè)測驗1、問題:神經網絡模型是受人腦的結構啟發(fā)發(fā)明的。神經網絡模型由很多的神經元組成,每個神經元都接受輸入,進行計算并輸出結果,那么以下選項描述正確的是()選項:A、每個神經元只有一個單一的輸入和單一的輸出B、每個神經元有多個輸入而只有一個單一的輸出C、每個神經元只有一個單一的輸入而有多個輸出D、每個神經元有多個輸入和多個輸出正確答案:【每個神經元有多個輸入和多個輸出】2、問題:訓練神經網絡時,以下哪種激活函數最容易造成梯度消失:()選項:A、tanhB、sigmoidC、ReLUD、leakyReLU正確答案:【sigmoid】3、問題:考慮以下問題:假設我們有一個5層的神經網絡,這個神經網絡在使用一個4GB顯存顯卡時需要花費3個小時來完成訓練。而在測試過程中,單個數據需要花費2秒的時間。如果我們現在把架構變換一下,當評分是0.2和0.3時,分別在第2層和第4層添加Dropout,那么新架構的測試所用時間會變?yōu)槎嗌??()選項:A、少于2sB、大于2sC、仍是2sD、說不準正確答案:【仍是2s】4、問題:在誤差逆?zhèn)鞑ニ惴ㄖ?,隱含層節(jié)點的誤差信息應當:()選項:A、根據自身的期望輸出和實際輸出的差值計算B、根據所有輸出層神經元的誤差的均值計算C、根據自身下游神經元的誤差進行加權計算D、根據自身下游神經元的誤差的均值計算正確答案:【根據自身下游神經元的誤差進行加權計算】5、問題:若神經元的誤差對某輸入的權重的偏導大于零說明:()選項:A、該權重應增加B、該權重應減少C、應增加神經網絡層數D、應調整激活函數正確答案:【該權重應減少】6、問題:為節(jié)省神經網絡模型的訓練時間,神經網絡模型的權重和偏移參數一般初始化為()選項:A、0B、0.5C、1D、隨機值正確答案:【隨機值】7、問題:下列哪一項在神經網絡中引入了非線性()選項:A、SGDB、激活函數C、卷積函數D、都不正確正確答案:【激活函數】8、問題:下列哪些因素會對BP神經網絡的訓練效果產生影響()選項:A、權值初始值B、閾值初始值C、學習率D、隱層神經元個數正確答案:【權值初始值#閾值初始值#學習率#隱層神經元個數】9、問題:采用Sigmod函數作為激勵函數的主要原因是()選項:A、有固定的輸出上下界B、導數存在解析解C、計算復雜度較低D、處處可導正確答案:【有固定的輸出上下界#導數存在解析解#處處可導】單元作業(yè)測驗1、問題:數據科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是()選項:A、單個模型之間有高相關性B、單個模型之間有低相關性C、在集成學習中使用“平均權重”而不是“投票”會比較好D、單個模型都是用的一個算法正確答案:【單個模型之間有低相關性】2、問題:二分類任務中,有三個分類器h1,h2,h3,三個測試樣本x1,x2,x3。假設1表示分類結果正確,0表示錯誤,h1在x1,x2,x3的結果分別(1,1,0),h2,h3分別為(0,1,1),(1,0,1),按投票法集成三個分類器,下列說法正確的是:()選項:A、集成提高了性能B、集成沒有效果C、集成降低了性能D、集成效果不能確定正確答案:【集成提高了性能】3、問題:下列關于隨機森林和Adaboost說法正確的是()選項:A、和Adaboost相比,隨機森林對錯誤和離群點更魯棒B、隨機森林準確率不依賴于個體分類器的實例和他們之間的依賴性C、隨機森林對每次劃分所考慮的屬性數很偏感D、Adaboost初始時每個訓練元組被賦予相等的權重正確答案:【和Adaboost相比,隨機森林對錯誤和離群點更魯棒#隨機森林對每次劃分所考慮的屬性數很偏感#Adaboost初始時每個訓練元組被賦予相等的權重】4、問題:以下關于randomforest說法錯誤的是選項:A、rf中的每棵子樹都是獨立同分布的B、rf中模型方差隨著子樹的增加而減少C、rf主要通過增加子樹之間的相關性來減少模型的方差D、rf中模型偏差隨著子樹的增加而減少正確答案:【rf中的每棵子樹都是獨立同分布的#rf中模型偏差隨著子樹的增加而減少】5、問題:在AdaBoost算法中,所有被分錯的樣本的權重更新比例相同。()選項:A、正確B、錯誤正確答案:【正確】期末考試1、問題:運用云計算、數據挖掘以及模糊識別等人工智能技術,對海量的數據和信息進行分析和處理,對物體實施智能化的控制,指的是選項:A、可靠傳遞B、全面感知C、智能處理D、互聯網正確答案:【智能處理】2、問題:“飛機必須飛得比山高”表示:選項:A、數據B、信息C、知識D、智慧正確答案:【智慧】3、問題:在LogisticRegression中,如果同時加入L1和L2范數,產生什么效果選項:A、可以做特征選擇,并在一定程度上防止過擬合B、能解決維度災難問題C、能加快計算速度D、可以獲得更準確的結果正確答案:【可以做特征選擇,并在一定程度上防止過擬合】4、問題:當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離選項:A、聚類B、關聯分析C、分類D、隱馬爾科夫正確答案:【聚類】5、問題:在ID3算法中信息增益是指選項:A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵減少的程度最大正確答案:【熵減少的程度最大】6、問題:某超市研究銷售紀錄數據后發(fā)現,買面包的人很大概率也會購買牛奶,這種屬于數據挖掘的哪類問題:選項:A、關聯規(guī)則發(fā)現B、聚類C、分類D、自然語言處理正確答案:【關聯規(guī)則發(fā)現】7、問題:標稱類型數據的可以利用的數學計算為:選項:A、眾數B、中位數C、均值D、方差正確答案:【眾數】8、問題:一組數據的最小值為12,000,最大值為98,000,利用最小最大規(guī)范化將數據規(guī)范到[0,1],則73,000規(guī)范化的值為:選項:A、0.513B、0.612C、0.716D、0.845正確答案:【0.716】9、問題:在無人駕駛時,希望程序能夠根據路況決策汽車的方向盤的旋轉角度,那么該任務是?選項:A、分類B、回歸C、聚類D、降維正確答案:【回歸】10、問題:考慮如下數據集,其中CustomerID(顧客id),TransactionID(事務id),ItemsBought(購買項)。如果將每個事務id看成一個購物籃,計算項集{e},{b,d},{b,d,e}的支持度:選項:A、s({e})=0.8s({b,d})=0.2s({b,d,e})=0.2B、s({e})=0.7s({b,d})=0.3s({b,d,e})=0.3C、s({e})=0.6s({b,d})=0.4s({b,d,e})=0.3D、s({e})=0.8s({b,d})=0.1s({b,d,e})=0.1正確答案:【s({e})=0.8s({b,d})=0.2s({b,d,e})=0.2】11、問題:假定某同學使用貝葉斯分類模型時,由于失誤操作,致使訓練數據中兩個維度重復表示。下列描述中正確的是:選項:A、被重復的在模型中作用被加強B、模型效果精度降低C、如果所有特征都被重復一遍,則預測結果不發(fā)生變化D、以上說法均錯誤正確答案:【模型效果精度降低】12、問題:ID3算法在分類樹構建中,使用哪個度量來進行分類節(jié)點?選項:A、gini指標B、信息增益C、信息增益率D、準確率正確答案:【信息增益】13、問題:印度電影《寶萊塢機器人之戀》中的機器人七弟采用的智能算法最有可能是以下哪一種選項:A、神經網絡B、遺傳算法C、模擬退火D、窮舉算法正確答案:【神經網絡】14、問題:以下哪些方法不可以直接來對文本分類?選項:A、KmeansB、決策樹C、支持向量機D、KNN正確答案:【Kmeans】15、問題:什么觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。選項:A、邊界點B、離群點C、核心點D、質心正確答案:【離群點】16、問題:在logistic分類中,L1正則化和L2正則化的引入為了解決什么問題?選項:A、數據量不充分B、訓練數據不匹配C、訓練過擬合D、訓練速度太慢正確答案:【訓練過擬合】17、問題:將原始數據進行集成、變換是在以下哪個步驟的任務?選項:A、頻繁模式挖掘B、分類和預測C、數據預處理D、數據流挖掘正確答案:【數據預處理】18、問題:數據庫中某屬性缺失值比較多時,數據清理采用哪種的方法?選項:A、忽略元組B、平均值填充C、盒狀圖法D、以上均可正確答案:【平均值填充】19、問題:在進行聚類分析之前,給出少于所需數據的數據點,下面哪種方法最適合用于數據清理?1.剔除或增加變量;2.去除異常值選項:A、1B、2C、1和2D、都不能正確答案:【1】20、問題:數據挖掘算法主要有聚類算法、關聯算法、決策樹算法和回歸分析等,各種算法用于解決不同的實際問題,某分行擬通過對縣域機構數量與存款市場競爭力的相關性分析,進而建立兩者之間的函數表達式,用新思維拓展縣域市場,提升縣域存款的市場競爭力。則可以采用的是什么?選項:A、關聯算法B、決策樹算法C、聚類分析D、回歸分析正確答案:【回歸分析】21、問題:熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是什么?選項:A、1比特B、2.6比特C、3.2比特D、3.8比特正確答案:【2.6比特】22、問題:考慮值集{12243324556826},其四分位數極差是?選項:A、31B、24C、55D、3正確答案:【31】23、問題:假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為?選項:A、18.3B、22.6C、26.8D、27.9正確答案:【18.3】24、問題:建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于數據挖掘的哪一類任務?選項:A、根據內容檢索B、建模描述C、預測建模D、尋找模式和規(guī)則正確答案:【預測建?!?5、問題:假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等寬劃分時(寬度為50),15在哪個箱子里?選項:A、第一個B、第二個C、第三個D、第四個正確答案:【第一個】26、問題:屬于定量的屬性類型是?選項:A、標稱B、序數C、區(qū)間D、相異正確答案:【區(qū)間】27、問題:將原始數據進行維度規(guī)約,數值規(guī)約是在以下哪個步驟的任務?選項:A、頻繁模式挖掘B、分類與預測C、數據預處理D、數據流挖掘正確答案:【數據預處理】28、問題:NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定是?選項:A、各類別的先驗概率P(C)是相等的B、以0為均值,sqr(2)/2為標準差的正態(tài)分布C、特征變量X的各個維度是類別條件獨立隨機變量D、P(X|C)是高斯分布正確答案:【特征變量X的各個維度是類別條件獨立隨機變量】29、問題:創(chuàng)建時間=1月2日是指?選項:A、創(chuàng)建時間表示屬性,1月2日表示屬性B、創(chuàng)建時間表示屬性值,1月2日表示屬性值C、創(chuàng)建時間表示屬性,1月2日表示屬性值D、創(chuàng)建時間表示屬性值,1月2日表示屬性正確答案:【創(chuàng)建時間表示屬性,1月2日表示屬性值】30、問題:對于泰坦尼克號災難預測數據集(如下),下列是標稱類型的屬性是?選項:A、Survived:0表示遇難,1表示幸存B、Pclass:1代表Upper,2代表Middle,3代表LowerC、Sex:標識乘客性別D、SibSp:兄弟姐妹及配偶的個數E、Embarked:乘客登船口岸,可列舉正確答案:【Embarked:乘客登船口岸,可列舉】31、問題:對于泰坦尼克號災難預測數據集,下列是對稱二進制類型的屬性是?選項:A、Survived:0表示遇難,1表示幸存B、Pclass:1代表Upper,2代表Middle,3代表LowerC、Sex:標識乘客性別D、SibSp:兄弟姐妹及配偶的個數E、Embarked:乘客登船口岸,可列舉正確答案:【Sex:標識乘客性別】32、問題:身高和體重分別是什么類型?選項:A、高離散、體重離散B、身高連續(xù)、體重連續(xù)C、身高連續(xù)、體重離散D、身高離散、體重連續(xù)正確答案:【身高連續(xù)、體重連續(xù)】33、問題:根據下表計算like_science_fiction和play_chess的卡方測試選項:A、507.93B、23.6C、89.3D、134.6正確答案:【507.93】34、問題:對于如下表格訓練集,請計算P(青年|購買)選項:A、2/9B、4/9C、6/9D、1正確答案:【2/9】35、問題:對于如表格訓練集,請計算P(購買)選項:A、9/14B、5/14C、5/9D、1正確答案:【9/14】36、問題:對于如下訓練集,計算購買電腦和不購買電腦不確定性的熵值選項:A、0B、0.5C、0.94D、1正確答案:【0.94】37、問題:下面哪個不為屬性的別名選項:A、元組B、維度C、特征D、字段正確答案:【元組】38、問題:下列哪個不是非監(jiān)督數據離散化方法?選項:A、等寬法B、等頻法C、聚類法D、決策樹法正確答案:【決策樹法】39、問題:下列哪個不為數據縮減?選項:A、降維B、分類C、降數據D、數據壓縮正確答案:【分類】40、問題:下面哪種情況不會影響K-means聚類的效果?選項:A、數據點密度分布不均B、數據點呈圓形狀分布C、數據中有異常點存在D、數據點呈非凸形狀分布正確答案:【數據點呈圓形狀分布】41、問題:給定兩個特征向量,以下哪些方法不能夠計算這兩個向量相似度?選項:A、歐式距離B、夾角余弦(Cosine)C、信息熵D、曼哈頓距離正確答案:【信息熵】42、問題:下列哪個不是數據對象的別名?選項:A、樣品B、實例C、維度D、元組正確答案:【維度】43、問題:標稱類型數據的可以實現什么的數學計算?選項:A、眾數B、中位數C、均值D、方差正確答案:【眾數】44、問題:采用決策樹分類算法,連續(xù)數據如何處理,下列說法錯誤的是?選項:A、連續(xù)數據離散化B、選擇最佳劃分點分裂C、連續(xù)數據每2個值之間形成分裂D、以上都不是正確答案:【連續(xù)數據每2個值之間形成分裂】45、問題:下列說法錯誤的是?選項:A、K-means算法能夠解決有離群點的聚類問題B、K-modes能夠解決離散數據的聚類問題C、K-means++能夠解決初始點影響聚類效果的問題D、K中心點能夠解決有離群點的聚類問題正確答案:【K-means算法能夠解決有離群點的聚類問題】46、問題:如下表所示的病例數據,Gender是對稱屬性,其余都是非對稱屬性,假設只計算非對稱屬性,則Jack和Mary的相異度為?選項:A、0.67B、0.33C、0.75D、0.45正確答案:【0.33】47、問題:屬性的別名選項:A、元組B、維度C、特征D、字段正確答案:【維度#特征#字段】48、問題:下列哪些是非監(jiān)督數據離散化方法選項:A、等寬法B、等頻法C、聚類法D、決策樹法正確答案:【等寬法#等頻法#聚類法】49、問題:數據可視化方法。選項:A、直方圖B、柱狀圖C、箱線圖D、散點圖正確答案:【直方圖#柱狀圖#箱線圖#散點圖】50、問題:在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有:選項:A、忽略元組B、使用屬性的平均值填充空缺值C、使用一個全局常量填充空缺值D、使用與給定元組屬同一類的所有樣本的平均值E、使用最可能的值填充空缺值正確答案:【忽略元組#使用屬性的平均值填充空缺值#使用一個全局常量填充空缺值#使用與給定元組屬同一類的所有樣本的平均值#使用最可能的值填充空缺值】51、問題:數據縮減主要包括如下選項:A、降維B、分類C、降數據D、數據壓縮正確答案:【降維#降數據#數據壓縮】52、問題:數據清理中,處理缺失值的方法是選項:A、估算B、整例刪除C、變量刪除D、成對刪除正確答案:【估算#整例刪除#變量刪除#成對刪除】53、問題:數據預處理主要包括的步驟選項:A、數據清洗B、數據集成C、數據規(guī)約D、數據變換和離散化正確答案:【數據清洗#數據集成#數據規(guī)約#數據變換和離散化】54、問題:分類模型主要包括如下選項:A、k-均值模型B、決策樹模型C、貝葉斯模型D、以上均錯誤正確答案:【決策樹模型#貝葉斯模型】55、問題:假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數據的兩個維度搞重復了,那么關于NB的說法中正確的是選項:A、這個被重復的特征在模型中的決定作用會被加強B、模型效果相比無重復特征的情況下精確度會降低C、NB可以用來做最小二乘回歸D、當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題正確答案:【模型效果相比無重復特征的情況下精確度會降低#當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題】56、問題:下列哪些數據挖掘算法不需要做數據歸一化處理選項:A、K均值B、線性回歸C、決策樹D、樸素貝葉斯正確答案:【決策樹#樸素貝葉斯】57、問題:下面哪種情況會影響K-means聚類的效果選項:A、數據點密度分布不均B、數據點呈圓形狀分布C、數據中有異常點存在D、數據點呈非凸形狀分布正確答案:【數據點密度分布不均#數據中有異常點存在#數據點呈非凸形狀分布】58、問題:給定兩個特征向量,以下哪些方法可以計算這兩個向量相似度?選項:A、歐式距離B、夾角余弦(Cosine)C、信息熵D、曼哈頓距離正確答案:【歐式距離#夾角余弦(Cosine)#曼哈頓距離】59、問題:數據挖掘的預測建模任務主要包括哪幾大類問題選項:A、分類B、回歸C、模式發(fā)現D、模式匹配正確答案:【分類#回歸】60、問題:對于數據挖掘中的原始數據,存在的問題有選項:A、不一致B、重復C、不完整D、含噪聲E、維度高正確答案:【不一致#重復#不完整#含噪聲#維度高】61、問題:數據對象的別名選項:A、樣品B、實例C、維度D、元組E、對象正確答案:【樣品#實例#元組#對象】62、問題:標稱類型數據的可以實現數學計算選項:A、眾數B、中位數C、均值D、方差E、相等F、加法G、除法正確答案:【眾數#相等】63、問題:序數類型數據的可以實現數學計算選項:A、眾數B、中位數C、均值D、方差E、相等F、加法G、除法正確答案:【眾數#中位數#相等】64、問題:區(qū)間標度類型數據的可以實現數學計算選項:A、眾數B、中位數C、均值D、方差E、相等F、加法G、除法正確答案:【眾數#中位數#均值#方差#相等#加法】65、問題:比例標度類型數據的可以實現數學計算選項:A、眾數B、中位數C、均值D、方差E、相等F、加法G、除法正確答案:【眾數#中位數#均值#方差#相等#加法#除法】66、問題:數據集成需要解決的問題選項:A、模式集成B、實體識別C、數據沖突檢測D、不解決任何問題正確答案:【模式集成#實體識別#數據沖突檢測】67、問題:下列哪些屬于基于劃分的聚類算法選項:A、K-meansB、K-modesC、K-means++D、K中心點正確答案:【K-means#K-modes#K-means++#K中心點】68、問題:尼美(女,23歲,企業(yè)白領)是如何選擇相親對象的,尼美對于相親對象的屬性建模,總共包括哪些屬性()選項:A、性別B、長相C、年齡D、收入E、職業(yè)正確答案:【性別#長相#年齡#收入#職業(yè)】69、問題:下列說法正確的是選項:A、過擬合是由于訓練集多,模型過于簡單B、過擬合是由于訓練集少,模型過于復雜C、欠擬合是由于訓練集多,模型過于簡單D、欠擬合是由于訓練集少,模型過于簡單正確答案:【過擬合是由于訓練集少,模型過于復雜#欠擬合是由于訓練集多,模型過于簡單】70、問題:一個決策樹包括如下哪些要素選項:A、測試節(jié)點B、分支C、葉子D、端點正確答案:【測試節(jié)點#分支#葉子】71、問題:采用決策樹分類算法,連續(xù)數據如何處理?選項:A、連續(xù)數據離散化B、選擇最佳劃分點分裂C、連續(xù)數據每2個值之間形成分裂D、不處理正確答案:【連續(xù)數據離散化#選擇最佳劃分點分裂】72、問題:下列說法正確的是選項:A、K-means算法能夠解決有離群點的聚類問題B、K-modes能夠解決離散數據的聚類問題C、K-means++能夠解決初始點影響聚類效果的問題D、K中心點能夠解決有離群點的聚類問題正確答案:【K-modes能夠解決離散數據的聚類問題#K-means++能夠解決初始點影響聚類效果的問題#K中心點能夠解決有離群點的聚類問題】73、問題:決策樹中包含一下哪些結點選項:A、根結點(rootnode)B、內部結點(internalnode)C、外部結點(externalnode)D、葉結點(leafnode)正確答案:【根結點(rootnode)#內部結點(internalnode)#葉結點(leafnode)】74、問題:下面哪個屬于數據的屬性類型選項:A、標稱B、序數C、區(qū)間D、相異正確答案:【標稱#序數#區(qū)間】75、問題:以下哪些算法是分類算法選項:A、樸素貝葉斯分類B、ID3C、K-MeanD、EM正確答案:【樸素貝葉斯分類#ID3】76、問題:人從出生到長大的過程中,是如何認識事物的,下列說法錯誤的是選項:A、聚類過程B、分類過程C、先分類,后聚類D、先聚類,后分類正確答案:【聚類過程#分類過程#先分類,后聚類】77、問題:樸素貝葉斯分類器的樸素之處在于,下列說法錯誤的是選項:A、只能處理低維屬性B、只能處理離散型屬性C、分類效果一般D、屬性之間的條件獨立性假設正確答案:【只能處理低維屬性#只能處理離散型屬性#分類效果一般】78、問題:決策樹的父節(jié)點和子節(jié)點的熵的大小關系是什么,下列說法錯誤的是選項:A、決策樹的父節(jié)點更大B、子節(jié)點的熵更大C、兩者相等D、根據具體情況而定正確答案:【決策樹的父節(jié)點更大#兩者相等#根據具體情況而定】79、問題:簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,下列哪些不屬于這種聚類類型選項:A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類正確答案:【層次聚類#非互斥聚類#模糊聚類】80、問題:當不知道數據所帶標簽時,下列哪些技術不能夠促使帶同類標簽的數據與帶其他標簽的數據相分離?選項:A、分類B、聚類C、關聯分析D、隱馬爾可夫鏈正確答案:【分類#關聯分析#隱馬爾可夫鏈】81、問題:關于k-means算法,錯誤的描述是選項:A、能找到任意形狀的聚類B、初始值不同,最終結果可能不同C、不能使用核函數(kernelfunction)D、是聚類算法的一種正確答案:【能找到任意形狀的聚類#不能使用核函數(kernelfunction)】82、問題:某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種描述不屬于數據挖掘的哪些問題?選項:A、關聯規(guī)則發(fā)現B、聚類C、分類D、自然語言處理正確答案:【聚類#分類#自然語言處理】83、問題:將原始數據進行集成,變換,維度規(guī)約,數值規(guī)約不屬于以下哪些步驟的任務?選項:A、頻繁模式挖掘B、分類與預測C、數據預處理D、數據流挖掘正確答案:【頻繁模式挖掘#分類與預測#數據流挖掘】84、問題:數據庫中某屬性缺失值比較多時,數據清理不能夠采用的方法選項:A、忽略元組B、平均值填充C、盒狀圖法D、眾數填充正確答案:【忽略元組#盒狀圖法】85、問題:ID3算法在分類樹構建中,沒有使用下面哪些度量來進行分類節(jié)點?選項:A、gini指標B、信息增益C、信息增益率D、準確率正確答案:【gini指標#信息增益率#準確率】86、問題:K-Means算法中的初始中心點,錯誤的描述是選項:A、可隨意設置B、必須在每個簇的真實中心點的附近C、直接影響算法的收斂結果D、不可隨意設置正確答案:【可隨意設置#必須在每個簇的真實中心點的附近】87、問題:數據挖掘過程即將數據轉換為知識的過程選項:A、正確B、錯誤正確答案:【正確】88、問題:數據清洗即將來自多個數據源的數據組合成一個連貫的數據源選項:A、正確B、錯誤正確答案:【錯誤】89、問題:分類是監(jiān)督式機器學習。選項:A、正確B、錯誤正確答案:【正確】90、問題:分類分析主要包括二個步驟:學習建模、分類測試。選項:A、正確B、錯誤正確答案:【正確】91、問題:聚類是監(jiān)督式機器學習。選項:A、正確B、錯誤正確答案:【錯誤】92、問題:直方圖用來顯示兩組數據的相關性分布選項:A、正確B、錯誤正確答案:【錯誤】93、問題:聚類分析可以看作是一種非監(jiān)督的分類。選項:A、正確B、錯誤正確答案:【正確】94、問題:數據挖掘的目標不在于數據采集策略,而在于對于已經存在的數據進行模式的發(fā)掘。選項:A、正確B、錯誤正確答案:【正確】95、問題:關聯規(guī)則挖掘過程是發(fā)現滿足最小支持度的所有項集代表的規(guī)則。選項:A、正確B、錯誤正確答案:【錯誤】96、問題:聚類(clustering)是這樣的過程:它找出描述并區(qū)分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。選項:A、正確B、錯誤正確答案:【錯誤】97、問題:如果一個對象不屬于任何簇,那么該對象是基于聚類的離群點。選項:A、正確B、錯誤正確答案:【正確】98、問題:熵衡量的是系統(tǒng)的不確定性,熵值越大(接近于1)說明系統(tǒng)的不確定性越低。選項:A、正確B、錯誤正確答案:【錯誤】99、問題:具有較高的支持度的項集具有較高的置信度。選項:A、正確B、錯誤正確答案:【錯誤】100、問題:在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。選項:A、正確B、錯誤正確答案:【錯誤】101、問題:皮爾遜相關系數可用來判斷X和Y之間的因果關系。選項:A、正確B、錯誤正確答案:【錯誤】102、問題:在決策樹中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。選項:A、正確B、錯誤正確答案:【錯誤】103、問題:給定由兩次運行K均值產生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優(yōu)。選項:A、正確B、錯誤正確答案:【錯誤】104、問題:離群點可以是合法的數據對象或者值。選項:A、正確B、錯誤正確答案:【正確】105、問題:“飛機必須飛得比山高”表示智慧。選項:A、正確B、錯誤正確答案:【正確】106、問題:所謂高維數據,指的是數據屬性很多。選項:A、正確B、錯誤正確答案:【正確】107、問題:所謂特征選擇,是指從數據中,選擇有代表性的屬性。選項:A、正確B、錯誤正確答案:【正確】108、問題:一組數據的均值為54,000,標準差為16,000,則73,000規(guī)范化的值為0.1875。選項:A、正確B、錯誤正確答案:【錯誤】109、問題:假設兩只股票A和B具有在1個星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。如果股票都受到同行業(yè)的趨勢,他們的價格協(xié)方差是1.2。選項:A、正確B、錯誤正確答案:【錯誤】110、問題:一維空間的7個點123891025,根據劃分方法聚類質量評價準則,設置k為2時,(1,2,3)(8,9,10,25)聚類的系數E值為34.5。選項:A、正確B、錯誤正確答案:【錯誤】111、問題:一維空間的7個點123891025,根據劃分方法聚類質量評價準則,設置k為2時,(1,2,3,8)(9,10,25)聚類的系數E值為13.9。選項:A、正確B、錯誤正確答案:【錯誤】112、問題:一所學校里面有60%的男生(boy),40%的女生(girl)。男生總是穿長褲(pants),女生則一半穿長褲一半穿裙子。隨機選取一個穿長褲的學生,他(她)是女生的概率是0.5。選項:A、正確B、錯誤正確答案:【錯誤】113、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有0條,C2類別的數據有6條,請計算該屬性劃分時,該分支的數據信息熵值為0。選項:A、正確B、錯誤正確答案:【正確】114、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有3條,C2類別的數據有3條,請計算該屬性劃分時,該分支的數據信息熵值為1。選項:A、正確B、錯誤正確答案:【正確】115、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有0條,C2類別的數據有6條,請計算該屬性劃分時,該分支的數據基尼GINI值為0.5。選項:A、正確B、錯誤正確答案:【錯誤】116、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有3條,C2類別的數據有3條,請計算該屬性劃分時,該分支的數據基尼GINI值為0.5。選項:A、正確B、錯誤正確答案:【正確】117、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有0條,C2類別的數據有6條,請計算該屬性劃分時,該分支的數據分類錯誤ClassificationError值為0。選項:A、正確B、錯誤正確答案:【正確】118、問題:對于決策樹,某一屬性劃分的一個分支中包含C1類別的數據有3條,C2類別的數據有3條,請計算該屬性劃分時,該分支的數據分類錯誤ClassificationError值為0。選項:A、正確B、錯誤正確答案:【錯誤】119、問題:當不知道數據所帶標簽時,可以使用分類技術促使帶同類標簽的數據與帶其他標簽的數據相分離。選項:A、正確B、錯誤正確答案:【錯誤】120、問題:決策樹模型中應處理連續(xù)型屬性數據的方法之一為:根據信息增益選擇閾值進行離散化。選項:A、正確B、錯誤正確答案:【正確】121、問題:某超市研究銷售紀錄數據后發(fā)現,買面包的人很大概率也會購買牛奶,這種屬于數據挖掘的聚類問題。選項:A、正確B、錯誤正確答案:【錯誤】122、問題:標稱類型數據的可以計算其均值。選項:A、正確B、錯誤正確答案:【錯誤】123、問題:區(qū)間標度類型數據的可以計算其均值。選項:A、正確B、錯誤正確答案:【正確】124、問題:比率標度類型數據的可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論