《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套

上傳人：q*** IP屬地：山東上傳時間：2024-10-22 格式：DOCX 頁數(shù)：80 大?。?19.71KB 積分：80 舉報 版權(quán)申訴

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套_第2頁

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套_第3頁

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套_第4頁

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套_第5頁

已閱讀5頁，還剩75頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1頁，共1頁一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、關(guān)于支持向量機(jī)SVM,下列說法錯誤的是（）A.L2正則項，作用是最大化分類間隔，使得分類器擁有更強(qiáng)的泛化能力B.Hinge損失函數(shù)，作用是最小化經(jīng)驗分類錯誤C.分類間隔為1||w||1||w||，||w||代表向量的模D.當(dāng)參數(shù)C越小時，分類間隔越大，分類錯誤越多，趨于欠學(xué)習(xí)2、假定某同學(xué)使用NaiveBayesian（NB）分類模型時，不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了，那么關(guān)于NB的說法中正確的是：（）A.這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會降低C.如果所有特征都被重復(fù)一遍，得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時，無法用兩列特征相同時所得到的結(jié)論來分析問題3、關(guān)于Logit回歸和SVM不正確的是（）A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法，而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù)，并沒有最大化后驗概率，更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率，可以計算出概率，正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面，應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度，避免過擬合。4、以下哪些方法不可以直接來對文本分類？（）A、KmeansB、決策樹C、支持向量機(jī)D、KNN正確答案:A分類不同于聚類。5、關(guān)于Logit回歸和SVM不正確的是（）A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法，而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù)，并沒有最大化后驗概率，更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率，可以計算出概率，正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面，應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度，避免過擬合。6、下列不是SVM核函數(shù)的是（）A.多項式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)7、模型的高bias是什么意思,我們?nèi)绾谓档退?？機(jī)器學(xué)習(xí)ML基礎(chǔ)易（）A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點D.B和C8、當(dāng)你使用Boosting提升算法時，你會考慮弱學(xué)習(xí)器，以下哪項是使用弱學(xué)習(xí)器的主要原因？（）A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對9、梯度提升中，利用學(xué)習(xí)率來獲得最優(yōu)輸出是非常重要的，在選擇學(xué)習(xí)速率時，下列描述正確的是：（）A.學(xué)習(xí)率越大越好B.學(xué)習(xí)率越小越好C.學(xué)習(xí)率應(yīng)該小一點但是不能太小D.學(xué)習(xí)率不能太大也不能太小,根據(jù)情況而定10、下列哪個算法不是集成學(xué)習(xí)算法的例子：（）A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree二、判斷題（本大題共10小題，每題1分，共10分）1、錯誤率（ErrorRate）是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。（）2、決策樹算法可以用于小數(shù)據(jù)集。（）3、支持向量是SVM的訓(xùn)練結(jié)果，在SVM分類決策中起決定作用的是支持向量。（）4、SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果。（）5、最大似然估計的目的就是：利用已知的樣本結(jié)果，反推最有可能（最大概率）導(dǎo)致這樣結(jié)果的參數(shù)值。（）6、決策樹只能處理數(shù)據(jù)型屬性。（）7、邏輯回歸計算速度快。（）8、集成學(xué)習(xí)（ensemblelearning）通過構(gòu)建并結(jié)合多個學(xué)習(xí)器（learner）來完成學(xué)習(xí)任務(wù)（）9、集成學(xué)習(xí)可獲得比單一學(xué)習(xí)器更良好的泛化性能（特別是在集成弱學(xué)習(xí)器（weaklearner）時）。（）10、集成學(xué)習(xí)以bagging、RandomForest等算法為代表的，各個學(xué)習(xí)器之間相互獨立、可同時生成的并行化方法。（）三、填空（本大題共10小題，每題3分，共30分）1、熵指的是體系的的程度。2、算法利用信息增益進(jìn)行特征的選擇，信息增益反映的是給定條件后不確定性減少的程度。3、算法在決策樹生成的過程中，用信息增益比來選擇特征。4、p(x|θ)是給定參數(shù)θ的概率分布：。5、線性回歸如果是泊松分布，那就是。6、回歸常用評估方法：，，。7、基尼指數(shù)（基尼不純度）=*。8、聚類(Clustering)是指把相似的數(shù)據(jù)劃分到一起，具體劃分的時候并不關(guān)心這一類的標(biāo)簽，目標(biāo)就是把相似的數(shù)據(jù)聚合到一起，聚類是一種。9、分類(Classification)：是把不同的數(shù)據(jù)劃分開，其過程是通過訓(xùn)練數(shù)據(jù)集獲得一個分類器，再通過分類器去預(yù)測未知數(shù)據(jù)，分類是一種。10、聚類的一般過程數(shù)據(jù)準(zhǔn)備：和。四、簡答題（本大題共3小題，共30分）1、L1和L2正則先驗分別服從什么分布？什么是最小二乘法？常用的降維技術(shù)有哪些？一、選擇題1.C 2.BD 3.A 4.A 5.A 6.B 7.B 8.B 9.D 10.E二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對三、填空題1.混亂 2.ID3 3.C4.5 4.似然函數(shù) 5.泊松回歸 6.平均誤差絕對值誤差R2 7.樣本被選中的概率樣本被分錯的概率 8.無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)方法 9.監(jiān)督學(xué)習(xí)(SupervisedLearning)方法 10.特征標(biāo)準(zhǔn)化降維四、簡答題1、答：L1和L2正則先驗分別服從什么分布，L1是拉普拉斯分布，L2是高斯分布。2、答：最小二乘法（又稱最小平方法）是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù)，并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。3、答：（1）主成分分析（PCA）在PCA中，數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系，由數(shù)據(jù)本身決定。轉(zhuǎn)換坐標(biāo)系時，以方差最大的方向作為坐標(biāo)軸方向，因為數(shù)據(jù)的最大方差給出了數(shù)據(jù)的最重要的信息。第一個新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方法，第二個新坐標(biāo)軸選擇的是與第一個新坐標(biāo)軸正交且方差次大的方向。重復(fù)該過程，重復(fù)次數(shù)為原始數(shù)據(jù)的特征維數(shù)。大部分方差都包含在最前面的幾個新坐標(biāo)軸中，因此，可以忽略余下的坐標(biāo)軸，即對數(shù)據(jù)進(jìn)行了降維處理。（2）因子分析（FA）在因子分析中，假設(shè)在觀察數(shù)據(jù)的生成中有一些觀察不到的隱變量；假設(shè)觀察數(shù)據(jù)是這些隱變量和某些噪聲的線性組合；那么隱變量的數(shù)據(jù)可能比觀察數(shù)據(jù)的數(shù)目少，也就是說通過找到隱變量就可以實現(xiàn)數(shù)據(jù)的降維。（3）獨立成分分析（ICA）ICA假設(shè)數(shù)據(jù)是從N個數(shù)據(jù)源生成的，這一點和因子分析有些類似。假設(shè)數(shù)據(jù)為多個數(shù)據(jù)源的混合觀察結(jié)果，這些數(shù)據(jù)源之間在統(tǒng)計上是相互獨立的，而在PCA中只假設(shè)數(shù)據(jù)是不相關(guān)的。同因子分析一樣，如果數(shù)據(jù)源的數(shù)目少于觀察數(shù)據(jù)的數(shù)目，則可以實現(xiàn)降維過程。本篇以下內(nèi)容主要介紹PCA。優(yōu)點：降低數(shù)據(jù)的復(fù)雜性，識別最重要的多個特征。缺點：不一定需要，且可能損失有用信息。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是:（）A.模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測準(zhǔn)確率不高,我們需要做點什么改進(jìn)模型C.無法下結(jié)論D.以上都不對2、我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以：（）A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量3、對于線性回歸，我們應(yīng)該有以下哪些假設(shè)？（）1.找到離群點很重要,因為線性回歸對利群點很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設(shè)數(shù)據(jù)沒有多重線性相關(guān)性A.1和2B.2和3C.1,2和3D.以上都不是4、關(guān)于正態(tài)分布,下列說法錯誤的是:（）A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0，峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0，方差為15、決策樹的父節(jié)點和子節(jié)點的熵的大小關(guān)系是什么？（）A.決策樹的父節(jié)點更大B.子節(jié)點的熵更大C.兩者相等D.根據(jù)具體情況而定6、下列關(guān)于極大似然估計（MaximumLikelihoodEstimate，MLE），說法正確的是（多選）？（）A.MLE可能并不存在B.MLE總是存在C.如果MLE存在，那么它的解可能不是唯一的D.如果MLE存在，那么它的解一定是唯一的7、一般來說，下列哪種方法常用來預(yù)測連續(xù)獨立變量？（）A.線性回歸B.邏輯回顧C(jī).線性回歸和邏輯回歸都行D.以上說法都不對8、你使用隨機(jī)森林生成了幾百顆樹（T1,T2,...,Tn），然后對這些樹的預(yù)測結(jié)果進(jìn)行綜合，下列說法正確的是：（）1、每棵樹是通過所有數(shù)據(jù)的子集構(gòu)建而成的2、每棵樹學(xué)習(xí)的樣本數(shù)據(jù)都是通過隨機(jī)有放回采樣而得的3、每棵樹是通過數(shù)據(jù)集的子集和特征的子集構(gòu)建而成的4、每棵樹是通過所有的數(shù)據(jù)構(gòu)建而成的A.1和2B.2和4C.1、2和3D.2和39、下面關(guān)于隨機(jī)森林和GBDT的說法正確的是：（）①這兩種方法都可以用來解決分類問題②隨機(jī)森林解決分類問題，GBDT解決回歸問題③隨機(jī)森林解決回歸問題，GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④10、關(guān)于隨機(jī)森林和GBDT，下列說法錯誤的是：（）A.隨機(jī)森林中每個學(xué)習(xí)器是相互獨立的B.隨機(jī)森林利用了bagging的思想來構(gòu)建強(qiáng)學(xué)習(xí)器C.GBDT利用了Boosting的思想來構(gòu)建強(qiáng)學(xué)習(xí)器D.GBDT中每個學(xué)習(xí)器之間沒有任何聯(lián)系二、判斷題（本大題共10小題，每題1分，共10分）1、SVM是一個凸優(yōu)化問題，因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點。（）2、錯誤否定（FalseNegative,FN）：預(yù)測為假，實際為真。（）3、邏輯回歸的因變量可以是二分類的，也可以是多分類的，但是二分類的更為常用，也更加容易解釋。所以實際中最常用的就是二分類的邏輯回歸。（）4、決策樹只能處理數(shù)據(jù)型屬性。（）5、樸素貝葉斯適合高維數(shù)據(jù)。（）6、隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小，其信息量就越小。（）7、決策樹短時間內(nèi)處理大量數(shù)據(jù)，得到可行且效果較好的結(jié)果。（）8、集成學(xué)習(xí)以boosting、Adaboost等算法為代表的，個體學(xué)習(xí)器不是串行序列化生成的、具有依賴關(guān)系。（）9、Adaboost算法流程給數(shù)據(jù)中的每一個樣本一個權(quán)重。（）10、Adaboost算法流程訓(xùn)練數(shù)據(jù)中的每一個樣本，得到第一個分類器（）三、填空（本大題共10小題，每題3分，共30分）1、評判分類效果好壞的三個指標(biāo)就是上面介紹的三個指標(biāo):，，。2、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。3、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”，可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì)，導(dǎo)致泛化能力下降叫。4、分類是預(yù)測，比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。5、訓(xùn)練用到的每個樣本叫。6、訓(xùn)練過程中用到的數(shù)據(jù)叫。7、在某些情況下，我們會討論坐標(biāo)超過兩維的數(shù)組。一般地，一個數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中，我們將其稱之為。8、聚類的特征選擇：從最初的特征中選擇最有效的特征，并將其存儲在？中。9、聚類的特征提取：通過對進(jìn)行轉(zhuǎn)換形成新的突出特征。10、聚類的聚類：基于某種距離函數(shù)進(jìn)行相似度度量，獲取。四、簡答題（本大題共3小題，共30分）1、為什么樸素貝葉斯如此“樸素”？2、簡單說下有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別？3、特征選擇與數(shù)據(jù)降維(特征提取)？一、選擇題1.B 2.C 3.D 4.C 5.B 6.AC 7.A 8.D 9.E 10.D二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.錯 7.對 8.錯 9.對 10.對三、填空題1.正確率召回率F值 2.正確率 3.過擬合 4.離散值5.訓(xùn)練樣本 6.訓(xùn)練集 7.張量 8.向量 9.選擇的特征 10.簇四、簡答題1、因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨立的。正如我們所知，這個假設(shè)在現(xiàn)實世界中是很不真實的，因此，說樸素貝葉斯真的很“樸素”。2、答：有監(jiān)督學(xué)習(xí)：對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測。（LR,SVM,BP,RF,GBDT）無監(jiān)督學(xué)習(xí)：對未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí)，比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。(KMeans,DL)3、答：降維的方法：結(jié)合專業(yè)知識剔除或合并類別通過數(shù)據(jù)概要來發(fā)現(xiàn)變量間的信息重疊(并剔除或合并類別)對數(shù)據(jù)進(jìn)行轉(zhuǎn)換，例如將分類型變量轉(zhuǎn)換為數(shù)值型變量使用如主成分分析(PCA)這樣的自動降維技術(shù)來創(chuàng)建一系列新的變量(原變量的加權(quán)平均)。這些變量互不相關(guān)，并且其中很小的一個子集就包含了原始數(shù)據(jù)中很大一部分信息(因此我們可以只使用新變量集的一個子集來實現(xiàn)降維)?？梢岳靡恍?shù)據(jù)挖掘的方法：如回歸模型、分類和回歸樹等，這些方法可以用于剔除冗余變量，以及合并分類型變量中的相似類別。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、個人健康和年齡的相關(guān)系數(shù)是-1.09。根據(jù)這個你可以告訴醫(yī)生哪個結(jié)論？（）A.年齡是健康程度很好的預(yù)測器B.年齡是健康程度很糟的預(yù)測器C.以上說法都不對D：兩者沒關(guān)系2、假如我們利用Y是X的3階多項式產(chǎn)生一些數(shù)據(jù)（3階多項式能很好地擬合數(shù)據(jù)）。那么，下列說法正確的是（多選）？（）A.簡單的線性回歸容易造成高偏差（bias）、低方差（variance）B.簡單的線性回歸容易造成低偏差（bias）、高方差（variance）C.3階多項式擬合會造成低偏差（bias）、高方差（variance）D.3階多項式擬合具備低偏差（bias）、低方差（variance）3、假如你在訓(xùn)練一個線性回歸模型，有下面兩句話：（）1.如果數(shù)據(jù)量較少，容易發(fā)生過擬合。2.如果假設(shè)空間較小，容易發(fā)生過擬合。關(guān)于這兩句話，下列說法正確的是？A.1和2都錯誤B.1正確，2錯誤C.1錯誤，2正確D.1和2都正確4、假如我們使用Lasso回歸來擬合數(shù)據(jù)集，該數(shù)據(jù)集輸入特征有100個（X1，X2，…，X100）?，F(xiàn)在，我們把其中一個特征值擴(kuò)大10倍（例如是特征X1），然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么，下列說法正確的是？（）A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對5、假如使用邏輯回歸對樣本進(jìn)行分類，得到訓(xùn)練樣本的準(zhǔn)確率和測試樣本的準(zhǔn)確率。現(xiàn)在，在數(shù)據(jù)中增加一個新的特征，其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是？（）A.訓(xùn)練樣本準(zhǔn)確率一定會降低B.訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C.測試樣本準(zhǔn)確率一定會降低D.測試樣本準(zhǔn)確率一定增加或保持不變6、下面這張圖是一個簡單的線性回歸模型,圖中標(biāo)注了每個樣本點預(yù)測值與真實值的殘差。計算SSE（平方誤差和）為多少？（）A.3.02B.0.75C.1.01D.0.6047、關(guān)于“回歸（Regression）”和“相關(guān)（Correlation）”，下列說法正確的是？注意：x是自變量，y是因變量。（）A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的，相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的，相關(guān)在x和y之間是非對稱的8、關(guān)于AdaBoost，下列說法中正確的是（多選）：（）A.它是一種集成學(xué)習(xí)算法B.每個分類器的權(quán)重和被它正確分類的樣本的權(quán)重相同C.后一個基學(xué)習(xí)器要依賴于前一個基學(xué)習(xí)器的分類錯誤率和樣本的權(quán)重D.后一個基學(xué)習(xí)器每次只學(xué)習(xí)前一個基學(xué)習(xí)器被分錯的樣本9、集成學(xué)習(xí)策略有哪些（） A．投票法B．平均法C．學(xué)習(xí)法D．上述都有10、集成學(xué)習(xí)策略常用于分類的是：（）A．投票法B．平均法C．學(xué)習(xí)法D．上述都有二、判斷題（本大題共10小題，每題1分，共10分）1、決策樹短時間內(nèi)處理大量數(shù)據(jù)，得到可行且效果較好的結(jié)果。（）樸素貝葉斯適合高維數(shù)據(jù)。（）標(biāo)量是0階張量。（）協(xié)方差是衡量兩個變量線性相關(guān)性強(qiáng)度及變量尺度。（）聯(lián)合分布可求邊緣分布，但若只知道邊緣分布，無法求得聯(lián)合分布。（）隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。（）矩陣的L0范數(shù)：矩陣的非0元素的個數(shù)，通常用它來表示稀疏，L0范數(shù)越小0元素越多，也就越稀疏。（）Adaboost算法流程計算該分類器的錯誤率，根據(jù)錯誤率計算要給分類器分配的權(quán)重。（）9、Adaboost算法流程將第一個分類器分錯誤的樣本權(quán)重增加。（）10、Adaboost算法流程然后再用新的樣本權(quán)重訓(xùn)練數(shù)據(jù)，得到新的分類器。（）三、填空（本大題共10小題，每題3分，共30分）1、一個表示一個單獨的數(shù)，它不同于線性代數(shù)中研究的其他大部分對象（通常是多個數(shù)的數(shù)組）。2、馬式距離的特征則是：。3、p(x|θ)是給定參數(shù)θ的概率分布：。4、基尼指數(shù)（基尼不純度）=*。5、Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小，也就是說集合的純度。6、表示在樣本集合中一個隨機(jī)選中的樣本被分錯的概率。7、算法在決策樹生成的過程中，用信息增益比來選擇特征。8、聚類結(jié)果評估：分析結(jié)果，如距離誤差和(SSE)等。9、人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetworks，ANNs），也簡稱為神經(jīng)網(wǎng)絡(luò)（NNs），是模擬進(jìn)行信息處理的一種數(shù)學(xué)模型，以對大腦的生理研究成果為基礎(chǔ)，其目的在于模擬大腦的某些機(jī)理與機(jī)制，實現(xiàn)一些特定的功能。10、生物神經(jīng)元主要由，，，組成。四、簡答題（本大題共3小題，共30分）1、梯度下降法找到的一定是下降最快的方向么？2、什么是最小二乘法？3、K-Means和KNN算法的區(qū)別是什么？一、選擇題1.C 2.AD 3.B 4.B 5.B 6.A 7.C 8.AC 9.D 10.A二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.標(biāo)量 2.平移不變性、旋轉(zhuǎn)不變性、尺度不變性 3.似然函數(shù) 4.樣本被選中的概率樣本被分錯的概率 5.越高 6.基尼指數(shù)（基尼不純度） 7.C4.5 8.聚類 9.生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能 10.細(xì)胞體樹突軸突突觸四、簡答題1、答：梯度下降法并不是下降最快的方向，它只是目標(biāo)函數(shù)在當(dāng)前的點的切平面（當(dāng)然高維問題不能叫平面）上下降最快的方向。在PracticalImplementation中，牛頓方向（考慮海森矩陣）才一般被認(rèn)為是下降最快的方向，可以達(dá)到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的（在某些帶復(fù)雜約束的問題）。2、答：最小二乘法（又稱最小平方法）是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù)，并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。3、首先，這兩個算法解決的是數(shù)據(jù)挖掘中的兩類問題。K-Means是聚類算法，KNN是分類算法。其次，這兩個算法分別是兩種不同的學(xué)習(xí)方式。K-Means是非監(jiān)督學(xué)習(xí)，也就是不需要事先給出分類標(biāo)簽，而KNN是有監(jiān)督學(xué)習(xí)，需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識。最后，K值的含義不同。K-Means中的K值代表K類。KNN中的K值代表K個最接近的鄰居。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、關(guān)于“回歸（Regression）”和“相關(guān)（Correlation）”，下列說法正確的是？注意：x是自變量，y是因變量。（）A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的，相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的，相關(guān)在x和y之間是非對稱的2、邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用？（）A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)3、關(guān)于兩個邏輯回歸模型中的β0、β1值，下列說法正確的是？注意：y=β0+β1*x，β0是截距，β1是權(quán)重系數(shù)。（）A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對4、在n維空間中（n>1），下列哪種方法最適合用來檢測異常值？（）A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點圖5、邏輯回歸與多元回歸分析有哪些不同之處？（）A.邏輯回歸用來預(yù)測事件發(fā)生的概率B.邏輯回歸用來計算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進(jìn)行估計D.以上都是6、如果一個SVM模型出現(xiàn)欠擬合，那么下列哪種方法能解決這一問題？（）A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)（gamma參數(shù)）D.以上都不是7、我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5，則預(yù)測為正類；若輸出概率小于0.5，則預(yù)測為負(fù)類。那么，如果將閾值0.5提高，例如0.6，大于或等于0.6的才預(yù)測為正類。則準(zhǔn)確率（Precision）和召回率（Recall）會發(fā)生什么變化（多選）？（）A.準(zhǔn)確率（Precision）增加或者不變B.準(zhǔn)確率（Precision）減小C.召回率（Recall）減小或者不變D.召回率（Recall）增大8、集成學(xué)習(xí)策略常用于處理數(shù)值問題的是：（）A．投票法B．平均法C．學(xué)習(xí)法D．上述都有9、關(guān)于學(xué)習(xí)法表述正確的事（）A．平均法和投票法是對弱學(xué)習(xí)器的結(jié)果做平均或者投票，相對比較簡單，但是可能學(xué)習(xí)誤差較大，于是就有了學(xué)習(xí)法。B．學(xué)習(xí)法是一種更為強(qiáng)大的結(jié)合策略，即通過另一個學(xué)習(xí)器來進(jìn)行結(jié)合。C．Stacking是學(xué)習(xí)法的典型代表。Stacking先從初級數(shù)據(jù)集訓(xùn)練出初級學(xué)習(xí)器，然后“生成”一個新數(shù)據(jù)集用于訓(xùn)練次級學(xué)習(xí)器。在這個新數(shù)據(jù)集中，初級學(xué)習(xí)器的輸出被當(dāng)作樣例輸入特征。D．上述都對10、以下關(guān)于Bagging算法的特點描述正確的是（）A．Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差B．bagging對樣本進(jìn)行有放回的重采樣，學(xué)習(xí)結(jié)果是各個學(xué)習(xí)模型的平均值C．由于重采樣的樣本集具有相似性以及使用相同的學(xué)習(xí)器模型，因此，各學(xué)習(xí)模型的結(jié)果相近，即模型有近似相等的偏差和方差。D．以上描述都對二、判斷題（本大題共10小題，每題1分，共10分）1、矩陣的L0范數(shù)：矩陣的非0元素的個數(shù)，通常用它來表示稀疏，L0范數(shù)越小0元素越多，也就越稀疏。（）2、隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小，其信息量就越小。（）3、SVM通過尋找使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實現(xiàn)結(jié)構(gòu)風(fēng)險最小化。（）4、logit回歸輸出的是Y屬于某一類的概率，也可以表示某事件發(fā)生的概率。（）5、P(θ|x)是在數(shù)據(jù)X的支持下，θ發(fā)生的概率：后驗概率。（）6、P(θ)是在沒有數(shù)據(jù)支持下，θ發(fā)生的概率：先驗概率。（）7、F1值定義為：F1=2PR/(P+R)。（）8、Adaboost算法流程將所有弱分類器加權(quán)求和，得到分類結(jié)果（注意是分類器權(quán)重）。（）9、集成學(xué)習(xí)通過將多個單個學(xué)習(xí)器集成/組合在一起，使它們共同完成學(xué)習(xí)任務(wù)，以達(dá)到提高預(yù)測準(zhǔn)確率的目的。（）10、Boosting是一個順序過程，每個后續(xù)模型都會嘗試糾正先前模型的錯誤，后續(xù)的模型依賴于之前的模型。（）三、填空（本大題共10小題，每題3分，共30分）1、算法利用信息增益進(jìn)行特征的選擇，信息增益反映的是給定條件后不確定性減少的程度。2、機(jī)器學(xué)習(xí)中做特征選擇時，可能用到的、、、。3、已知坐標(biāo)軸中兩點A(2,?2)B(?1,2)，這兩點的曼哈頓距離（L1距離）是。4、求函數(shù)機(jī)制的方法有兩大類，分別是和。5、損失函數(shù)也叫或。6、從已有的M個特征（Feature）中選擇N個特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫。7、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?；貧w往往會通過計算來確定模型的精確性。8、人工神經(jīng)元模型可以看成是由3種基本元素組成，，。9、學(xué)習(xí)算法是指針對學(xué)習(xí)問題的明確規(guī)則，學(xué)習(xí)類型是由參數(shù)變化發(fā)生的形式?jīng)Q定的，不同的學(xué)習(xí)算法對神經(jīng)元的權(quán)值調(diào)整的表達(dá)式是不同的。人工神經(jīng)網(wǎng)絡(luò)常用的算法有，，。10、在最基本的BP算法中，學(xué)習(xí)率在整個訓(xùn)練過程是保持不變的，學(xué)習(xí)率過，算法可能振蕩而不穩(wěn)定；學(xué)習(xí)率過，則收斂速度慢，訓(xùn)練時間。四、簡答題（本大題共3小題，共30分）1、簡單介紹下Logistics回歸。？2、常見的分類算法有哪些？3、機(jī)器學(xué)習(xí)能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應(yīng)用？一、選擇題1.C 2.A 3.B 4.C 5.D 6.A 7.AC 8.B 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.ID3 2.卡方信息增益平均互信息期望交叉熵 3.7 4.解析解（閉式解）數(shù)值解 5.代價函數(shù)目標(biāo)函數(shù) 6.特征選擇 7.誤差（Error） 8.一組連接一個加法器一個激活函數(shù) 9.有監(jiān)督Hebb算法單層感知器梯度LMS算法 10.大小長四、簡答題1、答：Logistic回歸目的是從特征學(xué)習(xí)出一個0/1分類模型，而這個模型是將特性的線性組合作為自變量，由于自變量的取值范圍是負(fù)無窮到正無窮。因此，使用logistic函數(shù)（或稱作sigmoid函數(shù)）將自變量映射到(0,1)上，映射后的值被認(rèn)為是屬于y=1的概率。2、答：SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯等。3、答：監(jiān)督學(xué)習(xí)：分類：邏輯回歸、決策樹、KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯數(shù)字預(yù)測：線性回歸、KNN、GradientBoosting*AdaBoost無監(jiān)督學(xué)習(xí)：聚類、關(guān)聯(lián)分析強(qiáng)化學(xué)習(xí)一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、點擊率預(yù)測是一個正負(fù)樣本不平衡問題（例如99%的沒有點擊，只有1%點擊）。假如在這個非平衡的數(shù)據(jù)集上建立一個模型，得到訓(xùn)練樣本的正確率是99%，則下列說法正確的是？（）A.模型正確率很高，不需要優(yōu)化模型了B.模型正確率并不高，應(yīng)該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對2、如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型，下列哪種做法是正確的？（）A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量3、我們想要訓(xùn)練一個ML模型，樣本數(shù)量有100萬個，特征維度是5000，面對如此大數(shù)據(jù)，如何有效地訓(xùn)練模型？（）A.對訓(xùn)練集隨機(jī)采樣，在隨機(jī)采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機(jī)器學(xué)習(xí)算法C.使用PCA算法減少特征維度D.以上都對4、機(jī)器學(xué)習(xí)中做特征選擇時，可能用到的方法有？（多選）（）a.卡方b.信息增益c.平均互信息d.期待交叉熵5、如何在監(jiān)督式學(xué)習(xí)中使用聚類算法（多選）？（）A.首先，可以創(chuàng)建聚類，然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，可以將其類別ID作為特征空間中的一個額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前，不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，不能將其類別ID作為特征空間中的一個額外的特征6、下面哪句話是正確的？（）A.機(jī)器學(xué)習(xí)模型的精準(zhǔn)度越高，則模型的性能越好B.增加模型的復(fù)雜度，總能減小測試樣本誤差C.增加模型的復(fù)雜度，總能減小訓(xùn)練樣本誤差D.以上說法都不對7、如果使用線性回歸模型，下列說法正確的是？（）A.檢查異常值是很重要的，因為線性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對8、以下關(guān)于Bagging特點的描述不正確的是（）A．Bagging是一個很低效的集成學(xué)習(xí)算法B．Bagging復(fù)雜度與基學(xué)習(xí)器同階C．由于每一個樣本被選中的概率相同，因此bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實例。D．對于噪聲數(shù)據(jù)，bagging不太受過分?jǐn)M合的影響。9、下面哪個選項中哪一項屬于確定性算法？（）A．隨機(jī)森林B．PCAC．KmeansD．GBDT10、下列屬于無監(jiān)督學(xué)習(xí)的是（）A、k-meansB、SVMC、最大熵D、CRF二、判斷題（本大題共10小題，每題1分，共10分）1、FP——將負(fù)類預(yù)測為正類數(shù)。（）2、交叉熵?fù)p失函數(shù)的好處是可以克服方差代價函數(shù)更新權(quán)重過慢的問題。（）3、邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法，運用梯度下降來求解參數(shù)，來達(dá)到將數(shù)據(jù)二分類的目的。（）4、決策樹容易發(fā)生欠擬合。（）5、決策樹容易發(fā)生過擬合。（）6、SVM無法做多分類。（）7、SVM自帶正則項。（）8、先從初始訓(xùn)練集訓(xùn)練出一個基學(xué)習(xí)器，再根據(jù)基學(xué)習(xí)器的表現(xiàn)對訓(xùn) 練樣本分布進(jìn)行調(diào)整，使得先前基學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)受到更多的關(guān)注，然后基于調(diào)整后的樣本分布來訓(xùn)練下一個基學(xué)習(xí)器。（）9、Boosting是一個迭代的過程，通過改變訓(xùn)練樣本的分布，使得基分類器聚焦在那些很難分的樣本上。（）10、Boosting結(jié)合了很多弱學(xué)習(xí)器來形成一個強(qiáng)學(xué)習(xí)器，單個模型表現(xiàn)不佳，但它們在數(shù)據(jù)集的某些部分表現(xiàn)很好。（）三、填空（本大題共10小題，每題3分，共30分）1、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?；貧w往往會通過計算來確定模型的精確性。2、評判分類效果好壞的三個指標(biāo)就是上面介紹的三個指標(biāo):，，。3、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。4、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”，可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì)，導(dǎo)致泛化能力下降叫。5、模型沒有很好地捕捉到數(shù)據(jù)特征，不能夠很好地擬合數(shù)據(jù)叫。6、分類是預(yù)測，比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。7、訓(xùn)練用到的每個樣本叫。8、boosting算法得基本原理，以及的三種典型算法原理：，，。9、Adaboost提供一種，在框架內(nèi)可以使用各種方法構(gòu)建子分類器，可以使用簡單的弱分類器，不用對特征進(jìn)行篩選，也不存在過擬合的現(xiàn)象。10、Adaboost算法不需要的先驗知識，最后得到的強(qiáng)分類器的分類精度依賴于所有弱分類器。無論是應(yīng)用于人造數(shù)據(jù)還是真實數(shù)據(jù)，Adaboost都能顯著的提高學(xué)習(xí)精度。四、簡答題（本大題共3小題，共30分）1、常見的監(jiān)督學(xué)習(xí)算法有哪些？帶核的SVM為什么能分類非線性問題？3、舉例說明機(jī)器學(xué)習(xí)的基本過程，并舉例說明基本步驟各有哪些方法？一、選擇題1.B 2.C 3.D 4.ABCD 5.AB 6.C 7.A 8.A 9.B 10.A二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對三、填空題1.誤差（Error） 2.正確率召回率F值 3.正確率 4.過擬合 5.欠擬合 6.離散值 7.訓(xùn)練樣本 8.adaboostGBM（Gradientbosstingmachine）XGBoost 9.框架 10.弱分類器四、簡答題1、答：感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸2、答：核函數(shù)的本質(zhì)是兩個函數(shù)的內(nèi)積，而這個函數(shù)在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應(yīng)映射，核只不過是一個內(nèi)積。3、答：定義分析目標(biāo)、收集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型訓(xùn)練、模型評估、模型應(yīng)用一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、下列哪一項能反映出X和Y之間的強(qiáng)相關(guān)性？（）A.相關(guān)系數(shù)為0.9B.對于無效假設(shè)β=0的p值為0.0001C.對于無效假設(shè)β=0的t值為30D.以上說法都不對2、機(jī)器學(xué)習(xí)中做特征選擇時，可能用到的方法有？（多選）（）A.卡方B.信息增益C.平均互信息D.期望交叉熵3、以下說法中正確的是（）A.SVM對噪聲（如來自其他分部的噪聲樣本）具備魯棒性B.在adaboost算法中，所有被分錯樣本的權(quán)重更新比例相同C.boosting和bagging都是組合多個分類器投票的方法，二者都是根據(jù)單個分類器的正確率確定其權(quán)重D.給定n個數(shù)據(jù)點，如果其中一半用于訓(xùn)練，一半用戶測試，則訓(xùn)練誤差和測試誤差之間的差別會隨著n的增加而減少4、以下描述錯誤的是（）A.SVM是這樣一個分類器，它尋找具有最小邊緣的超平面，因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當(dāng)中，簇內(nèi)的相似性越大，簇間的差別越大，聚類的效果就越差C.在決策樹中，隨著樹中結(jié)點輸變得太大，即使模型的訓(xùn)練誤差還在繼續(xù)降低，但是檢驗誤差開始增大，這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類5、若在二維空間中線性不可分，SVM算法會通過（）方法解決。A.核函數(shù)B.激活函數(shù)C.剪枝D.特征選擇6、線性回歸能完成的任務(wù)是（）A.預(yù)測離散值B.預(yù)測連續(xù)值C.分類D.聚類7、產(chǎn)量（X，臺）與單位產(chǎn)品成本（y,元/臺）之家你的回歸方程為y=356-1.5x，這說明（）A.產(chǎn)量每增加一臺，單位產(chǎn)品成本增加356元B.產(chǎn)品每增加一臺，單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺，單位產(chǎn)品的成本平均增加356元D.產(chǎn)量每增加一臺，單位產(chǎn)品成本平均減少1.5元8、下面哪個是通用的模型逼近器？

（）

A.KernelSVM

B.NeuralNetworks

C.BoostedDecisionTrees

D.Alloftheabove

9、下面那個問題可以用深度學(xué)習(xí)來解決？（）

A.蛋白質(zhì)結(jié)構(gòu)預(yù)測

B.化學(xué)反應(yīng)的預(yù)測

C.外來粒子的檢測

D.以上所有

10、當(dāng)您在CNN中使用1×1卷積時，以下哪個語句是真實的？（）A.Itcanhelpindimensionalityreduction

B.Itcanbeusedforfeaturepooling

C.Itsufferslessoverfittingduetosmallkernelsize

D.Alloftheabove

二、判斷題（本大題共10小題，每題1分，共10分）1、邏輯回歸的目的就是提高二分類的效率。（）2、SGD計算根據(jù)全部樣本構(gòu)造出來的代價函數(shù)的梯度。（）3、用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。（）4、Π是求積符號。（）5、Σ是求和符號。（）6、回歸任務(wù)是預(yù)測連續(xù)值。（）7、分類任務(wù)是預(yù)測連續(xù)值。（）8、集成學(xué)習(xí)：可以用作抽樣分布，從原始數(shù)據(jù)集中提取出自主樣本集。（）9、基學(xué)習(xí)器可以使用權(quán)值學(xué)習(xí)有利于高權(quán)值樣本的模型。（）10、Boosting：每一輪的訓(xùn)練集不變，只是訓(xùn)練集中每個樣本的權(quán)重發(fā)生變化，權(quán)值根據(jù)上一輪的預(yù)測結(jié)果進(jìn)行調(diào)整。（）三、填空（本大題共10小題，每題3分，共30分）1、求函數(shù)機(jī)制的方法有兩大類，分別是和。2、機(jī)器學(xué)習(xí)中做特征選擇時，可能用到的、、、。3、算法在決策樹生成的過程中，用信息增益比來選擇特征。4、Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小，也就是說集合的純度。5、p(x|θ)是給定參數(shù)θ的概率分布：。6、馬式距離的特征則是：。7、一個表示一組有序排列的數(shù)。通過次序中的索引，我們可以確定每個單獨的數(shù)。8、Adaboost算法不需要預(yù)先知道的錯誤率上限，且最后得到的的分類精度依賴于所有弱分類器的分類精度，可以深挖分類器的能力,Adaboost可以根據(jù)弱分類器的反饋，自適應(yīng)地調(diào)整假定的錯誤率，執(zhí)行的效率高。9、Adaboost可以在不改變訓(xùn)練數(shù)據(jù)，只改變，使得數(shù)據(jù)在不同學(xué)習(xí)器中產(chǎn)生不同作用，類似于重采樣。10、關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個子問題：發(fā)現(xiàn)和生成。四、簡答題（本大題共3小題，共30分）1、有數(shù)據(jù)集D1，其中樣本的特征是離散取值（可以簡單地考慮取二值），數(shù)據(jù)集D2和D1基本一樣，唯一的區(qū)別是D2中每個樣本的某個特征被重復(fù)了100次，請問在這兩個數(shù)據(jù)集上訓(xùn)練的樸素貝葉斯分類器是否一樣，請給出具體分析？2、一元線性回歸有哪些基本假定？3、討論數(shù)據(jù)數(shù)量和質(zhì)量對機(jī)器學(xué)習(xí)的影響？一、選擇題1.A 2.ABCD 3.C 4.C 5.A 6.B 7.D 8.D 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.錯 8.對 9.對 10.對三、填空題1.解析解（閉式解）數(shù)值解 2.卡方信息增益平均互信息期望交叉熵 3.C4.5 4.越高 5.似然函數(shù) 6.平移不變性、旋轉(zhuǎn)不變性、尺度不變性 7.向量 8.弱分類器強(qiáng)分類器 9.數(shù)據(jù)權(quán)值分布 10.頻繁項目集關(guān)聯(lián)規(guī)則四、簡答題1、解：分類器是不一樣的。因為樸素貝葉斯方法假設(shè)了特征間的獨立性，但D2中的100個特征彼此不獨立，因此不在適用，如果用了兩者的結(jié)果不等。在D2上訓(xùn)練，被重復(fù)的特征的概率會被乘100次，放大了它的影響。2、答：假設(shè)1、解釋變量X是確定性變量，Y是隨機(jī)變量；假設(shè)2、隨機(jī)誤差項ε具有零均值、同方差和不序列相關(guān)性：E(εi)=0i=1,2,…,n3、答：機(jī)器學(xué)習(xí)需要一定數(shù)量的數(shù)據(jù)作為支揮。數(shù)據(jù)量:過多會耗費更多的計算資源，還可能有不平衡數(shù)據(jù)集、維度災(zāi)難等問題。數(shù)據(jù)量過少會導(dǎo)致機(jī)器學(xué)習(xí)的準(zhǔn)確率下降，甚至不能完成學(xué)習(xí)的目標(biāo)。數(shù)據(jù)數(shù)量和質(zhì)量問題會導(dǎo)致過擬合或欠擬合的現(xiàn)象，優(yōu)秀的數(shù)據(jù)集對機(jī)器學(xué)習(xí)的結(jié)果影響是決定性的。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、如果使用線性回歸模型，下列說法正確的是？（）A.檢查異常值是很重要的，因為線性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對2、建立線性模型時，我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時，如果發(fā)現(xiàn)3對變量（Var1和Var2、Var2和Var3、Var3和Var1）之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢？（）A.Var1和Var2具有很高的相關(guān)性B.Var1和Var2存在多重共線性，模型可以去掉其中一個特征C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的D.以上都對3、下列哪種方法可以用來減小過擬合？（多選）（）A.更多的訓(xùn)練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復(fù)雜度4、向量X=[1,2,3,4,-9,0]的L1范數(shù)為？（）A.1B.19C.6D.√1115、關(guān)于L1、L2正則化下列說法正確的是？（）A.L2正則化能防止過擬合，提升模型的泛化能力，但L1做不到這點B.L2正則化技術(shù)又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏6、有N個樣本，一般用于訓(xùn)練，一般用于測試。若增大N值，則訓(xùn) 練誤差和測試誤差之間的差距會如何變化？（）A.增大B.減小C.不變D.以上均不對7、在回歸模型中，下列哪一項在權(quán)衡欠擬合（under-fitting）和過擬合（over-fitting）中影響最大？（）A.多項式階數(shù)B.更新權(quán)重w時，使用的是矩陣求逆還是梯度下降C.使用常數(shù)項D.學(xué)習(xí)率8、輸入層中的節(jié)點數(shù)為10，隱層為5。從輸入層到隱層的最大連接數(shù) 為？

（）

A.50

B.Lessthan50

C.Morethan50

D.Itisanarbitraryvalue

9、如果我們希望預(yù)測n個類（p1，p2..pk）的概率，使得所有n的p 的和等于1，則以下哪個函數(shù)可以用作輸出層中的激活函數(shù)？

（）

A.Softmax

B.ReLu

C.Sigmoid

D.Tanh

10、采取什么措施不可以防止過擬合？（）

A.數(shù)據(jù)壓縮;

B.權(quán)值共享;

C.提前結(jié)束模型迭代;

D.采用dropout;二、判斷題（本大題共10小題，每題1分，共10分）1、FP——將負(fù)類預(yù)測為正類數(shù)。（）2、交叉熵?fù)p失函數(shù)的好處是可以克服方差代價函數(shù)更新權(quán)重過慢的問題。（）3、邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法，運用梯度下降來求解參數(shù)，來達(dá)到將數(shù)據(jù)二分類的目的。（）4、SVM無法做多分類。（）5、SVM不涉及核函數(shù)。（）6、BGD計算根據(jù)全部樣本的構(gòu)造出來的代價函數(shù)的梯度。（）7、SGD計算根據(jù)全部樣本構(gòu)造出來的代價函數(shù)的梯度。（）8、Bagging：訓(xùn)練集是在原始集中有放回抽取的，從原始集中選出的訓(xùn)練集之間是獨立的。（）9、Boosting：根據(jù)錯誤率不斷調(diào)整樣本的權(quán)值，錯誤率越大則權(quán)值越大。（）10、Bagging：每個樣本的權(quán)重相等。（）三、填空（本大題共10小題，每題3分，共30分）1、熵指的是體系的的程度。2、信息越有序，信息熵越。3、訓(xùn)練過程中用到的數(shù)據(jù)叫。4、分類是預(yù)測，比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。5、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”，可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì)，導(dǎo)致泛化能力下降叫。6、評判分類效果好壞的三個指標(biāo)就是上面介紹的三個指標(biāo):，，。7、從已有的M個特征（Feature）中選擇N個特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫。8、Appriori屬性1：如果項目集X是頻繁項目集，那么它的所有非空子集都是。9、分類分析的三個步驟：、、。10、決策樹包含三種結(jié)點：、、。四、簡答題（本大題共3小題，共30分）1、決策樹的剪枝方法有哪些？2、SVM的超參數(shù)有哪些？3、討論深度學(xué)習(xí)的發(fā)展對推動機(jī)器學(xué)習(xí)的意義？一、選擇題1.A 2.D 3.ABCD 4.B 5.C 6.B 7.A 8.A 9.A 10.A二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.對 7.錯 8.對 9.對 10.對三、填空題1.混亂 2.低 3.訓(xùn)練集 4.離散值 5.過擬合 6.正確率召回率F值 7.特征選擇 8.頻繁項目集 9.挖掘分類規(guī)則分類規(guī)則評估分類規(guī)則應(yīng)用 10.根結(jié)點（矩形表示）內(nèi)部結(jié)點（矩形表示）葉結(jié)點/終結(jié)點（橢圓表示）四、簡答題1、答：預(yù)剪枝：提前結(jié)束決策樹的增長：類目數(shù)量、方差性能提升。2、答：C和gamma，C正則系數(shù)，gamma決定支持向量的數(shù)量。3、答：深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)并需要大量的計算能力，因此深度學(xué)習(xí)可以較好地應(yīng)對機(jī)器學(xué)習(xí)中大規(guī)模數(shù)據(jù)集，為機(jī)器學(xué)習(xí)提供了解決復(fù)雜問題的方法。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、產(chǎn)量（X，臺）與單位產(chǎn)品成本（y,元/臺）之家你的回歸方程為y=356-1.5x，這說明（）A。產(chǎn)量每增加一臺，單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺，單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺，單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺，單位產(chǎn)品成本平均減少1.5元2、直線方程y=wx+b,其中b表示（）A.系數(shù)B截距C.斜率D權(quán)重3、以下描述中，對梯度解釋正確的是（多選）（）A梯度是一個向量，有方向有大小B求梯度就是對梯度向量的各個元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小4、關(guān)于誤差ε的說法正確的是（多選）（）A誤差可以看做隨機(jī)比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設(shè)計優(yōu)良，誤差可以避免5、標(biāo)準(zhǔn)差與方差的關(guān)系是（多選）（）A標(biāo)準(zhǔn)差是方差的算術(shù)平方根B標(biāo)準(zhǔn)差可以反映離散程度，也可以反映出樣本的量綱C方差只能反映離散程度D標(biāo)準(zhǔn)差的平方是方差6、SVM中的核技巧（Kernaltrick）的作用包括以下哪項？（）A.特征升維B.特征降維C.防止過擬合D.處理離散數(shù)據(jù)7、在數(shù)據(jù)預(yù)處理階段，我們常常對數(shù)值特征進(jìn)行歸一化或標(biāo)準(zhǔn)化 (standardization,normalization)處理。這種處理方式理論上不會對下列哪個模型產(chǎn)生很大影響？（）A.k-MeansB.k-NNC.決策樹D.譜聚類8、下面哪個激活函數(shù)在圖像分類中不能作為輸出層？（）

A.sigmoid

B.Tanh

C.ReLU

D.If(x>5,1,0)

9、使用batchnormalization可以解決以下哪一個神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的問題？

（）

A.防止梯度消失

B.防止激活過高或者過低

C.網(wǎng)絡(luò)訓(xùn)練太慢

D.B和C10、感知器不包括下面那個結(jié)構(gòu)：（）A.輸入層B.隱藏層C．輸出層D．計算層二、判斷題（本大題共10小題，每題1分，共10分）1、預(yù)剪枝是在決策樹生成過程中，對樹進(jìn)行剪枝，提前結(jié)束樹的分支生長。（）2、決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。（）3、常見的決策樹算法是ID3,C4.5，CART樹。（）4、決策樹的剪枝是為了簡化決策樹模型，避免過擬合。（）5、最小二乘法（又稱最小平方法）是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。（）6、樸素貝葉斯（分類器）是一種生成模型，它會基于訓(xùn)練樣本對每個可能的類別建模。（）7、P(A|B)表示事件B已經(jīng)發(fā)生的前提下，事件A發(fā)生的概率，叫做事件B發(fā)生下事件A的條件概率。（）8、Boosting：串行，各個及學(xué)習(xí)器順序生成，因為后一個模型參數(shù)依賴于前一輪模型的預(yù)測結(jié)果。（）9、Bagging：各個學(xué)習(xí)器可以并行生成。（）10、Adaboost采用迭代的思想，繼承了Boosting算法，每次迭代只訓(xùn)練一個弱學(xué)習(xí)器，訓(xùn)練好的弱學(xué)習(xí)器將參與下一次迭代。（）三、填空（本大題共10小題，每題3分，共30分）1、在某些情況下，我們會討論坐標(biāo)超過兩維的數(shù)組。一般地，一個數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中，我們將其稱之為。2、回歸常用評估方法：，，。3、信息越有序，信息熵越。4、訓(xùn)練用到的每個樣本叫。5、模型沒有很好地捕捉到數(shù)據(jù)特征，不能夠很好地擬合數(shù)據(jù)叫。6、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。7、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?；貧w往往會通過計算來確定模型的精確性。8、AdaBoost很好的利用了進(jìn)行級聯(lián)。9、AdaBoost可以將不同的作為弱分類器。10、AdaBoost具有很高的精度；相對于和，AdaBoost充分考慮的每個分類器的權(quán)重。四、簡答題（本大題共3小題，共30分）1、SVM、LR、決策樹的對比？2、樸素貝葉斯的特點是？3、討論目前機(jī)器學(xué)習(xí)應(yīng)用中存在的主要問題？一、選擇題1.D 2.B 3.AB 4.AB 5.ABC 6.C 7.C 8.D 9.A 10.D二、判斷題1.對 2.對 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.張量 2.平均誤差絕對值誤差R2 3.低 4.訓(xùn)練樣本 5.欠擬合 6.正確率 7.誤差（Error) 8.弱分類器 9.分類算法 10.bagging算法RandomForest算法四、簡答題1、模型復(fù)雜度：SVM支持核函數(shù)，可處理線性非線性問題;LR模型簡單，訓(xùn)練速度快，適合處理線性問題;決策樹容易過擬合，需要進(jìn)行剪枝。損失函數(shù)：SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度：SVM添加容忍度對outlier不敏感，只關(guān)心支持向量，且需要先做歸一化;LR對遠(yuǎn)點敏感。數(shù)據(jù)量：數(shù)據(jù)量大就用LR，數(shù)據(jù)量小且特征少就用SVM非線性核。2、答：優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效，可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。3、答：選擇什么模型或算法、選擇什么優(yōu)化方法、如何對數(shù)據(jù)進(jìn)行預(yù)處理、目標(biāo)函數(shù)是什么、過擬合與欠擬合的處理、維度爆炸。一、單項選擇題（本大題共10小題，每題3分，共30分）試卷（試卷（學(xué)年第1學(xué)期）考試科目機(jī)器學(xué)習(xí)-Python實踐（A卷）適用專業(yè)班級（年級）得分命題人：審閱人：班級學(xué)號姓名考試科目裝訂線1、選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。（）A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有2、假設(shè)對給定數(shù)據(jù)應(yīng)用了Logistic回歸模型，并獲得了訓(xùn)練精度X和測試精度Y?，F(xiàn)在要在同一數(shù)據(jù)中添加一些新特征，以下哪些是錯誤的選項。（）注：假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測試精度提高或保持不變3、假定特征F1可以取特定值：A、B、C、D、E和F，其代表著學(xué)生在大學(xué)所獲得的評分。在下面說法中哪一項是正確的？（）A特征F1是名義變量（nominalvariable）的一個實例。B特征F1是有序變量（ordinalvariable）的一個實例。C該特征并不屬于以上的分類。D以上說法都正確。4、下面哪一項對梯度下降（GD）和隨機(jī)梯度下降（SGD）的描述是正確的？（）1在GD和SGD中，每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中，每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。3在GD中，每一次迭代需要使用整個訓(xùn)練集的數(shù)據(jù)更新一個參數(shù)。A只有1B只有2C只有3D都正確5、假定你正在處理類屬特征，并且沒有查看分類變量在測試集中的分布?，F(xiàn)在你想將onehotencoding（OHE）應(yīng)用到類屬特征中。（）那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么？A.分類變量所有的類別沒有全部出現(xiàn)在測試集中B.類別的頻率分布在訓(xùn)練集和測試集是不同的C.訓(xùn)練集和測試集通常會有一樣的分布D.A和B都正確6、假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%。現(xiàn)在你的模型在測試集上表現(xiàn)為99%的準(zhǔn)確度。那么下面哪一項表述是正確的？（）1準(zhǔn)確度并不適合于衡量不平衡類別問題2準(zhǔn)確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題4精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and47、假設(shè)我們有一個數(shù)據(jù)集，在一個深度為6的決策樹的幫助下，它可以使用100%的精確度被訓(xùn)練?，F(xiàn)在考慮一下兩點，并基于這兩點選擇正確的選項。（）注意：所有其他超參數(shù)是相同的，所有其他因子不受影響。1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差A(yù)只有1B只有2C1和2D沒有一個8、與人類神經(jīng)元相比，人工神經(jīng)元的輸入類比于什么？（）A．樹突B．軸突C．細(xì)胞核D.細(xì)胞膜9、與人類神經(jīng)元相比，人工神經(jīng)元的輸出類比于什么？（）A．樹突B．軸突C．細(xì)胞核D.細(xì)胞膜10、以下關(guān)于感知器中的鏈接方式表示正確的是？（）A.輸入層與隱藏層相連B.輸入層與輸出層相連C.隱藏層與細(xì)胞核相連D.輸入層與輸入層相連二、判斷題（本大題共10小題，每題1分，共10分）1、P(A|B)表示事件B已經(jīng)發(fā)生的前提下，事件A發(fā)生的概率，叫做事件B發(fā)生下事件A的條件概率。（）2、輸出變量為連續(xù)變量的預(yù)測問題是分類問題。（）3、回歸及分類常用的評估指標(biāo)都是準(zhǔn)確率和召回率。（）4、決策樹只用來分類。（）5、一般來說，回歸不用在分類問題上，但也有特殊情況，邏輯回歸可以用來解決0/1分類問題。（）6、回歸問題與分類問題都有可能發(fā)生過擬合。（）7、如果一個經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型在測試集上達(dá)到100%的準(zhǔn)確率，這是否意味著該模型將在另外一個新的測試集上也能得到100%的準(zhǔn)確率。（）8、序列數(shù)據(jù)沒有時間戳。（）9、定量屬性可以是整數(shù)值或者是連續(xù)值。（）10、可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。（）三、填空（本大題共10小題，每題3分，共30分）1、損失函數(shù)也叫或。2、已知坐標(biāo)軸中兩點A(2,?2)B(?1,2)，這兩點的曼哈頓距離（L1距離）是。3、算法利用信息增益進(jìn)行特征的選擇，信息增益反映的是給定條件后不確定性減少的程度。4、表示在樣本集合中一個隨機(jī)選中的樣本被分錯的概率。5、基尼指數(shù)（基尼不純度）=*。6、歐式距離的特征是：、。7、一個表示一個單獨的數(shù)，它不同于線性代數(shù)中研究的其他大部分對象（通常是多個數(shù)的數(shù)組）。8、AdaBoost迭代次數(shù)也就是數(shù)目不太好設(shè)定，可以使用交叉驗證來進(jìn)行確定；

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套

文檔簡介

溫馨提示

最新文檔

評論

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案 共10套

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《機(jī)器學(xué)習(xí)-Python實踐》試卷及答案共10套