《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫(kù) 試題及答案_第1頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫(kù) 試題及答案_第2頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫(kù) 試題及答案_第3頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫(kù) 試題及答案_第4頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫(kù) 試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩112頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章機(jī)器學(xué)習(xí)入門(mén)基礎(chǔ)B.包裹法(wapper)B.PyCharm是一種PythonIDE(IntegratedDevelopmD.Spyder是一個(gè)Python爬蟲(chóng)框架。解析:Spyder是Python(x,y)的作者為它開(kāi)發(fā)的一個(gè)簡(jiǎn)單的集成開(kāi)發(fā)7.下列選項(xiàng)中機(jī)器學(xué)習(xí)主要涉及三大要素不包含哪個(gè)?A.數(shù)據(jù)解析:機(jī)器學(xué)習(xí)主要涉及數(shù)據(jù)、算法和模型這三大要素。第一章,1.1小節(jié)。8.在實(shí)際的企業(yè)應(yīng)用場(chǎng)景中,為了讓訓(xùn)練效果更好,以下哪個(gè)操作是錯(cuò)誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)解析:常識(shí)。第一章,1.4小節(jié)。8.在實(shí)際的企業(yè)應(yīng)用場(chǎng)景中,為了讓訓(xùn)練效果更好,以下哪個(gè)操作是錯(cuò)誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)解析:常識(shí)。第一章,1.4小節(jié)。9.根據(jù)表格,請(qǐng)選擇說(shuō)法正確的選項(xiàng)?表1-2臟數(shù)據(jù)舉例姓名性別身高(cm)體重(kg)張三男李四女紅色男黑色女B.王五的身高是250cm,屬于異常情況。D.以上三種答案均正確解析:常識(shí)。第一章,1.4小節(jié)。10.以下哪個(gè)命令可以查看Python的版本號(hào)?11.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)的類(lèi)型不包含以下哪種()。A.監(jiān)督學(xué)習(xí)B.無(wú)監(jiān)督學(xué)習(xí)C.強(qiáng)化學(xué)習(xí)D.強(qiáng)調(diào)學(xué)習(xí)解析:第一章,1.3小節(jié)。12.常用的Python編程環(huán)境有哪些?A.Jupyternotebook_。已有數(shù)據(jù)輸入新的數(shù)據(jù)①模型②未來(lái)屬性解析:教材原話(huà),第一章,1.3小節(jié)。無(wú)監(jiān)督學(xué)習(xí)也可稱(chēng)為非監(jiān)督學(xué)習(xí),通過(guò)學(xué)習(xí)沒(méi)有標(biāo)記的半監(jiān)督學(xué)習(xí),它是一種在預(yù)測(cè)時(shí),既使用已標(biāo)記的所謂增強(qiáng)學(xué)習(xí),是通過(guò)與環(huán)境的交互,以推測(cè)和優(yōu)化實(shí)際的動(dòng)作,從而實(shí)現(xiàn)決策。2.如果在模型診斷中發(fā)現(xiàn)了過(guò)擬合和欠擬合問(wèn)題,請(qǐng)簡(jiǎn)述解決思路。過(guò)擬合、欠擬合是模型診斷中常見(jiàn)的問(wèn)題,如果出現(xiàn)過(guò)擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個(gè)樣本,但在測(cè)試集上表現(xiàn)得很差),可以通過(guò)增加數(shù)據(jù)量和降低模型復(fù)雜度來(lái)優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過(guò)提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜而深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)里的特定分支技術(shù),三者第2-7章1.關(guān)于支持向量機(jī)SVM,下列說(shuō)法錯(cuò)誤的是()A.L2正則項(xiàng),作用是最大化分類(lèi)間隔,使得分類(lèi)器擁有更強(qiáng)的泛化能力D.當(dāng)參數(shù)C越小時(shí),分類(lèi)間隔越大,分類(lèi)錯(cuò)誤越多,趨于欠學(xué)習(xí)y<-1是負(fù)類(lèi),決策面y=0,加入一個(gè)y=-30的正類(lèi)噪聲樣本,那么決策面將會(huì)變“歪”很多,分類(lèi)間隔變小,泛化能力減小。加入正則項(xiàng)之后,對(duì)噪聲樣本的容錯(cuò)能力增強(qiáng),B正確。6.下列不是SVM核函數(shù)的是()7.模型的高bias是什么意思,我們?nèi)绾谓档退?機(jī)器學(xué)習(xí)ML基礎(chǔ)易下的結(jié)論是:B.增加學(xué)習(xí)率(learningD.以上都不是A.正態(tài)分布具有集中性和對(duì)稱(chēng)性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1目標(biāo)變量在訓(xùn)練集上的8個(gè)實(shí)際值[0,0,0,1,1,1,1,1],目標(biāo)變量的熵是多少?B.5/8log(5/8)+3/8C.3/8log(5/8)+5/8解析:信息熵的計(jì)算公式為H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-∑12.決策樹(shù)的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小關(guān)系是什么?A.決策樹(shù)的父節(jié)點(diǎn)更大B.子節(jié)點(diǎn)的熵更大13.下列關(guān)于極大似然估計(jì)(MaximumLikelihoodEstimA.線(xiàn)性回歸B.邏輯回顧16.假如我們利用Y是X的3階多項(xiàng)式產(chǎn)生一些數(shù)據(jù)(3階多項(xiàng)式能很好地?cái)M合數(shù)據(jù))。那么,下列說(shuō)法正確的是(多選)?A.1和2都錯(cuò)誤B.1正確,2錯(cuò)誤C.1錯(cuò)誤,2正確X100)。現(xiàn)在,我們把其中一個(gè)特征值擴(kuò)大10倍(例如是特征X1),然后用相XC.無(wú)法確定特征X1是否被舍棄解析:SSE是平方誤差之和(SumofSquaredError),+(-0.8)^2+(1.3)^2+(-20.關(guān)于“回歸(Regression)”和“相關(guān)(CorD.LeakyReLU函數(shù)A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個(gè)模型的β1相同D.以上說(shuō)法都不對(duì)解析:邏輯回歸模型最終還要經(jīng)過(guò)Sigmoid非線(xiàn)性函數(shù),Sigmoid是增函數(shù),其說(shuō)明其β1<0。所以,得出結(jié)論:綠色模型的β1比黑色模型的β1小。23.在n維空間中(n>1),下列哪種方法最適合用來(lái)檢測(cè)異常值?A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點(diǎn)圖解析:正態(tài)概率圖(NormalProbabilityPlot)一般用來(lái)檢查一組數(shù)據(jù)是否服從24.邏輯回歸與多元回歸分析有哪些不同之處?A.邏輯回歸用來(lái)預(yù)測(cè)事件發(fā)生的概率B.邏輯回歸用來(lái)計(jì)算擬合優(yōu)度指數(shù)C.邏輯回歸用來(lái)對(duì)回歸系數(shù)進(jìn)行估計(jì)解析:A選項(xiàng),邏輯回歸是用來(lái)解決分類(lèi)問(wèn)題的,可以用于預(yù)測(cè)事件發(fā)生的概率。B選項(xiàng),一般來(lái)說(shuō),為了測(cè)量真實(shí)樣本與模型的擬合C選項(xiàng),在擬合邏輯回歸模型之后,我們還與目標(biāo)輸出的關(guān)系(正相關(guān)或負(fù)相關(guān))。25.如果一個(gè)SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問(wèn)題?A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))大于或等于0.6的才預(yù)測(cè)為正類(lèi)。則準(zhǔn)確率(Precision)和召回率(Recall)會(huì)發(fā)生什么變化(多選)?B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變27.點(diǎn)擊率預(yù)測(cè)是一個(gè)正負(fù)樣本不平衡問(wèn)題(例如99%的沒(méi)有點(diǎn)擊,只有1%點(diǎn)擊)。正確率。對(duì)于此題來(lái)說(shuō),如果我們預(yù)測(cè)的結(jié)果是100說(shuō)正確率是99%,因?yàn)橹挥?%的點(diǎn)擊預(yù)測(cè)錯(cuò)誤。但是,我們其實(shí)更關(guān)心的那1%的點(diǎn)B.增加學(xué)習(xí)率29.我們想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量有100萬(wàn)個(gè),特征維度是5000,面對(duì)如個(gè)更小的數(shù)據(jù)集,比如說(shuō),有1000個(gè)特征和300000個(gè)樣本進(jìn)行訓(xùn)練。使用在線(xiàn)學(xué)習(xí)(onlinelearning)算法31.如何在監(jiān)督式學(xué)習(xí)中使用聚類(lèi)算法(多選)?32.下面哪句話(huà)是正確的?果發(fā)現(xiàn)3對(duì)變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的果相關(guān)大于0.7或小于-0.7,那么我們認(rèn)為特征之間有很高的相關(guān)性。第三個(gè)選項(xiàng)是35.下列哪種方法可以用來(lái)減小過(guò)擬合?(多選)本例中,LO范數(shù)為5,L1范數(shù)為19,L2范數(shù)為√111。A.增大B.減小C.不變40.下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性?A.相關(guān)系數(shù)為0.9B.對(duì)于無(wú)效假設(shè)β=0的p值為0.0001C.對(duì)于無(wú)效假設(shè)β=0的t值為30C.平均互信息A.SVM對(duì)噪聲(如來(lái)自其他分部的噪聲樣本)具備魯棒性43.以下描述錯(cuò)誤的是(C)C.剪枝解析:線(xiàn)性回歸能完成的任務(wù)是預(yù)測(cè)連續(xù)值。46.產(chǎn)量(X,臺(tái))與單位產(chǎn)品成本(y,元/臺(tái))之家你的回歸方程為y=356-1.5x,這說(shuō)A。產(chǎn)量每增加一臺(tái),單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺(tái),單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺(tái),單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺(tái),單位產(chǎn)品成本平均減少1.5元解析:首先觀察這個(gè)函數(shù),y=356-1.5x,這條直線(xiàn)的斜率是負(fù)值,從直線(xiàn)可以看出,y與x之間呈反比關(guān)系??墒歉鶕?jù)實(shí)際情況而言,當(dāng)產(chǎn)量越來(lái)越多的時(shí)候,成本就越來(lái)越少,那么當(dāng)x無(wú)限接近于正無(wú)窮的時(shí)候,x豈不是為負(fù)值了嗎???不知道你們遠(yuǎn)不愿意,反正如果是我的話(huà),我肯定不愿意。所以說(shuō)他只是在某一個(gè)階段符合上述條件。當(dāng)x=1,y=354.5;當(dāng)x=2,y=353;x=3,y=351.5;將這三個(gè)數(shù)進(jìn)行計(jì)算,平均值是1.5.所以正確答案為D47.直線(xiàn)方程y=wx+b,其中b表示(B)解析:在機(jī)器學(xué)習(xí)中w表示系數(shù),斜率和權(quán)重,b表示截距48.以下描述中,對(duì)梯度解釋正確的是(AB)A梯度是一個(gè)向量,有方向有大小B求梯度就是對(duì)梯度向量的各個(gè)元素求偏導(dǎo)C梯度只有大小沒(méi)有方向D梯度只有方向沒(méi)有大小解析:theta是一個(gè)幾行幾列的矩陣,求偏導(dǎo)之后還是一個(gè)矩陣。所以說(shuō)梯度是一個(gè)向量,有方向有大小。定義,求梯度就是對(duì)梯度向量的各個(gè)元素求偏導(dǎo)。49.關(guān)于誤差ε的說(shuō)法正確的是(AB)k-Means和k-NN都需要使用距離。而決策樹(shù)對(duì)于數(shù)值特征,只在乎其大小排序,而非絕對(duì)大小。不管是標(biāo)準(zhǔn)化或者歸一化,都不會(huì)影響數(shù)值之間的相對(duì)大小。關(guān)于決策樹(shù)如何對(duì)數(shù)值特征進(jìn)行劃分53.選擇Logistic回歸中的One-Vs-All方法中的哪個(gè)選項(xiàng)是真實(shí)的。A我們需要在n類(lèi)分類(lèi)問(wèn)題中適合n個(gè)模型B我們需要適合n-1個(gè)模型來(lái)分類(lèi)為n個(gè)類(lèi)C我們需要只適合1個(gè)模型來(lái)分類(lèi)為n個(gè)類(lèi)D這些都沒(méi)有正確答案是:A解析:如果存在n個(gè)類(lèi),那么n個(gè)單獨(dú)的邏輯回歸必須與之相適應(yīng),其中每個(gè)類(lèi)的概率由剩余類(lèi)的概率之和確定。54.假設(shè)對(duì)給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測(cè)試精度Y?,F(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯(cuò)誤的選項(xiàng)。注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測(cè)試精度提高或保持不變正確答案是:B解析:將更多的特征添加到模型中會(huì)增加訓(xùn)練精度,因?yàn)槟P捅仨毧紤]更多的數(shù)據(jù)來(lái)適應(yīng)邏輯回歸。但是,如果發(fā)現(xiàn)特征顯著,則測(cè)試精度將會(huì)增加55.假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評(píng)分。在下面說(shuō)法中哪一項(xiàng)是正確的?A特征F1是名義變量(nominalvariable)的一個(gè)實(shí)例。B特征F1是有序變量(ordinalvariable)的一個(gè)實(shí)例。C該特征并不屬于以上的分類(lèi)。D以上說(shuō)法都正確。正確答案是:B58.假設(shè)我們有一個(gè)數(shù)據(jù)集,在一個(gè)深度為6的決策樹(shù)的幫助下,它可以使用100%的1深度為4時(shí)將有高偏差和低方差2深度為4時(shí)將有低偏差和低方差2錯(cuò)誤分類(lèi)率是~0.914真正率(Truepositiverate)是~0.952樹(shù)深3樹(shù)葉樣本65.甲盒中有200個(gè)螺桿,其中有160個(gè)A型螺桿;乙盒中有240個(gè)螺母,其中有從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語(yǔ)句中正確的?D.坐陸路(火車(chē)、汽車(chē))交通工具準(zhǔn)點(diǎn)機(jī)會(huì)比坐水路(輪船)要低。乘坐火車(chē)準(zhǔn)點(diǎn)的概率為:3/10*(1-1乘坐輪船準(zhǔn)點(diǎn)的概率為:2/10*(1-1/3)=16/120乘坐汽車(chē)準(zhǔn)點(diǎn)的概率為:1/10*(1-1/12)=11/120乘坐飛機(jī)準(zhǔn)點(diǎn)的概率為:4/10*1=48/120A:9/120/18/120=0.5對(duì)C:48/120/(27+16+11+48)/120=48/102錯(cuò)D:27/120+11/120>16/120錯(cuò)68.對(duì)于信息增益,決策樹(shù)分裂節(jié)點(diǎn),下面說(shuō)法正確的是()2信息增益可以用”1比特-熵”獲得3如果選擇一個(gè)屬性具有許多歸類(lèi)值,那么這個(gè)信息增益是有偏差的C2和3D所有以上純度越高,表示不確定越少,更少的信息就可以區(qū)分69.假設(shè)三個(gè)稠密矩陣(DenseMatrix)A,B,C的尺寸分別為m*n,n*q和p*q,且所有效率都相同mp(2n-1)<mq(2n-1);mp(2n-1)<mq(2nmq(2p-1)<nq(2p-1);mq(2p-1)<nq(2p所以(AB)C運(yùn)算次數(shù)最少,效率最高;越小越要先乘70.梯度下降可以從以下哪些地方調(diào)優(yōu)?B.參數(shù)初始值C.歸一化D.激活函數(shù)71.以下()不屬于線(xiàn)性分類(lèi)器最佳準(zhǔn)則?A感知準(zhǔn)則函數(shù)B貝葉斯分類(lèi)C支持向量機(jī)DFisher準(zhǔn)則答案B感知準(zhǔn)則函數(shù):準(zhǔn)則函數(shù)以使錯(cuò)分類(lèi)樣本到分界面距離之和最小為原則。其優(yōu)點(diǎn)是通支持向量機(jī):基本思想是在兩類(lèi)線(xiàn)性可分條件下,所設(shè)計(jì)的分類(lèi)器界面使兩類(lèi)之間的間隔為最大,它的基本出發(fā)點(diǎn)是使期望泛化風(fēng)險(xiǎn)盡可能小。(使用核函數(shù)可解決非線(xiàn)性問(wèn)題)Fisher準(zhǔn)則:更廣泛的稱(chēng)呼是線(xiàn)性判別分析(LDA),將所有樣本投影到一條遠(yuǎn)點(diǎn)出面方程是()A2x+y=4Bx+2y=5Cx+2y=3斜率是兩點(diǎn)連線(xiàn)的斜率的負(fù)倒數(shù)-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,過(guò)中點(diǎn)((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故選C.2.如果兩個(gè)變量相關(guān),那么它們一定是線(xiàn)性關(guān)系嗎?(錯(cuò))3.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為0。(對(duì))果兩個(gè)變量相互獨(dú)立,那么相關(guān)系數(shù)r一定為0,如果相關(guān)系數(shù)r=0,則不一定相互能優(yōu)于經(jīng)典回歸方法。(對(duì))該模型將在另外一個(gè)新的測(cè)試集上也能得到100%的準(zhǔn)確率。(錯(cuò))分類(lèi)問(wèn)題。(對(duì))9.決策樹(shù)只用來(lái)分類(lèi)。(錯(cuò))10.回歸及分類(lèi)常用的評(píng)估指標(biāo)都是準(zhǔn)確率和召A的條件概率。(對(duì))尋找數(shù)據(jù)的最佳函數(shù)匹配。(對(duì))17.決策樹(shù)的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。(對(duì))27.SVM不涉及核函數(shù)。(錯(cuò))28.SVM自帶正則項(xiàng)。(對(duì))29.SVM無(wú)法做多分類(lèi)。(錯(cuò))30.決策樹(shù)容易發(fā)生過(guò)擬合。(對(duì))31.決策樹(shù)容易發(fā)生欠擬合。(對(duì))34.FP——將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù)。(對(duì))36.P(θ)是在沒(méi)有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗(yàn)概率。(對(duì))37.P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗(yàn)概率。(對(duì))化。(對(duì))越小。(錯(cuò))41.矩陣的L0范數(shù):矩陣的非0元素的個(gè)數(shù),通常素越多,也就越稀疏。(對(duì))45.標(biāo)量是0階張量。(對(duì))46.樸素貝葉斯適合高維數(shù)據(jù)。(錯(cuò))48.SVM對(duì)缺失數(shù)據(jù)敏感。(對(duì))49.邏輯回歸計(jì)算速度快。(對(duì))50.決策樹(shù)只能處理數(shù)據(jù)型屬性。(錯(cuò))51.SVM適合高維數(shù)據(jù)。(對(duì))53.正確肯定(TruePositive,TP):預(yù)測(cè)為真,實(shí)際為真。(對(duì))54.錯(cuò)誤否定(FalseNegative,FN):預(yù)測(cè)為假,實(shí)際為真。(對(duì))這樣結(jié)果的參數(shù)值。(對(duì))59.決策樹(shù)算法可以用于小數(shù)據(jù)集。(對(duì))60.錯(cuò)誤率(ErrorRate)是分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。(對(duì))8.提取出的正確信息條數(shù)/提取出的信息條數(shù)是正確率。計(jì)算誤差(Error)來(lái)確定模型的精確性。征選擇14.已知坐標(biāo)軸中兩點(diǎn)A(2,-2)B(-1,2),這兩點(diǎn)的曼哈頓距離(L1距離)是7。20.基尼指數(shù)(基尼不純度)=樣本被選中的概率*樣本被分錯(cuò)的概率。21.p(x|θ)是給定參數(shù)0的概率分布:似然函數(shù)。23.馬式距離的特征則是:平移不變性、旋轉(zhuǎn)不變性、尺度不變性。多個(gè)數(shù)的數(shù)組)。30.經(jīng)驗(yàn)誤差(empiricalerror)也叫訓(xùn)練誤差。題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海12.有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡(jiǎn)單地考慮取二值),數(shù)據(jù)集D2和D1E(ei)=0i=1,2,…,n21.什么是梯度?27.如何對(duì)決策樹(shù)進(jìn)行剪枝?第8章隨機(jī)森林一、選擇題(30題)1.當(dāng)你使用Boosting提升算法時(shí),你會(huì)考慮弱學(xué)習(xí)器,以下哪項(xiàng)是使用弱學(xué)習(xí)器的主要原因?(B)A.防止過(guò)擬合B.防止欠擬合C.防止過(guò)擬合和防止欠擬合D.都不對(duì)①這兩種方法都可以用來(lái)解決分類(lèi)問(wèn)題④這兩種方法都可以用來(lái)解決回歸問(wèn)題A.隨機(jī)森林中每個(gè)學(xué)習(xí)器是相互獨(dú)立的B.隨機(jī)森林利用了bagging的思想來(lái)構(gòu)建強(qiáng)學(xué)習(xí)器C.GBDT利用了Boosting的思想來(lái)構(gòu)建強(qiáng)學(xué)習(xí)器7.關(guān)于AdaBoost,下列說(shuō)法中正確的是(多選):(AC)8.集成學(xué)習(xí)策略有哪些(D)B.平均法B.平均法C.學(xué)習(xí)法B.傳統(tǒng)決策樹(shù)在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性A.從原始樣本集M個(gè)樣本中使用bootstrap(有放回的隨機(jī)抽樣)采樣法選出mC.對(duì)部分缺失特征敏感B.不需要通過(guò)交叉驗(yàn)證D.以上都是C.均方差D.上述都對(duì)D.上述都是29.屬于隨機(jī)森林超參數(shù)的是(A)D.以上都不是30.能用于對(duì)隨機(jī)森林進(jìn)行剪枝或約束樹(shù)生長(zhǎng)的參數(shù)有不包括哪一個(gè)(D)B.min_samples_leaf二、對(duì)錯(cuò)題(25題)20Bagging的代表算法有:Adaboost和GradientBoostingTree(GBD23.隨機(jī)森林(RandomForest,簡(jiǎn)稱(chēng)RF)[Breiman,2001a]是Bagging的一個(gè)擴(kuò)三、填空題(5題)四、問(wèn)答題(6題)做?如果不行,為什么?如,一個(gè)SVM分類(lèi)器,一個(gè)決策樹(shù)分類(lèi)器,以及一個(gè)Logis果更優(yōu)。如果它們是在不同的訓(xùn)練實(shí)例(這是bagging和pasting集成的關(guān)鍵點(diǎn))上呢?boosting集成呢?隨機(jī)森林或stacking集成呢?整?A升高B降低2.RegionBoost與AdaBoost相比:(A)A確保在t+1代所有樣本權(quán)重之和為1B基礎(chǔ)分類(lèi)器可以任意弱(準(zhǔn)確率高于50%)8.在scikit-learn中,如何處理多類(lèi)分類(lèi)(Multi-classclDB.scikit-learn只能用oneC.scikit-learn只能用one-vs.-the-rest方法實(shí)現(xiàn)多類(lèi)分類(lèi)解析:最小可執(zhí)行demo,創(chuàng)業(yè)階段最重要方案可行。A.可以集成出訓(xùn)練誤差任意低的分類(lèi)器B.基礎(chǔ)分類(lèi)器可以任意弱C.通過(guò)對(duì)樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果D.被當(dāng)前基礎(chǔ)分類(lèi)器分錯(cuò)的樣本的權(quán)重將會(huì)減小解析:Adaboost屬于加法模型,通過(guò)對(duì)樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果A能夠降到的維數(shù)不同B計(jì)算效率不同C降維的目標(biāo)不同D我讀書(shū)少,看不出來(lái)A.擬合效果更好B.并行能力更強(qiáng)C.對(duì)缺失值的處理效果更好D.小樣本處理能力更差13.Adaboost如何處理多分類(lèi)問(wèn)題(A)B.使用多棵樹(shù)進(jìn)行多分類(lèi)分析C.使用softmax進(jìn)行多分類(lèi)分析D.以上都不對(duì)14.關(guān)于Adaboost多分類(lèi)描述正確的是(D)D.上述都對(duì)15.關(guān)于Adaboost優(yōu)點(diǎn)描述正確的是(B)A.容易受到噪聲干擾B.不用做特征篩選C.訓(xùn)練時(shí)間長(zhǎng)D.執(zhí)行效果依賴(lài)于弱學(xué)習(xí)器的選擇A.Boosting:降低方差。B.Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣本的權(quán)重發(fā)生變化,權(quán)值根B.max_samples_leafD.min_weight_fraction_leafA.AdaBoost于1997年提出。六、對(duì)錯(cuò)題(25題)是獨(dú)立的。(T)21.Bagging:每個(gè)樣本七、填空題(5題)八、問(wèn)答題(5題)對(duì)g(a)求導(dǎo)得:,得到:其中,在計(jì)算過(guò)程中用到的em為:由于Wmi=exp(-y?fm-1(x?)),所以得到新的損失為:最終的wmi通過(guò)規(guī)范化得到:第10章聚類(lèi)九、選擇題(30題)A.1個(gè)B.2個(gè)C.3B.可使用性(用戶(hù)友好性):可以很方便地使用。D.以上全是3.算法的重要特性:(D)B.確定性:每一條指令無(wú)二義性。D.上述全是4.T(n)表示當(dāng)輸入規(guī)模為n時(shí)的算法效率,以下算法效率最優(yōu)的是(C)。A.T(n)=T(n-1)+1,T(1)=1C.T(n)=T(n/2)+1,T(1)=1D.T(n)=3nlog2n5.某超市研究銷(xiāo)售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買(mǎi)啤酒的人很大概率也會(huì)購(gòu)買(mǎi)尿布,這種屬于數(shù)據(jù)挖掘的哪類(lèi)問(wèn)題?(A)A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類(lèi)C.分類(lèi)6.以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類(lèi)算法的評(píng)價(jià)標(biāo)準(zhǔn)?(A)A.Precision,Recall準(zhǔn)確率和召回率7.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?A.頻繁模式挖掘B.分類(lèi)和預(yù)測(cè)C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘8.當(dāng)知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類(lèi)標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(A)A.分類(lèi)B.聚類(lèi)C.關(guān)聯(lián)分析C.預(yù)測(cè)建模務(wù)?(B)B.建模描述C.預(yù)測(cè)建模15.假設(shè)12個(gè)銷(xiāo)售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第16.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里?(A)B序數(shù)C區(qū)間C映射數(shù)據(jù)到新的空間D特征構(gòu)造解析:特征修改無(wú)法創(chuàng)建新的屬性23.考慮值集{1、2、3、4、5、90},其截?cái)嗑?p=20%)是(C)?解析:(2+3+4+5)/4=3.524.下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法?(A)A傅立葉變換B特征加權(quán)C漸進(jìn)抽樣D維歸約解析:傅立葉變換將時(shí)間域映射到頻率域25.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:A.電信29.屬于原型聚類(lèi)算法的是()30Kmeans中確定K值的方法包括哪些:()C.手肘法(Elbow)十、對(duì)錯(cuò)題(25題)樣本的聚類(lèi)。(T)21.AGNES算法(AGglomerativeNESting)采用自上而下的策略。(F)22.DIANA算法(DIvisiveANALysis)采用自下而上的策十一、填空題(7題)Learning)方法。十二、問(wèn)答題(6題)第11章降維技術(shù)與關(guān)聯(lián)規(guī)則挖掘十三、選擇題(30題)A.分類(lèi)B.聚類(lèi)C.關(guān)聯(lián)規(guī)則D.主成分分析題?(B)A.項(xiàng)頭表B.條件概率C.聯(lián)合概率D.簇9.關(guān)于欠擬合(under-fitting)C.訓(xùn)練誤差較大,測(cè)試誤差較大D.訓(xùn)練誤差不變,測(cè)試誤差較大A.刪除缺少值太多的列B.刪除數(shù)據(jù)差異較大的列C.刪除不同數(shù)據(jù)趨勢(shì)的列D.都不是B.分類(lèi)準(zhǔn)則C.特征選取D.模式相似性測(cè)度12.影響基本K-均值算法的主要因素有(B)A.樣本輸入順序B.模式相似性測(cè)度C.聚類(lèi)準(zhǔn)則D.樣本的數(shù)量B.求出X的協(xié)方差矩陣C;A.生成頻繁項(xiàng)集和生成規(guī)則B.找出強(qiáng)關(guān)聯(lián)規(guī)則C.找到所有滿(mǎn)足強(qiáng)關(guān)聯(lián)規(guī)則的項(xiàng)集26.以下關(guān)于頻繁項(xiàng)表述不正確的是(A)?A.頻繁項(xiàng)的子集是非頻繁的。B.頻繁項(xiàng)的子集是頻繁的。C.非頻繁項(xiàng)的超集是非頻繁的。D.非頻繁項(xiàng)的支持度一定小于最小支持度。27.以下屬于Apriori算法優(yōu)點(diǎn)的的是(A)?A.使用先驗(yàn)原理,大大提高了頻繁項(xiàng)集逐層產(chǎn)生的效率B.每一步產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過(guò)多,沒(méi)有排除不應(yīng)該參與組合的元素C.只需要讀取兩次數(shù)據(jù)庫(kù)D.每次計(jì)算項(xiàng)集的支持度時(shí),都對(duì)數(shù)據(jù)庫(kù)D中的全部記錄進(jìn)行了一遍掃描比較,如果是一個(gè)大型的數(shù)據(jù)庫(kù)的話(huà),這種掃描比較會(huì)大大增加計(jì)算機(jī)系統(tǒng)的I/0開(kāi)銷(xiāo)。28.以下不屬于Apriori算法超參數(shù)的是(D)?D.頻繁項(xiàng)十四、對(duì)錯(cuò)題(26題)構(gòu)強(qiáng)加于商務(wù)之上,一旦系統(tǒng)設(shè)計(jì)完畢,其程序和規(guī)則不會(huì)輕易改變;而前者則是的大(T)22.支持度:(→)=|交|/,表示物品集X和Y同十五、填空題(5題)2.置信度計(jì)算規(guī)則為:同時(shí)購(gòu)買(mǎi)商品A和商品B的交易次數(shù)÷購(gòu)買(mǎi)了商品A的次5.決策樹(shù)包含三種結(jié)點(diǎn):根結(jié)點(diǎn)(矩形表示)、內(nèi)部結(jié)點(diǎn)(矩形表示)、葉結(jié)點(diǎn)/終結(jié)點(diǎn)(橢圓表示)。十六、問(wèn)答題(6題)答:(1)主成分分析(PCA)(2)因子分析(FA)(3)獨(dú)立成分分析(ICA)想要把它降到500維。降維的過(guò)程就是找個(gè)一個(gè)從1000是9,那么特征選擇選到這個(gè)特征后它的值還是9,并沒(méi)有改變。第12章神經(jīng)網(wǎng)絡(luò)十七、選擇題(30題)D.AlloftheaboveD:以上所有A)ItcanhelpindimensionalityreductD)Al1oftheaboveD)B和CB)WeightbetweenhiddenC

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論