機器學(xué)習(xí)Python實戰(zhàn)微課版夏林中課后參考答案_第1頁
機器學(xué)習(xí)Python實戰(zhàn)微課版夏林中課后參考答案_第2頁
機器學(xué)習(xí)Python實戰(zhàn)微課版夏林中課后參考答案_第3頁
機器學(xué)習(xí)Python實戰(zhàn)微課版夏林中課后參考答案_第4頁
機器學(xué)習(xí)Python實戰(zhàn)微課版夏林中課后參考答案_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一章機器學(xué)習(xí)入門基礎(chǔ)一、選擇題1.人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系是怎樣的?A.人工智能包括機器學(xué)習(xí)與深度學(xué)習(xí)兩部分,機器學(xué)習(xí)與深度學(xué)習(xí)是并列關(guān)系。B.深度學(xué)習(xí)包括人工智能與機器學(xué)習(xí)兩部分,人工智能與機器學(xué)習(xí)是并列關(guān)系。C.人工智能包含機器學(xué)習(xí),機器學(xué)習(xí)包含深度學(xué)習(xí),三者屬于包含關(guān)系。D.深度學(xué)習(xí)包含人工智能,人工智能包含機器學(xué)習(xí),三者屬于包含關(guān)系。2.從研究領(lǐng)域角度分,機器學(xué)習(xí)可分為哪幾大類?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.增強學(xué)習(xí)3.特征選擇的必要性主要在于以下幾點?A.減少訓(xùn)練的時間,能使用較少的特征更快地生成模型。B.簡化模型,使模型更容易被使用者所解釋。C.可以選擇一些多余的特征。D.使模型的泛化能力更好,避免過擬合。4.下面哪個不是特征選擇的主要方法:A.過濾法(filter)B.包裹法(wapper)C.嵌入法(Embedded)D.幻想法(imagination)5.機器學(xué)習(xí)的應(yīng)用領(lǐng)域有以下哪些:A.智能汽車B.詐騙檢測C.金融交易D.個性化營銷推廣6.以下說法錯誤的是哪一項:A.Anaconda是一個基于Python的數(shù)據(jù)處理和科學(xué)計算平臺,它已經(jīng)內(nèi)置了許多非常有用的第三方庫B.PyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具C.JupyterNotebook的本質(zhì)是一個Web應(yīng)用程序,便于創(chuàng)建和共享文學(xué)化程序文檔,支持實時代碼,數(shù)學(xué)方程,可視化和markdown。D.Spyder是一個Python爬蟲框架。7.下列選項中機器學(xué)習(xí)主要涉及三大要素不包含哪個?A.數(shù)據(jù)B.設(shè)備C.算法D.模型8.在實際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)8.在實際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)9.根據(jù)表格,請選擇說法正確的選項?表1-2臟數(shù)據(jù)舉例序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍(lán)色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六A.李四的體重是空值,屬于數(shù)據(jù)不完整的情況。B.王五的身高是250cm,屬于異常情況。C.趙六喜歡的顏色是趙六,屬于矛盾情況。D.以上三種答案均正確10.以下哪個命令可以查看Python的版本號?A.python-VB.py-vC.py-VD.py--version11.從研究領(lǐng)域角度分,機器學(xué)習(xí)的類型不包含以下哪種()。A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.強化學(xué)習(xí)D.強調(diào)學(xué)習(xí)12.常用的Python編程環(huán)境有哪些?A.JupyternotebookB.PyCharmC.SpyderD.ScalaIDE二、判斷題1.機器學(xué)習(xí)簡單來說就是讓機器進(jìn)行學(xué)習(xí),學(xué)習(xí)的目的是實現(xiàn)對世界上的人事物進(jìn)行預(yù)測或者判斷。?2.在機器學(xué)習(xí)實際的應(yīng)用場景中,絕對不允許出現(xiàn)錯誤。?3.機器學(xué)習(xí)的一般實施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評估測試、模型部署應(yīng)用等步驟。?4.數(shù)據(jù)對于模型來說就是至關(guān)重要的,是模型能力的天花板,沒有好的數(shù)據(jù),就沒有好的模型。?5.通過在測試集上完成評估的模型,就可以用來預(yù)測新數(shù)據(jù)的值。這時,需要將該模型部署到實際的生產(chǎn)場景中,部署好后為了確保模型的準(zhǔn)確性,則不再需要對模型進(jìn)行調(diào)整。?6.業(yè)界普遍認(rèn)為機器學(xué)習(xí)是專門研究計算機怎樣模擬人類的學(xué)習(xí)行為,進(jìn)行新知識和新技能的獲取,并不斷通過重組知識結(jié)構(gòu)來改善自身性能的一種技術(shù)。?7.增強學(xué)習(xí),在一些書籍里也稱為強化學(xué)習(xí)。?8.在機器學(xué)習(xí)實施流程的特征提取與選擇步驟,我們不會把“藍(lán)色”、“紅色”、“黑色”直接輸入給模型。?9.對于一些簡單統(tǒng)計的應(yīng)用場景,為了體現(xiàn)統(tǒng)計領(lǐng)域的專業(yè)性,也需要使用上機器學(xué)習(xí)。?10.機器學(xué)習(xí)本質(zhì)上是一個提高效率的工具。?三、填空題1.請給下方圖中序號處填入相應(yīng)的內(nèi)容:訓(xùn)練、預(yù)測。2.典型的數(shù)據(jù)集類似于一個二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個數(shù)據(jù)樣本,每一列的屬性稱為特征。3.數(shù)據(jù)經(jīng)過預(yù)處理之后,就可以用來訓(xùn)練模型,一般會把數(shù)據(jù)集分為訓(xùn)練集和測試集。4.從研究領(lǐng)域角度分,機器學(xué)習(xí)可分監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),增強學(xué)習(xí)四大類。5.在實際應(yīng)用場景中,使用最多的還是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。四、問答題1.請簡述一下對監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)的基本概念。答案:監(jiān)督學(xué)習(xí)是通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進(jìn)行預(yù)測。無監(jiān)督學(xué)習(xí)也可稱為非監(jiān)督學(xué)習(xí),通過學(xué)習(xí)沒有標(biāo)記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關(guān)系,從而實現(xiàn)預(yù)測。半監(jiān)督學(xué)習(xí),它是一種在預(yù)測時,既使用已標(biāo)記的樣本數(shù)據(jù),也使用未標(biāo)記的樣本數(shù)據(jù)的方法,通常情況下,無標(biāo)記樣本的數(shù)量遠(yuǎn)超過有標(biāo)記樣本,因為有時候獲得有標(biāo)記數(shù)據(jù)的成本很高,所以在訓(xùn)練分類器模型時,先使用部分已經(jīng)標(biāo)記的數(shù)據(jù),在學(xué)習(xí)了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標(biāo)記的數(shù)據(jù)進(jìn)一步學(xué)得更好的模型,從而實現(xiàn)對數(shù)據(jù)的有效預(yù)測。所謂增強學(xué)習(xí),是通過與環(huán)境的交互,以推測和優(yōu)化實際的動作,從而實現(xiàn)決策。2.如果在模型診斷中發(fā)現(xiàn)了過擬合和欠擬合問題,請簡述解決思路。答案:過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個樣本,但在測試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復(fù)雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度來優(yōu)化。3.請描述機器學(xué)習(xí)的實施流程答案:數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評估測試、模型部署應(yīng)用4.請簡述人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系。答案:機器學(xué)習(xí)為實現(xiàn)人工智能提供了方法,而深度學(xué)習(xí)則為實現(xiàn)機器學(xué)習(xí)提供了技術(shù)??偟膩砜矗鋵崣C器學(xué)習(xí)和深度學(xué)習(xí)都屬于AI的范疇,機器學(xué)習(xí)是AI的一個分支技術(shù),而深度學(xué)習(xí)又是機器學(xué)習(xí)里的特定分支技術(shù),三者是包含關(guān)系,而非并列。5、請簡述算法、數(shù)據(jù)、模型的概念及關(guān)系。答案:數(shù)據(jù):輸入給計算機的數(shù)據(jù)。算法:用系統(tǒng)的方法描述解決問題的策略機制。模型:指由輸入到輸出的映射關(guān)系。三者之間的關(guān)系可以理解為:提供數(shù)據(jù)給算法,然后算法通過運算產(chǎn)生模型。第2-7章一、選擇題關(guān)于支持向量機SVM,下列說法錯誤的是()A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力B.Hinge損失函數(shù),作用是最小化經(jīng)驗分類錯誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當(dāng)參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學(xué)習(xí)假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:(BD)A.這個被重復(fù)的特征在模型中的決定作用會被加強B.模型效果相比無重復(fù)特征的情況下精確度會降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。以下哪些方法不可以直接來對文本分類?(A)A、KmeansB、決策樹C、支持向量機D、KNN關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。下列不是SVM核函數(shù)的是()A.多項式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)模型的高bias是什么意思,我們?nèi)绾谓档退??機器學(xué)習(xí)ML基礎(chǔ)易A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點D.B和C假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是:A.模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測準(zhǔn)確率不高,我們需要做點什么改進(jìn)模型C.無法下結(jié)論D.以上都不對我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以:A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量對于線性回歸,我們應(yīng)該有以下哪些假設(shè)?1.找到離群點很重要,因為線性回歸對利群點很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設(shè)數(shù)據(jù)沒有多重線性相關(guān)性A.1和2B.2和3C.1,2和3D.以上都不是關(guān)于正態(tài)分布,下列說法錯誤的是:A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1目標(biāo)變量在訓(xùn)練集上的8個實際值[0,0,0,1,1,1,1,1],目標(biāo)變量的熵是多少?A.-(5/8log(5/8)+3/8log(3/8))B.5/8log(5/8)+3/8log(3/8)C.3/8log(5/8)+5/8log(3/8)D.5/8log(3/8)–3/8log(5/8)決策樹的父節(jié)點和子節(jié)點的熵的大小關(guān)系是什么?A.決策樹的父節(jié)點更大B.子節(jié)點的熵更大C.兩者相等D.根據(jù)具體情況而定下列關(guān)于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的一般來說,下列哪種方法常用來預(yù)測連續(xù)獨立變量?A.線性回歸B.邏輯回顧C.線性回歸和邏輯回歸都行D.以上說法都不對個人健康和年齡的相關(guān)系數(shù)是-1.09。根據(jù)這個你可以告訴醫(yī)生哪個結(jié)論?A.年齡是健康程度很好的預(yù)測器B.年齡是健康程度很糟的預(yù)測器C.以上說法都不對D:兩者沒關(guān)系假如我們利用Y是X的3階多項式產(chǎn)生一些數(shù)據(jù)(3階多項式能很好地擬合數(shù)據(jù))。那么,下列說法正確的是(多選)?A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項式擬合會造成低偏差(bias)、高方差(variance)D.3階多項式擬合具備低偏差(bias)、低方差(variance)假如你在訓(xùn)練一個線性回歸模型,有下面兩句話:1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2.如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確D.1和2都正確假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X2,…,X100)。現(xiàn)在,我們把其中一個特征值擴(kuò)大10倍(例如是特征X1),然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么,下列說法正確的是?A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對假如使用邏輯回歸對樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測試樣本的準(zhǔn)確率。現(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是?A.訓(xùn)練樣本準(zhǔn)確率一定會降低B.訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C.測試樣本準(zhǔn)確率一定會降低D.測試樣本準(zhǔn)確率一定增加或保持不變這題對應(yīng)的知識點也包括了增加模型復(fù)雜度,雖然會減小訓(xùn)練樣本誤差,但是容易發(fā)生過擬合。下面這張圖是一個簡單的線性回歸模型,圖中標(biāo)注了每個樣本點預(yù)測值與真實值的殘差。計算SSE為多少?A.3.02B.0.75C.1.01D.0.604關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關(guān)在x和y之間是非對稱的邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)關(guān)于兩個邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權(quán)重系數(shù)。A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點圖邏輯回歸與多元回歸分析有哪些不同之處?A.邏輯回歸用來預(yù)測事件發(fā)生的概率B.邏輯回歸用來計算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進(jìn)行估計D.以上都是如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))D.以上都不是我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5,則預(yù)測為正類;若輸出概率小于0.5,則預(yù)測為負(fù)類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預(yù)測為正類。則準(zhǔn)確率(Precision)和召回率(Recall)會發(fā)生什么變化(多選)?A.準(zhǔn)確率(Precision)增加或者不變B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大點擊率預(yù)測是一個正負(fù)樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。假如在這個非平衡的數(shù)據(jù)集上建立一個模型,得到訓(xùn)練樣本的正確率是99%,則下列說法正確的是?A.模型正確率很高,不需要優(yōu)化模型了B.模型正確率并不高,應(yīng)該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量我們想要訓(xùn)練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓(xùn)練模型?A.對訓(xùn)練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機器學(xué)習(xí)算法C.使用PCA算法減少特征維度D.以上都對機器學(xué)習(xí)中做特征選擇時,可能用到的方法有?a.卡方b.信息增益c.平均互信息d.期待交叉熵如何在監(jiān)督式學(xué)習(xí)中使用聚類算法(多選)?A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征下面哪句話是正確的?A.機器學(xué)習(xí)模型的精準(zhǔn)度越高,則模型的性能越好B.增加模型的復(fù)雜度,總能減小測試樣本誤差C.增加模型的復(fù)雜度,總能減小訓(xùn)練樣本誤差D.以上說法都不對如果使用線性回歸模型,下列說法正確的是?A.檢查異常值是很重要的,因為線性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對建立線性模型時,我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時,如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?A.Var1和Var2具有很高的相關(guān)性B.Var1和Var2存在多重共線性,模型可以去掉其中一個特征C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的D.以上都對下列哪種方法可以用來減小過擬合?(多選)A.更多的訓(xùn)練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復(fù)雜度向量X=[1,2,3,4,-9,0]的L1范數(shù)為?A.1B.19C.6D.√111關(guān)于L1、L2正則化下列說法正確的是?A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B.L2正則化技術(shù)又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏有N個樣本,一般用于訓(xùn)練,一般用于測試。若增大N值,則訓(xùn)練誤差和測試誤差之間的差距會如何變化?A.增大B.減小C.不變D.以上均不對在回歸模型中,下列哪一項在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?A.多項式階數(shù)B.更新權(quán)重w時,使用的是矩陣求逆還是梯度下降C.使用常數(shù)項D.學(xué)習(xí)率下列哪一項能反映出X和Y之間的強相關(guān)性?A.相關(guān)系數(shù)為0.9B.對于無效假設(shè)β=0的p值為0.0001C.對于無效假設(shè)β=0的t值為30D.以上說法都不對機器學(xué)習(xí)中做特征選擇時,可能用到的方法有?(ABCD)A.卡方B.信息增益C.平均互信息D.期望交叉熵以下說法中正確的是(C)A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯樣本的權(quán)重更新比例相同C.boosting和bagging都是組合多個分類器投票的方法,二者都是根據(jù)單個分類器的正確率確定其權(quán)重D.給定n個數(shù)據(jù)點,如果其中一半用于訓(xùn)練,一半用戶測試,則訓(xùn)練誤差和測試誤差之間的差別會隨著n的增加而減少以下描述錯誤的是(C)A.SVM是這樣一個分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結(jié)點輸變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類若在二維空間中線性不可分,SVM算法會通過()方法解決。核函數(shù)激活函數(shù)剪枝特征選擇線性回歸能完成的任務(wù)是(B)預(yù)測離散值預(yù)測連續(xù)值分類聚類產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明(D)A。產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元直線方程y=wx+b,其中b表示(B)A.系數(shù)B截距C.斜率D權(quán)重以下描述中,對梯度解釋正確的是(AB)A梯度是一個向量,有方向有大小B求梯度就是對梯度向量的各個元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小關(guān)于誤差ε的說法正確的是(AB)A誤差可以看做隨機比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設(shè)計優(yōu)良,誤差可以避免標(biāo)準(zhǔn)差與方差的關(guān)系是(ABC)A標(biāo)準(zhǔn)差是方差的算術(shù)平方根B標(biāo)準(zhǔn)差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標(biāo)準(zhǔn)差的平方是方差SVM中的核技巧(Kernaltrick)的作用包括以下哪項?A.特征升維B.特征降維C.防止過擬合答案:C在數(shù)據(jù)預(yù)處理階段,我們常常對數(shù)值特征進(jìn)行歸一化或標(biāo)準(zhǔn)化(standardization,normalization)處理。這種處理方式理論上不會對下列哪個模型產(chǎn)生很大影響?A.k-MeansB.k-NNC.決策樹答案:C選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有假設(shè)對給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測試精度Y。現(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯誤的選項。注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測試精度提高或保持不變假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評分。在下面說法中哪一項是正確的?A特征F1是名義變量(nominalvariable)的一個實例。B特征F1是有序變量(ordinalvariable)的一個實例。C該特征并不屬于以上的分類。D以上說法都正確。下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。3在GD中,每一次迭代需要使用整個訓(xùn)練集的數(shù)據(jù)更新一個參數(shù)。A只有1B只有2C只有3D都正確假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布?,F(xiàn)在你想將onehotencoding(OHE)應(yīng)用到類屬特征中。那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么?A分類變量所有的類別沒有全部出現(xiàn)在測試集中B類別的頻率分布在訓(xùn)練集和測試集是不同的C訓(xùn)練集和測試集通常會有一樣的分布DA和B都正確假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為99%的準(zhǔn)確度。那么下面哪一項表述是正確的?1準(zhǔn)確度并不適合于衡量不平衡類別問題2準(zhǔn)確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題3精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and4假設(shè)我們有一個數(shù)據(jù)集,在一個深度為6的決策樹的幫助下,它可以使用100%的精確度被訓(xùn)練。現(xiàn)在考慮一下兩點,并基于這兩點選擇正確的選項。注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差A(yù)只有1B只有2C1和2D沒有一個假設(shè)你正在做一個項目,它是一個二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個模型,并在驗證數(shù)據(jù)集上得到混淆矩陣?;谏鲜龌煜仃?,下面哪個選項會給你正確的預(yù)測。1精確度是~0.912錯誤分類率是~0.913假正率(Falsecorrectclassification)是~0.954真正率(Truepositiverate)是~0.95A1和3B2和4C1和4D2和3對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?1用于拆分的樣本量2樹深3樹葉樣本A1和2B2和3C1和3D1、2和3E無法分辨假如我們使用非線性可分的SVM目標(biāo)函數(shù)作為最優(yōu)化對象,我們怎么保證模型線性可分?A設(shè)C=1B設(shè)C=0C設(shè)C=無窮大D以上都不對NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標(biāo)簽是C,它的一個假定是:()A.各類別的先驗概率P(C)是相等的B.以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C.特征變量X的各個維度是類別條件獨立隨機變量D.P(X|C)是高斯分布假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:A.這個被重復(fù)的特征在模型中的決定作用會被加強B.模型效果相比無重復(fù)特征的情況下精確度會降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用()A.最小最大損失準(zhǔn)則B.最小誤判概率準(zhǔn)則C.最小損失準(zhǔn)則D.N-P判決甲盒中有200個螺桿,其中有160個A型螺桿;乙盒中有240個螺母,其中有180個A型的。現(xiàn)從甲乙兩盒中各任取一個,則能配成A型螺栓的概率為多少?A.1/20B.15/16C.3/5D.19/20一個部門1/2為系統(tǒng)工程師,2/5為軟件工程師,1/4兩者都是,那么兩者都不是的比例?A.0.23B.0.35C.0.4D.0.32有朋自遠(yuǎn)方來,他乘火車,輪船,汽車,飛機來的概率分別是0.3,0.2,0.1,0.4,從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語句中正確的?A.如果他遲到,乘火車來的概率是0.5。B.如果他準(zhǔn)點,坐輪船或汽車的概率等于坐火車的概率。C.如果他準(zhǔn)點,那么乘飛機的概率大于等于0.5。D.坐陸路(火車、汽車)交通工具準(zhǔn)點機會比坐水路(輪船)要低。對于信息增益,決策樹分裂節(jié)點,下面說法正確的是()1純度高的節(jié)點需要更多的信息去區(qū)分2信息增益可以用”1比特-熵”獲得3如果選擇一個屬性具有許多歸類值,那么這個信息增益是有偏差的A1B2C2和3D所有以上梯度下降可以從以下哪些地方調(diào)優(yōu)?學(xué)習(xí)率參數(shù)初始值歸一化激活函數(shù)答案:ABC以下()不屬于線性分類器最佳準(zhǔn)則?A感知準(zhǔn)則函數(shù)B貝葉斯分類C支持向量機DFisher準(zhǔn)則有兩個樣本點,第一個點為正樣本,它的特征向量是(0,-1);第二個點為負(fù)樣本,它的特征向量是(2,3),從這兩個樣本點組成的訓(xùn)練集構(gòu)建一個線性SVM分類器的分類面方程是()A2x+y=4Bx+2y=5Cx+2y=3D2x-y=0判斷題:1.“過擬合”只在監(jiān)督學(xué)習(xí)中出現(xiàn),在非監(jiān)督學(xué)習(xí)中,沒有“過擬合”,這是()?2.如果兩個變量相關(guān),那么它們一定是線性關(guān)系嗎??3.兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0。?4.在訓(xùn)練完SVM之后,我們可以只保留支持向量,而舍去所有非支持向量。仍然不會影響模型分類能力。?5.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。?6.如果一個經(jīng)過訓(xùn)練的機器學(xué)習(xí)模型在測試集上達(dá)到100%的準(zhǔn)確率,這是否意味著該模型將在另外一個新的測試集上也能得到100%的準(zhǔn)確率。?7.回歸問題與分類問題都有可能發(fā)生過擬合。?8.一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可以用來解決0/1分類問題。?9.決策樹只用來分類。?10.回歸及分類常用的評估指標(biāo)都是準(zhǔn)確率和召回率。?11.輸出變量為連續(xù)變量的預(yù)測問題是分類問題。?12.P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。?13.樸素貝葉斯(分類器)是一種生成模型,它會基于訓(xùn)練樣本對每個可能的類別建模。?14.最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。?15.決策樹的剪枝是為了簡化決策樹模型,避免過擬合。?16.常見的決策樹算法是ID3,C4.5,CART樹。?17.決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。?18.預(yù)剪枝是在決策樹生成過程中,對樹進(jìn)行剪枝,提前結(jié)束樹的分支生長。?19.分類任務(wù)是預(yù)測連續(xù)值。?20.回歸任務(wù)是預(yù)測連續(xù)值。?21.Σ是求和符號。(T)22.Π是求積符號。?23.用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。?24.邏輯回歸的目的就是提高二分類的效率。?25.SGD計算根據(jù)全部樣本構(gòu)造出來的代價函數(shù)的梯度。?26.BGD計算根據(jù)全部樣本的構(gòu)造出來的代價函數(shù)的梯度。?27.SVM不涉及核函數(shù)。?28.SVM自帶正則項。?29.SVM無法做多分類。?30.決策樹容易發(fā)生過擬合。?31.決策樹容易發(fā)生欠擬合。?32.邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。?33.交叉熵?fù)p失函數(shù)的好處是可以克服方差代價函數(shù)更新權(quán)重過慢的問題。?34.FP——將負(fù)類預(yù)測為正類數(shù)。?35.F1值定義為:F1=2PR/(P+R)。?36.P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗概率。?37.P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗概率。?38.logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發(fā)生的概率。?39.SVM通過尋找使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實現(xiàn)結(jié)構(gòu)風(fēng)險最小化。?40.隨機事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小,其信息量就越小。?41.矩陣的L0范數(shù):矩陣的非0元素的個數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。?42.隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量。?43.聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。?44.協(xié)方差是衡量兩個變量線性相關(guān)性強度及變量尺度。?45.標(biāo)量是0階張量。?46.樸素貝葉斯適合高維數(shù)據(jù)。?47.決策樹短時間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。?48.SVM對缺失數(shù)據(jù)敏感。?49.邏輯回歸計算速度快。?50.決策樹只能處理數(shù)據(jù)型屬性。?51.SVM適合高維數(shù)據(jù)。?52.邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最常用的就是二分類的邏輯回歸。?53.正確肯定(TruePositive,TP):預(yù)測為真,實際為真。?54.錯誤否定(FalseNegative,FN):預(yù)測為假,實際為真。?55.最大似然估計的目的就是:利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。?56.SVM是一個凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點。?57.SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果。?58.支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。?59.決策樹算法可以用于小數(shù)據(jù)集。?60.錯誤率(ErrorRate)是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。?填空題:熵指的是體系的混亂的程度。信息越有序,信息熵越低。訓(xùn)練過程中用到的數(shù)據(jù)叫訓(xùn)練集。訓(xùn)練用到的每個樣本叫訓(xùn)練樣本。分類是預(yù)測離散值,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)叫欠擬合。模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫過擬合。提取出的正確信息條數(shù)/提取出的信息條數(shù)是正確率。評判分類效果好壞的三個指標(biāo)就是上面介紹的三個指標(biāo):正確率,召回率,F(xiàn)值。回歸問題對數(shù)值型連續(xù)隨機變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?;貧w往往會通過計算誤差(Error)來確定模型的精確性。從已有的M個特征(Feature)中選擇N個特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫特征選擇。損失函數(shù)也叫代價函數(shù)或目標(biāo)函數(shù)求函數(shù)機制的方法有兩大類,分別是解析解(閉式解)和數(shù)值解。已知坐標(biāo)軸中兩點A(2,?2)B(?1,2),這兩點的曼哈頓距離(L1距離)是7。解析:答案:7。向量AB(-3,4),L1是向量中非零元素的絕對值和。機器學(xué)習(xí)中做特征選擇時,可能用到的卡方、信息增益、平均互信息、期望交叉熵。ID3算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。C4.5算法在決策樹生成的過程中,用信息增益比來選擇特征?;嶂笖?shù)(基尼不純度)表示在樣本集合中一個隨機選中的樣本被分錯的概率。Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度越高?;嶂笖?shù)(基尼不純度)=樣本被選中的概率*樣本被分錯的概率。p(x|θ)是給定參數(shù)θ的概率分布:似然函數(shù)。歐式距離的特征是:平移不變性、旋轉(zhuǎn)不變性。馬式距離的特征則是:平移不變性、旋轉(zhuǎn)不變性、尺度不變性。一個標(biāo)量表示一個單獨的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個數(shù)的數(shù)組)。一個向量表示一組有序排列的數(shù)。通過次序中的索引,我們可以確定每個單獨的數(shù)。矩陣是具有相同特征和緯度的對象的集合,表現(xiàn)為一張二維數(shù)據(jù)表。在某些情況下,我們會討論坐標(biāo)超過兩維的數(shù)組。一般地,一個數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中,我們將其稱之為張量。線性回歸如果是泊松分布,那就是泊松回歸。回歸常用評估方法:平均誤差,絕對值誤差,R2.經(jīng)驗誤差(empiricalerror)也叫訓(xùn)練誤差。問答題:1.L1和L2正則先驗分別服從什么分布?答:L1和L2正則先驗分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。2.為什么樸素貝葉斯如此“樸素”?答:因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨立的。正如我們所知,這個假設(shè)在現(xiàn)實世界中是很不真實的,因此,說樸素貝葉斯真的很“樸素”。3.簡單說下有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別?答:有監(jiān)督學(xué)習(xí):對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測。(LR,SVM,BP,RF,GBDT)無監(jiān)督學(xué)習(xí):對未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。(KMeans,DL)4.梯度下降法找到的一定是下降最快的方向么?答:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點的切平面(當(dāng)然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認(rèn)為是下降最快的方向,可以達(dá)到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復(fù)雜約束的問題)。5.什么是最小二乘法?答:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。6.簡單介紹下Logistics回歸。答:Logistic回歸目的是從特征學(xué)習(xí)出一個0/1分類模型,而這個模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負(fù)無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率。7.常見的分類算法有哪些?答:SVM、神經(jīng)網(wǎng)絡(luò)、隨機森林、邏輯回歸、KNN、貝葉斯8.常見的監(jiān)督學(xué)習(xí)算法有哪些?答:感知機、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸9.帶核的SVM為什么能分類非線性問題?答:核函數(shù)的本質(zhì)是兩個函數(shù)的內(nèi)積,而這個函數(shù)在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應(yīng)映射,核只不過是一個內(nèi)積。10.決策樹的剪枝方法有哪些?答:預(yù)剪枝:提前結(jié)束決策樹的增長:類目數(shù)量、方差性能提升后剪枝:決策樹生長完成之后再進(jìn)行剪枝11.SVM的超參有哪些?答:C和gamma,C正則系數(shù),gamma決定支持向量的數(shù)量。12.有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數(shù)據(jù)集D2和D1基本一樣,唯一的區(qū)別是D2中每個樣本的某個特征被重復(fù)了100次,請問在這兩個數(shù)據(jù)集上訓(xùn)練的樸素貝葉斯分類器是否一樣,請給出具體分析。解:分類器是不一樣的。因為樸素貝葉斯方法假設(shè)了特征間的獨立性,但D2中的100個特征彼此不獨立,因此不在適用,如果用了兩者的結(jié)果不等。在D2上訓(xùn)練,被重復(fù)的特征的概率會被乘100次,放大了它的影響。13.一元線性回歸有哪些基本假定?答:假設(shè)1、解釋變量X是確定性變量,Y是隨機變量;假設(shè)2、隨機誤差項ε具有零均值、同方差和不序列相關(guān)性:E(εi)=0i=1,2,…,n14.SVM、LR、決策樹的對比。模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓(xùn)練速度快,適合處理線性問題;決策樹容易過擬合,需要進(jìn)行剪枝。損失函數(shù):SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關(guān)心支持向量,且需要先做歸一化;LR對遠(yuǎn)點敏感。數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核。15.樸素貝葉斯的特點是?答:優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。16.樸素貝葉斯的應(yīng)用場景有哪些?答:文檔的自動分類。17.決策樹算法特點。答:優(yōu)點:計算復(fù)雜度不高,輸出結(jié)果易于理解,數(shù)據(jù)有缺失也能跑,可以處理不相關(guān)特征。缺點:容易過擬合。適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型。18.預(yù)剪枝核心思想是?答:其中的核心思想就是,在每一次實際對結(jié)點進(jìn)行進(jìn)一步劃分之前,先采用驗證集的數(shù)據(jù)來驗證劃分是否能提高劃分的準(zhǔn)確性。如果不能,就把結(jié)點標(biāo)記為葉結(jié)點并退出進(jìn)一步劃分;如果可以就繼續(xù)遞歸生成節(jié)點。19.兩種剪枝策略對比。答:后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支;后剪枝決策樹的欠擬合風(fēng)險很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹;后剪枝決策樹訓(xùn)練時間開銷比未剪枝決策樹和預(yù)剪枝決策樹都要大的多。20.SVM算法應(yīng)用場景有哪些?答:人臉識別(facerecognition)、文本分類(textcategorization)等模式識別(patternrecognition)問題當(dāng)中。21.什么是梯度?答:梯度就是把每一個維度的偏導(dǎo)數(shù)集合在一起做一個向量。對于多元函數(shù)的θ,每次減去梯度值就能讓多元損失函數(shù)朝著最佳解邁進(jìn)一步22.什么是下降?答:負(fù)梯度這個向量構(gòu)成的方向我們通常稱為下降方向梯度下降就是把每一個維度的偏導(dǎo)數(shù)集合在一個組合的一個向量按照負(fù)方向進(jìn)行估測計算,從而找出最優(yōu)的解。23.過擬合出現(xiàn)的原因?答:抽取的數(shù)量比較小,觀測到的特征少,在模型訓(xùn)練的過程中將訓(xùn)練集中的一些偶然現(xiàn)象做了規(guī)律。24.什么是損失函數(shù)?損失函數(shù)的用途是什么?答:損失函數(shù)用于評估ytrue和yhat之間差值的優(yōu)良程度。損失函數(shù)用于求最優(yōu)解,一般是利用求導(dǎo)求出損失函數(shù)導(dǎo)函數(shù),再利用數(shù)值解找到最小值,此時可以求出最優(yōu)解。25.定義一下prediction精準(zhǔn)率、recall召回率答:(準(zhǔn)確率是accuracy)召回率就是Q4中的真正率。精準(zhǔn)率指的是:正樣本被預(yù)測為正所占所有預(yù)測為正樣本數(shù)的比例。26.概率和似然有什么區(qū)別?答:概率和似然都是指可能性,但在統(tǒng)計學(xué)中,概率和似然有截然不同的用法。概率描述了已知參數(shù)時的隨機變量的輸出結(jié)果;似然則用來描述已知隨機變量輸出結(jié)果時,未知參數(shù)的可能取值。例如,對于“一枚正反對稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時十次都是正面向上的“概率”是多少;而對于“一枚硬幣上拋十次,我們則可以問,這枚硬幣正反面對稱的“似然”程度是多少。概率(密度)表達(dá)給定θ下樣本隨機向量X=x的可能性,而似然表達(dá)了給定樣本X=x下參數(shù)θ1(相對于另外的參數(shù)θ2)為真實值的可能性。我們總是對隨機變量的取值談概率,而在非貝葉斯統(tǒng)計的角度下,參數(shù)是一個實數(shù)而非隨機變量,所以我們一般不談一個參數(shù)的概率,而說似然。27.如何對決策樹進(jìn)行剪枝?答:剪枝是決策樹發(fā)生過擬合后,為了降低模型復(fù)雜度,提高模型準(zhǔn)確率的一種做法??梢苑譃樽陨隙潞妥韵露蟽煞N。常見的方法有:誤差降低剪枝(REP)和代價復(fù)雜度剪枝(CCP)。REP簡單的來說就是對樹的每一個結(jié)點進(jìn)行剪枝,如果剪掉某個結(jié)點不會降低模型準(zhǔn)確率,那么將其剪掉。這種啟發(fā)式的做法實際上就是為了最大化準(zhǔn)確率。28.什么時候你應(yīng)該使用分類而不是回歸?分類會產(chǎn)生離散的數(shù)值,使得數(shù)據(jù)嚴(yán)格的分為不同類。回歸會得到連續(xù)的值,使你更好的區(qū)分獨立點之間的區(qū)別。當(dāng)你需要知道你的數(shù)據(jù)明確的屬于那些類時你可以用分類。29.什么是核技巧,有什么用處?答:核技巧使用核函數(shù),確保在高維空間不需要明確計算點的坐標(biāo),而是計算數(shù)據(jù)的特征空間中的內(nèi)積。這使其具有一個很有用的屬性:更容易的計算高維空間中點的坐標(biāo)。許多算法都可以表示稱這樣的內(nèi)積形式,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運用算法進(jìn)行計算。30.解決維度災(zāi)難問題:答:主成分分析法PCA,線性判別法LDA、奇異值分解簡化數(shù)據(jù)、拉普拉斯特征映射、Lassio縮減系數(shù)法、小波分析法第8章隨機森林選擇題(30題)1.當(dāng)你使用Boosting提升算法時,你會考慮弱學(xué)習(xí)器,以下哪項是使用弱學(xué)習(xí)器的主要原因?(B)A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對2.梯度提升中,利用學(xué)習(xí)率來獲得最優(yōu)輸出是非常重要的,在選擇學(xué)習(xí)速率時,下列描述正確的是:(D)A.學(xué)習(xí)率越大越好B.學(xué)習(xí)率越小越好C.學(xué)習(xí)率應(yīng)該小一點但是不能太小D.學(xué)習(xí)率不能太大也不能太小,根據(jù)情況而定3.下列哪個算法不是集成學(xué)習(xí)算法的例子:(E)A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree4.你使用隨機森林生成了幾百顆樹(T1,T2,...,Tn),然后對這些樹的預(yù)測結(jié)果進(jìn)行綜合,下列說法正確的是:(D)1、每棵樹是通過所有數(shù)據(jù)的子集構(gòu)建而成的2、每棵樹學(xué)習(xí)的樣本數(shù)據(jù)都是通過隨機有放回采樣而得的3、每棵樹是通過數(shù)據(jù)集的子集和特征的子集構(gòu)建而成的4、每棵樹是通過所有的數(shù)據(jù)構(gòu)建而成的A.1和2B.2和4C.1、2和3D.2和35.下面關(guān)于隨機森林和GBDT的說法正確的是:(E)①這兩種方法都可以用來解決分類問題②隨機森林解決分類問題,GBDT解決回歸問題③隨機森林解決回歸問題,GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④解析:GBDT能用于分類和回歸6.關(guān)于隨機森林和GBDT,下列說法錯誤的是:(D)A.隨機森林中每個學(xué)習(xí)器是相互獨立的B.隨機森林利用了bagging的思想來構(gòu)建強學(xué)習(xí)器C.GBDT利用了Boosting的思想來構(gòu)建強學(xué)習(xí)器D.GBDT中每個學(xué)習(xí)器之間沒有任何聯(lián)系解析:GBDT屬于加法模型,后一個與前一個強依賴7.關(guān)于AdaBoost,下列說法中正確的是(多選):(AC)A.它是一種集成學(xué)習(xí)算法B.每個分類器的權(quán)重和被它正確分類的樣本的權(quán)重相同C.后一個基學(xué)習(xí)器要依賴于前一個基學(xué)習(xí)器的分類錯誤率和樣本的權(quán)重D.后一個基學(xué)習(xí)器每次只學(xué)習(xí)前一個基學(xué)習(xí)器被分錯的樣本解析:Adaboost屬于集成學(xué)習(xí),且屬于Boosting算法8.集成學(xué)習(xí)策略有哪些(D)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:上述都有。9.集成學(xué)習(xí)策略常用于分類的是:(A)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:投票法常用于分類10.集成學(xué)習(xí)策略常用于處理數(shù)值問題的是:(B)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:平均法常用于數(shù)值問題11.關(guān)于學(xué)習(xí)法表述正確的事(D)A.平均法和投票法是對弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對比較簡單,但是可能學(xué)習(xí)誤差較大,于是就有了學(xué)習(xí)法。B.學(xué)習(xí)法是一種更為強大的結(jié)合策略,即通過另一個學(xué)習(xí)器來進(jìn)行結(jié)合。C.Stacking是學(xué)習(xí)法的典型代表。Stacking先從初級數(shù)據(jù)集訓(xùn)練出初級學(xué)習(xí)器,然后“生成”一個新數(shù)據(jù)集用于訓(xùn)練次級學(xué)習(xí)器。在這個新數(shù)據(jù)集中,初級學(xué)習(xí)器的輸出被當(dāng)作樣例輸入特征。D.上述都對解析:上述都對12.以下關(guān)于Bagging算法的特點描述正確的是(D)A.Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差B.bagging對樣本進(jìn)行有放回的重采樣,學(xué)習(xí)結(jié)果是各個學(xué)習(xí)模型的平均值C.由于重采樣的樣本集具有相似性以及使用相同的學(xué)習(xí)器模型,因此,各學(xué)習(xí)模型的結(jié)果相近,即模型有近似相等的偏差和方差。D.以上描述都對解析:上述描述都正確13.以下關(guān)于Bagging特點的結(jié)束不正確的是(A)A.Bagging是一個很低效的集成學(xué)習(xí)算法B.Bagging復(fù)雜度與基學(xué)習(xí)器同階C.由于每一個樣本被選中的概率相同,因此bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實例。D.對于噪聲數(shù)據(jù),bagging不太受過分?jǐn)M合的影響。解析:Bagging是一個很高效的集成學(xué)習(xí)算法14.下面哪個選項中哪一項屬于確定性算法?(B)A.隨機森林B.PCAC.KmeansD.GBDT解析:PCA屬于確定的,沒有隨機過程15.下列屬于無監(jiān)督學(xué)習(xí)的是(A)A、k-meansB、SVMC、最大熵D、CRF解析:其他的都是有監(jiān)督的16.在其他條件不變的前提下,以下哪種做法容易引起機器學(xué)習(xí)中的過擬合問題?(B)A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核解析:模型過于簡單容易過擬合17.關(guān)于隨機森林核心思想描述正確的是:(D)A.自助采樣法:同baggingB.傳統(tǒng)決策樹在選擇劃分屬性時是在當(dāng)前結(jié)點的屬性集合(假定有d個屬性)中選擇一個最優(yōu)屬性。C.在隨機森林中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。D.上述都對解析:上述表述都正確18.隨機森林算法流程表述正確的是(E)A.從原始樣本集M個樣本中使用bootstrap(有放回的隨機抽樣)采樣法選出m個樣本;B.從所有n個屬性中隨機選擇k個屬性,一般令k的值為〖??????〗_2??;C.選擇最佳分割屬性(ID3,C4.5,CART)作為節(jié)點創(chuàng)建決策樹;D.重復(fù)以上步驟S次,建立S顆決策樹,即形成隨機森林;E.上述都對解析:上述都對19.關(guān)于隨機森林影響因素表述正確的是(A)A.森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯誤率越大;B.森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯誤率越??;C.每棵樹的分類能力越強,整個森林的錯誤率越高。D.上述都錯解析:森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯誤率越大,每棵樹的分類能力越強,整個森林的錯誤率越低20.關(guān)于隨機森林優(yōu)點表述正確的是(B)A.簡單、容易實現(xiàn)、計算開銷大、準(zhǔn)確率低;B.簡單、容易實現(xiàn)、計算開銷小、準(zhǔn)確率高;C.能夠有效地運行在大數(shù)據(jù)集上,不可以實現(xiàn)并行訓(xùn)練D.無法運行在大數(shù)據(jù)集上,但可以實現(xiàn)并行訓(xùn)練解析:簡單、容易實現(xiàn)、計算開銷小、準(zhǔn)確率高;能夠有效地運行在大數(shù)據(jù)集上,可以實現(xiàn)并行訓(xùn)練;21.關(guān)于隨機森林優(yōu)點表述正確的是(B)A.能夠處理具有高維特征的輸入樣本,需要降維B.能夠處理具有高維特征的輸入樣本,不需要降維C.不能夠處理具有高維特征的輸入樣本,而且不需要降維;D.能夠處理具有高維特征的輸入樣本,需要降維;解析:能夠處理具有高維特征的輸入樣本,而且不需要降維;22.關(guān)于隨機森林優(yōu)點表述不正確的是(C)A.能夠評估各個特征在分類問題上的重要性B.對部分缺失特征不敏感C.對部分缺失特征敏感D.由于是樹模型,不需要歸一化,可直接使用解析:對部分缺失特征不敏23.關(guān)于隨機森林優(yōu)點表述不正確的是(C)A.在生成過程中,能夠獲取到內(nèi)部生成誤差的一種無偏估計B.不需要通過交叉驗證C.用一個獨立的測試集來獲得該無偏估計,無法在內(nèi)部進(jìn)行評估D.對部分缺失特征不敏感解析:用一個獨立的測試集來獲得該無偏估計,它可以在內(nèi)部進(jìn)行評估24.關(guān)于隨機森林的缺點表述不正確的是(B)A.隨機森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會過擬合B.隨機森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上不會過擬合C.對于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會對隨機森林產(chǎn)生更大的影響,所以隨機森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。解析:隨機森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會過擬合25.隨機森林的屬性選擇依據(jù)有哪些(D)

A.信息增益B.基尼系數(shù)C.均方差D.以上都是解析:以上都是26.隨機森林回歸樹的屬性選擇依據(jù)有哪些(C)

A.信息增益B.基尼系數(shù)C.均方差D.以上都是解析:回歸主要用均方差27.下列關(guān)于隨機森林本質(zhì)描述正確的是(D)A.隨機森林算法采用的是折線擬合的方式,其本質(zhì)在于屬性空間拆分B.因此當(dāng)樹足夠多時,其訓(xùn)練數(shù)據(jù)擬合效果會比較好C.同時由于樣本和屬性選擇的隨機性,以及類別權(quán)重控制,對于處理傾斜數(shù)據(jù)存在一定效果D.上述都對解析:上述表述都正確28.相比最近鄰算法和貝葉斯的差異主要體現(xiàn)在哪些方面(D)A.決策樹類算法專注的是類別邊界的求取,與概率和距離類算法區(qū)分類別差異性存在較大的區(qū)別B.在面對樣本類別分不均勻問題的時,前者表現(xiàn)會較好,而后者極易受到多占比樣本的影響C.其本質(zhì)在于屬性空間拆分,因此當(dāng)樹足夠多時,其訓(xùn)練數(shù)據(jù)擬合效果會比較好D.上述都是解析:上述都是29.屬于隨機森林超參數(shù)的是(A)A.max_featuresB.feature_importances_C.scoreD.以上都不是解析:max_features屬于隨機森林超參數(shù)30.能用于對隨機森林進(jìn)行剪枝或約束樹生長的參數(shù)有不包括哪一個(D)A.max_depthB.min_samples_leafC.min_samples_splitD.n_estimator解析:n_estimator限制學(xué)習(xí)器的個數(shù),不限制樹的生長,對錯題(25題)1.隨機森林采用的是Bagging的思想,而GBDT采用的是Boosting的思想。(T)2.組成隨機森林的樹可以并行生成,而GBDT只能是串行生成。(T)3.隨機森林對異常值不敏感,而GBDT對異常值也不敏感。(F)4.隨機森林GBDT對訓(xùn)練集中需要預(yù)測錯誤的樣本。(F)5.隨機森林是通過減少模型方差提高性能,是通過減少模型偏差提高性能的。(T)6.對于最終的輸出結(jié)果而言,隨機森林采用多數(shù)投票方法,而GBDT則是將所有結(jié)果累加或加權(quán)累加起來。(T)7.組成隨機森林的樹可以是分類樹,也可以說回歸樹,而GBDT只能由回歸樹組成。(T)8.隨機森林在解決回歸問題時,表現(xiàn)較差,這是因為它并不能給出一個連續(xù)的輸出。(T)9.隨機森林已經(jīng)被證明在某些噪音較大的分類或者回歸問題上會過擬合。(T)10對于許多統(tǒng)計建模者來說,隨機森林給人的感覺就像一個黑盒子,無法控制模型內(nèi)部運行(可控性差)。(T)11.集成學(xué)習(xí)通過將多個學(xué)習(xí)器進(jìn)行結(jié)合,通??色@得比單一學(xué)習(xí)器更優(yōu)的效果。?12.同質(zhì)集成中,個體學(xué)習(xí)器由相同的學(xué)習(xí)算法生成,個體學(xué)習(xí)器稱為基學(xué)習(xí)器。?13.異質(zhì)集成中,個體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成,個體學(xué)習(xí)器稱為組件學(xué)習(xí)器。?14.學(xué)習(xí)法:當(dāng)訓(xùn)練數(shù)據(jù)很多時,一種更強大的組合策略是“學(xué)習(xí)法”,解決投票法和平均法誤差較大的問題。?15.學(xué)習(xí)法是一種更為強大的結(jié)合策略,即通過另一個學(xué)習(xí)器來進(jìn)行結(jié)合。?16.平均法和投票法是對弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對比較簡單,但是可能學(xué)習(xí)誤差較大,于是就有了學(xué)習(xí)法。?17.根據(jù)弱學(xué)習(xí)器之間是否存在依賴性,分為Bagging和Boosting。?18.Bagging各學(xué)習(xí)器之間強依賴。?解析:Bagging各學(xué)習(xí)器之間相互獨立19.Boosting各學(xué)習(xí)器之間強依賴。?20Bagging的代表算法有:Adaboost和GradientBoostingTree(GBDT)。?解析:Bagging的代表算法為隨機森林21.Boosting的代表算法有:Adaboost和GradientBoostingTree(GBDT)。?22.Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差?23.隨機森林(RandomForest,簡稱RF)[Breiman,2001a]是Bagging的一個擴(kuò)展變體。RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機屬性選擇。?24.在隨機森林中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。?25.在分類問題中通過多數(shù)投票法決定輸出屬于哪一分類;在回歸問題中輸出所有決策樹輸出的平均值。?填空題(5題)1.boosting算法得基本原理,以及的三種典型算法原理:adaboost,GBM(Gradientbosstingmachine),XGBoost。2.Adaboost提供一種框架,在框架內(nèi)可以使用各種方法構(gòu)建子分類器,可以使用簡單的弱分類器,不用對特征進(jìn)行篩選,也不存在過擬合的現(xiàn)象。3.Adaboost算法不需要弱分類器的先驗知識,最后得到的強分類器的分類精度依賴于所有弱分類器。無論是應(yīng)用于人造數(shù)據(jù)還是真實數(shù)據(jù),Adaboost都能顯著的提高學(xué)習(xí)精度。4.Adaboost算法不需要預(yù)先知道弱分類器的錯誤率上限,且最后得到的強分類器的分類精度依賴于所有弱分類器的分類精度,可以深挖分類器的能力,Adaboost可以根據(jù)弱分類器的反饋,自適應(yīng)地調(diào)整假定的錯誤率,執(zhí)行的效率高。5.Adaboost可以在不改變訓(xùn)練數(shù)據(jù),只改變數(shù)據(jù)權(quán)值分布,使得數(shù)據(jù)在不同學(xué)習(xí)器中產(chǎn)生不同作用,類似于重采樣。問答題(6題)1.如果你已經(jīng)在完全相同的訓(xùn)練集上訓(xùn)練了五個不同的模型,并且它們都達(dá)到了95%的準(zhǔn)確率,是否還有機會通過結(jié)合這些模型來獲得更好的結(jié)果?如果可以,該怎么做?如果不行,為什么?答:如果你已經(jīng)訓(xùn)練了五個不同的模型,并且都達(dá)到了95%的精度,你可以嘗試將它們組合成一個投票集成,這通常會帶來更好的結(jié)果。如果模型之間非常不同(例如,一個SVM分類器,一個決策樹分類器,以及一個Logistic回歸分類器等),則效果更優(yōu)。如果它們是在不同的訓(xùn)練實例(這是bagging和pasting集成的關(guān)鍵點)上完成訓(xùn)練,那就更好了,但如果不是,只要模型非常不同,這個集成仍然有效。2.硬投票分類器和軟投票分類器有什么區(qū)別?答:硬投票分類器只是統(tǒng)計每個分類器的投票,然后挑選出得票最多的類別。軟投票分類器計算出每個類別的平均估算概率,然后選出概率最高的類別。它比硬投票法的表現(xiàn)更優(yōu),因為它給予那些高度自信的投票更高的權(quán)重。但是它要求每個分類器都能夠估算出類別概率才可以正常工作(例如,Scikit-Learn中的SVM分類器必須要設(shè)置probability=True)。3.是否可以通過在多個服務(wù)器上并行來加速bagging集成的訓(xùn)練?pasting集成呢?boosting集成呢?隨機森林或stacking集成呢?答:對于bagging集成來說,將其分布在多個服務(wù)器上能夠有效加速訓(xùn)練過程,因為集成中的每個預(yù)測器都是獨立工作的。同理,對于pasting集成和隨機森林來說也是如此。但是,boosting集成的每個預(yù)測器都是基于其前序的結(jié)果,因此訓(xùn)練過程必須是有序的,將其分布在多個服務(wù)器上毫無意義。對于stacking集成來說,某個指定層的預(yù)測器之間彼此獨立,因而可以在多臺服務(wù)器上并行訓(xùn)練,但是,某一層的預(yù)測器只能在其前一層的預(yù)測器全部訓(xùn)練完成之后,才能開始訓(xùn)練。4.包外評估的好處是什么?答:包外評估可以對bagging集成中的每個預(yù)測器使用其未經(jīng)訓(xùn)練的實例進(jìn)行評估。不需要額外的驗證集,就可以對集成實施相當(dāng)公正的評估。所以,如果訓(xùn)練使用的實例越多,集成的性能可以略有提升。5.是什么讓極端隨機樹比一般隨機森林更加隨機?這部分增加的隨機性有什么用?極端隨機樹比一般隨機森林快還是慢?答:隨機森林在生長過程中,每個節(jié)點的分裂僅考慮到了特征的一個隨機子集。極限隨機樹也是如此,它甚至走得更遠(yuǎn):常規(guī)決策樹會搜索出特征的最佳閾值,極限隨機樹直接對每個特征使用隨機閾值。這種極限隨機性就像是一種正則化的形式:如果隨機森林對訓(xùn)練數(shù)據(jù)出現(xiàn)過度擬合,那么極限隨機樹可能執(zhí)行效果更好。更甚的是,極限隨機樹不需要計算最佳閾值,因此它訓(xùn)練起來比隨機森林快得多。但是,在做預(yù)測的時候,相比隨機森林它不快也不慢6.如果你的AdaBoost集成對訓(xùn)練數(shù)據(jù)擬合不足,你應(yīng)該調(diào)整哪些超參數(shù)?怎么調(diào)整?答:如果你的AdaBoost集成對訓(xùn)練集擬合不足,可以嘗試提升估算器的數(shù)量或是降低基礎(chǔ)估算器的正則化超參數(shù)。你也可以嘗試略微提升學(xué)習(xí)率。7.如果你的梯度提升集成對訓(xùn)練集過度擬合,你是應(yīng)該提升還是降低學(xué)習(xí)率?答:如果你的梯度提升集成對訓(xùn)練集過度擬合,你應(yīng)該試著降低學(xué)習(xí)率,也可以通過早停法來尋找合適的預(yù)測器數(shù)量(可能是因為預(yù)測器太多)第9章AdaBoost選擇題(30題)1.AdaBoost算法訓(xùn)練弱分類器的過程中,如果某個樣本已經(jīng)在上一個弱分類器中被準(zhǔn)確地分類,那么在構(gòu)造下一個訓(xùn)練集時,它的權(quán)重將被:(B)。

A升高

B降低

C不變

D置0解析:錯分樣本權(quán)重會降低。2.RegionBoost與AdaBoost相比:(A)

A訓(xùn)練誤差通常降低較慢

B訓(xùn)練誤差能夠趨近于0

C測試誤差可能優(yōu)于AdaBoost

D有較多的參數(shù)需要設(shè)置解析:RegionBoost每次更新單元為region因此速度較慢3.AdaBoost中基礎(chǔ)分類器的權(quán)重設(shè)置策略存在的問題有:(B)

A計算復(fù)雜

B不能保證是最優(yōu)解

C需要用戶進(jìn)行手工設(shè)置

D不能根據(jù)測試樣本進(jìn)行自適應(yīng)調(diào)整解析:存在隨機過程,不能保證全局最優(yōu)4.AdaBoost算法的優(yōu)點有: (B)

A容易實現(xiàn)

B可解釋性強

C參數(shù)選擇簡單

D不容易過學(xué)習(xí)

E抗噪聲能力強解析:Adaboost加法模型,可解釋性較強5.AdaBoost中核心參數(shù)alpha的取值為(e為模型錯誤率): (B)A1/2ln((1-e)/e)

Bln((1-e)/e)

C1/2ln(e/(1-e))

Dln(e/(1-e))解析:alpha取值為ln((1-e)/e)6.在AdaBoost算法中,Z的作用是:(C)

A確保在t+1代所有樣本權(quán)重之和為1

B一個用于標(biāo)準(zhǔn)化的變量,可有可無

C可以用來描述算法的訓(xùn)練誤差上界

D較小的Z值說明當(dāng)前分類器的效果較好解析:Ada算法可以用來描述算法的訓(xùn)練誤差上界7.對AdaBoost描述正確的是:(A)

A可以集成出訓(xùn)練誤差任意低的分類器

B基礎(chǔ)分類器可以任意弱(準(zhǔn)確率高于50%)

C通過對樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果

D被當(dāng)前基礎(chǔ)分類器分錯的樣本的權(quán)重將會減小解析:可以集成出訓(xùn)練誤差任意低的分類器,基學(xué)習(xí)器效果強會更好8.在scikit-learn中,如何處理多類分類(Multi-classclassification)問題?D

A.scikit-learn無法實現(xiàn)多類分類

B.scikit-learn只能用one-vs.-all實現(xiàn)多類分類

C.scikit-learn只能用one-vs.-the-rest方法實現(xiàn)多類分類

D.scikit-learn可以使用one-vs-one或one-vs.-the-rest方法實現(xiàn)多類分類,即將多類分類問題轉(zhuǎn)化為構(gòu)建若干個兩類的分類器解析:可以使用one-vs-one或one-vs.-the-rest方法實現(xiàn)多類分類,即將多類分類問題轉(zhuǎn)化為構(gòu)建若干個兩類的分類器9.以下哪個選項對最小化可行產(chǎn)品的說法不正確?(AC)

A.以最少工作量和最短開發(fā)時間來完成Build-Measure-Learn的產(chǎn)品版本。

B.該版本可能缺少很多重要功能,但其目的是測試市場的接受度。

C.在一個公司的創(chuàng)業(yè)階段,最重要的維度就是預(yù)算。

D.該模型需要確保我們正在創(chuàng)造人們真正想要的東西。解析:最小可執(zhí)行demo,創(chuàng)業(yè)階段最重要方案可行。10.對AdaBoost描述正確的是:(C)A.可以集成出訓(xùn)練誤差任意低的分類器B.基礎(chǔ)分類器可以任意弱C.通過對樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果D.被當(dāng)前基礎(chǔ)分類器分錯的樣本的權(quán)重將會減小解析:Adaboost屬于加法模型,通過對樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果11.LDA與PCA最本質(zhì)的區(qū)別是:CA能夠降到的維數(shù)不同B計算效率不同C降維的目標(biāo)不同D我讀書少,看不出來解析:LDA有監(jiān)督學(xué)習(xí)12.Adaboost于隨機森林相比存在的優(yōu)勢:(A)A.?dāng)M合效果更好B.并行能力更強C.對缺失值的處理效果更好D.小樣本處理能力更差解析:擬合效果更好13.Adaboost如何處理多分類問題(A)A.使用SAMME及SAMME.R算法進(jìn)行多分類分析B.使用多棵樹進(jìn)行多分類分析C.使用softmax進(jìn)行多分類分析D.以上都不對解析:使用SAMME及SAMME.R算法進(jìn)行多分類分析14.關(guān)于Adaboost多分類描述正確的是(D)A.SAMME是二分類Adaboost算法的擴(kuò)展B.SAMME.R使用了對樣本集分類的預(yù)測概率大小來作為弱學(xué)習(xí)器權(quán)重C.由于SAMME.R使用了概率度量的連續(xù)值,迭代一般比SAMME快,因此AdaBoostClassifier的默認(rèn)算法algorithm的值也是SAMME.R。D.上述都對解析:上述表述都正確15.關(guān)于Adaboost優(yōu)點描述正確的是(B)A.容易受到噪聲干擾B.不用做特征篩選C.訓(xùn)練時間長D.執(zhí)行效果依賴于弱學(xué)習(xí)器的選擇解析:B是優(yōu)點,其他的都是缺點16.以下關(guān)于Boosting算法的描述,正確的是:(B)A.Boosting:降低方差。B.Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個樣本的權(quán)重發(fā)生變化,權(quán)值根據(jù)上一輪的預(yù)測結(jié)果進(jìn)行調(diào)整。C.Boosting:各個學(xué)習(xí)器可以并行生成。D.Boosting:每個弱學(xué)習(xí)器都有相應(yīng)的權(quán)重,對于誤差大的學(xué)習(xí)器會有更大的權(quán)重。解析:Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個樣本的權(quán)重發(fā)生變化,權(quán)值根據(jù)上一輪的預(yù)測結(jié)果進(jìn)行調(diào)整。17.AdaBoost算法中,參數(shù)alpha的作用是:(D)A.用于計算分類誤差率B.規(guī)范化因子C.表示了訓(xùn)練集的樣本權(quán)重D.表示了基本分類器的重要性解析:alpha是規(guī)范化因子18.sklearn中,AdaBoostClassifier的默認(rèn)算法是:(A)A.SAMME.RB.SAMMEC.R2D.CART解析:SAMME.R用來做分類19.scikit-learn中,AdaBoostRegressor用于回歸,其使用的算法是:(C)A.SAMMEB.SAMME.RC.Adaboost.R2D.Adaboost.R解析:Adaboost.R2主要用來做回歸20.scikit-learn中,使用AdaBoostRegressor類處理回歸任務(wù)時,可以選擇不同的loss計算方式,分別有哪幾項:(ABD)A.linearB.squareC.absoluteD.exponential解析:回歸任務(wù)時通常使用linear,square,exponential損失函數(shù),默認(rèn)是linear21.scikit-learn中,使用AdaBoostRegressor類處理回歸任務(wù)時,loss的默認(rèn)值是:(A)A.line

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論