機(jī)器學(xué)習(xí)Python實(shí)戰(zhàn)微課版夏林中課后參考答案_第1頁
機(jī)器學(xué)習(xí)Python實(shí)戰(zhàn)微課版夏林中課后參考答案_第2頁
機(jī)器學(xué)習(xí)Python實(shí)戰(zhàn)微課版夏林中課后參考答案_第3頁
機(jī)器學(xué)習(xí)Python實(shí)戰(zhàn)微課版夏林中課后參考答案_第4頁
機(jī)器學(xué)習(xí)Python實(shí)戰(zhàn)微課版夏林中課后參考答案_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章機(jī)器學(xué)習(xí)入門基礎(chǔ)一、選擇題1.人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系是怎樣的?A.人工智能包括機(jī)器學(xué)習(xí)與深度學(xué)習(xí)兩部分,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)是并列關(guān)系。B.深度學(xué)習(xí)包括人工智能與機(jī)器學(xué)習(xí)兩部分,人工智能與機(jī)器學(xué)習(xí)是并列關(guān)系。C.人工智能包含機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)包含深度學(xué)習(xí),三者屬于包含關(guān)系。D.深度學(xué)習(xí)包含人工智能,人工智能包含機(jī)器學(xué)習(xí),三者屬于包含關(guān)系。2.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)可分為哪幾大類?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.增強(qiáng)學(xué)習(xí)3.特征選擇的必要性主要在于以下幾點(diǎn)?A.減少訓(xùn)練的時(shí)間,能使用較少的特征更快地生成模型。B.簡(jiǎn)化模型,使模型更容易被使用者所解釋。C.可以選擇一些多余的特征。D.使模型的泛化能力更好,避免過擬合。4.下面哪個(gè)不是特征選擇的主要方法:A.過濾法(filter)B.包裹法(wapper)C.嵌入法(Embedded)D.幻想法(imagination)5.機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域有以下哪些:A.智能汽車B.詐騙檢測(cè)C.金融交易D.個(gè)性化營(yíng)銷推廣6.以下說法錯(cuò)誤的是哪一項(xiàng):A.Anaconda是一個(gè)基于Python的數(shù)據(jù)處理和科學(xué)計(jì)算平臺(tái),它已經(jīng)內(nèi)置了許多非常有用的第三方庫B.PyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python語言開發(fā)時(shí)提高其效率的工具C.JupyterNotebook的本質(zhì)是一個(gè)Web應(yīng)用程序,便于創(chuàng)建和共享文學(xué)化程序文檔,支持實(shí)時(shí)代碼,數(shù)學(xué)方程,可視化和markdown。D.Spyder是一個(gè)Python爬蟲框架。7.下列選項(xiàng)中機(jī)器學(xué)習(xí)主要涉及三大要素不包含哪個(gè)?A.數(shù)據(jù)B.設(shè)備C.算法D.模型8.在實(shí)際的企業(yè)應(yīng)用場(chǎng)景中,為了讓訓(xùn)練效果更好,以下哪個(gè)操作是錯(cuò)誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)8.在實(shí)際的企業(yè)應(yīng)用場(chǎng)景中,為了讓訓(xùn)練效果更好,以下哪個(gè)操作是錯(cuò)誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)9.根據(jù)表格,請(qǐng)選擇說法正確的選項(xiàng)?表1-2臟數(shù)據(jù)舉例序號(hào)姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍(lán)色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六A.李四的體重是空值,屬于數(shù)據(jù)不完整的情況。B.王五的身高是250cm,屬于異常情況。C.趙六喜歡的顏色是趙六,屬于矛盾情況。D.以上三種答案均正確10.以下哪個(gè)命令可以查看Python的版本號(hào)?A.python-VB.py-vC.py-VD.py--version11.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)的類型不包含以下哪種()。A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.強(qiáng)化學(xué)習(xí)D.強(qiáng)調(diào)學(xué)習(xí)12.常用的Python編程環(huán)境有哪些?A.JupyternotebookB.PyCharmC.SpyderD.ScalaIDE二、判斷題1.機(jī)器學(xué)習(xí)簡(jiǎn)單來說就是讓機(jī)器進(jìn)行學(xué)習(xí),學(xué)習(xí)的目的是實(shí)現(xiàn)對(duì)世界上的人事物進(jìn)行預(yù)測(cè)或者判斷。?2.在機(jī)器學(xué)習(xí)實(shí)際的應(yīng)用場(chǎng)景中,絕對(duì)不允許出現(xiàn)錯(cuò)誤。?3.機(jī)器學(xué)習(xí)的一般實(shí)施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評(píng)估測(cè)試、模型部署應(yīng)用等步驟。?4.數(shù)據(jù)對(duì)于模型來說就是至關(guān)重要的,是模型能力的天花板,沒有好的數(shù)據(jù),就沒有好的模型。?5.通過在測(cè)試集上完成評(píng)估的模型,就可以用來預(yù)測(cè)新數(shù)據(jù)的值。這時(shí),需要將該模型部署到實(shí)際的生產(chǎn)場(chǎng)景中,部署好后為了確保模型的準(zhǔn)確性,則不再需要對(duì)模型進(jìn)行調(diào)整。?6.業(yè)界普遍認(rèn)為機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)怎樣模擬人類的學(xué)習(xí)行為,進(jìn)行新知識(shí)和新技能的獲取,并不斷通過重組知識(shí)結(jié)構(gòu)來改善自身性能的一種技術(shù)。?7.增強(qiáng)學(xué)習(xí),在一些書籍里也稱為強(qiáng)化學(xué)習(xí)。?8.在機(jī)器學(xué)習(xí)實(shí)施流程的特征提取與選擇步驟,我們不會(huì)把“藍(lán)色”、“紅色”、“黑色”直接輸入給模型。?9.對(duì)于一些簡(jiǎn)單統(tǒng)計(jì)的應(yīng)用場(chǎng)景,為了體現(xiàn)統(tǒng)計(jì)領(lǐng)域的專業(yè)性,也需要使用上機(jī)器學(xué)習(xí)。?10.機(jī)器學(xué)習(xí)本質(zhì)上是一個(gè)提高效率的工具。?三、填空題1.請(qǐng)給下方圖中序號(hào)處填入相應(yīng)的內(nèi)容:訓(xùn)練、預(yù)測(cè)。2.典型的數(shù)據(jù)集類似于一個(gè)二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個(gè)數(shù)據(jù)樣本,每一列的屬性稱為特征。3.數(shù)據(jù)經(jīng)過預(yù)處理之后,就可以用來訓(xùn)練模型,一般會(huì)把數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。4.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)可分監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),增強(qiáng)學(xué)習(xí)四大類。5.在實(shí)際應(yīng)用場(chǎng)景中,使用最多的還是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。四、問答題1.請(qǐng)簡(jiǎn)述一下對(duì)監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的基本概念。答案:監(jiān)督學(xué)習(xí)是通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)。無監(jiān)督學(xué)習(xí)也可稱為非監(jiān)督學(xué)習(xí),通過學(xué)習(xí)沒有標(biāo)記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關(guān)系,從而實(shí)現(xiàn)預(yù)測(cè)。半監(jiān)督學(xué)習(xí),它是一種在預(yù)測(cè)時(shí),既使用已標(biāo)記的樣本數(shù)據(jù),也使用未標(biāo)記的樣本數(shù)據(jù)的方法,通常情況下,無標(biāo)記樣本的數(shù)量遠(yuǎn)超過有標(biāo)記樣本,因?yàn)橛袝r(shí)候獲得有標(biāo)記數(shù)據(jù)的成本很高,所以在訓(xùn)練分類器模型時(shí),先使用部分已經(jīng)標(biāo)記的數(shù)據(jù),在學(xué)習(xí)了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標(biāo)記的數(shù)據(jù)進(jìn)一步學(xué)得更好的模型,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效預(yù)測(cè)。所謂增強(qiáng)學(xué)習(xí),是通過與環(huán)境的交互,以推測(cè)和優(yōu)化實(shí)際的動(dòng)作,從而實(shí)現(xiàn)決策。2.如果在模型診斷中發(fā)現(xiàn)了過擬合和欠擬合問題,請(qǐng)簡(jiǎn)述解決思路。答案:過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個(gè)樣本,但在測(cè)試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復(fù)雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度來優(yōu)化。3.請(qǐng)描述機(jī)器學(xué)習(xí)的實(shí)施流程答案:數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評(píng)估測(cè)試、模型部署應(yīng)用4.請(qǐng)簡(jiǎn)述人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系。答案:機(jī)器學(xué)習(xí)為實(shí)現(xiàn)人工智能提供了方法,而深度學(xué)習(xí)則為實(shí)現(xiàn)機(jī)器學(xué)習(xí)提供了技術(shù)??偟膩砜?,其實(shí)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都屬于AI的范疇,機(jī)器學(xué)習(xí)是AI的一個(gè)分支技術(shù),而深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)里的特定分支技術(shù),三者是包含關(guān)系,而非并列。5、請(qǐng)簡(jiǎn)述算法、數(shù)據(jù)、模型的概念及關(guān)系。答案:數(shù)據(jù):輸入給計(jì)算機(jī)的數(shù)據(jù)。算法:用系統(tǒng)的方法描述解決問題的策略機(jī)制。模型:指由輸入到輸出的映射關(guān)系。三者之間的關(guān)系可以理解為:提供數(shù)據(jù)給算法,然后算法通過運(yùn)算產(chǎn)生模型。第2-7章一、選擇題關(guān)于支持向量機(jī)SVM,下列說法錯(cuò)誤的是()A.L2正則項(xiàng),作用是最大化分類間隔,使得分類器擁有更強(qiáng)的泛化能力B.Hinge損失函數(shù),作用是最小化經(jīng)驗(yàn)分類錯(cuò)誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當(dāng)參數(shù)C越小時(shí),分類間隔越大,分類錯(cuò)誤越多,趨于欠學(xué)習(xí)假定某同學(xué)使用NaiveBayesian(NB)分類模型時(shí),不小心將訓(xùn)練數(shù)據(jù)的兩個(gè)維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:(BD)A.這個(gè)被重復(fù)的特征在模型中的決定作用會(huì)被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會(huì)降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測(cè)結(jié)果相對(duì)于不重復(fù)的情況下的模型預(yù)測(cè)結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時(shí),無法用兩列特征相同時(shí)所得到的結(jié)論來分析問題關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對(duì)權(quán)值進(jìn)行極大似然估計(jì)的方法,而后驗(yàn)概率正比于先驗(yàn)概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗(yàn)概率,更談不上最小化后驗(yàn)概率B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計(jì)算出概率,C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。以下哪些方法不可以直接來對(duì)文本分類?(A)A、KmeansB、決策樹C、支持向量機(jī)D、KNN關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對(duì)權(quán)值進(jìn)行極大似然估計(jì)的方法,而后驗(yàn)概率正比于先驗(yàn)概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗(yàn)概率,更談不上最小化后驗(yàn)概率。A錯(cuò)誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計(jì)算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。下列不是SVM核函數(shù)的是()A.多項(xiàng)式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)模型的高bias是什么意思,我們?nèi)绾谓档退??機(jī)器學(xué)習(xí)ML基礎(chǔ)易A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點(diǎn)D.B和C假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是:A.模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C.無法下結(jié)論D.以上都不對(duì)我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時(shí)間,我們可以:A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量對(duì)于線性回歸,我們應(yīng)該有以下哪些假設(shè)?1.找到離群點(diǎn)很重要,因?yàn)榫€性回歸對(duì)利群點(diǎn)很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設(shè)數(shù)據(jù)沒有多重線性相關(guān)性A.1和2B.2和3C.1,2和3D.以上都不是關(guān)于正態(tài)分布,下列說法錯(cuò)誤的是:A.正態(tài)分布具有集中性和對(duì)稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1目標(biāo)變量在訓(xùn)練集上的8個(gè)實(shí)際值[0,0,0,1,1,1,1,1],目標(biāo)變量的熵是多少?A.-(5/8log(5/8)+3/8log(3/8))B.5/8log(5/8)+3/8log(3/8)C.3/8log(5/8)+5/8log(3/8)D.5/8log(3/8)–3/8log(5/8)決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小關(guān)系是什么?A.決策樹的父節(jié)點(diǎn)更大B.子節(jié)點(diǎn)的熵更大C.兩者相等D.根據(jù)具體情況而定下列關(guān)于極大似然估計(jì)(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的一般來說,下列哪種方法常用來預(yù)測(cè)連續(xù)獨(dú)立變量?A.線性回歸B.邏輯回顧C(jī).線性回歸和邏輯回歸都行D.以上說法都不對(duì)個(gè)人健康和年齡的相關(guān)系數(shù)是-1.09。根據(jù)這個(gè)你可以告訴醫(yī)生哪個(gè)結(jié)論?A.年齡是健康程度很好的預(yù)測(cè)器B.年齡是健康程度很糟的預(yù)測(cè)器C.以上說法都不對(duì)D:兩者沒關(guān)系假如我們利用Y是X的3階多項(xiàng)式產(chǎn)生一些數(shù)據(jù)(3階多項(xiàng)式能很好地?cái)M合數(shù)據(jù))。那么,下列說法正確的是(多選)?A.簡(jiǎn)單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡(jiǎn)單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項(xiàng)式擬合會(huì)造成低偏差(bias)、高方差(variance)D.3階多項(xiàng)式擬合具備低偏差(bias)、低方差(variance)假如你在訓(xùn)練一個(gè)線性回歸模型,有下面兩句話:1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2.如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A.1和2都錯(cuò)誤B.1正確,2錯(cuò)誤C.1錯(cuò)誤,2正確D.1和2都正確假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(gè)(X1,X2,…,X100)?,F(xiàn)在,我們把其中一個(gè)特征值擴(kuò)大10倍(例如是特征X1),然后用相同的正則化參數(shù)對(duì)Lasso回歸進(jìn)行修正。那么,下列說法正確的是?A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對(duì)假如使用邏輯回歸對(duì)樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)確率?,F(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測(cè)試。則下列說法正確的是?A.訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低B.訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C.測(cè)試樣本準(zhǔn)確率一定會(huì)降低D.測(cè)試樣本準(zhǔn)確率一定增加或保持不變這題對(duì)應(yīng)的知識(shí)點(diǎn)也包括了增加模型復(fù)雜度,雖然會(huì)減小訓(xùn)練樣本誤差,但是容易發(fā)生過擬合。下面這張圖是一個(gè)簡(jiǎn)單的線性回歸模型,圖中標(biāo)注了每個(gè)樣本點(diǎn)預(yù)測(cè)值與真實(shí)值的殘差。計(jì)算SSE為多少?A.3.02B.0.75C.1.01D.0.604關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。A.回歸和相關(guān)在x和y之間都是互為對(duì)稱的B.回歸和相關(guān)在x和y之間都是非對(duì)稱的C.回歸在x和y之間是非對(duì)稱的,相關(guān)在x和y之間是互為對(duì)稱的D.回歸在x和y之間是對(duì)稱的,相關(guān)在x和y之間是非對(duì)稱的邏輯回歸將輸出概率限定在[0,1]之間。下列哪個(gè)函數(shù)起到這樣的作用?A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)關(guān)于兩個(gè)邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權(quán)重系數(shù)。A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個(gè)模型的β1相同D.以上說法都不對(duì)在n維空間中(n>1),下列哪種方法最適合用來檢測(cè)異常值?A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點(diǎn)圖邏輯回歸與多元回歸分析有哪些不同之處?A.邏輯回歸用來預(yù)測(cè)事件發(fā)生的概率B.邏輯回歸用來計(jì)算擬合優(yōu)度指數(shù)C.邏輯回歸用來對(duì)回歸系數(shù)進(jìn)行估計(jì)D.以上都是如果一個(gè)SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))D.以上都不是我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5,則預(yù)測(cè)為正類;若輸出概率小于0.5,則預(yù)測(cè)為負(fù)類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預(yù)測(cè)為正類。則準(zhǔn)確率(Precision)和召回率(Recall)會(huì)發(fā)生什么變化(多選)?A.準(zhǔn)確率(Precision)增加或者不變B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大點(diǎn)擊率預(yù)測(cè)是一個(gè)正負(fù)樣本不平衡問題(例如99%的沒有點(diǎn)擊,只有1%點(diǎn)擊)。假如在這個(gè)非平衡的數(shù)據(jù)集上建立一個(gè)模型,得到訓(xùn)練樣本的正確率是99%,則下列說法正確的是?A.模型正確率很高,不需要優(yōu)化模型了B.模型正確率并不高,應(yīng)該建立更好的模型C.無法對(duì)模型做出好壞評(píng)價(jià)D.以上說法都不對(duì)如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費(fèi)更少的時(shí)間來訓(xùn)練這個(gè)模型,下列哪種做法是正確的?A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量我們想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量有100萬個(gè),特征維度是5000,面對(duì)如此大數(shù)據(jù),如何有效地訓(xùn)練模型?A.對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機(jī)器學(xué)習(xí)算法C.使用PCA算法減少特征維度D.以上都對(duì)機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有?a.卡方b.信息增益c.平均互信息d.期待交叉熵如何在監(jiān)督式學(xué)習(xí)中使用聚類算法(多選)?A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個(gè)額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個(gè)額外的特征下面哪句話是正確的?A.機(jī)器學(xué)習(xí)模型的精準(zhǔn)度越高,則模型的性能越好B.增加模型的復(fù)雜度,總能減小測(cè)試樣本誤差C.增加模型的復(fù)雜度,總能減小訓(xùn)練樣本誤差D.以上說法都不對(duì)如果使用線性回歸模型,下列說法正確的是?A.檢查異常值是很重要的,因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對(duì)建立線性模型時(shí),我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn)3對(duì)變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?A.Var1和Var2具有很高的相關(guān)性B.Var1和Var2存在多重共線性,模型可以去掉其中一個(gè)特征C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的D.以上都對(duì)下列哪種方法可以用來減小過擬合?(多選)A.更多的訓(xùn)練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復(fù)雜度向量X=[1,2,3,4,-9,0]的L1范數(shù)為?A.1B.19C.6D.√111關(guān)于L1、L2正則化下列說法正確的是?A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B.L2正則化技術(shù)又稱為L(zhǎng)assoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏有N個(gè)樣本,一般用于訓(xùn)練,一般用于測(cè)試。若增大N值,則訓(xùn)練誤差和測(cè)試誤差之間的差距會(huì)如何變化?A.增大B.減小C.不變D.以上均不對(duì)在回歸模型中,下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?A.多項(xiàng)式階數(shù)B.更新權(quán)重w時(shí),使用的是矩陣求逆還是梯度下降C.使用常數(shù)項(xiàng)D.學(xué)習(xí)率下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性?A.相關(guān)系數(shù)為0.9B.對(duì)于無效假設(shè)β=0的p值為0.0001C.對(duì)于無效假設(shè)β=0的t值為30D.以上說法都不對(duì)機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有?(ABCD)A.卡方B.信息增益C.平均互信息D.期望交叉熵以下說法中正確的是(C)A.SVM對(duì)噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯(cuò)樣本的權(quán)重更新比例相同C.boosting和bagging都是組合多個(gè)分類器投票的方法,二者都是根據(jù)單個(gè)分類器的正確率確定其權(quán)重D.給定n個(gè)數(shù)據(jù)點(diǎn),如果其中一半用于訓(xùn)練,一半用戶測(cè)試,則訓(xùn)練誤差和測(cè)試誤差之間的差別會(huì)隨著n的增加而減少以下描述錯(cuò)誤的是(C)A.SVM是這樣一個(gè)分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結(jié)點(diǎn)輸變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)降低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類若在二維空間中線性不可分,SVM算法會(huì)通過()方法解決。核函數(shù)激活函數(shù)剪枝特征選擇線性回歸能完成的任務(wù)是(B)預(yù)測(cè)離散值預(yù)測(cè)連續(xù)值分類聚類產(chǎn)量(X,臺(tái))與單位產(chǎn)品成本(y,元/臺(tái))之家你的回歸方程為y=356-1.5x,這說明(D)A。產(chǎn)量每增加一臺(tái),單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺(tái),單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺(tái),單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺(tái),單位產(chǎn)品成本平均減少1.5元直線方程y=wx+b,其中b表示(B)A.系數(shù)B截距C.斜率D權(quán)重以下描述中,對(duì)梯度解釋正確的是(AB)A梯度是一個(gè)向量,有方向有大小B求梯度就是對(duì)梯度向量的各個(gè)元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小關(guān)于誤差ε的說法正確的是(AB)A誤差可以看做隨機(jī)比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設(shè)計(jì)優(yōu)良,誤差可以避免標(biāo)準(zhǔn)差與方差的關(guān)系是(ABC)A標(biāo)準(zhǔn)差是方差的算術(shù)平方根B標(biāo)準(zhǔn)差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標(biāo)準(zhǔn)差的平方是方差SVM中的核技巧(Kernaltrick)的作用包括以下哪項(xiàng)?A.特征升維B.特征降維C.防止過擬合答案:C在數(shù)據(jù)預(yù)處理階段,我們常常對(duì)數(shù)值特征進(jìn)行歸一化或標(biāo)準(zhǔn)化(standardization,normalization)處理。這種處理方式理論上不會(huì)對(duì)下列哪個(gè)模型產(chǎn)生很大影響?A.k-MeansB.k-NNC.決策樹答案:C選擇Logistic回歸中的One-Vs-All方法中的哪個(gè)選項(xiàng)是真實(shí)的。A我們需要在n類分類問題中適合n個(gè)模型B我們需要適合n-1個(gè)模型來分類為n個(gè)類C我們需要只適合1個(gè)模型來分類為n個(gè)類D這些都沒有假設(shè)對(duì)給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測(cè)試精度Y。現(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯(cuò)誤的選項(xiàng)。注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測(cè)試精度提高或保持不變假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評(píng)分。在下面說法中哪一項(xiàng)是正確的?A特征F1是名義變量(nominalvariable)的一個(gè)實(shí)例。B特征F1是有序變量(ordinalvariable)的一個(gè)實(shí)例。C該特征并不屬于以上的分類。D以上說法都正確。下面哪一項(xiàng)對(duì)梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。3在GD中,每一次迭代需要使用整個(gè)訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。A只有1B只有2C只有3D都正確假定你正在處理類屬特征,并且沒有查看分類變量在測(cè)試集中的分布?,F(xiàn)在你想將onehotencoding(OHE)應(yīng)用到類屬特征中。那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么?A分類變量所有的類別沒有全部出現(xiàn)在測(cè)試集中B類別的頻率分布在訓(xùn)練集和測(cè)試集是不同的C訓(xùn)練集和測(cè)試集通常會(huì)有一樣的分布DA和B都正確假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%?,F(xiàn)在你的模型在測(cè)試集上表現(xiàn)為99%的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的?1準(zhǔn)確度并不適合于衡量不平衡類別問題2準(zhǔn)確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題3精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and4假設(shè)我們有一個(gè)數(shù)據(jù)集,在一個(gè)深度為6的決策樹的幫助下,它可以使用100%的精確度被訓(xùn)練。現(xiàn)在考慮一下兩點(diǎn),并基于這兩點(diǎn)選擇正確的選項(xiàng)。注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。1深度為4時(shí)將有高偏差和低方差2深度為4時(shí)將有低偏差和低方差A(yù)只有1B只有2C1和2D沒有一個(gè)假設(shè)你正在做一個(gè)項(xiàng)目,它是一個(gè)二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個(gè)模型,并在驗(yàn)證數(shù)據(jù)集上得到混淆矩陣。基于上述混淆矩陣,下面哪個(gè)選項(xiàng)會(huì)給你正確的預(yù)測(cè)。1精確度是~0.912錯(cuò)誤分類率是~0.913假正率(Falsecorrectclassification)是~0.954真正率(Truepositiverate)是~0.95A1和3B2和4C1和4D2和3對(duì)于下面的超參數(shù)來說,更高的值對(duì)于決策樹算法更好嗎?1用于拆分的樣本量2樹深3樹葉樣本A1和2B2和3C1和3D1、2和3E無法分辨假如我們使用非線性可分的SVM目標(biāo)函數(shù)作為最優(yōu)化對(duì)象,我們?cè)趺幢WC模型線性可分?A設(shè)C=1B設(shè)C=0C設(shè)C=無窮大D以上都不對(duì)NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標(biāo)簽是C,它的一個(gè)假定是:()A.各類別的先驗(yàn)概率P(C)是相等的B.以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C.特征變量X的各個(gè)維度是類別條件獨(dú)立隨機(jī)變量D.P(X|C)是高斯分布假定某同學(xué)使用NaiveBayesian(NB)分類模型時(shí),不小心將訓(xùn)練數(shù)據(jù)的兩個(gè)維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:A.這個(gè)被重復(fù)的特征在模型中的決定作用會(huì)被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會(huì)降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測(cè)結(jié)果相對(duì)于不重復(fù)的情況下的模型預(yù)測(cè)結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時(shí),無法用兩列特征相同時(shí)所得到的結(jié)論來分析問題統(tǒng)計(jì)模式分類問題中,當(dāng)先驗(yàn)概率未知時(shí),可以使用()A.最小最大損失準(zhǔn)則B.最小誤判概率準(zhǔn)則C.最小損失準(zhǔn)則D.N-P判決甲盒中有200個(gè)螺桿,其中有160個(gè)A型螺桿;乙盒中有240個(gè)螺母,其中有180個(gè)A型的?,F(xiàn)從甲乙兩盒中各任取一個(gè),則能配成A型螺栓的概率為多少?A.1/20B.15/16C.3/5D.19/20一個(gè)部門1/2為系統(tǒng)工程師,2/5為軟件工程師,1/4兩者都是,那么兩者都不是的比例?A.0.23B.0.35C.0.4D.0.32有朋自遠(yuǎn)方來,他乘火車,輪船,汽車,飛機(jī)來的概率分別是0.3,0.2,0.1,0.4,從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語句中正確的?A.如果他遲到,乘火車來的概率是0.5。B.如果他準(zhǔn)點(diǎn),坐輪船或汽車的概率等于坐火車的概率。C.如果他準(zhǔn)點(diǎn),那么乘飛機(jī)的概率大于等于0.5。D.坐陸路(火車、汽車)交通工具準(zhǔn)點(diǎn)機(jī)會(huì)比坐水路(輪船)要低。對(duì)于信息增益,決策樹分裂節(jié)點(diǎn),下面說法正確的是()1純度高的節(jié)點(diǎn)需要更多的信息去區(qū)分2信息增益可以用”1比特-熵”獲得3如果選擇一個(gè)屬性具有許多歸類值,那么這個(gè)信息增益是有偏差的A1B2C2和3D所有以上梯度下降可以從以下哪些地方調(diào)優(yōu)?學(xué)習(xí)率參數(shù)初始值歸一化激活函數(shù)答案:ABC以下()不屬于線性分類器最佳準(zhǔn)則?A感知準(zhǔn)則函數(shù)B貝葉斯分類C支持向量機(jī)DFisher準(zhǔn)則有兩個(gè)樣本點(diǎn),第一個(gè)點(diǎn)為正樣本,它的特征向量是(0,-1);第二個(gè)點(diǎn)為負(fù)樣本,它的特征向量是(2,3),從這兩個(gè)樣本點(diǎn)組成的訓(xùn)練集構(gòu)建一個(gè)線性SVM分類器的分類面方程是()A2x+y=4Bx+2y=5Cx+2y=3D2x-y=0判斷題:1.“過擬合”只在監(jiān)督學(xué)習(xí)中出現(xiàn),在非監(jiān)督學(xué)習(xí)中,沒有“過擬合”,這是()?2.如果兩個(gè)變量相關(guān),那么它們一定是線性關(guān)系嗎??3.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為0。?4.在訓(xùn)練完SVM之后,我們可以只保留支持向量,而舍去所有非支持向量。仍然不會(huì)影響模型分類能力。?5.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。?6.如果一個(gè)經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型在測(cè)試集上達(dá)到100%的準(zhǔn)確率,這是否意味著該模型將在另外一個(gè)新的測(cè)試集上也能得到100%的準(zhǔn)確率。?7.回歸問題與分類問題都有可能發(fā)生過擬合。?8.一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可以用來解決0/1分類問題。?9.決策樹只用來分類。?10.回歸及分類常用的評(píng)估指標(biāo)都是準(zhǔn)確率和召回率。?11.輸出變量為連續(xù)變量的預(yù)測(cè)問題是分類問題。?12.P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。?13.樸素貝葉斯(分類器)是一種生成模型,它會(huì)基于訓(xùn)練樣本對(duì)每個(gè)可能的類別建模。?14.最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。?15.決策樹的剪枝是為了簡(jiǎn)化決策樹模型,避免過擬合。?16.常見的決策樹算法是ID3,C4.5,CART樹。?17.決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。?18.預(yù)剪枝是在決策樹生成過程中,對(duì)樹進(jìn)行剪枝,提前結(jié)束樹的分支生長(zhǎng)。?19.分類任務(wù)是預(yù)測(cè)連續(xù)值。?20.回歸任務(wù)是預(yù)測(cè)連續(xù)值。?21.Σ是求和符號(hào)。(T)22.Π是求積符號(hào)。?23.用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。?24.邏輯回歸的目的就是提高二分類的效率。?25.SGD計(jì)算根據(jù)全部樣本構(gòu)造出來的代價(jià)函數(shù)的梯度。?26.BGD計(jì)算根據(jù)全部樣本的構(gòu)造出來的代價(jià)函數(shù)的梯度。?27.SVM不涉及核函數(shù)。?28.SVM自帶正則項(xiàng)。?29.SVM無法做多分類。?30.決策樹容易發(fā)生過擬合。?31.決策樹容易發(fā)生欠擬合。?32.邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。?33.交叉熵?fù)p失函數(shù)的好處是可以克服方差代價(jià)函數(shù)更新權(quán)重過慢的問題。?34.FP——將負(fù)類預(yù)測(cè)為正類數(shù)。?35.F1值定義為:F1=2PR/(P+R)。?36.P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗(yàn)概率。?37.P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗(yàn)概率。?38.logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發(fā)生的概率。?39.SVM通過尋找使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化。?40.隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小,其信息量就越小。?41.矩陣的L0范數(shù):矩陣的非0元素的個(gè)數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。?42.隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。?43.聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。?44.協(xié)方差是衡量?jī)蓚€(gè)變量線性相關(guān)性強(qiáng)度及變量尺度。?45.標(biāo)量是0階張量。?46.樸素貝葉斯適合高維數(shù)據(jù)。?47.決策樹短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。?48.SVM對(duì)缺失數(shù)據(jù)敏感。?49.邏輯回歸計(jì)算速度快。?50.決策樹只能處理數(shù)據(jù)型屬性。?51.SVM適合高維數(shù)據(jù)。?52.邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的邏輯回歸。?53.正確肯定(TruePositive,TP):預(yù)測(cè)為真,實(shí)際為真。?54.錯(cuò)誤否定(FalseNegative,FN):預(yù)測(cè)為假,實(shí)際為真。?55.最大似然估計(jì)的目的就是:利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。?56.SVM是一個(gè)凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點(diǎn)。?57.SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果。?58.支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。?59.決策樹算法可以用于小數(shù)據(jù)集。?60.錯(cuò)誤率(ErrorRate)是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。?填空題:熵指的是體系的混亂的程度。信息越有序,信息熵越低。訓(xùn)練過程中用到的數(shù)據(jù)叫訓(xùn)練集。訓(xùn)練用到的每個(gè)樣本叫訓(xùn)練樣本。分類是預(yù)測(cè)離散值,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)叫欠擬合。模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫過擬合。提取出的正確信息條數(shù)/提取出的信息條數(shù)是正確率。評(píng)判分類效果好壞的三個(gè)指標(biāo)就是上面介紹的三個(gè)指標(biāo):正確率,召回率,F(xiàn)值。回歸問題對(duì)數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測(cè)和建模的監(jiān)督學(xué)習(xí)算法。回歸往往會(huì)通過計(jì)算誤差(Error)來確定模型的精確性。從已有的M個(gè)特征(Feature)中選擇N個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫特征選擇。損失函數(shù)也叫代價(jià)函數(shù)或目標(biāo)函數(shù)求函數(shù)機(jī)制的方法有兩大類,分別是解析解(閉式解)和數(shù)值解。已知坐標(biāo)軸中兩點(diǎn)A(2,?2)B(?1,2),這兩點(diǎn)的曼哈頓距離(L1距離)是7。解析:答案:7。向量AB(-3,4),L1是向量中非零元素的絕對(duì)值和。機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的卡方、信息增益、平均互信息、期望交叉熵。ID3算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。C4.5算法在決策樹生成的過程中,用信息增益比來選擇特征?;嶂笖?shù)(基尼不純度)表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小,也就是說集合的純度越高?;嶂笖?shù)(基尼不純度)=樣本被選中的概率*樣本被分錯(cuò)的概率。p(x|θ)是給定參數(shù)θ的概率分布:似然函數(shù)。歐式距離的特征是:平移不變性、旋轉(zhuǎn)不變性。馬式距離的特征則是:平移不變性、旋轉(zhuǎn)不變性、尺度不變性。一個(gè)標(biāo)量表示一個(gè)單獨(dú)的數(shù),它不同于線性代數(shù)中研究的其他大部分對(duì)象(通常是多個(gè)數(shù)的數(shù)組)。一個(gè)向量表示一組有序排列的數(shù)。通過次序中的索引,我們可以確定每個(gè)單獨(dú)的數(shù)。矩陣是具有相同特征和緯度的對(duì)象的集合,表現(xiàn)為一張二維數(shù)據(jù)表。在某些情況下,我們會(huì)討論坐標(biāo)超過兩維的數(shù)組。一般地,一個(gè)數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中,我們將其稱之為張量。線性回歸如果是泊松分布,那就是泊松回歸?;貧w常用評(píng)估方法:平均誤差,絕對(duì)值誤差,R2.經(jīng)驗(yàn)誤差(empiricalerror)也叫訓(xùn)練誤差。問答題:1.L1和L2正則先驗(yàn)分別服從什么分布?答:L1和L2正則先驗(yàn)分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。2.為什么樸素貝葉斯如此“樸素”?答:因?yàn)樗俣ㄋ械奶卣髟跀?shù)據(jù)集中的作用是同樣重要和獨(dú)立的。正如我們所知,這個(gè)假設(shè)在現(xiàn)實(shí)世界中是很不真實(shí)的,因此,說樸素貝葉斯真的很“樸素”。3.簡(jiǎn)單說下有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別?答:有監(jiān)督學(xué)習(xí):對(duì)具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。(LR,SVM,BP,RF,GBDT)無監(jiān)督學(xué)習(xí):對(duì)未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識(shí)。(KMeans,DL)4.梯度下降法找到的一定是下降最快的方向么?答:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面(當(dāng)然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認(rèn)為是下降最快的方向,可以達(dá)到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復(fù)雜約束的問題)。5.什么是最小二乘法?答:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。6.簡(jiǎn)單介紹下Logistics回歸。答:Logistic回歸目的是從特征學(xué)習(xí)出一個(gè)0/1分類模型,而這個(gè)模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負(fù)無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率。7.常見的分類算法有哪些?答:SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯8.常見的監(jiān)督學(xué)習(xí)算法有哪些?答:感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸9.帶核的SVM為什么能分類非線性問題?答:核函數(shù)的本質(zhì)是兩個(gè)函數(shù)的內(nèi)積,而這個(gè)函數(shù)在SVM中可以表示成對(duì)于輸入值的高維映射。注意核并不是直接對(duì)應(yīng)映射,核只不過是一個(gè)內(nèi)積。10.決策樹的剪枝方法有哪些?答:預(yù)剪枝:提前結(jié)束決策樹的增長(zhǎng):類目數(shù)量、方差性能提升后剪枝:決策樹生長(zhǎng)完成之后再進(jìn)行剪枝11.SVM的超參有哪些?答:C和gamma,C正則系數(shù),gamma決定支持向量的數(shù)量。12.有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡(jiǎn)單地考慮取二值),數(shù)據(jù)集D2和D1基本一樣,唯一的區(qū)別是D2中每個(gè)樣本的某個(gè)特征被重復(fù)了100次,請(qǐng)問在這兩個(gè)數(shù)據(jù)集上訓(xùn)練的樸素貝葉斯分類器是否一樣,請(qǐng)給出具體分析。解:分類器是不一樣的。因?yàn)闃闼刎惾~斯方法假設(shè)了特征間的獨(dú)立性,但D2中的100個(gè)特征彼此不獨(dú)立,因此不在適用,如果用了兩者的結(jié)果不等。在D2上訓(xùn)練,被重復(fù)的特征的概率會(huì)被乘100次,放大了它的影響。13.一元線性回歸有哪些基本假定?答:假設(shè)1、解釋變量X是確定性變量,Y是隨機(jī)變量;假設(shè)2、隨機(jī)誤差項(xiàng)ε具有零均值、同方差和不序列相關(guān)性:E(εi)=0i=1,2,…,n14.SVM、LR、決策樹的對(duì)比。模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡(jiǎn)單,訓(xùn)練速度快,適合處理線性問題;決策樹容易過擬合,需要進(jìn)行剪枝。損失函數(shù):SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度:SVM添加容忍度對(duì)outlier不敏感,只關(guān)心支持向量,且需要先做歸一化;LR對(duì)遠(yuǎn)點(diǎn)敏感。數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核。15.樸素貝葉斯的特點(diǎn)是?答:優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點(diǎn):對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。16.樸素貝葉斯的應(yīng)用場(chǎng)景有哪些?答:文檔的自動(dòng)分類。17.決策樹算法特點(diǎn)。答:優(yōu)點(diǎn):計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解,數(shù)據(jù)有缺失也能跑,可以處理不相關(guān)特征。缺點(diǎn):容易過擬合。適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型。18.預(yù)剪枝核心思想是?答:其中的核心思想就是,在每一次實(shí)際對(duì)結(jié)點(diǎn)進(jìn)行進(jìn)一步劃分之前,先采用驗(yàn)證集的數(shù)據(jù)來驗(yàn)證劃分是否能提高劃分的準(zhǔn)確性。如果不能,就把結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)并退出進(jìn)一步劃分;如果可以就繼續(xù)遞歸生成節(jié)點(diǎn)。19.兩種剪枝策略對(duì)比。答:后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支;后剪枝決策樹的欠擬合風(fēng)險(xiǎn)很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹;后剪枝決策樹訓(xùn)練時(shí)間開銷比未剪枝決策樹和預(yù)剪枝決策樹都要大的多。20.SVM算法應(yīng)用場(chǎng)景有哪些?答:人臉識(shí)別(facerecognition)、文本分類(textcategorization)等模式識(shí)別(patternrecognition)問題當(dāng)中。21.什么是梯度?答:梯度就是把每一個(gè)維度的偏導(dǎo)數(shù)集合在一起做一個(gè)向量。對(duì)于多元函數(shù)的θ,每次減去梯度值就能讓多元損失函數(shù)朝著最佳解邁進(jìn)一步22.什么是下降?答:負(fù)梯度這個(gè)向量構(gòu)成的方向我們通常稱為下降方向梯度下降就是把每一個(gè)維度的偏導(dǎo)數(shù)集合在一個(gè)組合的一個(gè)向量按照負(fù)方向進(jìn)行估測(cè)計(jì)算,從而找出最優(yōu)的解。23.過擬合出現(xiàn)的原因?答:抽取的數(shù)量比較小,觀測(cè)到的特征少,在模型訓(xùn)練的過程中將訓(xùn)練集中的一些偶然現(xiàn)象做了規(guī)律。24.什么是損失函數(shù)?損失函數(shù)的用途是什么?答:損失函數(shù)用于評(píng)估ytrue和yhat之間差值的優(yōu)良程度。損失函數(shù)用于求最優(yōu)解,一般是利用求導(dǎo)求出損失函數(shù)導(dǎo)函數(shù),再利用數(shù)值解找到最小值,此時(shí)可以求出最優(yōu)解。25.定義一下prediction精準(zhǔn)率、recall召回率答:(準(zhǔn)確率是accuracy)召回率就是Q4中的真正率。精準(zhǔn)率指的是:正樣本被預(yù)測(cè)為正所占所有預(yù)測(cè)為正樣本數(shù)的比例。26.概率和似然有什么區(qū)別?答:概率和似然都是指可能性,但在統(tǒng)計(jì)學(xué)中,概率和似然有截然不同的用法。概率描述了已知參數(shù)時(shí)的隨機(jī)變量的輸出結(jié)果;似然則用來描述已知隨機(jī)變量輸出結(jié)果時(shí),未知參數(shù)的可能取值。例如,對(duì)于“一枚正反對(duì)稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時(shí)十次都是正面向上的“概率”是多少;而對(duì)于“一枚硬幣上拋十次,我們則可以問,這枚硬幣正反面對(duì)稱的“似然”程度是多少。概率(密度)表達(dá)給定θ下樣本隨機(jī)向量X=x的可能性,而似然表達(dá)了給定樣本X=x下參數(shù)θ1(相對(duì)于另外的參數(shù)θ2)為真實(shí)值的可能性。我們總是對(duì)隨機(jī)變量的取值談概率,而在非貝葉斯統(tǒng)計(jì)的角度下,參數(shù)是一個(gè)實(shí)數(shù)而非隨機(jī)變量,所以我們一般不談一個(gè)參數(shù)的概率,而說似然。27.如何對(duì)決策樹進(jìn)行剪枝?答:剪枝是決策樹發(fā)生過擬合后,為了降低模型復(fù)雜度,提高模型準(zhǔn)確率的一種做法??梢苑譃樽陨隙潞妥韵露蟽煞N。常見的方法有:誤差降低剪枝(REP)和代價(jià)復(fù)雜度剪枝(CCP)。REP簡(jiǎn)單的來說就是對(duì)樹的每一個(gè)結(jié)點(diǎn)進(jìn)行剪枝,如果剪掉某個(gè)結(jié)點(diǎn)不會(huì)降低模型準(zhǔn)確率,那么將其剪掉。這種啟發(fā)式的做法實(shí)際上就是為了最大化準(zhǔn)確率。28.什么時(shí)候你應(yīng)該使用分類而不是回歸?分類會(huì)產(chǎn)生離散的數(shù)值,使得數(shù)據(jù)嚴(yán)格的分為不同類?;貧w會(huì)得到連續(xù)的值,使你更好的區(qū)分獨(dú)立點(diǎn)之間的區(qū)別。當(dāng)你需要知道你的數(shù)據(jù)明確的屬于那些類時(shí)你可以用分類。29.什么是核技巧,有什么用處?答:核技巧使用核函數(shù),確保在高維空間不需要明確計(jì)算點(diǎn)的坐標(biāo),而是計(jì)算數(shù)據(jù)的特征空間中的內(nèi)積。這使其具有一個(gè)很有用的屬性:更容易的計(jì)算高維空間中點(diǎn)的坐標(biāo)。許多算法都可以表示稱這樣的內(nèi)積形式,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運(yùn)用算法進(jìn)行計(jì)算。30.解決維度災(zāi)難問題:答:主成分分析法PCA,線性判別法LDA、奇異值分解簡(jiǎn)化數(shù)據(jù)、拉普拉斯特征映射、Lassio縮減系數(shù)法、小波分析法第8章隨機(jī)森林選擇題(30題)1.當(dāng)你使用Boosting提升算法時(shí),你會(huì)考慮弱學(xué)習(xí)器,以下哪項(xiàng)是使用弱學(xué)習(xí)器的主要原因?(B)A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對(duì)2.梯度提升中,利用學(xué)習(xí)率來獲得最優(yōu)輸出是非常重要的,在選擇學(xué)習(xí)速率時(shí),下列描述正確的是:(D)A.學(xué)習(xí)率越大越好B.學(xué)習(xí)率越小越好C.學(xué)習(xí)率應(yīng)該小一點(diǎn)但是不能太小D.學(xué)習(xí)率不能太大也不能太小,根據(jù)情況而定3.下列哪個(gè)算法不是集成學(xué)習(xí)算法的例子:(E)A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree4.你使用隨機(jī)森林生成了幾百顆樹(T1,T2,...,Tn),然后對(duì)這些樹的預(yù)測(cè)結(jié)果進(jìn)行綜合,下列說法正確的是:(D)1、每棵樹是通過所有數(shù)據(jù)的子集構(gòu)建而成的2、每棵樹學(xué)習(xí)的樣本數(shù)據(jù)都是通過隨機(jī)有放回采樣而得的3、每棵樹是通過數(shù)據(jù)集的子集和特征的子集構(gòu)建而成的4、每棵樹是通過所有的數(shù)據(jù)構(gòu)建而成的A.1和2B.2和4C.1、2和3D.2和35.下面關(guān)于隨機(jī)森林和GBDT的說法正確的是:(E)①這兩種方法都可以用來解決分類問題②隨機(jī)森林解決分類問題,GBDT解決回歸問題③隨機(jī)森林解決回歸問題,GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④解析:GBDT能用于分類和回歸6.關(guān)于隨機(jī)森林和GBDT,下列說法錯(cuò)誤的是:(D)A.隨機(jī)森林中每個(gè)學(xué)習(xí)器是相互獨(dú)立的B.隨機(jī)森林利用了bagging的思想來構(gòu)建強(qiáng)學(xué)習(xí)器C.GBDT利用了Boosting的思想來構(gòu)建強(qiáng)學(xué)習(xí)器D.GBDT中每個(gè)學(xué)習(xí)器之間沒有任何聯(lián)系解析:GBDT屬于加法模型,后一個(gè)與前一個(gè)強(qiáng)依賴7.關(guān)于AdaBoost,下列說法中正確的是(多選):(AC)A.它是一種集成學(xué)習(xí)算法B.每個(gè)分類器的權(quán)重和被它正確分類的樣本的權(quán)重相同C.后一個(gè)基學(xué)習(xí)器要依賴于前一個(gè)基學(xué)習(xí)器的分類錯(cuò)誤率和樣本的權(quán)重D.后一個(gè)基學(xué)習(xí)器每次只學(xué)習(xí)前一個(gè)基學(xué)習(xí)器被分錯(cuò)的樣本解析:Adaboost屬于集成學(xué)習(xí),且屬于Boosting算法8.集成學(xué)習(xí)策略有哪些(D)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:上述都有。9.集成學(xué)習(xí)策略常用于分類的是:(A)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:投票法常用于分類10.集成學(xué)習(xí)策略常用于處理數(shù)值問題的是:(B)A.投票法B.平均法C.學(xué)習(xí)法D.上述都有解析:平均法常用于數(shù)值問題11.關(guān)于學(xué)習(xí)法表述正確的事(D)A.平均法和投票法是對(duì)弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對(duì)比較簡(jiǎn)單,但是可能學(xué)習(xí)誤差較大,于是就有了學(xué)習(xí)法。B.學(xué)習(xí)法是一種更為強(qiáng)大的結(jié)合策略,即通過另一個(gè)學(xué)習(xí)器來進(jìn)行結(jié)合。C.Stacking是學(xué)習(xí)法的典型代表。Stacking先從初級(jí)數(shù)據(jù)集訓(xùn)練出初級(jí)學(xué)習(xí)器,然后“生成”一個(gè)新數(shù)據(jù)集用于訓(xùn)練次級(jí)學(xué)習(xí)器。在這個(gè)新數(shù)據(jù)集中,初級(jí)學(xué)習(xí)器的輸出被當(dāng)作樣例輸入特征。D.上述都對(duì)解析:上述都對(duì)12.以下關(guān)于Bagging算法的特點(diǎn)描述正確的是(D)A.Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差B.bagging對(duì)樣本進(jìn)行有放回的重采樣,學(xué)習(xí)結(jié)果是各個(gè)學(xué)習(xí)模型的平均值C.由于重采樣的樣本集具有相似性以及使用相同的學(xué)習(xí)器模型,因此,各學(xué)習(xí)模型的結(jié)果相近,即模型有近似相等的偏差和方差。D.以上描述都對(duì)解析:上述描述都正確13.以下關(guān)于Bagging特點(diǎn)的結(jié)束不正確的是(A)A.Bagging是一個(gè)很低效的集成學(xué)習(xí)算法B.Bagging復(fù)雜度與基學(xué)習(xí)器同階C.由于每一個(gè)樣本被選中的概率相同,因此bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例。D.對(duì)于噪聲數(shù)據(jù),bagging不太受過分?jǐn)M合的影響。解析:Bagging是一個(gè)很高效的集成學(xué)習(xí)算法14.下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法?(B)A.隨機(jī)森林B.PCAC.KmeansD.GBDT解析:PCA屬于確定的,沒有隨機(jī)過程15.下列屬于無監(jiān)督學(xué)習(xí)的是(A)A、k-meansB、SVMC、最大熵D、CRF解析:其他的都是有監(jiān)督的16.在其他條件不變的前提下,以下哪種做法容易引起機(jī)器學(xué)習(xí)中的過擬合問題?(B)A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核解析:模型過于簡(jiǎn)單容易過擬合17.關(guān)于隨機(jī)森林核心思想描述正確的是:(D)A.自助采樣法:同baggingB.傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性。C.在隨機(jī)森林中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再從這個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。D.上述都對(duì)解析:上述表述都正確18.隨機(jī)森林算法流程表述正確的是(E)A.從原始樣本集M個(gè)樣本中使用bootstrap(有放回的隨機(jī)抽樣)采樣法選出m個(gè)樣本;B.從所有n個(gè)屬性中隨機(jī)選擇k個(gè)屬性,一般令k的值為〖??????〗_2??;C.選擇最佳分割屬性(ID3,C4.5,CART)作為節(jié)點(diǎn)創(chuàng)建決策樹;D.重復(fù)以上步驟S次,建立S顆決策樹,即形成隨機(jī)森林;E.上述都對(duì)解析:上述都對(duì)19.關(guān)于隨機(jī)森林影響因素表述正確的是(A)A.森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯(cuò)誤率越大;B.森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯(cuò)誤率越小;C.每棵樹的分類能力越強(qiáng),整個(gè)森林的錯(cuò)誤率越高。D.上述都錯(cuò)解析:森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯(cuò)誤率越大,每棵樹的分類能力越強(qiáng),整個(gè)森林的錯(cuò)誤率越低20.關(guān)于隨機(jī)森林優(yōu)點(diǎn)表述正確的是(B)A.簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開銷大、準(zhǔn)確率低;B.簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開銷小、準(zhǔn)確率高;C.能夠有效地運(yùn)行在大數(shù)據(jù)集上,不可以實(shí)現(xiàn)并行訓(xùn)練D.無法運(yùn)行在大數(shù)據(jù)集上,但可以實(shí)現(xiàn)并行訓(xùn)練解析:簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開銷小、準(zhǔn)確率高;能夠有效地運(yùn)行在大數(shù)據(jù)集上,可以實(shí)現(xiàn)并行訓(xùn)練;21.關(guān)于隨機(jī)森林優(yōu)點(diǎn)表述正確的是(B)A.能夠處理具有高維特征的輸入樣本,需要降維B.能夠處理具有高維特征的輸入樣本,不需要降維C.不能夠處理具有高維特征的輸入樣本,而且不需要降維;D.能夠處理具有高維特征的輸入樣本,需要降維;解析:能夠處理具有高維特征的輸入樣本,而且不需要降維;22.關(guān)于隨機(jī)森林優(yōu)點(diǎn)表述不正確的是(C)A.能夠評(píng)估各個(gè)特征在分類問題上的重要性B.對(duì)部分缺失特征不敏感C.對(duì)部分缺失特征敏感D.由于是樹模型,不需要?dú)w一化,可直接使用解析:對(duì)部分缺失特征不敏23.關(guān)于隨機(jī)森林優(yōu)點(diǎn)表述不正確的是(C)A.在生成過程中,能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì)B.不需要通過交叉驗(yàn)證C.用一個(gè)獨(dú)立的測(cè)試集來獲得該無偏估計(jì),無法在內(nèi)部進(jìn)行評(píng)估D.對(duì)部分缺失特征不敏感解析:用一個(gè)獨(dú)立的測(cè)試集來獲得該無偏估計(jì),它可以在內(nèi)部進(jìn)行評(píng)估24.關(guān)于隨機(jī)森林的缺點(diǎn)表述不正確的是(B)A.隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會(huì)過擬合B.隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上不會(huì)過擬合C.對(duì)于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。解析:隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會(huì)過擬合25.隨機(jī)森林的屬性選擇依據(jù)有哪些(D)

A.信息增益B.基尼系數(shù)C.均方差D.以上都是解析:以上都是26.隨機(jī)森林回歸樹的屬性選擇依據(jù)有哪些(C)

A.信息增益B.基尼系數(shù)C.均方差D.以上都是解析:回歸主要用均方差27.下列關(guān)于隨機(jī)森林本質(zhì)描述正確的是(D)A.隨機(jī)森林算法采用的是折線擬合的方式,其本質(zhì)在于屬性空間拆分B.因此當(dāng)樹足夠多時(shí),其訓(xùn)練數(shù)據(jù)擬合效果會(huì)比較好C.同時(shí)由于樣本和屬性選擇的隨機(jī)性,以及類別權(quán)重控制,對(duì)于處理傾斜數(shù)據(jù)存在一定效果D.上述都對(duì)解析:上述表述都正確28.相比最近鄰算法和貝葉斯的差異主要體現(xiàn)在哪些方面(D)A.決策樹類算法專注的是類別邊界的求取,與概率和距離類算法區(qū)分類別差異性存在較大的區(qū)別B.在面對(duì)樣本類別分不均勻問題的時(shí),前者表現(xiàn)會(huì)較好,而后者極易受到多占比樣本的影響C.其本質(zhì)在于屬性空間拆分,因此當(dāng)樹足夠多時(shí),其訓(xùn)練數(shù)據(jù)擬合效果會(huì)比較好D.上述都是解析:上述都是29.屬于隨機(jī)森林超參數(shù)的是(A)A.max_featuresB.feature_importances_C.scoreD.以上都不是解析:max_features屬于隨機(jī)森林超參數(shù)30.能用于對(duì)隨機(jī)森林進(jìn)行剪枝或約束樹生長(zhǎng)的參數(shù)有不包括哪一個(gè)(D)A.max_depthB.min_samples_leafC.min_samples_splitD.n_estimator解析:n_estimator限制學(xué)習(xí)器的個(gè)數(shù),不限制樹的生長(zhǎng),對(duì)錯(cuò)題(25題)1.隨機(jī)森林采用的是Bagging的思想,而GBDT采用的是Boosting的思想。(T)2.組成隨機(jī)森林的樹可以并行生成,而GBDT只能是串行生成。(T)3.隨機(jī)森林對(duì)異常值不敏感,而GBDT對(duì)異常值也不敏感。(F)4.隨機(jī)森林GBDT對(duì)訓(xùn)練集中需要預(yù)測(cè)錯(cuò)誤的樣本。(F)5.隨機(jī)森林是通過減少模型方差提高性能,是通過減少模型偏差提高性能的。(T)6.對(duì)于最終的輸出結(jié)果而言,隨機(jī)森林采用多數(shù)投票方法,而GBDT則是將所有結(jié)果累加或加權(quán)累加起來。(T)7.組成隨機(jī)森林的樹可以是分類樹,也可以說回歸樹,而GBDT只能由回歸樹組成。(T)8.隨機(jī)森林在解決回歸問題時(shí),表現(xiàn)較差,這是因?yàn)樗⒉荒芙o出一個(gè)連續(xù)的輸出。(T)9.隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或者回歸問題上會(huì)過擬合。(T)10對(duì)于許多統(tǒng)計(jì)建模者來說,隨機(jī)森林給人的感覺就像一個(gè)黑盒子,無法控制模型內(nèi)部運(yùn)行(可控性差)。(T)11.集成學(xué)習(xí)通過將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,通常可獲得比單一學(xué)習(xí)器更優(yōu)的效果。?12.同質(zhì)集成中,個(gè)體學(xué)習(xí)器由相同的學(xué)習(xí)算法生成,個(gè)體學(xué)習(xí)器稱為基學(xué)習(xí)器。?13.異質(zhì)集成中,個(gè)體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成,個(gè)體學(xué)習(xí)器稱為組件學(xué)習(xí)器。?14.學(xué)習(xí)法:當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí),一種更強(qiáng)大的組合策略是“學(xué)習(xí)法”,解決投票法和平均法誤差較大的問題。?15.學(xué)習(xí)法是一種更為強(qiáng)大的結(jié)合策略,即通過另一個(gè)學(xué)習(xí)器來進(jìn)行結(jié)合。?16.平均法和投票法是對(duì)弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對(duì)比較簡(jiǎn)單,但是可能學(xué)習(xí)誤差較大,于是就有了學(xué)習(xí)法。?17.根據(jù)弱學(xué)習(xí)器之間是否存在依賴性,分為Bagging和Boosting。?18.Bagging各學(xué)習(xí)器之間強(qiáng)依賴。?解析:Bagging各學(xué)習(xí)器之間相互獨(dú)立19.Boosting各學(xué)習(xí)器之間強(qiáng)依賴。?20Bagging的代表算法有:Adaboost和GradientBoostingTree(GBDT)。?解析:Bagging的代表算法為隨機(jī)森林21.Boosting的代表算法有:Adaboost和GradientBoostingTree(GBDT)。?22.Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差?23.隨機(jī)森林(RandomForest,簡(jiǎn)稱RF)[Breiman,2001a]是Bagging的一個(gè)擴(kuò)展變體。RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。?24.在隨機(jī)森林中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再從這個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。?25.在分類問題中通過多數(shù)投票法決定輸出屬于哪一分類;在回歸問題中輸出所有決策樹輸出的平均值。?填空題(5題)1.boosting算法得基本原理,以及的三種典型算法原理:adaboost,GBM(Gradientbosstingmachine),XGBoost。2.Adaboost提供一種框架,在框架內(nèi)可以使用各種方法構(gòu)建子分類器,可以使用簡(jiǎn)單的弱分類器,不用對(duì)特征進(jìn)行篩選,也不存在過擬合的現(xiàn)象。3.Adaboost算法不需要弱分類器的先驗(yàn)知識(shí),最后得到的強(qiáng)分類器的分類精度依賴于所有弱分類器。無論是應(yīng)用于人造數(shù)據(jù)還是真實(shí)數(shù)據(jù),Adaboost都能顯著的提高學(xué)習(xí)精度。4.Adaboost算法不需要預(yù)先知道弱分類器的錯(cuò)誤率上限,且最后得到的強(qiáng)分類器的分類精度依賴于所有弱分類器的分類精度,可以深挖分類器的能力,Adaboost可以根據(jù)弱分類器的反饋,自適應(yīng)地調(diào)整假定的錯(cuò)誤率,執(zhí)行的效率高。5.Adaboost可以在不改變訓(xùn)練數(shù)據(jù),只改變數(shù)據(jù)權(quán)值分布,使得數(shù)據(jù)在不同學(xué)習(xí)器中產(chǎn)生不同作用,類似于重采樣。問答題(6題)1.如果你已經(jīng)在完全相同的訓(xùn)練集上訓(xùn)練了五個(gè)不同的模型,并且它們都達(dá)到了95%的準(zhǔn)確率,是否還有機(jī)會(huì)通過結(jié)合這些模型來獲得更好的結(jié)果?如果可以,該怎么做?如果不行,為什么?答:如果你已經(jīng)訓(xùn)練了五個(gè)不同的模型,并且都達(dá)到了95%的精度,你可以嘗試將它們組合成一個(gè)投票集成,這通常會(huì)帶來更好的結(jié)果。如果模型之間非常不同(例如,一個(gè)SVM分類器,一個(gè)決策樹分類器,以及一個(gè)Logistic回歸分類器等),則效果更優(yōu)。如果它們是在不同的訓(xùn)練實(shí)例(這是bagging和pasting集成的關(guān)鍵點(diǎn))上完成訓(xùn)練,那就更好了,但如果不是,只要模型非常不同,這個(gè)集成仍然有效。2.硬投票分類器和軟投票分類器有什么區(qū)別?答:硬投票分類器只是統(tǒng)計(jì)每個(gè)分類器的投票,然后挑選出得票最多的類別。軟投票分類器計(jì)算出每個(gè)類別的平均估算概率,然后選出概率最高的類別。它比硬投票法的表現(xiàn)更優(yōu),因?yàn)樗o予那些高度自信的投票更高的權(quán)重。但是它要求每個(gè)分類器都能夠估算出類別概率才可以正常工作(例如,Scikit-Learn中的SVM分類器必須要設(shè)置probability=True)。3.是否可以通過在多個(gè)服務(wù)器上并行來加速bagging集成的訓(xùn)練?pasting集成呢?boosting集成呢?隨機(jī)森林或stacking集成呢?答:對(duì)于bagging集成來說,將其分布在多個(gè)服務(wù)器上能夠有效加速訓(xùn)練過程,因?yàn)榧芍械拿總€(gè)預(yù)測(cè)器都是獨(dú)立工作的。同理,對(duì)于pasting集成和隨機(jī)森林來說也是如此。但是,boosting集成的每個(gè)預(yù)測(cè)器都是基于其前序的結(jié)果,因此訓(xùn)練過程必須是有序的,將其分布在多個(gè)服務(wù)器上毫無意義。對(duì)于stacking集成來說,某個(gè)指定層的預(yù)測(cè)器之間彼此獨(dú)立,因而可以在多臺(tái)服務(wù)器上并行訓(xùn)練,但是,某一層的預(yù)測(cè)器只能在其前一層的預(yù)測(cè)器全部訓(xùn)練完成之后,才能開始訓(xùn)練。4.包外評(píng)估的好處是什么?答:包外評(píng)估可以對(duì)bagging集成中的每個(gè)預(yù)測(cè)器使用其未經(jīng)訓(xùn)練的實(shí)例進(jìn)行評(píng)估。不需要額外的驗(yàn)證集,就可以對(duì)集成實(shí)施相當(dāng)公正的評(píng)估。所以,如果訓(xùn)練使用的實(shí)例越多,集成的性能可以略有提升。5.是什么讓極端隨機(jī)樹比一般隨機(jī)森林更加隨機(jī)?這部分增加的隨機(jī)性有什么用?極端隨機(jī)樹比一般隨機(jī)森林快還是慢?答:隨機(jī)森林在生長(zhǎng)過程中,每個(gè)節(jié)點(diǎn)的分裂僅考慮到了特征的一個(gè)隨機(jī)子集。極限隨機(jī)樹也是如此,它甚至走得更遠(yuǎn):常規(guī)決策樹會(huì)搜索出特征的最佳閾值,極限隨機(jī)樹直接對(duì)每個(gè)特征使用隨機(jī)閾值。這種極限隨機(jī)性就像是一種正則化的形式:如果隨機(jī)森林對(duì)訓(xùn)練數(shù)據(jù)出現(xiàn)過度擬合,那么極限隨機(jī)樹可能執(zhí)行效果更好。更甚的是,極限隨機(jī)樹不需要計(jì)算最佳閾值,因此它訓(xùn)練起來比隨機(jī)森林快得多。但是,在做預(yù)測(cè)的時(shí)候,相比隨機(jī)森林它不快也不慢6.如果你的AdaBoost集成對(duì)訓(xùn)練數(shù)據(jù)擬合不足,你應(yīng)該調(diào)整哪些超參數(shù)?怎么調(diào)整?答:如果你的AdaBoost集成對(duì)訓(xùn)練集擬合不足,可以嘗試提升估算器的數(shù)量或是降低基礎(chǔ)估算器的正則化超參數(shù)。你也可以嘗試略微提升學(xué)習(xí)率。7.如果你的梯度提升集成對(duì)訓(xùn)練集過度擬合,你是應(yīng)該提升還是降低學(xué)習(xí)率?答:如果你的梯度提升集成對(duì)訓(xùn)練集過度擬合,你應(yīng)該試著降低學(xué)習(xí)率,也可以通過早停法來尋找合適的預(yù)測(cè)器數(shù)量(可能是因?yàn)轭A(yù)測(cè)器太多)第9章AdaBoost選擇題(30題)1.AdaBoost算法訓(xùn)練弱分類器的過程中,如果某個(gè)樣本已經(jīng)在上一個(gè)弱分類器中被準(zhǔn)確地分類,那么在構(gòu)造下一個(gè)訓(xùn)練集時(shí),它的權(quán)重將被:(B)。

A升高

B降低

C不變

D置0解析:錯(cuò)分樣本權(quán)重會(huì)降低。2.RegionBoost與AdaBoost相比:(A)

A訓(xùn)練誤差通常降低較慢

B訓(xùn)練誤差能夠趨近于0

C測(cè)試誤差可能優(yōu)于AdaBoost

D有較多的參數(shù)需要設(shè)置解析:RegionBoost每次更新單元為region因此速度較慢3.AdaBoost中基礎(chǔ)分類器的權(quán)重設(shè)置策略存在的問題有:(B)

A計(jì)算復(fù)雜

B不能保證是最優(yōu)解

C需要用戶進(jìn)行手工設(shè)置

D不能根據(jù)測(cè)試樣本進(jìn)行自適應(yīng)調(diào)整解析:存在隨機(jī)過程,不能保證全局最優(yōu)4.AdaBoost算法的優(yōu)點(diǎn)有: (B)

A容易實(shí)現(xiàn)

B可解釋性強(qiáng)

C參數(shù)選擇簡(jiǎn)單

D不容易過學(xué)習(xí)

E抗噪聲能力強(qiáng)解析:Adaboost加法模型,可解釋性較強(qiáng)5.AdaBoost中核心參數(shù)alpha的取值為(e為模型錯(cuò)誤率): (B)A1/2ln((1-e)/e)

Bln((1-e)/e)

C1/2ln(e/(1-e))

Dln(e/(1-e))解析:alpha取值為ln((1-e)/e)6.在AdaBoost算法中,Z的作用是:(C)

A確保在t+1代所有樣本權(quán)重之和為1

B一個(gè)用于標(biāo)準(zhǔn)化的變量,可有可無

C可以用來描述算法的訓(xùn)練誤差上界

D較小的Z值說明當(dāng)前分類器的效果較好解析:Ada算法可以用來描述算法的訓(xùn)練誤差上界7.對(duì)AdaBoost描述正確的是:(A)

A可以集成出訓(xùn)練誤差任意低的分類器

B基礎(chǔ)分類器可以任意弱(準(zhǔn)確率高于50%)

C通過對(duì)樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果

D被當(dāng)前基礎(chǔ)分類器分錯(cuò)的樣本的權(quán)重將會(huì)減小解析:可以集成出訓(xùn)練誤差任意低的分類器,基學(xué)習(xí)器效果強(qiáng)會(huì)更好8.在scikit-learn中,如何處理多類分類(Multi-classclassification)問題?D

A.scikit-learn無法實(shí)現(xiàn)多類分類

B.scikit-learn只能用one-vs.-all實(shí)現(xiàn)多類分類

C.scikit-learn只能用one-vs.-the-rest方法實(shí)現(xiàn)多類分類

D.scikit-learn可以使用one-vs-one或one-vs.-the-rest方法實(shí)現(xiàn)多類分類,即將多類分類問題轉(zhuǎn)化為構(gòu)建若干個(gè)兩類的分類器解析:可以使用one-vs-one或one-vs.-the-rest方法實(shí)現(xiàn)多類分類,即將多類分類問題轉(zhuǎn)化為構(gòu)建若干個(gè)兩類的分類器9.以下哪個(gè)選項(xiàng)對(duì)最小化可行產(chǎn)品的說法不正確?(AC)

A.以最少工作量和最短開發(fā)時(shí)間來完成Build-Measure-Learn的產(chǎn)品版本。

B.該版本可能缺少很多重要功能,但其目的是測(cè)試市場(chǎng)的接受度。

C.在一個(gè)公司的創(chuàng)業(yè)階段,最重要的維度就是預(yù)算。

D.該模型需要確保我們正在創(chuàng)造人們真正想要的東西。解析:最小可執(zhí)行demo,創(chuàng)業(yè)階段最重要方案可行。10.對(duì)AdaBoost描述正確的是:(C)A.可以集成出訓(xùn)練誤差任意低的分類器B.基礎(chǔ)分類器可以任意弱C.通過對(duì)樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果D.被當(dāng)前基礎(chǔ)分類器分錯(cuò)的樣本的權(quán)重將會(huì)減小解析:Adaboost屬于加法模型,通過對(duì)樣本進(jìn)行加權(quán)達(dá)到改變訓(xùn)練集的效果11.LDA與PCA最本質(zhì)的區(qū)別是:CA能夠降到的維數(shù)不同B計(jì)算效率不同C降維的目標(biāo)不同D我讀書少,看不出來解析:LDA有監(jiān)督學(xué)習(xí)12.Adaboost于隨機(jī)森林相比存在的優(yōu)勢(shì):(A)A.?dāng)M合效果更好B.并行能力更強(qiáng)C.對(duì)缺失值的處理效果更好D.小樣本處理能力更差解析:擬合效果更好13.Adaboost如何處理多分類問題(A)A.使用SAMME及SAMME.R算法進(jìn)行多分類分析B.使用多棵樹進(jìn)行多分類分析C.使用softmax進(jìn)行多分類分析D.以上都不對(duì)解析:使用SAMME及SAMME.R算法進(jìn)行多分類分析14.關(guān)于Adaboost多分類描述正確的是(D)A.SAMME是二分類Adaboost算法的擴(kuò)展B.SAMME.R使用了對(duì)樣本集分類的預(yù)測(cè)概率大小來作為弱學(xué)習(xí)器權(quán)重C.由于SAMME.R使用了概率度量的連續(xù)值,迭代一般比SAMME快,因此AdaBoostClassifier的默認(rèn)算法algorithm的值也是SAMME.R。D.上述都對(duì)解析:上述表述都正確15.關(guān)于Adaboost優(yōu)點(diǎn)描述正確的是(B)A.容易受到噪聲干擾B.不用做特征篩選C.訓(xùn)練時(shí)間長(zhǎng)D.執(zhí)行效果依賴于弱學(xué)習(xí)器的選擇解析:B是優(yōu)點(diǎn),其他的都是缺點(diǎn)16.以下關(guān)于Boosting算法的描述,正確的是:(B)A.Boosting:降低方差。B.Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣本的權(quán)重發(fā)生變化,權(quán)值根據(jù)上一輪的預(yù)測(cè)結(jié)果進(jìn)行調(diào)整。C.Boosting:各個(gè)學(xué)習(xí)器可以并行生成。D.Boosting:每個(gè)弱學(xué)習(xí)器都有相應(yīng)的權(quán)重,對(duì)于誤差大的學(xué)習(xí)器會(huì)有更大的權(quán)重。解析:Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣本的權(quán)重發(fā)生變化,權(quán)值根據(jù)上一輪的預(yù)測(cè)結(jié)果進(jìn)行調(diào)整。17.AdaBoost算法中,參數(shù)alpha的作用是:(D)A.用于計(jì)算分類誤差率B.規(guī)范化因子C.表示了訓(xùn)練集的樣本權(quán)重D.表示了基本分類器的重要性解析:alpha是規(guī)范化因子18.sklearn中,AdaBoostClassifier的默認(rèn)算法是:(A)A.SAMME.RB.SAMMEC.R2D.CART解析:SAMME.R用來做分類19.scikit-learn中,AdaBoostRegressor用于回歸,其使用的算法是:(C)A.SAMMEB.SAMME.RC.Adaboost.R2D.Adaboost.R解析:Adaboost.R2主要用來做回歸20.scikit-learn中,使用AdaBoostRegressor類處理回歸任務(wù)時(shí),可以選擇不同的loss計(jì)算方式,分別有哪幾項(xiàng):(ABD)A.linearB.squareC.absoluteD.exponential解析:回歸任務(wù)時(shí)通常使用linear,square,exponential損失函數(shù),默認(rèn)是linear21.scikit-learn中,使用AdaBoostRegressor類處理回歸任務(wù)時(shí),loss的默認(rèn)值是:(A)A.line

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論