《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫 試題及答案_第1頁
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫 試題及答案_第2頁
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫 試題及答案_第3頁
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫 試題及答案_第4頁
《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫 試題及答案_第5頁
已閱讀5頁,還剩112頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《機(jī)器學(xué)習(xí)-Python實(shí)踐》習(xí)題庫第一章機(jī)器學(xué)習(xí)入門基礎(chǔ)一、選擇題1.人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系是怎樣的?A.人工智能包括機(jī)器學(xué)習(xí)與深度學(xué)習(xí)兩部分,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)是并列關(guān)系。B.深度學(xué)習(xí)包括人工智能與機(jī)器學(xué)習(xí)兩部分,人工智能與機(jī)器學(xué)習(xí)是并列關(guān)系。C.人工智能包含機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)包含深度學(xué)習(xí),三者屬于包含關(guān)系。D.深度學(xué)習(xí)包含人工智能,人工智能包含機(jī)器學(xué)習(xí),三者屬于包含關(guān)系。答案:C解析:當(dāng)今AI中包含了有兩個關(guān)鍵技術(shù)——機(jī)器學(xué)習(xí)和深度學(xué)習(xí),所以說,其實(shí)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都屬于AI的范疇。只不過,機(jī)器學(xué)習(xí)是AI的一個分支技術(shù),而深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)里的特定分支技術(shù),三者是包含關(guān)系,不沖突也不并列。2.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)可分為哪幾大類?A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.半監(jiān)督學(xué)習(xí)D.增強(qiáng)學(xué)習(xí)答案:ABCD解析:教材原話,第一章,1.3小節(jié)。3.特征選擇的必要性主要在于以下幾點(diǎn)?A.減少訓(xùn)練的時間,能使用較少的特征更快地生成模型。B.簡化模型,使模型更容易被使用者所解釋。C.可以選擇一些多余的特征。D.使模型的泛化能力更好,避免過擬合。答案:ABD解析:教材原話,第一章,1.4小節(jié)第三步。4.下面哪個不是特征選擇的主要方法:A.過濾法(filter)B.包裹法(wapper)C.嵌入法(Embedded)D.幻想法(imagination)答案:D解析:特征選擇的方法有過濾法(filter)、包裹法(wapper)、嵌入法(Embedded)等。5.機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域有以下哪些:A.智能汽車B.詐騙檢測C.金融交易D.個性化營銷推廣答案:ABCD解析:人工智能在各行業(yè)應(yīng)用越來越廣泛,機(jī)器學(xué)習(xí)作為人工智能關(guān)鍵技術(shù)領(lǐng)域,其應(yīng)用涉及產(chǎn)品推薦、自動駕駛、金融預(yù)測、自然語言處理等領(lǐng)域。6.以下說法錯誤的是哪一項:A.Anaconda是一個基于Python的數(shù)據(jù)處理和科學(xué)計算平臺,它已經(jīng)內(nèi)置了許多非常有用的第三方庫B.PyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具C.JupyterNotebook的本質(zhì)是一個Web應(yīng)用程序,便于創(chuàng)建和共享文學(xué)化程序文檔,支持實(shí)時代碼,數(shù)學(xué)方程,可視化和markdown。D.Spyder是一個Python爬蟲框架。答案:D解析:Spyder是Python(x,y)的作者為它開發(fā)的一個簡單的集成開發(fā)環(huán)境。7.下列選項中機(jī)器學(xué)習(xí)主要涉及三大要素不包含哪個?A.數(shù)據(jù)B.設(shè)備C.算法D.模型答案:B解析:機(jī)器學(xué)習(xí)主要涉及數(shù)據(jù)、算法和模型這三大要素。第一章,1.1小節(jié)。8.在實(shí)際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)答案:D解析:常識。第一章,1.4小節(jié)。8.在實(shí)際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)答案:D解析:常識。第一章,1.4小節(jié)。9.根據(jù)表格,請選擇說法正確的選項?表1-2臟數(shù)據(jù)舉例序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍(lán)色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六A.李四的體重是空值,屬于數(shù)據(jù)不完整的情況。B.王五的身高是250cm,屬于異常情況。C.趙六喜歡的顏色是趙六,屬于矛盾情況。D.以上三種答案均正確答案:D解析:常識。第一章,1.4小節(jié)。10.以下哪個命令可以查看Python的版本號?A.python-VB.py-vC.py-VD.py--version答案:A解析:實(shí)訓(xùn)內(nèi)容。11.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)的類型不包含以下哪種()。A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.強(qiáng)化學(xué)習(xí)D.強(qiáng)調(diào)學(xué)習(xí)答案:D解析:第一章,1.3小節(jié)。12.常用的Python編程環(huán)境有哪些?A.JupyternotebookB.PyCharmC.SpyderD.ScalaIDE答案:D解析:D選項是編寫Scala代碼的。二、判斷題1.機(jī)器學(xué)習(xí)簡單來說就是讓機(jī)器進(jìn)行學(xué)習(xí),學(xué)習(xí)的目的是實(shí)現(xiàn)對世界上的人事物進(jìn)行預(yù)測或者判斷。答案:正確解析:教材原話,第一章,1.2小節(jié)。2.在機(jī)器學(xué)習(xí)實(shí)際的應(yīng)用場景中,絕對不允許出現(xiàn)錯誤。答案:錯誤解析:機(jī)器學(xué)習(xí)實(shí)際的應(yīng)用場景中,允許有一定的錯誤,只是對不同場景的準(zhǔn)確率要求會有所不同。3.機(jī)器學(xué)習(xí)的一般實(shí)施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評估測試、模型部署應(yīng)用等步驟。答案:正確解析:教材原話,第一章,1.4小節(jié)。4.數(shù)據(jù)對于模型來說就是至關(guān)重要的,是模型能力的天花板,沒有好的數(shù)據(jù),就沒有好的模型。答案:正確解析:教材原話,第一章,1.4小節(jié)。5.通過在測試集上完成評估的模型,就可以用來預(yù)測新數(shù)據(jù)的值。這時,需要將該模型部署到實(shí)際的生產(chǎn)場景中,部署好后為了確保模型的準(zhǔn)確性,則不再需要對模型進(jìn)行調(diào)整。答案:錯誤解析:部署好后,需要根據(jù)業(yè)務(wù)場景的真實(shí)數(shù)據(jù)對模型進(jìn)行不斷的微調(diào)。6.業(yè)界普遍認(rèn)為機(jī)器學(xué)習(xí)是專門研究計算機(jī)怎樣模擬人類的學(xué)習(xí)行為,進(jìn)行新知識和新技能的獲取,并不斷通過重組知識結(jié)構(gòu)來改善自身性能的一種技術(shù)。答案:正確解析:參考教材第一章,1.1小節(jié)。7.增強(qiáng)學(xué)習(xí),在一些書籍里也稱為強(qiáng)化學(xué)習(xí)。答案:正確解析:擴(kuò)展題。8.在機(jī)器學(xué)習(xí)實(shí)施流程的特征提取與選擇步驟,我們不會把“藍(lán)色”、“紅色”、“黑色”直接輸入給模型。答案:正確解析:需要將類別數(shù)據(jù)編碼成為對應(yīng)的數(shù)值表示。9.對于一些簡單統(tǒng)計的應(yīng)用場景,為了體現(xiàn)統(tǒng)計領(lǐng)域的專業(yè)性,也需要使用上機(jī)器學(xué)習(xí)。答案:錯誤解析:對于一些簡單統(tǒng)計的應(yīng)用場景,通過個別規(guī)則就可以解決時,就不需要“大材小用”地應(yīng)用機(jī)器學(xué)習(xí)來完成。10.機(jī)器學(xué)習(xí)本質(zhì)上是一個提高效率的工具。答案:正確解析:參考教材第一章,1.2小節(jié)。三、填空題1.請給下方圖中序號處填入相應(yīng)的內(nèi)容:、。答案:訓(xùn)練、預(yù)測解析:教材原圖,第一章,1.2小節(jié)。2.典型的數(shù)據(jù)集類似于一個二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個,每一列的屬性稱為。答案:數(shù)據(jù)樣本(或者樣本)、特征。解析:教材原話,第一章,1.4小節(jié)第一步。3.數(shù)據(jù)經(jīng)過預(yù)處理之后,就可以用來訓(xùn)練模型,一般會把數(shù)據(jù)集分為和。答案:訓(xùn)練集、測試集。解析:教材原話,第一章,1.4小節(jié)第四步。4.從研究領(lǐng)域角度分,機(jī)器學(xué)習(xí)可分、、、四大類。答案:監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),增強(qiáng)學(xué)習(xí)。解析:教材原話,第一章,1.3小節(jié)。5.在實(shí)際應(yīng)用場景中,使用最多的還是和兩大類。答案:監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)。解析:教材原話,第一章,1.3小節(jié)。四、問答題1.請簡述一下對監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的基本概念。參考答案:監(jiān)督學(xué)習(xí)是通過學(xué)習(xí)已有的標(biāo)記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進(jìn)行預(yù)測。無監(jiān)督學(xué)習(xí)也可稱為非監(jiān)督學(xué)習(xí),通過學(xué)習(xí)沒有標(biāo)記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間的隱藏結(jié)構(gòu)關(guān)系,從而實(shí)現(xiàn)預(yù)測。半監(jiān)督學(xué)習(xí),它是一種在預(yù)測時,既使用已標(biāo)記的樣本數(shù)據(jù),也使用未標(biāo)記的樣本數(shù)據(jù)的方法,通常情況下,無標(biāo)記樣本的數(shù)量遠(yuǎn)超過有標(biāo)記樣本,因為有時候獲得有標(biāo)記數(shù)據(jù)的成本很高,所以在訓(xùn)練分類器模型時,先使用部分已經(jīng)標(biāo)記的數(shù)據(jù),在學(xué)習(xí)了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標(biāo)記的數(shù)據(jù)進(jìn)一步學(xué)得更好的模型,從而實(shí)現(xiàn)對數(shù)據(jù)的有效預(yù)測。所謂增強(qiáng)學(xué)習(xí),是通過與環(huán)境的交互,以推測和優(yōu)化實(shí)際的動作,從而實(shí)現(xiàn)決策。2.如果在模型診斷中發(fā)現(xiàn)了過擬合和欠擬合問題,請簡述解決思路。參考答案:過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個樣本,但在測試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復(fù)雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度來優(yōu)化。3.請描述機(jī)器學(xué)習(xí)的實(shí)施流程參考答案:數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、模型評估測試、模型部署應(yīng)用4.請簡述人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系。參考答案:機(jī)器學(xué)習(xí)為實(shí)現(xiàn)人工智能提供了方法,而深度學(xué)習(xí)則為實(shí)現(xiàn)機(jī)器學(xué)習(xí)提供了技術(shù)??偟膩砜?,其實(shí)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都屬于AI的范疇,機(jī)器學(xué)習(xí)是AI的一個分支技術(shù),而深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)里的特定分支技術(shù),三者是包含關(guān)系,而非并列。5、請簡述算法、數(shù)據(jù)、模型的概念及關(guān)系。參考答案:數(shù)據(jù):輸入給計算機(jī)的數(shù)據(jù)。算法:用系統(tǒng)的方法描述解決問題的策略機(jī)制。模型:指由輸入到輸出的映射關(guān)系。三者之間的關(guān)系可以理解為:提供數(shù)據(jù)給算法,然后算法通過運(yùn)算產(chǎn)生模型。第2-7章一、選擇題題目考查范圍:關(guān)于支持向量機(jī)SVM,下列說法錯誤的是()A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強(qiáng)的泛化能力B.Hinge損失函數(shù),作用是最小化經(jīng)驗分類錯誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當(dāng)參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學(xué)習(xí)正確答案:C解析:A正確。考慮加入正則化項的原因:想象一個完美的數(shù)據(jù)集,y>1是正類,y<-1是負(fù)類,決策面y=0,加入一個y=-30的正類噪聲樣本,那么決策面將會變“歪”很多,分類間隔變小,泛化能力減小。加入正則項之后,對噪聲樣本的容錯能力增強(qiáng),前面提到的例子里面,決策面就會沒那么“歪”了,使得分類間隔變大,提高了泛化能力。B正確。C錯誤。間隔應(yīng)該是2||w||2||w||才對,后半句應(yīng)該沒錯,向量的模通常指的就是其二范數(shù)。D正確。考慮軟間隔的時候,C對優(yōu)化問題的影響就在于把a(bǔ)的范圍從[0,+inf]限制到了[0,C]。C越小,那么a就會越小,目標(biāo)函數(shù)拉格朗日函數(shù)導(dǎo)數(shù)為0可以求出,a變小使得w變小,因此間隔2||w||2||w||變大假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:(BD)A.這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題正確答案:BD解析:NB的核心在于它假設(shè)向量的所有分量之間是獨(dú)立的。在貝葉斯理論系統(tǒng)中,都有一個重要的條件獨(dú)立性假設(shè):假設(shè)所有特征之間相互獨(dú)立,這樣才能將聯(lián)合概率拆分。關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。答案:A答案解析:Logit回歸目標(biāo)函數(shù)是最小化后驗概率,Logit回歸可以用于預(yù)測事件發(fā)生概率的大小,SVM目標(biāo)是結(jié)構(gòu)風(fēng)險最小化,SVM可以有效避免模型過擬合。以下哪些方法不可以直接來對文本分類?(A)A、KmeansB、決策樹C、支持向量機(jī)D、KNN正確答案:A分類不同于聚類。解析:A:Kmeans是聚類方法,典型的無監(jiān)督學(xué)習(xí)方法。分類是監(jiān)督學(xué)習(xí)方法,BCD都是常見的分類方法。關(guān)于Logit回歸和SVM不正確的是(A)A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。答案:A解析:Logit回歸目標(biāo)函數(shù)是最小化后驗概率,Logit回歸可以用于預(yù)測事件發(fā)生概率的大小,SVM目標(biāo)是結(jié)構(gòu)風(fēng)險最小化,SVM可以有效避免模型過擬合。下列不是SVM核函數(shù)的是()A.多項式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)正確答案:B解析:SVM核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、高斯核函數(shù)、冪指數(shù)核函數(shù)、拉普拉斯核函數(shù)、ANOVA核函數(shù)、二次有理核函數(shù)、多元二次核函數(shù)、逆多元二次核函數(shù)以及Sigmoid核函數(shù)。模型的高bias是什么意思,我們?nèi)绾谓档退??機(jī)器學(xué)習(xí)ML基礎(chǔ)易A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點(diǎn)D.B和C答案:B解析:bias太高說明模型太簡單了,數(shù)據(jù)維數(shù)不夠,無法準(zhǔn)確預(yù)測數(shù)據(jù)。假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是:A.模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C.無法下結(jié)論D.以上都不對答案:B解析:99%的預(yù)測準(zhǔn)確率可能說明,你預(yù)測的沒有點(diǎn)進(jìn)去的人很準(zhǔn)確(因為有99%的人是不會點(diǎn)進(jìn)去的,這很好預(yù)測).不能說明你的模型對點(diǎn)進(jìn)去的人預(yù)測準(zhǔn)確,所以,對于這樣的非平衡數(shù)據(jù)集,我們要把注意力放在小部分的數(shù)據(jù)上,即那些點(diǎn)擊進(jìn)去的人。我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以:A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量答案:C解析:增加樹的深度,會導(dǎo)致所有節(jié)點(diǎn)不斷分裂,直到葉子節(jié)點(diǎn)是純的為止.所以,增加深度,會延長訓(xùn)練時間。對于線性回歸,我們應(yīng)該有以下哪些假設(shè)?1.找到離群點(diǎn)很重要,因為線性回歸對利群點(diǎn)很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設(shè)數(shù)據(jù)沒有多重線性相關(guān)性A.1和2B.2和3C.1,2和3D.以上都不是答案:D解析:離群點(diǎn)要著重考慮,第一點(diǎn)是對的不是必須的,當(dāng)然,如果是正態(tài)分布,訓(xùn)練效果會更好有少量的多重線性相關(guān)性是可以的,但是我們要盡量避免關(guān)于正態(tài)分布,下列說法錯誤的是:A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1答案C解析:標(biāo)準(zhǔn)正態(tài)分布即如此。目標(biāo)變量在訓(xùn)練集上的8個實(shí)際值[0,0,0,1,1,1,1,1],目標(biāo)變量的熵是多少?A.-(5/8log(5/8)+3/8log(3/8))B.5/8log(5/8)+3/8log(3/8)C.3/8log(5/8)+5/8log(3/8)D.5/8log(3/8)–3/8log(5/8)答案為(A)解析:信息熵的計算公式為H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-∑P(xi)log(2,P(xi))(i=1,2,..n)。其中,x表示隨機(jī)變量,與之相對應(yīng)的是所有可能輸出的集合,定義為符號集,隨機(jī)變量的輸出用x表示。P(x)表示輸出概率函數(shù)。變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小關(guān)系是什么?A.決策樹的父節(jié)點(diǎn)更大B.子節(jié)點(diǎn)的熵更大C.兩者相等D.根據(jù)具體情況而定正確答案:B。在特征選擇時,應(yīng)該給父節(jié)點(diǎn)信息增益最大的節(jié)點(diǎn),而信息增益的計算為IG(Y|X)=H(Y)-H(Y/X),H(Y/X)為該特征節(jié)點(diǎn)的條件熵,H(Y/X)越小,即該特征節(jié)點(diǎn)的屬性對整體的信息表示越“單純”,IG更大。則該屬性可以更好的分類。H(Y/X)越大,屬性越“紊亂”,IG越小,不適合作為分類屬性。下列關(guān)于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的答案:AC解析:如果極大似然函數(shù)L(θ)在極大值處不連續(xù),一階導(dǎo)數(shù)不存在,則MLE不存在。一般來說,下列哪種方法常用來預(yù)測連續(xù)獨(dú)立變量?A.線性回歸B.邏輯回顧C(jī).線性回歸和邏輯回歸都行D.以上說法都不對答案:A解析:線性回歸一般用于實(shí)數(shù)預(yù)測,邏輯回歸一般用于分類問題。個人健康和年齡的相關(guān)系數(shù)是-1.09。根據(jù)這個你可以告訴醫(yī)生哪個結(jié)論?A.年齡是健康程度很好的預(yù)測器B.年齡是健康程度很糟的預(yù)測器C.以上說法都不對D:兩者沒關(guān)系答案:C假如我們利用Y是X的3階多項式產(chǎn)生一些數(shù)據(jù)(3階多項式能很好地擬合數(shù)據(jù))。那么,下列說法正確的是(多選)?A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項式擬合會造成低偏差(bias)、高方差(variance)D.3階多項式擬合具備低偏差(bias)、低方差(variance)答案:AD解析:偏差和方差是兩個相對的概念,就像欠擬合和過擬合一樣。如果模型過于簡單,通常會造成欠擬合,伴隨著高偏差、低方差;如果模型過于復(fù)雜,通常會造成過擬合,伴隨著低偏差、高方差。解析:因為相關(guān)系數(shù)的范圍是[-1,1]之間,所以,-1.09不可能存在。假如你在訓(xùn)練一個線性回歸模型,有下面兩句話:1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2.如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確D.1和2都正確答案:B解析:先來看第1句話,如果數(shù)據(jù)量較少,容易在假設(shè)空間找到一個模型對訓(xùn)練樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。再來看第2句話,如果假設(shè)空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型能夠?qū)颖緮M合得很好,容易造成高偏差、低方差,即欠擬合。假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X2,…,X100)。現(xiàn)在,我們把其中一個特征值擴(kuò)大10倍(例如是特征X1),然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么,下列說法正確的是?A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對答案:B解析:Lasso回歸類似于線性回歸,只不過它在線性回歸的基礎(chǔ)上,增加了一個對所有參數(shù)的數(shù)值大小約束。假如使用邏輯回歸對樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測試樣本的準(zhǔn)確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是?A.訓(xùn)練樣本準(zhǔn)確率一定會降低B.訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C.測試樣本準(zhǔn)確率一定會降低D.測試樣本準(zhǔn)確率一定增加或保持不變答案:B解析:在模型中增加更多特征一般會增加訓(xùn)練樣本的準(zhǔn)確率,減小bias。但是測試樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。這題對應(yīng)的知識點(diǎn)也包括了增加模型復(fù)雜度,雖然會減小訓(xùn)練樣本誤差,但是容易發(fā)生過擬合。下面這張圖是一個簡單的線性回歸模型,圖中標(biāo)注了每個樣本點(diǎn)預(yù)測值與真實(shí)值的殘差。計算SSE為多少?A.3.02B.0.75C.1.01D.0.604答案:A解析:SSE是平方誤差之和(SumofSquaredError),SSE=(-0.2)^2+(0.4)^2+(-0.8)^2+(1.3)^2+(-0.7)^2=3.02關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關(guān)在x和y之間是非對稱的答案:C解析:相關(guān)(Correlation)是計算兩個變量的線性相關(guān)程度,是對稱的。也就是說,x與y的相關(guān)系數(shù)和y與x的相關(guān)系數(shù)是一樣的,沒有差別?;貧w(Regression)一般是利用特征x預(yù)測輸出y,是單向的、非對稱的。邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)答案:A解析:Sigmoid函數(shù)輸出值限定在[0,1]之間。關(guān)于兩個邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權(quán)重系數(shù)。A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對答案:B解析:邏輯回歸模型最終還要經(jīng)過Sigmoid非線性函數(shù),Sigmoid是增函數(shù),其圖形與上圖中的黑色模型相近。黑色模型是增函數(shù),說明其β1>0,綠色模型是減函數(shù),說明其β1<0。所以,得出結(jié)論:綠色模型的β1比黑色模型的β1小。在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點(diǎn)圖答案:C解析:正態(tài)概率圖(NormalProbabilityPlot)一般用來檢查一組數(shù)據(jù)是否服從正態(tài)分布。是實(shí)數(shù)與正態(tài)分布數(shù)據(jù)之間函數(shù)關(guān)系的散點(diǎn)圖。如果這組實(shí)數(shù)服從正態(tài)分布,正態(tài)概率圖將是一條直線。邏輯回歸與多元回歸分析有哪些不同之處?A.邏輯回歸用來預(yù)測事件發(fā)生的概率B.邏輯回歸用來計算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進(jìn)行估計D.以上都是答案:D解析:A選項,邏輯回歸是用來解決分類問題的,可以用于預(yù)測事件發(fā)生的概率。B選項,一般來說,為了測量真實(shí)樣本與模型的擬合程度,可以使用邏輯回歸來計算擬合優(yōu)度指數(shù)。C選項,在擬合邏輯回歸模型之后,我們還可以根據(jù)系數(shù)值,來判斷各個獨(dú)立特征與目標(biāo)輸出的關(guān)系(正相關(guān)或負(fù)相關(guān))。如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))D.以上都不是答案:A解析:SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復(fù)雜度。我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5,則預(yù)測為正類;若輸出概率小于0.5,則預(yù)測為負(fù)類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預(yù)測為正類。則準(zhǔn)確率(Precision)和召回率(Recall)會發(fā)生什么變化(多選)?A.準(zhǔn)確率(Precision)增加或者不變B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大答案:AC解析:準(zhǔn)確率和召回率都不能很好地反映模型性能,通常使用F1score來作為模型預(yù)測水平判據(jù)。F1Score被定義為準(zhǔn)確率和召回率的調(diào)和平均數(shù)。點(diǎn)擊率預(yù)測是一個正負(fù)樣本不平衡問題(例如99%的沒有點(diǎn)擊,只有1%點(diǎn)擊)。假如在這個非平衡的數(shù)據(jù)集上建立一個模型,得到訓(xùn)練樣本的正確率是99%,則下列說法正確的是?A.模型正確率很高,不需要優(yōu)化模型了B.模型正確率并不高,應(yīng)該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對答案:B解析:模型訓(xùn)練過程中正負(fù)樣本分布不均是常見的問題。這時候不能單獨(dú)只看預(yù)測正確率。對于此題來說,如果我們預(yù)測的結(jié)果是100%沒有點(diǎn)擊,0%點(diǎn)擊,那么可以說正確率是99%,因為只有1%的點(diǎn)擊預(yù)測錯誤。但是,我們其實(shí)更關(guān)心的那1%的點(diǎn)擊率并沒有預(yù)測出來??梢哉f這樣的模型是沒有任何意義的。對應(yīng)正負(fù)樣本不平衡的情況需要做一些數(shù)據(jù)處理,主要包括:采樣、數(shù)據(jù)合成、懲罰因子加權(quán)、一分類。其中,一分類即是在正負(fù)樣本分布極不平衡的時候,把它看做一分類(OneClassLearning)或異常檢測(NoveltyDetection)問題。這類方法的重點(diǎn)不在于捕捉類間的差別,而是為其中一類進(jìn)行建模,經(jīng)典的工作包括One-classSVM等。如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費(fèi)更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量答案:C解析:本題考查的是決策樹相關(guān)概念。一般用決策樹進(jìn)行分類,從根結(jié)點(diǎn)開始,對實(shí)例的某一特征進(jìn)行測試,根據(jù)測試結(jié)果,將實(shí)例分配到其子結(jié)點(diǎn)。這時,每一個子結(jié)點(diǎn)對應(yīng)著該特征的一個取值。如此遞歸地對實(shí)例進(jìn)行測試并分類,直至達(dá)到葉結(jié)點(diǎn)。最后將實(shí)例分到葉結(jié)點(diǎn)的類中?!岳詈健督y(tǒng)計學(xué)習(xí)方法》決策樹深度越深,在訓(xùn)練集上誤差會越小,準(zhǔn)確率越高。但是容易造成過擬合,而且增加模型的訓(xùn)練時間。對決策樹進(jìn)行修剪,減小樹的深度,能夠提高模型的訓(xùn)練速度,有效避免過擬合。單決策樹中,學(xué)習(xí)率不是一個有效參數(shù)。決策樹是單樹,隨機(jī)森林由多個決策樹組成。我們想要訓(xùn)練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓(xùn)練模型?A.對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機(jī)器學(xué)習(xí)算法C.使用PCA算法減少特征維度D.以上都對答案:D解析:本題考查的是如何解決樣本數(shù)量和特征維度過大的問題。在有限的內(nèi)存下,如何處理高特征緯度的訓(xùn)練樣本是一項非常艱巨的任務(wù)。下面這些方法可以用來解決這一問題。我們可以隨機(jī)抽樣數(shù)據(jù)集,包括樣本數(shù)量和特征數(shù)量。這意味著,我們可以創(chuàng)建一個更小的數(shù)據(jù)集,比如說,有1000個特征和300000個樣本進(jìn)行訓(xùn)練。使用在線學(xué)習(xí)(onlinelearning)算法使用主成分分析算法(PCA)挑選有效的特征,去除冗余特征。關(guān)于在線學(xué)習(xí)與離線學(xué)習(xí),離線學(xué)習(xí)是我們最為常見的一種機(jī)器學(xué)習(xí)算法模式,使用全部數(shù)據(jù)參與訓(xùn)練。訓(xùn)練完成,整個模型就確定了;而在線學(xué)習(xí)一般每次使用一個數(shù)據(jù)或是小批量數(shù)據(jù)進(jìn)行訓(xùn)練,每次訓(xùn)練都會優(yōu)化模型,模型處于不斷優(yōu)化更改狀態(tài)。PCA(principalComponentAnalysis),是一種使用最廣泛的數(shù)據(jù)壓縮算法。在PCA中,數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系,由數(shù)據(jù)本身決定。轉(zhuǎn)換坐標(biāo)系時,以方差最大的方向作為坐標(biāo)軸方向,因為數(shù)據(jù)的最大方差給出了數(shù)據(jù)的最重要的信息。第一個新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方法,第二個新坐標(biāo)軸選擇的是與第一個新坐標(biāo)軸正交且方差次大的方向。重復(fù)該過程,重復(fù)次數(shù)為原始數(shù)據(jù)的特征維數(shù)。機(jī)器學(xué)習(xí)中做特征選擇時,可能用到的方法有?a.卡方b.信息增益c.平均互信息d.期待交叉熵答案:ABCD解析:在文本分類中,首先要對數(shù)據(jù)進(jìn)行特征提取,特征提取中又分為特征選擇和特征抽取兩大類,在特征選擇算法中有互信息,文檔頻率,信息增益,卡方檢驗以及期望交叉熵。期望交叉熵,以文本分類為例子,期望交叉熵用來度量一個詞對于整體的重要程度。在ID3決策樹中,也使用信息增益作為特征選擇的方法,在C4.5決策樹中,使用信息增益比作為特征選擇的方法,在CART中,使用基尼指數(shù)作為特征選擇的方法如何在監(jiān)督式學(xué)習(xí)中使用聚類算法(多選)?A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征答案:AB解析:本題考查的是聚類算法與監(jiān)督式學(xué)習(xí)。我們可以為不同的集群構(gòu)建獨(dú)立的機(jī)器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。下面哪句話是正確的?A.機(jī)器學(xué)習(xí)模型的精準(zhǔn)度越高,則模型的性能越好B.增加模型的復(fù)雜度,總能減小測試樣本誤差C.增加模型的復(fù)雜度,總能減小訓(xùn)練樣本誤差D.以上說法都不對答案:C解析:本題考查的是機(jī)器學(xué)習(xí)模型的評判指標(biāo)。機(jī)器學(xué)習(xí)模型的精準(zhǔn)度(Precision)越高,模型性能不一定越好,還要看模型的召回率(Recall),特別是在正負(fù)樣本分布不均的情況下。一般使用F1score評判標(biāo)準(zhǔn)。如果使用線性回歸模型,下列說法正確的是?A.檢查異常值是很重要的,因為線性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對答案:A解析:本題考查的是線性回歸的一些基本原理。異常值是數(shù)據(jù)中的一個非常有影響的點(diǎn),它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中一直是很重要的。了解變量特征的分布是有用的。類似于正態(tài)分布的變量特征對提升模型性能很有幫助。例如,數(shù)據(jù)預(yù)處理的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布。但這也不是必須的。當(dāng)模型包含相互關(guān)聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。C選擇絕對化了。建立線性模型時,我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時,如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?A.Var1和Var2具有很高的相關(guān)性B.Var1和Var2存在多重共線性,模型可以去掉其中一個特征C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的D.以上都對答案:D解析:本題考查的是相關(guān)系數(shù)的基本概念。Var1和Var2之間的相關(guān)性非常高,并且是負(fù)的,因此我們可以將其視為多重共線性的情況。此外,當(dāng)數(shù)據(jù)中存在多重線性特征時,我們可以去掉一個。一般來說,如果相關(guān)大于0.7或小于-0.7,那么我們認(rèn)為特征之間有很高的相關(guān)性。第三個選項是不言自明的,相關(guān)系數(shù)介于[-1,1]之間,1.23明顯有誤。下列哪種方法可以用來減小過擬合?(多選)A.更多的訓(xùn)練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復(fù)雜度答案:ABCD解析:增加訓(xùn)練樣本、L1正則化、L2正則化、減小模型復(fù)雜度都能有效避免發(fā)生過擬合。向量X=[1,2,3,4,-9,0]的L1范數(shù)為?A.1B.19C.6D.√111答案:B解析:L0范數(shù)表示向量中所有非零元素的個數(shù);L1范數(shù)指的是向量中各元素的絕對值之和,又稱“稀疏矩陣算子”;L2范數(shù)指的是向量中各元素的平方和再求平方根。本例中,L0范數(shù)為5,L1范數(shù)為19,L2范數(shù)為√111。關(guān)于L1、L2正則化下列說法正確的是?A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B.L2正則化技術(shù)又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏答案:C解析:L1、L2正則化都能防止過擬合,提升模型的泛化能力。L1正則化技術(shù)又稱為LassoRegularization。L1正則化得到的解更加稀疏。有N個樣本,一般用于訓(xùn)練,一般用于測試。若增大N值,則訓(xùn)練誤差和測試誤差之間的差距會如何變化?A.增大B.減小C.不變D.以上均不對答案:B解析:增加數(shù)據(jù),能夠有效減小過擬合,減小訓(xùn)練樣本誤差和測試樣本誤差之間的差距。在回歸模型中,下列哪一項在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?A.多項式階數(shù)B.更新權(quán)重w時,使用的是矩陣求逆還是梯度下降C.使用常數(shù)項D.學(xué)習(xí)率答案:A解析:選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。如果有對過擬合和欠擬合概念不清楚的。下列哪一項能反映出X和Y之間的強(qiáng)相關(guān)性?A.相關(guān)系數(shù)為0.9B.對于無效假設(shè)β=0的p值為0.0001C.對于無效假設(shè)β=0的t值為30D.以上說法都不對答案:A解析:相關(guān)系數(shù)的概念我們很熟悉,它反映了不同變量之間線性相關(guān)程度,一般用r表示。r取值范圍在[-1,1]之間,r越大表示相關(guān)程度越高。A選項中,r=0.9表示X和Y之間有較強(qiáng)的相關(guān)性。而p和t的數(shù)值大小沒有統(tǒng)計意義,只是將其與某一個閾值進(jìn)行比對,以得到二選一的結(jié)論。機(jī)器學(xué)習(xí)中做特征選擇時,可能用到的方法有?(ABCD)A.卡方B.信息增益C.平均互信息D.期望交叉熵答案:ABCD以下說法中正確的是(C)A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯樣本的權(quán)重更新比例相同C.boosting和bagging都是組合多個分類器投票的方法,二者都是根據(jù)單個分類器的正確率確定其權(quán)重D.給定n個數(shù)據(jù)點(diǎn),如果其中一半用于訓(xùn)練,一半用戶測試,則訓(xùn)練誤差和測試誤差之間的差別會隨著n的增加而減少以下描述錯誤的是(C)A.SVM是這樣一個分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結(jié)點(diǎn)輸變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類若在二維空間中線性不可分,SVM算法會通過()方法解決。核函數(shù)激活函數(shù)剪枝特征選擇答案:A解析:線性不可分場景使用核函數(shù)。線性回歸能完成的任務(wù)是(B)預(yù)測離散值預(yù)測連續(xù)值分類聚類答案:B解析:線性回歸能完成的任務(wù)是預(yù)測連續(xù)值。產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明(D)A。產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元解析:首先觀察這個函數(shù),y=356-1.5x,這條直線的斜率是負(fù)值,從直線可以看出,y與x之間呈反比關(guān)系??墒歉鶕?jù)實(shí)際情況而言,當(dāng)產(chǎn)量越來越多的時候,成本就越來越少,那么當(dāng)x無限接近于正無窮的時候,x豈不是為負(fù)值了嗎???不知道你們遠(yuǎn)不愿意,反正如果是我的話,我肯定不愿意。所以說他只是在某一個階段符合上述條件。當(dāng)x=1,y=354.5;當(dāng)x=2,y=353;x=3,y=351.5;將這三個數(shù)進(jìn)行計算,平均值是1.5.所以正確答案為D直線方程y=wx+b,其中b表示(B)A.系數(shù)B截距C.斜率D權(quán)重解析:在機(jī)器學(xué)習(xí)中w表示系數(shù),斜率和權(quán)重,b表示截距以下描述中,對梯度解釋正確的是(AB)A梯度是一個向量,有方向有大小B求梯度就是對梯度向量的各個元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小解析:theta是一個幾行幾列的矩陣,求偏導(dǎo)之后還是一個矩陣。所以說梯度是一個向量,有方向有大小。定義,求梯度就是對梯度向量的各個元素求偏導(dǎo)。關(guān)于誤差ε的說法正確的是(AB)A誤差可以看做隨機(jī)比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設(shè)計優(yōu)良,誤差可以避免解析:誤差是ytrue與yhat的差值,它的值是不固定的,他是可以看做隨機(jī)變量的。誤差的概率分布符合正態(tài)分布的規(guī)律。從生活中獲取到的數(shù)據(jù)是不完備的,誤差是不可以避免的。標(biāo)準(zhǔn)差與方差的關(guān)系是(ABC)A標(biāo)準(zhǔn)差是方差的算術(shù)平方根B標(biāo)準(zhǔn)差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標(biāo)準(zhǔn)差的平方是方差解析:標(biāo)準(zhǔn)差是方差的算術(shù)平方根,標(biāo)準(zhǔn)差的平方是方差,標(biāo)準(zhǔn)差可以反映數(shù)據(jù)的離散程度,也可以反映樣本的量綱SVM中的核技巧(Kernaltrick)的作用包括以下哪項?A.特征升維B.特征降維C.防止過擬合答案:C核技巧使用核函數(shù)將樣本從原特征空間映射到更高維的空間,使得樣本在更高維的空間中線性可分。在數(shù)據(jù)預(yù)處理階段,我們常常對數(shù)值特征進(jìn)行歸一化或標(biāo)準(zhǔn)化(standardization,normalization)處理。這種處理方式理論上不會對下列哪個模型產(chǎn)生很大影響?A.k-MeansB.k-NNC.決策樹答案:Ck-Means和k-NN都需要使用距離。而決策樹對于數(shù)值特征,只在乎其大小排序,而非絕對大小。不管是標(biāo)準(zhǔn)化或者歸一化,都不會影響數(shù)值之間的相對大小。關(guān)于決策樹如何對數(shù)值特征進(jìn)行劃分選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實(shí)的。A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有正確答案是:A解析:如果存在n個類,那么n個單獨(dú)的邏輯回歸必須與之相適應(yīng),其中每個類的概率由剩余類的概率之和確定。假設(shè)對給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測試精度Y?,F(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯誤的選項。注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測試精度提高或保持不變正確答案是:B解析:將更多的特征添加到模型中會增加訓(xùn)練精度,因為模型必須考慮更多的數(shù)據(jù)來適應(yīng)邏輯回歸。但是,如果發(fā)現(xiàn)特征顯著,則測試精度將會增加假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評分。在下面說法中哪一項是正確的?A特征F1是名義變量(nominalvariable)的一個實(shí)例。B特征F1是有序變量(ordinalvariable)的一個實(shí)例。C該特征并不屬于以上的分類。D以上說法都正確。正確答案是:B解析:有序變量是一種在類別上有某些順序的變量。例如,等級A就要比等級B所代表的成績好一些。下面哪一項對梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。3在GD中,每一次迭代需要使用整個訓(xùn)練集的數(shù)據(jù)更新一個參數(shù)。A只有1B只有2C只有3D都正確正確答案是:A解析:在隨機(jī)梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成,但在梯度下降,每一次迭代需要使用整個訓(xùn)練數(shù)據(jù)集。假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布。現(xiàn)在你想將onehotencoding(OHE)應(yīng)用到類屬特征中。那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么?A分類變量所有的類別沒有全部出現(xiàn)在測試集中B類別的頻率分布在訓(xùn)練集和測試集是不同的C訓(xùn)練集和測試集通常會有一樣的分布DA和B都正確正確答案是:D解析:A、B項都正確,如果類別在測試集中出現(xiàn),但沒有在訓(xùn)練集中出現(xiàn),OHE將會不能進(jìn)行編碼類別,這將是應(yīng)用OHE的主要困難。選項B同樣也是正確的,在應(yīng)用OHE時,如果訓(xùn)練集和測試集的頻率分布不相同,我們需要多加小心。假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為99%的準(zhǔn)確度。那么下面哪一項表述是正確的?1準(zhǔn)確度并不適合于衡量不平衡類別問題2準(zhǔn)確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題3精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and4正確答案是:A假設(shè)我們有一個數(shù)據(jù)集,在一個深度為6的決策樹的幫助下,它可以使用100%的精確度被訓(xùn)練?,F(xiàn)在考慮一下兩點(diǎn),并基于這兩點(diǎn)選擇正確的選項。注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差A(yù)只有1B只有2C1和2D沒有一個正確答案是:A解析:如果在這樣的數(shù)據(jù)中你擬合深度為4的決策樹,這意味著其更有可能與數(shù)據(jù)欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。假設(shè)你正在做一個項目,它是一個二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個模型,并在驗證數(shù)據(jù)集上得到混淆矩陣。基于上述混淆矩陣,下面哪個選項會給你正確的預(yù)測。1精確度是~0.912錯誤分類率是~0.913假正率(Falsecorrectclassification)是~0.954真正率(Truepositiverate)是~0.95A1和3B2和4C1和4D2和3正確答案是:C解析:精確度(正確分類)是(50+100)/165,約等于0.91。真正率是你正確預(yù)測正分類的次數(shù),因此真正率將是100/105=0.95,也被稱作敏感度或召回。對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?1用于拆分的樣本量2樹深3樹葉樣本A1和2B2和3C1和3D1、2和3E無法分辨正確答案是:E解析:對于選項A、B、C來說,如果你增加參數(shù)的值,性能并不一定會提升。例如,如果我們有一個非常高的樹深值,結(jié)果樹可能會過擬合數(shù)據(jù),并且也不會泛化。另一方面,如果我們有一個非常低的值,結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的值對于決策樹算法就更好。假如我們使用非線性可分的SVM目標(biāo)函數(shù)作為最優(yōu)化對象,我們怎么保證模型線性可分?A設(shè)C=1B設(shè)C=0C設(shè)C=無窮大D以上都不對答案:C解析:無窮大保證了所有的線性不可分都是可以忍受的.NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標(biāo)簽是C,它的一個假定是:()A.各類別的先驗概率P(C)是相等的B.以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C.特征變量X的各個維度是類別條件獨(dú)立隨機(jī)變量D.P(X|C)是高斯分布正確答案:C解析:樸素貝葉斯的條件就是每個變量相互獨(dú)立假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:A.這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題正確答案:BD統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用()A.最小最大損失準(zhǔn)則B.最小誤判概率準(zhǔn)則C.最小損失準(zhǔn)則D.N-P判決正確答案:AD甲盒中有200個螺桿,其中有160個A型螺桿;乙盒中有240個螺母,其中有180個A型的?,F(xiàn)從甲乙兩盒中各任取一個,則能配成A型螺栓的概率為多少?A.1/20B.15/16C.3/5D.19/20參考答案:C解析:這題也很簡單了,P(A型螺桿)*P(A型螺母)=3/5。一個部門1/2為系統(tǒng)工程師,2/5為軟件工程師,1/4兩者都是,那么兩者都不是的比例?A.0.23B.0.35C.0.4D.0.32參考答案:B解析:P(都不是)=1-(P(系統(tǒng)工程師)+P(軟件工程師)-P(兩者都是))有朋自遠(yuǎn)方來,他乘火車,輪船,汽車,飛機(jī)來的概率分別是0.3,0.2,0.1,0.4,從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語句中正確的?A.如果他遲到,乘火車來的概率是0.5。B.如果他準(zhǔn)點(diǎn),坐輪船或汽車的概率等于坐火車的概率。C.如果他準(zhǔn)點(diǎn),那么乘飛機(jī)的概率大于等于0.5。D.坐陸路(火車、汽車)交通工具準(zhǔn)點(diǎn)機(jī)會比坐水路(輪船)要低。參考答案:AB解析:乘坐火車遲到的概率為:3/10*1/4=9/120乘坐輪船遲到的概率為:2/10*1/3=8/120乘坐汽車遲到的概率為:1/10*1/12=1/120乘坐飛機(jī)遲到的概率為:4/10*0=0遲到概率:9/120+8/120+1/120=18/120;乘坐火車準(zhǔn)點(diǎn)的概率為:3/10*(1-1/4)=27/120乘坐輪船準(zhǔn)點(diǎn)的概率為:2/10*(1-1/3)=16/120乘坐汽車準(zhǔn)點(diǎn)的概率為:1/10*(1-1/12)=11/120乘坐飛機(jī)準(zhǔn)點(diǎn)的概率為:4/10*1=48/120A:9/120/18/120=0.5對B:16/120+11/120=27/120對C:48/120/(27+16+11+48)/120=48/102錯D:27/120+11/120>16/120錯對于信息增益,決策樹分裂節(jié)點(diǎn),下面說法正確的是()1純度高的節(jié)點(diǎn)需要更多的信息去區(qū)分2信息增益可以用”1比特-熵”獲得3如果選擇一個屬性具有許多歸類值,那么這個信息增益是有偏差的A1B2C2和3D所有以上答案:C純度越高,表示不確定越少,更少的信息就可以區(qū)分假設(shè)三個稠密矩陣(DenseMatrix)A,B,C的尺寸分別為m*n,n*q和p*q,且m<n<p<qm<n<p<q,一下計算順序會加速的是?(AB)CB.AC(B)A(BC)所有效率都相同答案:A(AB)C要mp(2n-1)+mq(2p-1)次運(yùn)算;A(BC)要nq(2p-1)mq(2n-1)次運(yùn)算;又因為m<n<p<q又因為m<n<p<q;所以mp(2n?1)<mq(2n?1);mp(2n?1)<mq(2n?1);mq(2p?1)<nq(2p?1);mq(2p?1)<nq(2p?1);所以(AB)C運(yùn)算次數(shù)最少,效率最高;越小越要先乘梯度下降可以從以下哪些地方調(diào)優(yōu)?學(xué)習(xí)率參數(shù)初始值歸一化激活函數(shù)答案:ABC以下()不屬于線性分類器最佳準(zhǔn)則?A感知準(zhǔn)則函數(shù)B貝葉斯分類C支持向量機(jī)DFisher準(zhǔn)則答案B解析:線性分類器有三大類:感知器準(zhǔn)則函數(shù)、SVM、Fisher準(zhǔn)則,而貝葉斯分類器不是線性分類器。感知準(zhǔn)則函數(shù):準(zhǔn)則函數(shù)以使錯分類樣本到分界面距離之和最小為原則。其優(yōu)點(diǎn)是通過錯分類樣本提供的信息對分類器函數(shù)進(jìn)行修正,這種準(zhǔn)則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。支持向量機(jī):基本思想是在兩類線性可分條件下,所設(shè)計的分類器界面使兩類之間的間隔為最大,它的基本出發(fā)點(diǎn)是使期望泛化風(fēng)險盡可能小。(使用核函數(shù)可解決非線性問題)Fisher準(zhǔn)則:更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠(yuǎn)點(diǎn)出發(fā)的直線,使得同類樣本距離盡可能小,不同類樣本距離盡可能大,具體為最大化“廣義瑞利商”。有兩個樣本點(diǎn),第一個點(diǎn)為正樣本,它的特征向量是(0,-1);第二個點(diǎn)為負(fù)樣本,它的特征向量是(2,3),從這兩個樣本點(diǎn)組成的訓(xùn)練集構(gòu)建一個線性SVM分類器的分類面方程是()A2x+y=4Bx+2y=5Cx+2y=3D2x-y=0答案:C解析:這道題簡化了,對于兩個點(diǎn)來說,最大間隔就是垂直平分線,因此求出垂直平分線即可。斜率是兩點(diǎn)連線的斜率的負(fù)倒數(shù)-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,過中點(diǎn)((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故選C.判斷題:“過擬合”只在監(jiān)督學(xué)習(xí)中出現(xiàn),在非監(jiān)督學(xué)習(xí)中,沒有“過擬合”,這是()答案:錯解析:我們可以評估無監(jiān)督學(xué)習(xí)方法通過無監(jiān)督學(xué)習(xí)的指標(biāo),如:我們可以評估聚類模型通過調(diào)整蘭德系數(shù)(adjustedrandscore)如果兩個變量相關(guān),那么它們一定是線性關(guān)系嗎?(錯)答:相關(guān)不一定是線性關(guān)系,也有可能是非線性相關(guān)。兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0。(對)解析:一般來說,相關(guān)系數(shù)r=0是兩變量相互獨(dú)立的必要不充分條件。也就是說,如果兩個變量相互獨(dú)立,那么相關(guān)系數(shù)r一定為0,如果相關(guān)系數(shù)r=0,則不一定相互獨(dú)立。相關(guān)系數(shù)r=0只能說明兩個變量之間不存在線性關(guān)系,仍然可能存在非線性關(guān)系。那么,若兩個變量相關(guān),存在非線性關(guān)系,那么它們的相關(guān)系數(shù)r就為0。在訓(xùn)練完SVM之后,我們可以只保留支持向量,而舍去所有非支持向量。仍然不會影響模型分類能力。答:對解析:該算法決定分類面的一般是關(guān)鍵的幾個點(diǎn),這幾個點(diǎn)構(gòu)建了分類面,因此被稱為支持向量。該算法也就叫支持向量機(jī)了。訓(xùn)練完畢之后,其它非支持向量對分類面并無影響,去掉無妨。如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。(對)解析:當(dāng)數(shù)據(jù)是非線性的時,經(jīng)典回歸模型泛化能力不強(qiáng),而基于樹的模型通常表現(xiàn)更好。如果一個經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型在測試集上達(dá)到100%的準(zhǔn)確率,這是否意味著該模型將在另外一個新的測試集上也能得到100%的準(zhǔn)確率。(錯)解析:因為還有一些模型不確定的東西,例如噪聲?;貧w問題與分類問題都有可能發(fā)生過擬合。(對)解析:過擬合就是用復(fù)雜的模型刻畫簡單問題,對于分類回歸均有可能出現(xiàn)。一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可以用來解決0/1分類問題。(對)解析:邏輯回歸就是分類器。預(yù)測樣本類別。決策樹只用來分類。(錯)解析:決策樹分為分類樹及回歸樹。回歸及分類常用的評估指標(biāo)都是準(zhǔn)確率和召回率。(錯)解析:回歸問題用的不是準(zhǔn)確率,而是誤差MSE或MAE。輸出變量為連續(xù)變量的預(yù)測問題是分類問題。(錯)解析:輸出為連續(xù)的是回歸問題。P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。(對)解析:就是樸素貝葉斯公式。樸素貝葉斯(分類器)是一種生成模型,它會基于訓(xùn)練樣本對每個可能的類別建模。答案:對最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。(對)解析:定義決策樹的剪枝是為了簡化決策樹模型,避免過擬合。答案:對常見的決策樹算法是ID3,C4.5,CART樹。答案:對決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。(對)預(yù)剪枝是在決策樹生成過程中,對樹進(jìn)行剪枝,提前結(jié)束樹的分支生長。(對)分類任務(wù)是預(yù)測連續(xù)值。(F)回歸任務(wù)是預(yù)測連續(xù)值。(T)解析:回歸和分類屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)。分類任務(wù)是預(yù)測離散值,回歸任務(wù)是預(yù)測連續(xù)值。Σ是求和符號。(T)Π是求積符號。(T)用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。(T)解析:現(xiàn)實(shí)生活中的數(shù)據(jù)比較復(fù)雜,尚且不完備。把他們擬合成一個函數(shù)或者方程,使用線性代數(shù)來描述他們是為了書寫方便。邏輯回歸的目的就是提高二分類的效率。(對)SGD計算根據(jù)全部樣本構(gòu)造出來的代價函數(shù)的梯度。(錯)BGD計算根據(jù)全部樣本的構(gòu)造出來的代價函數(shù)的梯度。(對)SVM不涉及核函數(shù)。(錯)SVM自帶正則項。(對)SVM無法做多分類。(錯)解析:一對多方法:每一次把某個樣本定為正樣本,其余樣本作為負(fù)樣本。優(yōu)點(diǎn):每個優(yōu)化問題規(guī)模小,分類器少,分類速度快;缺點(diǎn):因為訓(xùn)練集是1:M,這種情況下存在biased.因而不是很實(shí)用??梢栽诔槿?shù)據(jù)集的時候,從完整的負(fù)集中再抽取三分之一作為訓(xùn)練負(fù)集。一對一方法:每次選一個類的樣本作正類樣本,負(fù)類樣本則變成只選一個類。優(yōu)點(diǎn):不會出現(xiàn)分類重疊現(xiàn)象。缺點(diǎn):這種方法雖然好,但是當(dāng)類別很多的時候,model的個數(shù)是n*(n-1)/2,代價還是相當(dāng)大的。層次支持向量機(jī)(H-SVMs)。層次分類法首先將所有類別分成兩個子類,再將子類進(jìn)一步劃分成兩個次級子類,如此循環(huán),直到得到一個單獨(dú)的類別為止。決策樹容易發(fā)生過擬合。(對)決策樹容易發(fā)生欠擬合。(對)解析:對于樣本不均衡的數(shù)據(jù)集表現(xiàn)不好,欠擬合。因為會出現(xiàn)過擬合,所以會剪枝。邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。(對)交叉熵?fù)p失函數(shù)的好處是可以克服方差代價函數(shù)更新權(quán)重過慢的問題。(對)FP——將負(fù)類預(yù)測為正類數(shù)。(對)F1值定義為:F1=2PR/(P+R)。(對)P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗概率。(對)P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗概率。(對)logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發(fā)生的概率。(對)SVM通過尋找使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險最小化。(對)隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小,其信息量就越小。(錯)矩陣的L0范數(shù):矩陣的非0元素的個數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。(對)隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。(對)聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。(對)協(xié)方差是衡量兩個變量線性相關(guān)性強(qiáng)度及變量尺度。(對)標(biāo)量是0階張量。(對)樸素貝葉斯適合高維數(shù)據(jù)。(錯)解析:這是決策樹的特點(diǎn)。決策樹短時間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。(對)SVM對缺失數(shù)據(jù)敏感。(對)邏輯回歸計算速度快。(對)決策樹只能處理數(shù)據(jù)型屬性。(錯)解析:還可處理常規(guī)性屬性。SVM適合高維數(shù)據(jù)。(對)邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的邏輯回歸。(對)正確肯定(TruePositive,TP):預(yù)測為真,實(shí)際為真。(對)錯誤否定(FalseNegative,FN):預(yù)測為假,實(shí)際為真。(對)最大似然估計的目的就是:利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。(對)SVM是一個凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點(diǎn)。(對)SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果。(對)支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。(對)決策樹算法可以用于小數(shù)據(jù)集。(對)錯誤率(ErrorRate)是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。(對)填空題:熵指的是體系的混亂的程度。信息越有序,信息熵越低。訓(xùn)練過程中用到的數(shù)據(jù)叫訓(xùn)練集。訓(xùn)練用到的每個樣本叫訓(xùn)練樣本。分類是預(yù)測離散值,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)叫欠擬合。模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫過擬合。提取出的正確信息條數(shù)/提取出的信息條數(shù)是正確率。評判分類效果好壞的三個指標(biāo)就是上面介紹的三個指標(biāo):正確率,召回率,F(xiàn)值?;貧w問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?;貧w往往會通過計算誤差(Error)來確定模型的精確性。從已有的M個特征(Feature)中選擇N個特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫特征選擇。損失函數(shù)也叫代價函數(shù)或目標(biāo)函數(shù)求函數(shù)機(jī)制的方法有兩大類,分別是解析解(閉式解)和數(shù)值解。已知坐標(biāo)軸中兩點(diǎn)A(2,?2)B(?1,2),這兩點(diǎn)的曼哈頓距離(L1距離)是7。解析:答案:7。向量AB(-3,4),L1是向量中非零元素的絕對值和。機(jī)器學(xué)習(xí)中做特征選擇時,可能用到的卡方、信息增益、平均互信息、期望交叉熵。ID3算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。C4.5算法在決策樹生成的過程中,用信息增益比來選擇特征?;嶂笖?shù)(基尼不純度)表示在樣本集合中一個隨機(jī)選中的樣本被分錯的概率。Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度越高?;嶂笖?shù)(基尼不純度)=樣本被選中的概率*樣本被分錯的概率。p(x|θ)是給定參數(shù)θ的概率分布:似然函數(shù)。歐式距離的特征是:平移不變性、旋轉(zhuǎn)不變性。馬式距離的特征則是:平移不變性、旋轉(zhuǎn)不變性、尺度不變性。一個標(biāo)量表示一個單獨(dú)的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個數(shù)的數(shù)組)。一個向量表示一組有序排列的數(shù)。通過次序中的索引,我們可以確定每個單獨(dú)的數(shù)。矩陣是具有相同特征和緯度的對象的集合,表現(xiàn)為一張二維數(shù)據(jù)表。在某些情況下,我們會討論坐標(biāo)超過兩維的數(shù)組。一般地,一個數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中,我們將其稱之為張量。線性回歸如果是泊松分布,那就是泊松回歸。回歸常用評估方法:平均誤差,絕對值誤差,R2.經(jīng)驗誤差(empiricalerror)也叫訓(xùn)練誤差。問答題:L1和L2正則先驗分別服從什么分布?答:L1和L2正則先驗分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。為什么樸素貝葉斯如此“樸素”?答:因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨(dú)立的。正如我們所知,這個假設(shè)在現(xiàn)實(shí)世界中是很不真實(shí)的,因此,說樸素貝葉斯真的很“樸素”。簡單說下有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別?答:有監(jiān)督學(xué)習(xí):對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測。(LR,SVM,BP,RF,GBDT)無監(jiān)督學(xué)習(xí):對未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。(KMeans,DL)梯度下降法找到的一定是下降最快的方向么?答:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面(當(dāng)然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認(rèn)為是下降最快的方向,可以達(dá)到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復(fù)雜約束的問題)。什么是最小二乘法?答:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。簡單介紹下Logistics回歸。答:Logistic回歸目的是從特征學(xué)習(xí)出一個0/1分類模型,而這個模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負(fù)無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率。常見的分類算法有哪些?答:SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯常見的監(jiān)督學(xué)習(xí)算法有哪些?答:感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸帶核的SVM為什么能分類非線性問題?答:核函數(shù)的本質(zhì)是兩個函數(shù)的內(nèi)積,而這個函數(shù)在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應(yīng)映射,核只不過是一個內(nèi)積。決策樹的剪枝方法有哪些?答:預(yù)剪枝:提前結(jié)束決策樹的增長:類目數(shù)量、方差性能提升后剪枝:決策樹生長完成之后再進(jìn)行剪枝SVM的超參有哪些?答:C和gamma,C正則系數(shù),gamma決定支持向量的數(shù)量。有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數(shù)據(jù)集D2和D1基本一樣,唯一的區(qū)別是D2中每個樣本的某個特征被重復(fù)了100次,請問在這兩個數(shù)據(jù)集上訓(xùn)練的樸素貝葉斯分類器是否一樣,請給出具體分析。解:分類器是不一樣的。因為樸素貝葉斯方法假設(shè)了特征間的獨(dú)立性,但D2中的100個特征彼此不獨(dú)立,因此不在適用,如果用了兩者的結(jié)果不等。在D2上訓(xùn)練,被重復(fù)的特征的概率會被乘100次,放大了它的影響。一元線性回歸有哪些基本假定?答:假設(shè)1、解釋變量X是確定性變量,Y是隨機(jī)變量;假設(shè)2、隨機(jī)誤差項ε具有零均值、同方差和不序列相關(guān)性:E(εi)=0i=1,2,…,nSVM、LR、決策樹的對比。模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓(xùn)練速度快,適合處理線性問題;決策樹容易過擬合,需要進(jìn)行剪枝。損失函數(shù):SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關(guān)心支持向量,且需要先做歸一化;LR對遠(yuǎn)點(diǎn)敏感。數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核。樸素貝葉斯的特點(diǎn)是?答:優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點(diǎn):對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。樸素貝葉斯的應(yīng)用場景有哪些?答:文檔的自動分類。決策樹算法特點(diǎn)。答:優(yōu)點(diǎn):計算復(fù)雜度不高,輸出結(jié)果易于理解,數(shù)據(jù)有缺失也能跑,可以處理不相關(guān)特征。缺點(diǎn):容易過擬合。適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型。預(yù)剪枝核心思想是?答:其中的核心思想就是,在每一次實(shí)際對結(jié)點(diǎn)進(jìn)行進(jìn)一步劃分之前,先采用驗證集的數(shù)據(jù)來驗證劃分是否能提高劃分的準(zhǔn)確性。如果不能,就把結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)并退出進(jìn)一步劃分;如果可以就繼續(xù)遞歸生成節(jié)點(diǎn)。兩種剪枝策略對比。答:后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支;后剪枝決策樹的欠擬合風(fēng)險很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹;后剪枝決策樹訓(xùn)練時間開銷比未剪枝決策樹和預(yù)剪枝決策樹都要大的多。SVM算法應(yīng)用場景有哪些?答:人臉識別(facerecognition)、文本分類(textcategorization)等模式識別(patternrecognition)問題當(dāng)中。什么是梯度?答:梯度就是把每一個維度的偏導(dǎo)數(shù)集合在一起做一個向量。對于多元函數(shù)的θ,每次減去梯度值就能讓多元損失函數(shù)朝著最佳解邁進(jìn)一步什么是下降?答:負(fù)梯度這個向量構(gòu)成的方向我們通常稱為下降方向梯度下降就是把每一個維度的偏導(dǎo)數(shù)集合在一個組合的一個向量按照負(fù)方向進(jìn)行估測計算,從而找出最優(yōu)的解。過擬合出現(xiàn)的原因?答:抽取的數(shù)量比較小,觀測到的特征少,在模型訓(xùn)練的過程中將訓(xùn)練集中的一些偶然現(xiàn)象做了規(guī)律。什么是損失函數(shù)?損失函數(shù)的用途是什么?答:損失函數(shù)用于評估ytrue和yhat之間差值的優(yōu)良程度。損失函數(shù)用于求最優(yōu)解,一般是利用求導(dǎo)求出損失函數(shù)導(dǎo)函數(shù),再利用數(shù)值解找到最小值,此時可以求出最優(yōu)解。定義一下prediction精準(zhǔn)率、recall召回率答:(準(zhǔn)確率是accuracy)召回率就是Q4中的真正率。精準(zhǔn)率指的是:正樣本被預(yù)測為正所占所有預(yù)測為正樣本數(shù)的比例。概率和似然有什么區(qū)別?答:概率和似然都是指可能性,但在統(tǒng)計學(xué)中,概率和似然有截然不同的用法。概率描述了已知參數(shù)時的隨機(jī)變量的輸出結(jié)果;似然則用來描述已知隨機(jī)變量輸出結(jié)果時,未知參數(shù)的可能取值。例如,對于“一枚正反對稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時十次都是正面向上的“概率”是多少;而對于“一枚硬幣上拋十次,我們則可以問,這枚硬幣正反面對稱的“似然”程度是多少。概率(密度)表達(dá)給定θ下樣本隨機(jī)向量X=x的可能性,而似然表達(dá)了給定樣本X=x下參數(shù)θ1(相對于另外的參數(shù)θ2)為真實(shí)值的可能性。我們總是對隨機(jī)變量的取值談概率,而在非貝葉斯統(tǒng)計的角度下,參數(shù)是一個實(shí)數(shù)而非隨機(jī)變量,所以我們一般不談一個參數(shù)的概率,而說似然。如何對決策樹進(jìn)行剪枝?答:剪枝是決策樹發(fā)生過擬合后,為了降低模型復(fù)雜度,提高模型準(zhǔn)確率的一種做法??梢苑譃樽陨隙潞妥韵露蟽煞N。常見的方法有:誤差降低剪枝(REP)和代價復(fù)雜度剪枝(CCP)。REP簡單的來說就是對樹的每一個結(jié)點(diǎn)進(jìn)行剪枝,如果剪掉某個結(jié)點(diǎn)不會降低模型準(zhǔn)確率,那么將其剪掉。這種啟發(fā)式的做法實(shí)際上就是為了最大化準(zhǔn)確率。什么時候你應(yīng)該使用分類而不是回歸?分類會產(chǎn)生離散的數(shù)值,使得數(shù)據(jù)嚴(yán)格的分為不同類?;貧w會得到連續(xù)的值,使你更好的區(qū)分獨(dú)立點(diǎn)之間的區(qū)別。當(dāng)你需要知道你的數(shù)據(jù)明確的屬于那些類時你可以用分類。什么是核技巧,有什么用處?答:核技巧使用核函數(shù),確保在高維空間不需要明確計算點(diǎn)的坐標(biāo),而是計算數(shù)據(jù)的特征空間中的內(nèi)積。這使其具有一個很有用的屬性:更容易的計算高維空間中點(diǎn)的坐標(biāo)。許多算法都可以表示稱這樣的內(nèi)積形式,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運(yùn)用算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論