自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)_第1頁
自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)_第2頁
自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)_第3頁
自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)_第4頁
自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

自然語言技術(shù)N1考試復(fù)習(xí)題庫(濃縮300題)

一'單選題

1.Relu和Tanh相比有什么不同的地方

A、輸出的值域不同

B、Relu可以做非線性變換而Tanh不可以

C、Relu是激活函數(shù)但是Tanh不是激活函數(shù)

D、都不可以做線性變換

答案:A

2.以下四個(gè)選項(xiàng)中,關(guān)于隨機(jī)森林和GBDT說法正確的是

A、都是由多棵樹組成,最終的結(jié)果都是由多棵樹一起決定。

B、RF和GBDT在使用CART樹時(shí),只能做回歸不能做分類。

GRF和GBDT在使用CART樹時(shí),只能做分類不能做回歸。

D、不確定

答案:A

3.通過getTreeDepth可以獲取決策樹中的什么

A、獲取決策樹葉子節(jié)點(diǎn)的個(gè)數(shù)

B、獲取決策樹的層數(shù)

C、繪制節(jié)點(diǎn)

D、標(biāo)注有向邊屬性

答案:B

4.下列幾個(gè)選項(xiàng)中關(guān)于GBDT,說法錯(cuò)誤的是

A、GBDT是深度學(xué)習(xí)算法

B、傳統(tǒng)的GBDT采用CART作為基分類器

C、傳統(tǒng)的GBDT在每輪迭代時(shí)使用全部的數(shù)據(jù)

D、沒有對確實(shí)值進(jìn)行處理

答案:A

5.零均值歸一化會(huì)將原始數(shù)據(jù)的標(biāo)準(zhǔn)差映射為多少?

A、0

B、1

C、2

D、3

答案:B

6.小概率事件怎么理解?以下選項(xiàng)當(dāng)中描述正確的是?

A、發(fā)生可能性不大的事件

B、發(fā)生可能性大的事件

C、發(fā)生可能性不去確定的事件

D、以上都正確

答案:A

7.串行地訓(xùn)練一系列前后依賴的同類模型,即后一個(gè)模型用來對前一個(gè)模型的輸

出結(jié)果進(jìn)行糾正屬于什么思想

A、Bagging

B、Boosting

C、Stacking

D、以上都正確

答案:B

8.以下幾個(gè)算法中哪個(gè)不容易陷入過擬合

A、未剪枝的決策樹

B、隨機(jī)森林

C、不加正則的線性回歸

D、不加正則的邏輯回歸

答案:B

9.LightGBM是實(shí)現(xiàn)GBDT算法的很好的框架,在下列四個(gè)選項(xiàng)中,哪個(gè)對于Lig

htGBM的優(yōu)勢描述是正確的

A、更慢的訓(xùn)練速度

B、更低的內(nèi)存消耗

C、更差的準(zhǔn)確率

D、不支持分布式

答案:B

10.高維組合特征的處理,具體是怎么做的

A、在特征工程中經(jīng)常會(huì)把一階離散特征兩兩組合

B、在特征工程中經(jīng)常會(huì)把一階離散特征打散

C、刪除一部分離散特征

D、不確定

答案:A

H.XGBoost中對樹上葉子節(jié)點(diǎn)的得分w的L2模平方,有什么目的

A、為了避免過擬合

B、為了避免欠擬合

C、為了增加葉子節(jié)點(diǎn)個(gè)數(shù)

D、不確定

答案:A

12.以下哪些算法是分類算法

A、DBSCAN

B、C4.5

C、K-Mean

DvEM

答案:B

13.先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),構(gòu)造一個(gè)寬度為k的直方圖。是

以下哪個(gè)算法的優(yōu)化

A、直方圖算法算法

B、帶深度限制的Leaf-wise的葉子生長策略

C、不確定

D、直接支持類別特征

答案:A

14.RNN中常用到Tanh激活函數(shù),它在求導(dǎo)之后的取值范圍是多少

A、(0,1)

B、(-1,1)

C、(0,0.5)

D、0或1

答案:A

15.縱觀決策樹有哪些優(yōu)點(diǎn)

A、易于理解和解釋,決策樹可以可視化。

B、決策樹學(xué)習(xí)可能創(chuàng)建一個(gè)過于復(fù)雜的樹,并不能很好的預(yù)測數(shù)據(jù)。也就是過

擬合

C、決策樹可能是不穩(wěn)定的,因?yàn)榧词狗浅P〉淖儺?,可能?huì)產(chǎn)生一顆完全不同

的樹

D、如果某些分類占優(yōu)勢,決策樹將會(huì)創(chuàng)建一棵有偏差的樹

答案:A

16.對于k-NN分類器,以下哪個(gè)陳述是正確的?

A、k值越大,分類精度越好

B、k值越小,決策邊界越光滑

C、決策邊界是線性的

D、k-NN不需要顯式的訓(xùn)練步驟

答案:D

17.XGBoost是對某個(gè)算法的改進(jìn),是以下四個(gè)選項(xiàng)中的哪個(gè)算法

A、GBDT

B、隨機(jī)森林

C、線性回歸

D、邏輯回歸

答案:A

18.在下列任務(wù)當(dāng)中,哪個(gè)任務(wù)可以使用線性回歸去實(shí)現(xiàn)

A、數(shù)據(jù)降維

B、垃圾郵件分類

C、癌癥良性惡性分類

D、房價(jià)預(yù)測

答案:D

19.如何理解線性回歸中的“線性”

A、兩個(gè)變量之間的關(guān)系是一次函數(shù)的關(guān)系,圖像是條直線

B、兩個(gè)變量之間的關(guān)系是二次函數(shù)的關(guān)系,圖像是條拋物線

C、兩個(gè)變量之間的關(guān)系是對數(shù)的關(guān)系

D、兩個(gè)變量之間的關(guān)系是指數(shù)函數(shù)的關(guān)系

答案:A

20.下列關(guān)于基尼系數(shù)和熠說法正確的是

A、基尼系數(shù)更偏向于連續(xù)值

B、熠更偏向于離散值

C、基尼系數(shù)的計(jì)算需要對數(shù)的運(yùn)算

D、焰運(yùn)算起來更加的高效

答案:A

21.XGBoost中加入正則化會(huì)怎么樣

A、可以防止欠擬合

B、可以增加模型的泛化能力

C、可以增加模型的復(fù)雜度

D、以上都是

答案:B

22.以下關(guān)于ROC曲線的說法,正確的是

A、ROC曲線越靠攏(1,2)點(diǎn)

B、ROC曲線越靠攏(0.5,0.5)點(diǎn)

C、R0C曲線越靠攏(0,1)點(diǎn)越好

D、R0C曲線越靠攏(1,0)點(diǎn)

答案:C

23.網(wǎng)絡(luò)表示(NetworkEmbedding)模型是受到以下哪種模型的啟發(fā)而來?

A、LDA

B、word2vec

C、PageRank

D、SVD

答案:B

24.什么是概率圖模型,如何去理解概率圖模型

A、概率圖模型是用圖來表示變量概率依賴關(guān)系

B、概率圖是樹狀的結(jié)構(gòu)

C、概率圖就是概率,是相同的

D、不確定

答案:A

25.若訓(xùn)練時(shí)使用了數(shù)據(jù)集的全部特征,模型在訓(xùn)練集上的準(zhǔn)確率為100%,驗(yàn)證

集上準(zhǔn)確率為70%o出現(xiàn)的問題是?

A、欠擬合

B、過擬合

C、模型很完美

D、不確定

答案:B

26.線性回歸使用的目標(biāo)函數(shù)是以下哪個(gè)

A、信息增益

B、信息熔

C、交叉熔

D、均方誤差

答案:D

27.在使用EM算法的時(shí)候可能會(huì)出現(xiàn)以下什么問題(弊端)

A、算法快速收斂

B、可能達(dá)到局部最優(yōu)

C、不確定

D、使梯度的計(jì)算更便捷

答案:B

28.建立了一個(gè)kNN分類器,該分類器在訓(xùn)練數(shù)據(jù)上獲得100%的準(zhǔn)確性。當(dāng)他

們在客戶端上部署此模型時(shí),發(fā)現(xiàn)該模型根本不準(zhǔn)確。以下哪項(xiàng)可能出錯(cuò)了?

A、可能是模型過擬合

B、可能是模型未擬合

C、不能判斷

D、這些都不是

答案:A

29.欠擬合是不好的現(xiàn)象,那么它有什么不好的影響

A、在訓(xùn)練集上的效果很好,但是在測試集上的效果很差

B、在訓(xùn)練集上的效果差,在測試集上的效果也差

C、在訓(xùn)練集上的效果很好,在測試集上的效果也很好

D、在訓(xùn)練集上的效果很差,但是在測試集上的效果很好

答案:B

30.EM算法應(yīng)用廣泛,它的求解原理是什么

A、是通過尋找最優(yōu)的自變量和因變量之間的一次函數(shù)關(guān)系

B、通過尋找最優(yōu)的超平面進(jìn)行更好的分類

C、是通過迭代,不斷求解下界的極大化,來逐步求解對數(shù)似然函數(shù)極大化

D、不確定

答案:C

31.在尋找最優(yōu)結(jié)構(gòu)樹的過程中,經(jīng)常會(huì)使用到以下哪個(gè)算法

A、邏輯回歸

B、線性回歸

C、聚類

D、貪心算法

答案:D

32.以下屬于異質(zhì)集成的是哪個(gè)

A、Bagging

B、Boosting

C、Stacking

D、以上都正確

答案:c

33.怎么去理解模型當(dāng)中的過擬合現(xiàn)象

A、指的就是樣本該學(xué)習(xí)到的特征沒有學(xué)習(xí)到,導(dǎo)致了曲線擬合數(shù)據(jù)的時(shí)候,效

果不好。

B、指的肯定就是說,這條曲線,過分的去描述現(xiàn)有的數(shù)據(jù)特征了。

C、指得就是說這個(gè)曲線能不能去很好的描述現(xiàn)有的數(shù)據(jù)。

D、欠擬合指的就是在訓(xùn)練和測試數(shù)據(jù)上的表現(xiàn)都不好

答案:B

34.KNearestNeighbors屬于以下哪個(gè)算法的全稱

A、線性回歸

B、邏輯回歸

C、KNN

D、K-means

答案:C

35.以下幾個(gè)關(guān)于EM算法的說法,正確的是

A、傳統(tǒng)EM算法對初始值不敏感

B、EM算法不能應(yīng)用到HMM的求解中

C、不確定

D、傳統(tǒng)EM算法對初始值敏感

答案:D

36.以下四個(gè)選項(xiàng)中代表的隨機(jī)森林縮寫的是哪個(gè)?

A、RF

B、GBDT

C、XGBoost

D、LightGBM

答案:A

37.為什么會(huì)提出LightGBM,最主要是什么原因

A、并無實(shí)際的意義

B、為了解決GBDT的并行問題

G為了改進(jìn)XGBoost

D、為了解決GBDT在大數(shù)據(jù)上遇到的問題

答案:D

38.RandomForest說的是以下哪個(gè)選項(xiàng)

A、隨機(jī)森林

B、決策樹

G聚類

D、邏輯回歸

答案:A

39.高斯混合模型與K均值算法的相同點(diǎn)有哪些

A、都是可用于分類的算法

B、都是可用于聚類的算法

C、都是可用于回歸的算法

D、都是可用于降維的算法

答案:B

40.什么時(shí)候可以選取KNN算法

A、當(dāng)需要使用分類算法,且數(shù)據(jù)比較大的時(shí)候就可以嘗試使用KNN算法進(jìn)行分

類了。

B、當(dāng)需要使用聚類算法,且數(shù)據(jù)比較大的時(shí)候就可以嘗試使用KNN算法進(jìn)行分

類了。

C、當(dāng)需要使用降維算法,且數(shù)據(jù)比較大的時(shí)候就可以嘗試使用KNN算法進(jìn)行分

類了。

D、不能確定

答案:A

41.GBDT屬于集成學(xué)習(xí),因此它擁有哪些優(yōu)點(diǎn)

A、采用決策樹作為弱分類器使得GBDT模型具有較好的解釋性和魯棒性,能夠自

動(dòng)發(fā)現(xiàn)特征間的高階關(guān)系。

B、GBDT在高維稀疏的數(shù)據(jù)集上,表現(xiàn)不如支持向量機(jī)或者神經(jīng)網(wǎng)絡(luò)。

C、GBDT在處理文本分類特征問題上,相對其他模型的優(yōu)勢不如它在處理數(shù)值特

征時(shí)明顯。

D、訓(xùn)練過程需要串行訓(xùn)練,只能在決策樹內(nèi)部采用一些局部并行的手段提高訓(xùn)

練速度。

答案:A

42.精確率是怎么計(jì)算的?

A、真正正確的占所有預(yù)測為正的比例。

B、真正正確的占所有實(shí)際為正的比例。

C、錯(cuò)誤的的占所有預(yù)測為正的比例。

D、錯(cuò)誤的的占所有實(shí)際為正的比例。

答案:A

43.KNN算法的肘部法則中,在k=10處是個(gè)拐點(diǎn),那么k的最佳值應(yīng)該是多少

A、3

B、10

C、20

D、30

答案:B

44.在貝葉斯統(tǒng)計(jì)中,如果后驗(yàn)分布與先驗(yàn)分布屬于同類,則被稱為什么

A、二項(xiàng)分布

B、多項(xiàng)分布

C、共拆分布

D、Bete分布

答案:C

45.如果測試數(shù)據(jù)中有N(非常大)的觀測值,則1-NN將花費(fèi)多少時(shí)間?

A、N*D

B、N*D*2

C、(N*D)/2

D、這些都不是

答案:A

46.SVM算法的最小時(shí)間復(fù)雜度是0(r?),基于此,以下哪種規(guī)格的數(shù)據(jù)集并

不適該算法?

A、大數(shù)據(jù)集

B、小數(shù)據(jù)集

C、中等數(shù)據(jù)集

D、不受數(shù)據(jù)集大小影響

答案:A

47.哪種數(shù)據(jù)類型數(shù)據(jù)類型可以看作關(guān)系型數(shù)據(jù)庫的一張表

A、半結(jié)構(gòu)化數(shù)據(jù)

B、非結(jié)構(gòu)化數(shù)據(jù)

C、結(jié)構(gòu)化數(shù)據(jù)

D、不確定

答案:C

48.為模型加上正則項(xiàng),可以很好的防止什么?

A、過擬合

B、欠擬合

C、完美擬合

D、不確定

答案:A

49.如何理解想“回歸”

A、通過數(shù)據(jù)使預(yù)測回歸到真實(shí)值上

B、通過數(shù)據(jù)做分類

C、通過數(shù)據(jù)做縮小維度

D、通過數(shù)據(jù)使相似的數(shù)據(jù)聚到一塊

答案:A

50.LDA屬于一個(gè)什么模型

A、語言模型

B、詞袋子模型

C、預(yù)訓(xùn)練模型

D、不確定

答案:B

51.Sigmoid激活函數(shù)求導(dǎo)之后,最大值為多少

A、1

B、0.5

C、0.25

D、0.3

答案:C

52.XGBoost和GBDT都是運(yùn)用了什么思想

A、Boosting

B、Bagging

C、Stacking

D、以上都正確

答案:A

53.GBDT(GradientBoostingDecisionTree)使用到的是什么思想

A、未剪枝的決策樹

B、隨機(jī)森林

C、不加正則的線性回歸

D、不加正則的邏輯回歸

答案:B

54.Tanh激活函數(shù)活躍在各大算法當(dāng)中,當(dāng)Tanh求導(dǎo)了之后,它的取值范圍是

多少

Ax[-1,1]

B、[0,2]

Cx[0,1]

D、0或1

答案:A

55.在k-NN中,增加/減少k值會(huì)發(fā)生什么?

A、K值越大,邊界越光滑

B、隨著K值的減小,邊界變得更平滑

C、邊界的光滑性與K值無關(guān)

D、這些都不是

答案:A

56.sigmoid輸出的值域可以代表什么

A、概率

B、代價(jià)

C、學(xué)習(xí)率

D、權(quán)重w

答案:A

57.加入正則項(xiàng),可以解決處理以下哪個(gè)問題

A、正常擬合

B、過擬合

C、欠擬合

D、不確定

答案:B

58.以下四個(gè)描述中,哪個(gè)選項(xiàng)正確的描述了XGBoost的基本核心思想

A、訓(xùn)練出來一個(gè)一次函數(shù)圖像去描述數(shù)據(jù)

B、訓(xùn)練出來一個(gè)二次函數(shù)圖像去描述數(shù)據(jù)

C、不斷地添加樹,不斷地進(jìn)行特征分裂來生長一棵樹,每次添加一個(gè)樹,其實(shí)

是學(xué)習(xí)一個(gè)新函數(shù)f(x),去擬合上次預(yù)測的殘差。

D、不確定

答案:C

59.GBDT使用的是什么思想

A、Bagging

B、Boosting

C、邏輯回歸

D、線性回歸

答案:B

60.SVM中,若C趨于無窮,以下哪種說法正確?

A、數(shù)據(jù)仍可正確分類

B、數(shù)據(jù)無法正確分類

C、不確定

D、以上都不對

答案:A

61.ID3,C4.5,他們有什么,相同的地方?

A、將信息增益比作為了選擇特征的標(biāo)準(zhǔn)

B、將信息增益作為了選擇特征的標(biāo)準(zhǔn)

C、將基尼系數(shù)作為了選擇特征的標(biāo)準(zhǔn)

D、都屬于決策樹算法

答案:D

62.在編寫模型或者訓(xùn)練模型的時(shí)候,如果模型過于復(fù)雜的話,會(huì)出現(xiàn)什么情況

A、正常擬合

B、過擬合

C、欠擬合

D、不確定

答案:B

63.LDA模型可以做什么事情

A、將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔

抽取出它們的主題(分布)出來后,便可以根據(jù)主題(分布)進(jìn)行主題聚類或文

本分類

B、可以找出來最優(yōu)的分類超平面

C、可以找到因變量和自變量之間的一次關(guān)系

D、不確定

答案:A

64.以下哪個(gè)操作可以停止樹的循環(huán)

A、加入L2正則

B、加入L1正則

C、設(shè)置樹的最大深度

D、以上都可以

答案:C

65.基于直方圖的稀疏特征優(yōu)化多線程優(yōu)化。是以下哪個(gè)框架做的優(yōu)化

A、LightGBM

B、XGBoost

C、隨機(jī)森林

D、GBDT

答案:A

66.從工程的角度出發(fā)去看,隨機(jī)森林有什么優(yōu)點(diǎn)

A、隨機(jī)森林的每棵樹訓(xùn)練是相互獨(dú)立的,可以串行生成,調(diào)高訓(xùn)練的效率

B、隨機(jī)森林的每棵樹訓(xùn)練是相互獨(dú)立的,可以并行生成,調(diào)高訓(xùn)練的效率

C、隨機(jī)森林的每棵樹訓(xùn)練是相互獨(dú)立的,可以并行生成,降低訓(xùn)練的效率

D、不確定

答案:B

67.1-NN,2-NN,3-NN所花費(fèi)的時(shí)間之間是什么關(guān)系。

A、1-NN>2-NN>3-NN

B、1-NN<2-NN<3-NN

C、1-NN~2-NN~3-NN

D、這些都不是

答案:c

68.以下四個(gè)選項(xiàng)中哪個(gè)是激活函數(shù)

A、L1

B、ReIu

C、L2

D、MSE

答案:B

69.馬爾科夫可以用一個(gè)什么圖去進(jìn)行表示

A、無向圖

B、有無向圖

C、有向圖

D、不確定

答案:A

70.主成分分析法的簡寫是哪個(gè)

A、PCA

B、LDA

C、SVM

D、K-Means

答案:A

71.如果適當(dāng)?shù)脑黾恿四P偷膹?fù)雜度會(huì)達(dá)到什么效果

A、防止過擬合

B、防止欠擬合

C、防止完美擬合

D、不確定

答案:B

72.以下哪些算法是聚類算法

A、ID3

B、C4.5

C、K-Means

D、SVM

答案:C

73.在同質(zhì)集成(系統(tǒng)中個(gè)體學(xué)習(xí)器的類型相同)中,個(gè)體學(xué)習(xí)器又被稱為

A、基學(xué)習(xí)器

B、組建學(xué)習(xí)

C、不能判斷

D、以上都正確

答案:A

74.樸素貝葉斯分類是基于()假設(shè)。

A、條件獨(dú)立

B、條件不獨(dú)立

C、聯(lián)合概率

D、不確定

答案:A

75.LDA中的五個(gè)分布其中的二項(xiàng)分布,是一個(gè)什么分布

A、離散的隨機(jī)分布

B、連續(xù)的隨機(jī)分布

C、連續(xù)的分布

D、不確定

答案:A

76.KNN算法的分類原理是什么

A、利用自變量和因變量之間的一次函數(shù)關(guān)系

B、需要分類的樣本選擇特征空間上和自己最鄰近的K個(gè)樣本_xOOO1一把已經(jīng)分類

或需要分類的樣本在定義的特征空間上表征需要分類的樣本的類別就是這K個(gè)

樣本中最多的那個(gè)類別

C、利用自變量和因變量之間的對數(shù)關(guān)系

D、找出最好的分類超平面

答案:B

77.文本,圖像,視頻,音頻這樣的數(shù)據(jù)數(shù)據(jù)屬于哪種類型的數(shù)據(jù)

A、結(jié)構(gòu)化數(shù)據(jù)

B、半結(jié)構(gòu)化數(shù)據(jù)

C、非結(jié)構(gòu)化數(shù)據(jù)

D、不確定

答案:c

78.Bagging中的采樣方法是什么樣的

A、有放回的隨機(jī)抽樣

B、無放回的隨機(jī)抽樣

C、有放回的順序抽樣

D、無放回的順序抽樣

答案:A

79.sigmoid激活函數(shù)來說,它輸出值的范圍是_?

Ax[0,1]

B、[0,2]

G[0,3]

D、[-1,1]

答案:A

80.K-Means中的K應(yīng)該如何去選擇

A、貪心法則

B、馬爾科夫

C、肘部法則

D、概率圖

答案:C

81.激活函數(shù)有廣泛的應(yīng)用,下列選項(xiàng)中,對于激活函數(shù)存在意義的理解,正確

的是?

A、進(jìn)行非線性變換,增強(qiáng)表達(dá)能力

B、進(jìn)行線性變換,增強(qiáng)表達(dá)能力

C、進(jìn)行線性變換,減少表達(dá)能力

D、進(jìn)行非線性變換,減少表達(dá)能力

答案:A

82.帶有深度限制的按葉子生長(leaf-wise)算法,主要做了什么事情

A、增加了一個(gè)最大深度的限制,在保證高效率的同時(shí)防止過擬合

B、先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),同時(shí)構(gòu)造一個(gè)寬度為k的直方圖

C、不確定

D、以上都正確

答案:A

83.以下哪種情況下樹會(huì)容易發(fā)生了過擬合的現(xiàn)象

A、加入L2正則

B、加入L1正則

C、設(shè)置樹的最大深度

D、沒有設(shè)置樹的最大深度

答案:D

84.關(guān)于k-NN算法的應(yīng)用,以下說法正確的是?

A、可用于分類

B、可用于回歸

C、可用于分類和回歸

D、聚類

答案:C

85.以下四個(gè)算法當(dāng)中,哪個(gè)算法和邏輯回歸一樣都可以做分類

A、線性回歸

B、嶺回歸

C、K-means

D、SVM

答案:D

86.以下四個(gè)選項(xiàng)當(dāng)中,關(guān)于帶有深度限制的按葉子生長(leaf-wise)算法,主要

做了什么事情,描述正確的是?

A、增加了一個(gè)最大深度的限制,在保證高效率的同時(shí)防止過擬合

B、先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),同時(shí)構(gòu)造一個(gè)寬度為k的直方圖

C、不確定

D、以上都正確

答案:A

87.以下四個(gè)說法中,哪個(gè)是GBDT的優(yōu)點(diǎn)

A、在分布稠密的數(shù)據(jù)集上,泛化能力和表達(dá)能力都很好;

B、GBDT在高維稀疏的數(shù)據(jù)集上表現(xiàn)不佳;

C、訓(xùn)練過程需要串行訓(xùn)練,只能在決策樹內(nèi)部采用一些局部并行的手段提高訓(xùn)

練速度。

D、不確定

答案:A

88.sigmoid作為常見的激活函數(shù),有著非線性變化的作用,它的曲線是什么樣

A、直線

B、A型曲線

C、C型曲線

D、S型曲線

答案:D

89.并行地訓(xùn)練一系列各自獨(dú)立的不同類模型,然后通過訓(xùn)練一個(gè)元模型(meta-

model)來將各個(gè)模型輸出結(jié)果進(jìn)行結(jié)合,是什么思想

A、Bagging

B、Boosting

C、Stacking

D、以上都正確

答案:c

90.當(dāng)EM在做完計(jì)算期望之后,下一步應(yīng)該做什么事情?

A、最大化

B、求代價(jià)

C、計(jì)算期望

D、不確定

答案:A

91.下列哪個(gè)不是體現(xiàn)出的隨機(jī)森林的隨機(jī)性

A、樣本的隨機(jī)性(Bagging):在Bagging時(shí),隨機(jī)選擇樣本

B、特征的隨機(jī)性(Randomsubspace)

C、隨機(jī)特征組合(Randombination)

D、隨機(jī)代價(jià)函數(shù)

答案:D

92.信息熠又叫什么?

A、信息增益

B、信息增益比

C、基尼系數(shù)

D、香農(nóng)熔

答案:D

93.關(guān)于Relu激活函數(shù)說法正確的是

A、經(jīng)過Reiu變換之后的取值在[0,1]之間

B、正半?yún)^(qū)是本身,負(fù)半?yún)^(qū)全為0

G經(jīng)過Relu變換之后的取值在[7,1]之間

D、經(jīng)過Reiu變換之后的取值在[-8,+8]之間

答案:B

94.以下四個(gè)選項(xiàng)當(dāng)中,哪個(gè)不屬于抽象模型的是()

A、概率統(tǒng)計(jì)模型

B、比例模型

C、符號模型

D、流程圖

答案:B

95.ReIu在負(fù)半?yún)^(qū)求導(dǎo)之后值為多少

A、0

B、1

C、2

D、-1

答案:A

96.雖然隨機(jī)森林和GBDT都屬于集成學(xué)習(xí),他們有什么不同之處

A、都是由多棵樹組成,最終的結(jié)果都是由多棵樹一起決定。

B、組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成

C、RF和GBDT在使用CART樹時(shí),可以是分類樹或者回歸樹。

D、不確定

答案:B

97.如果對數(shù)據(jù)進(jìn)行了歸一化的處理,可以達(dá)到什么樣的效果

A、將所有的特征都統(tǒng)一到一個(gè)大致相同的數(shù)值區(qū)間內(nèi)

B、并無實(shí)際的意義

C、不確定

D、可以對數(shù)據(jù)進(jìn)行等比例的擴(kuò)大

答案:A

98.下列算法中,訓(xùn)練數(shù)據(jù)集是無label的數(shù)據(jù),是雜亂無章的,經(jīng)過變換后變

得有序,先無序,后有序是哪個(gè)算算法

A、SVM

B、邏輯回歸

G線性回歸

D、聚類

答案:D

99.在下列四個(gè)選項(xiàng)中,正確的找出激活函數(shù)

A、L1

B、ReIu

C、L2

D、MSE

答案:B

100.訓(xùn)練了一個(gè)線性SVM,這個(gè)模型出現(xiàn)了欠擬合現(xiàn)象。應(yīng)該采取下列什么措

施?

A、增加數(shù)據(jù)點(diǎn)

B、減少數(shù)據(jù)點(diǎn)

C、增加特征

D、減少特征

答案:C

101.貝葉斯判別規(guī)則是什么

A、就是判斷自變量和因變量之間的關(guān)系

B、把特征向量X落入某類集群wi的條件概率平P(wi/X)當(dāng)成分類判別函數(shù),

把X落入某集群的條件概率最大的類為X的分類這種判別規(guī)則叫貝葉斯判別規(guī)則

C、不確定

D、就是通過選擇最優(yōu)的超平面去進(jìn)行最好的分類超平面

答案:B

102.當(dāng)我們選擇K-NN中的K時(shí),可以通過下邊哪種方式去選擇?

A、肘部法則

B、代價(jià)函數(shù)

C、不確定

D、以上都可以

答案:A

103.獨(dú)熱編碼可以完成什么事情

A、對數(shù)據(jù)進(jìn)行向量化

B、對數(shù)據(jù)進(jìn)行特征縮放

C、對特征進(jìn)行歸一化處理

D、消除數(shù)據(jù)特征之間的量綱影響

答案:A

104.EM算法在高斯混合模型中的應(yīng)用中的E步驟主要做了什么事情

A、確定Q函數(shù)

B、明確隱變量,寫出完全數(shù)據(jù)的對數(shù)似然函數(shù)

C、求Q函數(shù)對theta的極大值,即求新一輪迭代的模型參數(shù)

D、不確定

答案:A

105.下列關(guān)于GBDT的說法正確的是哪個(gè)

A、GBDT是機(jī)器學(xué)習(xí)的算法

B、GBDT是深度學(xué)習(xí)的算法

C、GBDT屬于特征工程部分

D、以上都正確

答案:A

106.每個(gè)算法都會(huì)有缺點(diǎn),對于集成學(xué)習(xí)GBDT的缺點(diǎn)是什么

A、預(yù)測階段的計(jì)算速度快,樹與樹之間可并行化計(jì)算。

B、GBDT在高維稀疏的數(shù)據(jù)集上,表現(xiàn)不如支持向量機(jī)或者神經(jīng)網(wǎng)絡(luò)。

C、在分布稠密的數(shù)據(jù)集上,泛化能力和表達(dá)能力都很好,這使得GBDT在Kaggl

e的眾多競賽中,經(jīng)常名列榜首。

D、采用決策樹作為弱分類器使得GBDT模型具有較好的解釋性和魯棒性,能夠自

動(dòng)發(fā)現(xiàn)特征間的高階關(guān)系。

答案:B

107.K-Means最終得到的結(jié)果是什么

A、將已經(jīng)分類好的數(shù)據(jù),重新進(jìn)行劃分類別

B、未標(biāo)記的數(shù)據(jù)聚類成不同的組

C、不確定

D、將已經(jīng)標(biāo)記好的數(shù)據(jù)打散成無類別形式

答案:B

108.決策樹有可能會(huì)造成什么缺點(diǎn)

A、可能會(huì)對缺失值很敏感

B、無法處理不相關(guān)的數(shù)據(jù)

C、可能產(chǎn)生過渡匹配問題

D、計(jì)算的復(fù)雜度很高

答案:C

109.關(guān)于貝葉斯判別規(guī)則,下列選項(xiàng)中描述正確的是?

A、就是判斷自變量和因變量之間的關(guān)系

B、把特征向量X落入某類集群wi的條件概率平P(wi/X)當(dāng)成分類判別函數(shù),

把X落入某集群的條件概率最大的類為X的分類這種判別規(guī)則叫貝葉斯判別規(guī)則

C、不確定

D、就是通過選擇最優(yōu)的超平面去進(jìn)行最好的分類超平面

答案:B

110.什么是特征工程,如何去理解特征工程

A、特征工程就是對原始的數(shù)據(jù)做一系列的處理

B、特征工程就是使用各種算法實(shí)現(xiàn)結(jié)果

C、特征工程就是聚類和降維

D、特征工程就是回歸和分類

答案:A

111.SVM算法的性能取決于:

A、核函數(shù)的選擇

B、核函數(shù)的參數(shù)

C、軟間隔參數(shù)C

D、以上所有

答案:D

112.SVM其中有個(gè)參數(shù)C,這個(gè)參數(shù)代表的是什么意思?

A、交叉驗(yàn)證的次數(shù)

B、用到的核函數(shù)

C、在分類準(zhǔn)確性和模型復(fù)雜度之間的權(quán)衡

D、以上都不對

答案:C

113.K-Means中K代表的是什么意思

A、學(xué)習(xí)率

B、聚類中心

C、代價(jià)

D、不確定

答案:B

114.NLP中常處理的文本,屬于什么樣的數(shù)據(jù)

A、結(jié)構(gòu)化數(shù)據(jù)

B、非結(jié)構(gòu)化數(shù)據(jù)

C、半結(jié)構(gòu)化數(shù)據(jù)

D、以上都是

答案:B

115.特征的歸一化屬于以下哪個(gè)選項(xiàng)中

A、特征工程

B、分類

C、回歸

D、聚類

答案:A

116.以下四個(gè)選項(xiàng)中哪個(gè)屬于決策樹

A、SVM

B、K-Means

GPCA

D、C4.5

答案:D

117.邏輯回歸是如何做分類的,為什么可以做分類

A、因?yàn)槭褂昧薡=W*X+b的函數(shù)表達(dá)式

B、因?yàn)檫壿嫽貧w引入了激活函數(shù)做了非線性的變換

C、因?yàn)檫壿嫽貧w使用了誤差平方和作為目標(biāo)函數(shù)

D、因?yàn)檫壿嬏幚淼亩际沁B續(xù)性數(shù)據(jù)

答案:B

118.以下關(guān)于梯度下降優(yōu)化算法的描述,錯(cuò)誤的是?

A、靠近極值點(diǎn)收斂速度慢

B、直線搜索時(shí)可能會(huì)產(chǎn)生問題

C、可能會(huì)“之字形”地下降。

D、越靠近極值點(diǎn)收斂速度快

答案:D

119.以下選項(xiàng)中關(guān)于LDA的優(yōu)點(diǎn)描述說法正確的是

A、LDA適合對非高斯分布樣本進(jìn)行降維;

B、可以使用類別的先驗(yàn)知識;

C、LDA降維最多降到分類數(shù)k7維;

D、LDA可能過度擬合數(shù)據(jù)。

答案:B

120.GBDT(GradientBoostingDecisionTree)的全名叫什么

A、隨機(jī)森林

B、梯度提升決策樹

C、聚類

D、邏輯回歸

答案:B

121.關(guān)于損失函數(shù)的意義說法正確的是

A、損失函數(shù)越小,模型魯棒性越好

B、損失函數(shù)越小,模型魯棒性越差

C、損失函數(shù)越大,模型魯棒性越好

D、不確定

答案:A

122.C4.5相比較于ID3算法,在哪個(gè)地方得進(jìn)行了改變

A、將信息增益比作為了選擇特征的標(biāo)準(zhǔn)

B、將信息增益作為了選擇特征的標(biāo)準(zhǔn)

C、將基尼系數(shù)作為了選擇特征的標(biāo)準(zhǔn)

D、將信息帽作為了選擇特征的標(biāo)準(zhǔn)

答案:A

123.如果使用了Tanh作為激活函數(shù)你,那么經(jīng)過此非線性變換后值的范圍為_?

A、[-1,1]

B、[0,2]

C、[0,1]

D、0或1

答案:A

124.若參數(shù)C(costparameter)被設(shè)為無窮,下面哪種說法是正確的?

A、只要最佳分類超平面存在,它就能將所有數(shù)據(jù)全部正確分類

B、軟間隔SVM分類器將正確分類數(shù)據(jù)

C、二者都不對

D、不確定

答案:A

125.平方損失函數(shù)一般用在以下哪個(gè)算法中

A、邏輯回顧

B、線性回歸

C、SVM

D、聚類

答案:B

126.LDA的實(shí)質(zhì)是在做一個(gè)什么東西

A、根據(jù)給定的一篇文檔,反推其主題

B、可以找出來最優(yōu)的分類超平面

C、可以找到因變量和自變量之間的一次關(guān)系

D、不確定

答案:A

127.樸素貝葉斯作為常用的方法,它是以()為基礎(chǔ)的分類方法。

A、概率論

B、線性代數(shù)

C、微積分

D、都不是

答案:A

128.以下四個(gè)任務(wù)中,邏輯回歸可以做哪個(gè)

A、數(shù)據(jù)降維

B、垃圾郵件分類

C、電影票房預(yù)測

D、房價(jià)預(yù)測

答案:B

129.sigmoid缺點(diǎn)之一就是非線性變化較慢,可以通過以下哪個(gè)激活函數(shù)進(jìn)行改

A、Sigmoid

B、Tanh

GReIu

D、不確定

答案:c

130.Histogram算法的思想是什么

A、尋找最優(yōu)分割面

B、尋找因變量和自變量之間的關(guān)系

C、先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),同時(shí)構(gòu)造一個(gè)寬度為k的直方圖。

D、不確定

答案:C

131.MSE代表什么意思

A、信息炳

B、均方誤差

C、交叉熠

D、信息增益

答案:B

132.直方圖算法中的K可以認(rèn)為是什么

A、代價(jià)

B、常數(shù)

C、學(xué)習(xí)率

D、不確定

答案:B

133.以下四種說法當(dāng)中,關(guān)于GBDT的描述說法正確的有哪些

A、GBDT是并行生成

B、GBDT則是多棵樹累加之和

C、GBDT對異常值比較敏感

D、GBDT是減少模型的偏差

答案:A

134.如果訓(xùn)練完成的模型存在過擬合現(xiàn)象會(huì)造成什么影響

A、在訓(xùn)練集上的效果很好,但是在測試集上的效果很差

B、在訓(xùn)練集上的效果差,在測試集上的效果也差

C、在訓(xùn)練集上的效果很好,在測試集上的效果也很好

D、在訓(xùn)練集上的效果很差,但是在測試集上的效果很好

答案:A

135.線性判別分析LDA的思想是什么

A、投影后類內(nèi)方差最大

B、類間方差最小

C、投影后類內(nèi)方差最小

D、不確定

答案:C

136.下列關(guān)于K均值說法,正確的是?

A、K均值接收未標(biāo)記的數(shù)據(jù)集,然后將數(shù)據(jù)聚類成不同的組

B、通過生成樹的形式對,數(shù)據(jù)集進(jìn)行分類

C、通過自變量和因變量之間的一次函數(shù)關(guān)系,構(gòu)建回歸模型

D、構(gòu)建一個(gè)超平面,將數(shù)據(jù)在更高維度上,使用超平面更好的劃分

答案:A

137.隨機(jī)森林和GBDT有很多相似的地方,以下幾個(gè)選項(xiàng)中描述它們相同點(diǎn)正確

的是哪個(gè)?

A、組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成

B、隨機(jī)森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹累加之和

C、都是由多棵樹組成,最終的結(jié)果都是由多棵樹一起決定。

D、RF和GBDT在使用CART樹時(shí),只能是分類樹

答案:C

138.XGBoost雖然也是個(gè)算法,但是這個(gè)算法的本質(zhì)其實(shí)是很么算法

A、隨機(jī)森林

B、GBDT

C、線性回歸

D、邏輯回歸

答案:B

139.sigmoid作為常用的激活函數(shù),它的曲線是什么樣子的?

A、直線

B、A型曲線

C、C型曲線

D、S型曲線

答案:D

140.以下哪種情況會(huì)導(dǎo)致SVM算法性能下降?

A、數(shù)據(jù)線性可分

B、數(shù)據(jù)干凈、格式整齊

C、數(shù)據(jù)有噪聲,有重復(fù)值

D、不確定

答案:C

多選題

1.如何去構(gòu)建一顆決策樹

A、構(gòu)建根節(jié)點(diǎn)

B、構(gòu)建葉子節(jié)點(diǎn)

C、選擇新特征繼續(xù)分割

D、最終子集都被分到葉子節(jié)點(diǎn)上

答案:ABCD

2.可以通過以下哪些方式劃分?jǐn)?shù)據(jù)集

A、信息增益

B、信息增益比

C、代價(jià)函數(shù)

D、極大似然

答案:AB

3.以下四個(gè)選項(xiàng)中,經(jīng)典的概率模型有哪些?

A、不確定

B、古典概型

C、幾何概型

D、以上都正確

答案:BC

4.在下列四個(gè)選項(xiàng)中,關(guān)于GBDT算法描述正確的選項(xiàng)有哪些?

A、預(yù)測階段的計(jì)算速度快,樹與樹之間可并行化計(jì)算(注意預(yù)測時(shí)可并行)

B、在分布稠密的數(shù)據(jù)集上,泛化能力和表達(dá)能力都很好;

C、GBDT在高維稀疏的數(shù)據(jù)集上表現(xiàn)不佳;

D、訓(xùn)練過程需要串行訓(xùn)練,只能在決策樹內(nèi)部采用一些局部并行的手段提高訓(xùn)

練速度。

答案:ABCD

5.網(wǎng)絡(luò)結(jié)構(gòu)分別都有哪些形式,以下選項(xiàng)中正確是?

A、星形結(jié)構(gòu):具有一個(gè)中心結(jié)點(diǎn),所有通訊都通過它。

B、環(huán)形結(jié)構(gòu):網(wǎng)絡(luò)結(jié)點(diǎn)連成一個(gè)封閉的環(huán)形。

C、總線結(jié)構(gòu):具有一個(gè)共享總線,所有結(jié)點(diǎn)掛在上面,又稱樹形結(jié)構(gòu)

D、以上都正確

答案:ABCD

6.隨機(jī)森林中的“隨機(jī)”體現(xiàn)在什么方面

A、隨機(jī)森林的隨機(jī)性體現(xiàn)在每棵樹的訓(xùn)練樣本都是隨機(jī)的

B、模型的代價(jià)是隨機(jī)的

C、樹中每個(gè)節(jié)點(diǎn)的分裂屬性集合也是隨機(jī)選擇確定的。

D、以上都正確

答案:AC

7.LightGBM為了更好的實(shí)現(xiàn)落地GBDT算法,在以下哪些方向上做了優(yōu)化?

A、帶深度限制的Leaf-wise的葉子生長策略

B、直方圖做差加速直接

C、支持類別特征(CategoricaIFeature)

D、以上不都是

答案:ABC

8.邏輯回歸在工業(yè)中可以有哪些應(yīng)用

A、各種分類場景

B、某搜索引擎廠的廣告CTR預(yù)估基線版是LR。

C、某電商搜索排序/廣告CTR預(yù)估基線版是LR。

D、某電商的購物搭配推薦用了大量LR。

答案:ABCD

9.SVM在工業(yè)中有廣泛的應(yīng)用,以下說法正確的是

A、文本分類

B、圖片分類

C、新聞聚類

D、以上都對

答案:ABCD

10.為什么SVM對缺失某些特征數(shù)據(jù)敏感?

A、VM沒有處理缺失值的策略(決策樹有)

B、特征空間的好壞對SVM的性能很重要

C、SVM希望樣本在特征空間中線性可分

D、以上都正確

答案:ABCD

11.GBDT算法中如果按照高維的ID特征做分裂,會(huì)出現(xiàn)哪些不好的情況

A、子樹數(shù)量非常多

B、計(jì)算量會(huì)非常大

C、訓(xùn)練會(huì)非常慢

D、以上都正確

答案:ABCD

12.以下幾個(gè)選項(xiàng)中關(guān)于邏輯回歸優(yōu)化方法的描述,正確的是?

A、梯度下降

B、隨機(jī)梯度下降

Gmini隨機(jī)梯度下降

D、以上都正確

答案:ABCD

13.以下關(guān)于LightGBM對XGBoost的優(yōu)化說法正確的是

A、基于Histogram的決策樹算法

B、帶深度限制的Leaf-wise的葉子生長策略

C、直方圖做差加速直接

D、支持類別特征(CategoricaIFeature)

答案:ABCD

14.下列選項(xiàng)中SVM可以調(diào)節(jié)的參數(shù)是?

A、C

B、kerneI

C、degree

D、gamma

答案:ABCD

15.在訓(xùn)練模型的階段,如果說發(fā)生了過擬合現(xiàn)象,以下四個(gè)選項(xiàng)中,可以通過

哪些方式解決

A、增加數(shù)據(jù)量

B、減少數(shù)據(jù)量

C、增加迭代次數(shù)

D、減少迭代次數(shù)

答案:AD

16.在k-NN中可以使用以下哪個(gè)距離度量?

AxManhattan

B、Minkowski

C、Tanimoto

D、Jaccard

答案:ABCD

17.預(yù)處理單個(gè)特征的時(shí)候,通常有哪些操作

A、歸一化

B、離散化

C、缺失值處理

D、數(shù)據(jù)變換

答案:ABCD

18.決策樹有什么特點(diǎn),以及優(yōu)點(diǎn)

A、計(jì)算復(fù)雜度低

B、輸出結(jié)果易于理解

C、對中間缺失值不過敏

D、可以處理不相關(guān)的特征

答案:ABCD

19.概率圖模型中的邊可以分為哪幾種

A、有向邊

B、不確定

C、無向邊

D、以上都正確

答案:AB

20.EM算法在高斯混合模型中的應(yīng)用包含哪些步驟

A、明確隱變量,寫出完全數(shù)據(jù)的對數(shù)似然函數(shù)。

B、EM算法的E步:確定Q函數(shù)

C、求Q函數(shù)對theta的極大值,即求新一輪迭代的模型參數(shù)。

D、以上都正確

答案:ABCD

21.機(jī)器學(xué)習(xí)中的檢驗(yàn)方法有很多種,以下常用的檢驗(yàn)方法有哪些?

AxKS檢驗(yàn)

B、T檢驗(yàn)

C、F檢驗(yàn)

D、卡方檢驗(yàn)

答案:ABCD

22.在Histogram算法之上,LightGBM還做了哪些優(yōu)化

A、帶深度限制的Leaf-wise的葉子生長策略

B、直方圖做差加速直接

C、支持類別特征(CategoricaIFeature)

D、不確定

答案:ABC

23.Bagging的操作主要分為哪些階段

A、Aggregating階段,將上一個(gè)階段訓(xùn)練得到的n個(gè)基模型組合起來,共同做

決策。在分類任務(wù)中,可采用投票法,比如相對多數(shù)投票法,將結(jié)果預(yù)測為得票

最多的類別。而在回歸任務(wù)中可采用平均法,即將每個(gè)基模型預(yù)測得到的結(jié)果進(jìn)

行簡單平均或加權(quán)平均來獲得最終的預(yù)測結(jié)果。

B、Boostrap階段,即采用有放回的采樣方式,將訓(xùn)練集分為n個(gè)子樣本集;并

用基學(xué)習(xí)器對每組樣本分布進(jìn)行訓(xùn)練,得到n個(gè)基模型

C、分別采用全部的訓(xùn)練樣本來訓(xùn)練n個(gè)組件模型,要求這些個(gè)體學(xué)習(xí)器必須異

構(gòu)的,比如可以分別是線性學(xué)習(xí)器,SVM,決策樹模型和深度學(xué)習(xí)模型。

D、訓(xùn)練一個(gè)元模型(meta-model)來將各個(gè)組件模型的輸出結(jié)果進(jìn)行結(jié)合,具體

過程就是將各個(gè)學(xué)習(xí)器在訓(xùn)練集上得到的預(yù)測結(jié)果作為訓(xùn)練特征和訓(xùn)練集的真

實(shí)結(jié)果組成新的訓(xùn)練集;然后用這個(gè)新組成的訓(xùn)練集來訓(xùn)練一個(gè)元模型。這個(gè)元

模型可以是線性模型或者樹模型。

答案:AB

24.以下四個(gè)算法中,有哪些算法是屬于決策樹算法的

A、SVM

B、ID3

C、C4.5

D、CART

答案:BCD

25.LDA中有四個(gè)分布分別是哪四個(gè)分布

A、二項(xiàng)分布

B、多項(xiàng)分布

Gbeta分布

D、Dirichlet分布

答案:ABCD

26.以下四個(gè)關(guān)于EM算法的描述,正確的是

A、對初始值敏感

B、對初始值敏感

C、不同的初值可能得到不同的參數(shù)估計(jì)值

D、不能保證找到全局最優(yōu)值。

答案:ABCD

27.在k-NN中,由于維數(shù)的存在,很可能過度擬合。你將考慮使用以下哪個(gè)選項(xiàng)

來解決此問題?

A、降維

B、特征選擇

C、不確定

D、以上都正確

答案:AB

28.LDA中的兩個(gè)模型指的是哪兩個(gè)

A、pLSA

B、GBDT

C、LDA

D、XGBoost

答案:AC

29.以下是針對k-NN算法給出的兩條陳述,其中哪一條是真的?

A、我們可以借助交叉驗(yàn)證來選擇k的最優(yōu)值

B、不能判斷

C、歐氏距離對每個(gè)特征一視同仁

D、以上都正確

答案:AC

30.在代價(jià)函數(shù)上加入一個(gè)正則項(xiàng),我們可以使用以下哪種

A、L1

B、L2

C、余弦公式

D、正弦公式

答案:AB

31.K-NN和K-Means很相像,他們有什么具體的區(qū)別

A、K-Means是聚類算法,KNN是分類算法。

B、KNN需要標(biāo)記點(diǎn),因此是有監(jiān)督的學(xué)習(xí),而k-means不是,因此是無監(jiān)督學(xué)

習(xí)。

C、K均值聚類僅需要一組未標(biāo)記的點(diǎn)和閾值

D、以上都正確

答案:ABCD

32.為什么SVM要引入核函數(shù)?

A、將樣本從原始空間映射到一個(gè)更低維的特征空間

B、將樣本從原始空間映射到一個(gè)更高維的特征空間

C、使得樣本在高維特征空間內(nèi)線性不可分。

D、使得樣本在高維特征空間內(nèi)線性可分。

答案:BD

33.聚類算法可以基于以下哪些選項(xiàng)去劃分

A、基于劃分

B、基于層次

C、基于密度

D、基于網(wǎng)格

答案:ABCD

34.一個(gè)合格的機(jī)器算法包含哪些部分

A、模型表征

B、模型評估

C、優(yōu)化算法

D、學(xué)習(xí)率

答案:ABC

35.樸素貝葉斯不是以()為基礎(chǔ)的分類方法。

A、概率論

B、天文學(xué)

C、地理學(xué)

D、物理學(xué)

答案:BCD

36.ID3算法的實(shí)現(xiàn)步驟有哪些

A、從根結(jié)點(diǎn)(rootnode)開始,對結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信

息增益最大的特征作為結(jié)點(diǎn)的特征。

B、由該特征的不同取值建立子節(jié)點(diǎn),再對子結(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決

策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止;

C、最后得到一個(gè)決策樹。

D、不確定

答案:ABC

37.SVM的原理是什么?

A、當(dāng)訓(xùn)練樣本線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性分類器,即線性

可分支持向量機(jī)

B、當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí),引入松弛變量,通過軟間隔最大化,學(xué)習(xí)一個(gè)

線性分類器,即線性支持向量機(jī);

C、當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),通過使用核技巧及軟間隔最大化,學(xué)習(xí)非線性支

持向量機(jī)。

D、以上都正確

答案:ABCD

38.正常情況下,集成學(xué)習(xí)一般有哪些步驟

A、不確定

B、生產(chǎn)一組“個(gè)體學(xué)習(xí)器

C、以上都正確

D、用某種策略將他們結(jié)合起來

答案:BD

39.XGBoost的目標(biāo)函數(shù)由哪些組成

A、損失函數(shù)

B、正則項(xiàng)

C、梯度下降

D、以上都正確

答案:AB

4O.LightGBM中使用了使用直方圖算法的優(yōu)點(diǎn)是什么

A、最明顯就是內(nèi)存消耗的升高

B、直方圖算法不僅不需要額外存儲預(yù)排序的結(jié)果

C、可以只保存特征離散化后的值

D、以上都正確

答案:BC

41.LightGBM在Leaf-wise之上增加了一^最大深度的限制,是為了什么

A、高效率

B、低效率

C、防止過擬合

D、防止欠擬合

答案:AC

42.Boosting思想是怎么進(jìn)行學(xué)習(xí)的?

A、先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器

B、再根據(jù)基學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本進(jìn)行調(diào)整

C、然后基于調(diào)整后的樣本分布來訓(xùn)練下一個(gè)基學(xué)習(xí)器

D、重復(fù)進(jìn)行。直至基學(xué)習(xí)器數(shù)目達(dá)到實(shí)現(xiàn)指定的值n,最終將這n個(gè)基學(xué)習(xí)器

進(jìn)行結(jié)合。

答案:ABCD

43.下列選項(xiàng)中關(guān)于高維數(shù)據(jù)處理描述正確的是?

A、為了提高復(fù)雜關(guān)系的擬合能力

B、在特征工程中經(jīng)常會(huì)把一階離散特征兩兩組合

C、構(gòu)成高階組合特征

D、以上都正確

答案:ABCD

44.聚類是工業(yè)中常用的算法,以下選項(xiàng)中哪些屬于聚類的常用算法

A、K-Means

B、高斯混合模型

C、自組織映射神經(jīng)網(wǎng)絡(luò)

D、以上都正確

答案:ABCD

45.聚類的相似度計(jì)算方法

A、SVM

B、余弦相似度

C\歐氏距離

D、Ligist

答案:BC

46.模型訓(xùn)練階段經(jīng)常發(fā)生過擬合或者欠擬合,當(dāng)發(fā)生欠擬合是,應(yīng)該如何解決

A、降低模型復(fù)雜度。

B、添加新特征。

C、增加模型復(fù)雜度。

D、減小正則化系數(shù)

答案:BCD

47.信息增益是由什么求來的

A、信息病

B、信息增益比

G條件由

D、基尼系數(shù)

答案:AC

48.Stacking都有哪些階段,分別是怎么做的?

A、Aggregating階段,將上一個(gè)階段訓(xùn)練得到的n個(gè)基模型組合起來,共同做

決策。在分類任務(wù)中,可采用投票法,比如相對多數(shù)投票法,將結(jié)果預(yù)測為得票

最多的類別。而在回歸任務(wù)中可采用平均法,即將每個(gè)基模型預(yù)測得到的結(jié)果進(jìn)

行簡單平均或加權(quán)平均來獲得最終的預(yù)測結(jié)果。

B、Boostrap階段,即采用有放回的采樣方式,將訓(xùn)練集分為n個(gè)子樣本集;并

用基學(xué)習(xí)器對每組樣本分布進(jìn)行訓(xùn)練,得到n個(gè)基模型

C、分別采用全部的訓(xùn)練樣本來訓(xùn)練n個(gè)組件模型,要求這些個(gè)體學(xué)習(xí)器必須異

構(gòu)的,比如可以分別是線性學(xué)習(xí)器,SVM,決策樹模型和深度學(xué)習(xí)模型。

D、訓(xùn)練一個(gè)元模型(meta-model)來將各個(gè)組件模型的輸出結(jié)果進(jìn)行結(jié)合,具體

過程就是將各個(gè)學(xué)習(xí)器在訓(xùn)練集上得到的預(yù)測結(jié)果作為訓(xùn)練特征和訓(xùn)練集的真

實(shí)結(jié)果組成新的訓(xùn)練集;然后用這個(gè)新組成的訓(xùn)練集來訓(xùn)練一個(gè)元模型。這個(gè)元

模型可以是線性模型或者樹模型。

答案:BC

49.EM算法放到高斯混合模型中應(yīng)用,一般會(huì)有哪些步驟?

A、明確隱變量,寫出完全數(shù)據(jù)的對數(shù)似然函數(shù)。

B、EM算法的E步:確定Q函數(shù)

C、求Q函數(shù)對theta的極大值,即求新一輪迭代的模型參數(shù)

D、以上都正確

答案:ABCD

50.以下選項(xiàng)中,可能會(huì)造成欠擬合的是哪些

A、模型復(fù)雜度太低

B、模型過于簡單

C、數(shù)據(jù)特征太少

D、沒有使用到重要的特征

答案:ABCD

51.以下哪些數(shù)據(jù)是常見的數(shù)據(jù)

A、文本

B、圖像

C、首頻

D、視頻

答案:ABCD

52.以下四個(gè)任務(wù)中,決策樹可以完成哪些

A、分類

B、聚類

C、回歸

D、降維

答案:AC

53.邏輯回歸有哪些可以優(yōu)化的方法

A、梯度下降

B、隨機(jī)梯度下降

Gmini隨機(jī)梯度下降

D、以上都正確

答案:ABCD

54.常見的幾種最優(yōu)化的方法有哪些

A、梯度下降法

B、牛頓法

C、擬牛頓法

D、共拆梯度法

答案:ABCD

55.降維的目的是為了什么,達(dá)到什么效果

A、減少預(yù)測變量的個(gè)數(shù)。

B、確保這些變量是相互獨(dú)立的。

C、數(shù)據(jù)在低維下更容易處理、更容易使用。

D、去除數(shù)據(jù)噪聲。

答案:ABCD

56.下列四個(gè)選項(xiàng)中,樸素貝葉斯不是以哪些為基礎(chǔ)的分類方法?

A、概率論

B、天文學(xué)

C、地理學(xué)

D、物理學(xué)

答案:BCD

57.特征清洗中包括以下哪些操作

A、清洗異常樣本

B、數(shù)據(jù)不均衡

C、歸一化

D、樣本權(quán)重

答案:ACD

58.EM算法過程中,可以分為哪兩個(gè)步驟

A、期望步

B、極大步

C、不確定

D、選擇最優(yōu)K取值

答案:AB

59.當(dāng)然樸素貝葉斯也有很多的缺點(diǎn),以下關(guān)于它缺點(diǎn)描述正確的是?

A、對缺失數(shù)據(jù)不太敏感

B、分類效果不穩(wěn)定

C、先驗(yàn)?zāi)P涂赡軐?dǎo)致結(jié)果不佳

D、不適合增量式訓(xùn)練

答案:AC

6O.LightGBM在哪些地方進(jìn)行了優(yōu)化(區(qū)別XGBoost)?

A、基于Histogram的決策樹算法

B、帶深度限制的Leaf-wise的葉子生長策略

C、直方圖做差加速直接

D、支持類別特征(CategoricaIFeature)

答案:ABCD

判斷題

1.線性回歸目標(biāo)函數(shù)中加入L2正則就變成了嶺回歸

A、正確

B、錯(cuò)誤

答案:A

2.條件概率(又稱后驗(yàn)概率)就是事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)

生概率

A、正確

B、錯(cuò)誤

答案:A

3.概率圖模型包括了樸素貝葉斯模型、最大煽模型、隱馬爾可夫模型、條件隨機(jī)

場'主題模型等,在機(jī)器學(xué)習(xí)的諸多場景中都有著廣泛的應(yīng)用。

A、正確

B、錯(cuò)誤

答案:A

4.基于密度聚類的特點(diǎn)是計(jì)算量大。很適合發(fā)現(xiàn)中小規(guī)模的數(shù)據(jù)庫中小規(guī)模的數(shù)

據(jù)庫中的球狀簇。

A、正確

B、錯(cuò)誤

答案:B

5.通過較少樹,葉節(jié)點(diǎn)的數(shù)量,可以較小樹的復(fù)雜度

A、正確

B、錯(cuò)誤

答案:A

6.關(guān)于LDA有兩種含義,一種是線性判別分析含inearDiscriminantAnalysis),

一種是概率主題模型:隱含狄利克雷分布(LatentDirichletAIlocation,簡稱

LDA)

A、正確

B、錯(cuò)誤

答案:A

7.AUC值越大的分類器,正確率越低

A、正確

B、錯(cuò)誤

答案:B

8.XGBoost的本質(zhì)其實(shí)就是一個(gè)隨機(jī)森林

A、正確

B、錯(cuò)誤

答案:B

9.損失函數(shù)MSE經(jīng)常用在SVM中使用

A、正確

B、錯(cuò)誤

答案:B

10.L2其實(shí)就是在目標(biāo)函數(shù)上加入了L2范數(shù)

A、正確

B、錯(cuò)誤

答案:A

11.符合正態(tài)分布的兩類樣本的分類面的位置與先驗(yàn)概率無關(guān)。

A、正確

B、錯(cuò)誤

答案:B

12.K-Means算法對開始初始的簇?cái)?shù)和對初始聚類中心敏感

A、正確

B、錯(cuò)誤

答案:A

13.決策樹只能做分類,但是做不了回歸問題

A、正確

B、錯(cuò)誤

答案:B

14.LDA和PCA都可以做降維操作

A、正確

B、錯(cuò)誤

答案:A

15.GBDT的核心就在于,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個(gè)殘差就

是一個(gè)加預(yù)測值后能得真實(shí)值的累加量。

A、正確

B、錯(cuò)誤

答案:A

16.如果發(fā)生了過擬合可以增加迭代的次數(shù)去解決

A、正確

B、錯(cuò)誤

答案:B

17.XGBoost和隨機(jī)森林的思想是一樣的

A、正確

B、錯(cuò)誤

答案:B

18.防止過擬合:從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。

A、正確

B、錯(cuò)誤

答案:A

19.首先gbdt是通過采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練

過程產(chǎn)生的殘差來達(dá)到將數(shù)據(jù)分類或者回歸的算法。

A、正確

B、錯(cuò)誤

答案:A

20.SVM算法中,既可以做分類又可以做回歸

A、正確

B、錯(cuò)誤

答案:A

21.隨機(jī)森林屬于集成學(xué)習(xí)

A、正確

B、錯(cuò)誤

答案:A

22.可以使用1-NN分類器構(gòu)造2-NN分類器嗎?

A、正確

B、錯(cuò)誤

答案:A

23.隨機(jī)森林是由多棵樹構(gòu)成的

A、正確

B、錯(cuò)誤

答案:A

24.召回率真正正確的占所有實(shí)際為正的比例。

A、正確

B、錯(cuò)誤

答案:A

25.線性回歸中的因變量和自變量呈現(xiàn)一次函數(shù)關(guān)系

A、正確

B、錯(cuò)誤

答案:A

26.LightGBM雖然在很多方面上做了優(yōu)化,但是占用的內(nèi)存會(huì)比較大

A、正確

B、錯(cuò)誤

答案:B

27.LightGBM是帶深度限制的Leaf-wise的葉子生長策略

A、正確

B、錯(cuò)誤

答案:A

28.LightGBM犧牲了一定的精度,但是提升了速度

A、正確

B、錯(cuò)誤

答案:B

29.XGBoost本質(zhì)上還是一個(gè)GBDT,但是力爭把速度和效率發(fā)揮到極致

A、正確

B、錯(cuò)誤

答案:A

30.RandomForest(隨機(jī)森林)是一種基于樹模型的Bagging的優(yōu)化版本,一棵樹

的生成肯定還是不如多棵樹,因此就有了隨機(jī)森林

A、正確

B、錯(cuò)誤

答案:A

31.KNN是一種基于劃分的聚類

A、正確

B、錯(cuò)誤

答案:B

32.LR的訓(xùn)練速度很慢

A、正確

B、錯(cuò)誤

答案:B

33.分隔超平面所產(chǎn)生的分類結(jié)果是最魯棒的,對未知實(shí)例的泛化能力最弱

A、正確

B、錯(cuò)誤

答案:B

34.EM算法是一個(gè)聚類算法

A、正確

B、錯(cuò)誤

答案:B

35.KNN算法和K-Means沒有任何區(qū)別

A、正確

B、錯(cuò)誤

答案:B

36.EM算法就是對于一個(gè)含有隱變量的概率模型,目標(biāo)是極大化觀測數(shù)據(jù)Y關(guān)于

參數(shù)theta的對數(shù)似然函數(shù)

A、正確

B、錯(cuò)誤

答案:A

37.增大正則化并不能防止過擬合的發(fā)生

A、正確

B、錯(cuò)誤

答案:B

38.線性回歸的一般表達(dá)式為:Y=W*X+b

A、正確

B、錯(cuò)誤

答案:A

39.概率圖模型構(gòu)建了這樣一幅圖,用觀測結(jié)點(diǎn)表示觀測到的數(shù)據(jù),用隱含結(jié)點(diǎn)

表示潛在的知識,用邊來描述知識與數(shù)據(jù)的相互關(guān)系

A、正確

B、錯(cuò)誤

答案:A

40.LR的可解釋性強(qiáng),可控度高

A、正確

B、錯(cuò)誤

答案:A

41.XGBoost使用的是Boosting方法,而GBDT使用的是Bagging方法

A、正確

B、錯(cuò)誤

答案:B

42.邏輯回歸的目標(biāo)函數(shù)中也可以加入正則化

A、正確

B、錯(cuò)誤

答案:A

43.XGBoost中枚舉所有不同樹結(jié)構(gòu)的貪心法

A、正確

B、錯(cuò)誤

答案:A

44.線性回歸不僅可以最回歸同時(shí)也可以做分類

A、正確

B、錯(cuò)誤

答案:B

45.機(jī)器學(xué)習(xí)算法=模型表征+模型評估+優(yōu)化算法。

A、正確

B、錯(cuò)誤

答案:A

46.GBDT中的樹都是分類樹

A、正確

B、錯(cuò)誤

答案:B

47.在邏輯回歸中也可以在目標(biāo)函數(shù)上加入L1,L2正則項(xiàng)

A、正確

B、錯(cuò)誤

答案:A

48.數(shù)據(jù)特征歸一化可以用到?jīng)Q策樹中

A、正確

B、錯(cuò)誤

答案:B

49.損失函數(shù)(lossfunction)是用來估量你模型的預(yù)測值f(x)與真實(shí)值Y的不

一致程度

A、正確

B、錯(cuò)誤

答案:A

50.當(dāng)數(shù)據(jù)的先驗(yàn)分布假定為正態(tài)分布時(shí),貝葉斯判別與正態(tài)分布等價(jià)

A、正確

B、錯(cuò)誤

答案:A

51.決策樹在進(jìn)行輸入的時(shí)候也需要做到歸一化

A、正確

B、錯(cuò)誤

答案:B

52.EM算法中要先求解最大化,然后求最大期望

A、正確

B、錯(cuò)誤

答案:B

53.gbdt通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器,每個(gè)分類器在上一輪分類

器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。

A、正確

B、錯(cuò)誤

答案:A

54.特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論