機器學習-溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年_第1頁
機器學習-溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年_第2頁
機器學習-溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年_第3頁
機器學習-溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年_第4頁
機器學習-溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

機器學習一溫州大學中國大學mooc課后章節(jié)答案期末考試題庫2023

1.GBDT由哪三個概念組成:()

參考答案:

RegressionDecisionTree(即DT'GradientBoosting(即

GB)_Shrinkage(縮減)

2.對于非概率模型而言,可按照判別函數(shù)線性與否分成線性模型與非線性模型。

下面哪些模型屬于線性模型?

參考答案:

K-means_k近鄰一感知機

3.邏輯回歸分類的精度不夠高,因此在業(yè)界很少用到這個算法

參考答案:

錯誤

4.SMOTE算法是用了上采樣的方法。

參考答案:

正確

5.支持向量是那些最接近決策平面的數(shù)據(jù)點

參考答案:

正確

6.100萬條數(shù)據(jù)劃分訓練集、驗證集、測試集,數(shù)據(jù)可以這樣劃分:98%,

1%,1%。

參考答案:

正確

7.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地

確定。

參考答案:

錯誤

8.樸素貝葉斯法的基本假設是條件獨立性。

參考答案:

正確

9.PCA投影方向可從最大化方差和最小化投影誤差這兩個角度理解。

參考答案:

正確

10.相關變量的相關系數(shù)可以為零,對嗎?

參考答案:

正確

11.Sigmoid函數(shù)的范圍是(-1,1)

參考答案:

錯誤

12.影響KNN算法效果的主要因素包括()。

參考答案:

決策規(guī)則小的值一距離度量方式

13.邏輯回歸的特征一定是離散的。

參考答案:

錯誤

14.閔可夫斯基距離中的p取1或2時的閔氏距離是最為常用的,以下哪項是

正確的:()。

參考答案:

閔可夫索基空間不同于牛頓力學的平坦空間.P取1時是曼哈頓距離-P取2

時是歐氏距離_p取無窮時是切比雪夫距離

15.KNN算法的缺點包括以下幾點?()

參考答案:

計算復采性高;空間復雜性高,尤其是特征數(shù)非常多的時候_可解釋性差,

無法給出決策樹那樣的規(guī)則_對訓練數(shù)據(jù)依賴度特別大,當樣本不平衡的時

候,對少數(shù)類的預測準確率低

16.兩個向量的余弦相似度越接近1,說明兩者越相似。

參考答案:

正確

17.k近鄰法(k-NearestNeighbor,kNN)是一種比較成熟也是最簡單的機器學習

算法,可以用于分類,但不能用于回歸方法。

參考答案:

錯誤

18.一個正例(2,3),一個負例(0,-1),下面哪個是SVM超平面?()

參考答案:

x+2y-3=0

19.數(shù)據(jù)科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些

算法的結(jié)果集成起來進行最后的預測(集成學習),以下對集成學習說法正

確的是

參考答案:

單個模型之間有低相關性

20.KNN沒有顯示的訓練過程,它在訓練階段只是把數(shù)據(jù)保存下來,訓練時間

開銷為0,等收到測試樣本后進行處理。

參考答案:

正確

21.在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題?

參考答案:

SVM算法中使用高斯核/RBF核代替線性核

22.關于L1正則化和L2正則化說法正確的是()。

參考答案:

L1正則犯無法有效減低數(shù)據(jù)存儲量

23.BP算法陷入局部極小值的問題可通過更換激活函數(shù)解決。

參考答案:

錯誤

24.BP算法的正向傳播是為獲取訓練誤差。

參考答案:

正確

25.BP算法的反向傳播是為了對權值進行調(diào)整。

參考答案:

正確

26.BP算法"喜新厭舊",在學習新樣本后,會把舊樣本逐漸遺忘。

參考答案:

正確

27.關于BP算法缺點的說法正確的是()。

參考答案:

BP算法很容易陷入局部極小值問題一BP算法更新沒有明確的公式,需要不

斷試湊,才能決定隱層節(jié)點數(shù)量.BP算法涉及參數(shù)數(shù)量很多,因此更新速

度慢

28.關于BP算法優(yōu)點說法正確的是()。

參考答案:

BP算法/向傳播采用鏈式法則,推導過程嚴謹_BP算法能夠自適應學習

_BP算法有很強的非線性映射能力

29.一般的多層感知器包含幾種類型層次的神經(jīng)元()。

參考答案:

輸出層一隱藏層一輸入層

30.隱藏層中常用的激活函數(shù)有(多選)()。

參考答案:

Tanh_ReLU_Sigmoid

31.以下關于極限學習機(ELM)說法錯誤的是()。

參考答案:

ELM有多個隱藏層

32.神經(jīng)網(wǎng)絡算法有時會出現(xiàn)過擬合的情況,那么采取以下哪些方法解決過擬合

更為可行()。

參考答案:

設置一個正則項減小模型的復雜度

33.Minsky在上世紀60年代末指出了神經(jīng)網(wǎng)絡算法的哪種缺點,使得神經(jīng)網(wǎng)

絡算法陷入低潮()。

參考答案:

早期的J經(jīng)網(wǎng)絡算法無法處理非線性學習問題

34.為避免BP算法在迭代過程中出現(xiàn)局部極小值的問題,那么采取以下哪種方

法可行()。

參考答案:

在每一輪迭代中都賦予一定的概率接受次優(yōu)解,但是概率隨迭代不斷降低

35.BP算法總結(jié)錯誤的是()。

參考答案:

隱層的閾值梯度只跟本層的神經(jīng)元輸出值有關

36.以下關于學習率說法錯誤的是()o

參考答案:

學習率必須是固定不變的

37.關于BP算法反向傳播的說法正確的是()。

參考答案:

BP算法反向傳播進行更新時一般用到微積分的鏈式傳播法則

38.以下關于Sigmoid的特點說法錯誤的是()。

參考答案:

Sigmoid函數(shù)計算量小

39.關于BP算法信號前向傳播的說法正確的是()。

參考答案:

C.BP算以在計算正向傳播輸出值時需要考慮激活函數(shù)

40.關于BP算法優(yōu)缺點的說法錯誤的是()。

參考答案:

BP算法不能用于處理非線性分類問題

41.關于BP算法特點描述錯誤的是()。

參考答案:

計算之前不需要對訓練數(shù)據(jù)進行歸一化

42.以下關于感知器說法錯誤的是

參考答案:

單層感知器可以用于處理非線性學習問題

43.以下關于偏差(Bias)和方差(Variance)說法正確的是

參考答案:

獲取更多的訓練數(shù)據(jù)可解決高方差的問題

44.以下關于ROC和PR曲線說法不正確的是()。

參考答案:

類別不平衡問題中,ROC曲線比PR曲線估計效果要差

45.下列哪種方法可以用來緩解過擬合的產(chǎn)生:()。

參考答案:

正則化

46.假設有100張照片,其中,貓的照片有60張,狗的照片是40張。識別結(jié)

果:TP=40,FN=20,FP=10,TN=30,則可以得到:()。

參考答案:

Precision=0.8

47.KNN分類的時候,對新的樣本,根據(jù)其k個最近鄰的訓練樣本的類別,通

過多數(shù)表決等方式進行預測。

參考答案:

正確

48.回歸問題和分類問題的區(qū)別是什么?

參考答案:

回歸問題輸出值是連續(xù)的,分類問題輸出值是離散的

49.一個計算機程序從經(jīng)驗E中學習任務T,并用P來衡量表現(xiàn)。并且,T的

表現(xiàn)P隨著經(jīng)驗E的增加而提高。假設我們給一個學習算法輸入了很多歷

史天氣的數(shù)據(jù),讓它學會預測天氣。什么是P的合理選擇?

參考答案:

正確預測未來日期天氣的概率

50.一個包含n類的多分類問題,若采用一對剩余的方法,需要拆分成多少次?

參考答案:

n-1

51.()是機器學習的一部分,與神經(jīng)網(wǎng)絡一起工作。

參考答案:

深度學習

52.谷歌新聞每天收集非常多的新聞,并運用()方法再將這些新聞分組,組成若

干類有關聯(lián)的新聞。于是,搜索時同一組新聞事件往往隸屬同一主題的,所

以顯不到一起。

參考答案:

聚類

53.7.哪種決策樹沒有剪枝操作

參考答案:

ID3

54.關于聚類的說法正確的有()

參考答案:

聚類的算法訓練樣本往往都不含有標簽

55.降維屬于哪種類型的學習問題()。

參考答案:

無監(jiān)督學習

56.關于PCA和SVD比較錯誤的是()。

參考答案:

PCA無器進行零均值化

57.給定關聯(lián)規(guī)則A->B,意味著:若A發(fā)生,B也會發(fā)生。

參考答案:

錯誤

58.Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。

參考答案:

正確

59.決策樹方法通常用于關聯(lián)規(guī)則挖掘。

參考答案:

錯誤

60.SVD可用于求解矩陣的偽逆。

參考答案:

正確

61.PCA會選取信息量最少的方向進行投影。

參考答案:

錯誤

62.PCA是一種有效的降維去噪方法。

參考答案:

正確

63.以下關于PCA說法正確的是(多選)()(,

參考答案:

PCA運算時需要進行特征值分解_PCA各個主成分之間正交

64.降維的優(yōu)點有哪些()。

參考答案:

方便消需冗余特征一方便實現(xiàn)數(shù)據(jù)可視化一減小訓練時間

65.FP-Growth算法的優(yōu)點包括()。

參考答案:

數(shù)據(jù)庫存儲在內(nèi)存中的壓縮版本中_對長、短頻繁模式的挖掘具有高效性和

可擴展性一與Apriori算法相比,該算法只需對數(shù)據(jù)庫進行兩次掃描_該算法

不需要對項目進行配對,因此速度更快

66.FP-Growth和Apriori算法的比較,正確的是()。

參考答案:

FP-growth的模式生成通過構建FP-Tree_FP-Growth沒有候選集_Apriori

使用候選集

67.以下關于SVD的優(yōu)化過程說法錯誤的是()。

參考答案:

奇異值跟特征值性質(zhì)完全不同

68.幾種常見的降維算法有共同特點有()。

參考答案:

都利用了矩陣分解的思想

69.哪些類型的數(shù)據(jù)適合做降維()。

參考答案:

特征之間存在線性關系的數(shù)據(jù)

70.降維涉及的投影矩陣一般要求正交,正交矩陣用于投影的優(yōu)缺點說法正確的

是()。

參考答案:

正交矩陣投影變換之后的矩陣不同坐標之間是不相關的

71.關于維數(shù)災難的說法錯誤的是()。

參考答案:

高維度血據(jù)可使得算法泛化能力變得越來越強

72.關聯(lián)規(guī)則使用的主要指標有()。

參考答案:

支持度(support,置信度(confidence、提升度(lift)

73.關于關聯(lián)規(guī)則,正確的是:()。

參考答案:

支持度是衡量關聯(lián)規(guī)則重要性的一個指標一關聯(lián)規(guī)則挖掘的算法主要有:

Apriori和FP-Growth_一個項集滿足最小支持度,我們稱之為頻繁項集

74.置信度(confidence)是衡量興趣度度量()的指標。

參考答案:

確定性

75.以下屬于關聯(lián)規(guī)則分析的是

參考答案:

購物籃分析

76.分析顧客消費行業(yè),以便有針對性的向其推薦感興趣的服務,屬于()問題。

參考答案:

關聯(lián)規(guī)則挖掘

77.關聯(lián)規(guī)則的評價指標是:()。

參考答案:

支持度、置信度

78.關于支持向量機中硬間隔和軟間隔的說法錯誤的是()。

參考答案:

硬間隔有利于消除模型的過擬合

79.可用作數(shù)據(jù)挖掘分析中的關聯(lián)規(guī)則算法有()。

參考答案:

Apriori算法、FP-Tree算法

80.關于PCA特點說法錯誤的是()。

參考答案:

PCA算法很難去除噪聲

81.以下哪些是PCA算法的主要應用()。

參考答案:

數(shù)據(jù)壓縮

82.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種

屬于數(shù)據(jù)挖掘的哪類問題?o

參考答案:

關聯(lián)規(guī)則發(fā)現(xiàn)

83.關于Apriori和FP-growth算法說法正確的是()。

參考答案:

FP-growth算法在數(shù)據(jù)庫較大時,不適宜共享內(nèi)存

84.以下關于FP-Growth算法表述不正確的有()。

參考答案:

FP-growth只需要一次遍歷數(shù)據(jù),大大提高了效率

85.下列關于Apriori算法說法錯誤的是()。

參考答案:

Apriori算法運算過程中不需要找出所有的頻繁項集

86.數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘

參考答案:

Apriori

87.以下關于關聯(lián)規(guī)則說法錯誤的是0。

參考答案:

使用購物車分析的方法,一定可以提高銷售額

88.關于特征選擇,下列對Ridge回歸和Lasso回歸的說法正確的是:()。

參考答案:

Lasso回歸適用于特征選擇

89.某超市研究銷售記錄發(fā)現(xiàn)買啤酒的人很大概率也會買尿布,這屬于數(shù)據(jù)挖掘

的哪類問題?

參考答案:

關聯(lián)規(guī)則發(fā)現(xiàn)

90.以下關于PCA說法正確的是()。

參考答案:

PCA轉(zhuǎn)換后選擇的第一個方向是最主要特征

91.以下關于SVD說法正確的有()。

參考答案:

SVD并不要求分解矩陣必須是方陣

92.關于數(shù)據(jù)規(guī)范化,下列說法中錯誤的是()。

參考答案:

標準化定任何場景下受異常值的影響都很小

93.市場上某商品來自兩個工廠,它們市場占有率分別為60%和40%,有兩人

各自買一件,則買到的來自不同工廠之概率為()。

參考答案:

0.48

94.PCA算法獲取的超平面應具有哪些性質(zhì)()。

參考答案:

最近重構性一最大可分性

95.下面屬于降維常用的技術的有:

參考答案:

主成分分析一奇異值分解

96.以下哪些是使用數(shù)據(jù)規(guī)范化(特征縮放)的原因?

參考答案:

它通過減少迭代次數(shù)來獲得一個好的解,從而加快了梯度下降的速度一它不

能防止梯度下降陷入局部最優(yōu)

97.以下關于降維的說法不正確的是?

參考答案:

降維不會對數(shù)據(jù)產(chǎn)生損傷

98.以下關于支持向量機的說法正確的是()。

參考答案:

SVM方條簡單,魯棒性較好一SVM分類面取決于支持向量

99.線性回歸中,我們可以使用最小二乘法來求解系數(shù),下列關于最小二乘法說

法正確的是?()

參考答案:

只適用于線性模型,不適合邏輯回歸模型等其他模型一不需要選擇學習率一當

特征數(shù)量很多的時候,運算速度會很慢一不需要迭代訓練

100.評價指標中,召回率(Recall)的計算需要哪些數(shù)值

參考答案:

TPFN

101.下面關于隨機森林和梯度提升集成方法的說法哪個是正確的?(多選)()

參考答案:

這兩種三法都可以用來做分類.兩種方法都可以用來做回歸

102.LightGBM與XGBoost相比,主要有以下幾個改進:(多選)()

參考答案:

基于梯度的單邊采樣算法(Gradient-basedOne-SideSampling,GOSS)_互

斥特征捆綁算法(ExclusiveFeatureBundling,EFB)_直方圖算法

(Histogram]基于最大深度的Leaf-wise的垂直生工算法

103.置信度(confidence)是衡量興趣度度量。的指標。

參考答案:

確定性

104.大部分的機器學習工程中,數(shù)據(jù)搜集、數(shù)據(jù)清洗、特征工程這三個步驟占總

時間比較少,而數(shù)據(jù)建模,占總時間比較多。

參考答案:

錯誤

105.根據(jù)腫瘤的體積、患者的年齡來判斷良性或惡性,這是一個多分類問題。

參考答案:

錯誤

106.哪種開發(fā)語言最適合機器學習?0

參考答案:

Python

107.機器學習這個術語是由0定義的?

參考答案:

ArthurSamuel

108.機器學習方法傳統(tǒng)上可以分為()類。

參考答案:

3

109.以下關于特征選擇的說法正確的是?

參考答案:

選擇的特征需盡可能反映不同事物之間的差異

11。以下哪種方法屬于判別模型(discriminativemodel)

參考答案:

支持向量機

111.哪一個是機器學習的合理定義?

參考答案:

機器學3能使計算機能夠在沒有明確編程的情況下學習

112.當數(shù)據(jù)分布不平衡時;我們可采取的措施不包括()。

參考答案:

對數(shù)據(jù)*布較多的類別賦予更大的權重

113.以下關于訓練集、驗證集和測試集說法不正確的是

參考答案:

訓練集總用來訓練以及評估模型性能

114.下面關于ID3算法中說法錯誤的是

參考答案:

ID3算卷是一個二叉樹模型

115.邏輯回歸與多元回歸分析有哪些不同?

參考答案:

以上全選

116.如果我使用數(shù)據(jù)集的全部特征并且能夠達到100%的準確率,但在測試集上

僅能達到70%左右,這說明

參考答案:

過擬合

117.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種

屬于數(shù)據(jù)挖掘的哪類問題?0

參考答案.

關聯(lián)規(guī)疝發(fā)現(xiàn)

118.下列哪種方法可以用來緩解過擬合的產(chǎn)生:()。

參考答案:

正則化

119.回歸問題和分類問題的區(qū)別是?

參考答案:

回歸問題輸出值是連續(xù)的,分類問題輸出值是離散的

120.bootstrap數(shù)據(jù)的含義是

參考答案:

有放回的從整體N中抽樣n個樣本

121.一監(jiān)獄人臉識別準入系統(tǒng)用來識別待進入人員的身份,此系統(tǒng)一共包括識別

4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學習方法最適合此

種應用需求:

參考答案:

多分類問題

122.在邏輯回歸中,如果同時加入L1和L2范數(shù),不會產(chǎn)生什么效果

參考答案:

可以獲得更準確的結(jié)果

123.C4.5是通過代價復雜度剪枝。

參考答案:

錯誤

124.樸素貝葉斯適用于小規(guī)模數(shù)據(jù)集,邏輯回歸適用于大規(guī)模數(shù)據(jù)集。

參考答案:

錯誤

125.邏輯回歸和樸素貝葉斯都有對屬性特征獨立的要求

參考答案:

錯誤

126.邏輯回歸是判別模型,樸素貝葉斯是生成模型

參考答案:

正確

127.判別模型所學內(nèi)容是決策邊界。

參考答案:

正確

128.樸素貝葉斯對缺失數(shù)據(jù)較敏感。

參考答案:

正確

129.樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成

立的,在屬性相關性較小時,樸素貝葉斯性能良好。而在屬性個數(shù)比較多或

者屬性之間相關性較大時,分類效果不好。

參考答案:

正確

130.根據(jù)以往經(jīng)驗和分析得到的概率。在這里,我們用P(Y)來代表在沒有訓練

數(shù)據(jù)前假設丫擁有的初始概率,因此稱其為丫的后驗概率,它反映了我們

所擁有的關于丫的背景知識。

參考答案:

錯誤

131.公司里有一個人穿了運動鞋,推測是男還是女?已知公司里男性30人,女

性70人,男性穿運動鞋的有25人,穿拖鞋的有5人,女性穿運動鞋的有

40人,穿高跟鞋的有30人。則以下哪項計算錯誤()?

參考答案:

p(運動鞋I女性)=0.4

132.擲二枚骰子,事件A為出現(xiàn)的點數(shù)之和等于3的概率為()

參考答案:

1/18

133.關于樸素貝葉斯,下列說法錯誤的是:()

參考答案:

樸素的意義在于它的一個天真的假設:所有特征之間是相互關聯(lián)的

134.以A表示事件"甲種產(chǎn)品暢銷,乙種產(chǎn)品滯銷",則其對立事件A為()

參考答案:

甲種產(chǎn)品滯銷或乙種產(chǎn)品暢銷

135.樸素貝葉斯的優(yōu)點不包括()

參考答案:

樸素貝加斯模型對輸入數(shù)據(jù)的表達形式很敏感

136.以下算法屬于判別模型的是()

參考答案:

線性回歸

137.假設X和丫都服從正態(tài)分布,那么P(X<5,丫<0)就是一個(),表示

X<5,Y<0兩個條件同時成立的概率,即兩個事件共同發(fā)生的概率。

參考答案:

聯(lián)合概率

138.以下關于決策樹特點分析的說法錯誤的有(

參考答案:

算法考捻了數(shù)據(jù)屬性之間的相關性

139.以下關于決策樹原理介紹錯誤的有()。

參考答案:

決策樹算法屬于無監(jiān)督學習

140.我們想要在大數(shù)據(jù)集上訓練決策樹模型,為了使用較少的時間,可以:()。

參考答案:

減少樹的深度

141.以下關于決策樹算法說法錯誤的是()。

參考答案:

C4.5算法不能用于處理不完整數(shù)據(jù)

142.以下關于剪枝操作說法正確的是()。

參考答案:

ID3沒有剪枝策略

143.C4.5選擇屬性用的是()。

參考答案:

信息增益率

144.以下那種說法是錯誤的

參考答案:

中國足球隊戰(zhàn)勝巴西足球隊的信息嫡要小于中國乒乓球隊戰(zhàn)勝巴西乒乓球

隊的信息精

145.ID3算法的缺點不包括()。

參考答案:

既能用于處理離散分布的特征,也能用于連續(xù)分布的特征處理

146.關于CART算法,錯誤的是

參考答案:

CART算法采用信息增益率的大小來度量特征的各個劃分點

147.關于C4.5算法,錯誤的是()。

參考答案:

C4.5算法采用基尼系數(shù)的大小來度量特征的各個劃分點

148.1D3選擇屬性用的是

參考答案:

信息增益

149.關于拉普拉斯平滑說法正確的是()

參考答案:

避免了出現(xiàn)概率為0的情況

150.以下算法不屬于生成模型()

參考答案:

支持向量機

151.下列關于樸素貝葉斯的特點說法錯誤的是()

參考答案:

樸素貝加斯模型無需假設特征條件獨立

152.假設會開車的本科生比例是15%,會開車的研究生比例是23%。若在某大

學研究生占學生比例是20%,則會開車的學生是研究生的概率是多少?

參考答案:

27.71%

153.決策樹有哪些代表算法

參考答案:

ID3_C4.5_CART

154.以下那種算法需要對數(shù)據(jù)進行歸一化或者標準化()。

參考答案:

KNN_邏輯回歸一線性回歸

155.關于剪枝,以下算法正確的是:()。

參考答案:

剪枝是防止過擬合的手段」D3算法沒有剪枝操作一決策樹剪枝的基本策略有

預剪枝和后剪枝

156.邏輯回歸的損失函數(shù)是交叉燧損失

參考答案:

正確

157.邏輯回歸算法資源占用大,尤其是內(nèi)存。

參考答案:

錯誤

158.Sigmoid函數(shù)的范圍是(0,1)

參考答案:

正確

159.邏輯回歸的激活函數(shù)是Sigmoid?

參考答案:

正確

160.下面哪些是分類算法?

參考答案:

根據(jù)用戶的年齡、職業(yè)、存款數(shù)量來判斷信用卡是否會違約?一身高L85m,

體重100kg的學生性別?一根據(jù)腫瘤的體積、患者的年齡來判斷良性或惡性?

161.以下哪項陳述是正確的?選出所有正確項()

參考答案:

使用一式非常大的訓練集使得模型不太可能過擬合訓練數(shù)據(jù)。一邏輯回歸使

用了Sigmoid激活函數(shù)

162.你正在訓練一個分類邏輯回歸模型。以下哪項陳述是正確的?選出所有正確

參考答案:

向模型中添加新特征總是會在訓練集上獲得相同或更好的性能

163.決策樹的說法正確的是()。

參考答案:

CART使用的是二叉樹一其可作為分類算法,也可用于回歸模型一它易于理解、

可解釋性強

164.ID3算法的核心思想就是以信息增益來度量特征選擇,選擇信息增益最大的

特征進行分裂。

參考答案:

正確

165.LightGBM與XGBoost相比,主要的優(yōu)勢不包括0

參考答案:

采用二階泰勒展開加快收斂

166.ID3算法只能用于處理離散分布的特征。

參考答案:

正確

167.假設使用邏輯回歸進行多類別分類,使用OVR分類法。下列說法正確的是?

參考答案:

對于n類別,需要訓練n個模型

168.邏輯回歸通常采用哪種正則化方式?

參考答案:

L2正則化

169.以下哪些不是二分類問題?

參考答案:

根據(jù)地段、房屋面積、房間數(shù)量來預測房價多少。

170.假設有三類數(shù)據(jù),用OVR方法需要分類幾次才能完成?

參考答案:

2

171.下列哪一項不是邏輯回歸的優(yōu)點?

參考答案:

處理非器性數(shù)據(jù)較容易

172.下面哪一項不是Sigmoid的特點?

參考答案:

當o(z)小于0.5時,預測y=-l

173.邏輯回歸的損失函數(shù)是哪個?

參考答案:

交叉牖(Cross-Entropy)損失函數(shù)

174.以下關于sigmoid函數(shù)的優(yōu)點說法錯誤的是?

參考答案:

在深層次神經(jīng)網(wǎng)絡反饋傳輸中,不易出現(xiàn)梯度消失

175.以下關于邏輯回歸與線性回歸問題的描述錯誤的是()

參考答案:

邏輯回歸一般要求變量服從正態(tài)分布,線性回歸一般不要求

176.以下關于分類問題的說法正確的是?

參考答案:

多分類問題可以被拆分為多個二分類問題

177.ID3和C4.5和CART都只能用于分類問題,不能用于回歸問題。

參考答案:

錯誤

178.下列哪個距離度量不在KNN算法中體現(xiàn):()。

參考答案:

余弦相似度

179.下列選項中,關于KNN算法說法不正確是:()。

參考答案:

效率很高

180.以下距離度量方法中,在城市道路里,要從一個十字路口開車到另外一個十

字路口的距離是:()。

參考答案:

曼哈頓距離

181.以下關于KD樹的說法錯誤的是(

參考答案:

所有x值小于指定值的節(jié)點會出現(xiàn)在右子樹

182.利用KD樹進行搜索時,正確的方式是

參考答案:

若數(shù)據(jù)小于對應節(jié)點中k維度的值,則訪問左節(jié)點

183.以下哪項是KNN算法的缺點?()

參考答案:

計算成本高

184.關于余弦相似度,不正確的是()。

參考答案:

余弦相似度為-1時候,兩個向量完全不相關

185.KD樹(K-DimensionTree)的描述中,不正確的是()。

參考答案:

KD樹切.時,從方差小的維度開始切分

186.13聚類的代表算法有()。

參考答案:

K-means_DBSCAN

187.當簇內(nèi)樣本點數(shù)量大于某個閾值時,便將該簇進行拆分,這種聚類方式為

()。

參考答案:

密度聚類

188.假設有6個二維數(shù)據(jù)點:D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)},第一次切分

時候,切分線為

參考答案:

x=6

189.KNN算法在什么情況下效果較好?()

參考答案:

樣本較少但典型性好

190.以下哪些可作為kmeans方法停止循環(huán)的指標()。

參考答案:

當所有數(shù)據(jù)隸屬的簇不再發(fā)生變化的時候

191.以下哪些不是聚類中用于衡量度量距離的指標()。

參考答案:

馬氏距離

192.關于kmean算法的實現(xiàn)描述錯誤的是()

參考答案:

可以輕松發(fā)現(xiàn)非凸形狀的簇

193.關于K均值和DBSCAN的比較,以下說法不正確的是()。

參考答案:

K均值雇用簇的基于層次的概念

194.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集

中,這種聚類類型稱作()。

參考答案:

劃分聚類

195.以下不屬于聚類算法的是()。

參考答案:

隨機森林

196.以下關于K-means算法錯誤的有

參考答案:

K-means算法不會出現(xiàn)局部極小值的問題

197.下列關于Kmeans聚類算法的說法錯誤的是()。

參考答案:

初始聚類中心的選擇對聚類結(jié)果影響不大

198.1聚類屬于哪種學習方式

參考答案:

無監(jiān)督學習

199.關于KNN算法的描述,不正確的是

參考答案:

距離度量的方式通常用曼哈頓距離

200.在隨機森林里,你生成了幾百顆樹(TLT2.....Tn),然后對這些樹的結(jié)果進

行綜合,下面關于隨機森林中每顆樹的說法正確的是?()

參考答案:

每棵樹是通過數(shù)據(jù)集的子集和特征的子集構建的

201.以下關于集成學習特性說法錯誤的是

參考答案:

集成多個線性分類器也無法解決非線性分類問題

202.以下關于隨機森林(RandomForest)說法正確的是()。

參考答案:

隨機森樂構建決策樹時,是有放回的選取訓練數(shù)據(jù)

203.以下關于AdaBoost算法說法正確的是

參考答案:

AdaBoost使用的損失函數(shù)是指數(shù)函數(shù)

204.以下關于GBDT算法說法錯誤的是()。

參考答案:

GBDT使用的是放回采樣

205.假設有100張照片,其中,貓的照片有60張,狗的照片是40張。識別結(jié)

果:TP=40,FN=20,FP=10,TN=30,則可以得到:()?

參考答案:

Precision=0.8

206.SMOTE算法是用了下采樣的方法。

參考答案:

錯誤

207.L2正則化得到的解更加稀疏。

參考答案:

錯誤

208.特征空間越大,過擬合的可能性越大。

參考答案:

正確

209.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應該如何解決?()

參考答案:

增加模型的特征數(shù)量_嘗試減少正則化系數(shù)

210.XGBoost算法說法錯誤的是()

參考答案:

XGBoost算法的目標函數(shù)采用了一階泰勒展開

211.關于Bagging方法,以下說法錯誤的是()

參考答案:

對各弱分類器的訓練可以通過串行方式進行

212.Adboost的優(yōu)點不包括()

參考答案:

對異常點敏感,異常點會獲得較高權重

213.LightGBM與XGBoost相比,主要的優(yōu)勢不包括()

參考答案:

采用二加泰勒展開加快收斂

214.隨機森林和GBDT的描述不正確的是()

參考答案:

兩者都是使用了Boosting思想

215.以下關于KNN說法正確的是(多選)()。

參考答案:

對異常值不敏感_對數(shù)據(jù)沒有假設一計算復雜度低

216.以下那種算法不是集成學習算法()

參考答案:

決策樹

217.GBDT算法的描述,不正確的是

參考答案:

梯度提升算法通過迭代地選擇一個梯度方向上的基函數(shù)來逐漸逼近局部極

小值

218.集成學習有以下哪幾種代表算法(多選)()。

參考答案:

GBDT一隨機森林一AdaBoost

219.XGBoost對損失函數(shù)做了二階泰勒展開,GBDT只用了一階導數(shù)信息,并且

XGBoost還支持自定義損失函數(shù),只要損失函數(shù)一階、二階可導。0

參考答案:

正確

220.集成學習的數(shù)據(jù)不需要歸一化或者標準化。

參考答案:

正確

221.評價指標中,精確率(Precision)的計算需要哪些數(shù)值()。

參考答案:

TP.FP

222.以下關于交叉驗證說法正確的是()。

參考答案:

交叉驗證可利用模型選擇避免過擬合的情況一交叉驗證可對模型性能合理評

估一交叉驗證大大增加了計算量

223.一個正負樣本不平衡問題(正樣本99%,負樣本1%)。假如在這個非平衡的

數(shù)據(jù)集上建立一個模型,得到訓練樣本的正確率是99%,則下列說法正確

的是?()

參考答案:

模型正確率并不能反映模型的真實效果

224.隨著訓練樣本的數(shù)量越來越大,則該數(shù)據(jù)訓練的模型將具有:()。

參考答案:

相同偏差

225.LightGBM在建樹過程中,采用基于最大深度的Leaf-wise的垂直生長算法。

參考答案:

正確

226.隨機森林和GBDT都是使用了Bagging思想。

參考答案:

錯誤

227.過擬合的處理可以通過增大正則化系數(shù)。

參考答案:

正確

228.L1正則化往往用于防止過擬合,而L2正則化往往用于特征選擇。

參考答案:

錯誤

229.隨機梯度下降,每次迭代時候,使用一個樣本。

參考答案:

正確

230.如果兩個變量相關,那么它們有可能是線性關系。

參考答案:

正確

231.假如使用一個較復雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正

則化參數(shù),來降低模型復雜度,若正則化系數(shù)較大時,關于偏差(bias)和方

差(variance),下列說法正確的是?()

參考答案:

方差減小一偏差增大

232.對于在原空間中線性不可分問題,支持向量機()o

參考答案:

將數(shù)據(jù)映射到核空間中

233.SVM中核函數(shù)將高維空間中的數(shù)據(jù)映射到低維空間。

參考答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論