版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PAGEPAGE1《機器學(xué)習(xí)》期末考試復(fù)習(xí)題庫(含答案)一、單選題1.混淆矩陣的真負率公式是為A、TP/(TP+FN)B、FP/(FP+TN)C、FN/(TP+FN)D、TN/(TN+FP)答案:D2.?一個包含n類的多分類問題,若采用一對剩余的方法,需要拆分成多少次?A、nB、1C、n-1D、n+1答案:C解析:答案解析:在一對剩余(One-versus-Rest,簡稱OVR)的方法中,對于一個包含n類的多分類問題,會將其中一類作為正例,其余n-1類作為反例,依次構(gòu)建n個二分類模型。所以需要拆分成n-1次。因此,選項C是正確的答案。3.哪一個是機器學(xué)習(xí)的合理定義?A、機器學(xué)習(xí)是計算機編程的科學(xué)B、機器學(xué)習(xí)從標記的數(shù)據(jù)中學(xué)習(xí)C、機器學(xué)習(xí)是允許機器人智能行動的領(lǐng)域D、機器學(xué)習(xí)能使計算機能夠在沒有明確編程的情況下學(xué)習(xí)答案:D4.對Boosting模型的描述錯誤的是A、采用串行訓(xùn)練模式B、增加被錯誤分類樣本的權(quán)值C、通過改變訓(xùn)練集進行有針對性的學(xué)習(xí)D、基礎(chǔ)分類器采用少數(shù)服從多數(shù)原則進行集成答案:D解析:Boosting是一種集成學(xué)習(xí)方法,它通過串行訓(xùn)練多個基礎(chǔ)分類器來提高模型的性能。在每次迭代中,Boosting算法會根據(jù)上一次迭代的結(jié)果調(diào)整訓(xùn)練集的權(quán)重,使得被錯誤分類的樣本在后續(xù)迭代中得到更多的關(guān)注?;A(chǔ)分類器的集成方式通常是通過加權(quán)投票或其他方式來綜合多個分類器的預(yù)測結(jié)果,而不是少數(shù)服從多數(shù)原則。因此,選項D是錯誤的。5.如果我們說“線性回歸”模型完美地擬合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下面哪個說法是正確的?A、測試樣本誤差始終為零B、測試樣本誤差不可能為零C、以上答案都不對答案:C6.下列哪種方法可以用來緩解過擬合的產(chǎn)生:()。A、正則化B、增加更多的特征C、以上都是D、增加模型的復(fù)雜度答案:A7.7.以下哪個不是原型聚類算法()A、K均值算法B、學(xué)習(xí)向量量化LVQC、高斯混合聚類D、PCA算法答案:D解析:答案解析:K均值算法、學(xué)習(xí)向量量化LVQ、高斯混合聚類都屬于原型聚類算法。而PCA算法(主成分分析)主要用于數(shù)據(jù)降維,通過線性變換將原始數(shù)據(jù)變換到一組各維度線性無關(guān)的表示上,從而提取數(shù)據(jù)的主要特征,并非原型聚類算法。因此,選項D是正確答案。8.在回歸模型中,下列哪一項在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?A、多項式階數(shù)B、更新權(quán)重w時,使用的是矩陣求逆還是梯度下降C、使用常數(shù)項答案:A9.一對一法分類器,k個類別需要多少個SVM:A、k(k-1)/2B、k(k-1)C、kD、k!答案:A解析:一對一法是一種解決多類別分類問題的方法。在一對一法中,對于$k$個類別,需要構(gòu)建$k(k-1)/2$個二分類器,每個二分類器用于區(qū)分兩個類別。具體來說,對于每個類別$i$,需要構(gòu)建$k-1$個二分類器,其中第$j$個二分類器用于區(qū)分類別$i$和類別$j$。這樣,總共需要構(gòu)建的二分類器數(shù)量為:$$\begin{align*}&\frac{k(k-1)}{2}\\=&\frac{k\times(k-1)}{2}\\=&\frac{k^2-k}{2}\\=&\frac{k(k-1)}{2}\end{align*}$$因此,選項A是正確答案。10.下列貝葉斯網(wǎng)結(jié)構(gòu)中不屬于三種典型的依賴關(guān)系A(chǔ)、同父結(jié)構(gòu)B、選擇結(jié)構(gòu)C、順序結(jié)構(gòu)D、V型結(jié)構(gòu)答案:B解析:答案解析:在貝葉斯網(wǎng)中,存在三種典型的依賴關(guān)系,分別是同父結(jié)構(gòu)、順序結(jié)構(gòu)和V型結(jié)構(gòu)。同父結(jié)構(gòu)中,多個子節(jié)點共享同一個父節(jié)點;順序結(jié)構(gòu)體現(xiàn)節(jié)點之間的先后順序依賴;V型結(jié)構(gòu)反映了兩個子節(jié)點通過共同父節(jié)點產(chǎn)生的依賴。而選擇結(jié)構(gòu)并非貝葉斯網(wǎng)中的典型依賴關(guān)系。所以,正確答案是選項B。11.下列兩個變量之間的關(guān)系中,那一個是線性關(guān)系A(chǔ)、學(xué)生的性別與他(她)的數(shù)學(xué)成績B、人的工作環(huán)境與他的身體健康狀況C、兒子的身高與父親的身高D、正方形的邊長與周長答案:D12.下面符合特征選擇標準的是()A、越少越好B、越多越好C、選擇能夠反映不同事物差異的特征D、以上均不對答案:C解析:特征選擇的目的是選取最能有效區(qū)分不同類別或事物的特征。如果特征過少,可能無法充分體現(xiàn)事物的特點和差異;特征過多可能會引入噪聲和冗余信息,增加計算負擔(dān)且不一定能提高準確性。而選擇能夠反映不同事物差異的特征,才是最關(guān)鍵和有意義的,這樣能更好地進行分析和判斷。所以選項C正確,選項A、B過于絕對和片面,選項D錯誤。因此答案是C。13.下列哪一種偏移,是我們在最小二乘直線擬合的情況下使用的?圖中橫坐標是輸入X,縱坐標是輸出Y。A、垂直偏移B、垂向偏移C、兩種偏移都可以D、以上說法都不對答案:A14.以下哪個是PCA算法的主要應(yīng)用?A、聚類B、分類C、距離度量D、數(shù)據(jù)壓縮答案:D解析:PCA(PrincipalComponentAnalysis)算法即主成分分析算法,是一種常用的數(shù)據(jù)分析方法。PCA算法的主要目的是將高維數(shù)據(jù)投影到低維空間中,同時盡可能保留數(shù)據(jù)的方差信息。通過這種方式,可以實現(xiàn)數(shù)據(jù)的降維,減少數(shù)據(jù)的維度,同時保留數(shù)據(jù)的主要特征。在數(shù)據(jù)壓縮方面,PCA算法可以將高維數(shù)據(jù)投影到低維空間中,從而實現(xiàn)數(shù)據(jù)的壓縮。通過這種方式,可以減少數(shù)據(jù)的存儲空間,同時提高數(shù)據(jù)的傳輸和處理效率。在聚類和分類方面,雖然PCA算法可以用于數(shù)據(jù)的預(yù)處理和特征提取,但它并不是一種直接的聚類或分類算法。在聚類和分類中,通常需要使用其他算法,如K-Means算法、SVM算法等。在距離度量方面,PCA算法可以用于計算數(shù)據(jù)之間的距離,但它并不是一種專門的距離度量算法。在距離度量中,通常需要使用其他算法,如歐幾里得距離、余弦相似度等。因此,選項D是正確的答案。15.1.將數(shù)據(jù)集D進行適當(dāng)處理,產(chǎn)生出訓(xùn)練集S和測試集T,有哪些常見的做法:A、留出法B、交叉驗證法C、自助法D、以上都是答案:D16.在機器學(xué)習(xí)中,學(xué)得的模型適用于新樣本的能力稱為()A、分析能力B、泛化能力C、訓(xùn)練能力D、驗證能力答案:B解析:在機器學(xué)習(xí)中,模型的重要作用是對未曾見過的新樣本進行準確預(yù)測或分類。泛化能力就是指模型從已有的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的知識和規(guī)律,應(yīng)用到新的、未見過的數(shù)據(jù)上并取得良好效果的能力。一個具有良好泛化能力的模型,能夠有效地處理實際場景中的各種新情況。而分析能力、訓(xùn)練能力、驗證能力都不能準確描述學(xué)得的模型適用于新樣本的能力。所以,答案是B選項。17.線性回歸能完成的任務(wù)是A、預(yù)測離散值B、預(yù)測連續(xù)值C、分類D、聚類答案:B18.假設(shè)現(xiàn)在只有兩個類,這種情況下SVM需要訓(xùn)練幾次?A、1B、2C、3D、4答案:A19.對決策樹進行剪枝處理的主要目的是什么A、避免欠擬合B、提高對訓(xùn)練集的學(xué)習(xí)能力C、避免過擬合,降低泛化能力D、避免過擬合,提升泛化能力答案:D20.若某學(xué)習(xí)器預(yù)測的是離散值,則此類學(xué)習(xí)任務(wù)稱為()A、分類B、聚類C、回歸D、強化學(xué)習(xí)答案:A解析:在機器學(xué)習(xí)中,根據(jù)預(yù)測值的類型,可以將學(xué)習(xí)任務(wù)分為分類和回歸兩類。分類任務(wù)的目標是預(yù)測離散的類別標簽,例如將郵件分為垃圾郵件和正常郵件,將圖像分為貓、狗、汽車等類別。而回歸任務(wù)的目標是預(yù)測連續(xù)的數(shù)值,例如預(yù)測房價、股票價格等。聚類任務(wù)則是將數(shù)據(jù)集中的樣本分成若干個簇,使得同一個簇內(nèi)的樣本相似度較高,而不同簇之間的樣本相似度較低。強化學(xué)習(xí)則是通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)的決策策略,以獲得最大的累積獎勵。因此,若某學(xué)習(xí)器預(yù)測的是離散值,則此類學(xué)習(xí)任務(wù)稱為分類,選項A正確。21.在SVM中,margin的含義是()A、差額B、損失誤差C、幅度D、間隔答案:D22.KNN算法屬于一種典型的()算法A、監(jiān)督學(xué)習(xí)B、無監(jiān)督學(xué)習(xí)C、半監(jiān)督學(xué)習(xí)D、弱監(jiān)督學(xué)習(xí)答案:A解析:KNN算法是一種基于實例的學(xué)習(xí)算法,它通過計算新數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的距離,來確定新數(shù)據(jù)的類別。在KNN算法中,每個訓(xùn)練數(shù)據(jù)都被標記了一個類別,因此KNN算法屬于一種有監(jiān)督學(xué)習(xí)算法。有監(jiān)督學(xué)習(xí)是指從有標記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型,以便對新的數(shù)據(jù)進行預(yù)測或分類。在KNN算法中,訓(xùn)練數(shù)據(jù)的標記信息被用于確定新數(shù)據(jù)的類別,因此KNN算法是一種有監(jiān)督學(xué)習(xí)算法。因此,正確答案是選項A。23.在構(gòu)造決策樹時,以下哪種不是選擇屬性的度量的方法A、信息值B、信息增益C、信息增益率D、基尼指數(shù)答案:A解析:在決策樹算法中,選擇屬性的度量方法主要有信息增益、信息增益率和基尼指數(shù)。這些方法的目的是評估每個屬性對于分類的貢獻程度,以便選擇最優(yōu)的屬性作為決策節(jié)點。信息增益衡量了一個屬性在劃分數(shù)據(jù)集時能夠減少的不確定性程度。信息增益率則對信息增益進行了歸一化處理,以避免偏向于具有較多取值的屬性?;嶂笖?shù)則是一種衡量數(shù)據(jù)集不純度的指標,通過選擇使基尼指數(shù)最小的屬性來進行劃分。而信息值并不是一種常見的選擇屬性的度量方法。因此,正確答案是A。24.以下關(guān)于Sigmoid的特點說法錯誤的是()。A、Sigmoid函數(shù)計算量小B、趨向無窮的地方,函數(shù)變化很小,容易出現(xiàn)梯度消失的現(xiàn)象C、可以將函數(shù)值的范圍壓縮到[0,1]D、函數(shù)處處連續(xù)答案:A25.BP算法總結(jié)錯誤的是()。A、當(dāng)前層的連接權(quán)值梯度,取決于當(dāng)前層神經(jīng)元閾值梯度和上一層神經(jīng)元輸出B、算法只要知道上一層神經(jīng)元的閾值梯度,就能計算當(dāng)前層神經(jīng)元的閾值梯度和連接權(quán)值梯度C、隱層的閾值梯度只跟本層的神經(jīng)元輸出值有關(guān)D、隱層閾值梯度取決于隱層神經(jīng)元輸出、輸出層閾值梯度和隱層與輸出層的連接權(quán)值答案:C26.以下哪個不是常見的決策樹算法A、ID3B、C4.5C、ARTD、BSCAN答案:D27.假設(shè)我們使用原始的非線性可分版本的Soft-SVM優(yōu)化目標函數(shù)。我們需要做什么來保證得到的模型是線性可分離的?A、C=0B、C=1C、正無窮大D、C負無窮大答案:C28.不屬于KNN算法要素的是:A、k值的選擇B、距離度量C、分類決策的規(guī)則D、訓(xùn)練樣本的個數(shù)答案:D解析:KNN算法是一種基本的分類與回歸方法,其主要要素包括k值的選擇、距離度量和分類決策的規(guī)則。k值的選擇會影響算法的性能和結(jié)果,不同的距離度量方式會影響樣本之間的相似度計算,而分類決策的規(guī)則則決定了如何根據(jù)鄰居的類別來確定待分類樣本的類別。訓(xùn)練樣本的個數(shù)并不是KNN算法的要素之一,而是影響算法性能的一個因素。因此,正確答案是D。29.下列中為判別模型的是()A、高斯混合模型B、隱含馬爾科夫模型C、GAN模型D、邏輯回歸模型答案:D解析:答案解析:判別模型是直接對條件概率P(y|x)進行建模,旨在尋找不同類別之間的決策邊界。邏輯回歸模型就是通過輸入特征x來預(yù)測輸出類別y的概率,直接對P(y|x)進行建模。而高斯混合模型、隱含馬爾科夫模型和GAN模型更多地是對數(shù)據(jù)的分布或生成過程進行建模,屬于生成模型。所以,選項D是判別模型,是正確答案。30.關(guān)于logistic回歸和SVM不正確的是()A、Logistic回歸目標函數(shù)是最小化后驗概率B、Logistic回歸可以用于預(yù)測事件發(fā)生概率的大小C、SVM目標是結(jié)構(gòu)風(fēng)險最小化D、SVM可以有效避免模型過擬合答案:A31.機器學(xué)習(xí)這個術(shù)語是由()定義的?A、rthurSamuelB、GuidovanRossumC、JamesGoslingD、以上都不是答案:A32.下列方法中,屬于無監(jiān)督學(xué)習(xí)的為()A、線性回歸B、K均值C、神經(jīng)網(wǎng)絡(luò)D、決策樹答案:B監(jiān)督學(xué)習(xí)是指在沒有標記的數(shù)據(jù)集上進行學(xué)習(xí)的方法,目的是發(fā)現(xiàn)數(shù)據(jù)中的潛在模式或結(jié)構(gòu)。在選項中,K均值算法是一種典型的無監(jiān)督學(xué)習(xí)方法,它通過將數(shù)據(jù)分組為不同的簇,自動發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在分組模式,而不需要事先給定數(shù)據(jù)的類別標簽。線性回歸、神經(jīng)網(wǎng)絡(luò)和決策樹通常在有監(jiān)督學(xué)習(xí)中應(yīng)用,需要有已知的輸出標簽來進行模型的訓(xùn)練和預(yù)測。所以,答案選B。33.以下關(guān)于機器學(xué)習(xí)描述錯誤的是?A、是一門涉及統(tǒng)計學(xué)、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計算機科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科B、研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能C、器學(xué)習(xí)強調(diào)三個關(guān)鍵詞:算法、模型、訓(xùn)練D、基于數(shù)據(jù)的機器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一答案:C解析:機器學(xué)習(xí)是一門涉及多領(lǐng)域的交叉學(xué)科,它研究計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)行為以獲取新知識或技能,A、B選項正確。基于數(shù)據(jù)的機器學(xué)習(xí)也是現(xiàn)代智能技術(shù)中的重要方法之一,D選項正確。而C選項中“器學(xué)習(xí)”表述錯誤,應(yīng)為“機器學(xué)習(xí)”。因此,正確答案是C。34.下面關(guān)于SVM算法敘述不正確的是()A、SVM在解決小樣本、非線性及高維模式識別問題中具有優(yōu)勢B、SVM是一種基于經(jīng)驗風(fēng)險最小化準則的算法C、SVM求得的解為全局唯一最優(yōu)解D、SVM最終分類結(jié)果只與少數(shù)支持向量有關(guān)答案:B解析:SVM是一種有監(jiān)督的學(xué)習(xí)模型,它的基本思想是找到一個最優(yōu)的超平面,將不同類別的樣本分開。以下是對每個選項的分析:-**A選項**:SVM在解決小樣本、非線性及高維模式識別問題中具有優(yōu)勢,這是因為它可以通過核函數(shù)將數(shù)據(jù)映射到高維空間,從而更好地處理非線性問題。-**B選項**:SVM是一種基于結(jié)構(gòu)風(fēng)險最小化準則的算法,而不是經(jīng)驗風(fēng)險最小化準則。結(jié)構(gòu)風(fēng)險最小化準則考慮了模型的復(fù)雜度和泛化能力,而經(jīng)驗風(fēng)險最小化準則只考慮了模型在訓(xùn)練集上的表現(xiàn)。-**C選項**:SVM求得的解為全局唯一最優(yōu)解,這是因為它通過求解一個凸二次規(guī)劃問題來找到最優(yōu)的超平面。-**D選項**:SVM最終分類結(jié)果只與少數(shù)支持向量有關(guān),這是因為支持向量是離超平面最近的樣本點,它們對分類結(jié)果的影響最大。因此,選項B是不正確的。35.假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X2,…,X100)?,F(xiàn)在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相同的正則化參數(shù)對Lasso回歸進行修正。那么,下列說法正確的是?A、特征X1很可能被排除在模型之外B、特征X1很可能還包含在模型之中C、無法確定特征X1是否被舍棄D、以上說法都不對答案:B36.混淆矩陣中的TP=16,F(xiàn)P=12,F(xiàn)N=8,TN=4,準確率是A、四分之一B、二分之一C、七分之四D、三分之二答案:B解析:準確率的計算公式為:準確率=(TP+TN)/(TP+TN+FP+FN),其中TP表示真正例,TN表示真負例,F(xiàn)P表示假正例,F(xiàn)N表示假負例。將題目中給出的值代入公式,得到準確率=(16+4)/(16+4+12+8)=20/40=1/2。因此,選項B是正確答案。37.神經(jīng)網(wǎng)絡(luò)算法有時會出現(xiàn)過擬合的情況,那么采取以下哪些方法解決過擬合更為可行()。A、為參數(shù)選取多組初始值,分別訓(xùn)練,再選取一組作為最優(yōu)值B、增大學(xué)習(xí)的步長C、減少訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的數(shù)量D、設(shè)置一個正則項減小模型的復(fù)雜度答案:D38.1.下面不屬于過擬合原因的是A、特征維度過多B、模型假設(shè)過于復(fù)雜C、訓(xùn)練數(shù)據(jù)過多D、噪聲過多答案:C解析:過擬合是指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在新數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。造成過擬合的原因主要有以下幾點:-特征維度過多:過多的特征可能導(dǎo)致模型過于復(fù)雜,從而容易過擬合。-模型假設(shè)過于復(fù)雜:過于復(fù)雜的模型可能會擬合訓(xùn)練數(shù)據(jù)中的噪聲,而不是真正的模式。-噪聲過多:訓(xùn)練數(shù)據(jù)中存在過多的噪聲,模型可能會過度擬合這些噪聲,而忽略了真正的模式。而訓(xùn)練數(shù)據(jù)過多通常不會導(dǎo)致過擬合,相反,更多的訓(xùn)練數(shù)據(jù)可以幫助模型更好地學(xué)習(xí)數(shù)據(jù)中的模式,從而提高模型的泛化能力。因此,選項C不屬于過擬合的原因。39.SVM算法的性能取決于:A、以上所有B、軟間隔參數(shù)C、核函數(shù)的參數(shù)D、核函數(shù)的選擇答案:A解析:答案解析:SVM(支持向量機)算法的性能受到多個因素的綜合影響。軟間隔參數(shù)決定了對異常點和噪聲的容忍程度。核函數(shù)的選擇決定了數(shù)據(jù)在高維空間的映射方式,不同的核函數(shù)適用于不同特征的數(shù)據(jù)集。核函數(shù)的參數(shù)則會進一步影響核函數(shù)的效果和模型的復(fù)雜度。綜上所述,SVM算法的性能取決于以上所有選項,即選項A是正確的。40.假設(shè)你有以下數(shù)據(jù):(0,2)(2,2)(3,1)輸入和輸出都只有一個變量。使用線性回歸模型(y=wx+b)來擬合數(shù)據(jù)。那么使用留一法(Leave-OneOut)交叉驗證得到的均方誤差是多少?A、10/32B、39/27C、49/27D、55/27答案:C解析:首先,通過給定的數(shù)據(jù)進行線性回歸擬合得到模型。然后,使用留一法交叉驗證,依次將每個數(shù)據(jù)點作為測試集,其余數(shù)據(jù)點用于訓(xùn)練模型,并計算測試集的均方誤差。經(jīng)過詳細的計算和分析,最終得出的結(jié)果是49/27。因此,選項C是正確答案。41.對于在原空間中線性不可分問題,支持向量機()。A、無法處理B、將數(shù)據(jù)映射到核空間中C、在原空間中尋找非線性函數(shù)的劃分數(shù)據(jù)D、在原空間中尋找線性函數(shù)劃分數(shù)據(jù)答案:B42.下列關(guān)于過擬合的說法錯誤的是A、過擬合是指模型在訓(xùn)練集上表現(xiàn)很好,但是在交叉驗證集和測試集上表現(xiàn)一般B、解決過擬合可以采用Dropout方法C、解決過擬合可以采用參數(shù)正則化方法D、數(shù)據(jù)集擴增不能用來解決過擬合問題答案:D解析:過擬合是指模型在訓(xùn)練集上表現(xiàn)很好,但在交叉驗證集和測試集上表現(xiàn)一般或較差的現(xiàn)象,A選項正確。Dropout方法通過在訓(xùn)練過程中隨機忽略一些神經(jīng)元,減少神經(jīng)元之間的共適應(yīng)性,從而緩解過擬合,B選項正確。參數(shù)正則化方法通過對模型的參數(shù)進行約束或懲罰,減少模型的復(fù)雜度,從而避免過擬合,C選項正確。數(shù)據(jù)集擴增可以通過增加訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性,來減少模型對訓(xùn)練數(shù)據(jù)的過度擬合,D選項錯誤。因此,答案選D。43.關(guān)于維數(shù)災(zāi)難說法錯誤的是?A、高維度數(shù)據(jù)可使得算法泛華能力變得越來越弱B、降低高維度數(shù)據(jù)會對數(shù)據(jù)有所損傷C、高維度數(shù)據(jù)增加了運算難度D、高維度數(shù)據(jù)難以可視化答案:A解析:A選項錯誤,高維度數(shù)據(jù)會導(dǎo)致模型復(fù)雜度增加、過擬合風(fēng)險增大等問題,從而使得算法泛化能力變?nèi)?,而不是越來越強。B選項正確,降低維度可能會損失一些信息。C選項正確,高維數(shù)據(jù)運算量會大幅增加,帶來運算難度。D選項正確,高維度數(shù)據(jù)很難直觀地進行可視化展示。所以說法錯誤的是A。44.下列有關(guān)SVM和LR說法不正確的是()A、SVM是分類模型,LR是回歸模型B、SVM和LR都是分類模型C、SVM是判別式模型D、LR判別式模型答案:A解析:SVM(SupportVectorMachine)和LR(LogisticRegression)都可以用于分類問題,因此選項A不正確,選項B正確。SVM是判別式模型,它直接學(xué)習(xí)決策邊界,而不考慮數(shù)據(jù)的生成過程,因此選項C正確。LR也是判別式模型,它通過學(xué)習(xí)特征與類別之間的線性關(guān)系來進行分類,因此選項D正確。綜上所述,不正確的說法是選項A。45.若svm出現(xiàn)欠擬合,以下合適的做法是A、使用更powful的kernelB、增加訓(xùn)練樣本C、使用L2正規(guī)化D、做數(shù)據(jù)增強答案:A解析:當(dāng)SVM出現(xiàn)欠擬合時,使用更強大(powerful)的核函數(shù)(kernel)可以增加模型的復(fù)雜度和表達能力,有助于改善欠擬合情況。增加訓(xùn)練樣本不一定能解決欠擬合問題,有可能仍然無法很好地擬合。使用L2正規(guī)化通常是防止過擬合的手段。數(shù)據(jù)增強主要用于增加數(shù)據(jù)的多樣性,對欠擬合的改善作用不直接。所以A選項正確。46.谷歌新聞每天收集非常多的新聞,并運用()方法再將這些新聞分組,組成若干類有關(guān)聯(lián)的新聞。于是,搜索時同一組新聞事件往往隸屬同一主題的,所以顯示到一起。A、關(guān)聯(lián)規(guī)則B、聚類C、回歸D、分類答案:B47.關(guān)于BP算法信號前向傳播的說法正確的是()。A、BP算法在計算正向傳播輸出值時需要考慮激活函數(shù)B、P算法信號前向傳播的計算量跟輸入層神經(jīng)元數(shù)目無關(guān)C、BP算法只有在隱層才有激活函數(shù)D、BP算法信號傳播的順序是輸出層、隱層、輸入層。答案:A48.以下有關(guān)隨機森林算法的說法錯誤的是:A、隨機森林算法的分類精度不會隨著決策樹數(shù)量的增加而提高B、隨機森林算法對異常值和缺失值不敏感C、隨機森林算法不需要考慮過擬合問題D、決策樹之間相關(guān)系數(shù)越低、每棵決策樹分類精度越高的隨機森林模型分類效果越好答案:C解析:隨機森林是一種常用的機器學(xué)習(xí)算法,它由多個決策樹組成。以下是對每個選項的分析:A.通常情況下,隨著決策樹數(shù)量的增加,隨機森林的分類精度會逐漸提高,但在一定程度后可能會趨于穩(wěn)定。因此,選項A是正確的。B.隨機森林對異常值和缺失值具有一定的容忍度,因為它是基于多個決策樹的集成學(xué)習(xí)算法。每個決策樹在訓(xùn)練時會自動處理缺失值,并且對于異常值的影響相對較小。因此,選項B是正確的。C.雖然隨機森林在一定程度上可以減少過擬合的風(fēng)險,但仍然需要考慮過擬合問題。特別是在數(shù)據(jù)量較小或特征數(shù)量較多的情況下,過擬合可能仍然會發(fā)生。因此,選項C是錯誤的。D.決策樹之間的相關(guān)系數(shù)越低,說明它們之間的差異越大,能夠提供更多的信息。同時,每棵決策樹的分類精度越高,整個隨機森林的分類效果也會越好。因此,選項D是正確的。綜上所述,說法錯誤的是選項C。49.下列激活函數(shù)中,能夠?qū)崿F(xiàn)將特征限制到區(qū)間[-1,1]的是哪一個A、TanhB、LogisticC、ReLUD、Sigmoid答案:A50.5.EM算法的停止條件()A、已達到最大迭代輪數(shù)B、數(shù)據(jù)樣本異常C、訓(xùn)練器異常D、似然函數(shù)減小答案:A解析:答案解析:EM算法是一種迭代算法,用于求解包含隱變量的概率模型參數(shù)。在實際應(yīng)用中,通常需要設(shè)置停止條件來決定何時結(jié)束迭代。已達到最大迭代輪數(shù)是常見的停止條件之一。因為如果無限制地迭代下去,可能會增加計算成本,且不一定能顯著改善結(jié)果。而數(shù)據(jù)樣本異常、訓(xùn)練器異常通常不是EM算法正常的停止條件。似然函數(shù)一般是增大的,而不是減小。所以,選項A是正確的答案。51.?“沒有免費的午餐定理”告訴我們A、我們不能對問題有先驗假設(shè)B、沒有可以適應(yīng)一切問題的算法C、設(shè)計好的算法是徒勞的D、對于一個特定的問題,任何算法都是一樣好的答案:B解析:“沒有免費的午餐定理”(NoFreeLunchTheorem)是機器學(xué)習(xí)和優(yōu)化理論中的一個重要概念。它的主要含義是,在所有可能的問題上,沒有一種算法可以在所有情況下都優(yōu)于其他算法。具體來說,這個定理告訴我們,對于任何一個算法,它在某些問題上可能表現(xiàn)得很好,但在其他問題上可能表現(xiàn)得很差。因此,我們不能期望有一種通用的算法可以解決所有的問題,也不能對任何算法有先驗的假設(shè)。在實際應(yīng)用中,我們需要根據(jù)具體的問題選擇合適的算法,并對算法進行評估和優(yōu)化。同時,我們也需要不斷探索和研究新的算法,以提高解決問題的效率和質(zhì)量。因此,選項B是正確的答案。52.4.“學(xué)習(xí)向量量化”與一般聚類算法不同的是()A、數(shù)據(jù)樣本帶有類別標記B、結(jié)構(gòu)不同C、向量程度不同D、簇的種類不同答案:A解析:“學(xué)習(xí)向量量化”是一種有監(jiān)督的學(xué)習(xí)算法,而一般聚類算法大多是無監(jiān)督的。有監(jiān)督學(xué)習(xí)中數(shù)據(jù)樣本通常帶有類別標記,這是它與一般聚類算法的重要區(qū)別。選項B中結(jié)構(gòu)不同不是本質(zhì)區(qū)別;選項C向量程度不同表述不準確;選項D簇的種類不同也不是關(guān)鍵不同點。所以答案選A。53.在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以()A、增加樹的深度B、增加學(xué)習(xí)率C、減少樹的深度D、減少樹的數(shù)量答案:C54.關(guān)于決策樹結(jié)點劃分指標描述正確的是A、類別非純度越大越好B、信息增益越大越好C、信息增益率越小越好D、基尼指數(shù)越大越好答案:B解析:在決策樹中,信息增益表示特征使數(shù)據(jù)集的不確定性減少的程度,信息增益越大,說明該特征對分類的作用越明顯,越有利于對數(shù)據(jù)集進行準確劃分,所以信息增益越大越好,B選項正確;而類別非純度、信息增益率和基尼指數(shù)都不是越大越好,A、C、D選項錯誤。55.做一個二分類預(yù)測問題,先設(shè)定閾值為0.5,概率大于等于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n(n>0.5)重新劃分樣本到正例類和反例類,下面哪一種說法正確是()1.增加閾值不會提高召回率2.增加閾值會提高召回率3.增加閾值不會降低查準率4.增加閾值會降低查準率A、1B、2C、1、3D、2、4答案:C解析:召回率是實際為正例的樣本中被預(yù)測為正例的比例。增加閾值,會使得被判定為正例的樣本減少,原本一些可能被判定為正例的現(xiàn)在可能被歸為反例,這樣就可能導(dǎo)致召回率降低或不變,不會提高,所以1正確,2錯誤。查準率是預(yù)測為正例的樣本中實際為正例的比例,增加閾值后,預(yù)測為正例的樣本更可能是真正的正例,查準率可能提高或不變,不會降低,所以3正確,4錯誤。綜上,正確答案是C。56.下列不是SVM核函數(shù)的是:A、多項式核函數(shù)B、logistic核函數(shù)C、徑向基核函數(shù)D、Sigmoid核函數(shù)答案:B57.點擊率的預(yù)測是一個數(shù)據(jù)比例不平衡問題(比如訓(xùn)練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果我們用這種數(shù)據(jù)建立模型并使得訓(xùn)練集的準確率高達99%。我們可以得出結(jié)論是:A、模型的準確率非常高,我們不需要進一步探索B、模型不好,我們應(yīng)建一個更好的模型C、無法評價模型D、以上都不正確答案:B58.下列哪種歸納學(xué)習(xí)采用符號表示方式?A、經(jīng)驗歸納學(xué)習(xí)B、遺傳算法C、聯(lián)接學(xué)習(xí)D、強化學(xué)習(xí)答案:A59.StandardScaler預(yù)處理方法可以表示為?=(?-?)/,其中?表示特征所在列的A、最大值B、分解閾值C、均值D、方差答案:D解析:在StandardScaler預(yù)處理方法中,公式為$x'=(x-\mu)/\sigma$,其中$x$表示原始數(shù)據(jù),$\mu$表示均值,$\sigma$表示標準差。而標準差的平方就是方差。因此,在這個公式中,$?=\sigma$,表示特征所在列的方差。所以,正確答案是D。60.下列關(guān)于主成分分析的表述錯誤的是A、主成分分析方法一種數(shù)據(jù)降維的方法B、通過主成分分析,可以將多個變量縮減為少數(shù)幾個新的變量,而信息并沒有損失,或者說信息損失很少C、通過主成分分析,可以用較少的新的指標來代替原來較多的指標反映的信息,并且新的指標之間是相互獨立的D、主成分分析是數(shù)據(jù)增維的方法答案:D解析:主成分分析是一種數(shù)據(jù)降維的方法,它可以將多個相關(guān)變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標,即主成分。這些主成分能夠盡可能地保留原始數(shù)據(jù)的信息,同時減少數(shù)據(jù)的維度。選項A正確,主成分分析的主要目的就是降低數(shù)據(jù)的維度。選項B也正確,通過主成分分析,原始變量的大部分信息可以被壓縮到少數(shù)幾個主成分中,信息損失較小。選項C同樣正確,主成分之間是相互獨立的,這有助于簡化數(shù)據(jù)分析和解釋。而選項D錯誤,主成分分析是減維而不是增維的方法。綜上所述,正確答案是D。61.樸素貝葉斯分類器的三種實現(xiàn)不包括A、基于伯努利模型實現(xiàn)B、基于多項式模型實現(xiàn)C、屬性條件獨立性假設(shè)實現(xiàn)D、基于高斯模型實現(xiàn)答案:C解析:樸素貝葉斯分類器常見的實現(xiàn)方式有基于伯努利模型、基于多項式模型和基于高斯模型。而屬性條件獨立性假設(shè)是樸素貝葉斯分類器的基本假設(shè),并非是一種具體的實現(xiàn)方式。所以,答案選C。62.下面關(guān)于貝葉斯分類器描述錯誤的是A、以貝葉斯定理為基礎(chǔ)B、是基于后驗概率C、可以解決有監(jiān)督學(xué)習(xí)的問題D、可以用極大似然估計法解貝葉斯分類器答案:B解析:答案解析:貝葉斯分類器是以貝葉斯定理為基礎(chǔ),可用于解決有監(jiān)督學(xué)習(xí)的問題,常用極大似然估計法求解。然而,貝葉斯分類器是基于先驗概率和條件概率,而不是基于后驗概率。所以,選項B描述錯誤,選項A、C、D均符合貝葉斯分類器的特點。因此,答案選擇B選項。63.1下列關(guān)于線性回歸說法錯誤的是()A、在現(xiàn)有模型上,加入新的變量,所得到的R^2的值總會增加B、線性回歸的前提假設(shè)之一是殘差必須服從獨立正態(tài)分布C、殘差的方差無偏估計是SSE/(n-p)D、自變量和殘差不一定保持相互獨立答案:D解析:A選項正確,加入新變量可能會提高模型的擬合優(yōu)度,從而使R^2值增加。B選項正確,線性回歸的前提假設(shè)之一是殘差服從獨立正態(tài)分布。C選項正確,SSE/(n-p)是殘差方差的無偏估計。D選項錯誤,自變量和殘差應(yīng)該保持相互獨立。綜上所述,正確答案是D。64.以下哪項是非線性降維方法A、PCA(主成分分析)B、LDA(線性判別)C、ICA(獨立成分分析)D、KPCA(核化線性降維)答案:D解析:線性降維方法是指在降維過程中保持數(shù)據(jù)的線性結(jié)構(gòu)不變,如PCA、LDA和ICA。而非線性降維方法則是通過引入非線性變換來實現(xiàn)降維,KPCA就是一種核化的線性降維方法,它通過核函數(shù)將數(shù)據(jù)映射到高維特征空間,然后在該空間中進行線性降維,從而能夠處理非線性數(shù)據(jù)。因此,選項D是正確的答案。65.在變量選擇過程中,下列哪些方法可用于檢查模型的性能?a.多重變量用于同一個模型b.模型的可解釋性c.特征的信息d.交叉驗證A、dB、abcC、acdD、全部答案:C66.?當(dāng)數(shù)據(jù)分布不平衡時,我們可采取的措施不包括()。A、對數(shù)據(jù)分布較多的類別賦予更大的權(quán)重B、對數(shù)據(jù)分布較多的類別欠采樣C、對數(shù)據(jù)分布較少的類別過采樣D、對數(shù)據(jù)分布較少的類別賦予更大的權(quán)重答案:A67.極大似然估計是()A、與總體分布無關(guān)的統(tǒng)計量B、通過總體分布才能求出來的統(tǒng)計量C、似然方程的解D、對數(shù)似然方程的解答案:B解析:極大似然估計是一種統(tǒng)計方法,用于估計總體分布中的參數(shù)。它的基本思想是在給定觀測數(shù)據(jù)的情況下,找到使得觀測數(shù)據(jù)出現(xiàn)的概率最大的參數(shù)值。具體來說,極大似然估計通過構(gòu)建似然函數(shù)來實現(xiàn)。似然函數(shù)表示在給定參數(shù)值的情況下,觀測數(shù)據(jù)出現(xiàn)的概率。然后,通過最大化似然函數(shù)來找到最有可能的參數(shù)值。在計算極大似然估計時,需要知道總體分布的形式。只有在知道總體分布的情況下,才能計算似然函數(shù),并進行參數(shù)估計。因此,極大似然估計是通過總體分布才能求出來的統(tǒng)計量,答案為B。68.關(guān)于決策樹,以下哪種說法是正確的A、可讀性強B、只用于分類問題C、只用于回歸問題D、是無監(jiān)督學(xué)習(xí)答案:A69.按照求解方法進行分類算法的劃分,下列中為生成模型的是()A、決策樹B、K近鄰C、貝葉斯分類器D、支持向量機SVM答案:C解析:生成模型是對聯(lián)合概率分布進行建模。貝葉斯分類器基于貝葉斯定理,通過先驗概率和條件概率來計算后驗概率,它對數(shù)據(jù)的分布進行建模,屬于生成模型。決策樹、K近鄰和支持向量機SVM主要是通過對數(shù)據(jù)的劃分、距離計算或構(gòu)建超平面等來進行分類,它們更多是直接對決策邊界進行構(gòu)建,屬于判別模型。所以答案選C。70.決策樹模型中應(yīng)如何妥善處理連續(xù)型屬性A、直接忽略B、利用固定閾值進行離散化C、根據(jù)信息增益選擇閾值進行離散化D、隨機選擇數(shù)據(jù)標簽發(fā)生變化的位置進行離散化答案:C解析:在決策樹模型中,對于連續(xù)型屬性,如果直接忽略則無法充分利用其信息;利用固定閾值進行離散化可能不夠準確和靈活;隨機選擇數(shù)據(jù)標簽發(fā)生變化的位置進行離散化缺乏科學(xué)依據(jù)和合理性。而根據(jù)信息增益選擇閾值進行離散化,能夠基于數(shù)據(jù)的分布和特征,選擇最優(yōu)的劃分點,最大程度地提高決策樹的分類準確性和純度。所以,選項C是正確的答案。71.?哪些機器學(xué)習(xí)模型經(jīng)過訓(xùn)練,能夠根據(jù)其行為獲得的獎勵和反饋做出一系列決策?A、無監(jiān)督學(xué)習(xí)B、監(jiān)督學(xué)習(xí)C、強化學(xué)習(xí)D、以上全部答案:C72.1.()是并行式集成學(xué)習(xí)方法最著名的代表A、隨機森林B、oostingC、BaggingD、AdaBoost答案:C解析:Bagging是通過自助抽樣(bootstrapsling)對樣本進行有放回抽樣來產(chǎn)生多個訓(xùn)練集,然后基于這些訓(xùn)練集訓(xùn)練多個基學(xué)習(xí)器,最后將它們組合,是并行式集成學(xué)習(xí)方法。隨機森林是基于Bagging思想的一種擴展。Boosting和AdaBoost是順序式集成學(xué)習(xí)方法。所以選項C正確。73.模型評估的常用方法有哪些A、留出法B、交叉驗證法C、自助法D、以上都是答案:D解析:留出法是將數(shù)據(jù)集劃分為訓(xùn)練集和測試集來評估模型;交叉驗證法將數(shù)據(jù)集多次劃分進行訓(xùn)練和驗證以更全面地評估;自助法通過有放回抽樣生成訓(xùn)練集和測試集。這三種方法都是模型評估中常用的有效手段,它們從不同角度和方式來對模型進行評估和驗證,各有特點和適用場景,所以答案選D,即以上都是。74.極大似然估計中參數(shù)是()A、確定且已知的量B、確定且未知的量C、已知的隨機變量D、未知的隨機變量答案:B解析:極大似然估計是一種統(tǒng)計方法,用于估計概率分布中的參數(shù)。在極大似然估計中,參數(shù)被視為固定但未知的量。我們的目標是找到使觀測數(shù)據(jù)出現(xiàn)的概率最大的參數(shù)值。這意味著我們假設(shè)參數(shù)是確定的,但我們不知道它的確切值,需要通過數(shù)據(jù)來估計。雖然參數(shù)在估計之前是未知的,但在估計過程中,我們將其視為固定的值,并通過最大化似然函數(shù)來找到最有可能的參數(shù)值。因此,選項B是正確的答案。75.以下關(guān)于降維說法不正確的是?A、降維是將訓(xùn)練樣本從高維空間轉(zhuǎn)換到低維空間B、降維有助于數(shù)據(jù)可視化C、通過降維可以更有效地發(fā)掘有意義的數(shù)據(jù)結(jié)構(gòu)D、降維不會對數(shù)據(jù)產(chǎn)生損傷答案:D解析:降維是一種數(shù)據(jù)處理技術(shù),旨在減少數(shù)據(jù)的維度數(shù)量,同時盡可能保留數(shù)據(jù)的重要信息。以下是對每個選項的分析:A.降維確實是將數(shù)據(jù)從高維空間轉(zhuǎn)換到低維空間。通過這種方式,可以減少數(shù)據(jù)的復(fù)雜性,使得數(shù)據(jù)更容易處理和分析。B.降維有助于數(shù)據(jù)可視化。在高維數(shù)據(jù)中,很難直觀地理解數(shù)據(jù)的分布和結(jié)構(gòu)。通過將數(shù)據(jù)降維到二維或三維空間,可以使用圖表或圖形來展示數(shù)據(jù),從而更好地理解數(shù)據(jù)的特征。C.降維可以更有效地發(fā)掘有意義的數(shù)據(jù)結(jié)構(gòu)。通過減少維度數(shù)量,可以突出數(shù)據(jù)中的主要特征和模式,有助于發(fā)現(xiàn)數(shù)據(jù)中的隱藏結(jié)構(gòu)和關(guān)系。D.然而,降維并不總是不會對數(shù)據(jù)產(chǎn)生損傷。在降維過程中,可能會丟失一些信息,特別是當(dāng)數(shù)據(jù)的維度非常高時。因此,在進行降維時,需要謹慎選擇合適的降維方法,并評估降維對數(shù)據(jù)的影響。綜上所述,選項D不正確,降維可能會對數(shù)據(jù)產(chǎn)生一定的損傷。76.關(guān)于EM算法正確的是A、EM算法包括兩步:E算法和M算法B、EM算法一定能收斂到全局最大值點C、英文全稱是Expectation-MinimizationD、以上都不正確答案:A解析:答案A正確。EM算法(Expectation-MaximizationAlgorithm)的確包括期望步驟(E步驟)和最大化步驟(M步驟)這兩個主要部分。B選項錯誤,EM算法不一定能收斂到全局最大值點,可能收斂到局部最優(yōu)值。C選項,EM算法的英文全稱是Expectation-Maximization,表述正確,但不全面。綜合來看,A選項對EM算法的描述最為準確完整,所以答案選A。77.關(guān)于數(shù)據(jù)規(guī)范化,下列說法中錯誤的是()。A、標準化實際上是將數(shù)據(jù)在樣本的標準差上做了等比例的縮放操作B、歸一化利用了樣本中的最大值和最小值C、包含標準化和歸一化D、標準化在任何場景下受異常值的影響都很小答案:D78.2.當(dāng)訓(xùn)練集很多時,一種更為強大的結(jié)合策略是使用(),即通過另一個學(xué)習(xí)器來進行結(jié)合。A、學(xué)習(xí)法B、平均法C、投票法D、加權(quán)投票法答案:A解析:當(dāng)訓(xùn)練集數(shù)量龐大時,學(xué)習(xí)法可以利用訓(xùn)練集來訓(xùn)練一個新的學(xué)習(xí)器,對其他學(xué)習(xí)器的結(jié)果進行整合和優(yōu)化,能更好地適應(yīng)復(fù)雜情況,相比平均法、投票法、加權(quán)投票法等更具優(yōu)勢和適應(yīng)性。所以當(dāng)訓(xùn)練集很多時,使用學(xué)習(xí)法來結(jié)合更為強大,故答案選A。79.同質(zhì)集成中的個體學(xué)習(xí)器亦稱()A、基學(xué)習(xí)器B、同質(zhì)學(xué)習(xí)器C、組件學(xué)習(xí)器D、異質(zhì)學(xué)習(xí)器答案:A解析:同質(zhì)集成中的個體學(xué)習(xí)器也被稱為基學(xué)習(xí)器。這是因為在同質(zhì)集成中,所有的個體學(xué)習(xí)器都是基于相同的學(xué)習(xí)算法或模型構(gòu)建的,它們在數(shù)據(jù)上進行訓(xùn)練并生成預(yù)測結(jié)果。這些基學(xué)習(xí)器的預(yù)測結(jié)果被組合起來,以獲得最終的集成預(yù)測結(jié)果?;鶎W(xué)習(xí)器的選擇和訓(xùn)練是同質(zhì)集成的關(guān)鍵步驟。通常,會選擇多個不同的基學(xué)習(xí)器,并使用交叉驗證等技術(shù)來評估它們的性能。然后,將性能較好的基學(xué)習(xí)器組合起來,以提高集成的性能。與基學(xué)習(xí)器相對應(yīng)的是異質(zhì)學(xué)習(xí)器,它們是基于不同的學(xué)習(xí)算法或模型構(gòu)建的。在異質(zhì)集成中,會使用多個不同類型的個體學(xué)習(xí)器,并將它們的預(yù)測結(jié)果組合起來,以獲得更好的預(yù)測性能。因此,選項A是正確的答案。80.下列誤差和錯誤中,哪一項是由于訓(xùn)練樣本的錯誤而導(dǎo)致?A、泛化誤差B、偏差C、方差D、噪聲答案:D81.關(guān)于BP算法優(yōu)缺點的說法錯誤的是()。A、BP算法不能用于處理非線性分類問題B、P算法容易陷入局部最小值C、BP算法訓(xùn)練時間較長D、BP算法訓(xùn)練時候可能由于權(quán)值調(diào)整過大使得激活函數(shù)達到飽和答案:A82.一般來說,下列哪種方法常用來預(yù)測連續(xù)獨立變量?A、線性回歸B、邏輯回顧C、線性回歸和邏輯回歸都行D、以上說法都不對答案:A83.EM算法是()學(xué)習(xí)算法A、有監(jiān)督B、無監(jiān)督C、半監(jiān)督D、都不是答案:B解析:EM算法是一種迭代算法,用于在含有隱變量的概率模型中尋找最大似然估計或最大后驗概率估計。在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)沒有標記或類別信息,而EM算法可以用于處理這種類型的數(shù)據(jù),例如聚類分析、高斯混合模型等。在這些應(yīng)用中,EM算法通過迭代估計隱變量的分布和模型參數(shù),來優(yōu)化模型的似然函數(shù)或后驗概率。因此,EM算法是一種無監(jiān)督學(xué)習(xí)算法,選擇選項B。84.3.以下哪些是無序?qū)傩裕ǎ〢、{1,2,3}B、{飛機,火車、輪船}C、閔可夫斯基距離D、{小,中,大}答案:B序?qū)傩允侵笇傩缘闹抵g沒有特定的順序關(guān)系。選項A中的數(shù)字有大小順序;選項C閔可夫斯基距離是一個數(shù)值概念,不是屬性;選項D中的“小、中、大”通常也隱含著一定的順序。而選項B中“飛機、火車、輪船”只是不同交通工具的列舉,它們之間不存在固有的順序關(guān)系,屬于無序?qū)傩浴K源鸢高xB。85.關(guān)于BP算法特點描述錯誤的是()A、輸入信號順著輸入層、隱層、輸出層依次傳播B、計算之前不需要對訓(xùn)練數(shù)據(jù)進行歸一化C、預(yù)測誤差需逆向傳播,順序是輸出層、隱層、輸入層D、各個神經(jīng)元根據(jù)預(yù)測誤差對權(quán)值進行調(diào)整答案:B86.下列不屬于集成學(xué)習(xí)方法是A、baggingB、connectingC、boostingD、stacking答案:B解析:集成學(xué)習(xí)是通過組合多個學(xué)習(xí)器來提高性能的方法。常見的集成學(xué)習(xí)方法有bagging、boosting和stacking。A選項bagging是通過自助采樣法生成多個訓(xùn)練集,然后訓(xùn)練多個基學(xué)習(xí)器,最后綜合結(jié)果。C選項boosting是通過迭代地訓(xùn)練弱學(xué)習(xí)器,根據(jù)上一輪學(xué)習(xí)結(jié)果調(diào)整樣本權(quán)重。D選項stacking是將多個基學(xué)習(xí)器的預(yù)測結(jié)果作為輸入,訓(xùn)練一個元學(xué)習(xí)器來進行最終預(yù)測。而B選項connecting并非常見的集成學(xué)習(xí)方法。綜上,答案選B。87.8.K均值算法的K指的是什么?A、K是均值的數(shù)值B、K是均值的最大限值C、K是分類的數(shù)量D、K是分類的迭代次數(shù)答案:B解析:K均值算法是一種常用的無監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)集劃分為K個不同的簇。在K均值算法中,K表示要劃分的簇的數(shù)量。K均值算法的基本思想是通過迭代的方式將數(shù)據(jù)點分配到K個簇中,使得每個簇內(nèi)的數(shù)據(jù)點盡可能相似,而不同簇之間的數(shù)據(jù)點盡可能不同。具體來說,K均值算法的步驟如下:1.選擇K個初始聚類中心。2.將每個數(shù)據(jù)點分配到距離其最近的聚類中心所在的簇中。3.計算每個簇中所有數(shù)據(jù)點的平均值,作為新的聚類中心。4.重復(fù)步驟2和3,直到聚類中心不再發(fā)生變化或達到指定的迭代次數(shù)。通過不斷迭代,K均值算法可以將數(shù)據(jù)集劃分為K個不同的簇,使得每個簇內(nèi)的數(shù)據(jù)點具有較高的相似度,而不同簇之間的數(shù)據(jù)點具有較低的相似度。因此,選項C是正確的答案。88.下列是機器學(xué)習(xí)中降維任務(wù)的準確描述的為A、依據(jù)某個準則對項目進行排序B、將其映射到低維空間來簡化輸入C、預(yù)測每個項目的實際值D、對數(shù)據(jù)對象進行分組答案:B89.9.關(guān)于K-均值算法,以下說法不正確的是A、K-均值算法是一種劃分方法。B、K-均值算法能發(fā)現(xiàn)任意形狀的簇。C、K-均值算法不一定收斂于全局最優(yōu)解。D、比起DBSCAN算法來,K更好答案:B解析:K-均值算法是基于劃分的聚類算法,A選項正確;它一般只能發(fā)現(xiàn)球狀簇,對于非球狀等任意形狀的簇較難發(fā)現(xiàn),B選項錯誤;該算法可能會陷入局部最優(yōu)解而不一定收斂到全局最優(yōu)解,C選項正確;DBSCAN算法在一些情況下有其獨特優(yōu)勢,不能簡單說K-均值算法比DBSCAN算法更好,D選項表述不準確。所以答案選B。90.構(gòu)建一個最簡單的線性回歸模型需要幾個系數(shù)(只有一個特征)?A、1個B、2個C、3個D、4個答案:B91.以下關(guān)于神經(jīng)網(wǎng)絡(luò)的說法中,正確的是()?A、增加網(wǎng)絡(luò)層數(shù),一定能減小訓(xùn)練集錯誤率B、減小網(wǎng)絡(luò)層數(shù),一定能減小測試集錯誤率C、增加網(wǎng)絡(luò)層數(shù),可能增加測試集錯誤率D、增加網(wǎng)絡(luò)層數(shù),一定增加測試集錯誤率答案:C解析:在神經(jīng)網(wǎng)絡(luò)中,增加網(wǎng)絡(luò)層數(shù)可以增加模型的表達能力,從而可能提高模型在訓(xùn)練集上的性能。然而,過多的網(wǎng)絡(luò)層數(shù)也可能導(dǎo)致過擬合,使得模型在測試集上的性能下降。A選項中,增加網(wǎng)絡(luò)層數(shù)不一定能減小訓(xùn)練集錯誤率,如果模型過擬合了訓(xùn)練集,那么增加網(wǎng)絡(luò)層數(shù)可能會使錯誤率增加。B選項中,減小網(wǎng)絡(luò)層數(shù)不一定能減小測試集錯誤率,因為網(wǎng)絡(luò)層數(shù)過少可能無法充分擬合數(shù)據(jù),導(dǎo)致模型在測試集上的性能不佳。C選項中,增加網(wǎng)絡(luò)層數(shù)可能增加測試集錯誤率,這是因為過擬合的風(fēng)險增加了。D選項中,增加網(wǎng)絡(luò)層數(shù)不一定會增加測試集錯誤率,具體情況取決于模型的復(fù)雜度和數(shù)據(jù)的特點。因此,正確答案是C。92.決策樹中不包含以下哪種結(jié)點A、根節(jié)點B、內(nèi)部結(jié)點C、葉節(jié)點D、外部結(jié)點答案:D解析:決策樹是一種常見的機器學(xué)習(xí)算法,它通過對數(shù)據(jù)的分裂和歸納構(gòu)建出一棵樹形結(jié)構(gòu),用于預(yù)測或分類。決策樹由根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點組成。根節(jié)點是決策樹的起點,代表整個數(shù)據(jù)集。內(nèi)部節(jié)點表示對某個特征的測試,根據(jù)測試結(jié)果將數(shù)據(jù)集分裂為多個子集。葉節(jié)點則表示最終的決策或分類結(jié)果。而外部結(jié)點并不是決策樹中的一種節(jié)點類型,因此選項D是正確答案。93.關(guān)于SVM泛化誤差描述正確的是A、超平面與支持向量之間距離B、超平面與支持向量之間距離C、SVM的誤差閾值答案:B解析:答案解析:在支持向量機(SVM)中,泛化誤差與超平面和支持向量之間的距離密切相關(guān)。支持向量是決定超平面位置的關(guān)鍵樣本點。超平面與支持向量之間的距離能夠反映模型的泛化能力,距離越大,模型的泛化誤差通常越小,模型的性能和穩(wěn)定性越好。因此,選項B是正確的答案。94.以下關(guān)于學(xué)習(xí)率說法錯誤的是()。A、學(xué)習(xí)率太大會導(dǎo)致無法收斂B、學(xué)習(xí)率必須是固定不變的C、學(xué)習(xí)率的選擇不能太大也不能太小D、學(xué)習(xí)率太小會使得算法陷入局部極小點答案:B95.下列有關(guān)支持向量機說法不正確的是:A、得到的是局部最優(yōu)解B、具有很好的推廣能力C、采用結(jié)構(gòu)風(fēng)險最小化原理D、是凸二次優(yōu)化問題答案:A96.如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?A、增大懲罰參數(shù)C的值B、減小懲罰參數(shù)C的值C、減小核系數(shù)(gamma參數(shù))D、都不正確答案:A解析:支持向量機(SVM)中,增大懲罰參數(shù)C的值,可以使模型對訓(xùn)練數(shù)據(jù)的擬合更加緊密,從而緩解欠擬合問題。C值較小會導(dǎo)致對誤分類的容忍度較高,可能出現(xiàn)欠擬合。減小核系數(shù)主要影響模型的復(fù)雜度和泛化能力,但對解決欠擬合不是主要方法。所以當(dāng)模型出現(xiàn)欠擬合時,增大C的值是可行的辦法,答案選A。97.KNN算法是基于()A、概率空間B、顏色空間C、距離空間D、線性空間答案:C98.決策樹學(xué)習(xí)的關(guān)鍵是A、初始結(jié)點選擇B、剪枝C、選擇最優(yōu)劃分屬性D、分枝答案:C解析:決策樹的構(gòu)建過程就是對數(shù)據(jù)集不斷進行劃分的過程。選擇最優(yōu)劃分屬性能夠決定如何對數(shù)據(jù)進行分支,這直接影響到?jīng)Q策樹的結(jié)構(gòu)和預(yù)測準確性。如果劃分屬性選擇不當(dāng),可能導(dǎo)致決策樹過于復(fù)雜或不準確。初始結(jié)點選擇相對來說不是最關(guān)鍵的,剪枝是后續(xù)優(yōu)化的步驟,分枝是根據(jù)劃分屬性確定的。所以關(guān)鍵是選擇最優(yōu)劃分屬性,答案選C。99.關(guān)于隨機森林,說法錯誤的是:A、相對于Boosting系列的Adaboost和GBDT,RF實現(xiàn)比較簡單。B、在訓(xùn)練后,可以給出各個特征對于輸出的重要性C、訓(xùn)練高度串行化D、隨機采樣,訓(xùn)練出的模型的方差小,泛化能力強答案:C解析:隨機森林是一種常用的機器學(xué)習(xí)算法,具有以下特點:-選項A:RF實現(xiàn)相對簡單,與Boosting系列的Adaboost和GBDT相比,它不需要進行迭代訓(xùn)練。-選項B:隨機森林可以通過計算每個特征在決策樹中的重要性來評估特征的重要性。-選項C:訓(xùn)練過程是高度并行化的,可以在多個決策樹之間并行計算。-選項D:通過隨機采樣和特征選擇,隨機森林可以減少模型的方差,提高泛化能力。因此,說法錯誤的是選項C。100.1.對函數(shù)dist(.,.)若它是一個距離度量則需要滿足的基本特性中以下哪個不是正確答案A、非負性B、同一性C、遞增性D、對稱性答案:C解析:答案解析:在距離度量的基本特性中,非負性指的是距離不能為負,這是基本要求;同一性表示兩點重合時距離為0;對稱性表明兩點之間的距離與順序無關(guān)。而遞增性并非距離度量的基本特性。所以選項C不是距離度量需要滿足的基本特性,選項A、B、D均是正確的基本特性。因此,正確答案是選項C。101.以下關(guān)于感知器說法錯誤的是:()A、感知器中的偏置只改變決策邊界的位置B、可為感知器的輸出值設(shè)置閾值使其用于處理分類問題C、單層感知器可以用于處理非線性學(xué)習(xí)問題D、感知器是最簡單的前饋式人工神經(jīng)網(wǎng)絡(luò)答案:C102.對主成分分析PCA方法描述正確的是:A、投影矩陣是正交矩陣B、進行非正交投影C、PCA不需要進行樣本去均值D、投影到特征值最小的方向答案:A解析:PCA方法的核心思想是通過線性變換將高維數(shù)據(jù)投影到低維空間,同時盡可能保留數(shù)據(jù)的方差信息。在這個過程中,投影矩陣是正交矩陣,即它的列向量相互正交,這可以保證投影后的向量之間沒有相關(guān)性。進行正交投影可以使數(shù)據(jù)在低維空間中具有更好的可分性和解釋性。PCA通常需要對樣本進行去均值處理,以消除數(shù)據(jù)的平移和縮放影響。投影到特征值最大的方向可以最大程度地保留數(shù)據(jù)的方差信息。綜上所述,選項A是正確的。103.下列表述中,在k-fold交叉驗證中關(guān)于選擇K說法正確的是A、較大的K并不總是好的,選擇較大的K可能需要較長的時間來評估你的結(jié)果B、相對于期望誤差來說,選擇較大的K會導(dǎo)致低偏差(因為訓(xùn)練folds會變得與整個數(shù)據(jù)集相似)C、在交叉驗證中通過最小化方差法來選擇K值D、以上都正確答案:D解析:在k-fold交叉驗證中,K值的選擇會影響模型的評估結(jié)果和計算時間。較大的K值可以減少偏差,但會增加計算時間;較小的K值則可能導(dǎo)致高方差。選擇K值時,可以通過最小化方差法來找到最優(yōu)值。同時,期望誤差也會影響K值的選擇。因此,選項D是正確的。104.下列關(guān)于線性回歸分析中的殘差(Residuals)說法正確的是?A、殘差均值總是為零B、殘差均值總是小于零C、殘差均值總是大于零D、以上說法都不對答案:A105.四個點坐標為(1,1),(1,0),(-1,-1),(-1,0),用SVM分類的決策邊界是A、y=xB、x=0C、y=-xD、y=0答案:B解析:觀察這四個點,(1,1)和(-1,-1)關(guān)于原點對稱,(1,0)和(-1,0)在y軸上且關(guān)于原點對稱??梢园l(fā)現(xiàn)以x=0這條直線為界能很好地將這四個點分開,直線x=0左側(cè)是(-1,-1)和(-1,0),右側(cè)是(1,1)和(1,0)。而其他選項的直線都不能準確地將這四個點分類,所以答案選B。106.下列關(guān)于Boosting和Bagging的描述正確的是:A、Boosting主要關(guān)注降低方差B、oosting的代表算法有隨機森林C、Bagging基于自助采樣法D、Bagging主要關(guān)注降低偏差答案:C解析:A選項錯誤,Boosting主要是降低偏差;B選項錯誤,隨機森林是Bagging的代表算法;C選項正確,Bagging確實是基于自助采樣法;D選項錯誤,Bagging主要是降低方差。所以正確答案是C。107.關(guān)于BP算法反向傳播的說法正確的是()。A、BP算法反向傳播進行更新時一般用到微積分的鏈式傳播法則B、P算法更新量與步長關(guān)系不大C、BP算法反向傳播的預(yù)測誤差值一般由真實標簽值和預(yù)測標簽值的差計算得來D、BP算法反向傳播的目的是只對權(quán)值進行更新答案:A108.ID3決策樹算法以()為準則來選擇劃分屬性A、信息增益B、信息熵C、基尼系數(shù)D、信息增益率答案:A解析:ID3決策樹算法是一種基于信息論的決策樹學(xué)習(xí)算法,它以信息增益為準則來選擇劃分屬性。信息增益表示得知某個特征的信息后,數(shù)據(jù)集的不確定性減少的程度。在ID3算法中,選擇具有最高信息增益的屬性作為劃分屬性,因為這樣可以使決策樹的分支更加簡潔,從而提高決策樹的泛化能力。因此,選項A是正確的答案。109.?以下關(guān)于訓(xùn)練集、驗證集和測試集說法不正確的是()。A、驗證集用于調(diào)整模型參數(shù)B、測試集是純粹是用于測試模型泛化能力C、以上說法都不對D、訓(xùn)練集是用來訓(xùn)練以及評估模型性能答案:D110.下列有關(guān)核函數(shù)不正確的是:A、可以采用cross-va1idalion方法選擇最佳核函數(shù)B、滿足Mercer條件的函數(shù)不一定能作為支持向量機的核函數(shù)C、極大地提高了學(xué)習(xí)機器的非線性處理能力D、函數(shù)與非線性映射并不是一一對應(yīng)的關(guān)系答案:B111.10.基于層次的聚類算法包括()。A、合并的層次聚類B、基于密度的聚類算法C、基于劃分的算法D、基于網(wǎng)絡(luò)的聚類算法答案:A解析:層次聚類算法是一種基于距離或相似性度量的聚類方法,它將數(shù)據(jù)集逐步分解成層次結(jié)構(gòu),直到達到某種終止條件。其中,合并的層次聚類算法是一種自底向上的方法,它首先將每個數(shù)據(jù)點視為一個單獨的簇,然后逐步將相似的簇合并成更大的簇,直到所有數(shù)據(jù)點都屬于同一個簇為止。因此,選項A是正確的答案。112.在一個線性回歸問題中,我們使用R平方(R-Squared)來判斷擬合度。此時,如果增加一個特征,模型不變,則下面說法正確的是?A、如果R-Squared增加,則這個特征有意義B、如果R-Squared減小,則這個特征沒有意義C、僅看R-Squared單一變量,無法確定這個特征是否有意義。D、以上說法都不對答案:C113.樸素貝葉斯分類器的特征不包括A、孤立的噪聲對該分類器的影響不大B、數(shù)據(jù)的缺失值影響不大C、要求數(shù)據(jù)的屬性是相互獨立的D、條件獨立的假設(shè)可能不成立答案:C114.對于非概率模型而言,可按照判別函數(shù)線性與否分成線性模型與非線性模型。下面哪個模型不屬于線性模型?A、感知機B、AdaBoostC、K-meansD、k近鄰答案:B解析:對于非概率模型,線性模型的判別函數(shù)是線性的,而非線性模型的判別函數(shù)則不是線性的。在這四個選項中,感知機、K-means和k近鄰的判別函數(shù)都是線性的,而AdaBoost是一種集成學(xué)習(xí)算法,它通過組合多個弱學(xué)習(xí)器來構(gòu)建一個強學(xué)習(xí)器,其判別函數(shù)不是線性的。因此,不屬于線性模型的是選項B。115.6.AGNES是一種()聚合策略的層次聚類算法A、自頂向下B、自底向上C、由最近樣本決定D、最遠樣本決定答案:B解析:答案解析:AGNES(AGglomerativeNESting)算法是一種層次聚類算法,它采用自底向上的聚合策略。在該算法中,每個數(shù)據(jù)點最初被視為一個單獨的簇,然后逐步將相似的簇合并在一起,形成更大的簇。這種自底向上的方式與自頂向下的方式相反,自頂向下是先將所有數(shù)據(jù)點視為一個大簇,然后逐步細分。由最近樣本決定和最遠樣本決定是其他聚類算法中的策略,與AGNES算法無關(guān)。因此,正確答案是選項B。116.樸素貝葉斯是一種典型的基于概率的機器學(xué)習(xí)方法,它利用了A、先驗概率B、后驗概率C、以上都是D、以上都不是答案:C解析:樸素貝葉斯方法中,先驗概率是在沒有任何額外信息或證據(jù)的情況下對某個事件發(fā)生概率的估計,它在樸素貝葉斯中起到重要作用;同時也會利用后驗概率,通過已知的條件來計算事件在特定情況下的概率。所以它既利用了先驗概率也利用了后驗概率,選項C正確。判斷題1.模型泛化能力與訓(xùn)練樣本數(shù)量無關(guān)A、正確B、錯誤答案:B解析:答案解析:模型的泛化能力很大程度上受訓(xùn)練樣本數(shù)量的影響。通常,訓(xùn)練樣本數(shù)量越多,模型能學(xué)習(xí)到更多的特征和規(guī)律,從而能更好地應(yīng)對新的數(shù)據(jù),泛化能力會更強;如果訓(xùn)練樣本數(shù)量過少,模型可能會過度擬合訓(xùn)練數(shù)據(jù),導(dǎo)致泛化能力變差。2."過擬合是有監(jiān)督學(xué)習(xí)的挑戰(zhàn),而不是無監(jiān)督學(xué)習(xí)"A、正確B、錯誤答案:A3.剪枝是決策樹學(xué)習(xí)算法對付“過擬合”的主要手段,決策樹剪枝的基本策略有“預(yù)剪枝”和“后剪枝”。A、正確B、錯誤答案:A解析:決策樹是一種常用的機器學(xué)習(xí)算法,在決策樹的學(xué)習(xí)過程中,如果樹的分支過多,可能會導(dǎo)致模型過擬合,即模型在訓(xùn)練集上表現(xiàn)很好,但在測試集上表現(xiàn)很差。為了避免過擬合,可以采用剪枝的方法。剪枝的基本策略有“預(yù)剪枝”和“后剪枝”兩種。預(yù)剪枝是在決策樹生成過程中,對每個節(jié)點在劃分前進行估計,如果當(dāng)前節(jié)點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前節(jié)點標記為葉節(jié)點。后剪枝則是先從訓(xùn)練集生成一棵完整的決策樹,然后自底向上地對非葉節(jié)點進行考察,若將該節(jié)點對應(yīng)的子樹替換為葉節(jié)點能帶來決策樹泛化性能提升,則將該子樹替換為葉節(jié)點。4.給定n個數(shù)據(jù)點,如果其中一半用于訓(xùn)練,另一半用于測試,則訓(xùn)練誤差和測試誤差之間的差別會隨著n的增加而減小A、正確B、錯誤答案:A解析:當(dāng)數(shù)據(jù)點數(shù)量$n$增加時,用于訓(xùn)練和測試的數(shù)據(jù)點也會增加。更多的數(shù)據(jù)點可以提供更全面的信息,從而使模型能夠更好地擬合數(shù)據(jù)。訓(xùn)練誤差是模型在訓(xùn)練數(shù)據(jù)上的誤差,而測試誤差是模型在未見過的測試數(shù)據(jù)上的誤差。隨著$n$的增加,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布會更加接近,模型在訓(xùn)練數(shù)據(jù)上的擬合程度也會更好地反映在測試數(shù)據(jù)上。因此,訓(xùn)練誤差和測試誤差之間的差別會隨著$n$的增加而減小。這意味著模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)會更接近在測試數(shù)據(jù)上的表現(xiàn),從而提高模型的泛化能力。5.貝葉斯網(wǎng)不是因果關(guān)系網(wǎng)絡(luò)圖A、正確B、錯誤答案:B解析:答案解析:貝葉斯網(wǎng)本質(zhì)上可以用來表示變量之間的因果關(guān)系,通過節(jié)點和邊的結(jié)構(gòu),能夠?qū)σ蚬P(guān)系進行建模和推斷6.邏輯回歸分類的精度不夠高,因此在業(yè)界很少用到這個算法A、正確B、錯誤答案:B7.數(shù)據(jù)有噪聲,有重復(fù)值,不會導(dǎo)致SVM算法性能下降A(chǔ)、正確B、錯誤答案:B解析:SVM算法對噪聲和重復(fù)值比較敏感,這些數(shù)據(jù)問題可能會導(dǎo)致算法性能下降。噪聲數(shù)據(jù)可能會干擾模型的學(xué)習(xí),導(dǎo)致模型對真實數(shù)據(jù)的擬合不準確;重復(fù)值可能會使模型過度擬合,從而影響模型的泛化能力。8.K均值算法的E值越小則簇內(nèi)樣本相似度越低A、正確B、錯誤答案:B解析:答案解析:在K均值算法中,E值(誤差平方和)越小,表示各個簇內(nèi)樣本點到其所在簇質(zhì)心的距離之和越小,說明簇內(nèi)樣本的相似度越高,數(shù)據(jù)的聚合程度越好9.神經(jīng)網(wǎng)絡(luò)算法不能用于數(shù)據(jù)降維A、正確B、錯誤答案:B解析:神經(jīng)網(wǎng)絡(luò)算法可以用于數(shù)據(jù)降維。它通過學(xué)習(xí)數(shù)據(jù)的特征表示,將高維數(shù)據(jù)映射到低維空間,從而實現(xiàn)數(shù)據(jù)降維。神經(jīng)網(wǎng)絡(luò)算法在數(shù)據(jù)降維方面具有一定的優(yōu)勢,可以自動學(xué)習(xí)數(shù)據(jù)的特征,并且能夠處理非線性數(shù)據(jù)。10.Bagging是并行式集成學(xué)習(xí)方法最著名的代表A、正確B、錯誤答案:A解析:答案解析:Bagging方法是通過對原始數(shù)據(jù)集進行有放回的抽樣,構(gòu)建多個訓(xùn)練集,然后基于每個訓(xùn)練集訓(xùn)練一個基學(xué)習(xí)器,最后將這些基學(xué)習(xí)器的預(yù)測結(jié)果進行集成。由于每個基學(xué)習(xí)器是獨立訓(xùn)練的,因此可以并行進行,提高了訓(xùn)練效率11.梯度下降法中梯度方向是函數(shù)值下降最快方向。A、正確B、錯誤答案:B解析:在梯度下降法中,梯度方向是函數(shù)值上升最快的方向,而負梯度方向才是函數(shù)值下降最快的方向。12.BP算法“喜新厭舊”,在學(xué)習(xí)新樣本后,會把舊樣本逐漸遺忘。A、正確B、錯誤答案:A13.KNN算法的基本思路是近朱者赤,近墨者黑A、正確B、錯誤答案:A解析:KNN算法的基本思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。這與“近朱者赤,近墨者黑”的思路相似,即一個樣本的類別可以根據(jù)其周圍的樣本類別來確定。14.AGNES算法分為單鏈接、全鏈接、均鏈接算法A、正確B、錯誤答案:A解析:答案解析:AGNES算法(層次聚類算法)確實包括單鏈接、全鏈接和均鏈接這幾種算法。單鏈接根據(jù)兩個類中距離最近的兩個樣本的距離來衡量類間距離;全鏈接根據(jù)兩個類中距離最遠的兩個樣本的距離來衡量;均鏈接則基于兩類中所有樣本對距離的平均值。15.流形學(xué)習(xí)是一種非線性的維數(shù)約簡方法A、正確B、錯誤答案:A解析:流形學(xué)習(xí)是一種非線性的維數(shù)約簡方法,它的基本思想是將高維數(shù)據(jù)映射到低維流形上,使得數(shù)據(jù)在低維空間中具有更好的表示和可視化效果。流形學(xué)習(xí)方法可以有效地處理高維數(shù)據(jù)中的非線性結(jié)構(gòu),并且在許多領(lǐng)域中得到了廣泛的應(yīng)用。16.輸出變量為連續(xù)變量的預(yù)測問題是分類問題A、正確B、錯誤答案:B17.Bagging只適用于二分類任務(wù)A、正確B、錯誤答案:B解析:Bagging是一種集成學(xué)習(xí)方法,它可以用于分類和回歸任務(wù),不僅僅適用于二分類任務(wù)。在分類任務(wù)中,Bagging可以通過組合多個基分類器的預(yù)測結(jié)果來提高整體的分類性能。對于多分類任務(wù),Bagging同樣可以應(yīng)用,只需要將每個基分類器的輸出轉(zhuǎn)換為對應(yīng)的類別概率或類別標簽即可。18.分類預(yù)測型任務(wù)從已分類的數(shù)據(jù)中學(xué)習(xí)模型,并對新的未知分類的數(shù)據(jù)使用該模型進行解釋,得到這些數(shù)據(jù)的分類。根據(jù)標簽的不同,分別稱為分類任務(wù)和預(yù)測任務(wù)。如果類標簽是連續(xù)的類別,稱為預(yù)測任務(wù)。A、正確B、錯誤答案:A解析:答案解析:在分類預(yù)測型任務(wù)中,通過對已有分類數(shù)據(jù)的學(xué)習(xí)構(gòu)建模型。對于新數(shù)據(jù),運用此模型進行分類或預(yù)測。當(dāng)類標簽為離散類別時是分類任務(wù),而當(dāng)類標簽為連續(xù)類別時則為預(yù)測任務(wù),這是此類任務(wù)的常見定義和分類方式19.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。A、正確B、錯誤答案:A解析:答案解析:在數(shù)據(jù)量較少的情況下,模型學(xué)習(xí)到的是數(shù)據(jù)中的細節(jié)和噪聲,而非普遍的規(guī)律和特征,這會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù),使其在面對新數(shù)據(jù)時表現(xiàn)不佳20.2.Bagging被譽為“代表集成學(xué)習(xí)技術(shù)水平的方法”A、正確B、錯誤答案:B解析:答案解析:雖然Bagging是一種集成學(xué)習(xí)方法,但它并非被譽為“代表集成學(xué)習(xí)技術(shù)水平的方法”。Boosting等其他集成學(xué)習(xí)方法在某些方面可能具有更突出的表現(xiàn)和優(yōu)勢21.隨機森林的訓(xùn)練效率通常低于BaggingA、正確B、錯誤答案:B解析:隨機森林是一種基于決策樹的集成學(xué)習(xí)算法,它通過隨機選擇特征和樣本進行訓(xùn)練,從而提高模型的泛化能力和預(yù)測準確性。與Bagging算法相比,隨機森林在訓(xùn)練過程中不需要進行多次抽樣,因此訓(xùn)練效率更高。22.預(yù)剪枝決策樹通常比后剪枝決策樹保留了更多的分支。A、正確B、錯誤答案:B解析:答案解析:后剪枝決策樹是在生成完整決策樹之后,根據(jù)一定的規(guī)則進行剪枝,所以通常會保留更多有用的分支。而預(yù)剪枝決策樹在生成過程中就提前進行剪枝,限制了決策樹的生長,往往會剪掉較多的分支23.決策樹是基于樹結(jié)構(gòu)來進行決策的,決策樹學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強的決策樹。A、正確B、錯誤答案:A解析:答案解析:決策樹通過對數(shù)據(jù)的分析構(gòu)建樹形結(jié)構(gòu),根據(jù)不同特征進行分支和判斷,從而實現(xiàn)決策。其核心目標就是生成一棵能夠在新數(shù)據(jù)上具有良好預(yù)測能力,即泛化能力強的決策樹,以準確地對未知情況做出合理決策24.“獨依賴估計”是半樸素貝葉斯分類器最常用的一種策略A、正確B、錯誤答案:A解析:半樸素貝葉斯分類器是一種在樸素貝葉斯分類器的基礎(chǔ)上進行改進的算法,它允許每個屬性在類別之外最多依賴一個其他屬性?!蔼氁蕾嚬烙嫛本褪前霕闼刎惾~斯分類器中最常用的一種策略,它假設(shè)每個屬性只依賴于一個其他屬性,這種假設(shè)在一定程度上放松了樸素貝葉斯分類器的條件獨立性假設(shè),提高了分類的準確性。25.機器學(xué)習(xí)方法傳統(tǒng)上可以分為2類?A、正確B、錯誤答案:B解析:機器學(xué)習(xí)方法傳統(tǒng)上可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)三類。26.KNN沒有顯示的訓(xùn)練過程,它在訓(xùn)練階段只是把數(shù)據(jù)保存下來,訓(xùn)練時間開銷為0,等收到測試樣本后進行處理。A、正確B、錯誤答案:A解析:KNN(K最近鄰)算法的訓(xùn)練過程實際上是將訓(xùn)練數(shù)據(jù)存儲起來,以便在測試階段使用。在訓(xùn)練階段,KNN算法不需要進行模型的學(xué)習(xí)或參數(shù)的調(diào)整,因此訓(xùn)練時間開銷為0。當(dāng)收到測試樣本時,KNN算法會計算測試樣本與訓(xùn)練數(shù)據(jù)中各個樣本的距離,并選擇距離最近的K個樣本。然后,根據(jù)這K個樣本的類別信息,通過投票等方式確定測試樣本的類別。27.在初始數(shù)據(jù)量足夠時,自助法比交叉驗證法更為常用。A、正確B、錯誤答案:B解析:自助法和交叉驗證法都是常用的模型評估和選擇方法。在初始數(shù)據(jù)量足夠的情況下,交叉驗證法更為常用,因為它可以更有效地利用數(shù)據(jù),并且可以更準確地評估模型的性能。自助法是一種通過有放回地抽樣來生成多個訓(xùn)練集和測試集的方法,它可以用于評估模型的穩(wěn)定性和泛化能力。但是,自助法需要更多的計算資源,并且可能會導(dǎo)致過擬合。交叉驗證法是一種將數(shù)據(jù)集分為多個子集,然后在每個子集上進行訓(xùn)練和測試的方法,它可以用于評估模型的性能和選擇最優(yōu)的模型參數(shù)。交叉驗證法可以有效地避免過擬合,并且可以更準確地評估模型的性能。因此,在初始數(shù)據(jù)量足夠時,交叉驗證法比自助法更為常用。28.在基于SGD隨機梯度下降算法的神經(jīng)網(wǎng)絡(luò)中,每次打亂數(shù)據(jù)是非常重要和必不可少A、正確B、錯誤答案:A解析:在基于SGD隨機梯度下降算法的神經(jīng)網(wǎng)絡(luò)中,每次打亂數(shù)據(jù)是非常重要和必不可少的。這是因為SGD是一種基于隨機抽樣的優(yōu)化算法,它通過不斷地從數(shù)據(jù)集中隨機抽取小批量數(shù)據(jù)來更新模型的參數(shù)。如果數(shù)據(jù)沒有被打亂,那么每次迭代時模型看到的數(shù)據(jù)集都是相同的,這可能會導(dǎo)致模型陷入局部最優(yōu)解。因此,為了確保SGD能夠有效地收斂到全局最優(yōu)解,每次迭代時都需要打亂數(shù)據(jù)集,以確保模型能夠看到不同的數(shù)據(jù)分布。29.硬投票計算出每個類別的平均估算概率,然后選出概率最高的類別。A、正確B、錯誤答案:B解析:硬投票是指在集成學(xué)習(xí)中,通過多個模型的投票結(jié)果來確定最終的分類結(jié)果。它并不是計算每個類別的平均估算概率,而是直接統(tǒng)計每個模型對每個類別的投票數(shù)量,最終選擇投票數(shù)量最多的類別作為最終的分類結(jié)果。30.分類是預(yù)測數(shù)據(jù)對象的離散類別,預(yù)測是用于數(shù)據(jù)對象的連續(xù)取值A(chǔ)、正確B、錯誤答案:A解析:分類和預(yù)測是兩種數(shù)據(jù)分析任務(wù)。分類的目的是將數(shù)據(jù)對象劃分到不同的離散類別中,每個類別都有明確的定義和邊界。預(yù)測則是根據(jù)已知的數(shù)據(jù)對象及其特征,預(yù)測未知數(shù)據(jù)對象的連續(xù)取值。例如,根據(jù)學(xué)生的成績、學(xué)習(xí)時間等特征,將學(xué)生分為優(yōu)秀、良好、中等、及格和不及格等不同的類別,這是分類任務(wù);根據(jù)歷史房價數(shù)據(jù)預(yù)測未來房價的走勢,這是預(yù)測任務(wù)。31.支持向量是最靠近決策表面的數(shù)據(jù)點A、正確B、錯誤答案:A解析:答案解析:在支持向量機中,支持向量是那些距離決策表面最近的樣本點。這些點對于確定決策表面的位置和方向起著關(guān)鍵作用32.概率模型的訓(xùn)練過程就是參數(shù)估計的過程A、正確B、錯誤答案:A解析:概率模型是一種基于概率理論的數(shù)學(xué)模型,用于描述隨機現(xiàn)象的概率分布。在概率模型中,參數(shù)是描述概率分布的關(guān)鍵因素,例如正態(tài)分布的均值和方差、泊松分布的均值等。訓(xùn)練概率模型的目的是通過對數(shù)據(jù)的學(xué)習(xí)和分析,估計出模型的參數(shù),從而確定概率分布的具體形式。這個過程通常涉及到使用最大似然估計、貝葉斯估計等方法來估計參數(shù)的值。33.BP算法的正向傳播是為獲取訓(xùn)練誤差。A、正確B、錯誤答案:A解析:BP算法的正向傳播過程是將輸入數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)的各個層進行計算,得到輸出結(jié)果。在這個過程中,并沒有直接獲取訓(xùn)練誤差。訓(xùn)練誤差是通過比較神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果與實際標簽之間的差異來計算的。在正向傳播之后,需要進行反向傳播,通過計算誤差對神經(jīng)網(wǎng)絡(luò)的權(quán)重進行調(diào)整,以減小誤差。34.BP算法的反向傳播是為了對權(quán)值進行調(diào)整。A、正確B、錯誤答案:A解析:BP算法(BackpropagationAlgorithm)是一種常用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法。在BP算法中,反向傳播的目的是根據(jù)網(wǎng)絡(luò)的輸出誤差來調(diào)整網(wǎng)絡(luò)中的權(quán)值,使得網(wǎng)絡(luò)的輸出逐漸逼近期望的輸出。在正向傳播過程中,輸入信號通過網(wǎng)絡(luò)的各個層,經(jīng)過計算得到輸出結(jié)果。然后,將輸出結(jié)果與期望的輸出進行比較,得到誤差。在反向傳播過程中,誤差信號從輸出層開始,逐層向前傳播,并根據(jù)誤差信號對權(quán)值進行調(diào)整。具體來說,對于每一個神經(jīng)元,根據(jù)其連接的前一層神經(jīng)元的輸出和誤差信號,計算出該神經(jīng)元的誤差項,并根據(jù)誤差項對該神經(jīng)元的權(quán)值進行調(diào)整。通過不斷地進行正向傳播和反向傳播,網(wǎng)絡(luò)的權(quán)值逐漸調(diào)整,使得網(wǎng)絡(luò)的輸出誤差逐漸減小,最終達到訓(xùn)練的目的。35.邏輯回歸是一個回歸模型A、正確B、錯誤答案:B解析:邏輯回歸雖然名稱中有“回歸”,但實際上它是一種分類模型,用于預(yù)測離散的類別標簽。它通過建立輸入特征與輸出類別之間的線性關(guān)系,來對新的數(shù)據(jù)進行分類預(yù)測。36.訓(xùn)練算法的目的就是要讓模型擬合訓(xùn)練數(shù)據(jù)A、正確B、錯誤答案:B解析:答案解析:訓(xùn)練算法的目的并非僅僅是讓模型擬合訓(xùn)練數(shù)據(jù),而是要讓模型具有良好的泛化能力,能夠?qū)π碌摹⑽丛娺^的數(shù)據(jù)進行準確的預(yù)測和處理。如果只是一味擬合訓(xùn)練數(shù)據(jù),可能會導(dǎo)致過擬合,模型在面對新數(shù)據(jù)時表現(xiàn)不佳37.無監(jiān)督學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是聚類A、正確B、錯誤答案:A解析:答案解析:在無監(jiān)督學(xué)習(xí)中,聚類是一種常見且重要的方法。它通過對數(shù)據(jù)的內(nèi)在特征和模式進行分析,將相似的數(shù)據(jù)點歸為一類,無需事先給定類別標簽。由于其能夠自動發(fā)現(xiàn)數(shù)據(jù)中的分組結(jié)構(gòu)和潛在模式,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)經(jīng)濟發(fā)展戰(zhàn)略研究報告與手冊
- 兼職勞務(wù)合同
- 企業(yè)內(nèi)部培訓(xùn)及人才招聘合作協(xié)議
- 娛樂行業(yè)活動參與風(fēng)險告知及免責(zé)協(xié)議
- 個性化兒童用品開發(fā)及其銷售模式創(chuàng)新研究項目
- 電氣維修操作指南
- 2025年消防工程三方合同范文
- 銷售客服工作職責(zé)范文(2篇)
- 2024年幼兒園中班班級安全工作計劃范文(2篇)
- 中學(xué)食堂辦食堂采購制度(2篇)
- GB/T 1446-2005纖維增強塑料性能試驗方法總則
- 透水混凝土工程檢驗批質(zhì)量驗收記錄表
- 2023年中荊投資控股集團有限公司招聘筆試模擬試題及答案解析
- DPP-4抑制劑的臨床應(yīng)用及優(yōu)勢解析課件
- 《起重吊裝方案編制》課件
- 光伏扶貧項目可行性研究報告
- 鈑金沖壓件質(zhì)量要求
- 2022年高考全國甲卷語文試題評講課件55張
- 欠條(標準模版)
- 深圳京基·KKmall市場考察報告(45頁
- 國家開放大學(xué)電大本科《西方社會學(xué)》2023-2024期末試題及答案(試卷代號:1296)
評論
0/150
提交評論