機(jī)器學(xué)習(xí)面試題目_第1頁
機(jī)器學(xué)習(xí)面試題目_第2頁
機(jī)器學(xué)習(xí)面試題目_第3頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別有監(jiān)督學(xué)習(xí): 對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí), 以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù) 測。(LR,SVM,BP,RF,GBDT) 無監(jiān)督學(xué)習(xí):對未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識(shí)。 (KMeans,DL)2、正則化正則化是針對過擬合而提出的, 以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗(yàn)風(fēng)險(xiǎn), 現(xiàn)在在 該經(jīng)驗(yàn)風(fēng)險(xiǎn)上加入模型復(fù)雜度這一項(xiàng)(正則化項(xiàng)是模型參數(shù)向量的范數(shù)) ,并使用一個(gè) rate 比率來權(quán)衡模型復(fù)雜度與以往經(jīng)驗(yàn)風(fēng)險(xiǎn)的權(quán)重, 如果模型復(fù)雜度越高, 結(jié)構(gòu)化的經(jīng)驗(yàn)風(fēng)險(xiǎn)會(huì) 越大, 現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗(yàn)風(fēng)險(xiǎn)的最優(yōu)化, 可以防止模型訓(xùn)練過度復(fù)雜

2、, 有效的降 低過擬合的風(fēng)險(xiǎn)。奧卡姆剃刀原理,能夠很好的解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。過擬合如果一味的去提高訓(xùn)練數(shù)據(jù)的預(yù)測能力, 所選模型的復(fù)雜度往往會(huì)很高, 這種現(xiàn)象稱為過擬 合。所表現(xiàn)的就是模型訓(xùn)練時(shí)候的誤差很小,但在測試的時(shí)候誤差很大。產(chǎn)生的原因過擬合原因:1. 樣本數(shù)據(jù)的問題。樣本數(shù)量太少;抽樣方法錯(cuò)誤, 抽出的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景。 比如樣本符合正態(tài) 分布,卻按均分分布抽樣,或者樣本數(shù)據(jù)不能代表整體數(shù)據(jù)的分布;樣本里的噪音數(shù)據(jù)干擾過大2. 模型問題模型復(fù)雜度高 、參數(shù)太多決策樹模型沒有剪枝權(quán)值學(xué)習(xí)迭代次數(shù)足夠多 (Overtraining), 擬合了訓(xùn)

3、練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒有代表性 的特征 .解決方法1. 樣本數(shù)據(jù)方面。增加樣本數(shù)量,對樣本進(jìn)行降維,添加驗(yàn)證數(shù)據(jù)抽樣方法要符合業(yè)務(wù)場景清洗噪聲數(shù)據(jù)2. 模型或訓(xùn)練問題 控制模型復(fù)雜度,優(yōu)先選擇簡單的模型,或者用模型融合技術(shù)。利用先驗(yàn)知識(shí),添加正則項(xiàng)。 L1 正則更加容易產(chǎn)生稀疏解、 L2 正則傾向于讓參數(shù) w 趨向于 0.4、交叉驗(yàn)證不要過度訓(xùn)練,最優(yōu)化求解時(shí),收斂之前停止迭代。決策樹模型沒有剪枝權(quán)值衰減5、泛化能力泛化能力是指模型對未知數(shù)據(jù)的預(yù)測能力6、生成模型和判別模型1. 生成模型:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后求出條件概率分布 P(Y|X)作為預(yù)測的模型,即生成模型:

4、P(Y|X)= P(X,Y)/ P(X。)(樸素貝葉斯、 Kmeans) 生成模型可以還原聯(lián)合概率分布 p(X,Y),并且有較快的學(xué)習(xí)收斂速度,還可以用于隱變量的 學(xué)習(xí)2. 判別模型:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù) Y=f(X)或者條件概率分布 P(Y|X)作為預(yù)測的模型,即 判別模型。( k 近鄰、決策樹、 SVM) 直接面對預(yù)測,往往準(zhǔn)確率較高,直接對數(shù)據(jù)在各種程度上的抽象,所以可以簡化模型7、線性分類器與非線性分類器的區(qū)別以及優(yōu)劣 如果模型是參數(shù)的線性函數(shù),并且存在線性分類面,那么就是線性分類器,否則不是。 常見的線性分類器有: LR,貝葉斯分類,單層感知機(jī)、線性回歸 常見的非線性分類器:決策樹

5、、 RF、 GBDT、多層感知機(jī)SVM 兩種都有 (看線性核還是高斯核 ) 線性分類器速度快、編程方便,但是可能擬合效果不會(huì)很好 非線性分類器編程復(fù)雜,但是效果擬合能力強(qiáng)8、特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類器? 線性分類器, 因?yàn)榫S度高的時(shí)候, 數(shù)據(jù)一般在維度空間里面會(huì)比較稀疏, 很有可能線性可分 對于維度很高的特征,你是選擇線性還是非線性分類器? 理由同上 對于維度極低的特征,你是選擇線性還是非線性分類器? 非線性分類器,因?yàn)榈途S空間可能很多特征都跑到一起了,導(dǎo)致線性不可分1. 如果 Feature 的數(shù)量很大, 跟樣本數(shù)量差不多, 這時(shí)候選用 LR 或者是 Linear Kernel

6、的 SVM2. 如果 Feature 的數(shù)量比較小, 樣本數(shù)量一般, 不算大也不算小, 選用 SVM+Gaussian Kernel3. 如果 Feature 的數(shù)量比較小,而樣本數(shù)量很多,需要手工添加一些 feature 變成第一種情 況9、ill-condition 病態(tài)問題 訓(xùn)練完的模型測試樣本稍作修改就會(huì)得到差別很大的結(jié)果, 就是病態(tài)問題 (這簡直是不能用 啊)10、 L1和 L2正則的區(qū)別,如何選擇 L1和 L2正則 /article/details/他們都是可以防止過擬合,降低模型復(fù)雜度L1 是在 loss function 后面加上 模型參數(shù)的 1 范數(shù)(也就是 |xi| )L2

7、 是在 loss function 后面加上 模型參數(shù)的 2 范數(shù)(也就是 sigma(xi2) ),注意 L2 范數(shù)的定 義是 sqrt(sigma(xi2) ,在正則項(xiàng)上沒有添加 sqrt 根號(hào)是為了更加容易優(yōu)化L1 會(huì)產(chǎn)生稀疏的特征L2 會(huì)產(chǎn)生更多地特征但是都會(huì)接近于 0L1 會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而 L2會(huì)選擇更多的特征,這些特征都會(huì)接近于 0。L1 在特征選擇時(shí)候非常有用,而 L2 就只是一種規(guī)則化而已。L1求解最小角回歸算法: LARS算法11、越小的參數(shù)說明模型越簡單過擬合的, 擬合會(huì)經(jīng)過曲面的每個(gè)點(diǎn), 也就是說在較小的區(qū)間里面可能會(huì)有較大的曲率, 這 里的

8、導(dǎo)數(shù)就是很大,線性模型里面的權(quán)值就是導(dǎo)數(shù),所以越小的參數(shù)說明模型越簡單。12、為什么一些機(jī)器學(xué)習(xí)模型需要對數(shù)據(jù)進(jìn)行歸一化?/article/details/歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后 (通過某種算法) 限制在你需要的一定范圍 內(nèi)。1) 歸一化后加快了梯度下降求最優(yōu)解的速度。等高線變得顯得圓滑,在梯度下降進(jìn)行求解 時(shí)能較快的收斂。如果不做歸一化,梯度下降過程容易走之字,很難收斂甚至不能收斂2) 把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式 , 有可能提高精度。一些分類器需要計(jì)算樣本之間的 距離(如歐氏距離) ,例如 KNN。如果一個(gè)特征值域范圍非常大,那么距離計(jì)算就主要取決 于這個(gè)特征,從而與

9、實(shí)際情況相悖(比如這時(shí)實(shí)際情況是值域范圍小的特征更重要)3) 邏輯回歸等模型先驗(yàn)假設(shè)數(shù)據(jù)服從正態(tài)分布。 哪些機(jī)器學(xué)習(xí)算法不需要做歸一化處理? 概率模型不需要?dú)w一化, 因?yàn)樗鼈儾魂P(guān)心變量的值, 而是關(guān)心變量的分布和變量之間的條件 概率,如決策樹、 rf。而像 adaboost、gbdt、xgboost、svm、lr、KNN、KMeans 之類的最優(yōu) 化問題就需要?dú)w一化。特征向量的歸一化方法線性函數(shù)轉(zhuǎn)換,表達(dá)式如下: y=(x-MinValue)/(MaxValue-MinValue) 對數(shù)函數(shù)轉(zhuǎn)換,表達(dá)式如下: y=log10 (x)反余切函數(shù)轉(zhuǎn)換 ,表達(dá)式如下: y=arctan(x)*2/P

10、I減去均值,乘以方差: y=(x-means)/ variance標(biāo)準(zhǔn)化與歸一化的區(qū)別 簡單來說,標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),其通過求 z-score 的方法,將樣本的特征 值轉(zhuǎn)換到同一量綱下。 歸一化是依照特征矩陣的行處理數(shù)據(jù), 其目的在于樣本向量在點(diǎn)乘運(yùn) 算或其他核函數(shù)計(jì)算相似性時(shí),擁有統(tǒng)一的標(biāo)準(zhǔn),也就是說都轉(zhuǎn)化為“單位向量” 。規(guī)則為 l2 的歸一化公式如下:13、特征向量的缺失值處理1. 缺失值較多 .直接將該特征舍棄掉, 否則可能反倒會(huì)帶入較大的 noise,對結(jié)果造成不良影 響。2. 缺失值較少 ,其余的特征缺失值都在 10%以內(nèi),我們可以采取很多的方式來處理:1) 把 Na

11、N 直接作為一個(gè)特征,假設(shè)用 0 表示;2) 用均值填充;3) 用隨機(jī)森林等算法預(yù)測填充隨機(jī)森林如何處理缺失值( /03/Random-Forest-Tricks/)方法一( na.roughfix )簡單粗暴,對于訓(xùn)練集 ,同一個(gè) class下的數(shù)據(jù),如果是分類變量缺失, 用眾數(shù)補(bǔ)上,如果是連續(xù)型變量缺失,用中位數(shù)補(bǔ)。方法二( rfImpute )這個(gè)方法計(jì)算量大,至于比方法一好壞?不好判斷。先用 na.roughfix 補(bǔ) 上缺失值,然后構(gòu)建森林并計(jì)算 proximity matrix ,再回頭看缺失值,如果是分類變量,則用 沒有缺失的觀測實(shí)例的 proximity 中的權(quán)重進(jìn)行投票。如果

12、是連續(xù)型變量,則用 proximity 矩 陣進(jìn)行加權(quán)平均的方法補(bǔ)缺失值。然后迭代 4-6 次,這個(gè)補(bǔ)缺失值的思想和 KNN 有些類似 12。隨機(jī)森林如何評估特征重要性( /03/Random-Forest-Tricks/) 衡量變量重要性的方法有兩種, Decrease GINI 和 Decrease Accuracy:1) Decrease GINI: 對于回歸問題,直接使用 argmax(Var?VarLeft?VarRight)作為評判標(biāo)準(zhǔn),即 當(dāng)前節(jié)點(diǎn)訓(xùn)練集的方差 Var 減去左節(jié)點(diǎn)的方差 VarLeft 和右節(jié)點(diǎn)的方差 VarRight。2) Decrease Accuracy:對

13、于一棵樹 Tb(x),我們用 OOB 樣本可以得到測試誤差 1;然后隨機(jī)改 變 OOB樣本的第 j 列: 保持其他列不變, 對第 j 列進(jìn)行隨機(jī)的上下置換, 得到誤差 2。至此, 我們可以用誤差 1-誤差 2來刻畫變量 j 的重要性。基本思想就是, 如果一個(gè)變量 j 足夠重要, 那么改變它會(huì)極大的增加測試誤差; 反之, 如果改變它測試誤差沒有增大, 則說明該變量不 是那么的重要。14、優(yōu)化 Kmeans使用 kd 樹或者 ball tree( 這個(gè)樹不懂 )將所有的觀測實(shí)例構(gòu)建成一顆 kd 樹,之前每個(gè)聚類中心都是需要和每個(gè)觀測點(diǎn)做依次距離 計(jì)算,現(xiàn)在這些聚類中心根據(jù) kd 樹只需要計(jì)算附近的

14、一個(gè)局部區(qū)域即可KMeans 初始類簇中心點(diǎn)的選取k-means+算法選擇初始 seeds 的基本思想就是:初始的聚類中心之間的相互距離要盡可能 的遠(yuǎn)。1. 從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心2. 對于數(shù)據(jù)集中的每一個(gè)點(diǎn) x,計(jì)算它與最近聚類中心 (指已選擇的聚類中心 )的距離 D(x)3. 選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心, 選擇的原則是: D(x)較大的點(diǎn), 被選取作為聚類 中心的概率較大4. 重復(fù) 2 和 3 直到 k 個(gè)聚類中心被選出來5. 利用這 k 個(gè)初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means 算法15、解釋對偶的概念 一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察,一個(gè)是

15、primal 問題,一個(gè)是 dual 問題,就是對偶 問題,一般情況下對偶問題給出主問題最優(yōu)值的下界, 在強(qiáng)對偶性成立的情況下由對偶問題 可以得到主問題的最優(yōu)下界,對偶問題是凸優(yōu)化問題,可以進(jìn)行較好的求解,SVM 中就是將 primal 問題轉(zhuǎn)換為 dual 問題進(jìn)行求解,從而進(jìn)一步引入核函數(shù)的思想。16、如何進(jìn)行特征選擇? 特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程, 主要有兩個(gè)原因:一是減少特征數(shù)量、降維, 使模 型泛化能力更強(qiáng),減少過擬合 ; 二是增強(qiáng)對特征和特征值之間的理解常見的特征選擇方式:1. 去除方差較小的特征2. 正則化。 1 正則化能夠生成稀疏的模型。 L2 正則化的表現(xiàn)更加穩(wěn)定,由

16、于有用的特征往 往對應(yīng)系數(shù)非零。3. 隨機(jī)森林,對于分類問題,通常采用基尼不純度或者信息增益,對于回歸問題,通常采 用的是方差或者最小二乘擬合。一般不需要 feature engineering 、調(diào)參等繁瑣的步驟。它的 兩個(gè)主要問題, 1 是重要的特征有可能得分很低 (關(guān)聯(lián)特征問題) ,2 是這種方法對特征變量 類別多的特征越有利(偏向問題) 。4. 穩(wěn)定性選擇。是一種基于二次抽樣和選擇算法相結(jié)合較新的方法,選擇算法可以是回歸、SVM 或其他類似的方法。它的主要思想是在不同的數(shù)據(jù)子集和特征子集上運(yùn)行特征選擇算 法,不斷的重復(fù), 最終匯總特征選擇結(jié)果, 比如可以統(tǒng)計(jì)某個(gè)特征被認(rèn)為是重要特征的頻

17、率 (被選為重要特征的次數(shù)除以它所在的子集被測試的次數(shù)) 。理想情況下,重要特征的得分 會(huì)接近 100%。稍微弱一點(diǎn)的特征得分會(huì)是非 0 的數(shù),而最無用的特征得分將會(huì)接近于0。17、數(shù)據(jù)預(yù)處理1. 缺失值,填充缺失值 fillna :i. 離散: None,ii. 連續(xù):均值。iii. 缺失值太多,則直接去除該列2. 連續(xù)值:離散化。有的模型(如決策樹)需要離散值3. 對定量特征二值化。 核心在于設(shè)定一個(gè)閾值, 大于閾值的賦值為 1,小于等于閾值的賦值 為 0。如圖像操作4. 皮爾遜相關(guān)系數(shù),去除高度相關(guān)的列#correlation matrixcorrmat = df_train.corr(

18、)f, ax = plt.subplots(figsize=(12, 9)sns.heatmap(corrmat, vmax=.8, square=True);1. 去除噪聲點(diǎn)。 通過 matplotlib.scatter 函數(shù)圖示某一特征與預(yù)測特征的點(diǎn)分布圖, 明顯看出 噪聲點(diǎn),去除即可#bivariate analysis saleprice/grlivareavar = GrLivAreadata = pd.concat(df_trainSalePrice, df_trainvar, axis=1), y=SalePrice, ylim=(0,800000);df_train.sort_

19、values(by = GrLivArea, ascending = False):2df_train = df_train.drop(df_traindf_trainId = 1299.index)df_train = df_train.drop(df_traindf_trainId = 524.index)1. 標(biāo)簽編碼,把字符類別特征編碼成數(shù)值類型,如紅綠藍(lán)編碼為0、1、22. 歸一化。將數(shù)據(jù)按比例縮放,使這些數(shù)據(jù)落入到一個(gè)較小的特定的區(qū)間之內(nèi)。 最小最大縮放:當(dāng)使用基于距離的算法時(shí), 我們必須嘗試將數(shù)據(jù)縮放, 這樣較不重要的特征不會(huì)因?yàn)樽陨磔^ 大的范圍而主導(dǎo)目標(biāo)函數(shù)。如 KNN。在邏輯

20、回歸中, 每個(gè)特征都被分配了權(quán)重或系數(shù) (Wi) 。如果某個(gè)特征有相對來說比較大的范 圍,而且其在目標(biāo)函數(shù)中無關(guān)緊要, 那么邏輯回歸模型自己就會(huì)分配一個(gè)非常小的值給它的 系數(shù),從而中和該特定特征的影響優(yōu)勢,而基于距離的方法,如KNN,沒有這樣的內(nèi)置策略,因此需要縮放。Z-score 標(biāo)準(zhǔn)化 : 很多的機(jī)器學(xué)習(xí)技巧 /模型(例如 L1, L2正則項(xiàng),向量空間模型 -Vector Space Model,歐幾 里得距離測量的 KNN、 k-均值、 SVM、感知器、神經(jīng)網(wǎng)絡(luò)、線性判別分析、主成分分析)都 基于這樣的假設(shè): 所有的屬性取值都差不多是以 0 為均值且取值范圍相近的, 標(biāo)準(zhǔn)化數(shù)據(jù)幫 助我們

21、提高預(yù)測模型的精度。備注:在縮放和標(biāo)準(zhǔn)化中二選一是個(gè)令人困惑的選擇, 你必須對數(shù)據(jù)和要使用的學(xué)習(xí)模型有 更深入的理解, 才能做出決定。 對于初學(xué)者, 你可以兩種方法都嘗試下并通過交叉驗(yàn)證精度 來做出選擇。18、什么是偏差與方差? 泛化誤差可以分解成偏差的平方加上方差加上噪聲。 偏差度量了學(xué)習(xí)算法的期望預(yù)測和真實(shí) 結(jié)果的偏離程度, 刻畫了學(xué)習(xí)算法本身的擬合能力, 方差度量了同樣大小的訓(xùn)練集的變動(dòng)所 導(dǎo)致的學(xué)習(xí)性能的變化, 刻畫了數(shù)據(jù)擾動(dòng)所造成的影響, 噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算 法所能達(dá)到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias 和variance,一般訓(xùn)練程度越

22、強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個(gè)最小值, 如果偏差較大,方差較小,此時(shí)一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。偏差: 解決 bias 和 Variance 問題的方法:交叉驗(yàn)證High bias解決方案 :Boosting 、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征High Variance 解決方案: agging、簡化模型、降維19、采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?用 EM 算法求解的模型一般有 GMM 或者協(xié)同過濾, k-means 其實(shí)也屬于 EM。EM 算法一定 會(huì)收斂, 但是可能收斂到局部最優(yōu)。 由于求和的項(xiàng)數(shù)將隨

23、著隱變量的數(shù)目指數(shù)上升, 會(huì)給梯 度計(jì)算帶來麻煩。20、 SVM、LR、決策樹的對比?模型復(fù)雜度: SVM 支持核函數(shù),可處理線性非線性問題 ;LR模型簡單,訓(xùn)練速度快,適合處 理線性問題 ;決策樹容易過擬合,需要進(jìn)行剪枝損失函數(shù): SVM hinge loss; LR L2正則化 ; adaboost 指數(shù)損失數(shù)據(jù)敏感度: SVM 添加容忍度對 outlier 不敏感,只關(guān)心支持向量,且需要先做歸一化; LR對遠(yuǎn)點(diǎn)敏感數(shù)據(jù)量:數(shù)據(jù)量大就用 LR,數(shù)據(jù)量小且特征少就用 SVM 非線性核21、 GBDT 和隨機(jī)森林的區(qū)別? 隨機(jī)森林采用的是 bagging 的思想, bagging 又稱為 bo

24、otstrap aggreagation ,通過在訓(xùn)練樣本 集中進(jìn)行有放回的采樣得到多個(gè)采樣集, 基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器, 再將基學(xué)習(xí) 器結(jié)合。隨機(jī)森林在對決策樹進(jìn)行 bagging 的基礎(chǔ)上,在決策樹的訓(xùn)練過程中引入了隨機(jī)屬 性選擇。 傳統(tǒng)決策樹在選擇劃分屬性的時(shí)候是在當(dāng)前節(jié)點(diǎn)屬性集合中選擇最優(yōu)屬性, 而隨機(jī) 森林則是對結(jié)點(diǎn)先隨機(jī)選擇包含k 個(gè)屬性的子集,再選擇最有屬性, k 作為一個(gè)參數(shù)控制了隨機(jī)性的引入程度。另外, GBDT訓(xùn)練是基于 Boosting 思想,每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重,因此是串行生 成的序列化方法,而隨機(jī)森林是 bagging 的思想,因此是并行化方法。2

25、2、 xgboost怎么給特征評分?在訓(xùn)練的過程中,通過 Gini 指數(shù)選擇分離點(diǎn)的特征,一個(gè)特征被選中的次數(shù)越多,那么該 特征評分越高。python view plain copy print?1. # feature importance2. print(model.feature_importances_)3. # plot4. pyplot.bar(range(len(model.feature_importances_), model.feature_importances_)5. pyplot.show()6. =7. # plot feature importance8. plo

26、t_importance(model)9. pyplot.show()# feature importance print(model.feature_importances_)# plot pyplot.bar(range(len(model.feature_importances_), model.feature_importances_) pyplot.show() # plot feature importance plot_importance(model) pyplot.show()23、什么是 OOB?隨機(jī)森林中 OOB 是如何計(jì)算的,它有什么優(yōu)缺點(diǎn)?bagging 方法中 Bo

27、otstrap 每次約有 1/3 的樣本不會(huì)出現(xiàn)在 Bootstrap 所采集的樣本集合中, 當(dāng) 然也就沒有參加決策樹的建立,把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù) oob( out of bag ),它可以用于取代測試集誤差估計(jì)方法。袋外數(shù)據(jù) (oob) 誤差的計(jì)算方法如下:對于已經(jīng)生成的隨機(jī)森林 ,用袋外數(shù)據(jù)測試其性能 ,假設(shè)袋外數(shù)據(jù)總數(shù)為 O,用這 O 個(gè)袋外數(shù)據(jù) 作為輸入 ,帶進(jìn)之前已經(jīng)生成的隨機(jī)森林分類器,分類器會(huì)給出 O個(gè)數(shù)據(jù)相應(yīng)的分類 ,因?yàn)檫@ O條數(shù)據(jù)的類型是已知的 ,則用正確的分類與隨機(jī)森林分類器的結(jié)果進(jìn)行比較,統(tǒng)計(jì)隨機(jī)森林分類器分類錯(cuò)誤的數(shù)目 ,設(shè)為 X,則袋外數(shù)據(jù)誤差大小 =X/O

28、;這已經(jīng)經(jīng)過證明是無偏估計(jì)的 ,所以 在隨機(jī)森林算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測試集來獲取測試集誤差的無偏估計(jì)。24、解釋置信區(qū)間置信區(qū)間不能用貝葉斯學(xué)派的概率來描述, 它屬于頻率學(xué)派的范疇。 真值要么在, 要么不在。 由于在頻率學(xué)派當(dāng)中,真值是一個(gè)常數(shù),而非隨機(jī)變量(后者是貝葉斯學(xué)派),所以我們不對真值做概率描述。比如, 95%置信區(qū)間,并不是真值在這個(gè)區(qū)間內(nèi)的概率是95%,而應(yīng)該為 100 次隨機(jī)抽樣中構(gòu)造的 100 個(gè)區(qū)間如果 95 次包含了參數(shù)真值,那么置信度為95%。25、監(jiān)督學(xué)習(xí)一般使用兩種類型的目標(biāo)變量:標(biāo)稱型和數(shù)值型 標(biāo)稱型:標(biāo)稱型目標(biāo)變量的結(jié)果只在有限目標(biāo)集中取值,如真

29、與假(標(biāo)稱型目標(biāo)變量主要用于分類 )數(shù)值型:數(shù)值型目標(biāo)變量則可以從無限的數(shù)值集合中取值,如0.100, 42.001 等 (數(shù)值型目標(biāo)變量主要用于回歸分析 )26、為什么說樸素貝葉斯是高偏差低方差? 它簡單的假設(shè)了各個(gè)特征之間是無關(guān)的, 是一個(gè)被嚴(yán)重簡化了的模型。 所以, 對于這樣一個(gè) 簡單模型,大部分場合都會(huì) bias 部分大于 variance 部分,也就是高偏差,低方差1. 什么是機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)是為了應(yīng)對系統(tǒng)程序設(shè)計(jì), 屬于計(jì)算機(jī)科學(xué)類的學(xué)科, 它能根據(jù)經(jīng)驗(yàn)進(jìn)行自動(dòng)學(xué)習(xí) 和提高。例如: 一個(gè)由程序操縱的機(jī)器人,它能根據(jù)從傳感器搜集到的數(shù)據(jù),完成一系列的 任務(wù)和工作。它能根據(jù)數(shù)據(jù)自動(dòng)地

30、學(xué)習(xí)應(yīng)用程序。2. 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別 機(jī)器語言是指在沒有明確的程序指令的情況下,給予計(jì)算機(jī)學(xué)習(xí)能力,使它能自主的學(xué)習(xí)、 設(shè)計(jì)和擴(kuò)展相關(guān)算法。 數(shù)據(jù)挖掘則是一種從非結(jié)構(gòu)化數(shù)據(jù)里面提取知識(shí)或者未知的、 人們感 興趣的圖片。在這個(gè)過程中應(yīng)用了機(jī)器學(xué)習(xí)算法。3. 什么是機(jī)器學(xué)習(xí)的過度擬合現(xiàn)象在機(jī)器學(xué)習(xí)中, 當(dāng)一個(gè)統(tǒng)計(jì)模型首先描述隨機(jī)誤差或噪聲, 而不是自身的基本關(guān)系時(shí), 過度 擬合就會(huì)出現(xiàn)。 當(dāng)一個(gè)模型是過于復(fù)雜, 過擬合通常容易被發(fā)現(xiàn), 因?yàn)橄鄬τ谟?xùn)練數(shù)據(jù)類型 的數(shù)量,參數(shù)的數(shù)量過于五花八門。那么這個(gè)模型由于過度擬合而效果不佳。4. 過度擬合產(chǎn)生的原因 由于用于訓(xùn)練模型的標(biāo)準(zhǔn)并不等同于判斷模

31、型效率的標(biāo)準(zhǔn),這導(dǎo)致了產(chǎn)生過度擬合的可能 性。因此使用較大的數(shù)據(jù)量能避免 可以使用被稱為交叉驗(yàn)證的 測試數(shù)據(jù)集只測試模型, 而在5. 如何避免過度擬合 當(dāng)你使用較小的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)時(shí), 容易產(chǎn)生過度擬合, 過度擬合現(xiàn)象。 但是, 當(dāng)你不得不使用小型數(shù)據(jù)集進(jìn)行建模時(shí), 技術(shù)。 在這種方法中數(shù)據(jù)集被分成兩節(jié), 測試和訓(xùn)練數(shù)據(jù)集, 訓(xùn)練數(shù)據(jù)集中,數(shù)據(jù)點(diǎn)被用來建模。在該技術(shù)中,一個(gè)模型通常是被給定有先驗(yàn)知識(shí)的數(shù)據(jù)集 (訓(xùn)練數(shù)據(jù)集)進(jìn)行訓(xùn)練,沒有先 驗(yàn)知識(shí)的數(shù)據(jù)集進(jìn)行測試。 交叉驗(yàn)證的思想是: 在訓(xùn)練階段, 定義一個(gè)數(shù)據(jù)集用來測試模型。6. 什么是感應(yīng)式的機(jī)器學(xué)習(xí)?感應(yīng)機(jī)器學(xué)習(xí)涉及由實(shí)踐進(jìn)行學(xué)習(xí)的過

32、程, 能從一組可觀測到的例子的嘗試推導(dǎo)出普遍性規(guī) 則。7. 什么是機(jī)器學(xué)習(xí)的五個(gè)流行的算法?1. 決策樹 2. 神經(jīng)網(wǎng)絡(luò)(反向傳播) 3. 概率網(wǎng)絡(luò) 4.最鄰近法 5. 支持向量機(jī)8. 機(jī)器學(xué)習(xí)有哪些不同的算法技術(shù)?在機(jī)器學(xué)習(xí)不同類型的算法技術(shù)是:1. 監(jiān)督學(xué)習(xí) 2.非監(jiān)督學(xué)習(xí) 3. 半監(jiān)督學(xué)習(xí) 4. 轉(zhuǎn)導(dǎo)推理( Transduction )5.學(xué)習(xí)推理( Learning to Learn )。9. 在機(jī)器學(xué)習(xí)中,建立假設(shè)或者模型的三個(gè)階段指的是什么?1.建模 2.模型測試 3.模型應(yīng)用。10. 什么是監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法? 監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法是將一組示例數(shù)據(jù)的分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。11

33、. 什么是訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集? 在類似于機(jī)器學(xué)習(xí)的各個(gè)信息科學(xué)相關(guān)領(lǐng)域中, 一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預(yù)測關(guān)系, 稱為 “訓(xùn)練數(shù)據(jù)集” 。訓(xùn)練數(shù)據(jù)集是提供給學(xué)習(xí)者的案例,而試驗(yàn)數(shù)據(jù)集是用于測試由學(xué)習(xí)者提 出的假設(shè)關(guān)系的準(zhǔn)確度。12. 下面列出機(jī)器學(xué)習(xí)的各種方法? 機(jī)器學(xué)習(xí)的各種方法如下“ 1.概念與分類學(xué)習(xí)( Concept Vs Classification Learning)。2.符號(hào)與統(tǒng)計(jì)學(xué)習(xí)( Symbolic Vs Statistical Learning)。3. 歸納與分析學(xué)習(xí)( Inductive Vs Analytical Learning )。13. 非機(jī)器學(xué)習(xí)有哪些類型?

34、人工智能、規(guī)則推理。14. 什么是非監(jiān)督學(xué)習(xí)的功能?1.求數(shù)據(jù)的集群 2. 求出數(shù)據(jù)的低維表達(dá) 3. 查找數(shù)據(jù)有趣的方向 4. 有趣的坐標(biāo)和相關(guān)性 5. 發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理15. 什么是監(jiān)督學(xué)習(xí)的功能?1.分類、 2.語音識(shí)別 3.回歸 4.時(shí)間序列預(yù)測 5. 注釋字符串16. 什么是算法獨(dú)立的機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)在基礎(chǔ)數(shù)學(xué)領(lǐng)域獨(dú)立于任何特定分類器或者學(xué)習(xí)算法,被稱為算法獨(dú)立的機(jī)器學(xué) 習(xí)。17. 人工智能與機(jī)器學(xué)習(xí)的區(qū)別? 基于經(jīng)驗(yàn)數(shù)據(jù)的特性而設(shè)計(jì)和開發(fā)的算法被稱為機(jī)器學(xué)習(xí)。而人工智能不但包括機(jī)器學(xué)習(xí), 還包括諸如知識(shí)表示,自然語言處理,規(guī)劃,機(jī)器人技術(shù)等其它方法。18. 在機(jī)器學(xué)習(xí)

35、中分類器指的是什么?在機(jī)器學(xué)習(xí)中, 分類器是指輸入離散或連續(xù)特征值的向量, 并輸出單個(gè)離散值或者類型的系 統(tǒng)。19. 樸素貝葉斯方法的優(yōu)勢是什么? 樸素貝葉斯分類器將會(huì)比判別模型, 譬如邏輯回歸收斂得更快, 因此你只需要更少的訓(xùn)練數(shù) 據(jù)。其主要缺點(diǎn)是它學(xué)習(xí)不了特征間的交互關(guān)系。20. 在哪些領(lǐng)域使用模式識(shí)別技術(shù)? 模式識(shí)別被應(yīng)用在:1. 計(jì)算機(jī)視覺 2.語言識(shí)別 3.統(tǒng)計(jì) 4.數(shù)據(jù)挖掘 5. 非正式檢索 6. 生物信息學(xué)。21. 什么是遺傳編程? 遺傳編程的機(jī)器學(xué)習(xí)中兩種常用的方法之一。該模型是基于測試,并在一系列的結(jié)果當(dāng)中, 獲取最佳選擇。22. 在機(jī)器學(xué)習(xí)中歸納邏輯程序設(shè)計(jì)是指什么?歸納邏

36、輯程序設(shè)計(jì)( ILP)是利用邏輯程序設(shè)計(jì)表達(dá)的背景知識(shí)和實(shí)例,它是機(jī)器學(xué)習(xí)的一 個(gè)分支。23. 在機(jī)器學(xué)習(xí)中,模型的選擇是指?在不同的數(shù)學(xué)模型中, 選擇用于描述相同的數(shù)據(jù)集的模型的過程被稱為模型選擇。 模型選擇 吧被應(yīng)用于統(tǒng)計(jì),機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的等相關(guān)領(lǐng)域。24. 用于監(jiān)督學(xué)習(xí)校準(zhǔn)兩種方法是什么? 在監(jiān)督學(xué)習(xí)中,用于預(yù)測良好概率的兩種方法是:1. 普拉特校準(zhǔn), 2. 保序回歸。 這些方法被設(shè)計(jì)為二元分類,而且有意義的。25. 什么方法通常用于防止過擬合? 當(dāng)有足夠的數(shù)據(jù)進(jìn)行等滲回歸時(shí),這通常被用來防止過擬合問題。26. 規(guī)則學(xué)習(xí)的啟發(fā)式方法和決策樹的啟發(fā)式方法之間的區(qū)別是什么? 決策樹的啟發(fā)

37、式方法評價(jià)的是一系列不相交的集合的平均質(zhì)量; 然而規(guī)則學(xué)習(xí)的啟發(fā)式方法 僅僅評價(jià)在候選規(guī)則覆蓋下的實(shí)例集。27. 什么是感知機(jī)器學(xué)習(xí)? 在機(jī)器學(xué)習(xí),感知器是一種輸入到幾個(gè)可能的非二進(jìn)制輸出的監(jiān)督分類算法。28. 貝葉斯邏輯程序的兩個(gè)組成部分是什么?貝葉斯邏輯程序由兩部分組成。 第一成分由一組貝葉斯條款組成, 能捕捉特定域的定性結(jié)構(gòu)。 第二組分是定量的,它能對域的量化信息進(jìn)行編碼。29. 什么是貝葉斯網(wǎng)絡(luò)? 貝葉斯網(wǎng)絡(luò)是用來表示一組變量之間為概率關(guān)系的圖像模型。30. 為什么基于實(shí)例的學(xué)習(xí)算法有時(shí)也被稱為懶惰學(xué)習(xí)算法? 基于實(shí)例的學(xué)習(xí)算法也被稱為懶惰學(xué)習(xí)算法, 因?yàn)樗鼈冄泳徴T導(dǎo)或泛化過程, 直到

38、分類完成。31. 支持向量機(jī)能處理哪兩種分類方法?1.結(jié)合二分類法 2. 修改二進(jìn)制納入多類學(xué)習(xí)法。32. 什么是集成學(xué)習(xí)?為了解決特定的計(jì)算程序, 如分類器或?qū)<抑R(shí)等多種模式, 進(jìn)行戰(zhàn)略性生產(chǎn)和組合。 這個(gè) 過程被稱為集成學(xué)習(xí)。33. 為什么集成學(xué)習(xí)被應(yīng)用? 集成學(xué)習(xí)能提高模型的分類,預(yù)測,函數(shù)逼近等方面的精度。34. 什么使用集成學(xué)習(xí)? 當(dāng)你構(gòu)建一個(gè)更準(zhǔn)確,相互獨(dú)立的分類器時(shí),使用集成學(xué)習(xí)。35. 什么是集成方法的兩種范式? 集成方法的兩種范式是:1. 連續(xù)集成方法 2. 并行集成方法。36. 什么是集成方法的一般原則,在集成方法中套袋(bagging)和爆發(fā)( boosting)指的是

39、什么?集成方法的一般原則是要結(jié)合定的學(xué)習(xí)算法多種預(yù)測模型, 相對于單一模型, 其有更強(qiáng)的健 壯性。套袋是一種能提高易變的預(yù)測或分類方案集成方法。 爆發(fā)方法被依次用來減少組合模 型的偏差。爆發(fā)和裝袋都可以通過降低方差減少誤差。37.什么是集成方法分類錯(cuò)誤的偏置方差分解? 學(xué)習(xí)算法的期望誤差可以分解為偏差和方差。 偏置項(xiàng)衡量由學(xué)習(xí)方法產(chǎn)生的平均分類器與目 標(biāo)函數(shù)是否匹配。38.在集成方法中什么是增量合成方法? 增量學(xué)習(xí)方法是一種從新數(shù)據(jù)進(jìn)行學(xué)習(xí), 并能應(yīng)用于后續(xù)由現(xiàn)有的數(shù)據(jù)集生成的分類器的算 法。39.PCA, KPCA和 ICE如何使用?PCA(主成分分析) , KPCA(基于內(nèi)核主成分分析)和

40、 ICA(獨(dú)立成分分析)是用于降維的重 要特征提取技術(shù)。40. 在機(jī)器學(xué)習(xí)中降維是什么意思?在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)應(yīng)用中, 降維是指在計(jì)算時(shí)減少隨機(jī)變量數(shù)目的處理過程, 并且可以分為 特征選擇和特征提取。41. 什么是支持向量機(jī)? 支持向量機(jī)是一種監(jiān)督學(xué)習(xí)算法,適用于分類和回歸分析。42. 關(guān)系評價(jià)技術(shù)的組成部分是什么? 關(guān)系評價(jià)技術(shù)的重要組成部分如下: 1.數(shù)據(jù)采集 2. 地面實(shí)況采集 3. 交叉驗(yàn)證技術(shù) 4. 查詢類型 5. 評分標(biāo)準(zhǔn) 6. 顯著性檢驗(yàn)。43. 連續(xù)監(jiān)督學(xué)習(xí)有什么不同方法?連續(xù)監(jiān)督學(xué)習(xí)問題的不同解決辦法如下:1. 滑動(dòng)窗口方法 2. 復(fù)發(fā)性推拉窗 3. 隱藏馬爾科夫模型 4. 最

41、大熵馬爾科夫模型 5. 條件隨 機(jī)域 6. 圖變換網(wǎng)絡(luò)。44. 在機(jī)器人技術(shù)和信息處理技術(shù)的哪些方面會(huì)相繼出現(xiàn)預(yù)測問題? 在機(jī)器人技術(shù)和信息處理技術(shù)中,相繼出現(xiàn)預(yù)測問題的是:1. 模仿學(xué)習(xí) 2. 結(jié)構(gòu)預(yù)測 3. 基于模型的強(qiáng)化學(xué)習(xí)。45. 什么是批量統(tǒng)計(jì)學(xué)習(xí)? 統(tǒng)計(jì)學(xué)習(xí)技術(shù)允許根據(jù)一組觀察到的數(shù)據(jù)進(jìn)行學(xué)習(xí)功能和預(yù)測, 這可以對無法觀察和未知的 數(shù)據(jù)進(jìn)行預(yù)測。這些技術(shù)提供的學(xué)習(xí)預(yù)測器對未來未知數(shù)據(jù)的預(yù)測提供性能保證。46 什么是 PAC學(xué)習(xí)?可能近似正確模型 (PAC) 學(xué)習(xí)是一個(gè)已經(jīng)被引入到分析學(xué)習(xí)算法和統(tǒng)計(jì)效率的學(xué)習(xí)框架。47 有哪些不同的類別可以分為序列學(xué)習(xí)過程? 序列預(yù)測 2. 序列生成

42、 3. 序列識(shí)別 4. 順序決定 .48 什么是序列學(xué)習(xí)? 序列學(xué)習(xí)是一種以合乎邏輯的方式進(jìn)行教學(xué)和學(xué)習(xí)的方法。49.機(jī)器學(xué)習(xí)的兩種技術(shù)是什么? 機(jī)器學(xué)習(xí)的兩種技術(shù)是:1.遺傳編程 2.歸納學(xué)習(xí)50.你在日常工作中看到的機(jī)器學(xué)習(xí)的一個(gè)流行應(yīng)用是什么? 各大電商網(wǎng)站上已部署好的推薦引擎使用的是機(jī)器學(xué)習(xí)。問 1 :你會(huì)在時(shí)間序列數(shù)據(jù)集上使用什么交叉驗(yàn)證技術(shù)?是用 答:都不是。對于時(shí)間序列問題, k 倍可能會(huì)很麻煩,因?yàn)榈?有可能跟第 3年的不同, 而對數(shù)據(jù)集的重復(fù)采樣會(huì)將分離這些趨勢,k 倍或 LOOCV?4 年或第 5 年的一些模式 而我們最終可能只是需要對過去幾年的進(jìn)行驗(yàn)證, 這就不能用這種方

43、法了。 相反,我們可以采用如下所示的 5 倍正 向鏈接策略:fold 1 : training 1, test 2fold 2 : training 1 2, test 3 fold 3 : training 1 2 3, test 4fold 4 : training 1 2 3 4, test 5fold 5 : training 1 2 3 4 5, test 6 1,2,3,4,5,6 代表的是年份。問 2 :你是怎么理解偏差方差的平衡的? 答:從數(shù)學(xué)的角度來看,任何模型出現(xiàn)的誤差可以分為三個(gè)部分。以下是這三個(gè)部分: 偏差誤差在量化平均水平之上, 預(yù)測值跟實(shí)際值相差多遠(yuǎn)時(shí)有用。 高偏差

44、誤差意味著我 們的模型表現(xiàn)不太好, 因?yàn)闆]有抓到重要的趨勢。 而另一方面, 方差量化了在同一個(gè)觀察上 進(jìn)行的預(yù)測是如何彼此不同的。 高方差模型會(huì)過度擬合你的訓(xùn)練集, 而在訓(xùn)練集以外的數(shù)據(jù) 上表現(xiàn)很差。問 3 :給你一個(gè)有 1000 列和 1 百萬行的訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集是基于分類問題的。 經(jīng)理要求你來降低該數(shù)據(jù)集的維度以減少模型計(jì)算時(shí)間,但你的機(jī)器內(nèi)存有限。你會(huì)怎么 做?(你可以自由做各種實(shí)際操作假設(shè)。 )答:你的面試官應(yīng)該非常了解很難在有限的內(nèi)存上處理高維的數(shù)據(jù)。 以下是你可以使用 的處理方法:1.由于我們的 RAM 很小,首先要關(guān)閉機(jī)器上正在運(yùn)行的其他程序,包括網(wǎng)頁瀏覽器等, 以確保大部

45、分內(nèi)存可以使用。2. 我們可以隨機(jī)采樣數(shù)據(jù)集。 這意味著, 我們可以創(chuàng)建一個(gè)較小的數(shù)據(jù)集, 比如有 1000 個(gè)變量和 30 萬行,然后做計(jì)算。3. 為了降低維度,我們可以把數(shù)值變量和分類變量分開,同時(shí)刪掉相關(guān)聯(lián)的變量。對于 數(shù)值變量,我們將使用相關(guān)性分析;對于分類變量,我們可以用卡方檢驗(yàn)。4. 另外,我們還可以使用 PCA(主成分分析) ,并挑選可以解釋在數(shù)據(jù)集中有最大偏差 的成分。5. 利用在線學(xué)習(xí)算法,如 VowpalWabbit (在 Python 中可用)是一個(gè)不錯(cuò)的選擇。6. 利用 Stochastic GradientDescent (隨機(jī)梯度下降法)建立線性模型也很有幫助。7.

46、 我們也可以用我們對業(yè)務(wù)的理解來估計(jì)各預(yù)測變量對響應(yīng)變量的影響的大小。但是, 這是一個(gè)主觀的方法,如果沒有找出有用的預(yù)測變量可能會(huì)導(dǎo)致信息的顯著丟失。問 4 :全球平均溫度的上升導(dǎo)致世界各地的海盜數(shù)量減少。這是否意味著海盜的數(shù)量減少引起氣候變化?答:不能夠這樣說。這是一個(gè)“因果關(guān)系和相關(guān)性”的經(jīng)典案例。全球平均溫度和海盜 數(shù)量之間有可能有相關(guān)性, 但基于這些信息, 我們不能說因?yàn)槿蚱骄鶜鉁氐纳仙鴮?dǎo)致了 海盜的消失。 我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因,因?yàn)榭赡苡衅渌蛩?(潛伏或混雜因素)影響了這一現(xiàn)象。問 5 :給你一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集有缺失值,且這些缺失值分布在離中值有

47、1 個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。百分之多少的數(shù)據(jù)不會(huì)受到影響?為什么?答:約有 32%的數(shù)據(jù)將不受缺失值的影響。因?yàn)?,由于?shù)據(jù)分布在中位數(shù)附近,讓我們 先假設(shè)這是一個(gè)正態(tài)分布。 我們知道, 在一個(gè)正態(tài)分布中, 約有 68%的數(shù)據(jù)位于跟平均數(shù) (或 眾數(shù)、中位數(shù)) 1 個(gè)標(biāo)準(zhǔn)差范圍內(nèi), 那么剩下的約 32%的數(shù)據(jù)是不受影響的。 因此,約有 32% 的數(shù)據(jù)將不受缺失值的影響。問 6 :你意識(shí)到你的模型受到低偏差和高方差問題的困擾。那么,應(yīng)該使用哪種算法來 解決問題呢?為什么?答:可以使用 bagging 算法(如隨機(jī)森林) 。因?yàn)椋推钜馕吨P偷念A(yù)測值接近實(shí)際 值,換句話說,該模型有足夠的靈活性,以模

48、仿訓(xùn)練數(shù)據(jù)的分布。這樣貌似很好,但是別忘 了,一個(gè)靈活的模型沒有泛化能力, 意味著當(dāng)這個(gè)模型用在對一個(gè)未曾見過的數(shù)據(jù)集進(jìn)行測 試的時(shí)候,它會(huì)令人很失望。在這種情況下,我們可以使用bagging 算法(如隨機(jī)森林) ,以解決高方差問題。 bagging 算法把數(shù)據(jù)集分成重復(fù)隨機(jī)取樣形成的子集。然后,這些樣本 利用單個(gè)學(xué)習(xí)算法生成一組模型。接著,利用投票(分類)或平均(回歸)把模型預(yù)測結(jié)合 在一起。另外,為了應(yīng)對大方差,我們可以:1.使用正則化技術(shù),懲罰更高的模型系數(shù),從而降低了模型的復(fù)雜性。2.使用可變重要性圖表中的前 n個(gè)特征。 可以用于當(dāng)一個(gè)算法在數(shù)據(jù)集中的所有變量里 很難尋找到有意義信號(hào)的

49、時(shí)候。問 7 :協(xié)方差和相關(guān)性有什么區(qū)別?答:相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化格式。 協(xié)方差本身很難做比較。 例如:如果我們計(jì)算工資 ($)和年齡(歲)的協(xié)方差,因?yàn)檫@兩個(gè)變量有不同的度量,所以我們會(huì)得到不能做比較 的不同的協(xié)方差。為了解決這個(gè)問題,我們計(jì)算相關(guān)性來得到一個(gè)介于-1 和 1 之間的值,就可以忽略它們各自不同的度量。問 8 :真陽性率和召回有什么關(guān)系?寫出方程式。答:真陽性率 =召回。它們有相同的公式( TP / TP + FN)。問 9:Gradient boosting算法( GBM)和隨機(jī)森林都是基于樹的算法, 它們有什么區(qū)別? 答:最根本的區(qū)別是, 隨機(jī)森林算法使用 bagging 技術(shù)做出預(yù)測; 而 GBM 是采用 boosting 技術(shù)做預(yù)測的。在 bagging 技術(shù)中,數(shù)據(jù)集用隨機(jī)采樣的方法被劃分成n 個(gè)樣本。然后,使用單一的學(xué)習(xí)算法,在所有樣本上建模。接著利用投票或者求平均來組合所得到的預(yù)測。 bagging 是平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論