版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1、有監(jiān)督學習和無監(jiān)督學習的區(qū)別有監(jiān)督學習: 對具有標記的訓練樣本進行學習, 以盡可能對訓練樣本集外的數(shù)據(jù)進行分類預 測。(LR,SVM,BP,RF,GBDT) 無監(jiān)督學習:對未標記的樣本進行訓練學習,比發(fā)現(xiàn)這些樣本中的結構知識。 (KMeans,DL)2、正則化正則化是針對過擬合而提出的, 以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗風險, 現(xiàn)在在 該經(jīng)驗風險上加入模型復雜度這一項(正則化項是模型參數(shù)向量的范數(shù)) ,并使用一個 rate 比率來權衡模型復雜度與以往經(jīng)驗風險的權重, 如果模型復雜度越高, 結構化的經(jīng)驗風險會 越大, 現(xiàn)在的目標就變?yōu)榱私Y構經(jīng)驗風險的最優(yōu)化, 可以防止模型訓練過度復雜
2、, 有效的降 低過擬合的風險。奧卡姆剃刀原理,能夠很好的解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。過擬合如果一味的去提高訓練數(shù)據(jù)的預測能力, 所選模型的復雜度往往會很高, 這種現(xiàn)象稱為過擬 合。所表現(xiàn)的就是模型訓練時候的誤差很小,但在測試的時候誤差很大。產(chǎn)生的原因過擬合原因:1. 樣本數(shù)據(jù)的問題。樣本數(shù)量太少;抽樣方法錯誤, 抽出的樣本數(shù)據(jù)不能有效足夠代表業(yè)務邏輯或業(yè)務場景。 比如樣本符合正態(tài) 分布,卻按均分分布抽樣,或者樣本數(shù)據(jù)不能代表整體數(shù)據(jù)的分布;樣本里的噪音數(shù)據(jù)干擾過大2. 模型問題模型復雜度高 、參數(shù)太多決策樹模型沒有剪枝權值學習迭代次數(shù)足夠多 (Overtraining), 擬合了訓
3、練數(shù)據(jù)中的噪聲和訓練樣例中沒有代表性 的特征 .解決方法1. 樣本數(shù)據(jù)方面。增加樣本數(shù)量,對樣本進行降維,添加驗證數(shù)據(jù)抽樣方法要符合業(yè)務場景清洗噪聲數(shù)據(jù)2. 模型或訓練問題 控制模型復雜度,優(yōu)先選擇簡單的模型,或者用模型融合技術。利用先驗知識,添加正則項。 L1 正則更加容易產(chǎn)生稀疏解、 L2 正則傾向于讓參數(shù) w 趨向于 0.4、交叉驗證不要過度訓練,最優(yōu)化求解時,收斂之前停止迭代。決策樹模型沒有剪枝權值衰減5、泛化能力泛化能力是指模型對未知數(shù)據(jù)的預測能力6、生成模型和判別模型1. 生成模型:由數(shù)據(jù)學習聯(lián)合概率分布P(X,Y),然后求出條件概率分布 P(Y|X)作為預測的模型,即生成模型:
4、P(Y|X)= P(X,Y)/ P(X。)(樸素貝葉斯、 Kmeans) 生成模型可以還原聯(lián)合概率分布 p(X,Y),并且有較快的學習收斂速度,還可以用于隱變量的 學習2. 判別模型:由數(shù)據(jù)直接學習決策函數(shù) Y=f(X)或者條件概率分布 P(Y|X)作為預測的模型,即 判別模型。( k 近鄰、決策樹、 SVM) 直接面對預測,往往準確率較高,直接對數(shù)據(jù)在各種程度上的抽象,所以可以簡化模型7、線性分類器與非線性分類器的區(qū)別以及優(yōu)劣 如果模型是參數(shù)的線性函數(shù),并且存在線性分類面,那么就是線性分類器,否則不是。 常見的線性分類器有: LR,貝葉斯分類,單層感知機、線性回歸 常見的非線性分類器:決策樹
5、、 RF、 GBDT、多層感知機SVM 兩種都有 (看線性核還是高斯核 ) 線性分類器速度快、編程方便,但是可能擬合效果不會很好 非線性分類器編程復雜,但是效果擬合能力強8、特征比數(shù)據(jù)量還大時,選擇什么樣的分類器? 線性分類器, 因為維度高的時候, 數(shù)據(jù)一般在維度空間里面會比較稀疏, 很有可能線性可分 對于維度很高的特征,你是選擇線性還是非線性分類器? 理由同上 對于維度極低的特征,你是選擇線性還是非線性分類器? 非線性分類器,因為低維空間可能很多特征都跑到一起了,導致線性不可分1. 如果 Feature 的數(shù)量很大, 跟樣本數(shù)量差不多, 這時候選用 LR 或者是 Linear Kernel
6、的 SVM2. 如果 Feature 的數(shù)量比較小, 樣本數(shù)量一般, 不算大也不算小, 選用 SVM+Gaussian Kernel3. 如果 Feature 的數(shù)量比較小,而樣本數(shù)量很多,需要手工添加一些 feature 變成第一種情 況9、ill-condition 病態(tài)問題 訓練完的模型測試樣本稍作修改就會得到差別很大的結果, 就是病態(tài)問題 (這簡直是不能用 啊)10、 L1和 L2正則的區(qū)別,如何選擇 L1和 L2正則 /article/details/他們都是可以防止過擬合,降低模型復雜度L1 是在 loss function 后面加上 模型參數(shù)的 1 范數(shù)(也就是 |xi| )L2
7、 是在 loss function 后面加上 模型參數(shù)的 2 范數(shù)(也就是 sigma(xi2) ),注意 L2 范數(shù)的定 義是 sqrt(sigma(xi2) ,在正則項上沒有添加 sqrt 根號是為了更加容易優(yōu)化L1 會產(chǎn)生稀疏的特征L2 會產(chǎn)生更多地特征但是都會接近于 0L1 會趨向于產(chǎn)生少量的特征,而其他的特征都是0,而 L2會選擇更多的特征,這些特征都會接近于 0。L1 在特征選擇時候非常有用,而 L2 就只是一種規(guī)則化而已。L1求解最小角回歸算法: LARS算法11、越小的參數(shù)說明模型越簡單過擬合的, 擬合會經(jīng)過曲面的每個點, 也就是說在較小的區(qū)間里面可能會有較大的曲率, 這 里的
8、導數(shù)就是很大,線性模型里面的權值就是導數(shù),所以越小的參數(shù)說明模型越簡單。12、為什么一些機器學習模型需要對數(shù)據(jù)進行歸一化?/article/details/歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后 (通過某種算法) 限制在你需要的一定范圍 內。1) 歸一化后加快了梯度下降求最優(yōu)解的速度。等高線變得顯得圓滑,在梯度下降進行求解 時能較快的收斂。如果不做歸一化,梯度下降過程容易走之字,很難收斂甚至不能收斂2) 把有量綱表達式變?yōu)闊o量綱表達式 , 有可能提高精度。一些分類器需要計算樣本之間的 距離(如歐氏距離) ,例如 KNN。如果一個特征值域范圍非常大,那么距離計算就主要取決 于這個特征,從而與
9、實際情況相悖(比如這時實際情況是值域范圍小的特征更重要)3) 邏輯回歸等模型先驗假設數(shù)據(jù)服從正態(tài)分布。 哪些機器學習算法不需要做歸一化處理? 概率模型不需要歸一化, 因為它們不關心變量的值, 而是關心變量的分布和變量之間的條件 概率,如決策樹、 rf。而像 adaboost、gbdt、xgboost、svm、lr、KNN、KMeans 之類的最優(yōu) 化問題就需要歸一化。特征向量的歸一化方法線性函數(shù)轉換,表達式如下: y=(x-MinValue)/(MaxValue-MinValue) 對數(shù)函數(shù)轉換,表達式如下: y=log10 (x)反余切函數(shù)轉換 ,表達式如下: y=arctan(x)*2/P
10、I減去均值,乘以方差: y=(x-means)/ variance標準化與歸一化的區(qū)別 簡單來說,標準化是依照特征矩陣的列處理數(shù)據(jù),其通過求 z-score 的方法,將樣本的特征 值轉換到同一量綱下。 歸一化是依照特征矩陣的行處理數(shù)據(jù), 其目的在于樣本向量在點乘運 算或其他核函數(shù)計算相似性時,擁有統(tǒng)一的標準,也就是說都轉化為“單位向量” 。規(guī)則為 l2 的歸一化公式如下:13、特征向量的缺失值處理1. 缺失值較多 .直接將該特征舍棄掉, 否則可能反倒會帶入較大的 noise,對結果造成不良影 響。2. 缺失值較少 ,其余的特征缺失值都在 10%以內,我們可以采取很多的方式來處理:1) 把 Na
11、N 直接作為一個特征,假設用 0 表示;2) 用均值填充;3) 用隨機森林等算法預測填充隨機森林如何處理缺失值( /03/Random-Forest-Tricks/)方法一( na.roughfix )簡單粗暴,對于訓練集 ,同一個 class下的數(shù)據(jù),如果是分類變量缺失, 用眾數(shù)補上,如果是連續(xù)型變量缺失,用中位數(shù)補。方法二( rfImpute )這個方法計算量大,至于比方法一好壞?不好判斷。先用 na.roughfix 補 上缺失值,然后構建森林并計算 proximity matrix ,再回頭看缺失值,如果是分類變量,則用 沒有缺失的觀測實例的 proximity 中的權重進行投票。如果
12、是連續(xù)型變量,則用 proximity 矩 陣進行加權平均的方法補缺失值。然后迭代 4-6 次,這個補缺失值的思想和 KNN 有些類似 12。隨機森林如何評估特征重要性( /03/Random-Forest-Tricks/) 衡量變量重要性的方法有兩種, Decrease GINI 和 Decrease Accuracy:1) Decrease GINI: 對于回歸問題,直接使用 argmax(Var?VarLeft?VarRight)作為評判標準,即 當前節(jié)點訓練集的方差 Var 減去左節(jié)點的方差 VarLeft 和右節(jié)點的方差 VarRight。2) Decrease Accuracy:對
13、于一棵樹 Tb(x),我們用 OOB 樣本可以得到測試誤差 1;然后隨機改 變 OOB樣本的第 j 列: 保持其他列不變, 對第 j 列進行隨機的上下置換, 得到誤差 2。至此, 我們可以用誤差 1-誤差 2來刻畫變量 j 的重要性?;舅枷刖褪牵?如果一個變量 j 足夠重要, 那么改變它會極大的增加測試誤差; 反之, 如果改變它測試誤差沒有增大, 則說明該變量不 是那么的重要。14、優(yōu)化 Kmeans使用 kd 樹或者 ball tree( 這個樹不懂 )將所有的觀測實例構建成一顆 kd 樹,之前每個聚類中心都是需要和每個觀測點做依次距離 計算,現(xiàn)在這些聚類中心根據(jù) kd 樹只需要計算附近的
14、一個局部區(qū)域即可KMeans 初始類簇中心點的選取k-means+算法選擇初始 seeds 的基本思想就是:初始的聚類中心之間的相互距離要盡可能 的遠。1. 從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心2. 對于數(shù)據(jù)集中的每一個點 x,計算它與最近聚類中心 (指已選擇的聚類中心 )的距離 D(x)3. 選擇一個新的數(shù)據(jù)點作為新的聚類中心, 選擇的原則是: D(x)較大的點, 被選取作為聚類 中心的概率較大4. 重復 2 和 3 直到 k 個聚類中心被選出來5. 利用這 k 個初始的聚類中心來運行標準的k-means 算法15、解釋對偶的概念 一個優(yōu)化問題可以從兩個角度進行考察,一個是
15、primal 問題,一個是 dual 問題,就是對偶 問題,一般情況下對偶問題給出主問題最優(yōu)值的下界, 在強對偶性成立的情況下由對偶問題 可以得到主問題的最優(yōu)下界,對偶問題是凸優(yōu)化問題,可以進行較好的求解,SVM 中就是將 primal 問題轉換為 dual 問題進行求解,從而進一步引入核函數(shù)的思想。16、如何進行特征選擇? 特征選擇是一個重要的數(shù)據(jù)預處理過程, 主要有兩個原因:一是減少特征數(shù)量、降維, 使模 型泛化能力更強,減少過擬合 ; 二是增強對特征和特征值之間的理解常見的特征選擇方式:1. 去除方差較小的特征2. 正則化。 1 正則化能夠生成稀疏的模型。 L2 正則化的表現(xiàn)更加穩(wěn)定,由
16、于有用的特征往 往對應系數(shù)非零。3. 隨機森林,對于分類問題,通常采用基尼不純度或者信息增益,對于回歸問題,通常采 用的是方差或者最小二乘擬合。一般不需要 feature engineering 、調參等繁瑣的步驟。它的 兩個主要問題, 1 是重要的特征有可能得分很低 (關聯(lián)特征問題) ,2 是這種方法對特征變量 類別多的特征越有利(偏向問題) 。4. 穩(wěn)定性選擇。是一種基于二次抽樣和選擇算法相結合較新的方法,選擇算法可以是回歸、SVM 或其他類似的方法。它的主要思想是在不同的數(shù)據(jù)子集和特征子集上運行特征選擇算 法,不斷的重復, 最終匯總特征選擇結果, 比如可以統(tǒng)計某個特征被認為是重要特征的頻
17、率 (被選為重要特征的次數(shù)除以它所在的子集被測試的次數(shù)) 。理想情況下,重要特征的得分 會接近 100%。稍微弱一點的特征得分會是非 0 的數(shù),而最無用的特征得分將會接近于0。17、數(shù)據(jù)預處理1. 缺失值,填充缺失值 fillna :i. 離散: None,ii. 連續(xù):均值。iii. 缺失值太多,則直接去除該列2. 連續(xù)值:離散化。有的模型(如決策樹)需要離散值3. 對定量特征二值化。 核心在于設定一個閾值, 大于閾值的賦值為 1,小于等于閾值的賦值 為 0。如圖像操作4. 皮爾遜相關系數(shù),去除高度相關的列#correlation matrixcorrmat = df_train.corr(
18、)f, ax = plt.subplots(figsize=(12, 9)sns.heatmap(corrmat, vmax=.8, square=True);1. 去除噪聲點。 通過 matplotlib.scatter 函數(shù)圖示某一特征與預測特征的點分布圖, 明顯看出 噪聲點,去除即可#bivariate analysis saleprice/grlivareavar = GrLivAreadata = pd.concat(df_trainSalePrice, df_trainvar, axis=1), y=SalePrice, ylim=(0,800000);df_train.sort_
19、values(by = GrLivArea, ascending = False):2df_train = df_train.drop(df_traindf_trainId = 1299.index)df_train = df_train.drop(df_traindf_trainId = 524.index)1. 標簽編碼,把字符類別特征編碼成數(shù)值類型,如紅綠藍編碼為0、1、22. 歸一化。將數(shù)據(jù)按比例縮放,使這些數(shù)據(jù)落入到一個較小的特定的區(qū)間之內。 最小最大縮放:當使用基于距離的算法時, 我們必須嘗試將數(shù)據(jù)縮放, 這樣較不重要的特征不會因為自身較 大的范圍而主導目標函數(shù)。如 KNN。在邏輯
20、回歸中, 每個特征都被分配了權重或系數(shù) (Wi) 。如果某個特征有相對來說比較大的范 圍,而且其在目標函數(shù)中無關緊要, 那么邏輯回歸模型自己就會分配一個非常小的值給它的 系數(shù),從而中和該特定特征的影響優(yōu)勢,而基于距離的方法,如KNN,沒有這樣的內置策略,因此需要縮放。Z-score 標準化 : 很多的機器學習技巧 /模型(例如 L1, L2正則項,向量空間模型 -Vector Space Model,歐幾 里得距離測量的 KNN、 k-均值、 SVM、感知器、神經(jīng)網(wǎng)絡、線性判別分析、主成分分析)都 基于這樣的假設: 所有的屬性取值都差不多是以 0 為均值且取值范圍相近的, 標準化數(shù)據(jù)幫 助我們
21、提高預測模型的精度。備注:在縮放和標準化中二選一是個令人困惑的選擇, 你必須對數(shù)據(jù)和要使用的學習模型有 更深入的理解, 才能做出決定。 對于初學者, 你可以兩種方法都嘗試下并通過交叉驗證精度 來做出選擇。18、什么是偏差與方差? 泛化誤差可以分解成偏差的平方加上方差加上噪聲。 偏差度量了學習算法的期望預測和真實 結果的偏離程度, 刻畫了學習算法本身的擬合能力, 方差度量了同樣大小的訓練集的變動所 導致的學習性能的變化, 刻畫了數(shù)據(jù)擾動所造成的影響, 噪聲表達了當前任務上任何學習算 法所能達到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias 和variance,一般訓練程度越
22、強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值, 如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。偏差: 解決 bias 和 Variance 問題的方法:交叉驗證High bias解決方案 :Boosting 、復雜模型(非線性模型、增加神經(jīng)網(wǎng)絡中的層)、更多特征High Variance 解決方案: agging、簡化模型、降維19、采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?用 EM 算法求解的模型一般有 GMM 或者協(xié)同過濾, k-means 其實也屬于 EM。EM 算法一定 會收斂, 但是可能收斂到局部最優(yōu)。 由于求和的項數(shù)將隨
23、著隱變量的數(shù)目指數(shù)上升, 會給梯 度計算帶來麻煩。20、 SVM、LR、決策樹的對比?模型復雜度: SVM 支持核函數(shù),可處理線性非線性問題 ;LR模型簡單,訓練速度快,適合處 理線性問題 ;決策樹容易過擬合,需要進行剪枝損失函數(shù): SVM hinge loss; LR L2正則化 ; adaboost 指數(shù)損失數(shù)據(jù)敏感度: SVM 添加容忍度對 outlier 不敏感,只關心支持向量,且需要先做歸一化; LR對遠點敏感數(shù)據(jù)量:數(shù)據(jù)量大就用 LR,數(shù)據(jù)量小且特征少就用 SVM 非線性核21、 GBDT 和隨機森林的區(qū)別? 隨機森林采用的是 bagging 的思想, bagging 又稱為 bo
24、otstrap aggreagation ,通過在訓練樣本 集中進行有放回的采樣得到多個采樣集, 基于每個采樣集訓練出一個基學習器, 再將基學習 器結合。隨機森林在對決策樹進行 bagging 的基礎上,在決策樹的訓練過程中引入了隨機屬 性選擇。 傳統(tǒng)決策樹在選擇劃分屬性的時候是在當前節(jié)點屬性集合中選擇最優(yōu)屬性, 而隨機 森林則是對結點先隨機選擇包含k 個屬性的子集,再選擇最有屬性, k 作為一個參數(shù)控制了隨機性的引入程度。另外, GBDT訓練是基于 Boosting 思想,每一迭代中根據(jù)錯誤更新樣本權重,因此是串行生 成的序列化方法,而隨機森林是 bagging 的思想,因此是并行化方法。2
25、2、 xgboost怎么給特征評分?在訓練的過程中,通過 Gini 指數(shù)選擇分離點的特征,一個特征被選中的次數(shù)越多,那么該 特征評分越高。python view plain copy print?1. # feature importance2. print(model.feature_importances_)3. # plot4. pyplot.bar(range(len(model.feature_importances_), model.feature_importances_)5. pyplot.show()6. =7. # plot feature importance8. plo
26、t_importance(model)9. pyplot.show()# feature importance print(model.feature_importances_)# plot pyplot.bar(range(len(model.feature_importances_), model.feature_importances_) pyplot.show() # plot feature importance plot_importance(model) pyplot.show()23、什么是 OOB?隨機森林中 OOB 是如何計算的,它有什么優(yōu)缺點?bagging 方法中 Bo
27、otstrap 每次約有 1/3 的樣本不會出現(xiàn)在 Bootstrap 所采集的樣本集合中, 當 然也就沒有參加決策樹的建立,把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù) oob( out of bag ),它可以用于取代測試集誤差估計方法。袋外數(shù)據(jù) (oob) 誤差的計算方法如下:對于已經(jīng)生成的隨機森林 ,用袋外數(shù)據(jù)測試其性能 ,假設袋外數(shù)據(jù)總數(shù)為 O,用這 O 個袋外數(shù)據(jù) 作為輸入 ,帶進之前已經(jīng)生成的隨機森林分類器,分類器會給出 O個數(shù)據(jù)相應的分類 ,因為這 O條數(shù)據(jù)的類型是已知的 ,則用正確的分類與隨機森林分類器的結果進行比較,統(tǒng)計隨機森林分類器分類錯誤的數(shù)目 ,設為 X,則袋外數(shù)據(jù)誤差大小 =X/O
28、;這已經(jīng)經(jīng)過證明是無偏估計的 ,所以 在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。24、解釋置信區(qū)間置信區(qū)間不能用貝葉斯學派的概率來描述, 它屬于頻率學派的范疇。 真值要么在, 要么不在。 由于在頻率學派當中,真值是一個常數(shù),而非隨機變量(后者是貝葉斯學派),所以我們不對真值做概率描述。比如, 95%置信區(qū)間,并不是真值在這個區(qū)間內的概率是95%,而應該為 100 次隨機抽樣中構造的 100 個區(qū)間如果 95 次包含了參數(shù)真值,那么置信度為95%。25、監(jiān)督學習一般使用兩種類型的目標變量:標稱型和數(shù)值型 標稱型:標稱型目標變量的結果只在有限目標集中取值,如真
29、與假(標稱型目標變量主要用于分類 )數(shù)值型:數(shù)值型目標變量則可以從無限的數(shù)值集合中取值,如0.100, 42.001 等 (數(shù)值型目標變量主要用于回歸分析 )26、為什么說樸素貝葉斯是高偏差低方差? 它簡單的假設了各個特征之間是無關的, 是一個被嚴重簡化了的模型。 所以, 對于這樣一個 簡單模型,大部分場合都會 bias 部分大于 variance 部分,也就是高偏差,低方差1. 什么是機器學習 機器學習是為了應對系統(tǒng)程序設計, 屬于計算機科學類的學科, 它能根據(jù)經(jīng)驗進行自動學習 和提高。例如: 一個由程序操縱的機器人,它能根據(jù)從傳感器搜集到的數(shù)據(jù),完成一系列的 任務和工作。它能根據(jù)數(shù)據(jù)自動地
30、學習應用程序。2. 機器學習與數(shù)據(jù)挖掘的區(qū)別 機器語言是指在沒有明確的程序指令的情況下,給予計算機學習能力,使它能自主的學習、 設計和擴展相關算法。 數(shù)據(jù)挖掘則是一種從非結構化數(shù)據(jù)里面提取知識或者未知的、 人們感 興趣的圖片。在這個過程中應用了機器學習算法。3. 什么是機器學習的過度擬合現(xiàn)象在機器學習中, 當一個統(tǒng)計模型首先描述隨機誤差或噪聲, 而不是自身的基本關系時, 過度 擬合就會出現(xiàn)。 當一個模型是過于復雜, 過擬合通常容易被發(fā)現(xiàn), 因為相對于訓練數(shù)據(jù)類型 的數(shù)量,參數(shù)的數(shù)量過于五花八門。那么這個模型由于過度擬合而效果不佳。4. 過度擬合產(chǎn)生的原因 由于用于訓練模型的標準并不等同于判斷模
31、型效率的標準,這導致了產(chǎn)生過度擬合的可能 性。因此使用較大的數(shù)據(jù)量能避免 可以使用被稱為交叉驗證的 測試數(shù)據(jù)集只測試模型, 而在5. 如何避免過度擬合 當你使用較小的數(shù)據(jù)集進行機器學習時, 容易產(chǎn)生過度擬合, 過度擬合現(xiàn)象。 但是, 當你不得不使用小型數(shù)據(jù)集進行建模時, 技術。 在這種方法中數(shù)據(jù)集被分成兩節(jié), 測試和訓練數(shù)據(jù)集, 訓練數(shù)據(jù)集中,數(shù)據(jù)點被用來建模。在該技術中,一個模型通常是被給定有先驗知識的數(shù)據(jù)集 (訓練數(shù)據(jù)集)進行訓練,沒有先 驗知識的數(shù)據(jù)集進行測試。 交叉驗證的思想是: 在訓練階段, 定義一個數(shù)據(jù)集用來測試模型。6. 什么是感應式的機器學習?感應機器學習涉及由實踐進行學習的過
32、程, 能從一組可觀測到的例子的嘗試推導出普遍性規(guī) 則。7. 什么是機器學習的五個流行的算法?1. 決策樹 2. 神經(jīng)網(wǎng)絡(反向傳播) 3. 概率網(wǎng)絡 4.最鄰近法 5. 支持向量機8. 機器學習有哪些不同的算法技術?在機器學習不同類型的算法技術是:1. 監(jiān)督學習 2.非監(jiān)督學習 3. 半監(jiān)督學習 4. 轉導推理( Transduction )5.學習推理( Learning to Learn )。9. 在機器學習中,建立假設或者模型的三個階段指的是什么?1.建模 2.模型測試 3.模型應用。10. 什么是監(jiān)督學習的標準方法? 監(jiān)督學習的標準方法是將一組示例數(shù)據(jù)的分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。11
33、. 什么是訓練數(shù)據(jù)集和測試數(shù)據(jù)集? 在類似于機器學習的各個信息科學相關領域中, 一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預測關系, 稱為 “訓練數(shù)據(jù)集” 。訓練數(shù)據(jù)集是提供給學習者的案例,而試驗數(shù)據(jù)集是用于測試由學習者提 出的假設關系的準確度。12. 下面列出機器學習的各種方法? 機器學習的各種方法如下“ 1.概念與分類學習( Concept Vs Classification Learning)。2.符號與統(tǒng)計學習( Symbolic Vs Statistical Learning)。3. 歸納與分析學習( Inductive Vs Analytical Learning )。13. 非機器學習有哪些類型?
34、人工智能、規(guī)則推理。14. 什么是非監(jiān)督學習的功能?1.求數(shù)據(jù)的集群 2. 求出數(shù)據(jù)的低維表達 3. 查找數(shù)據(jù)有趣的方向 4. 有趣的坐標和相關性 5. 發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理15. 什么是監(jiān)督學習的功能?1.分類、 2.語音識別 3.回歸 4.時間序列預測 5. 注釋字符串16. 什么是算法獨立的機器學習? 機器學習在基礎數(shù)學領域獨立于任何特定分類器或者學習算法,被稱為算法獨立的機器學 習。17. 人工智能與機器學習的區(qū)別? 基于經(jīng)驗數(shù)據(jù)的特性而設計和開發(fā)的算法被稱為機器學習。而人工智能不但包括機器學習, 還包括諸如知識表示,自然語言處理,規(guī)劃,機器人技術等其它方法。18. 在機器學習
35、中分類器指的是什么?在機器學習中, 分類器是指輸入離散或連續(xù)特征值的向量, 并輸出單個離散值或者類型的系 統(tǒng)。19. 樸素貝葉斯方法的優(yōu)勢是什么? 樸素貝葉斯分類器將會比判別模型, 譬如邏輯回歸收斂得更快, 因此你只需要更少的訓練數(shù) 據(jù)。其主要缺點是它學習不了特征間的交互關系。20. 在哪些領域使用模式識別技術? 模式識別被應用在:1. 計算機視覺 2.語言識別 3.統(tǒng)計 4.數(shù)據(jù)挖掘 5. 非正式檢索 6. 生物信息學。21. 什么是遺傳編程? 遺傳編程的機器學習中兩種常用的方法之一。該模型是基于測試,并在一系列的結果當中, 獲取最佳選擇。22. 在機器學習中歸納邏輯程序設計是指什么?歸納邏
36、輯程序設計( ILP)是利用邏輯程序設計表達的背景知識和實例,它是機器學習的一 個分支。23. 在機器學習中,模型的選擇是指?在不同的數(shù)學模型中, 選擇用于描述相同的數(shù)據(jù)集的模型的過程被稱為模型選擇。 模型選擇 吧被應用于統(tǒng)計,機器學習和數(shù)據(jù)挖掘的等相關領域。24. 用于監(jiān)督學習校準兩種方法是什么? 在監(jiān)督學習中,用于預測良好概率的兩種方法是:1. 普拉特校準, 2. 保序回歸。 這些方法被設計為二元分類,而且有意義的。25. 什么方法通常用于防止過擬合? 當有足夠的數(shù)據(jù)進行等滲回歸時,這通常被用來防止過擬合問題。26. 規(guī)則學習的啟發(fā)式方法和決策樹的啟發(fā)式方法之間的區(qū)別是什么? 決策樹的啟發(fā)
37、式方法評價的是一系列不相交的集合的平均質量; 然而規(guī)則學習的啟發(fā)式方法 僅僅評價在候選規(guī)則覆蓋下的實例集。27. 什么是感知機器學習? 在機器學習,感知器是一種輸入到幾個可能的非二進制輸出的監(jiān)督分類算法。28. 貝葉斯邏輯程序的兩個組成部分是什么?貝葉斯邏輯程序由兩部分組成。 第一成分由一組貝葉斯條款組成, 能捕捉特定域的定性結構。 第二組分是定量的,它能對域的量化信息進行編碼。29. 什么是貝葉斯網(wǎng)絡? 貝葉斯網(wǎng)絡是用來表示一組變量之間為概率關系的圖像模型。30. 為什么基于實例的學習算法有時也被稱為懶惰學習算法? 基于實例的學習算法也被稱為懶惰學習算法, 因為它們延緩誘導或泛化過程, 直到
38、分類完成。31. 支持向量機能處理哪兩種分類方法?1.結合二分類法 2. 修改二進制納入多類學習法。32. 什么是集成學習?為了解決特定的計算程序, 如分類器或專家知識等多種模式, 進行戰(zhàn)略性生產(chǎn)和組合。 這個 過程被稱為集成學習。33. 為什么集成學習被應用? 集成學習能提高模型的分類,預測,函數(shù)逼近等方面的精度。34. 什么使用集成學習? 當你構建一個更準確,相互獨立的分類器時,使用集成學習。35. 什么是集成方法的兩種范式? 集成方法的兩種范式是:1. 連續(xù)集成方法 2. 并行集成方法。36. 什么是集成方法的一般原則,在集成方法中套袋(bagging)和爆發(fā)( boosting)指的是
39、什么?集成方法的一般原則是要結合定的學習算法多種預測模型, 相對于單一模型, 其有更強的健 壯性。套袋是一種能提高易變的預測或分類方案集成方法。 爆發(fā)方法被依次用來減少組合模 型的偏差。爆發(fā)和裝袋都可以通過降低方差減少誤差。37.什么是集成方法分類錯誤的偏置方差分解? 學習算法的期望誤差可以分解為偏差和方差。 偏置項衡量由學習方法產(chǎn)生的平均分類器與目 標函數(shù)是否匹配。38.在集成方法中什么是增量合成方法? 增量學習方法是一種從新數(shù)據(jù)進行學習, 并能應用于后續(xù)由現(xiàn)有的數(shù)據(jù)集生成的分類器的算 法。39.PCA, KPCA和 ICE如何使用?PCA(主成分分析) , KPCA(基于內核主成分分析)和
40、 ICA(獨立成分分析)是用于降維的重 要特征提取技術。40. 在機器學習中降維是什么意思?在機器學習和統(tǒng)計應用中, 降維是指在計算時減少隨機變量數(shù)目的處理過程, 并且可以分為 特征選擇和特征提取。41. 什么是支持向量機? 支持向量機是一種監(jiān)督學習算法,適用于分類和回歸分析。42. 關系評價技術的組成部分是什么? 關系評價技術的重要組成部分如下: 1.數(shù)據(jù)采集 2. 地面實況采集 3. 交叉驗證技術 4. 查詢類型 5. 評分標準 6. 顯著性檢驗。43. 連續(xù)監(jiān)督學習有什么不同方法?連續(xù)監(jiān)督學習問題的不同解決辦法如下:1. 滑動窗口方法 2. 復發(fā)性推拉窗 3. 隱藏馬爾科夫模型 4. 最
41、大熵馬爾科夫模型 5. 條件隨 機域 6. 圖變換網(wǎng)絡。44. 在機器人技術和信息處理技術的哪些方面會相繼出現(xiàn)預測問題? 在機器人技術和信息處理技術中,相繼出現(xiàn)預測問題的是:1. 模仿學習 2. 結構預測 3. 基于模型的強化學習。45. 什么是批量統(tǒng)計學習? 統(tǒng)計學習技術允許根據(jù)一組觀察到的數(shù)據(jù)進行學習功能和預測, 這可以對無法觀察和未知的 數(shù)據(jù)進行預測。這些技術提供的學習預測器對未來未知數(shù)據(jù)的預測提供性能保證。46 什么是 PAC學習?可能近似正確模型 (PAC) 學習是一個已經(jīng)被引入到分析學習算法和統(tǒng)計效率的學習框架。47 有哪些不同的類別可以分為序列學習過程? 序列預測 2. 序列生成
42、 3. 序列識別 4. 順序決定 .48 什么是序列學習? 序列學習是一種以合乎邏輯的方式進行教學和學習的方法。49.機器學習的兩種技術是什么? 機器學習的兩種技術是:1.遺傳編程 2.歸納學習50.你在日常工作中看到的機器學習的一個流行應用是什么? 各大電商網(wǎng)站上已部署好的推薦引擎使用的是機器學習。問 1 :你會在時間序列數(shù)據(jù)集上使用什么交叉驗證技術?是用 答:都不是。對于時間序列問題, k 倍可能會很麻煩,因為第 有可能跟第 3年的不同, 而對數(shù)據(jù)集的重復采樣會將分離這些趨勢,k 倍或 LOOCV?4 年或第 5 年的一些模式 而我們最終可能只是需要對過去幾年的進行驗證, 這就不能用這種方
43、法了。 相反,我們可以采用如下所示的 5 倍正 向鏈接策略:fold 1 : training 1, test 2fold 2 : training 1 2, test 3 fold 3 : training 1 2 3, test 4fold 4 : training 1 2 3 4, test 5fold 5 : training 1 2 3 4 5, test 6 1,2,3,4,5,6 代表的是年份。問 2 :你是怎么理解偏差方差的平衡的? 答:從數(shù)學的角度來看,任何模型出現(xiàn)的誤差可以分為三個部分。以下是這三個部分: 偏差誤差在量化平均水平之上, 預測值跟實際值相差多遠時有用。 高偏差
44、誤差意味著我 們的模型表現(xiàn)不太好, 因為沒有抓到重要的趨勢。 而另一方面, 方差量化了在同一個觀察上 進行的預測是如何彼此不同的。 高方差模型會過度擬合你的訓練集, 而在訓練集以外的數(shù)據(jù) 上表現(xiàn)很差。問 3 :給你一個有 1000 列和 1 百萬行的訓練數(shù)據(jù)集,這個數(shù)據(jù)集是基于分類問題的。 經(jīng)理要求你來降低該數(shù)據(jù)集的維度以減少模型計算時間,但你的機器內存有限。你會怎么 做?(你可以自由做各種實際操作假設。 )答:你的面試官應該非常了解很難在有限的內存上處理高維的數(shù)據(jù)。 以下是你可以使用 的處理方法:1.由于我們的 RAM 很小,首先要關閉機器上正在運行的其他程序,包括網(wǎng)頁瀏覽器等, 以確保大部
45、分內存可以使用。2. 我們可以隨機采樣數(shù)據(jù)集。 這意味著, 我們可以創(chuàng)建一個較小的數(shù)據(jù)集, 比如有 1000 個變量和 30 萬行,然后做計算。3. 為了降低維度,我們可以把數(shù)值變量和分類變量分開,同時刪掉相關聯(lián)的變量。對于 數(shù)值變量,我們將使用相關性分析;對于分類變量,我們可以用卡方檢驗。4. 另外,我們還可以使用 PCA(主成分分析) ,并挑選可以解釋在數(shù)據(jù)集中有最大偏差 的成分。5. 利用在線學習算法,如 VowpalWabbit (在 Python 中可用)是一個不錯的選擇。6. 利用 Stochastic GradientDescent (隨機梯度下降法)建立線性模型也很有幫助。7.
46、 我們也可以用我們對業(yè)務的理解來估計各預測變量對響應變量的影響的大小。但是, 這是一個主觀的方法,如果沒有找出有用的預測變量可能會導致信息的顯著丟失。問 4 :全球平均溫度的上升導致世界各地的海盜數(shù)量減少。這是否意味著海盜的數(shù)量減少引起氣候變化?答:不能夠這樣說。這是一個“因果關系和相關性”的經(jīng)典案例。全球平均溫度和海盜 數(shù)量之間有可能有相關性, 但基于這些信息, 我們不能說因為全球平均氣溫的上升而導致了 海盜的消失。 我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因,因為可能有其他因素 (潛伏或混雜因素)影響了這一現(xiàn)象。問 5 :給你一個數(shù)據(jù)集,這個數(shù)據(jù)集有缺失值,且這些缺失值分布在離中值有
47、1 個標準偏差的范圍內。百分之多少的數(shù)據(jù)不會受到影響?為什么?答:約有 32%的數(shù)據(jù)將不受缺失值的影響。因為,由于數(shù)據(jù)分布在中位數(shù)附近,讓我們 先假設這是一個正態(tài)分布。 我們知道, 在一個正態(tài)分布中, 約有 68%的數(shù)據(jù)位于跟平均數(shù) (或 眾數(shù)、中位數(shù)) 1 個標準差范圍內, 那么剩下的約 32%的數(shù)據(jù)是不受影響的。 因此,約有 32% 的數(shù)據(jù)將不受缺失值的影響。問 6 :你意識到你的模型受到低偏差和高方差問題的困擾。那么,應該使用哪種算法來 解決問題呢?為什么?答:可以使用 bagging 算法(如隨機森林) 。因為,低偏差意味著模型的預測值接近實際 值,換句話說,該模型有足夠的靈活性,以模
48、仿訓練數(shù)據(jù)的分布。這樣貌似很好,但是別忘 了,一個靈活的模型沒有泛化能力, 意味著當這個模型用在對一個未曾見過的數(shù)據(jù)集進行測 試的時候,它會令人很失望。在這種情況下,我們可以使用bagging 算法(如隨機森林) ,以解決高方差問題。 bagging 算法把數(shù)據(jù)集分成重復隨機取樣形成的子集。然后,這些樣本 利用單個學習算法生成一組模型。接著,利用投票(分類)或平均(回歸)把模型預測結合 在一起。另外,為了應對大方差,我們可以:1.使用正則化技術,懲罰更高的模型系數(shù),從而降低了模型的復雜性。2.使用可變重要性圖表中的前 n個特征。 可以用于當一個算法在數(shù)據(jù)集中的所有變量里 很難尋找到有意義信號的
49、時候。問 7 :協(xié)方差和相關性有什么區(qū)別?答:相關性是協(xié)方差的標準化格式。 協(xié)方差本身很難做比較。 例如:如果我們計算工資 ($)和年齡(歲)的協(xié)方差,因為這兩個變量有不同的度量,所以我們會得到不能做比較 的不同的協(xié)方差。為了解決這個問題,我們計算相關性來得到一個介于-1 和 1 之間的值,就可以忽略它們各自不同的度量。問 8 :真陽性率和召回有什么關系?寫出方程式。答:真陽性率 =召回。它們有相同的公式( TP / TP + FN)。問 9:Gradient boosting算法( GBM)和隨機森林都是基于樹的算法, 它們有什么區(qū)別? 答:最根本的區(qū)別是, 隨機森林算法使用 bagging 技術做出預測; 而 GBM 是采用 boosting 技術做預測的。在 bagging 技術中,數(shù)據(jù)集用隨機采樣的方法被劃分成n 個樣本。然后,使用單一的學習算法,在所有樣本上建模。接著利用投票或者求平均來組合所得到的預測。 bagging 是平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自我評價與發(fā)展計劃
- 2021年山東省泰安市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2023年內蒙古自治區(qū)赤峰市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2024年山東省青島市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2024年增味劑項目資金申請報告代可行性研究報告
- 2024年PCB高純化學品項目資金籌措計劃書代可行性研究報告
- 2025年無機礦物填充塑料項目規(guī)劃申請報告模范
- 2025年盆景及園藝產(chǎn)品項目提案報告
- 2025年電池組配件項目申請報告范文
- 2025年監(jiān)控攝像頭項目申請報告模稿
- 《ISO56001-2024創(chuàng)新管理體系 - 要求》之26:“10改進”解讀和應用指導材料(雷澤佳編制-2024)
- 《ISO56001-2024創(chuàng)新管理體系 - 要求》之23:“8運行-8.3創(chuàng)新過程”解讀和應用指導材料(雷澤佳編制-2024)
- 函數(shù)的零點與方程的解 教學設計 高一上學期數(shù)學人教A版(2019)必修第一冊
- 【安踏集團國際化戰(zhàn)略環(huán)境的PEST分析及SWOT分析4100字(論文)】
- 部編版高中語文必修上冊第二單元測試題及答案
- 2024年高考地理試卷(浙江)(1月)(解析卷)
- 《腸造口并發(fā)癥的分型與分級標準(2023版)》解讀
- 清熱解毒片的復方配伍研究
- 頂管工程安全措施和操作規(guī)程
- 《跟上兔子》繪本三年級第1季One-Day教學課件
- 家長會課件:小學三年級家長會 課件
評論
0/150
提交評論