計算機專業(yè)研究生復試-機器學習面試簡答題_第1頁
計算機專業(yè)研究生復試-機器學習面試簡答題_第2頁
計算機專業(yè)研究生復試-機器學習面試簡答題_第3頁
計算機專業(yè)研究生復試-機器學習面試簡答題_第4頁
計算機專業(yè)研究生復試-機器學習面試簡答題_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習問題整理什么是梯度爆炸和梯度消失?如何解決梯度消失、梯度爆炸?在反向傳播過程中需要對激活函數(shù)進行求導,如果導數(shù)大于1,那么隨著網絡層數(shù)的增加梯度更新將會朝著指數(shù)爆炸的方式增加這就是梯度爆炸。同樣如果導數(shù)小于1,那么隨著網絡層數(shù)的增加梯度更新信息會朝著指數(shù)衰減的方式減少這就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向傳播訓練法則,屬于先天不足。解決方法:對于RNN,可以通過梯度截斷,避免梯度爆炸??梢酝ㄟ^添加正則項,避免梯度爆炸。使用LSTM等自循環(huán)和門控制機制,避免梯度消失。優(yōu)化激活函數(shù),譬如將sigmoid改為relu,避免梯度消失。數(shù)據(jù)挖掘是干什么的?數(shù)據(jù)挖掘:數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,包含了機器學習、統(tǒng)計學、數(shù)學等多個學科的知識。數(shù)據(jù)挖掘三大常見的任務:回歸任務:回歸任務是一種對連續(xù)型隨機變量進行預測和建模的監(jiān)督學習算法,使用案例包括房價預測、股票走勢等。分類任務:分類是一種對離散型變量建?;蝾A測的監(jiān)督學習算法,使用案例包括郵件過濾、金融欺詐等。聚類任務:聚類是一種無監(jiān)督學習,它是基于數(shù)據(jù)的內部結構尋找觀察樣本的自然族群(集群),使用案例包括新聞聚類、文章推薦等。更廣泛的任務還有推薦、圖像識別、預測等相關算法。監(jiān)督學習:數(shù)據(jù)集中每個樣本都有相應的標簽。無監(jiān)督學習:數(shù)據(jù)集中的樣本沒有相應的標簽。無監(jiān)督學習算法(UnsupervisedLearning)使用無標記數(shù)據(jù)(輸入變量沒有對應輸出結果),試圖識別數(shù)據(jù)本身的內部結構。無監(jiān)督學習算法主要有兩類:降維算法(降低數(shù)據(jù)維度)如主成分分析等,聚類算法如K均值聚類、層次聚類等?;貧w模型從大量的函數(shù)結果和自變量反推回函數(shù)表達式的過程就是回歸。回歸算法是一種有監(jiān)督學習算法,用來建立自變量X和觀測變量Y之間的映射關系,如果觀測變量是離散的,則稱其為分類Classification;如果觀測變量是連續(xù)的,則稱其為回歸Regression。線性回歸模型試圖學得一個線性模型以盡可能準確地預測實值X的輸出標記Y。在這個模型中,因變量Y是連續(xù)的,自變量X可以是連續(xù)或離散的。邏輯回歸:因變量是定性變量,是分類問題。logistic回歸則通過函數(shù)sigmoid將ax+b對應到到(0,1),從而完成概率的估測。在回歸分析中,如果只包括一個自變量和一個因變量,且二者關系可用一條直線近似表示,稱為一元線性回歸分析;如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量是線性關系,則稱為多元線性回歸分析。對于二維空間線性是一條直線,對于三維空間線性是一個平面,對于多維空間線性是一個超平面。優(yōu)點:1、模型簡單,訓練速度快;2、邏輯回歸廣泛應用與工業(yè)問題上。3、便利的觀測樣本概率分數(shù);4、對邏輯回歸而言,多重共線性并不是問題,它可以結合L2正則化來解決該問題;5、計算代價不高,易于理解和實現(xiàn);缺點:1、特征空間大時邏輯回歸的性能不是很好;2、對于非線性特征需要轉換;3、依賴于全部數(shù)據(jù);4、容易欠擬合,一般準確度不太高;不能很好地處理大量多類特征或變量;5、只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類,也可以使用一對多分類。),且必須線性可分;對于非線性特征,需要進行轉換 典型例子:線性回歸求房價、自變量求導。邏輯回歸:MINST數(shù)據(jù)集、鳶(yuan)尾花數(shù)據(jù)集(iris數(shù)據(jù)集)k-means算法(k均值算法)聚類算法。K-means是我們最常用的基于歐式距離的聚類算法,其認為兩個目標的距離越近,相似度越大。聚類算法,事先確定常數(shù)k,k代表著聚類類別數(shù)。首先隨機選取k個初始點為質心,并通過計算每一個樣本與質心之間的相似度(可以采用歐式距離),將樣本點歸到最相似的類中,接著重新計算每個類的質心(該類中所有點的平均值),重復這樣的過程直到質心不再改變,最終就確定了每個樣本所屬的類別以及每個類的質心。優(yōu)點:原理簡單、容易實現(xiàn)。缺點:收斂太慢、算法復雜度高、需先確定K的個數(shù)、結果不一定是全局最優(yōu),只能保證局部最優(yōu)。典型的例子:葡萄酒分類kNN(k近鄰)學習思路:給定測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測。通常,在分類任務中可使用“投票法”,即選擇這k個樣本中出現(xiàn)最多的類別標記作為預測結果;在回歸任務中可使用“平均法”,即將這k個樣本的實值輸出標記的平均值作為預測結果;還可基于距離遠近進行加權平均或加權投票,距離越近的樣本權重越大。優(yōu)點:1、思想簡單,易于理解,易于實現(xiàn),無需估計參數(shù),無需訓練;2、適合對稀有事件進行分類;3、特別適用于多分類問題缺點:1、需要計算出待測樣本與所有樣本的距離,計算量大2、樣本不平衡時影響大3、適用的特征維度低決策樹(ID3算法和C4.5算法)概述決策樹是一種簡單高效并且具有強解釋性的模型,廣泛應用于數(shù)據(jù)分析領域。其本質是一顆由多個判斷節(jié)點組成的樹。在使用模型進行預測時,根據(jù)輸入?yún)?shù)依次在各個判斷節(jié)點進行判斷游走,最后到葉子節(jié)點即為預測結果。決策樹學習通常包括3個步驟:特征選擇、決策樹的生成和決策樹的修剪。決策樹算法的核心是通過對數(shù)據(jù)的學習,選定判斷節(jié)點,構造一顆合適的決策樹。決策樹既可以作為分類算法,也可以作為回歸算法,同時也特別適合集成學習比如隨機森林。ID3算法的核心是在決策樹各個節(jié)點上應用信息增益(屬性有3個取值的比2個取值的增益大)準則選擇特征,遞歸地構建決策樹。C4.5在生成的過程中,用信息增益比來選擇特征。構造決策樹的主要步驟遍歷每個決策條件,對結果集進行拆分。計算在該決策條件下,所有可能的拆分情況的信息增益,信息增益最大的拆分為本次最優(yōu)拆分。直至信息增益<=0。決策樹的剪枝方式剪枝(pruning)是決策樹學習算法對付“過擬合”的主要手段。決策樹剪枝的基本策略有“預剪枝”和“后剪枝”。預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當前結點標記為葉結點;后剪枝則是先從訓練集生成一棵完整的決策樹,然后自底向上地對非葉節(jié)點進行考察,若將該結點對應的子樹替換為葉節(jié)點能帶來決策樹泛化性能提升,則將該子樹替換為葉結點。優(yōu)點:1、容易可視化,清晰表達屬性的重要程度;2、算法完全不受數(shù)據(jù)縮放的影響,決策樹算法不需要特征預處理,比如歸一化或標準化,計算量較?。?、特別特征的尺度完全不一樣時或者二元特征和連續(xù)特征同時存在時,決策樹的效果很好。4、可增量學習對模型進行部分重構5、不需要任何領域知識和參數(shù)假設6、適合高維數(shù)據(jù)缺點:1、沒有考慮屬性間依賴2、容易過擬合,通過剪枝緩解3、不可用于推測屬性缺失的樣本隨機森林模型集成學習集成學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和做出預測。這些預測最后結合成單預測,因此優(yōu)于任何一個單分類的做出預測。隨機森林算法隨機森林其實算是一種集成算法。它首先隨機選取不同的特征(feature)和訓練樣本(trainingsample),生成大量的決策樹,然后綜合這些決策樹的結果來進行最終的分類。隨機森林算法是最常用也是最強大的監(jiān)督學習算法之一,它兼顧了解決回歸問題和分類問題的能力。隨機森林是通過集成學習的思想,將多棵決策樹進行集成的算法。對于分類問題,其輸出的類別是由個別樹輸出的眾數(shù)所決定的。在回歸問題中,把每一棵決策樹的輸出進行平均得到最終的回歸結果。決策樹的數(shù)量越大,隨機森林算法的魯棒性越強,精確度越高。隨機森林算法的步驟:首先,對樣本數(shù)據(jù)進行有放回的抽樣,得到多個樣本集。具體來講就是每次從原來的N個訓練樣本中有放回地隨機抽取N個樣本(包括可能重復樣本)。然后,從候選的特征中隨機抽取m個特征,作為當前節(jié)點下決策的備選特征,從這些特征中選擇最好的劃分訓練樣本的特征。用每個樣本集作為訓練樣本構造決策樹。單個決策樹在產生樣本集和確定特征后,使用CART算法計算,不剪枝。最后,得到所需數(shù)目的決策樹后,隨機森林方法對這些樹的輸出進行投票,以得票最多的類作為隨機森林的決策。隨機森林的特點在當前的很多數(shù)據(jù)集上,相對其他算法有著很大的優(yōu)勢能夠處理具有高維特征的輸入樣本,而且不需要做特征選擇或降維能夠評估各個特征在分類問題上的重要性能夠有效地運行在大數(shù)據(jù)集上在訓練過程中,能夠檢測到特征間的互相影響,對不平衡的數(shù)據(jù)集可以平衡誤差對于缺省值問題也能夠獲得很好的結果SVM(支持向量機)SVM的全稱是SupportVectorMachine,即支持向量機,主要用于解決模式識別領域中的數(shù)據(jù)分類問題,屬于有監(jiān)督學習算法的一種。SVM的核心思想就是找到不同類別之間的分界面,使得兩類樣本盡量落在面的兩邊,而且離分界面盡量遠,從而對新的數(shù)據(jù)分類更準確,即使分類器更加健壯。支持向量(SupportVetor):就是離分隔超平面最近的那些點。SVM是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,其學習策略便是間隔最大化,最終可轉化為一個凸二次規(guī)劃問題的求解。SVM分類,就是找到一個超平面,讓兩個分類集合的支持向量或者所有的數(shù)據(jù)(LSSVM)離分類平面最遠;SVR回歸,就是找到一個回歸平面,讓一個集合的所有數(shù)據(jù)到該平面的距離最近。SVR是支持向量回歸(supportvectorregression)的英文縮寫,是支持向量機(SVM)的重要的應用分支。優(yōu)點:SVM只側重于支持向量,無需依賴整個數(shù)據(jù),可解決小樣本的機器學習任務可解決高維問題可通過核方法解決非線性問題無局部極小值問題;(相對于神經網絡等算法)缺點:內存消耗大,當觀測樣本很多時,效率并不是很高;對非線性問題沒有通用解決方案,有時候很難找到一個合適的核函數(shù);對于核函數(shù)的高維映射解釋力不強,尤其是徑向基函數(shù)。常規(guī)SVM只支持二分類;對缺失數(shù)據(jù)敏感;SVM運行和調參也有些煩人,而隨機森林卻剛好避開了這些缺點,比較實用。樸素貝葉斯(naiveBayes)樸素貝葉斯(naiveBayes)法是一種基于貝葉斯定理與特征條件獨立假設的分類方法。葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最?,就認為此待分類項屬于哪個類別。樸素貝葉斯樸素體現(xiàn)在兩個假設:一個特征出現(xiàn)的概率與其他特征(條件)獨立。每個特征同等重要。整個樸素貝葉斯分類分為三個階段:第?階段——準備?作階段,對每個特征屬性進?適當劃分,并選取訓練樣本集合。分類器的質量很?程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。第?階段——分類器訓練階段,這個階段的任務就是?成分類器,基于特征條件獨立假設學習輸入輸出的聯(lián)合概率分布。這?階段是機械性階段,根據(jù)前?討論的公式可以由程序?動計算完成。第三階段——應?階段。這個階段的任務是使?分類器對待分類項進?分類,對給定的輸入x,利用貝葉斯定理求出后驗概率最大的輸出y。其輸?是分類器和待分類項,輸出是待分類項與類別的映射關系。這?階段也是機械性階段,由程序完成。樸素貝葉斯是經典的機器學習算法之一,也是為數(shù)不多的基于概率論的分類算法。樸素貝葉斯原理簡單,也很容易實現(xiàn),學習與預測的效率都很高,多用于文本分類,比如垃圾郵件過濾。優(yōu)點:1、計算量較小2、支持懶惰學習、增量學習3、對缺失數(shù)據(jù)不太敏感4、推斷即查表,速度極快。缺點:1、沒有考慮屬性間依賴2、通過類先驗概率產生模型

神經網絡部分基礎神經網絡架構及常用名詞激活函數(shù):激活函數(shù)的作用是把數(shù)據(jù)映射到高維的空間中進而使數(shù)據(jù)變得線性可分。常見有邏輯函數(shù)sigmoid、正切函數(shù)tanh、線性整流函數(shù)ReLU等等。損失函數(shù):衡量模型輸出與真實標簽的差異。常見的有距離損失函數(shù)MSE、交叉熵損失函數(shù)和log-likehood函數(shù)。學習率:學習率能夠使目標函數(shù)在合適的時間內收斂到局部最小值,當學習率設置的過小時,收斂過程將變得十分緩慢。而當學習率設置的過大時,梯度可能會在最小值附近來回震蕩,甚至可能無法收斂。BP(backpropagation,多層前饋)神經網絡BP神經網絡是一種多層的前饋神經網絡,其主要的特點是:信號是前向傳播的,而誤差是反向傳播的。它的基本思想是梯度下降法,利用梯度搜索技術,以期使網絡的實際輸出值和期望輸出值的誤差均方差為最小。BP網絡可在輸入層與輸出層之間增加若干隱含層,每一層可以有若干個節(jié)點,它們與外界沒有直接的聯(lián)系,但其狀態(tài)的改變,則能影響輸入與輸出之間的關系。BP算法的學習過程由正向傳播過程和反向傳播過程組成。在正向傳播過程中,輸入信息通過輸入層經隱含層,逐層處理并傳向輸出層。如果在輸出層得不到期望的輸出值,則通過損失函數(shù)計算輸出與期望的誤差,轉入反向傳播,逐層求出目標函數(shù)對各神經元權值的偏導數(shù),構成目標函數(shù)對權值向量的梯量,作為修改權值的依據(jù),網絡的學習在權值修改過程中完成。誤差達到所期望值時,網絡學習結束。循環(huán)神經網絡RNN、LSTM網絡:RNN提出:對時間序列上的變化進行建模,然而,樣本出現(xiàn)的時間順序對于自然語言處理、語音識別等應用很重要;RNN解決了樣本的處理在各個時刻獨立的問題,可以對時間序列上的變化進行建模,深度是時間上的長度。神經元的輸出可以在下一個時間戳直接作用到自身。即,某一層某一時刻神經元的輸入,除了上一層神經元在該時刻的輸出外,還有本身在上一時刻的輸出。缺點:時間軸上的“梯度消失”,為解決這個問題——>長短時記憶單元LSTM:通過門的開關實現(xiàn)時間上記憶功能,防止梯度消失。通過刻意的設計來避免長期依賴問題。LSTM核心:通過門的開關實現(xiàn)時間上記憶功能,防止梯度消失。通過刻意的設計來避免長期依賴問題。具有利用“門”的結構來去除或增加信息到細胞狀態(tài)的能力,有三個門。門:讓信息選擇通過的方法,包括sigmoid神經網絡層和一個點乘操作。忘記門層:決定從細胞狀態(tài)中丟棄什么信息。讀取本層的輸入和上一層的輸出,輸出一個0到1之間的數(shù)值給每個細胞狀態(tài)。確定什么樣的信息被存放在細胞狀態(tài)中,包含兩個部分:1)sigmoid“輸入門層”,決定什么值將要更新。2)tanh層,創(chuàng)建一個新的候選值向量。會被加到狀態(tài)中。更新細胞狀態(tài)?;诩毎麪顟B(tài)確定輸出什么值CNN網絡提出:全連接的結構下會引起參數(shù)數(shù)量的膨脹,容易過擬合且局部最優(yōu)。圖像中有固有的局部模式可以利用,所以,提出了CNN,并不是所有上下層神經元都能直接相連,而是通過“卷積核”作為中介。同一個卷積核在所有圖像內都是共享的,圖像通過卷積操作后仍然保留原來的位置關系。通過多個“卷積層”和“采樣層”對輸入信號進行加工,然后再連接層實現(xiàn)與輸出目標之間的映射。多層的目的:一層卷積學到的特征往往是局部的,層數(shù)越高,學到的特征就越全局化。CNN特點:局部感知:一般認為圖像的空間聯(lián)系是局部的像素聯(lián)系比較密切,而距離較遠的像素相關性較弱,因此,每個神經元沒必要對全局圖像進行感知,只要對局部進行感知,然后在更高層將局部的信息綜合起來得到全局信息。利用卷積層實現(xiàn):(特征映射,每個特征映射是一個神經元陣列):從上一層通過局部卷積濾波器提取局部特征。卷積層緊跟著一個用來求局部平均與二次提取的計算層,這種二次特征提取結構減少了特征分辨率。參數(shù)共享:在局部連接中,每個神經元的參數(shù)都是一樣的,即:同一個卷積核在圖像中都是共享的。(理解:卷積操作實際是在提取一個個局部信息,而局部信息的一些統(tǒng)計特性和其他部分是一樣的,也就意味著這部分學到的特征也可以用到另一部分上。所以對圖像上的所有位置,都能使用同樣的學習特征。)卷積核共享有個問題:提取特征不充分,可以通過增加多個卷積核來彌補,可以學習多種特征。采樣(池化)層:在通過卷積得到特征后,希望利用這些特征進行分類?;诰植肯嚓P性原理進行亞采樣,在減少數(shù)據(jù)量的同時保留有用信息。(壓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論