斯坦福機(jī)器學(xué)習(xí)課程講義和中文筆記-cycleuser翻譯cs229全部12notes低質(zhì)量打包_第1頁
斯坦福機(jī)器學(xué)習(xí)課程講義和中文筆記-cycleuser翻譯cs229全部12notes低質(zhì)量打包_第2頁
斯坦福機(jī)器學(xué)習(xí)課程講義和中文筆記-cycleuser翻譯cs229全部12notes低質(zhì)量打包_第3頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CS229LecturePart主成分分(Principalcomponents前面我們講了因子分析(factorysis),其中在某個k 度子空間對x∈Rn進(jìn)行近似建模,k遠(yuǎn)小于n,即k?n。 維度仿射空間(affinespace){Λz+μ;z∈Rk}中生成某個z(i),然后增加Ψ-協(xié)方差噪音(covariancenoise)。因子分析(factorysis)是基于一個概率模型(probabilistic 然后參數(shù)估計(parameterestimation)使用了迭代期望最大化算法(iterativeEMalgorithm)。 (PrincipalComponents ysis,縮寫為PCA),這個方法 里面可以通過eig函數(shù)輕松假如我們有一個數(shù)據(jù)集{x(i);i=1,...,m},其中包括了m種 umspeed),轉(zhuǎn)彎半徑(urnradus)等等。設(shè)其中每個i都有x(i)∈Rn,(n?m)。但對于兩個不同的屬性,例如xi和xj,對應(yīng)著以英里每小時(mph)為單位的最高速度和以公里每小時(kph)為單位的最高速度。因此這兩個屬性應(yīng)該基本是線性相關(guān)(linearlydependent)的,只在對mph和kph進(jìn)行四舍五入似處于一個n-1維度的子空間中的。我們?nèi)绾巫詣訖z測和刪舉一個不那么麻煩的例子,設(shè)想有一個數(shù)據(jù)集,其中包含的是對一個無線電直升機(jī)(rado-conroledhelcopers)飛行員得到的數(shù)據(jù),其中的x1(i)指代的是i的飛行技能的度量,而x2(i)指代的是該對飛行的喜愛程度。無線電直升機(jī)是很難操作的,只有那些非常投入,并且特別熱愛飛行的學(xué)生,才能成為好的。所以,上面這兩個屬性x1和x2之間的相關(guān)性是非常強(qiáng)的。所以我們可以認(rèn)為在數(shù)據(jù)中沿著對角線方向(也就是下圖中的u1方向)表征了一個人對飛行投入程度的內(nèi)在“源動力(karma)”,只有少量的噪音脫離這個對角線方向。如下圖所示,我們怎么來自動去計算出u1的方向呢?我們接下來很快就要講到主成分分析算法(PCAalgorthm)了。但在運(yùn)行PCA之前,我們首先要進(jìn)行一些預(yù)處理(pre-proces),正則化(normalize)數(shù)據(jù)的均值(mean)和方差 將每個x(i)替換成x(i)?設(shè)將每個x(i)替換成第(1-2)步把數(shù)據(jù)的平均值清零(zeroout),然后可以省略掉所有有零均值的數(shù)據(jù)(例如,對應(yīng)語音或者其他聲學(xué)信號的差(unitvariance),這確保了不同的屬性(attributes)都在同樣的“尺度(scale)”上來進(jìn)行處理。例如,如果x1是汽車的最大速度(以mph為單位,精確到十位),然后x2是汽車的座位數(shù)量(取值一般在2-4),這樣這個重新正則化j(scale),然后這些不同屬性就更具有對比性(morecomparabe)。如果我們事先已經(jīng)知道不同的屬性在同一尺度上,就可以省略第(3-4)步。例如,如果每個數(shù)據(jù)點(diǎn)表示灰度圖像(grayscaleimage)中的每個數(shù)據(jù)點(diǎn),而每個x(i)就從j{0,1,...,255}中取值,對應(yīng)的也就是在圖像i中像素j位置的灰度值(intensityvalue)。“主要變異軸(majoraxisofvariation)”u,該如何去計算呢?法是找出一個單位向量(unitvector)u,使得數(shù)投影在u的方向上的時候,投影的數(shù)據(jù)的方差(variance)最(variance)/信息量(nformaon)。我們要選擇的是這樣一個方向的單位向量u:數(shù)據(jù)能近似投放到與單位向量u的方向(drection)/子空間(ubpace),并且盡可能多地保留上面的方差(variance)。 這些點(diǎn)距離零點(diǎn)也都比較遠(yuǎn)。樣本則如下圖所示,我們選的單位向量u。要對這個過程進(jìn)行方程化(formalize),要注意到給定一個向量u和一個點(diǎn)x,x投影到u上的投影長度就可以用xTu來得到。也就是說,如果x(i)是我們數(shù)據(jù)集中的一個點(diǎn)(上面幾個圖中畫叉的x點(diǎn)中的一個),那么這個點(diǎn)在u上的投影(對應(yīng)的是圖中的圓點(diǎn))就是從原點(diǎn)到xTu面式子最大化的單位長度向量u:Weeasilyrecognizethatizingthissubjectto||u||2=givestheprincipaleigenvector whichisjusttheempiricalcovariancematrixofthedata(assumingithaszeromean).1很容易就能發(fā)現(xiàn),要讓上面的式子最大化,||u||2= 給出的主特征向量(principal總結(jié)一下,如果我們要找一個1維度子控件來近似數(shù)據(jù),就要選擇Σ的主特征向量(principaleigenvector)作為單位向量u。更廣義地理解,就是如果要講數(shù)據(jù)投影到一個k維度子空間(k<n),就應(yīng)當(dāng)選擇Σ的k個特征向量(eigenvectors)來作為單位向量u1,...,uk。這里的ui就形成了數(shù)據(jù)的一組新的正交基(orthogonalbasis)。2然后,要使用這組正交基來表示x(i),只需要計算對應(yīng)的向因此,x(i)Rn,向量y(i)就是對x(i)的近似/表示。因此,主(dimensionalityreductionalgorithm)。而其中的單位向量u1,...,uk也就叫做數(shù)據(jù)集的前k個主成分(principal備注。雖然我們已經(jīng)正式表述了,僅當(dāng)k=1的情況下,使用特征向量(egenvecors)的眾所周知的特性,很明顯,在所有可能的正交基(orthogonalbaes)當(dāng)中,我們選擇的那一組就能使得取最大值。因此,我們對基向量(basis)在習(xí)題集4中,你會發(fā)現(xiàn)主成分分析算法(PCA)也可以有另外一種推導(dǎo)方式:將數(shù)據(jù)投影到數(shù)據(jù)所的k維度子空(approximationerror)就來給出若干樣例。首先是壓縮—用更低維度的y(i)來表示x(i),這很明顯就是一種用途了。如果我們把高維度的數(shù)據(jù)降維到k=2或者3,那么就可以將y(i)進(jìn)行可視化了。例 類型),來看看哪些車彼此相似,以及這些車可以成那些另一個常用應(yīng)用就是在使用x(i)作為輸入特征進(jìn)行監(jiān)督學(xué)習(xí)算法(uperviedlearningalgorhm)之前降低數(shù)據(jù)維度的預(yù)處理步驟。除了有利于緩解計算性能壓力之外,降低數(shù)據(jù)維度還可以降低假設(shè)類(hypohesisclas)的復(fù)雜度(compexy),然后避免過擬合(overfitting)(例如,低維度的輸入特征控件上的線性分類器(inearcasifiers)會有更小的VC維度)最后,正如在直升機(jī)那個樣例,我們可以把PCA用作為一種降噪算法(noisereductionalgorithm)。在那個例子中,算法從對飛行技巧和熱愛程度的有噪音的衡量中估計了直觀的“飛行原動力(pilotingra)”。在課程特征算法(eigenfacemethod)。其中每個點(diǎn)x(i)R100×100都是一個10000維度的向量,每個坐標(biāo)對應(yīng)的是一個100x100 y(i)來表示每個圖x(i)。在這個過程中,我們希望主成分(principalcomponents)“噪音(s)”。然后我們通過降低緯度然后計算||y(i)?y(j)||2來測量面孔i和j之間的距離。這樣就能得到一個令人驚艷的面部匹配和檢索算法(face-m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論