大數(shù)據(jù)存儲與處理降維_第1頁
大數(shù)據(jù)存儲與處理降維_第2頁
大數(shù)據(jù)存儲與處理降維_第3頁
大數(shù)據(jù)存儲與處理降維_第4頁
大數(shù)據(jù)存儲與處理降維_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)存儲(cn ch)與應用降維課程(kchng)主頁:httppage_id=397陳一帥12021/5/28第一頁,共四十八頁。介紹(jisho)為什么要降維?找出規(guī)律(gul),壓縮數(shù)據(jù)量幾維?22021/5/28第二頁,共四十八頁。降維看起來2維,其實(qsh)1維看起來3維,其實(qsh)2維32021/5/28第三頁,共四十八頁。內(nèi)容(nirng)特征值與特征向量PCA(主元素分析(fnx))Principal-Component AnalysisSVD(奇異值分解)Singular-Value DecompositionCUR分解42021/5/28第四頁,共四十八頁。特征值與

2、特征向量52021/5/28第五頁,共四十八頁。特征值與特征向量定義計算方法Power Iteration尋找(xnzho)特征對(Eigenpairs)特征向量矩陣62021/5/28第六頁,共四十八頁。定義(dngy)M 矩陣, 常數(shù),e非零列向量Me = e唯一確定一個ee為unit vector第一(dy)個非零元素為正72021/5/28第七頁,共四十八頁。一般(ybn)計算方法要 , 的行列式等于0求得然后通過(tnggu)Me = e求e計算復雜度O(n3)82021/5/28第八頁,共四十八頁。Power Iteration方法(fngf)任選(rn xun)一個向量X0遞歸誤

3、差 Frobenius norm 足夠小時,停止這個Xk就是M的主特征向量然后通過 Mx = x 求 x是一個單位向量:X-1 = XT92021/5/28第九頁,共四十八頁。Power Iteration方法(fngf)再找第二個特征對在M中去掉(q dio)第一個主特征向量的因素然后類似計算102021/5/28第十頁,共四十八頁。9、 人的價值,在招收誘惑的一瞬間被決定。2022/9/12022/9/1Thursday, September 1, 202210、低頭要有勇氣,抬頭要有低氣。2022/9/12022/9/12022/9/19/1/2022 10:23:07 PM11、人總是

4、珍惜為得到。2022/9/12022/9/12022/9/1Sep-2201-Sep-2212、人亂于心,不寬余請。2022/9/12022/9/12022/9/1Thursday, September 1, 202213、生氣是拿別人(birn)做錯的事來懲罰自己。2022/9/12022/9/12022/9/12022/9/19/1/202214、抱最大的希望,作最大的努力。01 九月 20222022/9/12022/9/12022/9/115、一個人炫耀什么,說明他內(nèi)心缺少什么。九月 222022/9/12022/9/12022/9/19/1/202216、業(yè)余生活要有意義,不要越軌。

5、2022/9/12022/9/101 September 202217、一個人即使已登上頂峰,也仍要自強不息。2022/9/12022/9/12022/9/12022/9/1112021/5/28第十一頁,共四十八頁。9、 人的價值,在招收(zhoshu)誘惑的一瞬間被決定。2022/9/12022/9/1Thursday, September 1, 202210、低頭要有勇氣,抬頭要有低氣。2022/9/12022/9/12022/9/19/1/2022 10:23:07 PM11、人總是珍惜為得到。2022/9/12022/9/12022/9/1Sep-2201-Sep-2212、人亂于心

6、,不寬余請。2022/9/12022/9/12022/9/1Thursday, September 1, 202213、生氣是拿別人做錯的事來懲罰自己。2022/9/12022/9/12022/9/12022/9/19/1/202214、抱最大的希望,作最大的努力。01 九月 20222022/9/12022/9/12022/9/115、一個人炫耀什么,說明他內(nèi)心缺少什么。九月 222022/9/12022/9/12022/9/19/1/202216、業(yè)余生活要有意義,不要越軌。2022/9/12022/9/101 September 202217、一個人即使已登上頂峰,也仍要自強不息。202

7、2/9/12022/9/12022/9/12022/9/1122021/5/28第十二頁,共四十八頁。特征向量矩陣(j zhn)特征向量是單位向量特征向量之間正交特征向量矩陣(j zhn) E 的特點132021/5/28第十三頁,共四十八頁。PCA142021/5/28第十四頁,共四十八頁。PCA事例使用特征向量進行降維距離(jl)矩陣152021/5/28第十五頁,共四十八頁。原理(yunl)將矩陣與一個正交單位向量矩陣相乘,意味著在歐式空間上的旋轉(zhuǎn)求 的特征矩陣E,對高維數(shù)據(jù)進行旋轉(zhuǎn)原數(shù)據(jù)變成在新的坐標上的投影。新的坐標上,第一維是主特征向量指向的那個(n ge)方向,能量最強以后依次遞

8、減使降維成為可能162021/5/28第十六頁,共四十八頁。原始數(shù)據(jù)按虛線(xxin)旋轉(zhuǎn)逆時針45度旋轉(zhuǎn)(xunzhun)對稱(duchn)陣172021/5/28第十七頁,共四十八頁。在新坐標系上的位置(wi zhi)第一維的能量 第二維的能量,而且它們(t men)正交所以,如果要降到一維,無疑,應該保留第一維,把第二維去掉PCA182021/5/28第十八頁,共四十八頁。SVD192021/5/28第十九頁,共四十八頁。SVD定義降維應用(yngyng)計算202021/5/28第二十頁,共四十八頁。定義(dngy)r 是 A 的 Rank (秩)U:左奇異向量(xingling) L

9、eft singular vectors 單位正交矩陣 :奇異值 Singular values對角陣,V:右奇異向量 Right singular vectors 單位正交矩陣212021/5/28第二十一頁,共四十八頁。例二維M的秩 r = 2科幻(k hun)浪漫(lngmn)用戶(yngh) 概念 矩陣概念強度矩陣電影 概念 矩陣科幻浪漫科幻浪漫222021/5/28第二十二頁,共四十八頁。SVD232021/5/28第二十三頁,共四十八頁。用戶(yngh)電影觀看矩陣科幻(k hun)浪漫(lngmn)用戶 概念 矩陣概念強度矩陣電影 概念 矩陣科幻浪漫科幻浪漫在實際中,U,V中沒有

10、這么多0概念分得沒有這么清242021/5/28第二十四頁,共四十八頁。SVD的理解(lji)V是把電影按照用戶進行概念分類后的結(jié)果五部電影,投影到“科幻(k hun)”“浪漫”兩個概念上252021/5/28第二十五頁,共四十八頁。SVD的理解(lji) 是將用戶按照電影進行(jnxng)概念分類后的結(jié)果7個用戶,投影到“科幻”“浪漫”兩個概念上262021/5/28第二十六頁,共四十八頁?;?jy)SVD的降維降概念(ginin)強度最低那一維用戶 概念(ginin) 矩陣概念強度矩陣電影 概念 矩陣272021/5/28第二十七頁,共四十八頁。降維結(jié)果(ji gu)誤差(wch)評估2

11、82021/5/28第二十八頁,共四十八頁。降維292021/5/28第二十九頁,共四十八頁。證明(zhngmng)為什么去掉(q dio) 最小的那一維,誤差最小?需要證明兩點如果M = PQR 是M的SVD,有qii是Q對角線上的值,也就是302021/5/28第三十頁,共四十八頁。實踐(shjin)中保持8090%的能量(nngling)計算復雜度看哪個小LINPACK, Matlab, SPlus, Mathematica都有實現(xiàn)312021/5/28第三十一頁,共四十八頁。和特征向量的關(guān)系(gun x) 是 的特征值對角(du jio)陣U是 的特征向量矩陣V是 的特征向量矩陣就是P

12、CA的那個旋轉(zhuǎn)矩陣E就可以(ky)用Power Iteration的方法解322021/5/28第三十二頁,共四十八頁。應用(yngyng)已知:趙老師喜歡Matrix,給它評分為5,問:趙老師喜歡什么類型的片?qV計算,把趙老師投影到概念(ginin)空間上332021/5/28第三十三頁,共四十八頁。應用(yngyng)給趙老師推薦什么片?把趙老師的概念(ginin)向量qV,乘視頻的概念向量VT,得到推薦的視頻向量 = 1.64 1.64 1.64 -0.16 -0.16給他推薦異形 342021/5/28第三十四頁,共四十八頁。應用(yngyng)尋找(xnzho)和趙老師興趣相同的人

13、他們雖然看的是不同的片,但發(fā)現(xiàn)了他們的興趣相同通過UI矩陣發(fā)現(xiàn)的352021/5/28第三十五頁,共四十八頁。SVD的問題(wnt)結(jié)果難以解釋(jish)為什么這么多維?U和V很Dense!占空間多362021/5/28第三十六頁,共四十八頁。CUR372021/5/28第三十七頁,共四十八頁。CUR正確(zhngqu)地選擇行/列構(gòu)造中間矩陣消除冗余的行/列382021/5/28第三十八頁,共四十八頁。緣起(yunq)克服SVD的問題M = CUR隨機找c行,組成C選行j的概率P(j) = 其能量(值的平方和)/A的總能量選出后,除它可能(knng)被挑上的次數(shù)的開方好處:好理解,C稀疏3

14、92021/5/28第三十九頁,共四十八頁。求UW是C和R的交集對它SVD: Z+ 偽反 (pseudoinverse)Z中的元素(yun s),如果是0,保持不變;如果非0,取倒數(shù)402021/5/28第四十頁,共四十八頁。性能(xngnng)Drineas et al. 取 行, 列,就能在O(m*n)時間(shjin)內(nèi),以概率 獲得Drineas et al., Fast Monte Carlo Algorithms for Matrices III: Computing a Compressed Approximate Matrix Decomposition, SIAM Journ

15、al on Computing, 2022.412021/5/28第四十一頁,共四十八頁。冗余(rn y)行/列的處理K列相同扔掉K-1列,保留1列對這一列(y li)中的所有值,乘422021/5/28第四十二頁,共四十八頁。比較(bjio)432021/5/28第四十三頁,共四十八頁。實驗(shyn)DBLP作者(zuzh)數(shù)據(jù)作者 會議 矩陣,論文數(shù)428K 作者(行),3659會議(列)做降維CPU時間準確度存儲空間:輸出矩陣中數(shù)值個數(shù)/輸入矩陣中數(shù)值個數(shù)442021/5/28第四十四頁,共四十八頁。性能(xngnng)比較Sun, Faloutsos: Less is More: C

16、ompact Matrix Decomposition for Large Sparse Graphs, SDM 07.452021/5/28第四十五頁,共四十八頁。擴展(kuzhn)SVD線性投影非線性方法 isomap./A Global Geometric Framework for Nonlinear Dimensionality Reduction. J. B. Tenenbaum, V. de Silva and J. C. Langford. Science 290 (5500): 2319-2323,給你698張人臉的圖像(t xin)(6464灰度),通過isomap降維方法將每張臉當做一個點映到二維平面上,使得橫坐標恰好反映人臉左右看的程度,縱坐標反映人臉上下看的程度。462021/5/28第四十六頁,共四十八頁。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論