基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)_第1頁(yè)
基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)_第2頁(yè)
基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)_第3頁(yè)
基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)_第4頁(yè)
基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于高階奇異值分解的手寫(xiě)數(shù)字分類(lèi)摘要在這篇文章中,我們提出了兩個(gè)基于高階奇異值分解〔HOSVD〕的手寫(xiě)數(shù)字分類(lèi)的算法。第一個(gè)算法用HOSVD進(jìn)行類(lèi)模型的建立,使得分類(lèi)結(jié)果的錯(cuò)誤率小于6%。第二種算法用HOSVD同時(shí)在兩個(gè)模型中進(jìn)行張量近似。第二種算法在把原始數(shù)據(jù)減少約98%后,仍然使分類(lèi)的錯(cuò)誤率小于5%。兩種算法在進(jìn)行分類(lèi)的檢驗(yàn)階段,都是通過(guò)一系列最小方差來(lái)實(shí)現(xiàn)分類(lèi)的。從計(jì)算量的角度考慮,第二種算法是第一種算法效率的兩倍。1、簡(jiǎn)介手寫(xiě)數(shù)字的自動(dòng)分類(lèi)常被看是一個(gè)標(biāo)準(zhǔn)的模式識(shí)別問(wèn)題,它包含了這一領(lǐng)域的很多難點(diǎn)。由于同一類(lèi)中各個(gè)對(duì)象之間的變化非常大,同時(shí)不同類(lèi)之間的對(duì)象有非常相似,所以把一個(gè)未知的數(shù)據(jù)劃分到十個(gè)確定類(lèi)別中的某一個(gè)是一個(gè)非常困難的過(guò)程。解決這一問(wèn)題有許多不同的方法,例如:主成分分析法〔PCA〕、支持向量法〔SVM〕、最鄰近法和k-臨近法,回歸、統(tǒng)計(jì)模型和神經(jīng)網(wǎng)絡(luò)等。關(guān)于不同模式識(shí)別方法的研究可以再參考文獻(xiàn)[1,2]中查閱。對(duì)于手寫(xiě)數(shù)字分類(lèi)的不同算法的比擬可以在參考文獻(xiàn)[3]中找到。其中,表現(xiàn)最好的算法是基于神經(jīng)網(wǎng)絡(luò)和在局部仿射變換下測(cè)量不變性的正切距離方法來(lái)實(shí)現(xiàn)的。其他算法可以再參考文獻(xiàn)[6,7,8]中查閱。通常,表現(xiàn)好的算法表述比擬復(fù)雜或者計(jì)算量非常的。在這篇文章中,我們提出了兩種結(jié)果很好,同時(shí)比擬簡(jiǎn)單、高效的算法。這兩種算法都是基于對(duì)張量的HOSVD。第一種算法通過(guò)HOSVD計(jì)算得到每一個(gè)類(lèi)的一個(gè)小的基矩陣的集合,這個(gè)集合包含了這個(gè)類(lèi)中所有數(shù)據(jù)的主要的子空間。這些子空間然后用來(lái)描述未知的數(shù)據(jù)。這個(gè)算法和SIMCA、PCA比擬類(lèi)似。第二種算法使用HOSVD對(duì)訓(xùn)練集合進(jìn)行壓縮。每個(gè)類(lèi)的模型都是通過(guò)壓縮的訓(xùn)練集合建立的,分類(lèi)的過(guò)程和第一個(gè)算法相同。它的優(yōu)點(diǎn)有兩個(gè):一個(gè)是各個(gè)類(lèi)的模型的描述需要的內(nèi)存更少,另一個(gè)是在結(jié)果沒(méi)有變差的情況下算法更加高效。這個(gè)算法即使在訓(xùn)練集合壓縮98%后仍然能使分類(lèi)的錯(cuò)誤率小于5%。近年來(lái),應(yīng)用張量方法解決問(wèn)題在模式識(shí)別和其他各個(gè)領(lǐng)域引起了越來(lái)越多的關(guān)注。我們所說(shuō)的張量是指多維的或多模的數(shù)組。通常,數(shù)據(jù)是一種多維的結(jié)構(gòu),把它們存儲(chǔ)在矩陣或者向量中不是很合理。一個(gè)簡(jiǎn)單的例子就是一組時(shí)間序列的圖像。每一幅圖像都是一個(gè)二維的數(shù)據(jù)數(shù)組,把不同時(shí)間序列的圖像放在一起共同構(gòu)成了一個(gè)張量。通常,這種方法有利于在存儲(chǔ)數(shù)據(jù)的過(guò)程中不破壞內(nèi)在的多維間的結(jié)構(gòu)。張量方法在化學(xué)測(cè)量和心理測(cè)量已經(jīng)應(yīng)用了很長(zhǎng)時(shí)間。最近,HOSVD已經(jīng)應(yīng)用到人臉識(shí)別。在這篇文章中,我們使用USPS數(shù)據(jù)庫(kù)中的手寫(xiě)數(shù)字對(duì)我們提出的算法進(jìn)行測(cè)試。這些數(shù)字是從信封上掃描的到的大小為1616的灰度圖像。這個(gè)數(shù)據(jù)庫(kù)被廣泛應(yīng)用到分類(lèi)算分的測(cè)評(píng)中。這篇文章后面的局部是這樣安排的:第二局部包含張量概念的介紹以及一些本文提出的算法所涉及的張量理論的結(jié)論。第三局部論述了兩種算法。第四局部對(duì)數(shù)據(jù)的測(cè)試進(jìn)行了論述,并對(duì)數(shù)據(jù)集合進(jìn)行了更加詳細(xì)的介紹。這些算法將使用偽matlab代碼進(jìn)行演示。因此,在代碼例子中我們將使用A(I,j,k)這個(gè)記號(hào)代表aijk。同樣,在式子中我們也將用一些matlab類(lèi)型的符號(hào)。例如,我們定義1維-模指三階張量A按照的列向量展開(kāi)。其它維的模的定義非常明顯。因此,維是通過(guò)固定其中出了一個(gè)之外的所有參數(shù)來(lái)定義的。類(lèi)似的,我們定義一個(gè)張量的局部是固定其中的一個(gè)參數(shù)來(lái)確定的子張量。2、張量的概念粗略地說(shuō),一個(gè)N階張量就是一個(gè)對(duì)象包括N個(gè)參數(shù)。張量的維是指張量的模。向量和矩陣可以分別看作是一階和二階的張量。在這篇文章中,我們應(yīng)用的是三階張量。因此,為了描述方便,在這節(jié)中我們的一些理論的論述僅僅針對(duì)三階張量I,J,K是正整數(shù);的向量空間的維數(shù)是IJK。通常的任意維的張量的概念也與此類(lèi)似。設(shè)是普通的歐式空間幾何。定義張量的標(biāo)量乘積為兩個(gè)張量A,B正交是指它們的標(biāo)量乘積等于零張量A的模定義為張量和矩陣的標(biāo)量乘積和模的定義與此相類(lèi)似。有時(shí)常將一個(gè)張量重新排列成一個(gè)矩陣。我們把這個(gè)過(guò)程叫做矩陣化一個(gè)張量。n-模矩陣化一個(gè)張量K是指將K的n維-參數(shù)排列成一個(gè)矩陣的列向量得到的矩陣,記作。我們可以假設(shè)的列向量的排列是一種正向循環(huán)的方式。那么,矩陣化一個(gè)三階張量可以定義為A中的一個(gè)參數(shù)在矩陣中需要指出的是中的列向量是A的n維-參數(shù)。沒(méi)有一個(gè)確定的從矩陣的秩的定義角度來(lái)概括高階張量的秩的方法。一個(gè)可行的方法是定義張量A的n-秩為A的n-模子空間的維數(shù)是指n-模矩陣化的張量A的矩陣,沒(méi)有特別說(shuō)明rank是指矩陣的秩。容易證明一個(gè)三階張量的不同的n-秩通常是不同于同樣的矩陣。我們現(xiàn)在給出一個(gè)通常的張量-矩陣乘法的概念。定義1〔n-模張量-矩陣乘法〕設(shè),。那么n-模張量-矩陣乘法可以定義為例如,張量,矩陣的1-模乘積為給出張量,和矩陣,,張量-矩陣乘法滿(mǎn)足下面的性質(zhì),由于的列向量是張量A的n維的元素,所以n-模乘法可以被看作是n-模矩陣化張量B得到,先進(jìn)行普通的矩陣相乘,然后將重新排列成張量B。2.1高階奇異值分解矩陣的奇異值分解〔SVD〕在很多應(yīng)用中是一個(gè)非常有用的工具。不失普遍性,我們?cè)O(shè)矩陣,滿(mǎn)足mn。結(jié)論2〔矩陣的SVD〕任何矩陣可以寫(xiě)成下面的乘積,其中是正交的矩陣,∑是一個(gè)非負(fù)的對(duì)角矩陣,滿(mǎn)足以下性質(zhì):U和V的列向量分別稱(chēng)作左奇異向量、右奇異向量,是奇異值。奇異值分解的證明可以再參考文獻(xiàn)[16]中查閱。如果把矩陣看作是一個(gè)二階的張量,那么可以把SVD看作是n-模的乘積。一個(gè)可行的關(guān)于張量的奇異值分解的概括可以在參考文獻(xiàn)[9]中查閱,這種分解稱(chēng)作HOSVD。我們論述對(duì)于三階張量的HOSVD。結(jié)論3〔HOSVD〕三階張量可以寫(xiě)成下面的乘積,包含以下性質(zhì):,都是正交的矩陣。是一個(gè)和的維數(shù)相同的張量,并且QUOTE滿(mǎn)足以下性質(zhì)〔a〕〔完全正交性〕同一模中的兩個(gè)不同局部滿(mǎn)足正交性,〔b〕〔排列性質(zhì)〕每個(gè)模的不同局部的模長(zhǎng)都是按照同樣的序列排列的。例如,第一模的各個(gè)局部的模長(zhǎng)滿(mǎn)足式子〔13〕中的模長(zhǎng),實(shí)際上就是矩陣化張量的奇異值。在式子〔13〕中的排列的性質(zhì),可也粗略的看作是:核張量的“能量〞或者“主要局部〞集中在〔1,1,1〕這個(gè)角落附近。這個(gè)性質(zhì)使我們可以用HOSVD進(jìn)行數(shù)據(jù)壓縮。對(duì)張量的HOSVD的計(jì)算,可以通過(guò)分別計(jì)算,n=1,2,3,的左奇異矩陣,滿(mǎn)足正交性的U、V、W來(lái)實(shí)現(xiàn)。計(jì)算以下三個(gè)SVD:不需要明確地求出。計(jì)算核張量需要指出的是,我們可以利用一些常理,例如由于,所以防止計(jì)算右奇異值矩陣,從而減少了大量的浮點(diǎn)運(yùn)算。2.2基于HOSVD的張量近似在矩陣數(shù)據(jù)的壓縮中,經(jīng)常使用低秩的近似:對(duì)于滿(mǎn)足正交性的模長(zhǎng)不變的情況下,對(duì)于一個(gè)給定矩陣F最正確的k階秩近似可以通過(guò)SVD來(lái)實(shí)現(xiàn)[16],其中,,Uk、Vk分別是U、V的前k列。這種近似可以通過(guò)圖二明顯的演示。由于存在式子〔13〕中的排列性質(zhì),張量的近似可以通過(guò)HOSVD以類(lèi)似的方法實(shí)現(xiàn)。然而,通常的張量近似在式子〔3〕中的定義的模中并不是最優(yōu)的方法。對(duì)于一個(gè)三階張量的近似,可以寫(xiě)成以下形式這里,QUOTE。一種度量張量近似結(jié)果好壞的方法就是測(cè)量張量的n模奇異值下降的大?。喝绻藦埩縌UOTE的模省略的局部比擬小,那么近似的錯(cuò)誤也比擬小。圖三中演示了張量的低階近似。2.3正交基矩陣一個(gè)矩陣F可以寫(xiě)成是秩為一的SVD的和三階張量也可以實(shí)現(xiàn)類(lèi)似的分解,其中,需要指出的是,是矩陣Av和向量wv之間的矢量乘積,相乘的結(jié)果是三階的張量。由于滿(mǎn)足完全正交性,所以Av也是正交的:當(dāng)vu的時(shí)候?!财渲校瑃r是指計(jì)算跡〕。這些正交的矩陣可以看做是一組線(xiàn)性獨(dú)立的基矩陣。圖四是它的演示。方塊代表Av,它上面的線(xiàn)是指向量wv,它們一起表示三模的向量積。3、算法3.1算法一:基于HOSVD的分類(lèi)這一節(jié)我們將論述如何使用HOSVD建立手寫(xiě)數(shù)字分類(lèi)的算法。訓(xùn)練集合的數(shù)據(jù)進(jìn)行了人工的分類(lèi)。把每個(gè)數(shù)據(jù)看作是空間的點(diǎn),可以認(rèn)為訓(xùn)練集合中的數(shù)據(jù)形成了十個(gè)別離的很好的聚類(lèi),否那么分類(lèi)算法的運(yùn)行結(jié)果會(huì)非常差。同時(shí),每一個(gè)聚類(lèi)中的主要向量包含了的子空間。我們使用一種變化了的SIMCA算法,給每一個(gè)類(lèi)建立一個(gè)正交的基矩陣的小集合。每個(gè)類(lèi)的基矩陣的集合包含了這個(gè)類(lèi)子空間的主要局部。然后,當(dāng)我們決定哪個(gè)基能最好的描述一個(gè)未知數(shù)據(jù),我們就計(jì)算用著十個(gè)類(lèi)分別近似這個(gè)數(shù)據(jù)的誤差。我們使用HOSVD來(lái)計(jì)算不同的基矩陣集合。3.1.1訓(xùn)練階段正交基矩陣的集合是通過(guò)2.3節(jié)的方法來(lái)進(jìn)行計(jì)算的。每一個(gè)類(lèi)的基是通過(guò)對(duì)相同的訓(xùn)練數(shù)據(jù)構(gòu)成的三階張量的計(jì)算得到的。設(shè)是一個(gè)包含2的張量,它已經(jīng)進(jìn)行了HOSVD。由式子〔16〕可知這里,是正交的基矩陣。同時(shí)也說(shuō)明,中的每一個(gè)數(shù)據(jù)都是的唯一確定的線(xiàn)性組合。線(xiàn)性組合的系數(shù)就是向量QUOTE中的元素。我們可以用圖五演示式子〔17〕中任意一個(gè)中的2都是的一個(gè)線(xiàn)性組合。這些系數(shù)可以看做是第三模向量上的點(diǎn)。我們截取式子〔17〕中和的一局部得到每個(gè)聚類(lèi)的一個(gè)k維的小的子空間。假設(shè)我們得到所有類(lèi)的基,每個(gè)基包含k個(gè)基矩陣,并指出同時(shí),假設(shè)基矩陣都是歸一化的。那么這里是Kroneckerdelta。設(shè)D是未知數(shù)據(jù),且D已經(jīng)歸一化,即QUOTE。哪個(gè)基矩陣集合是描述D的最好方式呢?3.1.2測(cè)試階段考慮最下化問(wèn)題指類(lèi)別的標(biāo)號(hào),式中是未知的要確定的標(biāo)量。這是一個(gè)最小方差問(wèn)題。由于對(duì)固定的,都是正交的所以可以很容易求得:求解的方法是有一個(gè)非常有意思的地方是是兩個(gè)矩陣D和的夾角的cosine值,把這個(gè)求法帶入到式子〔18〕中,應(yīng)用基矩陣的正交性可以得到以下模的平方的表達(dá)式,我們現(xiàn)在把D劃分到使得R(u)取得最小值的u這一類(lèi)中。算法一是分類(lèi)的算法的總結(jié),算法的結(jié)果在4.3節(jié)中給出。算法一基于HOSVD的分類(lèi)訓(xùn)練階段把相同的訓(xùn)練數(shù)據(jù)排列到同一個(gè)張量中。計(jì)算每個(gè)張量的HOSVD。計(jì)算并存儲(chǔ)歸一化的基矩陣QUOTEu=0,1,…,9。測(cè)試階段把未知數(shù)據(jù)歸一化。計(jì)算,u=0,1,…,9。確定使得R(u)得到最小值的u,并把D劃分到u這一類(lèi)。3.2算法2:基于HOSVD的壓縮和分類(lèi)在計(jì)算不同類(lèi)的基向量前可以用HOSVD進(jìn)行數(shù)據(jù)壓縮。這是算法二后面的主要思想,也是這篇論文的主要奉獻(xiàn)。這與矩陣的低階秩近似相類(lèi)似。就計(jì)算效率的改良而言,所有類(lèi)中的數(shù)據(jù)都投影到了一個(gè)共同的子空間。因此,一個(gè)未知的數(shù)據(jù)只需投影一次。如果不同類(lèi)有不同的子空間,那我們就不得不把這個(gè)未知數(shù)據(jù)投影到每一個(gè)子空間。這樣,算法的測(cè)試階段將需要大的非常多的計(jì)算量和內(nèi)存。3.2.1訓(xùn)練階段首先我們建立一個(gè)包含訓(xùn)練集中的每一個(gè)數(shù)據(jù)的張量。數(shù)據(jù)將如圖六所示進(jìn)行組織。所有的數(shù)據(jù)都被重新排列成中的向量。張量的每一個(gè)不同局部包含同一類(lèi)的數(shù)據(jù)。我們對(duì)張量進(jìn)行HOSVD其中,,。圖七演示了張量近似。通過(guò)這個(gè)近似,我們把每個(gè)數(shù)據(jù)的表示從降到了,每個(gè)類(lèi)中的數(shù)據(jù)的量降到了q。降維后的張量可以通過(guò)以下式子進(jìn)行計(jì)算QUOTE我們可把圖像的降維表示看成是向列空間的投影。假設(shè)p、q相對(duì)于中的相應(yīng)的維數(shù)非常小,那么我們就實(shí)現(xiàn)了對(duì)訓(xùn)練集中數(shù)據(jù)的大的降維。表一中列出了相對(duì)于不同的p、q進(jìn)行數(shù)據(jù)壓縮后,數(shù)據(jù)近似產(chǎn)生的錯(cuò)誤率。為了使近似的結(jié)果比擬好,那么像素模和數(shù)據(jù)模省略的奇異值就必須很小。圖八中給出了局部奇異值的示意圖。我們可以看到相對(duì)于數(shù)據(jù)模的奇異值,像素模的奇異值減少的非常快。數(shù)據(jù)模的奇異值減少的速度沒(méi)有那么快說(shuō)明了所有類(lèi)中的不同數(shù)據(jù)的變化很大。從表一中的p、q我們可以看到,即使數(shù)據(jù)降維99%后錯(cuò)誤率仍然出奇的低。重新把式子〔21〕中的數(shù)據(jù)張量的的低維近似寫(xiě)成像素模可以對(duì)HOSVD進(jìn)行下面的解釋。Dp中的每一列是包含p個(gè)元素的某個(gè)數(shù)據(jù)。FVq是每一行包含了不同數(shù)據(jù)在基向量下的坐標(biāo)。有意思的是Vq的每一行中的列向量表示u所指的類(lèi)的基向量。為了得到不同類(lèi)的正交的、排列的基向量,我們對(duì)進(jìn)行SVD并取k個(gè)最主要的左奇異值向量,其中的k列基矩陣是指Bu∈Rp×k3.3.2測(cè)試階段設(shè)d∈R400是一個(gè)未知的數(shù)據(jù)。在測(cè)試階段我們計(jì)算它的低維表示,然后解決下面的小了許多的最小方差問(wèn)題。,u是固定的類(lèi)別。由于Bu的列向量滿(mǎn)足正交性,可以得到如下的計(jì)算方法把它帶入到上式中,可以得到,再一次,我們把使得剩余值最小的u作為未知數(shù)據(jù)的類(lèi)。完整的分類(lèi)算法如下。算法二訓(xùn)練階段把數(shù)據(jù)集中的所有數(shù)據(jù)向量化并排列到張量中。對(duì)張量QUOTED進(jìn)行HOSVD。計(jì)算數(shù)據(jù)集的降維后的張量。計(jì)算并存儲(chǔ)每個(gè)類(lèi)的基矩陣。測(cè)試階段計(jì)算未知數(shù)據(jù)的低維表示。計(jì)算剩余值u=0,1,…,9。確定使R(u)取得最小值的u,并把未知數(shù)據(jù)d劃分到這一類(lèi)中。4、測(cè)試和結(jié)果到現(xiàn)在描述的過(guò)程都是非常普遍的。為了得到一個(gè)算法還需要確定幾個(gè)參數(shù)。例如在分類(lèi)過(guò)程中基向量的個(gè)數(shù)。還有在第二個(gè)算法中的p、q。在這一節(jié)我們對(duì)提出的算法進(jìn)行驗(yàn)證。但首先對(duì)我們用到的數(shù)據(jù)庫(kù)和預(yù)處理進(jìn)行簡(jiǎn)單的介紹。4.1數(shù)據(jù)集——USPS數(shù)據(jù)庫(kù)我們?cè)趯?shí)驗(yàn)中用到的數(shù)據(jù)集在網(wǎng)上可以免費(fèi)得到。這個(gè)數(shù)據(jù)庫(kù)常常用來(lái)對(duì)分類(lèi)算法進(jìn)行評(píng)估。數(shù)據(jù)庫(kù)中的數(shù)據(jù)是US郵政信封上掃描得到的。圖像的大小是QUOTE16×16的像素,灰度強(qiáng)度的范圍是0-255??梢缘玫絻蓚€(gè)集合,一個(gè)是包含7291個(gè)數(shù)據(jù)的訓(xùn)練集合,另一個(gè)是有2007個(gè)數(shù)據(jù)的測(cè)試集合。數(shù)據(jù)的分布情況如表二所示。根據(jù)Hastie的觀點(diǎn),這個(gè)數(shù)據(jù)庫(kù)相對(duì)于其他的數(shù)據(jù)庫(kù),從分類(lèi)的角度來(lái)考慮,難度更大。圖一所列出的數(shù)據(jù)是書(shū)寫(xiě)非常標(biāo)準(zhǔn)的,但數(shù)據(jù)庫(kù)中還有許多書(shū)寫(xiě)的很不標(biāo)準(zhǔn)的數(shù)據(jù)。MNIST數(shù)據(jù)庫(kù)是另一個(gè)未分類(lèi)而建的比擬有名的數(shù)據(jù)庫(kù)。它里面數(shù)據(jù)的大小是,灰度強(qiáng)度是和USPS相同的。一些常用的算法在這數(shù)據(jù)庫(kù)上的實(shí)驗(yàn),錯(cuò)誤率都比擬低。為了在三階張量中完全用到訓(xùn)練集合中的數(shù)據(jù),有一局部數(shù)據(jù)需要復(fù)制。這是因?yàn)椴煌?lèi)中的數(shù)據(jù)的量不相同。4.2預(yù)處理——高斯模糊分類(lèi)數(shù)據(jù)有幾種預(yù)處理的方法。模糊和標(biāo)準(zhǔn)化都是常用的預(yù)處理技術(shù)。根據(jù)Simard的觀點(diǎn),模糊對(duì)于判別鑒定過(guò)程,至少對(duì)于手寫(xiě)數(shù)字的分類(lèi)來(lái)說(shuō)是非常重要的。模糊可以認(rèn)為是使模式變得光滑或者使鋒利的邊角變得柔和。在模糊過(guò)程中使用不同的模糊函數(shù)就能得到不同的模糊結(jié)果。高斯是一個(gè)常用的模糊函數(shù),標(biāo)準(zhǔn)差σ常常用來(lái)控制模糊的量。圖十給出了兩個(gè)例子。由于式〔25〕的快速衰變,我們用限制與有關(guān)像素直接相連的點(diǎn)的模糊來(lái)近似純粹的高斯模糊,如圖11所示。黑色的方塊是能夠進(jìn)行高斯模糊的相鄰區(qū)域。這種高斯模糊的近似節(jié)省了大量的計(jì)算時(shí)間。而且這種近似模糊與完全的高斯模糊沒(méi)有很大的區(qū)別。模糊的因子設(shè)為0.9,這和參考文獻(xiàn)[5]中是一樣的。模糊因子σ的值設(shè)的很高的時(shí)候,一般認(rèn)為不會(huì)使類(lèi)別中的信息有所損失。4.3算法一的測(cè)試和檢驗(yàn)算法的測(cè)試依照3.1節(jié)中的算法公式進(jìn)行。在分類(lèi)的過(guò)程中,每個(gè)類(lèi)最多用到16個(gè)基矩陣,然后再對(duì)每一個(gè)未知數(shù)據(jù)進(jìn)行10個(gè)最小方差問(wèn)題。在每一次檢驗(yàn)中,不同類(lèi)的基矩陣的數(shù)目是相同的。圖12是測(cè)試的結(jié)果??梢郧宄乜吹剑诨仃嚨臄?shù)目從0增加到12的過(guò)程中,識(shí)別的結(jié)果越來(lái)越好。不同類(lèi)的識(shí)別錯(cuò)誤率的分布不是完全一樣的。2、3、5、7、8的識(shí)別就相對(duì)難一些。有時(shí)一個(gè)算法能夠在所有的情況下都有一個(gè)好的識(shí)別結(jié)果是很重要的。如果錯(cuò)誤分類(lèi)后將會(huì)引起很高的風(fēng)險(xiǎn),那么最好把這樣的對(duì)象再進(jìn)行進(jìn)一步的分析。這樣的性質(zhì)可以通過(guò)替換測(cè)試階段的第三步為下面內(nèi)容輕松地實(shí)現(xiàn):3如果最小的剩余量明顯小與其它的剩余量,我們就把這個(gè)未知數(shù)據(jù)劃分到使得剩余量最小的u類(lèi)中。否那么,拒絕劃分類(lèi),認(rèn)為這個(gè)數(shù)據(jù)不確定。4.4算法二的測(cè)試和結(jié)果算法二的測(cè)試使用相同的方式來(lái)實(shí)現(xiàn)的。我們變化基向量的個(gè)數(shù),同時(shí)也根據(jù)表一中的數(shù)據(jù)值,變化p、q來(lái)確定數(shù)據(jù)減少的量。圖13中給出了測(cè)試的結(jié)果。第二種算法的分類(lèi)結(jié)果更好。即使數(shù)據(jù)的量減少了98%-99%,算法二的分類(lèi)結(jié)果仍然和算法一不相上下。算法二中的模型的建立使用了訓(xùn)練集合中的全部數(shù)據(jù)。通過(guò)比擬圖12、13,有些情況下算法二的錯(cuò)誤率更低。4.5計(jì)算的復(fù)雜度在分類(lèi)過(guò)程中算法運(yùn)行的快慢也是非常重要的。訓(xùn)練階段的計(jì)算復(fù)雜度也很重要,但是對(duì)于一個(gè)實(shí)時(shí)的應(yīng)用系統(tǒng)來(lái)說(shuō)就不是那么重要了。下面我們給出了這兩個(gè)算法計(jì)算復(fù)雜度的簡(jiǎn)要描述,同時(shí)把它們和最近鄰算法作比擬。在下面的局部,我們假設(shè)數(shù)據(jù)的大小是I×I的像素,每一個(gè)類(lèi)有N個(gè)訓(xùn)練數(shù)據(jù),在分類(lèi)過(guò)程中,每個(gè)類(lèi)有k個(gè)基向量。4.5.1訓(xùn)練階段在算法一、二的訓(xùn)練階段,我們分別計(jì)算QUOTEAvu和QUOTEBu。為了得到,我們要在式子中計(jì)算,然后再計(jì)算這些操作要進(jìn)行一次SVD和張量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論