版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第五章 特征選擇和提取第五章 特征選擇和提取 特征選擇和提取是模式識(shí)別中的一個(gè)關(guān)鍵問(wèn)題 前面討論分類(lèi)器設(shè)計(jì)的時(shí)候,一直假定已給出了特征向量維數(shù)確定的樣本集,其中各樣本的每一維都是該樣本的一個(gè)特征; 這些特征的選擇是很重要的,它影響到分類(lèi)器的設(shè)計(jì)及其性能; 若對(duì)不同的類(lèi)別,這些特征的差別很大,則比較容易設(shè)計(jì)出具有較好性能的分類(lèi)器。第五章 特征選擇和提取 特征選擇和提取重要性 在很多實(shí)際問(wèn)題中,往往不容易找到那些最重要的特征,或受客觀(guān)條件的限制,不能對(duì)它們進(jìn)行有效的測(cè)量;因此在測(cè)量時(shí),由于人們心理上的作用,只要條件許可總希望把特征取得多一些; 另外,由于客觀(guān)上的需要,為了突出某些有用信息,抑制無(wú)用
2、信息,有意加上一些比值、指數(shù)或?qū)?shù)等組合計(jì)算特征; 如果將數(shù)目很多的測(cè)量值不做分析,全部直接用作分類(lèi)特征,不但耗時(shí),而且會(huì)影響到分類(lèi)的效果,產(chǎn)生“特征維數(shù)災(zāi)難”問(wèn)題。第五章 特征選擇和提取 為了設(shè)計(jì)出效果好的分類(lèi)器,通常需要對(duì)原始的測(cè)量值集合進(jìn)行分析,經(jīng)過(guò)選擇或變換處理,組成有效的識(shí)別特征; 在保證一定分類(lèi)精度的前提下,減少特征維數(shù),即進(jìn)行“降維”處理,使分類(lèi)器實(shí)現(xiàn)快速、準(zhǔn)確和高效的分類(lèi)。 為達(dá)到上述目的,關(guān)鍵是所提供的識(shí)別特征應(yīng)具有很好的可分性,使分類(lèi)器容易判別。為此,需對(duì)特征進(jìn)行選擇。 應(yīng)去掉模棱兩可、不易判別的特征; 所提供的特征不要重復(fù),即去掉那些相關(guān)性強(qiáng)且沒(méi)有增加更多分類(lèi)信息的特征。
3、第五章 特征選擇和提取 說(shuō)明 實(shí)際上,特征選擇和提取這一任務(wù)應(yīng)在設(shè)計(jì)分類(lèi)器之前進(jìn)行。第五章 特征選擇和提取 所謂特征選擇,就是從n個(gè)度量值集合x(chóng)1, x2, xn中,按某一準(zhǔn)則選取出供分類(lèi)用的子集,作為降維(m維,mn)的分類(lèi)特征; 所謂特征提取,就是使(x1, x2, xn)通過(guò)某種變換,產(chǎn)生m個(gè)特征(y1, y2, ym) (mn) ,作為新的分類(lèi)特征(或稱(chēng)為二次特征); 其目的都是為了在盡可能保留識(shí)別信息的前提下,降低特征空間的維數(shù),已達(dá)到有效的分類(lèi)。第五章 特征選擇和提取 以細(xì)胞自動(dòng)識(shí)別為例 通過(guò)圖像輸入得到一批包括正常細(xì)胞和異常細(xì)胞的圖像,我們的任務(wù)是根據(jù)這些圖像區(qū)分哪些細(xì)胞是正常的
4、,哪些細(xì)胞是異常的; 首先找出一組能代表細(xì)胞性質(zhì)的特征,為此可計(jì)算 細(xì)胞總面積 總光密度 胞核面積 核漿比 細(xì)胞形狀 核內(nèi)紋理 第五章 特征選擇和提取 以細(xì)胞自動(dòng)識(shí)別為例(續(xù)) 這樣產(chǎn)生出來(lái)的原始特征可能很多(幾十甚至幾百個(gè)),原始特征空間維數(shù)很高,需要降低維數(shù)以便分類(lèi); 一種方式是從原始特征中挑選出一些最有代表性的特征,稱(chēng)為特征選擇; 另一種方式是用映射(或變換)方法把原始特征變換為較少的特征,稱(chēng)為特征提取。5.1 模式類(lèi)別可分性的測(cè)度 距離和散布矩陣 點(diǎn)到點(diǎn)之間的距離 點(diǎn)到點(diǎn)集之間的距離 類(lèi)內(nèi)距離5.1 模式類(lèi)別可分性的測(cè)度 距離和散布矩陣 類(lèi)內(nèi)散布矩陣 對(duì)屬于同一類(lèi)的模式樣本,類(lèi)內(nèi)散布矩
5、陣表示各樣本點(diǎn)圍繞其均值周?chē)纳⒉记闆r,這里即為該分布的協(xié)方差矩陣。 類(lèi)間距離和類(lèi)間散布矩陣 多類(lèi)模式集散布矩陣 以上各類(lèi)散布矩陣反映了各類(lèi)模式在模式空間的分布情況,但它們與分類(lèi)的錯(cuò)誤率沒(méi)有直接聯(lián)系。 (若與分類(lèi)錯(cuò)誤率聯(lián)系起來(lái),可采用散度作為類(lèi)別可分性的度量)5.2 特征選擇 設(shè)有n個(gè)可用作分類(lèi)的測(cè)量值,為了在不降低(或盡量不降低)分類(lèi)精度的前提下,減小特征空間的維數(shù)以減少計(jì)算量,需從中直接選出m個(gè)作為分類(lèi)的特征。 問(wèn)題:在n個(gè)測(cè)量值中選出哪一些作為分類(lèi)特征,使其具有最小的分類(lèi)錯(cuò)誤?5.2 特征選擇 從n個(gè)測(cè)量值中選出m個(gè)特征,一共有 中可能的選法。 一種“窮舉”辦法:對(duì)每種選法都用訓(xùn)練樣本試
6、分類(lèi)一下,測(cè)出其正確分類(lèi)率,然后做出性能最好的選擇,此時(shí)需要試探的特征子集的種類(lèi)達(dá)到 種,非常耗時(shí)。 需尋找一種簡(jiǎn)便的可分性準(zhǔn)則,間接判斷每一種子集的優(yōu)劣。 對(duì)于獨(dú)立特征的選擇準(zhǔn)則 一般特征的散布矩陣準(zhǔn)則5.2 特征選擇 對(duì)于獨(dú)立特征的選擇準(zhǔn)則 類(lèi)別可分性準(zhǔn)則應(yīng)具有這樣的特點(diǎn),即不同類(lèi)別模式特征的均值向量之間的距離應(yīng)最大,而屬于同一類(lèi)的模式特征,其方差之和應(yīng)最小。 假設(shè)各原始特征測(cè)量值是統(tǒng)計(jì)獨(dú)立的,此時(shí),只需對(duì)訓(xùn)練樣本的n個(gè)測(cè)量值獨(dú)立地進(jìn)行分析,從中選出m個(gè)最好的作為分類(lèi)特征即可。 例:對(duì)于i和j兩類(lèi)訓(xùn)練樣本的特征選擇5.2 特征選擇 討論:上述基于距離測(cè)度的可分性準(zhǔn)則,其適用范圍與模式特征的
7、概率分布有關(guān)。 三種不同模式分布的情況 (a) 中特征xk的分布有很好的可分性,通過(guò)它足以分離i和j兩種類(lèi)別; (b) 中的特征分布有很大的重疊,單靠xk達(dá)不到較好的分類(lèi),需要增加其它特征; (c) 中的i類(lèi)特征xk的分布有兩個(gè)最大值,雖然它與j的分布沒(méi)有重疊,但計(jì)算Gk約等于0,此時(shí)再利用Gk作為可分性準(zhǔn)則已不合適。 因此,假若類(lèi)概率密度函數(shù)不是或不近似正態(tài)分布,均值和方差就不足以用來(lái)估計(jì)類(lèi)別的可分性,此時(shí)該準(zhǔn)則函數(shù)不完全適用。5.2 特征選擇 一般特征的散布矩陣準(zhǔn)則 類(lèi)內(nèi)、類(lèi)間和總體的散布矩陣Sw、Sb和St Sw的行列式值越小且Sb的行列式值越大,可分性越好。 散布矩陣準(zhǔn)則J1和J2形式
8、 使J1或J2最大的子集可作為所選擇的分類(lèi)特征。 注:這里計(jì)算的散布矩陣不受模式分布形式的限制,但需要有足夠數(shù)量的模式樣本才能獲得有效的結(jié)果。作業(yè) 設(shè)有如下三類(lèi)模式樣本集1,2和3,其先驗(yàn)概率相等,求Sw和Sb1:(1 0)T, (2 0) T, (1 1) T2:(-1 0)T, (0 1) T, (-1 1) T3:(-1 -1)T, (0 -1) T, (0 -2) T5.3 離散K-L變換 全稱(chēng):Karhunen-Loeve變換(卡洛南-洛伊變換) 前面討論的特征選擇是在一定準(zhǔn)則下,從n個(gè)特征中選出k個(gè)來(lái)反映原有模式。 這種簡(jiǎn)單刪掉某n-k個(gè)特征的做法并不十分理想,因?yàn)橐话銇?lái)說(shuō),原來(lái)的
9、n個(gè)數(shù)據(jù)各自在不同程度上反映了識(shí)別對(duì)象的某些特征,簡(jiǎn)單地刪去某些特征可能會(huì)丟失較多的有用信息。 如果將原來(lái)的特征做正交變換,獲得的每個(gè)數(shù)據(jù)都是原來(lái)n個(gè)數(shù)據(jù)的線(xiàn)性組合,然后從新的數(shù)據(jù)中選出少數(shù)幾個(gè),使其盡可能多地反映各類(lèi)模式之間的差異,而這些特征間又盡可能相互獨(dú)立,則比單純的選擇方法更靈活、更有效。 K-L變換就是一種適用于任意概率密度函數(shù)的正交變換。5.3 離散K-L變換5.3.1 離散的有限K-L展開(kāi) 展開(kāi)式的形式 如果對(duì)c種模式類(lèi)別ii=1,c做離散正交展開(kāi),則對(duì)每一模式可分別寫(xiě)成:xi= ai,其中矩陣 取決于所選用的正交函數(shù)。 對(duì)各個(gè)模式類(lèi)別,正交函數(shù)都是相同的,但其展開(kāi)系數(shù)向量ai則
10、因類(lèi)別的不同模式分布而異。 K-L展開(kāi)式的性質(zhì) K-L展開(kāi)式的根本性質(zhì)是將隨機(jī)向量x展開(kāi)為另一組正交向量j的線(xiàn)性和,且其展開(kāi)式系數(shù)aj(即系數(shù)向量a的各個(gè)分量)具有不同的性質(zhì)。 在此條件下,正交向量集j的確定 K-L展開(kāi)式系數(shù)的計(jì)算步驟5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 K-L展開(kāi)式用于特征選擇相當(dāng)于一種線(xiàn)性變換。 若從K個(gè)特征向量中取出m個(gè)組成變換矩陣,即 = (1 2 m),mK此時(shí),是一個(gè)n*m維矩陣,x是n維向量,經(jīng)過(guò)Tx變換,即得到降維為m的新向量。 選取變換矩陣,使得降維后的新向量在最小均方差條件下接近原來(lái)的向量x5.3 離散K-L變換5.3.2 按K-L展開(kāi)
11、式選擇特征 結(jié)論 從K-L展開(kāi)式的性質(zhì)和按最小均方差的準(zhǔn)則來(lái)選擇特征,應(yīng)使Eaj=0。由于Ea=ETx= TEx,故應(yīng)使Ex=0?;谶@一條件,在將整體模式進(jìn)行K-L變換之前,應(yīng)先將其均值作為新坐標(biāo)軸的原點(diǎn),采用協(xié)方差矩陣C或自相關(guān)矩陣R來(lái)計(jì)算特征值。如果Ex0,則只能得到“次最佳”的結(jié)果。5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 將K-L展開(kāi)式系數(shù)aj(亦即變換后的特征)用yj表示,寫(xiě)成向量形式:y= Tx。此時(shí)變換矩陣用m個(gè)特征向量組成。為使誤差最小,不采用的特征向量,其對(duì)應(yīng)的特征值應(yīng)盡可能小。因此,將特征值按大小次序標(biāo)號(hào),即1 2 m n=0若首先采用前面的m個(gè)特征
12、向量,便可使變換誤差最小。此時(shí)的變換矩陣為5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 K-L變換是在均方誤差最小的意義下獲得數(shù)據(jù)壓縮的最佳變換,且不受模式分布的限制。對(duì)于一種類(lèi)別的模式特征提取,它不存在特征分類(lèi)問(wèn)題,只是實(shí)現(xiàn)用低維的m個(gè)特征來(lái)表示原來(lái)高維的n個(gè)特征,使其誤差最小,亦即使其整個(gè)模式分布結(jié)構(gòu)盡可能保持不變。5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 通過(guò)K-L變換能獲得互不相關(guān)的新特征。 若采用較大特征值對(duì)應(yīng)的特征向量組成變換矩陣,則能對(duì)應(yīng)地保留原模式中方差最大的特征成分,所以K-L變換起到了減小相關(guān)性、突出差異性的效果。在此情況下, K-L變換也稱(chēng)為主成分變換。5.3 離散
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度水庫(kù)水面環(huán)境整治項(xiàng)目合作合同
- 《知識(shí)產(chǎn)權(quán)法概論》課件
- 家具定制銷(xiāo)售工作總結(jié)
- 二零二五年度智能家居水電安裝與智能家居系統(tǒng)融合合同3篇
- 領(lǐng)導(dǎo)干部與教師培訓(xùn)計(jì)劃
- 物流行業(yè)客服話(huà)務(wù)員工作總結(jié)
- 美食供應(yīng)合同三篇
- 二零二五年度PVC管件及配件定制生產(chǎn)銷(xiāo)售合同范本
- 寧夏財(cái)經(jīng)職業(yè)技術(shù)學(xué)院《數(shù)學(xué)史與數(shù)學(xué)文化鑒賞》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南機(jī)電職業(yè)技術(shù)學(xué)院《點(diǎn)集拓?fù)渑c泛函分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江省金華市婺城區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末數(shù)學(xué)試卷(含答案)
- 天津市河西區(qū)2024-2025學(xué)年高二上學(xué)期1月期末英語(yǔ)試題(含答案無(wú)聽(tīng)力音頻及聽(tīng)力原文)
- 2025屆高考語(yǔ)文復(fù)習(xí):信息類(lèi)文本五大類(lèi)型的主觀(guān)題 課件
- 滬教版小學(xué)數(shù)學(xué)三(下)教案
- 中鐵開(kāi)投、中鐵云投招聘筆試沖刺題2025
- 重慶市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 安徽省合肥市蜀山區(qū)2023-2024學(xué)年五年級(jí)上學(xué)期期末質(zhì)量檢測(cè)科學(xué)試題
- 高數(shù)(大一上)期末試題及答案
- 員工工資條模板
- 14K118 空調(diào)通風(fēng)管道的加固
- 菜鳥(niǎo)也上手:最最完整的Cool Edit Pro 圖文操作手冊(cè)
評(píng)論
0/150
提交評(píng)論