第1章-模式識別課程緒論課件_第1頁
第1章-模式識別課程緒論課件_第2頁
第1章-模式識別課程緒論課件_第3頁
第1章-模式識別課程緒論課件_第4頁
第1章-模式識別課程緒論課件_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章模式識別緒論第1章模式識別緒論1模式識別的定義

Patternrecognition

isthestudyofhow

machines

canobservetheenvironment,learnto

distinguishpatterns

ofinterestfromtheirbackground,andmakesoundandreasonable

decisions

aboutthecategoriesofthepatterns.

——AnilK.Jain,MichiganStateUniversity

/~jain/

Ref:AnilK.Jainetal.StatisticalPatternRecognition:AReview.IEEETrans.onpatternanalysisandmachineintelligence.2000,22(1):4-37什么是模式識別?模式識別的定義什么是模式識別?2模式識別的目的:利用計(jì)算機(jī)對物理對象進(jìn)行分類,在錯(cuò)誤概率最小的條件下,使識別的結(jié)果盡量與客觀物體相符合。Y=F(X)X的定義域取自特征集

Y的值域?yàn)轭悇e的標(biāo)號集

F是模式識別的判別方法什么是識別?模式識別的目的:利用計(jì)算機(jī)對物理對象進(jìn)行分類,在錯(cuò)誤概率最小3生產(chǎn)實(shí)踐的需要:需要智能機(jī)器人,另外人的工資高,而計(jì)算機(jī)的價(jià)格越來便宜。信息爆炸現(xiàn)象:處理人來不及處理的信息。如:衛(wèi)星遙感,超級市場,郵政,銀行,指紋庫。危險(xiǎn)地帶:油漆、放射、高溫、核電站。提高工效:自動(dòng)化帶來的好處已經(jīng)顯而易見。為什么要研究模式識別生產(chǎn)實(shí)踐的需要:需要智能機(jī)器人,另外人的工資高,而計(jì)算機(jī)的價(jià)4與其他學(xué)科的聯(lián)系與區(qū)別人工智能:

符號主義,連接主義,行為主義,機(jī)制主義(結(jié)構(gòu),功能,行為)計(jì)算智能:神經(jīng)網(wǎng)絡(luò),模糊邏輯,進(jìn)化計(jì)算……機(jī)器學(xué)習(xí):分類,聚類,回歸,有監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)……統(tǒng)計(jì)學(xué)運(yùn)籌學(xué)與其他學(xué)科的關(guān)系與其他學(xué)科的聯(lián)系與區(qū)別與其他學(xué)科的關(guān)系5主要內(nèi)容模式識別基本概念模式識別系統(tǒng)組成模式識別基本問題應(yīng)用領(lǐng)域小結(jié)主要內(nèi)容模式識別基本概念6模式識別基本概念

模式識別基本概念7【基本概念】(1)模式識別(PatternRecognition):確定一個(gè)樣本的類別屬性(模式類)的過程,即把某一樣本歸屬于多個(gè)類型中的某個(gè)類型。(2)樣本(Sample):一個(gè)具體的研究(客觀)對象。如患者,某人寫的一個(gè)漢字,一幅圖片等。(3)模式(Pattern):對客體(研究對象)特征的描述(定量的或結(jié)構(gòu)的描述),是取自客觀世界的某一樣本的測量值的集合(或綜合)。它是一種具有時(shí)間或空間分布的信息。從工程角度講是指客觀事物存在形式的數(shù)學(xué)表達(dá)?!净靖拍睢?1)模式識別(PatternRecognit8【基本概念】

(4)模式類(PatternClass):把模式所屬的類別或同一類別中模式的總體稱為模式類(或簡稱為類)。

(5)例子:以身高為例,模式:身高:167cm,180cm,156cm,176cm,…模式類:高個(gè)頭、中等個(gè)頭、矮個(gè)頭;【基本概念】(4)模式類(PatternClass):把9【基本概念】(6)說明:(1)模式所指的不是事物本身,而是我們從事物中獲得的信息。(2)模式往往表現(xiàn)為具體的時(shí)間和空間分布的信息。(3)本課程討論的是用計(jì)算機(jī)進(jìn)行模式識別,信息進(jìn)入計(jì)算機(jī)之前通常要經(jīng)過取樣和量化,在計(jì)算機(jī)中表現(xiàn)為具有時(shí)空分布的信息表現(xiàn)為向量或數(shù)組,數(shù)組中元素的序號可以對應(yīng)時(shí)間和空間,也可對應(yīng)其它標(biāo)識,此處所說的時(shí)間和空間是更廣義和抽象的理解?!净靖拍睢?6)說明:10主要內(nèi)容模式識別基本概念模式識別系統(tǒng)組成模式識別基本問題應(yīng)用領(lǐng)域小結(jié)主要內(nèi)容模式識別基本概念11模式識別系統(tǒng)組成

模式識別系統(tǒng)組成12【模式識別系統(tǒng)組成】1.信息的獲取:通過測量、采樣、量化并用矩陣或向量表示。通常輸入對象的信息有三個(gè)類型:二維圖像(文字、指紋、地圖、照片等)、一維波形(腦電圖、心電圖、機(jī)械震動(dòng)波形等)、物理參量和邏輯值(體檢中的溫度、血化驗(yàn)結(jié)果等)2.預(yù)處理:去除噪聲,加強(qiáng)有用的信息,并對輸入測量儀器或其它因素造成的干擾進(jìn)行處理。3.特征提取與選擇:為了實(shí)現(xiàn)有效的識別分類,要對原始數(shù)據(jù)進(jìn)行變換得到最能反映分類本質(zhì)的特征,此過程為特征提取和選擇。4.分類決策:在特征空間中用統(tǒng)計(jì)方法把被識別對象歸為某一類?;咀鞣ㄊ窃跇颖居?xùn)練集基礎(chǔ)上確定某個(gè)判決規(guī)則,使按這種判決規(guī)則對被識別對象進(jìn)行分類所造成的錯(cuò)誤識別率最小或引起的損失最小。5.后處理:針對決策采取相應(yīng)的行動(dòng)。信息獲取預(yù)處理特征提取與選擇分類決策后處理模式識別系統(tǒng)組成框圖【模式識別系統(tǒng)組成】1.信息的獲取:通過測量、采樣、量化并13【模式識別系統(tǒng)組成】數(shù)據(jù)采集特征提取二次特征提取與選擇分類識別待識對象識別結(jié)果數(shù)據(jù)采集特征提取改進(jìn)分類識別規(guī)則二次特征提取與選擇訓(xùn)練樣本改進(jìn)采集提取方法改進(jìn)特征提取與選擇制定改進(jìn)分類識別規(guī)則人工干預(yù)正確率測試【模式識別系統(tǒng)組成】數(shù)據(jù)采集二次特征分類待識識別結(jié)果數(shù)據(jù)采集14【例1:車牌識別】車牌識別系統(tǒng)框圖原始圖像車牌定位字符識別傾斜校正字符分割系統(tǒng)流程圖車牌定位車牌傾斜校正字符分割【例1:車牌識別】車牌識別系統(tǒng)框圖原始圖像車牌定位字符識別傾15傳感器:攝像頭預(yù)處理:統(tǒng)一光照、統(tǒng)一焦距,去除背景,分割…特征提?。洪L度,亮度,重量,鰭的數(shù)目…輸入(測量):重量,長度,寬度,光澤度(亮還是暗)鰭數(shù)目特征選擇:哪個(gè)特征能最好的區(qū)分兩種魚?設(shè)計(jì)分類器:線性?非線性?例2:鱸魚和鮭魚識別傳感器:例2:鱸魚和鮭魚識別16

從長度很難區(qū)分Salmon:鮭魚Seabass:鱸魚特征選擇:長度從長度很難區(qū)分特征選擇:長度17錯(cuò)誤率仍然較高特征選擇:亮度錯(cuò)誤率仍然較高特征選擇:亮度18完美的分界特征選擇:寬度+亮度完美的分界特征選擇:寬度+亮度19線性分類器分類器設(shè)計(jì)線性分類器分類器設(shè)計(jì)20非線性分類器分類器設(shè)計(jì)非線性分類器分類器設(shè)計(jì)21哪一個(gè)好?為什么?分類器設(shè)計(jì)哪一個(gè)好?為什么?分類器設(shè)計(jì)22泛化能力/推廣能力(Generalization)設(shè)計(jì)分類器的中心目標(biāo)是能夠?qū)π聵颖咀龀稣_的反應(yīng),而不是對訓(xùn)練樣本的完美分類。分類模型對訓(xùn)練樣本的過分匹配是一種應(yīng)當(dāng)努力避免的現(xiàn)象:過擬合(Overfitting)避免過擬合的方法:避免過于復(fù)雜的決策面復(fù)雜的決策面or簡單的決策面?分類器的泛化能力泛化能力/推廣能力(Generalization)分類器的泛23模式識別的基本問題

模式識別的基本問題24對象空間模式空間特征空間類型空間模式識別的任務(wù)模式采集:從客觀世界(對象空間)到模式空間的過程稱為模式采集。特征提取和特征選擇:由模式空間到特征空間的變換和選擇。類型判別:特征空間到類型空間所作的操作。模式識別三大任務(wù)對象空間模式空間特征空間類型空間模式識別的任務(wù)模式采集:從客25【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征26【模式識別的訓(xùn)練方法】學(xué)習(xí)的分類:學(xué)習(xí)的定義:廣義地講,任何設(shè)計(jì)分類器時(shí)所用的方法只要它利用了訓(xùn)練樣本的信息就可以認(rèn)為學(xué)習(xí),學(xué)習(xí)的目的是指利用某種算法來降低由于訓(xùn)練樣本的差異導(dǎo)致的分類誤差。

監(jiān)督學(xué)習(xí)(supervisedlearning

):存在一個(gè)教師信號,對訓(xùn)練樣本集的每個(gè)輸入樣本能提供類別標(biāo)記和分類代價(jià)并尋找能夠降低總體代價(jià)的方向。(人臉識別)。利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程。對具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測。所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的岐義性低。無監(jiān)督學(xué)習(xí)(unsupervisedlearning

):沒有顯示的教師指導(dǎo)整個(gè)訓(xùn)練過程。(圖像檢索)。對沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識。所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)(Semi-supervisedLearning

):半監(jiān)督學(xué)習(xí)是利用少部分標(biāo)記數(shù)據(jù)集及未標(biāo)記樣本進(jìn)行學(xué)習(xí)的主流技術(shù)。(如醫(yī)學(xué)圖像)。無監(jiān)督學(xué)習(xí)只利用未標(biāo)記的樣本集,而監(jiān)督學(xué)習(xí)則只利用標(biāo)記的樣本集進(jìn)行學(xué)習(xí)。但在很多實(shí)際問題中,只有少量的帶有標(biāo)記的數(shù)據(jù),因?yàn)閷?shù)據(jù)進(jìn)行標(biāo)記的代價(jià)有時(shí)很高?!灸J阶R別的訓(xùn)練方法】學(xué)習(xí)的分類:學(xué)習(xí)的定義:廣義地講,任27【監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)】監(jiān)督的學(xué)習(xí)方法的性能完全由訓(xùn)練樣本的數(shù)量和質(zhì)量決定,目標(biāo)是通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系,生成一個(gè)函數(shù),建立問題域的預(yù)測模型,將輸入映射到合適的輸出。主要存在以下兩點(diǎn)缺陷:(1)垃圾進(jìn)、垃圾出。是指分類器的有效性完全依賴于訓(xùn)練樣本的質(zhì)量,當(dāng)訓(xùn)練樣本的質(zhì)量不高時(shí),很難得到好的分類效果。(2)過分適應(yīng)訓(xùn)練樣本(過擬合)。當(dāng)訓(xùn)練樣本的數(shù)量有限時(shí),就會(huì)出現(xiàn)過分適應(yīng)訓(xùn)練樣本的現(xiàn)象,從而影響對新到數(shù)據(jù)的分類性能。簡單解決的辦法是增加訓(xùn)練樣本的數(shù)量,但是給訓(xùn)練數(shù)據(jù)分類是一項(xiàng)極其耗費(fèi)時(shí)間的工作,甚至有些情況下是不可能的。比如:對于有些問題,人們還不知道問題的正確答案,因此“增加訓(xùn)練樣本的數(shù)量”看似簡單,實(shí)際上并不簡單。一句話:從它得到的訓(xùn)練集中進(jìn)行“學(xué)習(xí)”,從而對未知數(shù)據(jù)進(jìn)行分類。常用的算法包括:決策樹分類法,樸素的貝葉斯分類算法(nativeBayesianclassifier)、基于支持向量機(jī)(SVM)的分類器,神經(jīng)網(wǎng)絡(luò)法,k-最近鄰法(k-nearestneighbor,kNN),模糊分類法等等。無監(jiān)督的學(xué)習(xí)方法的目標(biāo)是直接對輸入數(shù)據(jù)集進(jìn)行建模,通過數(shù)據(jù)分析以發(fā)現(xiàn)有趣的模式或結(jié)構(gòu)。聚類方法是一種典型的無監(jiān)督的學(xué)習(xí)方法。需要聚類的數(shù)據(jù)對象沒有標(biāo)記,需要由聚類算法自己確定。由于對數(shù)據(jù)對象不具備任何背景知識,聚類算法采用相同的原則對這些數(shù)據(jù)進(jìn)行分析,聚類結(jié)果是否有效依賴于數(shù)據(jù)集對事先所制定的原則(假設(shè))的符合程度?!颈O(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)】監(jiān)督的學(xué)習(xí)方法的性能完全由訓(xùn)練樣本的28【半監(jiān)督學(xué)習(xí)】Motivation:1、有標(biāo)記樣本難以獲取。需要專門的人員,特別的設(shè)備,額外的開銷等等。2、無標(biāo)記的樣本相對而言是很廉價(jià),容易獲取的。兩個(gè)例子:(1)在計(jì)算機(jī)輔助醫(yī)學(xué)圖像分析中,可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練例,但如果要求醫(yī)學(xué)專家把這些圖像中的病灶都標(biāo)識出來,則往往是不現(xiàn)實(shí)的。(2)在進(jìn)行Web網(wǎng)頁推薦時(shí),需要用戶標(biāo)記出哪些網(wǎng)頁是他感興趣的,很少會(huì)有用戶愿意花大量的時(shí)間來提供標(biāo)記,因此有標(biāo)記的網(wǎng)頁示例比較少,Web上存在著無數(shù)的網(wǎng)頁,它們都可作為未標(biāo)記示例來使用。顯然,如果只使用少量的有標(biāo)記示例,那么利用它們所訓(xùn)練出的學(xué)習(xí)系統(tǒng)往往很難具有強(qiáng)泛化能力;另一方面,如果僅使用少量“昂貴的”有標(biāo)記示例而不利用大量“廉價(jià)的”未標(biāo)記示例,則是對數(shù)據(jù)資源的極大的浪費(fèi)。目前,利用未標(biāo)記示例的主流學(xué)習(xí)技術(shù)主要有三大類:半監(jiān)督學(xué)習(xí)(semi-supervisedlearning)、直推學(xué)習(xí)(transductivelearning)和主動(dòng)學(xué)習(xí)(activelearning)。這三類技術(shù)都是試圖利用大量的未標(biāo)記示例來輔助對少量有標(biāo)記示例的學(xué)習(xí),但它們的基本思想?yún)s有顯著的不同。在半監(jiān)督學(xué)習(xí)中,學(xué)習(xí)器試圖自行利用未標(biāo)記示例,即整個(gè)學(xué)習(xí)過程不需人工干預(yù),僅基于學(xué)習(xí)器自身對未標(biāo)記示例進(jìn)行利用。直推學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的相似之處是它也是由學(xué)習(xí)器自行利用未標(biāo)記示例,但不同的是,直推學(xué)習(xí)假定未標(biāo)記示例就是測試?yán)?即學(xué)習(xí)的目的就是在這些未標(biāo)記示例上取得最佳泛化能力。換句話說,半監(jiān)督學(xué)習(xí)考慮的是一個(gè)“開放世界”,即在進(jìn)行學(xué)習(xí)時(shí)并不知道要預(yù)測的示例是什么,而直推學(xué)習(xí)考慮的則是一個(gè)“封閉世界”,在學(xué)習(xí)時(shí)已經(jīng)知道了需要預(yù)測哪些示例。總結(jié):半監(jiān)督學(xué)習(xí)是歸納式的,生成的模型可用做更廣泛的樣本;而直推式學(xué)習(xí)僅僅為了當(dāng)前無標(biāo)記樣本的分類。前者使用無標(biāo)記樣本,為了以后其他樣本更好的分類。后者只是為了分類好這些有限的無標(biāo)記樣本。主動(dòng)學(xué)習(xí)算法可以主動(dòng)地提出一些標(biāo)注請求,將一些經(jīng)過篩選的數(shù)據(jù)提交給專家進(jìn)行標(biāo)注?!景氡O(jiān)督學(xué)習(xí)】Motivation:1、有標(biāo)記樣本難以獲取。29【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征30【緊致性】緊致集:同一類模式類樣本的分布比較集中,沒有或臨界樣本很少,這樣的模式類稱緊致集。臨界點(diǎn)(樣本):在多類樣本中,某些樣本的值有微小變化時(shí)就變成另一類樣本稱為臨界樣本(點(diǎn))。緊致性的概念:為了能在某個(gè)空間中進(jìn)行分類,通常假設(shè)同一類的各個(gè)模式在該空間中組成一個(gè)緊致集。從這個(gè)緊致集中的任何一點(diǎn)可以均勻過渡到同一集中的另外一點(diǎn),且在過渡途中的所有各個(gè)點(diǎn)都仍然屬于這個(gè)緊致集(即屬于同一模式類)。此外,當(dāng)緊致集中各個(gè)點(diǎn)在任意方向有某些不大的移動(dòng)時(shí)它仍然屬于這個(gè)集合。【緊致性】緊致集:同一類模式類樣本的分布比較集中,沒有或臨界31第1種情況:A1:111,101,110,011A2:000,010,100,001只要用一個(gè)平面就可以將兩個(gè)點(diǎn)集分開?!九e例】011111001101100110010x1x3x2000第1種情況:【舉例】0111110011011001100132第2種情況:A1:111A2:000任何一個(gè)通過點(diǎn)000與111連線的平面都能達(dá)到分類的目的?!九e例】x2011111001101100110010x1x3000第2種情況:【舉例】x201111100110110011033第3種情況:A1:111,001,100,010A2:000,011,101,110需要用3個(gè)平面才能分開?!九e例】011111001101100110010x1x3x2000對于這種情況,結(jié)合A1中任意一點(diǎn)的一個(gè)碼的數(shù)值發(fā)生變化,例如111變?yōu)?01,那么就成為A2中的成員。把這些點(diǎn)成為臨界點(diǎn)。把改變其中一個(gè)碼值不能改變其集合屬性的點(diǎn)成為內(nèi)點(diǎn)。在該情況下,集合A1和集合A2沒有內(nèi)點(diǎn),全部為臨界點(diǎn)。一般情況,兩個(gè)集合中具有的臨界點(diǎn)越多,就越難分開。例如,A1={000};A2={111},沒有臨界點(diǎn),全部為內(nèi)點(diǎn),因此較為容易將其分開第3種情況:【舉例】0111110011011001100134

一般來說,在D維空間中要用超表面進(jìn)行分類,假若我們用平面圖表示D維空間中點(diǎn)的分布。如下圖。沒有臨界點(diǎn)有許多臨界點(diǎn)臨界點(diǎn)過多,造成不可分一般來說,在D維空間中要用超表面進(jìn)行分類,假若我35【緊致性】緊致性的性質(zhì):臨界點(diǎn)的數(shù)量與總的點(diǎn)數(shù)相比很少;集合中任意兩點(diǎn)可以用光滑線連接,在該連線上的點(diǎn)也屬于這個(gè)集合;每個(gè)內(nèi)點(diǎn)都有足夠大的領(lǐng)域只包含同一集合中的點(diǎn)。模式識別的要求:滿足緊致集,才能很好的分類;如果不滿足緊致集,就要采取變換的方法,滿足緊致集?!揪o致性】緊致性的性質(zhì):36【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征37【特征選取】特征是決定相似性和分類的關(guān)鍵,當(dāng)分類的目的決定后,如何找到合適的特征成為識別物體的關(guān)鍵。下面舉一個(gè)實(shí)例說明?!咎卣鬟x取】特征是決定相似性和分類的關(guān)鍵,當(dāng)分類的目的決定后38Salmon(鮭魚)與Seabass(鱸魚)分類系統(tǒng)【特征選取】光澤度長度寬度可選特征Salmon(鮭魚)與Seabass(鱸魚)分類系統(tǒng)【39長度特征直方圖光澤度直方圖

寬度(縱軸)-光澤度(橫軸)不成功不成功成功【特征選取】長度特征直方圖光澤度直方圖

寬度(縱軸)-光澤度(橫軸)不成40泛化推廣能力:模型的復(fù)雜度對分類效果的影響【特征選取】泛化推廣能力:模型的復(fù)雜度對分類效果的影響【特征選取】41

1.底層特征:(1)數(shù)值尺度(numericalsize):有明確的數(shù)量和數(shù)值。(2)非數(shù)值尺度(non-numericalsize)①有序尺度:有先后、好壞的次序關(guān)系,如酒分為上,中,下三個(gè)等級。②名義尺度(nominal)):無數(shù)量、無次序關(guān)系,如顏色:紅、黃、藍(lán)、黑

2.中層特征:經(jīng)過計(jì)算,變換得到的特征

3.高層特征:在中層特征的基礎(chǔ)上有目的的經(jīng)過運(yùn)算形成

【特征選取】【特征選取】42車身車輪車型顏色底層中層汽車高層品牌車身車輪車型顏色底層中層汽車高層品牌43【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征44【相似性度量與分類】(1)相似性度量【相似性度量與分類】(1)相似性度量45【相似性度量與分類】(1)相似性度量【相似性度量與分類】(1)相似性度量46距離值越小,相似性越高【相似性度量與分類】距離值越小,相似性越高【相似性度量與分類】472.用各種距離度量相似性:已知兩個(gè)樣本:

Xi=(xi1,xi2,xi3,…,xin)T

Xj=(xj1,xj2,xj3,…,xjn)T①絕對值距離(街坊距離或Manhattan距離):【相似性度量與分類】2.用各種距離度量相似性:①絕對值距離(街坊距離或Man48②歐幾里德(Euclidean)距離③明考夫斯基(Minkowski)距離

其中當(dāng)q=1時(shí)為絕對值距離,當(dāng)q=2時(shí)為歐氏距離②歐幾里德(Euclidean)距離49其中Xi,Xj為特征向量,為協(xié)方差矩陣。使用于N個(gè)樣本的集合中兩個(gè)樣本之間求M氏距離:④切比雪夫(Chebyshev)距離:是q趨向無窮大時(shí)明氏距離的極限情況⑤馬哈拉諾比斯(Mahalanobis)距離N——樣本個(gè)數(shù)其中Xi,Xj為特征向量,為協(xié)方差矩陣。④切比雪夫50例:馬哈拉諾比斯(Mahalanobis)距離:設(shè)X1=(0,0)T,X2=(0,1)T,X3=(1,0)T,X4=(1,1)T.則N=4,例:馬哈拉諾比斯(Mahalanobis)距離:設(shè)X1=(051第1章-模式識別課程緒論ppt課件52X1X2X3X4X10X20X30X40兩點(diǎn)之間的馬氏距離X1X2X3X4兩點(diǎn)之間的歐氏距離X1X2X3X4X1011X2101X3101X4110都具對稱性。但數(shù)值不同。馬氏距離的計(jì)算步驟:1.求樣本均值;2.求協(xié)方差矩陣;3.求協(xié)方差矩陣的逆矩陣?;4.按公式求兩點(diǎn)間馬氏距離。5.優(yōu)點(diǎn):量綱無關(guān),排除變量之間的相關(guān)性的干擾。X1X2X3X4X10X20X30X40兩點(diǎn)之間的馬氏距離X53馬氏距離的優(yōu)點(diǎn)1、用逆矩陣的原因是相當(dāng)于除去scale對距離的影響。如一維的情況下,同樣距離都是3,但對于方差大的數(shù)據(jù),這個(gè)距離就算小了,所以要用距離再除以方差。高維情況就是協(xié)方差陣的逆。2、如:均值分別為a和b兩個(gè)正態(tài)分布的總體,方差不一樣,則圖中的A點(diǎn)離哪個(gè)總體近呢?顯然,A離左邊的更近,屬于左邊總體的概率更大,盡管A與a的歐式距離遠(yuǎn)一些。【馬氏距離的優(yōu)點(diǎn)】馬氏距離的優(yōu)點(diǎn)1、用逆矩陣的原因是相當(dāng)于除去scale對距離54即樣本間夾角小的具有相似性強(qiáng)。例:X1,X2,X3的夾角如圖:因?yàn)閄1,X2的夾角小,所以X1,X2最相似。XYX1X2X3⑥夾角余弦即樣本間夾角小的具有相似性強(qiáng)。XYX1X2X3⑥夾角余弦55如:1,3,5,7,9與2,4,6,8,10的相關(guān)系數(shù)為1;

1,3,5,7,9與10,8,6,4,2的相關(guān)系數(shù)為-1;注意:在求相關(guān)系數(shù)之前,要將數(shù)標(biāo)準(zhǔn)化*相關(guān)系數(shù)分別為Xi,Xj的均值:其中,Xi=(xi1,xi2,…,xin),Xj=(xj1,xj2,…,xjn).相關(guān)系數(shù)的絕對值越大,則表明兩向量相關(guān)度越高如:1,3,5,7,9與2,4,6,8,10的相關(guān)系數(shù)為1;56【相似性度量與分類】(2)分類(a)不存在純客觀的分類標(biāo)準(zhǔn),任何分類都是帶有主觀性的。例如,鯨魚在生物學(xué)角度屬于哺乳類,應(yīng)該和牛算作一類;但從產(chǎn)業(yè)的角度,捕鯨屬于水產(chǎn)業(yè),而牛是畜牧業(yè)。(b)分類問題不是純數(shù)學(xué)問題?!鞠嗨菩远攘颗c分類】(2)分類57【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征58【性能評價(jià)】正確識別率=正確分類數(shù)/總數(shù)錯(cuò)誤識別率=錯(cuò)誤分類數(shù)/總數(shù)拒絕識別率=拒絕分類數(shù)/總數(shù)【性能評價(jià)】正確識別率=正確分類數(shù)/總數(shù)59【主要內(nèi)容】(1)模式識別的訓(xùn)練方法

(2)緊致性(3)特征選取(4)相似性度量與分類

(5)性能評價(jià)(6)識別系統(tǒng)設(shè)計(jì)過程【主要內(nèi)容】(1)模式識別的訓(xùn)練方法(2)緊致性(3)特征60【識別系統(tǒng)設(shè)計(jì)過程】數(shù)據(jù)采集:在開發(fā)一個(gè)模式識別系統(tǒng)總的費(fèi)用中,數(shù)據(jù)采集部分占令人吃驚的比重,當(dāng)然采用較小的“典型”樣本集對問題的可行性進(jìn)行初步研究是可以的,但在實(shí)際應(yīng)用中為了確?,F(xiàn)場工作良好的性能,需要采集到大量的數(shù)據(jù)。采集數(shù)據(jù)選擇特征選擇模型訓(xùn)練分類器評價(jià)分類器設(shè)計(jì)結(jié)束設(shè)計(jì)開始選擇特征:選擇有明顯區(qū)分意義的特征是設(shè)計(jì)過程關(guān)鍵的一步。選擇模型:用數(shù)學(xué)形式表達(dá)的不同特征的描述。訓(xùn)練分類器:利用樣本數(shù)據(jù)確定分類器的過程。評價(jià)分類器:避免過擬合?!咀R別系統(tǒng)設(shè)計(jì)過程】數(shù)據(jù)采集:在開發(fā)一個(gè)模式識別系統(tǒng)總的費(fèi)用61總結(jié):幾個(gè)重要問題特征提取噪聲過擬合模型選擇先驗(yàn)知識特征缺失部分與整體分割上下文不變性分類器集成代價(jià)與風(fēng)險(xiǎn)計(jì)算復(fù)雜性……總結(jié):幾個(gè)重要問題特征提取分割62特征提取FeatureExtraction:Whichfeaturesaremostpromisingproblemanddomaindependent特征提取FeatureExtraction:Whichf63噪聲Noise:anypropertyofthesensedpatternduenottothetrueunderlyingmodelbutinsteadtorandomnessintheworldorthesensors.噪聲的影響:降低特征值測量的可靠性噪聲Noise:anypropertyofthese64過擬合Overtting:Whileanoverlycomplexmodelmayallowperfectclassificationofthetrainingsamples,itisunlikelytogivegoodclassificationofnovelpatternsArethereprincipledmethodsforfindingthebestcomplexityforaclassier?過擬合Overtting:Whileanoverly65模型選擇ModelSelection:Howdoweknowwhentorejectaclassofmodelsandtryanotherone?LinearNon-linear模型選擇ModelSelection:Howdowe66先驗(yàn)知識PriorKnowledge:Whenthereisnotsufficienttrainingdata,incorporatepriorknowledge先驗(yàn)知識PriorKnowledge:Whenthere67特征缺失MissingFeatures:Howshouldtheclassifiermakethebestdecisionwithmissingfeatures?Howtotraintheclassifierwithmissingfeatures?特征缺失MissingFeatures:68部分與整體Mereology:theproblemofsubsetsandsupersets,thestudyof

part/wholerelationships.Itisrelatedtopriorknowledgeandsegmentation部分與整體Mereology:theproblemof69分割Segmentation:Howdowe“group”togetherthepropernumberofelements?分割Segmentation:Howdowe“grou70上下文Context:input-dependentinformationotherthanfromthetargetpatternitselfThesamepatternwithindifferentcontextmighthavedifferentmeanings上下文Context:input-dependentinf71不變性Invariance:translationinvariance,rotationalinvariance,scaleinvariance不變性Invariance:translationinva72分類器集成EvidencePooling:

ClassifierEnsemble.Performancecanbeimprovedusingmultipleclassifiers分類器集成EvidencePooling:Classif73代價(jià)與風(fēng)險(xiǎn)CostsandRisks:EachclassificationisassociatedwithacostorriskCanweestimatethelowestpossibleriskofanyclassifier?代價(jià)與風(fēng)險(xiǎn)CostsandRisks:Eachclas74計(jì)算復(fù)雜性ComputationalComplexity:impracticaltimeormemoryrequirements?HowdoesanalgorithmscalewiththenumberoffeaturedimensionsnumberofpatternsnumberofcategoriesWhatisthetradeoffbetweencomputationalcomplexityandperformance?計(jì)算復(fù)雜性ComputationalComplexity:75主要內(nèi)容模式識別基本概念模式識別系統(tǒng)組成模式識別基本問題應(yīng)用領(lǐng)域小結(jié)主要內(nèi)容模式識別基本概念76應(yīng)用領(lǐng)域

應(yīng)用領(lǐng)域77【應(yīng)用領(lǐng)域】(1)工業(yè)領(lǐng)域

(2)農(nóng)業(yè)領(lǐng)域(3)生物特征識別(4)交通領(lǐng)域

(5)醫(yī)學(xué)領(lǐng)域(6)航空航天【應(yīng)用領(lǐng)域】(1)工業(yè)領(lǐng)域(2)農(nóng)業(yè)領(lǐng)域(3)生物特征識別78(1)工業(yè)領(lǐng)域工業(yè)機(jī)器人電路板檢測(1)工業(yè)領(lǐng)域工業(yè)機(jī)器人電路板檢測79(2)農(nóng)業(yè)領(lǐng)域農(nóng)業(yè)采摘機(jī)器人(2)農(nóng)業(yè)領(lǐng)域農(nóng)業(yè)采摘機(jī)器人80(3)生物特征識別人臉識別虹膜識別手掌靜脈識別指紋識別(3)生物特征識別人臉識別虹膜識別手掌靜脈識別指紋識別81(4)交通領(lǐng)域無人駕駛車牌識別交通流量分析(4)交通領(lǐng)域無人駕駛車牌識別交通流量分析82(5)醫(yī)學(xué)領(lǐng)域計(jì)算機(jī)輔助診斷系統(tǒng)醫(yī)學(xué)圖像決策系統(tǒng)(5)醫(yī)學(xué)領(lǐng)域計(jì)算機(jī)輔助診斷系統(tǒng)醫(yī)學(xué)圖像決策系統(tǒng)83(6)航空航天導(dǎo)彈圖像末制導(dǎo)無人偵察機(jī)全天候雷達(dá)監(jiān)控系統(tǒng)遙感地貌分析(6)航空航天導(dǎo)彈圖像末制導(dǎo)無人偵察機(jī)全天候雷達(dá)監(jiān)控系統(tǒng)遙感84主要內(nèi)容模式識別基本概念模式識別系統(tǒng)組成模式識別基本問題應(yīng)用領(lǐng)域小結(jié)主要內(nèi)容模式識別基本概念85本章小結(jié)

本章小結(jié)86【小結(jié)】(1)模式識別是每時(shí)每刻都發(fā)生的,重點(diǎn)強(qiáng)調(diào)分類。(2)具有廣泛的應(yīng)用。(3)對工程學(xué)科的意義

(4)發(fā)展歷程(5)重要研究期刊(6)參考書目【小結(jié)】(1)模式識別是每時(shí)每刻都發(fā)生的,重點(diǎn)強(qiáng)調(diào)分類。(287【4.發(fā)展歷程】模式識別誕生于20世紀(jì)20年代;隨著40年代計(jì)算機(jī)的出現(xiàn),50年代人工智能的興起,模式識別在60年代迅速發(fā)展成一門學(xué)科;3.60年代L.A.Zadeh提出了模糊集理論,模糊模式識別理論得到了較廣泛的應(yīng)用。4.80年代Hopfield提出神經(jīng)元網(wǎng)絡(luò)模型理論。近些年人工神經(jīng)元網(wǎng)絡(luò)在模式識別和人工智能上得到較廣泛的應(yīng)用。5.90年代,支持矢量機(jī)(SVM)的提出吸引了模式識別領(lǐng)域?qū)π颖窘y(tǒng)計(jì)學(xué)習(xí)理論和核方法(KernelMethods)的關(guān)注。與神經(jīng)網(wǎng)絡(luò)相比,SVM通過優(yōu)化一個(gè)泛化誤差界限自動(dòng)確定一個(gè)最優(yōu)的分類器結(jié)構(gòu),具有更好的泛化能力。核方法的引入使統(tǒng)計(jì)方法從線性空間推廣到高維非線性空間?!?.發(fā)展歷程】模式識別誕生于20世紀(jì)20年代;8821世紀(jì)以來:蓬勃發(fā)展時(shí)期

統(tǒng)計(jì)學(xué)習(xí)理論越來越多地用于解決具體的模式識別和模型選擇問題新的概率密度估計(jì)、特征選擇、特征變換、聚類算法不斷提出模式識別領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域的互相滲透模式識別系統(tǒng)大規(guī)模用于實(shí)際問題Ref:劉成林,談鐵牛.模式識別研究進(jìn)展.中科院自動(dòng)化所,模式識別重點(diǎn)實(shí)驗(yàn)室【4.發(fā)展歷程】21世紀(jì)以來:蓬勃發(fā)展時(shí)期Ref:劉成林,談鐵牛.模式89【5.重要期刊論文和數(shù)據(jù)】1.IEEETransactiononPatternAnalysisandMachineIntelligence,PAMI2.JournalofMachineLearningResearch3.IEEETransactiononMachineLearning,NeuralComputation,NN(NeuralNetwork)4.PatternRecognition5.PatternRecognitionLetter

6.PatternAnalysisandApplications,1997-(Springer)7.InternationalJournalonDocumentAnalysis&Recognition,1998-(Springer)8.InternationalJournalofPatternRecognitionandArtificialIntelligence實(shí)驗(yàn)數(shù)據(jù)UCImachinelearningrepository/~mlearn/MLRepository.htmlDataforEvaluatingLearninginValidExperiments(DELVE)http://www.cs.utoronto.ca/~delve/StatLibDatasetsArchive/datasets/【5.重要期刊論文和數(shù)據(jù)】1.IEEETransactio90主要會(huì)議ICPR(InternationalConferenceonPatternRecognition):2年一次,1000人規(guī)模ICDAR(InternationalConferenceonDocumentAnalysisandRecognition):2年一次,300-400人規(guī)模FG(IEEEInt’lConferenceonAutomaticFaceandGestureRecognition)主要會(huì)議ICPR(InternationalConfer91ICASSP(IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing),ICIP(InternationalConferenceonImageProcessing)ICML(InternationalConferenceonMachineLearning)ICASSP(IEEEInternationalCon92計(jì)算機(jī)視覺三大國際會(huì)議

ICCV(InternationalConferenceonComputerVision):2年一次,1000人規(guī)模

CVPR(InternationalConferenceonComputerVisionandPatternRecognition):每年一次在美國,1000人規(guī)模

ECCV(EuropeanConferenceonComputerVision):2年一次計(jì)算機(jī)視覺三大國際會(huì)議93主要組織

國際組織IAPR(InternationalAssociationforPatternRecognition,模式識別國際協(xié)會(huì))IEEEComputerSociety:TC(TechnicalCommittee)onPAMI(PatternAnalysisandMachineIntelligence)國內(nèi)組織中國自動(dòng)化學(xué)會(huì):模式識別與機(jī)器智能(PRMI)專業(yè)委員會(huì),1981年成立,IAPR(InternationalAssociationofPatternRecognition)成員組織中國計(jì)算機(jī)學(xué)會(huì):人工智能與模式識別專業(yè)委員會(huì)中國人工智能學(xué)會(huì)主要組織國際組織94USA:MIT(TomasoPoggio,BrainandCognitiveSciencesandattheArtificialIntelligenceLaboratory.)

/principal-investigators/tomaso-poggio

UIUC(ThomasHuang,UniversityofIllinoisUrbanaChampaign伊利諾伊大學(xué)厄本那香檳分校,Robotics,vision,artificialintelligence)

/directory/profile.asp?t-huang1CMU(CarnegieMellonUniversity卡內(nèi)基梅隆大學(xué),computervision,human-computerinteraction,mobilerobots)

http://www.cmu.eduMSU(A.K.Jain,MichiganStateUniversity密西根州立大學(xué),patternrecognition,computervisionandbiometricrecognition)

/~jain/USA:95Canada:TorontoUniversity多倫多(G.E.Hinton,NeuralNetwork,MachineLearning.BoltzmannMachines,DistributedRepresentations,Time-delayNeuralNets,DeepB

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論