模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))

上傳人：4*** IP屬地：湖北上傳時(shí)間：2022-07-25 格式：DOCX 頁(yè)數(shù)：29 大小：10.28MB 積分：30 舉報(bào) 版權(quán)申訴

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第2頁(yè)

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第3頁(yè)

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第4頁(yè)

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第5頁(yè)

已閱讀5頁(yè)，還剩24頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2015 年秋季(qij) 季學(xué)期研究生課程(kchng)考核（讀書報(bào)告(bogo)、研究報(bào)告）考核科目: 模式識(shí)別學(xué)生所在院（系）: 航天學(xué)院學(xué)生所在學(xué)科: 控制科學(xué)與工程學(xué) 生姓名: 學(xué) 號(hào): 15S004001學(xué) 生類別: 學(xué)術(shù)型考核結(jié)果閱卷人模式識(shí)別課程結(jié)業(yè)(ji y)報(bào)告2015秋季(qij)學(xué)期姓名：學(xué) 號(hào)：15S004001專業(yè)：控制科學(xué)(kxu)與工程哈爾濱工業(yè)大學(xué)2015年12月兩種手寫(shuxi)數(shù)字識(shí)別系統(tǒng)的比較(bjio)摘要(zhiyo)：手寫體數(shù)字識(shí)別是圖像識(shí)別中一個(gè)較成熟的研究課題，是模式識(shí)別(m sh sh bi)領(lǐng)域最成功的應(yīng)用之一。本論

2、文旨在(zh zi)研究GMM分類器和最近鄰分類器這兩種基本算法在數(shù)字識(shí)別這一問題上的應(yīng)用。實(shí)驗(yàn)直接調(diào)用MNIST中數(shù)據(jù)集，集中每個(gè)手寫數(shù)字存儲(chǔ)為一個(gè)784維的歸一化后的二值特征向量，因此可以省略數(shù)字的預(yù)處理過程，包括灰度化及二值化處理等。直接進(jìn)行特征提取即主成分分析，把重點(diǎn)放在不同樣本總數(shù)下二種方法的識(shí)別正確率的比較，驗(yàn)證最近鄰法的漸進(jìn)錯(cuò)誤率最優(yōu)極限為貝葉斯錯(cuò)誤率這一結(jié)論。關(guān)鍵詞：數(shù)字識(shí)別;特征提取;主成分分析;GMM分類器;最近鄰分類器;漸進(jìn)錯(cuò)誤率1課題的背景自上世紀(jì)六十年代以來，計(jì)算機(jī)視覺與圖像處理越來越受到人們的關(guān)注，并逐漸成為一門重要的學(xué)科領(lǐng)域。而作為它們的研究對(duì)象的數(shù)字圖像，也因?yàn)?/p>

3、它含有研究目標(biāo)的豐富信息而成為越來越重要的研究對(duì)象。圖像識(shí)別的目標(biāo)是用計(jì)算機(jī)自動(dòng)完成某些信息的處理，用來替代人工去處理圖像分類及識(shí)別的任務(wù)。而模式識(shí)別是六十年代初迅速發(fā)展起來的一門學(xué)科。由于它研究的是如何用機(jī)器來實(shí)現(xiàn)人及某些動(dòng)物對(duì)事物的學(xué)習(xí)、識(shí)別和判斷能力，因而受到了很多科技領(lǐng)域研究人員的注意，成為人工智能研究的一個(gè)重要方面。1.1 手寫數(shù)字識(shí)別的發(fā)展手寫數(shù)字識(shí)別是圖像識(shí)別學(xué)科下的一個(gè)分支，是圖像處理和模式識(shí)別領(lǐng)域研究的課題之一，由于其具有很強(qiáng)的實(shí)用性一直是多年來的研究熱點(diǎn)。由于手寫體數(shù)字的隨意性很大，例如，筆畫的粗細(xì)，字體的大小，傾斜等等都直接影響到字符的正確識(shí)別。在過去的數(shù)十年中，研究者們

4、提出了許多的識(shí)別方法，取得了較大的成果。按提取的數(shù)字特征的不同，可以將這些方法分為兩類：基于結(jié)構(gòu)特征的方法和基于統(tǒng)計(jì)特征的方法。統(tǒng)計(jì)特征通常包括點(diǎn)密度的測(cè)量、矩、特征區(qū)域等；結(jié)構(gòu)特征通常包括圓、端點(diǎn)、交叉點(diǎn)、筆劃、輪廓等，一般來說，兩類特征各有優(yōu)勢(shì)。例如，使用統(tǒng)計(jì)特征的分類器易于訓(xùn)練，而且對(duì)于使用統(tǒng)計(jì)特征的分類器，在給定的訓(xùn)練集上能夠得到相對(duì)較高的識(shí)別率；而結(jié)構(gòu)特征的主要優(yōu)點(diǎn)之一是能描述字符的結(jié)構(gòu)，在識(shí)別過程中能有效地結(jié)合幾何和結(jié)構(gòu)的知識(shí)，因此能夠得到可靠性較高的識(shí)別結(jié)果。在此次的設(shè)計(jì)中使用的是統(tǒng)計(jì)特征。在近幾年國(guó)內(nèi)外對(duì)手寫數(shù)字識(shí)別系統(tǒng)的研究已經(jīng)取得了進(jìn)展，一些新的理論例如(lr)基于深度(s

5、hnd)置信神經(jīng)網(wǎng)絡(luò)、基于小波技術(shù)(jsh)、基于BP神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)的研究應(yīng)用在建立手寫數(shù)字識(shí)別系統(tǒng)平臺(tái)，并且在多數(shù)數(shù)據(jù)庫(kù)中取得了較好的測(cè)試結(jié)果。但是目前仍然存在亟需深入研究解決的問題：一是識(shí)別的準(zhǔn)確度需要達(dá)到較好的水平；二是識(shí)別的效率要達(dá)到很高的水平。數(shù)字識(shí)別輸入的數(shù)據(jù)通常是很大的，而高精度與高速度是相互矛盾。這些難點(diǎn)存在的原因是：1)數(shù)字的筆劃簡(jiǎn)單，而且其筆劃差別相對(duì)較小，字形相差不大，使得準(zhǔn)確區(qū)分某些數(shù)字有一些困難；2)數(shù)字雖然只有10種，且筆劃簡(jiǎn)單，但同一數(shù)字寫法卻千差萬(wàn)別，全世界的各個(gè)國(guó)家各個(gè)地區(qū)的人都在用，則其書寫上帶有區(qū)域特性，很難做出可以兼顧世界各種寫法的、識(shí)別率極高的

6、通用性數(shù)字識(shí)別系統(tǒng)。3)特征庫(kù)的訓(xùn)練不夠會(huì)導(dǎo)致識(shí)別率不高。1.2 手寫數(shù)字識(shí)別研究的意義手寫體數(shù)字識(shí)別實(shí)用性很強(qiáng)，在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)(如例行年檢，人口普查)，財(cái)務(wù)，稅務(wù)，郵件分揀等等應(yīng)用領(lǐng)域中都有廣闊的應(yīng)用前景。手寫體數(shù)字識(shí)別在特定的環(huán)境下，如郵政編碼自動(dòng)識(shí)別系統(tǒng)，稅表和銀行支票自動(dòng)處理系統(tǒng)等一般情況都有應(yīng)用。當(dāng)涉及到數(shù)字識(shí)別時(shí)，人們往往要求識(shí)別器有很高的識(shí)別可靠性，特別是有關(guān)金額的數(shù)字識(shí)別時(shí)，如支票中填寫的金額部分，更是如此。針對(duì)這類問題的處理系統(tǒng)設(shè)計(jì)的關(guān)鍵環(huán)節(jié)之一就是設(shè)計(jì)出高可靠性和高識(shí)別率的手寫體數(shù)字識(shí)別方法。這個(gè)領(lǐng)域取得了飛速的發(fā)展，部分是由于更好的學(xué)習(xí)算法，部分是由于更優(yōu)良的訓(xùn)練集。美

7、國(guó)國(guó)家科學(xué)學(xué)會(huì)（NIST）建立了一個(gè)包含60000個(gè)經(jīng)過標(biāo)注的數(shù)字的數(shù)據(jù)庫(kù)，它已經(jīng)成為對(duì)新的學(xué)習(xí)算法進(jìn)行比較的性能測(cè)試標(biāo)準(zhǔn)。然而可以說還沒有哪個(gè)手寫體數(shù)字識(shí)別器達(dá)到完美的識(shí)別效果。手寫數(shù)字識(shí)別的研究不僅(bjn)存在很大的應(yīng)用價(jià)值，由于手寫數(shù)字識(shí)別本身的特點(diǎn)，對(duì)它的研究也存在著重要的理論價(jià)值：1) 阿拉伯?dāng)?shù)字作為唯一被世界各國(guó)通用的符號(hào)(fho)，所以對(duì)手寫體數(shù)字識(shí)別的研究基本上與文化背景無關(guān)，各地的研究工作者可以說是基于同一平臺(tái)開展工作的，有利于研究的比較和探討。2) 手寫數(shù)字識(shí)別應(yīng)用廣泛，如稅表系統(tǒng)，銀行支票自動(dòng)處理和郵政編碼自動(dòng)識(shí)別等。在以前，這些工作需要大量(dling)的手工錄入，投

8、入的人力物力都相對(duì)較多，而且勞動(dòng)強(qiáng)度較大。為了適應(yīng)無紙化辦公的需要，大大提高工作效率，研究實(shí)現(xiàn)手寫數(shù)字識(shí)別系統(tǒng)是必須要做的。3) 由于數(shù)字類別只有0-9共10 個(gè)，比其他字符識(shí)別率較高，可將其用于驗(yàn)證新的理論或做深入的分析研究。許多機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的新理論和算法都是先用手寫數(shù)字識(shí)別進(jìn)行檢驗(yàn)，驗(yàn)證其理論的有效性，然后才會(huì)將其應(yīng)用到更為復(fù)雜的領(lǐng)域當(dāng)中。在這方面的典型例子就是人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。4) 手寫數(shù)字的識(shí)別方法很容易將其推廣到其它一些相關(guān)的問題上，如對(duì)英文之類拼音文字的識(shí)別。事實(shí)上，有許多學(xué)者就是把數(shù)字和英文字母的識(shí)別放在一起研究的。1.3數(shù)字識(shí)別系統(tǒng)的一般結(jié)構(gòu)小型的手寫體數(shù)字識(shí)

9、別系統(tǒng)需要完成以下主要方面的研究與設(shè)計(jì)工作：手寫數(shù)字繪制的問題、數(shù)字的預(yù)處理問題、特征提取問題、特征庫(kù)的建立問題、數(shù)字識(shí)別問題。在本實(shí)驗(yàn)中數(shù)字識(shí)別程序用Python來實(shí)現(xiàn)，程序?qū)崿F(xiàn)了手寫數(shù)字的輸入、學(xué)習(xí)、識(shí)別過程。在最初的訓(xùn)練樣本為數(shù)據(jù)集中全部60000個(gè)數(shù)據(jù)。在數(shù)字識(shí)別時(shí)分別使用了Bayes決策與最近鄰決策兩種方法。首先，通常小型手寫數(shù)字識(shí)別系統(tǒng)應(yīng)包含以下結(jié)果模塊：1）數(shù)字的獲取與預(yù)處理一般圖像系統(tǒng)的預(yù)處理需要對(duì)圖像進(jìn)行灰度化處理、去噪處理等基本操作。在手寫數(shù)字圖像識(shí)別系統(tǒng)中，預(yù)處理是為了突出手寫體數(shù)字的特征。圖像的二值化處理就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0或255，也就是將整個(gè)圖像呈

10、現(xiàn)出明顯的黑白效果。在手寫數(shù)字識(shí)別系統(tǒng)中，我們利用程序保存的坐標(biāo)值就可以對(duì)生成一張二值化圖像，相當(dāng)于圖像處理系統(tǒng)的二值化處理。這樣內(nèi)存中圖像的數(shù)據(jù)區(qū)域的二維數(shù)組就跟手寫區(qū)域的坐標(biāo)相同，我們?cè)偃〕鍪謱憛^(qū)域的坐標(biāo)值，將這些坐標(biāo)值對(duì)應(yīng)到圖像圖像數(shù)據(jù)區(qū)域中，并且將它的灰度值置為255(白色)，將圖像數(shù)據(jù)區(qū)域的其它坐標(biāo)值下的灰度值置為0(黑色)，這樣我們就得到了一張手寫數(shù)字的二值化圖像。在數(shù)字圖像處理中，二值圖像占有非常重要的地位，圖像的二值化有利于圖像的進(jìn)一步處理，使圖像變得簡(jiǎn)單，而且數(shù)據(jù)量減小，能突顯出感興趣的目標(biāo)的輪廓。2）特征(tzhng)的提取若直接把預(yù)處理后的數(shù)據(jù)作為輸入量，進(jìn)行分類計(jì)算時(shí)數(shù)

11、據(jù)時(shí)數(shù)據(jù)量大，同時(shí)由于手寫字體的多樣化及圖像本身和預(yù)處理過程中附帶的某些干擾的影響，對(duì)系統(tǒng)的容錯(cuò)能力要求較高。特征提取的目的(md)就是從分析數(shù)字的拓?fù)浣Y(jié)構(gòu)入手，把它的某些結(jié)構(gòu)特征提取出來，使數(shù)字的位移、大小變化、字形畸形等干擾相對(duì)較小，也就是把那些反映數(shù)字特征的關(guān)鍵信息提供給系統(tǒng)，這樣就等于間接地增加了系統(tǒng)的容錯(cuò)能力，而且經(jīng)過特征提取后數(shù)據(jù)量也大大減少了，這樣就提高了識(shí)別的效率。因此(ync)得到手寫數(shù)字的二值化圖像后，通常要進(jìn)行特征提取前需要對(duì)此圖像的數(shù)據(jù)區(qū)域進(jìn)行定位，在程序中我們遍歷此二值化圖像，找到手寫數(shù)字區(qū)域的上、下、左、右邊界，重新生成一張數(shù)字圖片，利用新生成的數(shù)字圖片分成N*N的

12、區(qū)域，統(tǒng)計(jì)每個(gè)區(qū)域的目標(biāo)像素個(gè)數(shù)和整個(gè)小區(qū)域像素個(gè)數(shù)，計(jì)算目標(biāo)像素個(gè)數(shù)與整個(gè)小區(qū)域像素的比值，得到N*N個(gè)特征值，作為這個(gè)手寫數(shù)字的特征值。手寫數(shù)字識(shí)別的特征提取極大程度地影響著分類器的設(shè)計(jì)和性能，以及識(shí)別的效果和效率。為了保證所要求的分類識(shí)別的正確率和節(jié)省資源，希望依據(jù)最少的特征達(dá)到所要求的分類識(shí)別的正確率。在進(jìn)行手寫數(shù)字識(shí)別的過程中，特征提取應(yīng)遵循以下原則：1特征應(yīng)能盡量包含字符的有用信息；2特征的提取方法應(yīng)簡(jiǎn)單而且提取快速：3各個(gè)特征之間的相關(guān)性應(yīng)盡可能??；4特征數(shù)量盡可能少；5特征應(yīng)有較好的抗干擾能力，同時(shí)要考慮到算法的實(shí)時(shí)性、快速性和準(zhǔn)確性。3）特征庫(kù)的訓(xùn)練我們需要訓(xùn)練一個(gè)特征庫(kù)，作

13、為識(shí)別的標(biāo)準(zhǔn)。我們可以手寫一個(gè)數(shù)字提取出它的特征值，再輸入這些手寫數(shù)字，將數(shù)字與這些特征值相對(duì)應(yīng)存儲(chǔ)到特征庫(kù)里面，在程序中將此輸入數(shù)字與所有特征值相對(duì)應(yīng)，作為模板庫(kù)的一條記錄，初始化模板庫(kù)之后，就可以對(duì)手寫數(shù)字進(jìn)行識(shí)別，在識(shí)別的過程中我們不斷的豐富模板庫(kù)，如果手寫數(shù)字識(shí)別成功則不需要將此數(shù)字存儲(chǔ)到模板庫(kù)中，如果識(shí)別失敗就需要將此數(shù)字存儲(chǔ)到模板庫(kù)中，這樣我們的模板庫(kù)將越來越豐富，特征庫(kù)越豐富，識(shí)別率越高。本實(shí)驗(yàn)我們簡(jiǎn)化了這一過程，直接使用MNIST數(shù)據(jù)庫(kù)中儲(chǔ)存樣本信息。4）數(shù)字(shz)識(shí)別在手寫數(shù)字(shz)識(shí)別中，即分類器準(zhǔn)則(zhnz)的設(shè)計(jì)，是整個(gè)過程的核心。如本實(shí)驗(yàn)中使用的一個(gè)方法是最

14、近鄰法，其實(shí)質(zhì)就是提取出手寫數(shù)字的特征值，利用這些特征值與特征庫(kù)的數(shù)字的特征值進(jìn)行比對(duì)，它是將從待識(shí)別的圖像提取的若干特征量與模板對(duì)應(yīng)的特征量進(jìn)行比較，計(jì)算圖像和模板特征量之間的距離，用最小距離法判定所屬類。模板匹配通常事先建立標(biāo)準(zhǔn)模板庫(kù)。這里，模板庫(kù)中的標(biāo)準(zhǔn)模板是數(shù)字樣本的特征向量。找出待識(shí)別數(shù)字特征值與特征庫(kù)里存儲(chǔ)的特征值最接近的數(shù)字，作為識(shí)別結(jié)果。5）性能需求分析得到數(shù)字識(shí)別系統(tǒng)后，我們要對(duì)這一系統(tǒng)的識(shí)別效果做出評(píng)價(jià)，通常從以下三個(gè)方面入手：1正確性：根據(jù)手寫數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)流程，流程中的每個(gè)步驟在系統(tǒng)中都必須有所體現(xiàn)，以保證程序的正確性；2精確性：根據(jù)手寫數(shù)字識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域，該系

15、統(tǒng)的識(shí)別結(jié)果必須有很高的識(shí)別精度，這樣才能真正的實(shí)現(xiàn)該系統(tǒng)的價(jià)值；3效率性：根據(jù)該系統(tǒng)的應(yīng)用領(lǐng)域可知，系統(tǒng)一旦投入應(yīng)用需要處理大量的數(shù)據(jù)，所以對(duì)系統(tǒng)的處理速度也有很高的要求。綜上所述，數(shù)字識(shí)別系統(tǒng)的基本結(jié)構(gòu)一般分為左右兩部分，左半部分完成未知類別模式的分類；右半部分屬于設(shè)計(jì)分類器的訓(xùn)練過程，利用樣品進(jìn)行訓(xùn)練，確定分類器的具體參數(shù)，完成分類器的設(shè)計(jì)。而分類決策在識(shí)別過程中起作用，對(duì)待識(shí)別的樣品進(jìn)行分類決策。2理論基礎(chǔ)2.1貝葉斯分類理論Bayes方法是模式識(shí)別中的一種經(jīng)典方法。用Bayes方法進(jìn)行分類時(shí)需要滿足兩個(gè)前提條件。其一是各類別的總體概率分布是已知的,也即類條件概率密度P(X|Wi)和先

16、驗(yàn)概率P(Wi)是已知的；其二是決策類別數(shù)目已知。類條件概率密度函數(shù)P(X|Wi)是指在已知某類別Wi的特征空間中,出現(xiàn)特征值X的概率密度,也即在Wi條件下出現(xiàn)X的概率密度。其中對(duì)于待分類樣本數(shù)字X ,Bayes公式可以計(jì)算出該數(shù)字分屬與各個(gè)類別的概率,稱為后驗(yàn)概率。考察X屬于那個(gè)類的可能性最大,就把X歸于可能性最大的那個(gè)類。在Bayes決策中,后驗(yàn)概率作為識(shí)別待分類樣的類別依據(jù)。其公式可表示如下：其中(qzhng),P(X|Wi)表示(biosh)在X出現(xiàn)(chxin)的條件下,待識(shí)別對(duì)象為Wi類的概率。基于Bayes決策的分類在已知先驗(yàn)概率和類條件概率密度函數(shù)的情況下,可以用Bayes方

17、法進(jìn)行分類。根據(jù)分類類別數(shù)目的不同,后驗(yàn)概率計(jì)算公式可以表示為不同的形式；下面分兩種情況進(jìn)行討論:兩類情況:待分類樣本分別屬于W1和W2類中的一類,在已知這兩類的類條件概率密度P(X|W1)和P(X|W2),先驗(yàn)概率分別為P(W1)和P(W2)時(shí),對(duì)于任一個(gè)待分類樣本X,X分屬于兩類的后驗(yàn)概率Bayes公式可以改寫為: 其中i=1或2，針對(duì)兩類情況,可以用后驗(yàn)概率進(jìn)行判別；后驗(yàn)概率較大的對(duì)應(yīng)的類別為該對(duì)象X所屬的類別。多類情況:待分類樣本可能的類別有N類,分別為W1、W2、Wn,各類的類的條件概率密度P(X|Wi)和先驗(yàn)概率P(Wi)已知。我們可以利用式子計(jì)算待分類樣本對(duì)應(yīng)的各個(gè)類的后驗(yàn)概率,

18、后驗(yàn)概率最大的對(duì)應(yīng)的類別為待分類樣本的類別。在本系統(tǒng)中將以使用者聯(lián)機(jī)手寫的數(shù)字作為測(cè)試樣本。當(dāng)手寫一個(gè)數(shù)字時(shí)，就進(jìn)行分類識(shí)別測(cè)試,得出其所屬的類別,并可根據(jù)需要決定是否要學(xué)習(xí)該數(shù)字。在識(shí)別之前須首先知道先驗(yàn)概率和類條件概率密度函數(shù),其中先驗(yàn)概率P(Wi）可以由訓(xùn)練樣本集中的各類數(shù)字的個(gè)數(shù)和樣本總數(shù)之比近似計(jì)算；類條件概率密度函數(shù)P(X|Wi）可以按照模板匹配等方法進(jìn)行數(shù)字的區(qū)域劃分再進(jìn)行進(jìn)一步計(jì)算得到。在得到先驗(yàn)概率和類條件概率密度函數(shù)以后,可以運(yùn)用Bayes公式進(jìn)行后驗(yàn)概率P(Wi|X）的計(jì)算；由于手寫數(shù)字09共有十類,該公式可以表示如下: 在這是i為總類別數(shù),分別為0、1、9等。緊接著就可

19、以進(jìn)行后驗(yàn)概率的比較,其中值最大的所對(duì)應(yīng)的類別即為該手寫數(shù)字的所屬的類別,即:則xWi。2.2GMM分類器算法名稱：Gaussian-mixture-model Classifier(GMM Classifier)由于貝葉斯理論本身并未給出概率密度分布模型的估計(jì)方法，將貝葉斯分類理論中獲取的概率密度分布參數(shù)看做多個(gè)高斯分布混合模型，可以得到GMM算法，算法步驟如下：輸入(shr)：降維后的訓(xùn)練樣本集，其中(qzhng)是降維后的數(shù)據(jù)(shj)維數(shù)，是訓(xùn)練樣本個(gè)數(shù)；降維后的測(cè)試樣本集，其中是降維后的數(shù)據(jù)維數(shù)，是測(cè)試樣本個(gè)數(shù)；CTrain是每個(gè)類別的訓(xùn)練樣本數(shù)目；是預(yù)設(shè)的每個(gè)類別最大的組件數(shù)目。步

20、驟一估算訓(xùn)練數(shù)據(jù)的概率密度函數(shù)。采用BIC準(zhǔn)則來估算最優(yōu)值。步驟二計(jì)算測(cè)試樣本集中每個(gè)樣本的歸屬類別。計(jì)算每個(gè)測(cè)試樣本對(duì)每個(gè)類別的概率密度函數(shù)值，取最大的函數(shù)值類別作為此測(cè)試樣本的歸屬類別。輸出：測(cè)試樣本集的概率密度值和樣本所屬類別。一個(gè)GMM結(jié)構(gòu)可以看作兩個(gè)或更多常規(guī)高斯分布模型的混合。在一個(gè)典型的GMM分布中，的概率密度函數(shù)被寫為個(gè)高斯分布的和：其中：在上式中，是混合的高斯分布的個(gè)數(shù)，是第個(gè)高斯分布的權(quán)重因子，表示每個(gè)高斯分量在總體中所占的比例，并且，是模型的期望，通常用樣本均值來代替，是模型方差，通常用樣本協(xié)方差矩陣來代替。最后這三個(gè)量能用一個(gè)參數(shù)向量來表示。當(dāng)組成每個(gè)GMM的高斯

21、分布最優(yōu)數(shù)目確定后，混合模型的參數(shù)能通過期望最大化算法（EM，一種迭代優(yōu)化策略）來估計(jì)。EM算法能找到參數(shù)的一個(gè)（局部）最大似然或最大后驗(yàn)概率估計(jì)。給定一個(gè)數(shù)據(jù)集，是第個(gè)高斯分布子集中的數(shù)據(jù)向量，是中的樣本數(shù)目，由此產(chǎn)生的完整的數(shù)據(jù)對(duì)數(shù)似然函數(shù)是：其中(qzhng)是GMM中第個(gè)分布(fnb)的后驗(yàn)概率，可以寫為：每次迭代(di di)中，通過求最大似然函數(shù)式來求得參數(shù)（M步驟）。參數(shù)集隨后作為期望參數(shù)值更新式(2-30)來進(jìn)行下一次迭代（E步驟），其中更新參數(shù)為：直到式中完整的數(shù)據(jù)對(duì)數(shù)似然函數(shù)的連續(xù)的數(shù)值相對(duì)差異達(dá)到某些預(yù)設(shè)的收斂閾值時(shí)停止迭代。預(yù)估一個(gè)合適的組件/模型數(shù)值對(duì)于分類任務(wù)中成

22、功學(xué)習(xí)和使用GMM算法很重要。信息準(zhǔn)則（AIC）是一個(gè)常用的用來估計(jì)最優(yōu)值的度量。對(duì)于參數(shù)向量，AIC準(zhǔn)則表述為如下的似然函數(shù)：其中是依據(jù)每個(gè)模型的最大對(duì)數(shù)似然函數(shù)，是估算的高斯分布的數(shù)目。首選的模型是有最小數(shù)值的模型。貝葉斯信息準(zhǔn)則（BIC）是另一個(gè)常用來估算最優(yōu)值的度量，表示為：其中是樣本總數(shù)，據(jù)悉模式識(shí)別領(lǐng)域的具體應(yīng)用中，AIC會(huì)過度估計(jì)值，而BIC由于會(huì)得到一個(gè)小的多的值而更有效。因此采用BIC作為GMM分類的度量。2.3主成分(chng fn)分析（PCA）算法(sun f)名稱：Principal Component Analysis（PCA）本實(shí)驗(yàn)(shyn)為了解決針對(duì)貝葉斯分

23、類器中特征矩陣奇異不可求逆，引入PCA降維算法。PCA是基于K-L變換思想的特征提取方法，它的出發(fā)點(diǎn)是從一組特征中計(jì)算出一組按重要性從大到小排列的新特征，它們是原有特征的線性組合，且相互之間是極大不相關(guān)的。PCA的目標(biāo)是使新特征的方差達(dá)到極大值，可用于線性分類，最大化類間離散度。方法具體可描述為，對(duì)于一幅個(gè)像素組成的圖像，可以將其看作一個(gè)特征為維向量的樣本。設(shè)訓(xùn)練樣本集有類樣本，每類樣本的個(gè)數(shù)為，則所有樣本個(gè)數(shù)為，樣本集表示為。樣本集的平均向量表示為，每個(gè)樣本減去平均向量，得到差值，協(xié)方差矩陣（也稱總體散布矩陣）表示為，其中，因?yàn)榫仃嚨木S度為，因此考慮另一個(gè)矩陣，它的維度為，通常。矩陣的特征方

24、程為，兩邊同時(shí)左乘，得，記，則上式可寫成因此(ync)，維的矩陣(j zhn)和維矩陣(j zhn)具有相同的特征值，特征向量具有如下關(guān)系，兩規(guī)范化特征向量的關(guān)系為，將特征值從大到小排列，選取前個(gè)特征值，滿足一定的貢獻(xiàn)率，即則這個(gè)特征值在這些新的規(guī)范正交基上的投影構(gòu)成了對(duì)原圖像的降維表示，所在空間為特征臉空間。根據(jù)K-L變換的性質(zhì)，這種降維表示是所有相同維數(shù)的線性表示中誤差最小的。特征空間可用矩陣表示，其列向量為規(guī)范正交基，即，表示的差值在其上投影，投影系數(shù)可表示為，而特征向量可通過下式重構(gòu)出原始圖像，?？偟脕碚f，PCA算法通過利用規(guī)范正交基的線性組合描述、表達(dá)和逼近圖像，因此可以進(jìn)行圖片的識(shí)

25、別和重建。PCA 為了獲得數(shù)目和計(jì)算量最小的主成分需要從信息壓縮最大方向?qū)で髨D像的低維信息表達(dá)，所以對(duì)應(yīng)的 K-L 變換的信息熵最小，獲得的識(shí)別空間也是對(duì)原圖像的最優(yōu)逼近。且歸一化后的特征向量的范圍被限制在0,1之間，簡(jiǎn)化了運(yùn)算過程，提高了運(yùn)算速度。采用主成分分析法對(duì)繁雜的特征向量進(jìn)行提取，以降低分類代價(jià)，提高分類性能。然而，PCA具有兩點(diǎn)不足：其一，將二維圖像一維向量化，丟失了圖像中像素的鄰域相關(guān)信息；其二，圖像中所有像素點(diǎn)的權(quán)重相同，沒有突出重要信息PCA算法具體步驟如下：（1）對(duì)各維數(shù)據(jù)(shj)進(jìn)行無量綱化；設(shè) 那么(n me)得到其中(qzhng)是各維特征向量的均值，是各維特征向量

26、的標(biāo)準(zhǔn)差。（2）計(jì)算Y的協(xié)方差矩陣S: (3)解特征值和特征向量根據(jù)特征方程求解S的特征值和特征向量u。而后將從大到小排列：,并找到與之對(duì)應(yīng)的： (4)計(jì)算主成分這里 (5)選取主成分P的取值原則要讓主成分滿足最大程度包含原信息量最小值的條件。這里依據(jù)主成分貢獻(xiàn)率選取主成分。2.4最近鄰分類器算法名稱：Nearest Neighbor Classification最近(zujn)鄰法是將分段線性分類器得思想推廣，把每一個(gè)訓(xùn)練樣本作為(zuwi)一個(gè)子類模板，利用兩兩樣本間的分類面構(gòu)造出非線性分類面，對(duì)于一個(gè)新樣本，逐一與已知樣本比較，找出距離新樣本最近的已知樣本類別作為決策，即最近鄰法。

27、可以表述為為樣本(yngbn)特征向量，為對(duì)應(yīng)樣本類別，設(shè)共有c個(gè)類別，定義兩個(gè)樣本間的距離度量，通常用歐式距離計(jì)算即可。則判別函數(shù)可以寫作決策規(guī)則可以寫作在已知樣本足夠多時(shí)，這種直觀的最近鄰決策可以取得較好的效果，理論上最近鄰法的錯(cuò)誤率結(jié)果如下：設(shè)N個(gè)樣本下最近鄰法平均錯(cuò)誤率為定義最近鄰法漸進(jìn)錯(cuò)誤率P為當(dāng)N趨于無窮時(shí)平均錯(cuò)誤率的極限，則可以證明 P*為理論最優(yōu)錯(cuò)誤率，即貝葉斯錯(cuò)誤率。由此可知，最近鄰法的漸進(jìn)錯(cuò)誤率最壞不會(huì)超出兩倍貝葉斯錯(cuò)誤率，當(dāng)樣本足夠多時(shí)，最優(yōu)可以達(dá)到貝葉斯錯(cuò)誤率，如圖2.4所示。圖2.4最近鄰法與貝葉斯法理論錯(cuò)誤率關(guān)系2.5K最近鄰分類器算法名稱：k-Nearest

28、Neighbor Classification ()最近鄰（k-Nearest Neighbor，）分類器算法是一種在理論上很成熟的分類算法，并且是最簡(jiǎn)單機(jī)器學(xué)習(xí)算法之一。K最近鄰法相當(dāng)于是最近鄰法的推廣，后者只是K=1的特例。算法的思想是：已知一個(gè)訓(xùn)練樣本集，并且訓(xùn)練樣本集中的每個(gè)樣本的類別是確定的。對(duì)于給定的待分類樣本，計(jì)算它和訓(xùn)練樣本集中所有樣本的距離度量，常見的距離度量包括歐氏距離，皮爾遜系數(shù)，余弦函數(shù)。根據(jù)距離度量找出樣本的個(gè)最近的訓(xùn)練樣本，然后根據(jù)這個(gè)訓(xùn)練樣本的所屬類別來確定的類別，其中待分類樣本類別由這個(gè)訓(xùn)練樣本中類別最多的來確定。如圖2.5所示，相比較最近鄰法，K近鄰法的正確率

29、會(huì)顯著提高，但仍以貝葉斯錯(cuò)誤率為漸進(jìn)錯(cuò)誤率的極限。圖2.5 K近鄰(jn ln)法與貝葉斯法理論錯(cuò)誤率關(guān)系K近鄰(jn ln)算法步驟如下：輸入(shr)：訓(xùn)練樣本集和測(cè)試樣本集，其中為訓(xùn)練樣本個(gè)數(shù)，為測(cè)試樣本個(gè)數(shù)，為樣本的維數(shù)，為每個(gè)訓(xùn)練樣本所屬樣本類別的集合，，近鄰域。步驟一計(jì)算測(cè)試樣本集中每一個(gè)樣本與所有訓(xùn)練樣本的距離度量。計(jì)算測(cè)試樣本集中的每一個(gè)樣本與所有訓(xùn)練樣本的歐氏距離，尋找與測(cè)試樣本距離最小的個(gè)訓(xùn)練樣本，并記錄這個(gè)訓(xùn)練樣本所屬的類別。步驟二統(tǒng)計(jì)個(gè)訓(xùn)練樣本中每個(gè)類別的樣本出現(xiàn)的頻率。統(tǒng)計(jì)中出現(xiàn)頻率最高的類別，并將這個(gè)類別作為測(cè)試樣本的預(yù)測(cè)類別。輸出：測(cè)試樣本集所屬的類別向量

30、。 3實(shí)驗(yàn)設(shè)計(jì)3.1MNIST數(shù)據(jù)(shj)樣本(yngbn)集介紹(jisho)MNIST數(shù)據(jù)集是一個(gè)真實(shí)世界中采集的手寫數(shù)字圖像數(shù)據(jù)集，它由NIST會(huì)議收集并持有，讀者可到MNIST主頁(yè)免費(fèi)獲取該數(shù)據(jù)集。這個(gè)數(shù)據(jù)集一共含有4個(gè)文件，分別存儲(chǔ)訓(xùn)練數(shù)據(jù)、訓(xùn)練標(biāo)簽、測(cè)試數(shù)據(jù)、測(cè)試標(biāo)簽。文件以二進(jìn)制文件形式存儲(chǔ)，不過我們可以很容易編寫一段小代碼將其轉(zhuǎn)換成圖像。訓(xùn)練集共含有60000個(gè)樣本，測(cè)試集含有10000個(gè)樣本，這些樣本收集自 500位不同的人的手寫字體。MNIST是手寫數(shù)字的數(shù)據(jù)庫(kù)，其中包含有60000個(gè)樣本的訓(xùn)練樣本集以及10000個(gè)樣本的測(cè)試樣本集。這是從NIST這個(gè)更大的數(shù)據(jù)庫(kù)中截取的

31、。這些數(shù)據(jù)已經(jīng)進(jìn)行過歸一化，存儲(chǔ)在一個(gè)尺寸固定圖像的中心。NIST中原來的黑色和白色（雙層）圖像尺寸歸一化以存儲(chǔ)于一個(gè)20X20像素盒而保持縱橫比。所得到的圖像包含灰度級(jí)的歸一化算法所使用的抗混疊的技術(shù)。圖像被集中在一個(gè)28x28的圖像中。并通過計(jì)算像素的質(zhì)量中心，將圖像以位置中心點(diǎn)置于28x28場(chǎng)中心。對(duì)于基于模板的方法，圖像預(yù)處理時(shí)，以像素盒邊界為中心識(shí)別的正確率要高于以數(shù)字圖像自身重心為中心的結(jié)果。手寫體數(shù)字的二進(jìn)制圖像：這其中的原因在于事實(shí)SD-3的數(shù)據(jù)集是在人口普查局職工中收集的，而SD-1收集自高中生。從學(xué)習(xí)實(shí)驗(yàn)中得出合理的結(jié)論，這就要求結(jié)果是獨(dú)立的訓(xùn)練集的選擇和測(cè)試的完整樣本集。

32、因此，有必要通過混合NIST的數(shù)據(jù)集建立一個(gè)新的數(shù)據(jù)庫(kù)。訓(xùn)練集和測(cè)試集中的樣本各有一半來自SD-3，一半來自SD-1。參與數(shù)據(jù)采集的書寫人一共約500人。圖 3-1 MNIST數(shù)據(jù)(shj)集部分?jǐn)?shù)據(jù)樣本每個(gè)數(shù)據(jù)(shj)樣本是28 28像素的灰度圖像，由于(yuy)引入了抗鋸齒效果，所以圖像數(shù)值范圍是0 255而不是二值圖像。圖像已經(jīng)經(jīng)過預(yù)處理，因此圖像會(huì)集中在中心 20 20的區(qū)域內(nèi)，此外，圖像的中心點(diǎn)與像素點(diǎn)的重心重合，所以如果要使用模板匹配的方法（比如k近鄰，GMM， SVM等）進(jìn)行分類的話對(duì)圖像再進(jìn)行一些預(yù)處理使得數(shù)字的幾何中心與圖像中心重合會(huì)改善你的算法性能。如圖3-1是MNIS

33、T數(shù)據(jù)集中的一小部分樣本的展示，原始的數(shù)據(jù)應(yīng)該是黑底白字的，為了美觀，我們將其顏色反轉(zhuǎn)并加上周圍的邊框。數(shù)據(jù)集鏈接：MNIST（ HYPERLINK /exdb/mnist/ /exdb/mnist/）3.2實(shí)驗(yàn)流程介紹首先，讀入MNIST的SD-1、SD-3中含有的60000個(gè)含標(biāo)簽的訓(xùn)練樣本，樣本存儲(chǔ)類型為60000*784矩陣模式，即每個(gè)樣本對(duì)應(yīng)28*28為二值灰度矩陣，再存為784維特征向量，一種做GMM分類處理，先得到對(duì)應(yīng)的10個(gè)高斯混合分布模型，再根據(jù)PCA算法首先將樣本降為20維向量，最后利用貝葉斯最小錯(cuò)誤率決策理論，對(duì)數(shù)據(jù)集MNIST中的10000個(gè)手寫數(shù)據(jù)測(cè)試樣本集進(jìn)行分類，

34、分為09十個(gè)類別；另一種用最近鄰分類器處理，首先直接把訓(xùn)練所有樣本集都存儲(chǔ)為模板，然后根據(jù)最近鄰決策規(guī)則直接對(duì)測(cè)試樣本集進(jìn)行判別。改變訓(xùn)練樣本數(shù)目，從1000直到60000，記錄整個(gè)過程的識(shí)別率變化，比較并繪出曲線。最后輸出不同方法識(shí)別的正確個(gè)數(shù)以及識(shí)別正確率，對(duì)兩種方法的正確率，精確性及辨識(shí)效率進(jìn)行比較。實(shí)驗(yàn)流程圖如圖3.2所示。圖3.2實(shí)驗(yàn)(shyn)流程圖4 實(shí)驗(yàn)(shyn)結(jié)果實(shí)驗(yàn)(shyn)程序在Python環(huán)境運(yùn)行結(jié)果如下圖4.1所示，最終記錄的識(shí)別率如表4.1所示，將辨識(shí)率繪制成折線圖如圖4.2所示：?jiǎn)渭兙蛢煞N算法的識(shí)別正確率直觀來說，可以看出最近鄰法的識(shí)別正確率隨樣本數(shù)目升

35、高的明顯更快，最終正確率也要高于GMM，這表面上與最近鄰法的漸進(jìn)錯(cuò)誤率最優(yōu)極限為貝葉斯錯(cuò)誤率這一結(jié)論是相悖的。其實(shí)際原因主要有二：一是貝葉斯錯(cuò)誤率本身為理論最優(yōu)錯(cuò)誤率，而真實(shí)情況中由于在概率密度函數(shù)估計(jì)環(huán)節(jié)的近似，理論錯(cuò)誤率實(shí)際上是達(dá)不到的；二是由于本實(shí)驗(yàn)中特征矩陣奇異不可求逆，我們首先對(duì)樣本進(jìn)行了PCA降維操作，由原來的784維降至20維，雖然大大提高了辨識(shí)效率，確是基于降低了GMM辨識(shí)精度的基礎(chǔ)上，導(dǎo)致最終最近鄰法辨識(shí)正確率要高于GMM。但是從中卻可以看出貝葉斯理論本身對(duì)樣本數(shù)量的依賴不像最近鄰法那么高，在很大的訓(xùn)練樣本數(shù)范圍內(nèi)識(shí)別率都不會(huì)有過大的變化。訓(xùn)練樣本數(shù)1000500080001

36、00001500020000300004500060000GMM識(shí)別率（%）91.0894.3494.5594.5594.8295.0495.0495.1195.03最近鄰識(shí)別率（%）86.993.4394.2794.6395.4295.5796.1896.5796.91 表4.1兩種方法對(duì)應(yīng)(duyng)的識(shí)別率比較圖4.1Python環(huán)境下程序最終(zu zhn)輸出結(jié)果圖4.2兩種方法(fngf)辨識(shí)正確率折線圖從識(shí)別的效率角度，貝葉斯方法即GMM整個(gè)辨識(shí)(bin sh)過程的時(shí)間均在二十秒至四十秒之間，前后差異不大，而最近鄰方法的辨識(shí)時(shí)間從1000個(gè)測(cè)試樣本時(shí)的一分鐘指數(shù)增長(zhǎng)為600

37、00個(gè)樣本時(shí)對(duì)應(yīng)的一個(gè)半小時(shí)，可以看出GMM的識(shí)別速度較快，但識(shí)別正確率提升較低；最近鄰法的識(shí)別正確率雖然有顯著提升，但耗費(fèi)時(shí)間過長(zhǎng)。同時(shí)在訓(xùn)練樣本較少時(shí)，二者時(shí)間雖然相差不大，但貝葉斯方法能保證的基礎(chǔ)識(shí)別率相對(duì)比較要更高。因此，我的結(jié)論是對(duì)于精度要求不大或者訓(xùn)練樣本比較少的情況GMM方法的識(shí)別效率更高，訓(xùn)練樣本數(shù)量在2000040000間時(shí)，可以考慮用最近鄰方法。5參考文獻(xiàn)1張學(xué)工. 模式識(shí)別M北京:清華大學(xué)出版社,2010.82王有偉. 手寫體數(shù)字識(shí)別.D.山東:山東大學(xué)碩士學(xué)位論文.20043許東星.基于GMM和高層信息特征的識(shí)別研究.D.河北.中國(guó)科學(xué)技術(shù)大學(xué)博士學(xué)位論文.20094B

38、ishop C M. Pattern recognition and machine learningM. Vol. 1:springer New York,20065朱小燕. 手寫體字符識(shí)別研究J. 模式識(shí)別(m sh sh bi)與人工智能, 20006 張林娜. 手寫數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)(shj)與實(shí)現(xiàn).D北京(bi jn).北京理工大學(xué). 20096附錄具體實(shí)現(xiàn)在Python環(huán)境下的程序代碼：1.讀取MNIST數(shù)據(jù)集代碼：# -*- coding: utf-8 -*-from struct import * from numpy import *def getData(): #讀入訓(xùn)練集

39、trainingImageFile = open(rC:UsersAdministratorDesktopMNISTtrain-images.idx3-ubyte,rb) trainingImageFile.read(16) trainingData = fromfile(trainingImageFile, dtype = uint8)trainingData.shape = -1, 784#訓(xùn)練集數(shù)據(jù)標(biāo)簽切片trainingData = trainingData0:60000,: trainingImageFile.close() #讀入訓(xùn)練標(biāo)簽集trainingLabelFile = o

40、pen(rC:UsersAdministratorDesktopMNISTtrain-labels.idx1-ubyte,rb) trainingLabelFile.read(8)trainingLabel = fromfile(trainingLabelFile, dtype = uint8)#訓(xùn)練集標(biāo)簽切片trainingLabel = trainingLabel0:60000 trainingLabelFile.close() #讀入測(cè)試數(shù)據(jù) testImageFile = open(rC:UsersAdministratorDesktopMNISTt10k-images.idx3-ub

41、yte,rb) testImageFile.read(16) testData = fromfile(testImageFile, dtype = uint8) testData.shape = -1, 784 testImageFile.close() #讀入訓(xùn)練標(biāo)簽集 testLabelFile = open(rC:UsersAdministratorDesktopMNISTt10k-labels.idx1-ubyte,rb) testLabelFile.read(8) testLabel = fromfile(testLabelFile, dtype = uint8) testLabel

42、File.close()return trainingData, trainingLabel, testData, testLabel2. PCA降維算法(sun f) #-*- coding: utf-8 -*-from numpy import *def PCA(trainingData, k = 2): means = mean(trainingData) covariance = cov(trainingData.T) scatterMatrix = (covariance.shape0 - 1) * covariance eigVal, eigVct = linalg.eig(sca

43、tterMatrix) topK = argsort(eigVal)-k : DimReduVct = eigVct:,topK principal = (trainingData - means) principal = dot(principal, DimReduVct)return principal, DimReduVct,means3.貝葉斯決策(juc)分類器代碼# -*- coding: utf-8 -*-from numpy import *from MNISTData import *from PCA import *#降維到20維D = 20trainingData, trainingLabel, testData, testLabel = getData()trainingData,

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔