




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 ,MATLAB程序設(shè)計(jì)(論文) 基于MATLAB實(shí)現(xiàn)語(yǔ)音信號(hào)的去噪 院(系)名稱電子與信息工程學(xué)院 專業(yè)班級(jí) 學(xué)號(hào) 學(xué)生姓名 任課教師 論 文 任 務(wù)給定一段帶噪語(yǔ)音(mp3文件格式) 1將帶噪語(yǔ)音abc.mp3讀入MATLAB內(nèi)存2畫出時(shí)域波形圖,3畫出頻譜圖4. 分析該段語(yǔ)音文件的頻譜圖5. 設(shè)計(jì)語(yǔ)音信號(hào)去噪方案6編寫代碼實(shí)現(xiàn)語(yǔ)音信號(hào)去噪7. 將純凈語(yǔ)音重新合成mp3文件8. 總結(jié)設(shè)計(jì)方案,分析實(shí)驗(yàn)結(jié)果,撰寫論文基于MATLAB實(shí)現(xiàn)語(yǔ)音信號(hào)的去噪馬 力(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院)摘 要:提出了一種圖像型垃圾郵件的過(guò)濾方法,該方法不依賴于附屬圖像的文字信息,而是直接提取圖像本身的視
2、覺(jué)特征,包括梯度直方圖、顏色直方圖和LBP特征。分析了支持向量機(jī)(SVM)算法,基于該算法實(shí)現(xiàn)了圖像型垃圾郵件的過(guò)濾,實(shí)驗(yàn)結(jié)果表明,LBP特征的識(shí)別效果好于梯度直方圖和顏色直方圖特征。關(guān)鍵詞:圖像型垃圾郵件;特征提取;支持向量機(jī) 0 引 言 (論 文) 進(jìn)入21世紀(jì)以來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)快速發(fā)展,電子郵件的應(yīng)用也越來(lái)越普遍。將垃圾信息嵌入圖像文件,并以附件或正文的形式發(fā)送的垃圾郵件被稱為圖像型垃圾郵件。圖1是正常郵件圖像和垃圾郵件圖像的示意圖。圖像型垃圾郵件占用了大量的網(wǎng)絡(luò)帶寬資源,給郵件用戶帶來(lái)很多騷擾和麻煩。這些垃圾信息主要包括商品廣告、欺詐信息和反動(dòng)言論等,其惡意投送將侵占收件人信箱空
3、間,甚至造成郵件服務(wù)器擁塞?,F(xiàn)有的垃圾郵件檢測(cè)方法,能夠過(guò)濾掉大多數(shù)圖像型垃圾郵件,國(guó)內(nèi)外的學(xué)者取得了大量的研究成果1。文獻(xiàn)2利用文本定位的方法對(duì)圖像垃圾郵件中文本區(qū)域的特征進(jìn)行表示,進(jìn)而通過(guò)SVM 算法進(jìn)行分類。文獻(xiàn)3利用圖像的邊緣角點(diǎn)信息與顏色特征識(shí)別垃圾郵件,基于SVM算法訓(xùn)練過(guò)濾器。文獻(xiàn)4中利用梯度和顏色作為特征,來(lái)比較和驗(yàn)證SVM算法和 LS-SVM 算法的有效性。垃圾郵件制造者刻意對(duì)圖像做各種變化增加了郵件監(jiān)管的難度。 (a) 正常圖像 (b) 垃圾圖像圖1 正常郵件圖像和垃圾郵件圖像垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)通常包括圖像特征提取和分類器設(shè)計(jì)2大步驟。本文提出了一種圖像型垃圾郵件分類方
4、法,圖2 描述了該方法的框架。分類器模型訓(xùn)練樣本待識(shí)別的郵件圖像分類器學(xué)習(xí)特征提取判斷為垃圾圖像圖2 圖像型垃圾郵件過(guò)濾框架圖1 圖像特征分析 圖像本身的內(nèi)容是豐富和千差萬(wàn)別的,只有用一種簡(jiǎn)單模式描述圖像的本質(zhì)內(nèi)容,才有可能完成圖像的分類、過(guò)濾或識(shí)別任務(wù)。這種簡(jiǎn)單的模式被稱為圖像特征,可分為全局特征和局部特征,其提取過(guò)程通常包括2個(gè)步驟:其一是確定圖像特征的位置或區(qū)域;其二是確定該特征的描述算子,經(jīng)常用數(shù)學(xué)中的向量來(lái)表示。正常的郵件圖像與垃圾圖像是存在某些差異的,表示兩類圖像的特征模式也應(yīng)有明顯的區(qū)分。下面分別對(duì)梯度特征、顏色特征及LBP特征進(jìn)行分析和說(shuō)明。1.1 梯度特征一般可利用Sobel
5、算子來(lái)計(jì)算圖像的梯度。圖像f(x, y)在(x, y)點(diǎn)處的梯度可表示為: (1) 梯度向量的模值定義為 (2)為了提高圖像特征的提取速度,可以簡(jiǎn)化近似為 (3)或 (4) 將歸一化的直方圖作為圖像的特征向量,圖3給出了圖1(a)和(b)的梯度直方圖??梢钥闯?,正常郵件圖像的梯度直方圖分布較均勻,灰度變化緩慢,而垃圾郵件圖像的灰度變化劇烈,而且分布較單一且比較集中。 (a)正常郵件圖像的梯度直方圖(b)正常郵件圖像的梯度直方圖圖3正常郵件圖像和垃圾郵件圖像的梯度直方圖1.2 顏色特征垃圾郵件圖像由于嵌入了某些信息,通常其顏色分布較單一。利用這一特點(diǎn)可以將部分垃圾圖像和正常圖像區(qū)分開(kāi)來(lái)。圖4分別
6、給出了圖1(a)和(b)的顏色直方圖。通過(guò)對(duì)比看出,正常圖像的顏色分布較為均勻且豐富,相反垃圾郵件圖像的顏色直方圖僅僅分布在其中的幾種顏色上,變化劇烈。(a) 正常圖像的顏色直方圖(b) 垃圾圖像的顏色直方圖圖4 正常郵件圖像和垃圾郵件圖像的顏色直方圖對(duì)比1.3 LBP特征局部二值模式LBP (local binary pattern)是表示圖像局部紋理特征的一種算子5,它計(jì)算復(fù)雜度相對(duì)較低并且效果比較好,因此常常將它用于圖像的分類和識(shí)別6。1.3.1 LBP的定義起初LBP算子的定義是在鄰域窗口內(nèi),通常選擇3×3的窗口,將窗口中心像素的灰度值作為基準(zhǔn),分別與其鄰域的8個(gè)像素的灰度值
7、進(jìn)行比較。如果中心像素的灰度值大于鄰域,那么此時(shí)鄰域像素點(diǎn)的位置記為0,否則記為1,依次比較后可以得到一個(gè)8位二進(jìn)制數(shù),再將此轉(zhuǎn)化為十進(jìn)制數(shù),用這個(gè)值來(lái)反映該區(qū)域的紋理信息。圖5給出了一個(gè)具體的例子。原始的LBP特征被提出來(lái)以后,很多學(xué)者對(duì)其做了深入研究和改進(jìn)。 圖5 LBP描述算子的生成過(guò)程1.3.2 LBP的改進(jìn)圓形LBP 算子。由于原始的 LBP 算子只能表示一個(gè)固定范圍內(nèi)的小區(qū)域的紋理特征,不能滿足圖像的灰度和旋轉(zhuǎn)不變性,為了彌補(bǔ)這些缺點(diǎn),提出了一種圓形LBP算子。其改進(jìn)方法是用圓形鄰域來(lái)代替正方形鄰域,也就是將 3×3 鄰域
8、擴(kuò)展到半徑為任意大小的圓形鄰域,圓心為中心像素點(diǎn),并比較圓心像素與其鄰域點(diǎn)的灰度值。通常用符號(hào)為L(zhǎng)BPP,R表示改進(jìn)后的算子,即在半徑為 R的圓形鄰域內(nèi)有P個(gè)像素點(diǎn)。圖6示意了3種不同形式。圖6 圓形LBP的3種形式LBP旋轉(zhuǎn)不變模式(rotation invariant patterns)。由LBP的定義及圖5 可以看出,原始的LBP 算子具有平移不變性和亮度不變性,但不具備旋轉(zhuǎn)不變性。因此在圓形算子的基礎(chǔ)上提出改進(jìn),方法為將圓形算子按順時(shí)針(或逆時(shí)針)依次旋轉(zhuǎn),得到一系列初始定義的 LBP十進(jìn)制數(shù),將其中的最小值作為該圓形鄰域最后的 LBP
9、 值。LBP等價(jià)類模式(uniform paterns)。定義一個(gè)半徑為r的圓形區(qū)域,如果在圓內(nèi)有P個(gè)采樣點(diǎn),以此計(jì)算的LBP算子則會(huì)產(chǎn)生2P種模式。因此隨著采樣點(diǎn)數(shù)的增加,二進(jìn)制模式的個(gè)數(shù)將以指數(shù)形式遞增,產(chǎn)生過(guò)多的模式種類,進(jìn)而影響圖像的紋理特征。當(dāng)某個(gè)LBP所對(duì)應(yīng)的循環(huán)二進(jìn)制數(shù)(將最后一位和第一位連接起來(lái))從0到1或從1到0的跳變次數(shù)不超過(guò)2次時(shí),此二進(jìn)制模式稱為一個(gè) “等價(jià)類模式”7。例如00000000跳變1次,10000111跳變2次。通常用符號(hào)表示等價(jià)類模式,rui2表示跳變次數(shù)不超過(guò)2。當(dāng)LBP所對(duì)應(yīng)的循環(huán)二進(jìn)制數(shù)的跳變次數(shù)大于2次時(shí),統(tǒng)一用P+1表示其十進(jìn)制模式,稱
10、為“混合類模式”。這樣,模式種類的數(shù)量大大減少,可以有效地減少高頻噪聲的干擾。實(shí)驗(yàn)表明,在紋理圖像中提取特征時(shí),等價(jià)類模式占總模式的90%左右8。(a)正常郵件圖像的LBP的統(tǒng)計(jì)直方圖(b)正常郵件圖像的LBP統(tǒng)計(jì)直方圖圖7 正常圖像和垃圾圖像的LBP統(tǒng)計(jì)直方圖特征實(shí)際應(yīng)用中通常采用LBP特征的直方圖作為特征描述算子。圖7給出了LBP特征的統(tǒng)計(jì)直方圖的例子(對(duì)應(yīng)的圖像參見(jiàn)圖1)??梢钥闯觯`]件圖像和垃圾郵件圖像的LBP統(tǒng)計(jì)直方圖的區(qū)別還是比較明顯的,因此可以采用LBP表示圖像的模式類。為了增加對(duì)圖像位置信息的描述,通常的做法是將圖像分成若干個(gè)小區(qū)域,然后分別提取每個(gè)小區(qū)域的LBP直方圖,對(duì)
11、其做歸一化處理后,將每一個(gè)小區(qū)域的LBP直方圖連接成一個(gè)矢量,即為描述整幅圖像的LBP特征。2 SVM 分類算法 支持向量機(jī)(support vector machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,它由Boser、 Guyon和Vapnik在COLT-92上首次提出。SVM有完善的數(shù)學(xué)理論基礎(chǔ),并在處理非線性及高維模式識(shí)別中有突出的表現(xiàn)9,已廣泛地應(yīng)用到文本分類、圖像識(shí)別和金融風(fēng)險(xiǎn)評(píng)估等領(lǐng)域10。下面以兩維數(shù)據(jù)為例,圖8中實(shí)心點(diǎn)和空心點(diǎn)分別代表兩類樣本,H為分類線,延伸到高維空間,分類線就變成分類面,如圖8所示,H1、H2為兩條平行于H的直線,并且H1,H2分別通過(guò)距離分類線最
12、近的兩類樣本點(diǎn)(空心、實(shí)心點(diǎn)),并將H1、圖8 兩維數(shù)據(jù)線性可分情況下的最優(yōu)分類面H2上的點(diǎn)稱為支持向量。H1與H2分別到H的垂線段之和即稱為分類間隔(margin)。如果H1和H2之間的距離最大,并且可以將兩類樣本正確區(qū)分,那么此時(shí)的分類線H即為最優(yōu)分類線。由圖8可得,分類線(高維為面)方程為,對(duì)它進(jìn)行歸一化,使得對(duì)線性可分的樣本集,滿足條件1。還可以推導(dǎo)出: (5)和 (6)延伸到高維空間,求最優(yōu)分類線的問(wèn)題就轉(zhuǎn)換為求最優(yōu)超平面,最終歸結(jié)為二次最優(yōu)化求解問(wèn)題。而分類間隔等于,使間隔最大等價(jià)于使最小,位于H1、H2上的訓(xùn)練樣本點(diǎn)是最難分類的,被稱為支持向量。目標(biāo)函數(shù)為: (7)滿足約束條件:
13、 (8)只要求得該問(wèn)題的最優(yōu)解、,從而構(gòu)造最優(yōu)超平面,進(jìn)而求出分類函數(shù)。理論上可以證明,若訓(xùn)練集線性可分,那么用最大間隔法求出的最優(yōu)分類超平面存在且唯一11。在樣本數(shù)目n特別大的時(shí)候,可以將二次規(guī)劃問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題: (9)需要滿足的約束條件為: (10)分類函數(shù)為:(11)式中為每個(gè)樣本對(duì)應(yīng)的拉格朗日算子,其中優(yōu)化函數(shù)(9)和分類函數(shù)(11)都是求訓(xùn)練樣本之間的內(nèi)積運(yùn)算。如果核函數(shù)滿足Mercer條件,它就對(duì)應(yīng)一種內(nèi)積運(yùn)算。因此,在求解最優(yōu)分類面時(shí),只要選擇適當(dāng)?shù)暮撕瘮?shù),就可以通過(guò)非線性變換實(shí)現(xiàn)線性分類。由于確定核函數(shù)的已知數(shù)據(jù)未必能真正代表所有樣本,考慮到推廣性,引入了松弛項(xiàng)以及懲罰系
14、數(shù),來(lái)加以校正,則公式(7)中的目標(biāo)函數(shù)為: (12)約束條件為: (13)其中體現(xiàn)了訓(xùn)練集被錯(cuò)分的情況,作為一種度量來(lái)描述錯(cuò)分的程度,體現(xiàn)了經(jīng)驗(yàn)風(fēng)險(xiǎn); 則體現(xiàn)了此算法的表達(dá)能力;懲罰參數(shù)c則是在經(jīng)驗(yàn)風(fēng)險(xiǎn)和表達(dá)能力匹配二者之間尋求一個(gè)折衷。3 實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)采用的樣本數(shù)據(jù)來(lái)自 SpamArchive 數(shù)據(jù)集12。隨機(jī)選取70%作為訓(xùn)練樣本,30%作為測(cè)試樣本。SVM算法的實(shí)現(xiàn)采用了臺(tái)灣大學(xué)開(kāi)發(fā)的軟件包LIBSVM13。核函數(shù)的類型和懲罰參數(shù)c的取值通過(guò)交叉驗(yàn)證方法得到。表1給出了提取3種不同圖像特征時(shí)的識(shí)別結(jié)果,在表1中精確率(Precision)的計(jì)算公式定義為 (14)式中:TP是被判定為正
15、常圖像,實(shí)際也是正常圖像的數(shù)量;FN是被判定為垃圾圖像,實(shí)際是正常圖像的數(shù)量;TN是被判定為垃圾圖像,實(shí)際也是垃圾圖像的數(shù)量;FP是被判定為正常圖像,實(shí)際是垃圾圖像的數(shù)量。由表1的對(duì)比結(jié)果可知,LBP特征的識(shí)別效果較好。表1 提取三種不同特征的識(shí)別結(jié)果 圖像特征核函數(shù)類型懲罰參數(shù)c精確率/%梯度直方圖RBF核函數(shù)2.076.13顏色直方圖RBF核函數(shù)2.078.34LBP特征RBF核函數(shù)2.092.05 由于懲罰參數(shù)c的取值直接影響分類器的性能。因此在假定核函數(shù)類型和確定選取圖像特征的基礎(chǔ)上,通過(guò)大量實(shí)驗(yàn)來(lái)確定懲罰參數(shù)c的取值。表2給出了不同的懲罰參數(shù)c的取值,所對(duì)應(yīng)不同的識(shí)別結(jié)果的精確率。通
16、過(guò)對(duì)比結(jié)果可知,c取2.8時(shí),識(shí)別效果較好。表2 選取不同的懲罰參數(shù)c的識(shí)別結(jié)果懲罰參數(shù)c核函數(shù)類型圖像特征精確率/%2.0RBF核函數(shù)LBP特征92.052.2RBF核函數(shù)LBP特征92.502.4RBF核函數(shù)LBP特征92.732.6RBF核函數(shù)LBP特征92.732.8RBF核函數(shù)LBP特征92.953.0RBF核函數(shù)LBP特征92.953.2RBF核函數(shù)LBP特征92.50表3給出了選取不同的核函數(shù)及其所對(duì)應(yīng)的精確率。通過(guò)對(duì)比結(jié)果可知,選取RBF核函數(shù)時(shí),識(shí)別效果較好。表3 核函數(shù)類型 核函數(shù)類型圖像特征懲罰參數(shù)c精確率/%線性核函數(shù)LBP特征2.892.05 多項(xiàng)式核函數(shù)LBP特征2
17、.852.50RBF核函數(shù)LBP特征2.892.95Sigmoid函數(shù)LBP特征2.890.45圖9 為ROC性能曲線(Receiver Operating Characteristic),分類準(zhǔn)確率達(dá)94.26%,誤報(bào)率為9.95%,且此時(shí)ROC 性能曲線下的面積達(dá) 92.15%,分類效果較好。圖9 ROC性能曲線在ROC性能曲線中準(zhǔn)確率(True Positive Rate, TPR)和誤報(bào)率(False Positeve Rate, FPR)的計(jì)算公式為: (14)TPR是指把正常郵件判定為正常郵件的概率,F(xiàn)PR是指把垃圾郵件判定為正常郵件的概率。4 結(jié)論隨著垃圾郵件圖像的迅速增長(zhǎng),相關(guān)
18、部門的監(jiān)管力度也在不斷加大,有必要深入研究圖像型垃圾郵件過(guò)濾技術(shù)。本文對(duì)比了圖像的梯度、顏色和LBP特征在圖像型郵件過(guò)濾技術(shù)中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,LBP特征更適合圖像型垃圾郵件過(guò)濾任務(wù)。采用SVM算法實(shí)現(xiàn)分類器的分類功能,進(jìn)而利用某種核函數(shù)將原始空間的非線性問(wèn)題有效地轉(zhuǎn)化為高維空間的線性問(wèn)題,將復(fù)雜問(wèn)題簡(jiǎn)單化,不失為一種好的方法。參考文獻(xiàn):1 Battista Biggio, Giorgio Fumera, Ignazio PillaiA survey and experimental evaluation of image spam filtering techniquesJPattern
19、 Recognition Letters, 2011, 32(10): 1436-14662 耿技, 萬(wàn)明成, 程紅蓉基于文本區(qū)域特征的圖像型垃圾郵件過(guò)濾算法J計(jì)算機(jī)應(yīng)用,2008,28(8):1904-19063 劉嶠,秦志光,程紅蓉等基于顏色和邊緣特征直方圖的圖像型垃圾郵件分類模型J計(jì)算機(jī)應(yīng)用,2010,27(7):2608-26164 劉芬,帥建梅基于梯度和顏色特征的圖像垃圾郵件過(guò)濾J人工智能及識(shí)別技術(shù),2010,36(16):157-160.5 Ojala T, Pietikäinen M, Harwood D. A Comparative Study of Texture Measures with Classification Based on Feature DistributionsJ. Pattern Recognition, 1996, 29(3): 5l-596 趙建民,朱信忠,江小輝基于改進(jìn)型LBP特征的人臉識(shí)別方法研究J2009,36(8):276-2807 Ojala T, Pietikainen M, Maenpaa TMultiresolution gray-scal
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)工作要點(diǎn)概述
- 智能財(cái)稅綜合實(shí)訓(xùn) 下篇 課件 智能財(cái)稅基礎(chǔ)業(yè)務(wù)5 社會(huì)共享中級(jí)外包實(shí)務(wù)
- 2025年黨政領(lǐng)導(dǎo)干部黨章黨規(guī)黨紀(jì)黨史知識(shí)培訓(xùn)考試題庫(kù)及答案(共230題)
- 2025年度商標(biāo)權(quán)轉(zhuǎn)讓款代付服務(wù)協(xié)議
- 上市公司資金管理存款居間
- 實(shí)驗(yàn)動(dòng)物房裝修合同解除
- 無(wú)縫物流操作指南文件匯編
- 電子商務(wù)平臺(tái)客戶服務(wù)提升預(yù)案
- 塔式起重機(jī)安裝專項(xiàng)施工方案內(nèi)容
- 有機(jī)蔬菜種植要求
- 2023年寧夏回族自治區(qū)中考地理真題(原卷版)
- 2025年安全員C證考試題庫(kù)及答案-
- 2025年全球及中國(guó)電子雷管芯片模組行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 小腸扭轉(zhuǎn)病人護(hù)理查房
- 第二十屆中央紀(jì)律檢查委員會(huì)第四次全體會(huì)議公報(bào)學(xué)習(xí)解讀
- 2025年國(guó)家財(cái)政部部屬單位招聘47人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 幼兒園歌唱活動(dòng)基本流程
- 機(jī)場(chǎng)航站樓高空保潔服務(wù)方案
- 醫(yī)用氣體安全培訓(xùn)
- 信息系統(tǒng)應(yīng)急響應(yīng)計(jì)劃制定指南考核試卷
- 人類同種異體組織市場(chǎng)發(fā)展預(yù)測(cè)和趨勢(shì)分析
評(píng)論
0/150
提交評(píng)論