版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一種基于內(nèi)容的廣告垃圾圖像過(guò)濾方法目錄論題意義及其必要性過(guò)濾原理與實(shí)現(xiàn)方法實(shí)驗(yàn)和結(jié)果分析論題意義及其必要性垃圾郵件問題日益嚴(yán)重:
2005年7月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第十六次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)民平均每周收到14.5封電子郵件,其中垃圾郵件占了9.3封,垃圾郵件數(shù)量已經(jīng)大大超過(guò)了正常郵件數(shù)量。
基于文本過(guò)濾方法的局限性:第一
、基于文本的過(guò)濾受到文本語(yǔ)言種類的限制;第二、垃圾郵件發(fā)送者(spamer)經(jīng)常使用各種各樣的騙術(shù)來(lái)迷惑基于文本的垃圾郵件過(guò)濾器,比如將文字頁(yè)面轉(zhuǎn)換為圖像;有數(shù)據(jù)顯示,包含圖像的垃圾郵件占所有垃圾郵件的25%??梢?,這種欺騙手段已經(jīng)被垃圾郵件制作者們頻繁利用,如果沒有找到可行的解決辦法,這個(gè)數(shù)字還會(huì)上升。第三、隨著因特網(wǎng)的范圍和容量不斷增長(zhǎng),郵件包含越來(lái)越多的多媒體信息。一些廣告垃圾圖片的示例目錄論題意義及其必要性過(guò)濾原理與實(shí)現(xiàn)方法實(shí)驗(yàn)和結(jié)果分析過(guò)濾的原理任何廣告都需要用文字來(lái)傳播某種信息。也就是說(shuō),廣告垃圾圖像的文字區(qū)域特征具有普遍性。本文正是利用廣告垃圾圖像的文字區(qū)域特征來(lái)進(jìn)行廣告垃圾圖像過(guò)濾。
基本步驟:
1.提取圖像的邊緣信息,并把邊緣信息做二值化處理;
2.將二值化邊緣圖像進(jìn)行膨脹處理,使相鄰的字符連通起來(lái),并把膨脹處理后的所有連通區(qū)域作為候選文字區(qū)域記錄下來(lái);
3.利用文字區(qū)域的特征從候選文字區(qū)域中篩選出正確的文字區(qū)域;
4.根據(jù)得到的文字區(qū)域的數(shù)量和面積等特征對(duì)圖像進(jìn)行分類,把廣告垃圾圖像和合法圖像區(qū)分開來(lái)。
彩色邊緣提取由于廣告圖像中的文本與背景有較強(qiáng)的對(duì)比度,表現(xiàn)為在文本與背景的交界處,存在十分明顯的高頻區(qū)域,因此可以用提取邊緣的方法來(lái)大致估計(jì)出文本可能存在的區(qū)域。由于廣告垃圾圖像大多為彩色圖像,所以本文采用張引等提出的彩色圖像邊緣提取算子來(lái)提取邊緣,利用彩色三分量的彩色邊緣提取算法,充分利用了全面的色彩信息,效果優(yōu)于傳統(tǒng)的灰度邊緣提取算法。
邊緣提取的具體做法如下:已知輸入圖像f的RGB值,其中象素(i,j)的RGB分量分別為R(i,j),G(i,j),B(i,j)。要計(jì)算圖像f的邊緣圖像Edge。
Eud(i1,j1;i2,j2)定義為像素點(diǎn)(i1,j1)與(i2,j2)之間的彩色值歐氏距離。
原圖與邊緣圖像(a)原圖(b)邊緣圖像邊緣圖像二值化閾值選取方法:首先計(jì)算邊緣圖像Edge的歸一化灰度直方圖h(i):
其中,ni是圖像Edge中灰度值為i的象素的個(gè)數(shù),N是圖像象素總數(shù)。因?yàn)槲淖謪^(qū)域邊緣十分明顯,所以本文認(rèn)為文字區(qū)域邊緣的灰度級(jí)一般比較高。于是需要找到一個(gè)灰度級(jí)k作為閾值,把灰度大于k的邊緣象素點(diǎn)保留,灰度小于k的邊緣象素點(diǎn)忽略。令;eh(k)表示保留的邊緣象素?cái)?shù)占圖像總象素?cái)?shù)的比例;找到一個(gè)盡可能大的灰度級(jí)k使得eh(k)大于閾值TH1;如果此時(shí)k小于下限TH2,則把TH2作為二值化的閾值,否則把k作為二值化的閾值。在實(shí)驗(yàn)中,我們?nèi)H1=0.2,TH2=120(認(rèn)為文字區(qū)域邊緣的灰度級(jí)不應(yīng)低于120)。二值化邊緣圖像
(c)二值化邊緣圖像候選文文本區(qū)區(qū)域提提取從二值值邊緣緣圖像像中可可以看看出,,由于于文字字的分分布比比較集集中,,所以以文字字附近近的邊邊緣比比較豐豐富,,而且且屬于于同一一文字字區(qū)域域的文文字邊邊緣具具有較較小的的距離離。對(duì)對(duì)于水水平方方向的的文本本行來(lái)來(lái)說(shuō),,可以以用水水平膨膨脹的的方法法將相相鄰的的邊緣緣連起起來(lái),,形成成連通通的區(qū)區(qū)域,,從而而在空空間位位置上上將可可能含含有文文本的的區(qū)域域檢測(cè)測(cè)出來(lái)來(lái)。膨脹方方法::設(shè)f為二值值圖像像,B為結(jié)構(gòu)構(gòu)元素素,二二值形形態(tài)和和(膨膨脹))定義義如下下:其中表表示以以(x,y)為原點(diǎn)點(diǎn),形形狀與與結(jié)構(gòu)構(gòu)元素素B相同的的區(qū)域域。膨膨脹運(yùn)運(yùn)算具具有擴(kuò)擴(kuò)大圖圖像的的作用用,膨膨脹可可以看看作是是將圖圖像f中的每每一個(gè)個(gè)點(diǎn)(x,y)擴(kuò)大為為。。本文使使用的的結(jié)構(gòu)構(gòu)元素素B是一條條N個(gè)象素素的水水平線線段。。其中中N由圖像像的寬寬度決決定,,因?yàn)闉檩^寬寬的圖圖像里里的文文字的的橫向向間隔隔也會(huì)會(huì)較寬寬。本文中中取N=imageWidth/250+1;其中中imageWidth為圖像像寬度度。把膨脹脹操作作后所所得的的連通通區(qū)域域所在在的最最小的的矩形形區(qū)域域記錄錄為候候選的的文字字區(qū)域域。膨脹邊邊緣圖圖像(d))膨脹脹邊緣緣圖像像文本區(qū)區(qū)域篩篩選本文根根據(jù)文文字區(qū)區(qū)域的的視覺覺特征征定義義了若若干約約束條條件,,滿足足所有有約束束條件件的候候選文文字區(qū)區(qū)域被被認(rèn)為為是文文字區(qū)區(qū)域。。本文中中使用用的約束條條件有:(1)文字字區(qū)域域包含含的邊邊緣信信息豐豐富,,因此此連通通區(qū)域域的象象素總總數(shù)占占連通通區(qū)域域所在在矩形形的象象素總總數(shù)的的比例例應(yīng)該該大于于某個(gè)個(gè)閾值值。(2)文字字高度度不能能太小小,否否則人人眼將將無(wú)法法看清清;也也不會(huì)會(huì)太大大,應(yīng)應(yīng)在某某一范范圍內(nèi)內(nèi)。(3)因?yàn)闉槊總€(gè)個(gè)文字字區(qū)域域都是是同行行的幾幾個(gè)字字符粘粘連而而形成成的區(qū)區(qū)域,,所以以文字字區(qū)域域的寬寬高比比應(yīng)當(dāng)當(dāng)大于于某一一閾值值。(4)文字字區(qū)域域中存存在一一組連連續(xù)的的,邊邊緣信信息相相當(dāng)豐豐富的的行。。要求求這段段區(qū)域域的高高度占占文字字區(qū)域域高度度的一一定比比例,,并且且這段段區(qū)域域中的的每一一行的的白點(diǎn)點(diǎn)數(shù)目目大于于某一一閾值值。(5)如果果兩個(gè)個(gè)候選選文字字區(qū)域域具有有包含含關(guān)系系或具具有大大部分分重疊疊的關(guān)關(guān)系,,則保保留面面積較較大的的區(qū)域域。按照上上述準(zhǔn)準(zhǔn)則,,可以以除掉掉候選選文字字區(qū)域域中的的虛假假文字字區(qū)域域,得得到了了相對(duì)對(duì)準(zhǔn)確確的文文字區(qū)區(qū)域。。下頁(yè)頁(yè)的圖圖(e)為為文字字區(qū)域域的提提取結(jié)結(jié)果,,識(shí)別別出的的文字字區(qū)域域用紅紅色邊邊框標(biāo)標(biāo)出。。文字區(qū)域的的提取結(jié)果果(e)文字區(qū)域的的提取結(jié)果果目錄論題意義及及其必要性性過(guò)濾原理與與實(shí)現(xiàn)方法法實(shí)驗(yàn)和結(jié)果果分析實(shí)驗(yàn)和結(jié)果果分析實(shí)驗(yàn)流程如如下圖所示示:廣告垃圾圖圖像判定條條件:主要根據(jù)文文字區(qū)域的的數(shù)量和面面積兩個(gè)特特征判斷圖圖像是否為為廣告垃圾圾圖像。本本實(shí)驗(yàn)設(shè)定定閾值th1,th2。如果圖像像f的文字區(qū)域域數(shù)量大于于th1,或者文字字區(qū)域面積積占圖像總總面積的比比例大于th2,則認(rèn)為圖圖像f為廣告垃圾圾圖像。經(jīng)經(jīng)實(shí)驗(yàn)證明明,th1取值6,th2取值15%可以達(dá)到較較實(shí)用的效效果。文字區(qū)域提提取實(shí)驗(yàn)結(jié)結(jié)果廣告垃圾圖圖像過(guò)濾實(shí)實(shí)驗(yàn)結(jié)果本文為做廣廣告垃圾圖圖像過(guò)濾實(shí)實(shí)驗(yàn),建立立了一個(gè)圖圖像庫(kù),分分別由廣告告垃圾圖像像(39幀),普通通圖像(1215幀)和紋理理圖像(598幀)等三種種圖像組成成,下圖為為圖像庫(kù)取取樣。廣告垃圾圖圖像過(guò)濾實(shí)實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)表表明,廣告告垃圾圖像像集合的檢檢出率接近近80%,大部分特特征明顯的的廣告垃圾圾圖像都能能被檢索出出來(lái);對(duì)普普通圖像的的誤檢率為為3.045%,控制在可可以接受的的范圍內(nèi);;而由于紋紋理圖像比比較特殊,,邊緣信息息豐富,產(chǎn)產(chǎn)生很多疑疑似文本的的區(qū)域,對(duì)對(duì)檢索造成成了較大干干擾,所以以誤檢率偏偏高。謝謝大家家!9、靜靜夜夜四四無(wú)無(wú)鄰鄰,,荒荒居居舊舊業(yè)業(yè)貧貧。。。。1月月-231月月-23Thursday,January5,202310、雨雨中中黃黃葉葉樹樹,,燈燈下下白白頭頭人人。。。。03:09:1403:09:1403:091/5/20233:09:14AM11、以我獨(dú)沈沈久,愧君君相見頻。。。1月-2303:09:1403:09Jan-2305-Jan-2312、故人江江海別,,幾度隔隔山川。。。03:09:1403:09:1403:09Thursday,January5,202313、乍乍見見翻翻疑疑夢(mèng)夢(mèng),,相相悲悲各各問問年年。。。。1月月-231月月-2303:09:1403:09:14January5,202314、他他鄉(xiāng)鄉(xiāng)生生白白發(fā)發(fā),,舊舊國(guó)國(guó)見見青青山山。。。。05一一月月20233:09:14上上午午03:09:141月月-2315、比不不了得得就不不比,,得不不到的的就不不要。。。。一月233:09上上午午1月-2303:09January5,202316、行動(dòng)動(dòng)出成成果,,工作作出財(cái)財(cái)富。。。2023/1/53:09:1403:09:1405January202317、做前前,能能夠環(huán)環(huán)視四四周;;做時(shí)時(shí),你你只能能或者者最好好沿著著以腳腳為起起點(diǎn)的的射線線向前前。。。3:09:14上上午3:09上上午午03:09:141月-239、沒有失失敗,只只有暫時(shí)時(shí)停止成成功!。。1月-231月-23Thursday,January5,202310、很多事情努努力了未必有有結(jié)果,但是是不努力卻什什么改變也沒沒有。。03:09:1403:09:1403:091/5/20233:09:14AM11、成成功功就就是是日日復(fù)復(fù)一一日日那那一一點(diǎn)點(diǎn)點(diǎn)點(diǎn)小小小小努努力力的的積積累累。。。。1月月-2303:09:1403:09Jan-2305-Jan-2312、世間成成事,不不求其絕絕對(duì)圓滿滿,留一一份不足足,可得得無(wú)限完完美。。。03:09:1403:09:1403:09Thursday,January5,202313、不知香積積寺,數(shù)里里入云峰。。。1月-231月-2303:09:1403:09:14January5,202314、意志堅(jiān)強(qiáng)的的人能把世界界放在手中像像泥塊一樣任任意揉捏。05一月20233:09:14上午03:09:141月-2315、楚塞塞三湘湘接,,荊門門九派派通。。。。一月233:09上上午午1月-2303:09January5,202316、少年十五五二十時(shí),,步行奪得得胡馬騎。。。2023/1/53:09:1403:09:1405January202317、空山新雨雨后,天氣氣晚來(lái)秋。。。3:09:14上上午3:09上上午03:09:141月-239、楊柳散和風(fēng)風(fēng),青山澹吾吾慮。。1月-231月-23Thursday,January5,202310、閱讀一切好好書如同和過(guò)過(guò)去最杰出的的人談話。03:09:1403:09:1403:091/5/20233:09:14AM11、越越是是沒沒有有本本領(lǐng)領(lǐng)的的就就越越加加自自命命不不凡凡。。1月月-2303:09:1403:09Jan-2305-Jan-2312、越是無(wú)無(wú)能的人人,越喜喜歡挑剔剔別人的的錯(cuò)兒。。03:09:1403:0
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年04月北京廣發(fā)銀行總行辦公室招考筆試歷年參考題庫(kù)附帶答案詳解
- 天津2025年天津市濱海新區(qū)衛(wèi)生健康委所屬事業(yè)單位招聘155人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 2024年03月湖南攸縣農(nóng)村商業(yè)銀行股份有限公司招考34名新員工筆試歷年參考題庫(kù)附帶答案詳解
- 2025年度安徽農(nóng)業(yè)設(shè)施租賃合同(含土地流轉(zhuǎn)條款)3篇
- 2024年度子女教育優(yōu)先權(quán)離婚協(xié)議書3篇
- 2025版歷史文化保護(hù)區(qū)修復(fù)工程廉潔施工協(xié)議3篇
- 2025年度班組分包項(xiàng)目質(zhì)量保證合同3篇
- 2024年物業(yè)服務(wù)一次性賠償協(xié)議2篇
- 2025年度云計(jì)算服務(wù)提供商與中小企業(yè)定制化解決方案合同2篇
- 2025版企業(yè)視覺識(shí)別系統(tǒng)設(shè)計(jì)合同書3篇
- 2024北京西城初一(上)期末數(shù)學(xué)(教師版)
- (2024年)中國(guó)傳統(tǒng)文化介紹課件
- 宗親捐款倡議書
- 蛇年春聯(lián)對(duì)聯(lián)240副
- 廣東省廣州天河區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末數(shù)學(xué)試卷含答案
- 互聯(lián)網(wǎng)+創(chuàng)新商業(yè)模式考核試卷
- 江蘇省百校2025屆高三上學(xué)期12月聯(lián)考語(yǔ)文試題(含答案)
- 四川省南充市2023-2024學(xué)年高一上學(xué)期期末考試 政治 含解析
- 寒假安全教育 1
- 江蘇省揚(yáng)州市梅嶺中學(xué)2023-2024學(xué)年七年級(jí)上學(xué)期期末地理試題(含答案)
- 2023-2024學(xué)年廣東省深圳市南山區(qū)七年級(jí)(上)期末地理試卷
評(píng)論
0/150
提交評(píng)論