版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、浙江大學(xué)碩士學(xué)位論文 STYLEREF 標(biāo)題,章標(biāo)題(無序號(hào)) * MERGEFORMAT Abstract PAGE i基于協(xié)作式標(biāo)注圖像的垃圾標(biāo)簽檢測(cè)和垃圾圖像過濾方法研究摘要隨著web的普及,越來越多的人上傳圖片和標(biāo)注圖片,這種由用戶上傳并添加標(biāo)注的圖片稱為協(xié)作式標(biāo)注圖像,這些標(biāo)注提供了大量語義信息,但由于用戶標(biāo)注的隨意性造成一些標(biāo)注與圖像內(nèi)容的關(guān)聯(lián)性并不強(qiáng),直接影響到協(xié)作式標(biāo)注圖像檢索的準(zhǔn)確性,因此,本文設(shè)計(jì)了一種垃圾標(biāo)簽檢測(cè)和垃圾圖像過濾方法,提高標(biāo)注和圖像之間的關(guān)聯(lián)性,從而提高協(xié)作式標(biāo)注圖像檢索的準(zhǔn)確性。本文垃圾標(biāo)簽檢測(cè)的方法是通過計(jì)算同一圖像的所有標(biāo)注詞之間的語義相似性進(jìn)行聚類,
2、得到的聚類標(biāo)簽較少的那類標(biāo)簽即為垃圾標(biāo)簽。其中標(biāo)注詞之間的語義相似性采用本文設(shè)計(jì)的多重信息源的標(biāo)注語義相似性,它整合了標(biāo)簽的WordNet語義詞典相似性以及標(biāo)簽的同現(xiàn)頻率的統(tǒng)計(jì)特性,能夠更加準(zhǔn)確的描述標(biāo)簽之間的語義相關(guān)性。垃圾圖像過濾方面,通過對(duì)同一標(biāo)注下所有圖像的視覺特征進(jìn)行基于混合核的最大最小聚類從而過濾垃圾圖像。混合核的方法更加準(zhǔn)確的描述了圖像的視覺相關(guān)性。垃圾標(biāo)簽檢測(cè)和垃圾圖像過濾互為補(bǔ)充,共同提高圖像和標(biāo)簽之間的關(guān)聯(lián)性。最后,本文設(shè)計(jì)了雙曲可視化的圖像顯示界面。實(shí)驗(yàn)表明,本文方法能夠較為準(zhǔn)確的檢測(cè)協(xié)作式標(biāo)注圖像的垃圾標(biāo)簽以及過濾垃圾圖像,從而提高檢索準(zhǔn)確性。關(guān)鍵詞:協(xié)作式標(biāo)注,垃圾標(biāo)
3、簽,垃圾圖像,WordNet語義詞典,混合核,SIFT浙江大學(xué)碩士學(xué)位論文 Abstract浙江大學(xué)碩士學(xué)位論文 Abstract 目錄 PAGE IV PAGE II目錄 TOC o 1-3 h z u HYPERLINK l _Toc353041325 摘要 PAGEREF _Toc353041325 h i HYPERLINK l _Toc353041326 Abstract PAGEREF _Toc353041326 h ii HYPERLINK l _Toc353041327 圖目錄 PAGEREF _Toc353041327 h III HYPERLINK l _Toc353041
4、328 表目錄 PAGEREF _Toc353041328 h V HYPERLINK l _Toc353041329 第1章 緒論 PAGEREF _Toc353041329 h 1 HYPERLINK l _Toc353041330 1.1研究背景及意義 PAGEREF _Toc353041330 h 1 HYPERLINK l _Toc353041331 1.2 國(guó)內(nèi)外研究現(xiàn)狀 PAGEREF _Toc353041331 h 2 HYPERLINK l _Toc353041332 1.3課題研究?jī)?nèi)容 PAGEREF _Toc353041332 h 3 HYPERLINK l _Toc35
5、3041333 1.4 論文結(jié)構(gòu)安排 PAGEREF _Toc353041333 h 4 HYPERLINK l _Toc353041334 第2章垃圾標(biāo)簽檢測(cè) PAGEREF _Toc353041334 h 6 HYPERLINK l _Toc353041335 2.1 標(biāo)簽的可靠度分析 PAGEREF _Toc353041335 h 7 HYPERLINK l _Toc353041336 2.1.1發(fā)生頻率 PAGEREF _Toc353041336 h 7 HYPERLINK l _Toc353041337 2.1.2 標(biāo)簽的同現(xiàn)頻率 PAGEREF _Toc353041337 h 8
6、HYPERLINK l _Toc353041338 2.1.3 標(biāo)簽的可靠度評(píng)價(jià)函數(shù) PAGEREF _Toc353041338 h 9 HYPERLINK l _Toc353041339 2.2 WordNet語義相似性 PAGEREF _Toc353041339 h 10 HYPERLINK l _Toc353041340 2.2.1 WordNet語義詞典介紹 PAGEREF _Toc353041340 h 10 HYPERLINK l _Toc353041341 2.2.2 單詞的WordNet語義相似性 PAGEREF _Toc353041341 h 11 HYPERLINK l _
7、Toc353041342 2.2.3 兩個(gè)短語之間的WordNet語義相似性 PAGEREF _Toc353041342 h 15 HYPERLINK l _Toc353041343 2.3多重信息源的標(biāo)簽語義相似性上下文 PAGEREF _Toc353041343 h 17 HYPERLINK l _Toc353041344 2.3.1標(biāo)簽語義相似性描述 PAGEREF _Toc353041344 h 17 HYPERLINK l _Toc353041345 2.3.2語義相似性描述實(shí)驗(yàn)結(jié)果 PAGEREF _Toc353041345 h 18 HYPERLINK l _Toc3530413
8、46 2.4協(xié)作式標(biāo)注圖像垃圾標(biāo)簽檢測(cè) PAGEREF _Toc353041346 h 20 HYPERLINK l _Toc353041347 2.4.1最大最小聚類法 PAGEREF _Toc353041347 h 20 HYPERLINK l _Toc353041348 2.4.2 垃圾標(biāo)簽檢測(cè) PAGEREF _Toc353041348 h 21 HYPERLINK l _Toc353041349 2.4.3 實(shí)驗(yàn)結(jié)果與分析 PAGEREF _Toc353041349 h 22 HYPERLINK l _Toc353041350 2.5 本章小結(jié) PAGEREF _Toc3530413
9、50 h 24 HYPERLINK l _Toc353041351 第3章垃圾圖像過濾 PAGEREF _Toc353041351 h 25 HYPERLINK l _Toc353041352 3.1 標(biāo)簽與視覺內(nèi)容的相關(guān)性 PAGEREF _Toc353041352 h 25 HYPERLINK l _Toc353041353 3.2 圖像的混合核特征 PAGEREF _Toc353041353 h 26 HYPERLINK l _Toc353041354 3.2.1 顏色特征 PAGEREF _Toc353041354 h 26 HYPERLINK l _Toc353041355 3.2.
10、2 紋理特征 PAGEREF _Toc353041355 h 31 HYPERLINK l _Toc353041356 3.2.3圖像感興趣特征點(diǎn)的SIFT特征向量提取 PAGEREF _Toc353041356 h 34 HYPERLINK l _Toc353041357 3.2.4 圖像視覺特征的歸一化 PAGEREF _Toc353041357 h 39 HYPERLINK l _Toc353041358 3.2.5 混合核 PAGEREF _Toc353041358 h 39 HYPERLINK l _Toc353041359 3.2.6 混合核實(shí)驗(yàn)結(jié)果分析 PAGEREF _Toc3
11、53041359 h 42 HYPERLINK l _Toc353041360 3.3 同一標(biāo)注的垃圾圖像過濾 PAGEREF _Toc353041360 h 44 HYPERLINK l _Toc353041361 3.4 垃圾圖像過濾實(shí)驗(yàn)結(jié)果與分析 PAGEREF _Toc353041361 h 45 HYPERLINK l _Toc353041362 3.5 本章小結(jié) PAGEREF _Toc353041362 h 46 HYPERLINK l _Toc353041363 第4章雙曲可視化顯示 PAGEREF _Toc353041363 h 47 HYPERLINK l _Toc3530
12、41364 4.1 圖像網(wǎng)絡(luò)的可視化顯示 PAGEREF _Toc353041364 h 47 HYPERLINK l _Toc353041365 4.1.1 雙曲空間的介紹 PAGEREF _Toc353041365 h 48 HYPERLINK l _Toc353041366 4.1.2 布局 PAGEREF _Toc353041366 h 49 HYPERLINK l _Toc353041367 4.1.3 映射 PAGEREF _Toc353041367 h 51 HYPERLINK l _Toc353041368 4.1.4 動(dòng)態(tài)顯示 PAGEREF _Toc353041368 h
13、52 HYPERLINK l _Toc353041369 4.2 圖像檢索 PAGEREF _Toc353041369 h 53 HYPERLINK l _Toc353041370 4.3 本章小結(jié) PAGEREF _Toc353041370 h 53 HYPERLINK l _Toc353041371 第5章實(shí)驗(yàn)結(jié)果與分析 PAGEREF _Toc353041371 h 54 HYPERLINK l _Toc353041372 5.1 總體設(shè)計(jì)方案 PAGEREF _Toc353041372 h 54 HYPERLINK l _Toc353041373 5.2 實(shí)驗(yàn)與分析 PAGEREF _
14、Toc353041373 h 58 HYPERLINK l _Toc353041374 5.2.1 實(shí)驗(yàn)環(huán)境 PAGEREF _Toc353041374 h 58 HYPERLINK l _Toc353041375 5.2.2 垃圾標(biāo)簽檢測(cè)實(shí)驗(yàn)與分析 PAGEREF _Toc353041375 h 58 HYPERLINK l _Toc353041376 5.2.3 垃圾圖像過濾實(shí)驗(yàn)與分析 PAGEREF _Toc353041376 h 61 HYPERLINK l _Toc353041377 5.2.4 協(xié)作式圖像檢索實(shí)驗(yàn)與分析 PAGEREF _Toc353041377 h 64 HYPE
15、RLINK l _Toc353041378 5.3 本章小結(jié) PAGEREF _Toc353041378 h 70 HYPERLINK l _Toc353041379 第6章總結(jié)與展望 PAGEREF _Toc353041379 h 71 HYPERLINK l _Toc353041380 6.1 總結(jié) PAGEREF _Toc353041380 h 71 HYPERLINK l _Toc353041381 6.2 展望 PAGEREF _Toc353041381 h 72 HYPERLINK l _Toc353041382 參考文獻(xiàn) PAGEREF _Toc353041382 h 74 HY
16、PERLINK l _Toc353041383 作者簡(jiǎn)歷 PAGEREF _Toc353041383 h 79 HYPERLINK l _Toc353041384 致謝 PAGEREF _Toc353041384 h 80浙江大學(xué)碩士學(xué)位論文 STYLEREF 樣式1 * MERGEFORMAT 表目錄 PAGE V圖目錄 TOC h z c 圖 HYPERLINK l _Toc359883796 圖2.1 WordNet結(jié)構(gòu)示意圖 PAGEREF _Toc359883796 h 13 HYPERLINK l _Toc359883797 圖2.2 WordNet語義相似度 PAGEREF _T
17、oc359883797 h 19 HYPERLINK l _Toc359883798 圖2.3 多重信息源的標(biāo)簽語義相似性 PAGEREF _Toc359883798 h 20 HYPERLINK l _Toc359883799 圖2.4 標(biāo)注詞對(duì)應(yīng)的圖像 PAGEREF _Toc359883799 h 22 HYPERLINK l _Toc359883800 圖2.5 標(biāo)簽聚類 PAGEREF _Toc359883800 h 24 HYPERLINK l _Toc359883801 圖 3.1 空間示意圖 PAGEREF _Toc359883801 h 27 HYPERLINK l _Toc
18、359883802 圖3.2 HSV的顏色空間示例圖 PAGEREF _Toc359883802 h 28 HYPERLINK l _Toc359883803 圖3.3 花朵和美食原圖像 PAGEREF _Toc359883803 h 30 HYPERLINK l _Toc359883804 圖3.4 花朵顏色直方圖 PAGEREF _Toc359883804 h 30 HYPERLINK l _Toc359883805 圖3.5 美食顏色直方圖 PAGEREF _Toc359883805 h 30 HYPERLINK l _Toc359883806 圖3.6 Gabor紋理特征 PAGERE
19、F _Toc359883806 h 33 HYPERLINK l _Toc359883807 圖3.7 尺度空間的構(gòu)建過程 PAGEREF _Toc359883807 h 35 HYPERLINK l _Toc359883808 圖3.8 DOG尺度空間局部極值檢測(cè) PAGEREF _Toc359883808 h 36 HYPERLINK l _Toc359883809 圖3.9 梯度方向直方圖 PAGEREF _Toc359883809 h 37 HYPERLINK l _Toc359883810 圖3.10 SIFT特征向量 PAGEREF _Toc359883810 h 38 HYPER
20、LINK l _Toc359883811 圖3.11 恐龍?jiān)瓐D像 PAGEREF _Toc359883811 h 38 HYPERLINK l _Toc359883812 圖3.12 興趣點(diǎn)的梯度向量 PAGEREF _Toc359883812 h 38 HYPERLINK l _Toc359883813 圖3.13 混合核模型的建立過程 PAGEREF _Toc359883813 h 41 HYPERLINK l _Toc359883814 圖3.14 恐龍檢索結(jié)果 PAGEREF _Toc359883814 h 42 HYPERLINK l _Toc359883815 圖3.15 權(quán)值選擇
21、 PAGEREF _Toc359883815 h 43 HYPERLINK l _Toc359883816 圖3.16 查準(zhǔn)率對(duì)比 PAGEREF _Toc359883816 h 43 HYPERLINK l _Toc359883817 圖3.17 查全率對(duì)比 PAGEREF _Toc359883817 h 44 HYPERLINK l _Toc359883818 圖3.18 垃圾標(biāo)簽過濾結(jié)果 PAGEREF _Toc359883818 h 46 HYPERLINK l _Toc359883819 圖4.1 返回圖像的雙曲顯示過程 PAGEREF _Toc359883819 h 47 HYPE
22、RLINK l _Toc359883820 圖4.2 歐式空間和雙曲空間對(duì)比 PAGEREF _Toc359883820 h 48 HYPERLINK l _Toc359883821 圖4.3 龐加萊投影原理 PAGEREF _Toc359883821 h 51 HYPERLINK l _Toc359883822 圖4.4 動(dòng)態(tài)顯示過程 PAGEREF _Toc359883822 h 52 HYPERLINK l _Toc359883823 圖5.1 總體方案設(shè)計(jì) PAGEREF _Toc359883823 h 54 HYPERLINK l _Toc359883824 圖5.2 標(biāo)簽的Word
23、Net語義相似性 PAGEREF _Toc359883824 h 55 HYPERLINK l _Toc359883825 圖5.3 短語的語義相似性 PAGEREF _Toc359883825 h 56 HYPERLINK l _Toc359883826 圖5.4 單詞的語義相似性 PAGEREF _Toc359883826 h 57 HYPERLINK l _Toc359883827 圖5.5 圖像視覺相似性上下文 PAGEREF _Toc359883827 h 58 HYPERLINK l _Toc359883828 圖5.6 垃圾標(biāo)簽檢測(cè)正確率實(shí)驗(yàn)對(duì)比 PAGEREF _Toc3598
24、83828 h 59 HYPERLINK l _Toc359883829 圖5.7 垃圾標(biāo)簽檢測(cè)正確率與標(biāo)簽數(shù)量的關(guān)系 PAGEREF _Toc359883829 h 60 HYPERLINK l _Toc359883830 圖5.8 dog標(biāo)簽所標(biāo)注圖像的垃圾圖像過濾結(jié)果 PAGEREF _Toc359883830 h 61 HYPERLINK l _Toc359883831 圖5.9 food標(biāo)簽所標(biāo)注圖像的垃圾圖像過濾結(jié)果 PAGEREF _Toc359883831 h 62 HYPERLINK l _Toc359883832 圖5.10 垃圾圖像過濾正確率對(duì)比 PAGEREF _Toc
25、359883832 h 63 HYPERLINK l _Toc359883833 圖5.11 垃圾圖像過濾正確率與圖像數(shù)量的關(guān)系 PAGEREF _Toc359883833 h 64 HYPERLINK l _Toc359883834 圖5.12 drink檢索返回結(jié)果 PAGEREF _Toc359883834 h 65 HYPERLINK l _Toc359883835 圖5.13 拖動(dòng)圖像視圖變換結(jié)果 PAGEREF _Toc359883835 h 66 HYPERLINK l _Toc359883836 圖5.14 單獨(dú)進(jìn)行垃圾標(biāo)簽檢測(cè)后drink檢索結(jié)果 PAGEREF _Toc35
26、9883836 h 66 HYPERLINK l _Toc359883837 圖5.15 僅垃圾圖像過濾后drink檢索結(jié)果 PAGEREF _Toc359883837 h 67 HYPERLINK l _Toc359883838 圖5.16 sunset檢索結(jié)果 PAGEREF _Toc359883838 h 68 HYPERLINK l _Toc359883839 圖5.17 查準(zhǔn)率對(duì)比 PAGEREF _Toc359883839 h 69 HYPERLINK l _Toc359883840 圖5.18 查全率對(duì)比 PAGEREF _Toc359883840 h 69表目錄 TOC h z
27、 c 表 HYPERLINK l _Toc352977574 表 2.1 部分標(biāo)簽的可靠度得分 垃圾標(biāo)簽檢測(cè) PAGE 2 PAGE 25垃圾標(biāo)簽檢測(cè)由網(wǎng)絡(luò)的普及使得更多的人使用網(wǎng)絡(luò)來共享或者檢索喜歡的圖片,用戶將圖片上傳到網(wǎng)站并對(duì)上傳圖片添加簡(jiǎn)短的標(biāo)注,同樣的,其他用戶也會(huì)根據(jù)自己的認(rèn)識(shí)對(duì)感興趣的圖片添加標(biāo)注,由此得到的這一類在線圖像就是我們所說的協(xié)作式標(biāo)注圖像,而圖像的標(biāo)注就是協(xié)作式標(biāo)簽,這樣的標(biāo)簽是用戶根據(jù)自己的理解對(duì)圖片的注釋,包含了大量的語義信息,對(duì)這類標(biāo)簽的有效利用,將能夠大大提高協(xié)作式標(biāo)注圖像的檢索準(zhǔn)確性。然而,由于添加標(biāo)簽的用戶的背景,關(guān)注點(diǎn),專業(yè)知識(shí)等的不同,這類標(biāo)簽伴隨著很
28、大的主動(dòng)性,一些標(biāo)簽是與圖像視覺內(nèi)容相符合的,一些標(biāo)簽是與圖像的視覺內(nèi)容并不相符合的,同時(shí),一些標(biāo)注太過于主觀性而過于偏離客觀事實(shí)不具有普遍性,這類標(biāo)簽都屬于垃圾標(biāo)簽,這類標(biāo)簽的存在,極大的影響了協(xié)作式標(biāo)注圖像的檢索準(zhǔn)確性,給用戶帶來極大的不便,因此,必須過濾掉。檢測(cè)垃圾標(biāo)簽,首先需要分析標(biāo)簽的特征,協(xié)作式標(biāo)簽包含大量語義信息,因此,首先要獲取的是標(biāo)簽的語義信息,我們稱之為內(nèi)在語義相似性上下文。標(biāo)簽消歧的方法對(duì)標(biāo)簽上下文信息的提取有著很深的依賴性,上下文語義內(nèi)容獲取的是否全面準(zhǔn)確將直接影響到標(biāo)簽過濾結(jié)果的正確性。本文主要強(qiáng)調(diào)在基于詞典的語義相似性上下文的概念。在協(xié)作式標(biāo)注系統(tǒng)中根據(jù)共生標(biāo)簽的不
29、同定義,通常情況下,資源的標(biāo)注詞的語義相似性上下文的信息來源主要包括以下幾個(gè)方面30:(1)同一個(gè)用戶對(duì)同一資源進(jìn)行的所有標(biāo)注。(2)資源的所有標(biāo)簽,不僅僅包括當(dāng)前用戶的標(biāo)注,也包括所有其他用戶對(duì)該資源進(jìn)行的標(biāo)注。(3)當(dāng)前用戶所使用過的所有的標(biāo)簽,而不僅僅指對(duì)當(dāng)前資源的標(biāo)注。用戶所使用的整個(gè)的詞匯表或許能夠?yàn)樗鶚?biāo)注的標(biāo)簽是否為垃圾標(biāo)簽提供一些線索,用戶詞匯表應(yīng)當(dāng)被充分利用。(4)當(dāng)用戶的標(biāo)簽信息(可以是用戶主動(dòng)標(biāo)注的)極度缺乏的時(shí)候,社區(qū)網(wǎng)絡(luò)中所有用戶接觸過的標(biāo)簽也可以被使用采集有價(jià)值的信息。(5)整個(gè)協(xié)作式標(biāo)注系統(tǒng)中所使用到的全部標(biāo)簽,具體的資源和用戶不進(jìn)行區(qū)分,以便于尋找當(dāng)前標(biāo)簽含義的
30、普遍理解。大眾分類法中對(duì)上下文信息的來源范圍的設(shè)定是有一定價(jià)值的,其中包括從用戶習(xí)慣性方面獲取有用信息。但是用戶習(xí)慣性數(shù)據(jù)需要在線支持,即使在線情況下也是很難從互聯(lián)網(wǎng)上獲取的,并且簡(jiǎn)單的信息無法獲得真正的用戶偏好,因此,本文中所提出的垃圾標(biāo)簽過濾算法并不考慮用戶習(xí)慣性問題,而主要從用戶對(duì)圖像進(jìn)行標(biāo)注的標(biāo)簽以及描述信息入手,探索同一圖像的所有標(biāo)簽之間的關(guān)聯(lián)性,從而檢測(cè)垃圾標(biāo)簽。概念本體論并不適用于協(xié)作式標(biāo)注,因?yàn)楦拍畋倔w論的IS-A模型是在概念層分析對(duì)象之間的關(guān)聯(lián),但是,大規(guī)模協(xié)作式標(biāo)注的關(guān)聯(lián)并不僅僅在概念層,他們上下文關(guān)系是描述標(biāo)簽之間關(guān)聯(lián)性的一個(gè)重要信息這比IS-A模型復(fù)雜的多,每個(gè)圖像標(biāo)簽
31、與多個(gè)標(biāo)簽之間的關(guān)聯(lián)使得形成一個(gè)標(biāo)簽網(wǎng)絡(luò)31。因此針對(duì)協(xié)作式標(biāo)注的語義相似性,我們研究一種算法整合了標(biāo)簽的內(nèi)在語義相似性和標(biāo)簽之間的統(tǒng)計(jì)信息,標(biāo)簽語義相似性采用WordNet語義詞典計(jì)算標(biāo)簽之間的WordNet語義相似性,采用標(biāo)簽的同現(xiàn)頻率描述標(biāo)簽之間的潛在語義相似性。本文垃圾標(biāo)簽檢測(cè)的方法共分為兩步:根據(jù)標(biāo)簽的發(fā)生頻率和標(biāo)簽的同現(xiàn)頻率分析標(biāo)簽的可靠度,可靠度低的為垃圾標(biāo)簽,從而初步檢測(cè)垃圾標(biāo)簽。對(duì)一幅圖像的所有標(biāo)注進(jìn)行聚類,聚類后標(biāo)簽數(shù)目較少的類的標(biāo)簽是這幅圖像的垃圾標(biāo)簽,根據(jù)同一幅圖像的標(biāo)注之間的語義關(guān)系檢測(cè)垃圾標(biāo)簽。2.1 標(biāo)簽的可靠度分析由于協(xié)作式標(biāo)注圖像的標(biāo)注是用戶自主添加的因此在添
32、加的時(shí)候難免會(huì)因?yàn)楦鞣N主觀因素導(dǎo)致一些標(biāo)注詞并不能很好的描述圖像的視覺內(nèi)容,其中有一些詞是拼寫錯(cuò)誤或者語法錯(cuò)誤或者是使用錯(cuò)誤的單詞和短語,這一類型的錯(cuò)誤可以根據(jù)大量標(biāo)注的統(tǒng)計(jì)信息來獲得,如果是一個(gè)正確的單詞沒有語法或者拼寫的錯(cuò)誤,那么這個(gè)單詞出現(xiàn)的頻率應(yīng)當(dāng)比錯(cuò)誤單詞出現(xiàn)的頻率高的多,這種出現(xiàn)頻率高的單詞作為標(biāo)簽的可靠性也會(huì)比較高。另一方面,如果一個(gè)單詞出現(xiàn)的頻率并不是很高,但是卻經(jīng)常和一些可靠性較高的單詞同時(shí)出現(xiàn),那么這個(gè)單詞的潛在可靠性就較高。本文結(jié)合標(biāo)簽的發(fā)生頻率和和標(biāo)簽的同現(xiàn)頻率來決定標(biāo)簽的可靠性得分,得分高于一定的閥值則判定為可靠標(biāo)簽,反之,則為垃圾標(biāo)簽。2.1.1發(fā)生頻率協(xié)作式標(biāo)注系
33、統(tǒng)由于用戶標(biāo)注的隨意性,又由于在用戶標(biāo)注時(shí)并不對(duì)用戶標(biāo)注詞進(jìn)行正確性的檢測(cè),由此,會(huì)產(chǎn)生一些拼寫錯(cuò)誤的單詞或短語,以及組合錯(cuò)誤的短語,這些標(biāo)注也是垃圾標(biāo)簽的一部分,針對(duì)垃圾標(biāo)簽的這一特性,可以利用標(biāo)簽的發(fā)生頻率來過濾,即給定標(biāo)注詞被使用的頻率,如果一個(gè)標(biāo)注詞頻繁的出現(xiàn)則不僅能夠說明這個(gè)單詞是存在的,正確的,且能夠表明這個(gè)單詞有較高的使用頻率,重要性較高,用這個(gè)單詞做標(biāo)注的可能性是較高的。同樣的,如果標(biāo)簽的發(fā)生頻率過低,說明標(biāo)簽被用戶用來標(biāo)注圖像的次數(shù)較少,很可能是錯(cuò)誤的單詞或詞組,或這是一些極為生僻的單詞,這些單詞包含的專業(yè)性太強(qiáng),通常不具有普遍性,用戶也很少會(huì)用此類標(biāo)簽進(jìn)行檢索,因此,本文將
34、這一類標(biāo)注也認(rèn)為是協(xié)作式標(biāo)注圖像的垃圾標(biāo)簽。由于協(xié)作式標(biāo)注圖像所有用戶瀏覽者都可以對(duì)圖像進(jìn)行標(biāo)注,因而,協(xié)作式標(biāo)注的另一特點(diǎn)就是標(biāo)注詞眾多,通常一幅圖像可對(duì)應(yīng)許多標(biāo)注詞,對(duì)大量的標(biāo)注詞進(jìn)行統(tǒng)計(jì)分析可以得到標(biāo)注詞的普遍意義,初步檢測(cè)垃圾標(biāo)簽。統(tǒng)計(jì)分析是指對(duì)所搜集并經(jīng)過整理的大量統(tǒng)計(jì)資料,運(yùn)用統(tǒng)計(jì)特有的方法進(jìn)行系統(tǒng)的分析研究、判斷推理,從定量分析入手,揭示社會(huì)經(jīng)濟(jì)現(xiàn)象一般特征和規(guī)律的過程。根據(jù)以上分析,標(biāo)簽的發(fā)生頻率是標(biāo)簽重要性的一個(gè)重要衡量標(biāo)準(zhǔn)。標(biāo)簽的發(fā)生頻率是指用這個(gè)標(biāo)簽作為圖像標(biāo)注的次數(shù),它是衡量詞語的重要性的一個(gè)關(guān)鍵因素。標(biāo)簽的發(fā)生頻率越大,說明這個(gè)標(biāo)簽作為為圖像的標(biāo)注詞的次數(shù)就越多,那么
35、就越有可能成為用戶檢索時(shí)關(guān)注的詞,說明這個(gè)詞是得到大眾認(rèn)可的詞,它的可靠性自然就比較高。相反,如果在大規(guī)模在線標(biāo)注圖像中,一個(gè)標(biāo)簽的發(fā)生頻率很小,說明很少用戶使用這個(gè)標(biāo)簽,未來使用的可能也會(huì)很小,用戶對(duì)這個(gè)詞的認(rèn)可度較低,很可能是垃圾標(biāo)簽。給定一圖像標(biāo)注,它的可靠性取決于用這一標(biāo)簽作為標(biāo)注的圖像數(shù)量,用這一標(biāo)簽的圖像數(shù)量越多說明這一標(biāo)簽越受大眾認(rèn)可,可靠性就越高。2.1.2 標(biāo)簽的同現(xiàn)頻率僅僅使用發(fā)生頻率描述標(biāo)簽的可靠度是不準(zhǔn)確的,兩個(gè)標(biāo)注的發(fā)生頻率一樣并不能表示他們具有相等的重要性了,因?yàn)闃?biāo)注的重要性還和與這個(gè)標(biāo)簽相關(guān)聯(lián)的標(biāo)注的數(shù)量有關(guān)。例如,標(biāo)簽a和b的發(fā)生頻率相同,并且與a相關(guān)的標(biāo)簽也就
36、是與a共同標(biāo)注一幅圖像的標(biāo)簽有m個(gè),而與b相關(guān)的標(biāo)簽有n個(gè),但是m比n大得多,那么標(biāo)簽a的重要性會(huì)得到增強(qiáng),b的重要性就沒有a大了。互聯(lián)網(wǎng)中判斷網(wǎng)頁(yè)重要性的PageRank方法與標(biāo)簽同現(xiàn)頻率在思想上有相同之處32。PageRank方法可以較為準(zhǔn)確的評(píng)價(jià)網(wǎng)站的重要性,事實(shí)上要完全客觀的評(píng)價(jià)一個(gè)網(wǎng)站是否重要是很難的,顯然評(píng)估網(wǎng)站的重要性是具有一定主觀性的,但如果根據(jù)所有用戶使用網(wǎng)站的統(tǒng)計(jì)特性即偏好性比如訪問量方面分析網(wǎng)站的重要性也是具有普遍性的。因?yàn)楫?dāng)用戶瀏覽或通過搜索引擎搜索網(wǎng)頁(yè)時(shí)普遍會(huì)選擇他們“重要”的網(wǎng)頁(yè),且如果大多數(shù)的用戶都認(rèn)為一個(gè)網(wǎng)站是重要的,那么這個(gè)網(wǎng)站就可以被認(rèn)為是一個(gè)較為重要的網(wǎng)站
37、。網(wǎng)頁(yè)之間通過相互的鏈接使之相互關(guān)聯(lián),PageRank的基本思想是:如果一個(gè)網(wǎng)頁(yè)與很多優(yōu)質(zhì)的網(wǎng)頁(yè)有鏈接,那么可以認(rèn)為這個(gè)網(wǎng)頁(yè)必定也是個(gè)優(yōu)質(zhì)的網(wǎng)頁(yè)。也就是說假如許多權(quán)威的、重要的網(wǎng)頁(yè)都鏈接了同一個(gè)網(wǎng)頁(yè),那么可以認(rèn)為這個(gè)網(wǎng)頁(yè)同樣是比較權(quán)威且重要的,并且從內(nèi)容上看這個(gè)網(wǎng)頁(yè)與那些與它有鏈接關(guān)系的權(quán)威網(wǎng)頁(yè)也是具有關(guān)聯(lián)性的。同樣的,標(biāo)簽的可靠性也可以借鑒PageRank的思想,假設(shè)標(biāo)簽w使用頻率較高,并且有很多可靠性較高的詞都和w同時(shí)出現(xiàn),則說明這個(gè)標(biāo)簽和這些可靠性較高的標(biāo)注詞相似性較高,則標(biāo)注詞w的可靠性被認(rèn)為也是較高的。因此,根據(jù)以上分析,標(biāo)簽的發(fā)生頻率不太高的情況下,如果這個(gè)標(biāo)注詞頻繁的和其他標(biāo)注詞
38、共同標(biāo)注一幅圖像,說明這個(gè)標(biāo)注的重要性較高,那么它的可靠性也較高。因此,如果一個(gè)標(biāo)注詞的發(fā)生頻率不高,但是同現(xiàn)頻率很高,那么我們認(rèn)為這個(gè)詞很可能是可靠的。2.1.3 標(biāo)簽的可靠度評(píng)價(jià)函數(shù)綜上所述,我們定義標(biāo)簽可靠性評(píng)價(jià)函數(shù),對(duì)于給定的標(biāo)簽C,它的可靠度函數(shù)(C)依賴于:(1)它的發(fā)生頻率t(C)(發(fā)生頻率越高可靠性越高);(2)它的同現(xiàn)頻率(C)(同現(xiàn)頻率越高可靠性越高);對(duì)于標(biāo)簽C的發(fā)生頻率t(C)等于用標(biāo)簽C的作為標(biāo)注的圖像數(shù)量,同現(xiàn)頻率(C)等于同時(shí)用標(biāo)簽C和一個(gè)任意詞匯表中標(biāo)簽做標(biāo)注的圖像數(shù)量。這樣給定一個(gè)標(biāo)簽C,我們可將可靠性函數(shù)(C)定義為: (2.1)公式中前半部分描述標(biāo)簽C在大
39、規(guī)模圖像標(biāo)注數(shù)據(jù)中的發(fā)生頻率t(C)的可靠度得分,后半部分描述了給定標(biāo)簽的同現(xiàn)頻率(C)的可靠度得分,和為同發(fā)生頻率和同現(xiàn)頻率的可靠度得分的想關(guān)參數(shù)。表2.1列舉了使用本文方法獲得一部分圖像標(biāo)注的可靠度得分,統(tǒng)計(jì)所依據(jù)的是1000幅LabelMe的標(biāo)注。從表2.1可發(fā)現(xiàn),第一列標(biāo)簽是人們不常用到且不熟悉甚至不用的標(biāo)簽,這些標(biāo)簽的可靠度得分也較低;而第二列標(biāo)簽是人們經(jīng)常用到且熟悉的高頻詞匯,這些標(biāo)簽的可靠度得分也是較高的。由此可見,本文的可靠度評(píng)價(jià)方法能夠較較為準(zhǔn)確的計(jì)算標(biāo)簽的可靠度得分。表 STYLEREF 1 s 2. SEQ 表 * ARABIC s 1 1 部分標(biāo)簽的可靠度得分標(biāo)簽可靠度
40、得分標(biāo)簽可靠度得分Poster0.30148book0.97865doorPartial0.20167Apple0.99832Cpu occluded0.20175Dog0.95432Arm chair crop0.43312Hospital0.90234Whiteboard crop0.53012Chair0.88325Monitor0.47152Cat0.93768Screen crop0.69654Beautiful Girl0.85324bookshelfSide0.32634Necklace0.80453tallboy0.16742Trees0.97321ChairWhole0.10
41、287wedding0.884322.2 WordNet語義相似性本文是通過英文WordNet語義詞典計(jì)算協(xié)作式圖像標(biāo)注之間的語義相似性。之所以使用英文WordNet語義詞典來計(jì)算的原因如下:1、本文的實(shí)驗(yàn)部分所采用的圖像和標(biāo)注數(shù)據(jù)庫(kù)中的標(biāo)注詞為英文。2、英文WordNet語義詞典發(fā)展的成熟,而中文WordNet語義詞典仍然沒有統(tǒng)一的標(biāo)準(zhǔn)這將會(huì)影響對(duì)本文方法的分析,本文旨在挖掘協(xié)作式標(biāo)注與圖像之間的關(guān)聯(lián)從而過濾垃圾標(biāo)簽和圖像,對(duì)語義詞典的結(jié)構(gòu)并不做研究。綜上所述,本文根據(jù)英文WordNet語義詞典獲得圖像標(biāo)注之間的wordnet語義相似性。2.2.1 WordNet語義詞典介紹WordNet語
42、義詞典是由Princeton大學(xué)的計(jì)算機(jī)工程師,心理學(xué)、語言學(xué)的專家們共同開發(fā)設(shè)計(jì)的一種基于人類認(rèn)知語言學(xué)的英語語義詞典33。這個(gè)語義詞典根據(jù)每個(gè)單詞的詞義以及單詞之間的詞義聯(lián)系將單詞構(gòu)成一個(gè)單詞網(wǎng)絡(luò),而并不像傳統(tǒng)詞典那樣將單詞按照首字母順序排列,這種組織方式即是按照詞義而不是單詞的詞形來組織詞匯。實(shí)質(zhì)上, WordNet語義詞典也可以被認(rèn)為是一種基于心理學(xué)和語言學(xué)的英文詞典,因?yàn)樗M織詞匯信息的最小單位是同義詞集合,對(duì)于查詢結(jié)果的語義描述方法也是按照符合人類思維定式的方式;WordNet給出了查詢結(jié)果的同義詞的定義和例句,這和傳統(tǒng)字典是相似的。并且在同義詞集合中包含對(duì)這些同義詞的定義,不同的
43、同義詞也給出各自適合的例句來進(jìn)一步描述區(qū)分。WordNet是根據(jù)三個(gè)假設(shè)論據(jù)而開發(fā)的,即“可分離性假設(shè)”、“可模式化假設(shè)”和“廣泛性假設(shè)”34;其中“可分離性假設(shè)”,是指語言的構(gòu)成成分即詞匯能夠被分離出來加以分析研究。而“可模式化假設(shè)”,則是語言都有一定的系統(tǒng)規(guī)律,這體現(xiàn)在語言的組織和詞義間的關(guān)系;所謂“廣泛性假設(shè)”,描述的是計(jì)算機(jī)需要盡可能都的收集詞匯知識(shí),就如人類處理語言的前提也是收集了大量的詞匯知識(shí)。WorNet描述分類單詞及其概念是通過同義詞集關(guān)系來完成的,同義詞集關(guān)系組將單詞同義詞的集合聚集到一起共同解釋一個(gè)單詞的語義。WordNet是一個(gè)包括了成千上萬的同義集的詞匯表,并且利用這些
44、同義集來詮釋單詞的語義以及單詞間相互的關(guān)系。同義集包含了單詞的大量概念,其中包括有單詞的上位關(guān)系、下位關(guān)系35,WordNet也涉及到了相似但又不是完全同義的概念間的映射。WordNet系統(tǒng)可以分為四部分:(l)WordNet詞典由編纂人員寫的所有源文件;(2)能夠?qū)⒃次募D(zhuǎn)換成WordNet詞匯數(shù)據(jù)庫(kù)的軟件;(3)WordNet詞匯數(shù)據(jù)庫(kù);(4)訪問詞匯數(shù)據(jù)庫(kù)的一套用戶客戶端軟件工具。2.2.2 單詞的WordNet語義相似性通常情況下,通過WordNet語義詞典獲得的單詞的語義相似性內(nèi)容都是采用單詞的直接語義距離來描述的,即兩個(gè)單詞的共同的父輩上位詞的語義深度 36。如果父輩單詞有較深的語
45、義距離則說明兩個(gè)單詞的語義相似性內(nèi)容較?。环粗?,如果父輩單詞的語義深度比較淺則表示兩個(gè)單詞有較高的語義相似性。這種方法雖然簡(jiǎn)單但是對(duì)于語義網(wǎng)絡(luò)這種有復(fù)雜結(jié)構(gòu)的詞匯庫(kù)的度量效果并不理想。傳統(tǒng)的Wordnet語義相似性評(píng)估方法對(duì)與協(xié)作式標(biāo)注的效果不佳的原因如下分析:WordNet是有單詞的上位詞、下位詞、同義詞和反義詞等共同組成的單詞的語義詞匯樹,也是一個(gè)包含單詞之間語義的單詞網(wǎng)絡(luò)。這種語義樹中,節(jié)點(diǎn)就代表一個(gè)單詞,樹枝則表述兩個(gè)單詞之間的語義相似性。因此,既然是樹則必然有樹枝及葉子的茂密和稀疏之分以及樹枝的長(zhǎng)短之別。經(jīng)常用到的單詞的上位單詞,下位單詞,反義單詞和同義單詞就比較多,也就是說這些單詞
46、所在的詞匯樹就比較茂盛。同樣的,一些不經(jīng)常用到的單詞比如專業(yè)名詞,與這些詞相關(guān)的單詞就會(huì)比較少,自然詞匯樹也會(huì)比較稀疏。因此,使用WordNet語義詞典中單詞的共同父輩上位詞的深度來描述單詞之間的語義相似性內(nèi)容并不是準(zhǔn)確的。如圖2.1描述的是WordNet語義詞典里的語義樹形結(jié)構(gòu)的小部分的分支結(jié)構(gòu)。比如計(jì)算(car、Fork)的單詞間的語義相似性以及(Car、Bicycle)的語義相似性從而評(píng)估單詞car與Fork、Bicycle中相似性較高的單詞。從圖2.1的語義樹觀察,car和Fork的共同父輩節(jié)點(diǎn)是Artlfact,并且在wordnet語義詞典中單詞Artifact的語義深度是3.53,
47、則car和Fork的語義相似性是3.53。同理,Car和Bicycle的共同父輩節(jié)點(diǎn)是vehicle,在wordnet語義詞典中vehicle的語義深度是8.3,因此Car與Bicycle的語義相似性為8.3。但是根據(jù)人類生活中的普遍認(rèn)知可以判斷:car與Bicyde的相似性與car和fork之間的相似性比較應(yīng)該更大一些。但僅僅通過共同父輩節(jié)點(diǎn)得到的語義相似性卻與人類普遍認(rèn)知的結(jié)果相反。事實(shí)上,這是由于我們?cè)谟?jì)算單詞間的語義距離時(shí)忽略了語義樹的茂密或稀疏對(duì)單詞語義相似性的影響。由圖2.1中可明顯觀察到,左邊的樹枝的茂密程度明顯大于右邊的樹枝,這也是我們用共同父輩節(jié)點(diǎn)計(jì)算car與Fork、Bic
48、ycle之間相似性不準(zhǔn)確的原因。所以,通過WordNet計(jì)算單詞間的語義相似性應(yīng)該結(jié)合語義樹的茂密程度。基于以上分析,本文設(shè)計(jì)了一種通過WordNet語義詞典獲得單詞之間的語義相似性的方法。在計(jì)算兩個(gè)單詞的語義相似性時(shí),本文使用語義詞典得到兩個(gè)單詞間最短路徑的語義距離以及每個(gè)單詞的語義深度從而獲得兩單詞間的語義相似性內(nèi)容。詳細(xì)的步驟如下所示:(1)給定兩個(gè)單詞,計(jì)算這兩個(gè)單詞相似性內(nèi)容首先必須計(jì)算在WordNet語義樹形結(jié)構(gòu)中待計(jì)算的兩個(gè)單詞的最短路徑距離,也就是兩個(gè)單詞的語義距離;單詞間的最短路徑距離即表示了兩單詞的語義距離,本文定義Length表示最短路徑距離37。如圖2.1中所示Car和
49、Bicycle的最短路徑距離為5,同時(shí)Bicycle與Fork的最短路徑為10。(2)計(jì)算兩個(gè)單詞的最近的共同父輩節(jié)點(diǎn)的語義深度,節(jié)點(diǎn)的語義深度是通過詞匯表中的根節(jié)點(diǎn)到這個(gè)節(jié)點(diǎn)的路徑距離來描述的,本文節(jié)點(diǎn)深度用Depth表示。如圖2.1所示,單詞car和單詞bicycle的共同父輩節(jié)點(diǎn)的語義深度表示為5,同時(shí)bicycle與Fork的共同父輩節(jié)點(diǎn)深度是2。圖 STYLEREF 1 s 2. SEQ 圖 * ARABIC s 1 1 WordNet結(jié)構(gòu)示意圖(3)公式(2.2)描述的是兩個(gè)單詞間的語義相似性,ci和cj,表示作為圖像標(biāo)注的單詞,s(ci,cj)則表示的是兩個(gè)標(biāo)注詞的語義相似性。
50、(2.2)表2.2是計(jì)算圖像標(biāo)注間的WordNet語義相似性的部分結(jié)果,顯然表2.2中的結(jié)果是和人類認(rèn)知相符合的。協(xié)作式標(biāo)注具有隨意性,為了更好的利用wordNet語義詞典計(jì)算協(xié)作式標(biāo)注間的語義相似性,還需要解決一些問題,詳細(xì)分析如下: (1)協(xié)作式標(biāo)注的詞性雖然很多,但本文只關(guān)注單詞是動(dòng)詞或者名詞的情況。因?yàn)橛脛?dòng)詞或者名詞作為標(biāo)注詞的標(biāo)注描述的通常是圖像客觀存在的事物,具有一定的普遍認(rèn)知性和客觀一致性,因此,這類單詞有共同的認(rèn)知標(biāo)準(zhǔn),不同的人對(duì)這些詞所描述的內(nèi)容的認(rèn)知是相同的,所以,分析這類標(biāo)注詞是有價(jià)值的。相反的,形容詞和副詞這些標(biāo)注詞具有很強(qiáng)的主觀性和濃厚的個(gè)人色彩,由于沒有固定準(zhǔn)則分析
51、這類標(biāo)注詞是沒有意義的,也因?yàn)檫@樣,在檢測(cè)垃圾標(biāo)簽時(shí),對(duì)這些標(biāo)注詞本文不進(jìn)行分析。表 STYLEREF 1 s 2. SEQ 表 * ARABIC s 1 2 部分單詞WordNet語義相似性示例標(biāo)簽WordNet語義相似性標(biāo)簽WordNet語義相似性標(biāo)簽WordNet語義相似性Monkey-monkey1Food-love0.8City-lake0.31Monkey-animal0.64Food-animal0.4City-bus0.35Monkey-mineral0.33Food-food1City-car0.35Monkey-vegetable0.56Food-monkey0.36Cit
52、y-village0.75Monkey-cat0.8Food-flower0.43Flower-rose0.73Monkey-sea0.33Food-bird0.83Flower-bird0.4(2)一些單詞在中有多重繼承,這些單詞所屬的分類可能并不只有一個(gè),因?yàn)檫@類單詞的語義是多義的,比如,bank同時(shí)具有銀行和岸邊的意思,且兩個(gè)語義的詞性都為名詞。這時(shí)就會(huì)有兩個(gè)單詞之間的路徑為多條的現(xiàn)象,遇到這種情況,本文會(huì)采用最短路徑。(3)上述方法適用于兩個(gè)單詞的詞性相同的情況。WordNet語義詞典的詞匯表是由名詞,動(dòng)詞,副詞以及形容詞共四個(gè)詞性的詞匯表構(gòu)成的。并且詞匯表與詞匯表之間是沒有交集的,所
53、以,當(dāng)兩個(gè)單詞的詞性不相同時(shí)是無法直接計(jì)算它們之間的語義相似性的。比如,由于動(dòng)詞和名詞不屬于一個(gè)詞匯表,因此我們無法計(jì)算一個(gè)詞性為動(dòng)詞的標(biāo)注詞和一個(gè)詞性為名詞的標(biāo)注詞之間的語義相似性,我們能考慮的情況是兩個(gè)單詞同為動(dòng)詞或者同為名詞的情況。但若從單詞間的相似性角度分析,如果兩個(gè)單詞都僅僅屬于一個(gè)詞性,且這兩個(gè)詞性并不相同,那么可以認(rèn)為這兩個(gè)單詞的相似性也會(huì)是很小。如果單詞擁有多個(gè)詞性,那么本文優(yōu)先考慮單詞為名詞的情況,則動(dòng)詞的詞性將不再考慮,加入單詞不是名詞那么再考慮該單詞是動(dòng)詞的情況。(4)圖像標(biāo)注并不是只有單詞,還會(huì)有短語。這時(shí)短語需要首先解析為單詞然后獲得短語語義相似性。2.2.3 兩個(gè)短
54、語之間的WordNet語義相似性協(xié)作式標(biāo)注存在標(biāo)注詞為短語的情況,這使得我們可靠標(biāo)簽中也有存在短語的情況38。本文在單詞相似性基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計(jì)了一種短語之間wordnet語義相似性的計(jì)算方法。具體方法如下:(1)用英文分詞方法對(duì)短語進(jìn)行分詞。即將短語依據(jù)空格分割成一組單詞。(2)標(biāo)注單詞的詞性。判斷步驟(1)中的兩組單詞的詞性。(3)對(duì)兩組單詞進(jìn)行兩兩相似性匹配,若相似單詞對(duì)的數(shù)量越多,則短語越相似。根據(jù)語義詞典計(jì)算單詞相似性時(shí)單詞的詞性必須是已知的,然后才知道要進(jìn)行語義相似性計(jì)算的詞匯表是哪個(gè),所以,在計(jì)算短語語義相似性之前首先要分析并確定兩組單詞中每個(gè)單詞的詞性39。本文進(jìn)行詞性標(biāo)注采
55、用的是Brill tagger,它是個(gè)英文詞性標(biāo)注工具。Brill tagger是一種基于錯(cuò)誤機(jī)制而進(jìn)行轉(zhuǎn)換最終收斂并確定詞性的英文詞性標(biāo)注方法40。它的包含了三種核心的思想,分別為:(1)通過反復(fù)修正詞性標(biāo)注結(jié)果的方法使詞性標(biāo)注不斷接近正確結(jié)果最終收斂穩(wěn)定。(2)不斷修改錯(cuò)誤詞性標(biāo)注直到最終趨于收斂的過程是遵循一定的規(guī)律的,詞性的分布與根據(jù)句子結(jié)構(gòu)是有一定關(guān)聯(lián)的。(3)計(jì)算機(jī)可以學(xué)習(xí)步驟(1)中的規(guī)律,學(xué)習(xí)到的穩(wěn)定的規(guī)律即為轉(zhuǎn)換規(guī)則,在之后可以根據(jù)轉(zhuǎn)換規(guī)則直接進(jìn)行標(biāo)注,且不斷學(xué)習(xí)優(yōu)化轉(zhuǎn)換規(guī)則。轉(zhuǎn)換規(guī)則有兩個(gè)主要因素:改寫規(guī)則(rewriting rule)與激活環(huán)境(triggering e
56、nvironment)。比如,轉(zhuǎn)換規(guī)則T1的改寫規(guī)則是將待定詞性為動(dòng)詞(v)的單詞的詞性修改為名詞(n)詞性,而它的激活環(huán)境即能夠運(yùn)用T1的前提條件是單詞的左邊相鄰的第一個(gè)單詞的詞性為量詞(q)。假定短語S0的初始詞性為:S0是He/r did/v a/q report/v,S0運(yùn)用了T1之后的詞性結(jié)果是:S1為He/r did/v a/q report/n。其中,改寫規(guī)則總結(jié)為一句話是將句子中的原本詞性為x的單詞詞性改寫成y。但激活環(huán)境的規(guī)則有三種,分別如下:(1)當(dāng)前單詞的前或者后相鄰的單詞的詞性標(biāo)注是z;(2)當(dāng)前單詞的前或者后相鄰的第二個(gè)單詞的詞性標(biāo)注是z;(3)當(dāng)前單詞的前或者后相鄰
57、的兩個(gè)單詞中其中一個(gè)單詞的詞性是z;根據(jù)上述規(guī)范進(jìn)行排列組合獲得的Brill Tagger的轉(zhuǎn)換規(guī)則分別如下:1.T1:假設(shè)當(dāng)前單詞前一個(gè)相鄰的單詞的詞性標(biāo)注為量詞,且當(dāng)前單詞的詞性標(biāo)注為動(dòng)詞那么將它標(biāo)注為名詞;2.T2:當(dāng)前單詞的后一個(gè)單詞的詞性是動(dòng)詞,且當(dāng)前單詞的詞性也是動(dòng)詞那么就改為名詞;3.T3:假設(shè)當(dāng)前單詞的詞性是動(dòng)詞同時(shí)它后面的一個(gè)單詞是形容詞,將這個(gè)單詞修改為名詞;4.T4:假如當(dāng)前單詞詞性為形容詞同時(shí)單詞前的兩個(gè)單詞中有一個(gè)單詞的詞性標(biāo)注為名詞,那么就將當(dāng)前單詞詞性改為數(shù)詞;Brill Tagger在標(biāo)注單詞的詞性所使用的類似的轉(zhuǎn)換規(guī)則還很多?;谏厦娣治?,短語語義相似性的描述
58、方法為:由于短語是由單詞組成的,因此可以利用組成短語的單詞組的相似性來描述短語之間的相似性。具體方法如下:首先,構(gòu)建一個(gè)m*n的矩陣R,m及n分別代表了兩個(gè)短語x與y中的各自的單詞數(shù)量。Ri,j表示短語x的第i個(gè)單詞與短語y的第j個(gè)單詞之間的語義相似性。然后,根據(jù)單詞的兩兩相似性獲得短語之間的語義相似性。具體需要將兩組單詞的兩兩相似性整合為一個(gè)總的短語的語義相似性,也就是將相似性矩陣R通過運(yùn)算最終形成一個(gè)相似性得分來表示兩個(gè)短語的語義相似性。這里我們用兩組單詞中匹配的單詞對(duì)與兩組單詞的總數(shù)之比來描述這兩個(gè)短語的語義相似性。得到的相似性得分如果高于一定閾值則表示相似,如果低于這個(gè)閾值則表示不相似
59、。比如:兩個(gè)單詞x和y,x和y中的單詞數(shù)量分別為4和5,設(shè)置單詞相似閾值是0.5,在相似度矩陣R中的元素有3個(gè)相似性分別是0.6,0.7,0.8,高于閾值0.5,那么認(rèn)為x和y有存在的相似單詞對(duì)有3對(duì)。則x,y的相似性是Rx,y=2*(1+1+1)/(4+5)=0.67。那么短語作為圖像標(biāo)注的兩個(gè)標(biāo)注詞間WordNet語義相似性公式如下: (2.3)ci,cj表示短語ci和短語cj,表示ci,cj中單詞的數(shù)量,表示兩個(gè)短語中相似單詞對(duì)的數(shù)量。表2.3是用上述方法獲得的短語之間的語義相似性以及單詞和短語之間的相似性的部分結(jié)果。表中可見,本文方法所得到的短語WordNet語義相似性和人類的普遍認(rèn)知
60、是相符的,得到的結(jié)果準(zhǔn)確。表 STYLEREF 1 s 2. SEQ 表 * ARABIC s 1 3 用WordNet得到的短語的語義相似性標(biāo)簽WordNet語義相似性標(biāo)簽WordNet語義相似性A walking person, people0.54Cat, a beautiful girl0.646The college students, A walking person0.5625A cute cat, football0.44Speak loudly, a walking person0.1875Football, football game0.9467People,a beaut
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第24課《三顧茅廬》課件+2024-2025學(xué)年統(tǒng)編版語文九年級(jí)上冊(cè)
- 石河子大學(xué)《學(xué)前教育學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 社區(qū)精神衛(wèi)生服務(wù)與護(hù)理
- 石河子大學(xué)《社會(huì)統(tǒng)計(jì)學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《機(jī)械設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《中外建筑史》2021-2022學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《現(xiàn)代應(yīng)用光學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)基礎(chǔ)》2021-2022學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《光電檢測(cè)技術(shù)》2023-2024學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《單片機(jī)原理與接口技術(shù)》2023-2024學(xué)年期末試卷
- GB/T 324-2008焊縫符號(hào)表示法
- GB/T 2980-2018工程機(jī)械輪胎規(guī)格、尺寸、氣壓與負(fù)荷
- 第七章 歐拉方程
- 五大領(lǐng)域教學(xué)法(課堂PPT)
- 數(shù)控車床編程基本學(xué)習(xí)培訓(xùn)課件
- 如何說孩子才會(huì)聽課件
- 習(xí)作:我們眼中的繽紛世界2套(部編版三上)課件
- 貴州·貴陽(yáng)·山水黔城
- 小講課-中心靜脈壓的測(cè)量及臨床意義
- 華夏基石:目標(biāo)管理與績(jī)效管理體系構(gòu)建共課件
- 工業(yè)以太網(wǎng)交換機(jī)招標(biāo)技術(shù)規(guī)范書
評(píng)論
0/150
提交評(píng)論