版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 iiii7)再取一個(gè)字(此處為 C),判斷第三層中是否有以 GC開始的字(不需要恰 好匹配,只要匹配開始的i個(gè)字就可以了)。8)若存在,分詞結(jié)束,返回最近一次能夠恰好匹配的GCj(ji),并與GQ組合成詞。如果是GQ,則根據(jù)CC2的標(biāo)記判斷是雙字詞還是分為兩個(gè)單字詞。9)否則,轉(zhuǎn)6)。(3)統(tǒng)計(jì)方法運(yùn)用由于詞典的不完全性,許多詞可能不會(huì)在字典中登錄,為了處理句子中的未登錄詞, 我們?cè)谠械乃惴ㄖ星度朐~頻統(tǒng)計(jì)方法,將某些出現(xiàn)頻率較高的連續(xù)字段作為一個(gè)詞切 分,我們首先對(duì)頻度設(shè)定一個(gè)閾值f。設(shè)已對(duì)CC進(jìn)行切分,由切分算法和歧義處理算法得到CC為一個(gè)詞,GG為一個(gè)詞,C與C之間皆為單字詞,即 Ci
2、C和CG是相鄰最近的兩個(gè) 多字詞,則將C+iC-i作為一個(gè)多字詞進(jìn)行詞頻統(tǒng)計(jì),在對(duì)文章全部切分完畢之后, 若C+iGi的出現(xiàn)次數(shù)達(dá)到f時(shí),則將其看作一個(gè)詞,否則,將其拆分為單字詞。同時(shí),對(duì)于相同或相近專業(yè)和領(lǐng)域建立起動(dòng)態(tài)詞庫(kù),將由統(tǒng)計(jì)得到的詞不斷加入詞 庫(kù)中,可以實(shí)現(xiàn)對(duì)詞典的動(dòng)態(tài)維護(hù)。以上通過(guò)將基于詞典的處理方法和基于頻率的統(tǒng)計(jì)方法結(jié)合起來(lái)匹配搜索運(yùn)算,不僅保證了切分速度快、精度高的優(yōu)點(diǎn),而且能夠結(jié)合上下文,最大限度的識(shí)別人名、地 名、專業(yè)術(shù)語(yǔ)等未登錄詞。2.3檢索反饋因?yàn)殚_始時(shí)的查詢語(yǔ)句常常和我們所要的圖片內(nèi)容不符合,往往使我們找不到想要的圖片,因此,許多系統(tǒng)都引入了相關(guān)的反饋,就是通過(guò)選擇
3、一些例子來(lái)作為反饋,慢 慢提高檢索的結(jié)果。參考文本信息檢索的方法,我們?cè)谙到y(tǒng)中也引入到了相關(guān)反饋用來(lái) 修改用戶提交的查詢,使得修改以后的查詢慢慢接近用戶真正需求,用來(lái)提高系統(tǒng)的性 能。通過(guò)相關(guān)的反饋對(duì)用戶提交的查詢進(jìn)行修改, 使檢索的性能比原先有了提高。不過(guò), 大多數(shù)的反饋并不具備記憶能力,每次反饋的結(jié)果只能用于本次查詢。因此我們引入語(yǔ) 義網(wǎng)絡(luò),并且把每次反饋的結(jié)果記錄到語(yǔ)義網(wǎng)絡(luò)當(dāng)中,使系統(tǒng)的效果隨著使用次數(shù)的增 多而慢慢提高。文中介紹的反饋系統(tǒng),主要對(duì)查詢語(yǔ)句(Qi,Wi,Q2,W2,Qm,Wm)中Wj的修改 中,查詢語(yǔ)句中對(duì)初始 Wj的定義具有偏差,反饋系統(tǒng)可以適量調(diào)整 Wj,使查詢語(yǔ)句
4、(Qi,Wi,Q2,W2,Qm,Wm更反映檢索目的。當(dāng)查詢到m+n畐圖片時(shí),其中r幅圖像與目標(biāo)相關(guān),n幅圖像與目標(biāo)沒(méi)關(guān)系。反饋系統(tǒng)可根據(jù)用戶反饋的結(jié)果,重新生成查詢語(yǔ)句:其中矢量是檢索結(jié)果圖像網(wǎng)頁(yè)矢量表示,在矢量中,選擇相似度計(jì)算中有貢獻(xiàn)的 分量用作反饋信息。在公式5中,通常選丫 =1 , 0 B 1 , 0 a 1 ,B與a值選 取影響反饋深度,也直接影響檢索精度。實(shí)踐表明,帶有反饋系統(tǒng)的圖像檢索系統(tǒng)要比 沒(méi)有反饋的圖像檢索精度提高10流右,且m越小,檢索精度越高在設(shè)計(jì)檢索系統(tǒng)的過(guò)程中,提供有無(wú)反饋選擇,并且在反饋系統(tǒng)中提供取值選擇。圖1榆肅精度PixidtHi與系蠡蒞的關(guān)系圖聯(lián)索精度PMk
5、i阿與系SlB的關(guān)慕當(dāng)m取值比較小時(shí),直接顯示檢索到的圖像,并讓用戶選擇是否與目標(biāo)圖像的相關(guān)性。以上都是為了改善用戶交互界面,便于反饋系統(tǒng)應(yīng)用。下面是測(cè)得如果 m=1寸,檢索精 度與反饋中系數(shù)a、B之間關(guān)系的曲線,圖中可以得出a =0.1時(shí)檢索精準(zhǔn)度取最大值, 圖2中可以得到B在0.50.6之間時(shí)檢索準(zhǔn)確度取最大值。從圖1和圖2又可以得到,當(dāng) a = B =0無(wú)反饋的時(shí)候檢索精準(zhǔn)度=48%當(dāng)a =0.1 , B =0.5或0.6時(shí)檢索精準(zhǔn)度=61% 引入反饋系統(tǒng)使檢索精度可以提高了 13流右。為了檢驗(yàn)搜索模型,下載了含有圖像的4000多個(gè)中文網(wǎng)頁(yè)(來(lái)源于1000多個(gè) URLs),對(duì)這些HTM文
6、檔進(jìn)行搜索。在查詢語(yǔ)句建立后,通過(guò)詞條網(wǎng)對(duì)有相同語(yǔ)義的詞 條進(jìn)行擴(kuò)充,構(gòu)建了符合查詢要求的多個(gè)IQW再分別計(jì)算出各自的相似度,依據(jù)相似 度所規(guī)定的臨界值,得出查詢的結(jié)果。相似麼崎界值與垮索精庫(kù)的關(guān)系圖相愎度i怙界值與桁囊完全度的范系實(shí)驗(yàn)說(shuō)明了,合理地選取相似度臨界值可以保證比較高檢索精度和檢索完全度。從 圖3中就可以得出,當(dāng)相似度臨界值0.6的時(shí)候,可以保證檢索精度80%從圖4中得出, 當(dāng)相似度臨界值0.6的時(shí)候,可以保證檢索完全度60%當(dāng)相似度臨界值取0.6的時(shí)候, 本搜索模型可以保證檢索精度80%而檢索完全度60%為決定ITW, IAW ICW PTV在相似度的計(jì)算中的權(quán)值,測(cè)試了從 0.
7、11.0的所有系數(shù)。最終可以得出ICW ITW, IAW PTW的權(quán)值分別為0.4、0.3、0.2、0.1時(shí),可以比 較合理地反映出圖像和這些文本的相關(guān)性,從而保證檢索準(zhǔn)確性 。結(jié)束語(yǔ) 在了解了搜索引擎搜索原理公式以及反饋原理之后 , 我們就能夠依據(jù)其理論做出相 應(yīng)的搜索引擎 , 并且能作出搜索效果。但是為了更好的使用,還需要去仔細(xì)的給文檔進(jìn) 行更好的分類,更多的對(duì)引擎進(jìn)行反饋訓(xùn)練的查詢等等,使得Web搜索引擎能具有更加好的智能性以及個(gè)性化特色。參考文獻(xiàn)張量,詹國(guó)華,袁貞明, 基于Web的圖像搜索,計(jì)算機(jī)工程,2002.5朱學(xué)芳, 多媒體信息處理與檢索技術(shù) M ,電子工業(yè)出版社, 2003陳瀅,徐宏炳,王能斌,協(xié)作式 Wet資源發(fā)現(xiàn)系統(tǒng)模型,計(jì)算機(jī)學(xué)報(bào),1998.4陽(yáng)小華, 周龍?bào)J, World Wide Web 的索引與查詢技術(shù),計(jì)算機(jī)科學(xué) , 1997吳立德等,大規(guī)模中文文本處理,復(fù)旦大學(xué)出版
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度自然人翻譯服務(wù)合同
- 2024年南昌客運(yùn)從業(yè)資格證培訓(xùn)資料
- 2024年度人工智能技術(shù)研發(fā)與應(yīng)用合同
- 2024年廣州客車考試題庫(kù)
- 2024年上??瓦\(yùn)資格證考試資料下載
- 2024年客運(yùn)資格證考試試題及答案解析
- 2024年內(nèi)蒙古客運(yùn)駕駛員考試題庫(kù)及答案選擇題
- 2024年襄陽(yáng)客運(yùn)從業(yè)資格模擬考試
- 2024年杭州客運(yùn)從業(yè)資格證考試題庫(kù)APP
- 2024年復(fù)印機(jī)綠色環(huán)保認(rèn)證購(gòu)買合同
- 農(nóng)場(chǎng)工作制度與農(nóng)民崗位職責(zé)
- 2024年山東公務(wù)員考試行測(cè)真題及解析【完美打印版】
- 田賽裁判法與規(guī)則2
- 社區(qū)心肺復(fù)蘇術(shù)普及
- 冬棗植保知識(shí)培訓(xùn)課件
- 校園突發(fā)事件與應(yīng)急管理課件
- 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)職業(yè)生涯規(guī)劃
- DR拼接技術(shù)及常規(guī)攝片注意事項(xiàng)
- 《股票入門》課件
- 《不為人知的間歇泉》課件
- 某購(gòu)物廣場(chǎng)公司風(fēng)險(xiǎn)分級(jí)管控體系實(shí)施指南
評(píng)論
0/150
提交評(píng)論