多媒體搜索引擎創(chuàng)新比較研究_第1頁
多媒體搜索引擎創(chuàng)新比較研究_第2頁
多媒體搜索引擎創(chuàng)新比較研究_第3頁
多媒體搜索引擎創(chuàng)新比較研究_第4頁
多媒體搜索引擎創(chuàng)新比較研究_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多媒體搜索引擎創(chuàng)新比較研究

1引言隨著網(wǎng)絡(luò)信息資源的迅速增長及多媒體技術(shù)的發(fā)展,圖像、音頻、視頻,動漫、音樂、電影、電視等信息資源的檢索需求量飛速增長。在這些大型的多媒體資源數(shù)據(jù)庫中,對于特定的多媒體信息,如何在最短的時間內(nèi)被所需要的用戶準確地檢索到,并對其進行組織、存取、查詢和提取,已經(jīng)成為當今多媒體數(shù)據(jù)庫商們廣泛關(guān)注和急需解決的重要問題。2多媒體搜索引擎的現(xiàn)狀2.1基于文本描述的多媒體搜索引擎目前的多媒體搜索引擎主要是以基于文本描述的多媒體搜索引擎,這種方法主要是對含有多媒體信息的網(wǎng)站和網(wǎng)頁進行分析,對多媒體信息的物理特征和內(nèi)容特征進行著錄和標引,把它們轉(zhuǎn)換成文本信息或者添加文本說明,建立數(shù)據(jù)庫,檢索時主要在此數(shù)據(jù)庫中進行匹配。關(guān)鍵詞匹配主要有:(1)多媒體資源的標題和其周圍的文字描述。(2)用戶對多媒體信息的添加自由分類標簽和描述。(3)有超鏈接指向特定的多媒體資源的文字,例如文字通過<IMGSRC>指向顯示在下面多媒體資源或者通過指向到某個多媒體資源網(wǎng)頁,這兩種方式都會被認為文字與某個多媒體資源有關(guān)聯(lián)①。網(wǎng)上的大部分多媒體搜索引擎都屬于此類,但查全率、查準率不是很高,因為其標題往往不能反映其真正類別,按照其附近的文字描述進行關(guān)鍵詞匹配提供檢索結(jié)果往往是垃圾信息。例如:用戶用關(guān)鍵詞“二戰(zhàn)片”搜索電影,電影《莫斯科保衛(wèi)戰(zhàn)》標題并沒有“二戰(zhàn)片”的字眼;包含多媒體資源的網(wǎng)頁中會出現(xiàn)很多與多媒體資源內(nèi)容不相關(guān)的關(guān)鍵詞。2.2基于內(nèi)容的多媒體搜索引擎基于內(nèi)容的檢索是指直接對媒體內(nèi)容特征和上下文語義環(huán)境進行的檢索,如對圖像中的顏色、紋理,或視頻中的場景、片斷進行分析和特征提取,并基于這些特征進行相似性匹配。標引系統(tǒng)首先完成對多媒體的預(yù)處理和提取特征等,建立起多媒體信息數(shù)據(jù)庫系統(tǒng)。這個系統(tǒng)包括信息庫、特征庫和知識庫,信息庫儲存數(shù)字化的多媒體信息;特征庫儲存多媒體內(nèi)容特征和客觀特征;知識庫儲存專門和綜合性知識,有利于查詢優(yōu)化和快速匹配。檢索系統(tǒng)則先對用戶輸入的多媒體信息進行特征提取,然后在多媒體特征庫中進行檢索,將與用戶要求最相似的信息輸出。你甚至可以用手畫一張草圖,用掃描儀掃進去,當做你的搜索條件,也就相當于提供一個樣例,搜索引擎提取你樣例圖像的特征,然后同數(shù)據(jù)庫中的所有的特征進行比較,最終找出你所需的一系列圖片②。例如搜狗http://www.S推出的以圖搜圖的搜索服務(wù)可以識別眾多圖片并分辨出類似圖片,它利用了ComputerVision(計算機視覺)技術(shù),讓電腦“看”到圖片本身的內(nèi)容,并判斷出這是個什么圖片,當你上傳圖片時,搜狗算法會分析該圖片,將其分離成不同的Features小塊,也就是所謂的特征提取。這能夠捕捉到圖片里特殊的、明顯的部分,比如紋理、顏色和圖形。然后后臺服務(wù)器會對比SogouImages庫里數(shù)億張照片,猜出最接近的圖片呈現(xiàn)給你,不管是不是最佳的答案,但起碼是在圖形上相似的③。可用于網(wǎng)絡(luò)檢索的多媒體信息的內(nèi)容特征大致有以下幾種:(1)圖像的顏色、紋理、形狀等。(2)聲音的音頻、響度、頻度和音色等。(3)影像的視頻特征、運動特征等。視頻信息一般用場景、鏡頭和幀來描述。目前的難點在于我們所能描述的特征不能很好地體現(xiàn)圖像真正的、幾乎全部的語義信息。如果是視頻動畫或音頻信息,則需要更加全面的描述,如視頻中的物體的顏色、紋理、形狀、相對位置、運動方向、所處的場景、視角、攝像機的運動方向等等,音頻中的頻率、節(jié)奏變化、量化位、聲道、特殊效果、情感傾向等。多媒體信息與文本數(shù)據(jù)不同,它有信息量大、非結(jié)構(gòu)化以及難于描述的特點,多媒體非格式化數(shù)據(jù)由大量的、數(shù)量變化的小數(shù)據(jù)項組成,這些小數(shù)據(jù)項可能是字符、像素、線段或指針等。這些非格式化數(shù)據(jù)的結(jié)構(gòu)十分復(fù)雜,而且數(shù)值的變化很大,通常很難了解其內(nèi)部結(jié)構(gòu),探測其結(jié)構(gòu)需要不同程度的模式識別與理解技術(shù),這超出了數(shù)據(jù)庫領(lǐng)域的研究范圍。關(guān)鍵技術(shù)目前有信息模型和表示技術(shù)、信息壓縮和恢復(fù)技術(shù)、信息存儲技術(shù)、多媒體同步技術(shù)等,在基于內(nèi)容的多媒體搜索引擎中,只要解決好基于超文本的信息模型、制定好視頻圖像的壓縮標準、利用更適合多媒體數(shù)據(jù)特點的存儲結(jié)構(gòu)和存取方法,我們就可以對多媒體信息進行更好地分類、識別和加工。網(wǎng)上常用多媒體的格式有:圖片格式j(luò)pg、gif,音頻格式wav、mp3、midi,視頻格式avi、mov、mpg、流式媒體rm,動畫格式gif、flash、avi、fli/flc、mov,而視頻壓縮技術(shù)先后又有mpeg1、mpeg2、mpeg4、mpeg7、mpeg21等標準?,F(xiàn)在軟件可以通過模糊識別PDF掃描文件的字符或模糊識別聲音文件;提取出圖片的顏色、形狀和紋理特征;進行視頻分割,直接從鏡頭的幀序列選擇一幅或多幅圖像作為代表幀④。但對于真正讀懂圖片、視頻、動漫等內(nèi)容還是無能為力,因為如果要真正讀懂,要構(gòu)建的非格式化的多媒體特征本體定義數(shù)據(jù)庫將是難以想象的巨大,要構(gòu)建的而且所謂的“內(nèi)容”很難有一個統(tǒng)一的標準,每個人的審美角度不同,因此同樣的搜索結(jié)果,也許對某些用戶很適用,但對于另外一些用戶則效果不佳。3實證分析不同多媒體搜索引擎的查準率、查全率人腦對多媒體的理解分類才是最準確的,但靠人工歸類又費時費力。如果是資源共建共享,用戶在上傳資源時同時對資源歸類,或者添加自由分類標簽,并進行資源描述,其他用戶也可以進行對資源添加不同的自由分類標簽,這樣檢索時可以對所有資源進行標題,自由分類標簽和描述進行匹配檢索。例如,,等等都是資源共建共享的典型網(wǎng)站,但這些網(wǎng)站的資源范圍有限,難以媲美互聯(lián)網(wǎng)超鏈接自動爬行抓取網(wǎng)頁,其按多媒體資源的標題、周圍文字描述、超鏈接文字進行關(guān)鍵詞匹配提供檢索結(jié)果的搜索引擎的資源范圍。筆者通過以下三個搜索引擎對圖片搜索進行分析,結(jié)果如表1。從表1可以看出,號稱全球第一的由用戶共建共享的圖片搜索引擎和號稱全球最大的商業(yè)圖片、創(chuàng)業(yè)圖片、影視和音樂素材供應(yīng)商GettyImages公司()資源數(shù)量遠遠比不上自動爬行抓取網(wǎng)頁圖片。谷歌和百度按關(guān)鍵詞匹配提供圖片搜索結(jié)果,但符合要求的圖片準確率也比不上谷歌和百度的圖片搜索,谷歌的搜索效果最佳。這說明谷歌多媒體搜索引擎由于其在爬行抓取資源的范圍更廣,勝出關(guān)鍵詞匹配算法的改進。如果基于內(nèi)容的多媒體搜索引擎要達到如此巨大的搜索資源量,要建立的多媒體特征庫也是不容易的,因為每個關(guān)鍵詞的多媒體圖片的特征庫都是不同的,所以現(xiàn)在的基于內(nèi)容的多媒體搜索引擎還是停留在理論上,無法與基于文本描述的多媒體搜索引擎匹敵。的搜索結(jié)果符合要求的圖片率低是因為其關(guān)鍵詞匹配包括資源描述,資源描述只要出現(xiàn)這個字眼就被檢索到了,雖然用戶可以添加自由分類標簽,但自由分類標簽是扁平結(jié)構(gòu),沒有形成樹狀的目錄檢索,所以沒有層級目錄檢索⑤。的搜索結(jié)果符合要求的圖片率高是因為其所有資源都是用戶申請成為攝影師才能上傳的圖片,網(wǎng)站有專業(yè)人士進行資源建設(shè),所以有目錄檢索。圖片由網(wǎng)站在線賣出使用權(quán)后攝影師也有利潤分成,大大刺激了用戶的積極性,所以的圖片資源量和精美程度都要比的好⑥。筆者再通過以下三個搜索引擎對視頻搜索進行分析對比,結(jié)果如表2。土豆網(wǎng)的資源是要靠用戶在本網(wǎng)站上傳的,而百度、谷歌是自動抓取互聯(lián)網(wǎng)上用戶通過所有網(wǎng)站上傳的視頻,所以視頻資源就遠比土豆網(wǎng)的資源豐富得多,百度、谷歌視頻資源數(shù)量差不多,但符合用戶檢索需求的視頻顯示率谷歌要勝過百度,這也是谷歌的算法更加完善、技術(shù)更加先進的緣故。谷歌搜索算法每年修改500次以上,工程師綜合各種信息找出修改搜索算法的方法,并進行實證審核決定是否通過⑦。如果要構(gòu)建基于內(nèi)容的視頻搜索引擎,要建立的視頻資源特征數(shù)據(jù)庫更是大得無法想象,要達到讓電腦真正理解視頻,還要構(gòu)建視頻資源特征本體,這樣的任務(wù)更是巨大得無法用人工去完成,而且這些數(shù)據(jù)都是非格式化的,變化萬千的。所以基于內(nèi)容的視頻搜索還只是停留在理論上。4創(chuàng)新改進4.1將文本信息和可視化信息統(tǒng)一起來,進行二次篩選檢索目前,將文本信息和可視化信息統(tǒng)一起來,進行二次篩選檢索已經(jīng)在圖片搜索方面取得了突破,但在音樂、視頻方面還沒有有效的應(yīng)用。百度的圖片高級搜索,在關(guān)鍵詞檢索的同時,可以選擇圖片的格式、指定的站點,還可選擇新聞圖片、壁紙、表情、頭像的任一形式進行篩選⑧。Google的圖片高級搜索除了輸入關(guān)鍵詞外,還可以選擇圖片尺寸、縱橫比、圖片顏色、文件類型、國家地區(qū),還可選擇臉部特寫、照片、剪貼畫、素描畫的任一形式進行篩選⑨。4.2多媒體的資源的目錄層級檢索與關(guān)鍵詞檢索相結(jié)合目前,多媒體的資源的目錄層級檢索與關(guān)鍵詞檢索結(jié)合在圖片、視頻、音樂檢索都有比較成功的例子。搜狗的圖片搜索除了關(guān)鍵詞檢索外還提供美女時尚、性感女星、魅力男星、非主流圖、精美壁紙、爆笑趣圖、網(wǎng)頁素材、卡通動漫、電影電視、風景名勝、酷車靚影、體育明星、游戲酷圖、軍事武器14大類目錄檢索⑩。中文雅虎的圖片搜索除了關(guān)鍵詞檢索外,還提供美女寫真、帥哥酷國、壁紙大全、爆笑趣圖、動漫游戲、聊天頭像、熱門影視、名車鑒賞、軍事體育、風景名勝十大類目錄檢索。這些目錄是由人工按照熱門搜索需求大概分為若干個一級目錄和若干個二級目錄,然后再根據(jù)網(wǎng)頁標題關(guān)鍵詞匹配原則自動抓取相關(guān)網(wǎng)頁圖片,并把相應(yīng)的網(wǎng)頁圖片收集到搜索引擎的數(shù)據(jù)庫里,提供目錄檢索結(jié)果,所以分類不全面,歸類不是全部準確。例如“美女寫真”這個一級目錄下有“大學(xué)?;ā边@個二級目錄,搜索引擎自動抓取網(wǎng)頁標題含有“大學(xué)校花”關(guān)鍵詞的網(wǎng)頁,自動把相應(yīng)的網(wǎng)頁圖片保存到數(shù)據(jù)庫里,把這些圖片歸到“大學(xué)?;ā边@個二級目錄下。土豆網(wǎng)在用戶上傳視頻資源時,除了可以讓用戶填寫標題、簡介、標簽,還讓用戶選擇以下分類的任一類:原創(chuàng)、電視劇、電影、綜藝、熱點、財富、汽車、科技、體育、娛樂、音樂、動漫、游戲、搞笑、風尚、女性、生活、教育。用戶選擇了以上任一目錄后,豆瓣還可以按照你的標題和內(nèi)容簡介自動提供一些標簽讓你選擇,這些標簽將被作為下一級目錄的依據(jù)(11)。所以土豆提供關(guān)鍵詞檢索的同時,還提供以上18大類的分類檢索,點擊這些一級目錄后,將出現(xiàn)豆瓣按標簽提供的二級目錄檢索。例如電影下面還有按喜劇、動作等等類型分類,按國家地區(qū)分、按年份分,這樣就大大提高了檢索效率。但這18大類并不能很全面恰當?shù)胤从骋曨l資源的范圍,自動提供選擇的標簽也不是很準確(12)。同樣,優(yōu)酷/在用戶上傳視頻時,也是除了可以讓用戶填寫標題、簡介、標簽,還可以讓用戶選擇電視劇等二十大類的任一類,優(yōu)酷再根據(jù)用戶添加的標簽將視頻歸入不同的二級目錄,例如《雷霆戰(zhàn)將》這個視頻用戶上傳時將它歸入電影這個大類,而且對它添加了“美國”、“戰(zhàn)爭”兩個標簽,《雷霆戰(zhàn)將》同屬在“戰(zhàn)爭”和“美國”這兩個二級目錄下。缺點是優(yōu)酷沒有多條件的同時篩選檢索(13),如果有多條件同時篩選,國家一欄選擇“美國”,形式一欄選擇“電影”,內(nèi)容類型一欄選擇“戰(zhàn)爭片”,時間一欄選擇“現(xiàn)代”,那么即使不知道具體的片名,也會很快選擇到合適的視頻。4.3創(chuàng)新自動構(gòu)建多媒體的資源的目錄層級檢索、目錄檢索與關(guān)鍵詞檢索結(jié)合模式多媒體資源新內(nèi)容、新形式、新概念迅速發(fā)展,現(xiàn)在網(wǎng)上依靠網(wǎng)站預(yù)先設(shè)置好的十幾個分類無法很好地囊括所有資源類別,例如上面提到的搜狗的圖片分類連工業(yè)、農(nóng)業(yè)這些最基本的大類都沒有。二級目錄設(shè)置得也不準確,相關(guān)標簽各自包含的信息與實質(zhì)需求信息的相關(guān)度比例是很低的,內(nèi)容的過度離散使用戶搜索資源時要費更多的時間進行篩選。筆者在這里創(chuàng)新地提出根據(jù)用戶對資源添加的自由分類標簽繪制概念關(guān)系網(wǎng)絡(luò)地圖,自動構(gòu)建全面的分類目錄檢索,資源自動歸屬到相應(yīng)的目錄下,同時結(jié)合關(guān)鍵詞檢索進行篩選,更快地、準確地直達用戶需求的搜索結(jié)果。用戶可以通過分類目錄,一級一級打開進行瀏覽,找到想要的多媒體信息,也可以直接在關(guān)鍵詞檢索窗口直接輸入關(guān)鍵詞進行檢索,對檢索結(jié)果點擊顯示的相應(yīng)目錄進行二次篩選檢索。當用目錄層級檢索時,可以用目錄關(guān)鍵詞檢索直達所需的目錄,還可用關(guān)鍵詞檢索對目錄下的資源進行二次檢索篩選。創(chuàng)新地利用自由分類標簽自動類聚的網(wǎng)狀分類結(jié)構(gòu)按層級、交叉擴展方式提示相近的資源給用戶選擇點擊,關(guān)鍵詞檢索結(jié)合目錄檢索就能大大提高檢索效率。由用戶共建共享的多媒體資源網(wǎng)站一般都可以讓用戶對資源添加自由分類標簽,搜索引擎自動爬行抓取網(wǎng)頁的多媒體資源也可以讀取這些顯示在網(wǎng)站上的多媒體資源標簽。自由分類的標簽?zāi)軇討B(tài)地全面地反映分類范圍和資源發(fā)展變化,但自由分類標簽沒有等級結(jié)構(gòu),有不少是垃圾標簽。所以首先要過濾掉非形式化、不規(guī)范的標簽。課題組設(shè)計軟件對以下很明顯的垃圾標簽進行過濾,例如:純標點符號——“??!”;純數(shù)字——“2003”;符號加中文——“###生物實驗”;單個字的中文——“風”;單個字母——“A”;如果是純英文單詞的標簽可以保留,例如“AMAZON”。過濾后還會剩下不少垃圾標簽,由于其字面描述混亂,其出現(xiàn)次數(shù)也很少,所以只要對出現(xiàn)若干次以下的標簽不予統(tǒng)計即可以了,這樣兩次過濾后,就得到比較標準的分類詞(14)。如果同一資源被用戶添加了兩個不同的標簽,那么就說明這兩個標簽之間存在部分意義關(guān)聯(lián)。標簽之間存在同義詞、包含、層次、等級等關(guān)系,分析它們所標注過的資源集合的關(guān)系就可以分析出標簽之間的關(guān)系,當兩個標簽標注同一個資源時,兩個標簽之間就用一根連接線連接起來,兩個標簽之間連線越多說明這兩個標簽意義越相近,當兩個標簽標注過的資源集合連線數(shù)達到等于較小的概念標注過的資源集合元素總數(shù)時,就說明這兩個標簽集合為同義詞關(guān)系或直接包含關(guān)系(見圖1)。圖1概念之間完全包含示意例如圖1中的數(shù)字94,98,99,101為不同資源的代碼,長方形為概念名稱,橢圓表示標簽包含的資源的集合,標簽“圖畫書”標注過的資源集合和標簽“繪本”標注過的資源集合的連接線達到最大限度,說明這兩個標簽為同義詞或者達到完全包含的關(guān)系。如果為同義詞的,我們就將它們合并為一個目錄;如果為直接包含的,就把包含較少元素的標簽作為包含較多元素標簽的子目錄;如果一系列標簽中有互相完全包含關(guān)系的,就用不同的括符表示,例如A包含B,B包含C,B包含D,D包含E,那么就用A{B[C,D(E)]}表示,而且合并為一個大目錄A。把每個目錄看作一個點,兩個目錄之間無論有多少條連線,都簡化為一條連線,而且連線的粗細與原有的連線多少有關(guān),原連線越多就越加粗表示。這樣處理后,就可以得出層次分明、交叉歸屬的目錄關(guān)系網(wǎng)狀地圖(15)。在地圖中很容易看出主干線、分支線,從而判斷目錄的各種層級關(guān)系、交叉歸屬關(guān)系,這樣就可以自動構(gòu)造多媒體的資源的目錄層級檢索,頂層目錄置于多媒體搜索引擎的首頁,點擊下去就會看到下一級目錄及其相鄰的交叉歸屬目錄,點擊每個子目錄都會看到其包含的多媒體資源。如果想直達某個目錄,可以目錄關(guān)鍵詞檢索直達,同時顯示這個目錄下的資源和其下級目錄;還可以進行多媒體標題、說明的關(guān)鍵詞檢索,檢索到的多媒體資源結(jié)果均顯示其屬于的目錄,點擊相關(guān)目錄就可以對搜索結(jié)果進行二次篩選檢索,即篩選出只屬于這個目錄的檢索結(jié)果。這樣目錄檢索結(jié)合關(guān)鍵詞檢索就能大大提高檢索的查準性和查全性。課題組開發(fā)了根據(jù)用戶對資源添加的自由分類標簽自動構(gòu)建目錄層級檢索、關(guān)鍵詞檢索與書目控制元素結(jié)合起來進行篩選搜索結(jié)果的網(wǎng)絡(luò)書目控制搜索引擎,搜索引擎見網(wǎng)址:/www/,圖2是網(wǎng)絡(luò)書目控制搜索引擎搜索截面圖。用戶可以推薦上傳自己喜好的資源,對資源添加標題、標簽、簡介、資源作者、所屬地區(qū)等等書目控制信息,書目控制搜索引擎按上述原理篩選掉垃圾標簽,并按照搜索用戶設(shè)置的參數(shù)進行標簽過濾,按出現(xiàn)的次數(shù)(圖2中設(shè)置為5次,即出現(xiàn)5次以下的標簽被省略掉)過濾掉垃圾標簽,得到標準目錄,可按標簽之間連接線出現(xiàn)次數(shù)(圖2中設(shè)置為3次,即是兩標簽之間連接線粗細小于3的被省略掉)過濾,過濾掉由于用戶的偏理解而造成的概念關(guān)聯(lián)。然后進行矩陣分析標簽之間的完全包含關(guān)系,繪制網(wǎng)狀分類地圖,并根據(jù)地圖的特征和預(yù)先設(shè)置的參數(shù)自動生成圖2中左側(cè)的目錄樹狀檢索界面,如果用戶用關(guān)鍵詞“文學(xué)”檢索,搜索引擎就會根據(jù)標題、標簽、簡介關(guān)鍵詞匹配得出圖中右側(cè)的檢索結(jié)果,檢索得出的結(jié)果中都顯示資源所屬的目錄、地區(qū)、作者、資源類型等信息,點擊相應(yīng)的目錄、地區(qū)、作者等就可以對剛才檢索的這些

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論