版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于內(nèi)容的視覺信息檢索Oge Marques , Borko FurhtFlorida Atlantic University, USA本章主要對視覺信息檢索(Visual Information Retrieval,簡寫為 VIR)系統(tǒng)特別是基于內(nèi)容的視覺信息檢索(Content-Based Visual Information Retrieval, 簡寫為CBVIR)系統(tǒng)領(lǐng)域作了一個綜述。本章闡述了該領(lǐng)域的一些主要概念以及系統(tǒng)設(shè)計(jì)時所面臨的主要問題,并回顧評價了當(dāng)前已有的一些系統(tǒng)原型以及商業(yè)上的解決方案,同時指出了該領(lǐng)域中比較有前途的研究方向。緒論近年來,數(shù)字化格式的視聽信息量成指數(shù)級增長
2、,每天都會有成G字節(jié)級的新的圖像、聲音和視頻產(chǎn)生和存儲,這些構(gòu)成了一個巨大的、分布式的、未組織的多媒體信息庫,其中的大部分信息可以通過互聯(lián)網(wǎng)訪問到。多媒體信息的數(shù)字化、壓縮和存儲已經(jīng)變得很普及、很簡單,而且成本也大大降低了,這些都可以通過現(xiàn)存的大量的硬件和軟件來完成,但是如果以后要對這些信息進(jìn)行高效率的檢索則需要進(jìn)行大量的額外工作。對多媒體庫中多媒體數(shù)據(jù)的檢索主要有三種方法:1、自由瀏覽(Free browsing):用戶順序?yàn)g覽圖像、聲音和視頻文件集,當(dāng)發(fā)現(xiàn)所想要的信息時便停止瀏覽。2、基于文本的檢索(Text-based retrieval):在編目階段(cataloguing stage
3、)給視聽文件加上文本信息(元數(shù)據(jù)),在檢索階段,這些附加的文本信息被用來引導(dǎo)常規(guī)的基于文本的搜索引擎查找所需要的數(shù)據(jù)。3、基于內(nèi)容的檢索(Content-based retrieval):用戶搜索多媒體庫中有關(guān)圖像、聲音或者視頻片斷的實(shí)際內(nèi)容的信息?;趦?nèi)容的搜索引擎將這些信息按照某種方式進(jìn)行轉(zhuǎn)換以便對數(shù)據(jù)庫進(jìn)行查詢,檢索出能盡量滿足用戶要求的結(jié)果。 前兩種方法都有嚴(yán)重的局限性和可擴(kuò)展性問題。自由瀏覽只適用于臨時用戶使用,而不適用于那些經(jīng)常要獲取具體的多媒體信息以進(jìn)行專業(yè)應(yīng)用的用戶。這是一個冗長、效率低下而且耗時的過程,對大型的數(shù)據(jù)庫而言,這是完全不實(shí)用的。 基于文本的檢索在編目階段存在著兩個
4、重大的問題: a)需要花費(fèi)相當(dāng)多的時間和精力手工對每一幅獨(dú)立的圖像或者視頻片斷進(jìn)行標(biāo)注; b)對內(nèi)容進(jìn)行標(biāo)注時由于人的主觀性而帶來了不精確性。這兩個問題隨著多媒體信息的搜集量的增大而更加嚴(yán)重,很可能會使得后期的檢索出現(xiàn)錯誤?;谖谋镜臋z索需要前期對多媒體數(shù)據(jù)進(jìn)行標(biāo)注,這樣導(dǎo)致它的效率低下且具有很大的局限性,為了解決這些問題,來自于圖像處理和計(jì)算機(jī)視覺方向的研究人員開始研究更可行的多媒體信息(特別是圖像和視頻片斷)檢索方法基于內(nèi)容的檢索方法,即圖像和視頻將根據(jù)它們的視覺內(nèi)容(如:顏色、紋理、對象的形狀和運(yùn)動,等等)建立索引,而不是手工用關(guān)鍵字進(jìn)行標(biāo)注。基于內(nèi)容的視覺信息檢索(CBVIR)的研究始
5、于上個世紀(jì)九十年代早期,而且很有可能在二十一世紀(jì)的最初十年里持續(xù)下去。目前,許多大學(xué)和大公司的研究小組都在這個領(lǐng)域積極地進(jìn)行研究,許多系統(tǒng)原型和商業(yè)產(chǎn)品也已經(jīng)研制成功,但是目前的解決方案與視覺信息檢索的最終目標(biāo),即使用戶以快速、高效、語義上有意義的(semantically meaningful)、友好的且位置相對獨(dú)立(location-independent)的方式從海量的視覺信息中檢索出圖像或者視頻片斷,仍有很大的差距。 本章下面的內(nèi)容組織如下:在第二節(jié)我們將回顧C(jī)BVIR系統(tǒng)的基本原理;第三節(jié)將討論設(shè)計(jì)一個CBVIR系統(tǒng)的主要問題;第四節(jié)概述現(xiàn)存的(包括商業(yè)性的和研究性的在內(nèi))一些CBV
6、IR系統(tǒng);第五節(jié)敘述在這一領(lǐng)域出現(xiàn)的的一些open研究問題(open research problems);第六節(jié)描述了作者們開發(fā)的一個CBVIR系統(tǒng)MUSE的主要特征;最后,第七節(jié)是對本章的總結(jié)評論。CBVIR系統(tǒng)基本原理預(yù)備知識視覺信息檢索(VIR)是計(jì)算機(jī)科學(xué)與工程學(xué)科中一個相對比較新的研究領(lǐng)域。與傳統(tǒng)的信息檢索類似,VIR系統(tǒng)的主要目標(biāo)是檢索出所有的與用戶的查詢相關(guān)的圖像(或圖像序列),同時在檢索的結(jié)果中應(yīng)盡可能的去掉不相關(guān)的圖像。對信息的檢索與對數(shù)據(jù)的檢索的著重點(diǎn)恰恰相反。視覺信息檢索系統(tǒng)必須能夠解釋文檔(圖像)的內(nèi)容并將它們按照與用戶查詢的相關(guān)程度進(jìn)行排列。這個解釋過程包括從文檔(
7、圖像)里抽取(語義)信息并用這些信息與用戶要求進(jìn)行匹配。視覺信息檢索研究的發(fā)展得到了多個研究領(lǐng)域的支持(如圖1所示),尤其是:基于文本的信息檢索,圖像處理和計(jì)算機(jī)視覺,模式識別,多媒體數(shù)據(jù)庫組織,多維索引(multidimensional indexing),psychological modeling of user behavior,人機(jī)交互,等等。圖1 視覺信息檢索結(jié)合了許多研究方向VIR系統(tǒng)根據(jù)用于查詢檢索圖像或視頻文件的屬性的不同可以大體上可以分為兩代(Del Bimbo ,1999): 第一代VIR系統(tǒng):使用文本進(jìn)行查詢,例如查詢“紅色的法拉利”或者“凡高的作品”。它們非常依賴于元
8、數(shù)據(jù)(字符串,關(guān)鍵字,或者完整的腳本full scripts) 第二代(CB)VIR系統(tǒng):支持基于內(nèi)容的查詢,對圖像而言,其中內(nèi)容的概念包含:感覺屬性(例如:顏色、形狀、紋理),語義上的基本要素(例如:對象、角色、場景),還有主觀的屬性(例如:印象、情緒和與感覺屬性相關(guān)的意圖)。許多的第二代系統(tǒng)都將基于內(nèi)容的技術(shù)作為一個補(bǔ)充,而不是選擇代替基于文本的方法。一個典型CBVIR系統(tǒng)的體系結(jié)構(gòu)圖二顯示了一般CBVIR系統(tǒng)的結(jié)構(gòu)圖,系統(tǒng)的主要組成部分有: 用戶界面(User interface):友好的圖形化用戶界面,用于向數(shù)據(jù)庫提出查詢,瀏覽結(jié)果,查看選中的圖像或者視頻片斷; 查詢/搜索引擎(Que
9、ry / search engine):負(fù)責(zé)根據(jù)用戶提交的參數(shù)在數(shù)據(jù)庫中進(jìn)行搜索; 數(shù)字圖像和視頻存儲器(Digital image and video archive):數(shù)字化、壓縮的圖像和視頻片斷的存儲庫; 視覺信息摘要(Visual summaries):圖像和視頻內(nèi)容的簡單表示,例如圖像的索引圖像或視頻的關(guān)鍵幀; 索引(Indexes):圖像或視頻片斷的指針; 數(shù)字化和壓縮(Digitization and compression):將圖像和視頻片斷轉(zhuǎn)化為壓縮的數(shù)字化格式的硬件和軟件; 編目(Cataloguing):從原始圖像和視頻中抽取特征建立相應(yīng)的索引。圖2:CBVIR系統(tǒng)結(jié)構(gòu)圖
10、由于大量現(xiàn)成的硬件和軟件的存在,數(shù)字化和壓縮過程已經(jīng)變得相當(dāng)簡單。許多情況下,圖像和視頻的生成和存儲都直接使用壓縮的數(shù)字化格式。編目階段的工作主要是從圖像和視頻片段的視覺內(nèi)容中抽取特征。特別的,在處理視頻的情況下,原始的視頻片斷被分成若干塊,這些塊被成為場景(scenes),它們還可以被進(jìn)一步細(xì)分為鏡頭(shots)。每一個有意義的視頻單位都被編上索引,同時系統(tǒng)存儲一個相對應(yīng)的視覺信息摘要,代表性的為一個關(guān)鍵幀(keyframe)。在處理圖像的情況下,相對應(yīng)的過程為對象的分割過程,該過程已在少數(shù)系統(tǒng)中得到實(shí)現(xiàn)。在兩種情況下,元數(shù)據(jù)都是在編目階段中被加入到視覺內(nèi)容中?;谖谋镜囊曈X信息檢索系統(tǒng)必
11、須要用手工給圖像和視頻文件添加元語言,而CBVIR系統(tǒng)則最低限度或者根本不使用元語言。數(shù)字化、壓縮和編目一般而言都是離線完成的。一旦這三個步驟完成,數(shù)據(jù)庫中不但包含了這些圖像和視頻文件本身,還可能包含這些文件或片段的簡化表示以及用作相應(yīng)圖像或視頻的指針的索引集。用戶與CBVIR系統(tǒng)的在線交互如圖2的上半部分所示。用戶通過圖形用戶界面(GUI)提出查詢,系統(tǒng)根據(jù)用戶所提交的查詢由搜索引擎查找與所需圖像或視頻文件相對應(yīng)的索引,最終的結(jié)果將通過一種易于瀏覽查看的方式返回給用戶,同時還應(yīng)當(dāng)可以根據(jù)部分返回結(jié)果來改進(jìn)查詢。用戶觀點(diǎn)(Perspective)用戶接口是CBVIR系統(tǒng)的一個極為重要的組成部分
12、。理想的用戶接口應(yīng)當(dāng)是簡單的、容易的、友好的、功能的(functional)并且是可定制的。它應(yīng)當(dāng)以一種清楚直覺的方式提供用戶瀏覽、查看、搜索和檢索的能力。這種集成是非常重要的,因?yàn)橛脩舨粫恢敝皇怯刹樵兯阉饕娴玫阶罴哑ヅ?,有時用戶需要檢查最初少數(shù)的最佳匹配,瀏覽它們,查看它們的內(nèi)容,改進(jìn)查詢,最終檢索到所要的圖像或視頻片斷。大多數(shù)VIR系統(tǒng)允許使用如下所述的多種不同的方式中的一種或多種對視覺信息數(shù)據(jù)庫進(jìn)行搜索: 交互式瀏覽(Interactive browsing):方便那些對要搜索的圖像或視頻沒什么了解的用戶使用。聚類技術(shù)可以用來將視覺上相似的圖像組織成組,同時可以最小化顯示給用戶的圖像
13、中非用戶要求的圖像數(shù)量。 Navigation with customized categories:(leisure users often find it very convenient to navigate through a subject hierarchy to get to the target subject and then browse or search that limited subset of images.)使用戶方便地對主題層次進(jìn)行導(dǎo)航以找到目標(biāo)主題,然后瀏覽或搜索這個圖像的子集。 使用X進(jìn)行查詢(Query by X)其中X可能為: 一幅實(shí)例圖像(an im
14、age example):許多系統(tǒng)允許用戶指定一幅圖像作為實(shí)例并且搜索與它最相似的圖像,按照相似度評分的遞減順序進(jìn)行排列; 一幅草圖(a visual sketch):一些系統(tǒng)提供用戶一系列的工具,用戶可以將頭腦中的圖像或視頻片斷用草圖畫出來; 視覺特征的詳細(xì)說明(specification of visual features):視覺特征的詳細(xì)說明都直接給出,這樣可能會吸引到更多有機(jī)數(shù)的用戶; 一個關(guān)鍵字或者完整的文本(a keyword or complete text):第一代VIR系統(tǒng)依賴于用戶輸入的關(guān)鍵字,用戶查找那些事先用關(guān)鍵字標(biāo)注過的視覺信息。我們希望查詢操作應(yīng)該盡可能的簡單、直
15、觀而且盡量接近與人對相似性的感知。用戶會更喜歡系統(tǒng)提供像“顯示更多與此圖像相似的圖像”這樣的功能選項(xiàng),而不是提供一個復(fù)雜的交互工具來編輯圖像的顏色直方圖并執(zhí)行新的搜索。后一種方式可能會有利于有經(jīng)驗(yàn)且有圖像處理方面知識的用戶,但它并不適合一般用戶所以具有一定的局限性。我們認(rèn)為,理想的CBVIR系統(tǒng)查詢應(yīng)當(dāng)對用戶隱藏復(fù)雜的查詢處理技術(shù)內(nèi)幕。對視覺媒體的搜索應(yīng)當(dāng)像“當(dāng)我看到它時,我便知道它”那樣具有不精確性(A search through visual media should be as imprecise as “I know it when I see it.”)。設(shè)計(jì)者的觀點(diǎn)設(shè)計(jì)一個CBV
16、IR系統(tǒng)的一些主要方面有:特征的抽取和表示,降低維數(shù)處理(dimension reduction)和多維索引的建立,圖像語義的抽取,以及用戶相關(guān)反饋機(jī)制的設(shè)計(jì)。下面的章節(jié)將會對這些要點(diǎn)進(jìn)行更為詳細(xì)的研究。特征的抽取和表示CBVIR系統(tǒng)應(yīng)該能夠自動地抽取用于描述圖像或視頻內(nèi)容的視覺特征。這些特征包括顏色、紋理、大小、形狀和運(yùn)動信息。在特定的上下文中,特征的抽取過程可以被擴(kuò)展,以發(fā)現(xiàn)其它專門的屬性,例如:人臉或者對象。由于感知的主觀性,已知的特征并不存在著最好的表示方法。舉個例子說,顏色信息可以用不同的顏色模型(如:RGB、 HSV、 YcbCr)和數(shù)學(xué)結(jié)構(gòu)(如顏色直方圖、顏色矩color mom
17、ents、color sets或者顏色相關(guān)曲線圖color correlograms)來表示。與此類似的,紋理可以使用共生矩陣、Tamura紋理特征或者小波(Wavelets)來表示。降低維數(shù)處理(Dimension Reduction) 和多維索引的建立抽取出的特征聚合成某種合適的數(shù)據(jù)結(jié)構(gòu)或者數(shù)學(xué)結(jié)構(gòu)(例如:標(biāo)準(zhǔn)化特征向量),另外選擇合適的度量標(biāo)準(zhǔn)(例如:歐幾里德距離)來度量一幅圖像與任何其它圖像之間的相似度。在這個階段,主要的問題有:特征向量的維數(shù)比較高;歐幾里德距離度量具有局限性,雖然它在數(shù)學(xué)方面是比較完美的,但是它不能有效地模擬人的視覺感知。高維索引的解決方案包括:降低特征向量的維數(shù)以
18、及使用高效的多維索引技術(shù)。降低維數(shù)一般而言或者用Karhunen-Loeve轉(zhuǎn)換或者使用聚類技術(shù)。多維索引技術(shù)的實(shí)例包括使用專門的數(shù)據(jù)結(jié)構(gòu)(例如:k-d樹、R-樹和它們的變形)。為了解決歐幾里德相似度量的局限性,研究人員提出了使用聚類和神經(jīng)網(wǎng)絡(luò)的方法。圖像語義的抽取人對視覺內(nèi)容的感知很大程度上依賴于場景的高層語義信息。如今的計(jì)算機(jī)視覺技術(shù)只是低層次的(單個象素級的)研究?;诘蛯犹卣鞯腃BVIR系統(tǒng)只能提供如下的一些查詢:查詢所有的含有30的紅色、10的橙色以及60的白色象素點(diǎn)的圖像,其中橙色的RGB定義為:R255,G130,B0。查詢所有的圖像,特征為藍(lán)藍(lán)的天空下一片綠色的草地。查詢所有的
19、圖像,它們是某特定圖像的旋轉(zhuǎn)樣式。在通常情況下,用戶都試圖尋找所需圖像的高層語義特征,例如:“一個漂亮的玫瑰花園”,“一個擊球手打中一個棒球”或者“一輛貴重的賽車”。在低層特征與高層語義之間并不存在一個簡單直接的映射。這兩者之間的距離通常被稱作“語義鴻溝”。如今有兩種方法可以用來最大程度的縮小語義鴻溝。第一種是給圖像加入盡可能多的元語言,這種方法早已被討論過而且被認(rèn)為是很不現(xiàn)實(shí)的;第二種是結(jié)合學(xué)習(xí)算法使用用戶相關(guān)反饋技術(shù)進(jìn)行大量的用戶交互,使得系統(tǒng)能夠?qū)W習(xí)理解查詢操作的語義上下文。相關(guān)反饋早期在CBVIR領(lǐng)域努力要實(shí)現(xiàn)的主要目標(biāo)是開發(fā)全自動、開放循環(huán)(open-loop)的系統(tǒng)。研究者們希望當(dāng)
20、前的計(jì)算機(jī)視覺和圖像處理技術(shù)能足夠應(yīng)付圖像的查詢和檢索。這些系統(tǒng)的成功率也鼓舞了研究者們開始嘗試另一種不同的途徑,即強(qiáng)調(diào)交互性以及比較明確地將用戶考慮到處理循環(huán)中。這種改變的例子可以從MIT多媒體實(shí)驗(yàn)室研究人員在該領(lǐng)域的研究工作中看出,他們從對“自動的” Photobook的研究轉(zhuǎn)入到對“交互式的”FourEyes的研究?!跋嚓P(guān)反饋”主要指的是這樣的一個過程:系統(tǒng)從用戶那里搜集關(guān)于特征、圖像、圖像區(qū)域或者局部的返回結(jié)果的相關(guān)性信息。這種反饋可以用許多種方法來實(shí)現(xiàn),每一種系統(tǒng)都可以按某種特定的方式使用反饋來提高系統(tǒng)的性能。相關(guān)反饋的作用在于將查詢向相關(guān)圖像的方向“轉(zhuǎn)移”,避開不相關(guān)的圖像(Gev
21、ers ,Smeulders ,1999)。相關(guān)反饋機(jī)制已經(jīng)在當(dāng)前的CBVIR系統(tǒng)中得到應(yīng)用,例如:MIT的FourEyes系統(tǒng),UIUC的MARS系統(tǒng)和NEC的PicHunter系統(tǒng),等等。在支持相關(guān)反饋的CBVIR系統(tǒng)中,一個典型的搜索包括查詢以及后續(xù)重復(fù)進(jìn)行的用戶反饋。相關(guān)反饋的使用使得用戶與系統(tǒng)的交互更加簡單,更加自然。通過選擇圖像、圖像區(qū)域或者圖像特征,用戶可以用這樣那樣的方式告訴系統(tǒng)他的要求,而沒有使用草圖或者關(guān)鍵字等方式來描述用戶要求時系統(tǒng)所承受的負(fù)擔(dān)。如何使用用戶交互得到的信息以及如何提煉CBVIR系統(tǒng)要返回的結(jié)果有許多種方法。有一種途徑著重于查詢階段,試圖使用相關(guān)反饋得到的信
22、息來改進(jìn)查詢;另一種選擇是使用相關(guān)反饋來修改特征的權(quán)重,例如MARS中使用的方案;第三種思路是使用相關(guān)反饋來構(gòu)造新的特征;第四種可能性是使用相關(guān)反饋信息來更新數(shù)據(jù)庫中的每幅圖像就是目標(biāo)圖像的概率,也就是通過用戶與系統(tǒng)進(jìn)行交互來預(yù)測目標(biāo)圖像。后一種方案已經(jīng)在PicHunter系統(tǒng)中得到采用。系統(tǒng)設(shè)計(jì)要點(diǎn)CBVIR系統(tǒng)的設(shè)計(jì)過程中出現(xiàn)了很多問題和挑戰(zhàn),其中的一些已經(jīng)得到了總結(jié)(Marques ,F(xiàn)urht ,1999)?;谖覀冮_發(fā)MUSE系統(tǒng)的經(jīng)驗(yàn),我們總結(jié)了CBVIR系統(tǒng)設(shè)計(jì)者在開始實(shí)現(xiàn)CBVIR原型之前所必須要解決的一系列的問題。系統(tǒng)將要使用哪些特征以及如何引入?特征抽取階段是這個難題中相當(dāng)
23、重要的一塊。好的特征抽取算法單方面并不能保證CBVIR系統(tǒng)完全成功。但是,一個系統(tǒng)中如果關(guān)于圖像的低層內(nèi)容的知識不足以建立圖像之間視覺相似性的概念,那么該系統(tǒng)也不會表現(xiàn)出很好的性能。(However, no system will exhibit a good performance if its knowledge about the images low-level contents is less than the minimum required to establish the notion of visual similarity between images.)大多數(shù)系統(tǒng)會抽取顏
24、色和紋理信息進(jìn)行編碼,有的系統(tǒng)也會抽取頻率相關(guān)的信息,例如使用數(shù)學(xué)變換。特殊的應(yīng)用往往需要專門的特征和算法,例如人臉識別。抽取出的特征信息往往被組織成特征向量的形式,圖像之間的相似度由距離度量標(biāo)準(zhǔn)來表示,距離越大,相似度越小。系統(tǒng)如何知道使用可哪些特征以及如何給某個特殊的查詢優(yōu)先權(quán)?如果系統(tǒng)工作在一個無約束的圖像庫下,那么找出哪些特征應(yīng)當(dāng)被考慮到以及根據(jù)這些特征的重要程度來為每個特征分配特定的權(quán)重將不是一件很簡單的事。在某一個查詢中很重要的到了下一個查詢中可能會毫不相關(guān)。處理這個問題由兩種方法:(a)在提交查詢前讓用戶明確指出哪些特征是重要的;(b)基于用戶交互和相關(guān)反饋,使用機(jī)器學(xué)習(xí)技術(shù)來推
25、斷每個特征的重要性。QBIC使用了前一種方法,MARS則使用了后一種方法。選擇什么樣的相似度量方法?最廣泛采用的相似性模型是度量,假定人的相似性感知可以被近似的通過度量特征向量之間的距離(代表性的使用歐幾里德距離)估計(jì)出。非歐幾里德的度量方法尚未進(jìn)行深入研究(Rui, Huang, Chang ,1999),更好的相似模型正在研究中。降維和索引過程應(yīng)該使用什么技術(shù)?Karhunen-Loeve變換(KLT)是對特征向量進(jìn)行降維處理的較為完善的技術(shù),同時研究人員正在尋找一種最佳的多維索引技術(shù),近些年一種新的基于樹的方法被提出來。在Rui、 Huang 和 Chang (Rui,,Huang, C
26、hang ,1999)所作的調(diào)查中包含了許多特殊的算法。系統(tǒng)應(yīng)該支持什么樣的查詢?決定選用什么樣的查詢方式應(yīng)該考慮到用戶的需要以及實(shí)現(xiàn)每種模式的復(fù)雜度的折衷。例如支持基于文本的搜索,需要花費(fèi)額外的精力對每幅進(jìn)入數(shù)據(jù)庫的圖像進(jìn)行注釋,同時支持基于實(shí)例的查詢(QBE)操作需要更復(fù)雜的圖像相似度度量。一些研究者們提出根據(jù)類別的導(dǎo)航與基于內(nèi)容的檢索之間可以著到一個有意義的平衡。當(dāng)用戶提交了一個視覺信息查詢時,圖像的子集已經(jīng)被限定到以個特定的類別中去,這樣作可以提高速度(需要考慮的圖像變少了)而且還可以加入關(guān)于查詢的語義信息(層次樹中的類別和它的父類會告知用戶關(guān)注的主題)。如何評價結(jié)果的質(zhì)量?Bench
27、marking視覺信息檢索解決方案是an open problem,研究人員仍然在爭論如何為這個目的找出一套圖像、一個查詢集以及評價標(biāo)準(zhǔn)。用標(biāo)準(zhǔn)化的方法比較兩種解決方案之間的差別仍然是不可行的,每一個系統(tǒng)都具有它本身的數(shù)量上的和質(zhì)量上的度量標(biāo)準(zhǔn)。 .圖像文件應(yīng)該存放到哪里?圖像文件實(shí)際存放位置的不同(在本地硬盤上還是在互聯(lián)網(wǎng)上)會給系統(tǒng)的設(shè)計(jì)帶來很大的差異。當(dāng)圖像文件不是存放在本地時,設(shè)計(jì)者應(yīng)該考慮到眾多的問題,我們指出其中的一些如下:需要在本地存儲遠(yuǎn)程數(shù)據(jù)庫中圖像的索引圖或者鏡像副本;實(shí)際圖象可能會變得不可用(臨時地或永久地);網(wǎng)絡(luò)擁塞可能會帶來性能的下降;根據(jù)圖像庫的變動使用不同的策略更新
28、索引。用戶怎樣提出相關(guān)反饋以及與之對應(yīng)系統(tǒng)應(yīng)該完成什么工作?CBVIR系統(tǒng)要支持用戶相關(guān)反饋存在著許多重要問題。第一個就是于用戶的接口問題以及系統(tǒng)要求用戶如何與之交互,如何使用例子來表達(dá)他們對圖形的看法,使用哪些特征來度量相似度以及部分的返回結(jié)果。 一些系統(tǒng)只需要最低限度的用戶操作(例如用戶評價結(jié)果時好的、壞的或者都不對),其它的系統(tǒng)需要用戶對結(jié)果的質(zhì)量給出一個具體的數(shù)值。第二個問題關(guān)于復(fù)雜的數(shù)學(xué)計(jì)算,主要是由下面的情況所帶來:用戶相關(guān)反饋信息以及根據(jù)它來調(diào)整查詢,計(jì)算每個特征的重要性,計(jì)算每幅圖像是目標(biāo)圖像的概率,等等。 如果需要的話,系統(tǒng)應(yīng)該具有哪些學(xué)習(xí)能力?CBVIR系統(tǒng)有許多的理由使用
29、無人管理的學(xué)習(xí)算法:學(xué)習(xí)特征向量如何于圖像的自然組相關(guān)聯(lián),如何標(biāo)注這些組;找出要將圖像歸為特定的類中時有用的特征;根據(jù)一系列的先驗(yàn)概率以及計(jì)算對每幅圖像是所需要的圖像的概率進(jìn)行修正,同時還要考慮到相關(guān)反饋的信息。在CBVIR系統(tǒng)中貝葉斯學(xué)習(xí)和聚類技術(shù)是最常用的學(xué)習(xí)技術(shù)之一。系統(tǒng)中還要包括哪些支持工具?一系列的支持工具的引入可以增強(qiáng)CBVIR系統(tǒng)的性能。一組基礎(chǔ)的圖像處理函數(shù)即使這種工具的一個例子,這些函數(shù)允許基于實(shí)例查詢系統(tǒng)的用戶在提交查詢前對樣本圖象進(jìn)行簡單的編輯(如:裁剪等等)。CBVIR系統(tǒng)實(shí)例近年來,不管在商業(yè)上還是在研究領(lǐng)域,都出現(xiàn)了大量的CBVIR系統(tǒng)。下面會對現(xiàn)存的一些CBVIR
30、系統(tǒng)作一個簡要的介紹,具體細(xì)節(jié)可以從文中所給出的互聯(lián)網(wǎng)站點(diǎn)和文獻(xiàn)目錄中獲取。QBICQBIC (Query By Image Content 基于圖像內(nèi)容查詢) 系統(tǒng)是由國際商用機(jī)器公司(IBM)研制成功的。該系統(tǒng)的設(shè)計(jì)框架和采用的技術(shù)對后來的圖像系統(tǒng)產(chǎn)生了深刻的影響。QBIC系統(tǒng)基于例子圖像的查詢方式,也支持通過由用戶構(gòu)造的草圖、輪廓和選定的色彩和紋理樣式的查找方式。在QBIC的最新版系統(tǒng)中,基于文本的關(guān)鍵字查找方式與基于內(nèi)容的相似性查找方式相結(jié)合,共同完成查找功能。QBIC演示程序可以在如下的網(wǎng)址中找到:。PhotobookPhotobook是美國麻省理工大學(xué)的多媒體實(shí)驗(yàn)室所開發(fā)的用于圖像
31、查詢和瀏覽的交互式工具。它由三個子系統(tǒng)組成,分別負(fù)責(zé)提取形狀、紋理、人臉特征。這樣一來,用戶可以分別在這三個子系統(tǒng)中根據(jù)相應(yīng)的特征來進(jìn)行查找。另外的關(guān)于Photobook的資料可以在下面的網(wǎng)址中找到:。FourEyesFourEyes相當(dāng)于是Photobook的一個改良版本,它包括了相關(guān)反饋機(jī)制。通過給出一組正的和負(fù)的例子,系統(tǒng)決定使用哪個模型或者幾個模型的組合并學(xué)習(xí)哪個組合能最好的解決特殊類別的問題。當(dāng)系統(tǒng)遇到一個與它以前所解決的問題類似的新問題時,F(xiàn)ourEyes能在比第一次更快的時間內(nèi)解決問題。更多的關(guān)于系統(tǒng)的細(xì)節(jié)可以從如下的網(wǎng)址獲?。?NetraNetra系統(tǒng)是在UCSB大學(xué)的Alex
32、andria數(shù)字化圖書館(Alexandria Digital Library 縮寫為ADL )項(xiàng)目中。它從分割后的圖像區(qū)域中提取顏色、形狀、紋理和空間位置信息,并依靠這些信息從數(shù)據(jù)庫中查找相似的區(qū)域。在線演示網(wǎng)址為:。Netra的新版本Netra2著重于組最后處理的顏色圖像區(qū)域和本地的顏色特征,演示網(wǎng)址為:.。MARSMARS (Multimedia Analysis and Retrieval System,多媒體分析和檢索系統(tǒng))是伊利諾斯大學(xué)Urbana-Champaign分校開發(fā)的。MARS系統(tǒng)的重點(diǎn)不在于找到所謂“最好”的圖像特征,而在于根據(jù)實(shí)際的應(yīng)用環(huán)境和用戶需要在檢索框架中動態(tài)地
33、組合調(diào)整各種不同的圖像特征。MARS在圖像檢索領(lǐng)域正式提出了相關(guān)反饋的體系結(jié)構(gòu)。相關(guān)反饋的技術(shù)在各種層次上融合到檢索的過程中,包括查詢向量的優(yōu)化,相似度算法的自動選擇,以及圖像特征權(quán)重的調(diào)整。MARS系統(tǒng)的更多信息可以在下面的網(wǎng)址找到:。PicToSeekPicToSeek是由阿姆斯特但大學(xué)開發(fā)的一個圖像搜索引擎。PicToSeek使用autonomous Web crawlers從互聯(lián)網(wǎng)搜集圖像。然后系統(tǒng)對搜集的圖像自動地進(jìn)行編目并按照預(yù)先定義的類別進(jìn)行分類,系統(tǒng)還抽取這些圖像的相關(guān)特征。用戶可以使用多種方法對PicToSeek系統(tǒng)進(jìn)行查詢,可以使用圖像特征、實(shí)例圖像或者簡單地瀏覽預(yù)計(jì)算的圖
34、像目錄。PicToSeek的演示版可在如下的網(wǎng)址找到: isis/zomax/ 。VisualSEEkVisualSEEk是由哥倫比亞大學(xué)開發(fā)的一系列CBVIR系統(tǒng)中的一部分。它同時支持基于視覺特征的查詢和基于空間關(guān)系的查詢。它的在線演示程序可以在下面的網(wǎng)址中找到:k/ 。PicHunterPicHunter是由NEC新澤西研究所開發(fā)的一個CBVIR系統(tǒng)。PicHunter使用了相關(guān)反饋和貝葉斯準(zhǔn)則來預(yù)測目標(biāo)圖像。ImageRoverImageRover是由波士頓大學(xué)開發(fā)的一個CBVIR系統(tǒng)。這是一個基于Web的工具,它通過一系列的自動化儀器搜集關(guān)于HTML頁面的信息。這些儀器使用向量的格式收
35、集、處理和存儲圖像元數(shù)據(jù),用戶對系統(tǒng)進(jìn)行查詢時搜索這些向量格式的元數(shù)據(jù),然后系統(tǒng)以索引圖像的形式向用戶返回相關(guān)反饋的結(jié)果,用戶選擇與他們搜索要求相關(guān)的圖像,這樣便可以利用系統(tǒng)的基于內(nèi)容的搜索能力直到用戶找到所需的圖像。更多的細(xì)節(jié)內(nèi)容可以從如下的網(wǎng)址找到:。WebSEEkWebSEEk在通過Web robots對 HTML進(jìn)行收集處理上與ImageRover類似,雖然它也有視頻搜索和收集的優(yōu)點(diǎn)。它是由哥倫比亞大學(xué)開發(fā)的,相應(yīng)演示程序的站點(diǎn)為:。VirageVirage是由Virage有限公司開發(fā)的商業(yè)化的基于內(nèi)容的圖像檢索引擎。Virage支持基于顏色、顏色布局、紋理和結(jié)構(gòu)特征(對象邊緣)的查詢
36、功能,而且還支持以上四種基本查詢的任意組合的查詢方式。用戶還可以根據(jù)需要來調(diào)整基本圖像特征的權(quán)重。更多的關(guān)于Virage產(chǎn)品的信息可以在如下的網(wǎng)址找到:。Visual RetrievalWareVisual RetrievalWare是由Excalibur Technologies Corp開發(fā)的CBVIR系統(tǒng)。與Virage類似,它支持多種視覺查詢特征的組合,這些特征的權(quán)重由用戶設(shè)定。在2000年底,Excalibur改名為Convera.。Convera公司的產(chǎn)品信息可以在如下網(wǎng)址找到:。AMOREAmore (Advanced Multimedia Oriented Retrieval
37、Engine,高級面向多媒體檢索引擎)是由NEC USA的一個分支機(jī)構(gòu)C & C Research Laboratories (CCRL)開發(fā)的具有圖像檢索能力的一個搜索引擎。它并不能夠通過自動儀器對整個Web進(jìn)行搜索,但是它有一個自動儀器(他們叫它harvest gatherer)用來對來自用戶給定的URL的圖像進(jìn)行scour和分類。系統(tǒng)使用Harvest Information Discovery and Access System進(jìn)行文本編目(indexing)和搜索,使用面向內(nèi)容的圖象檢索(COIR)對圖像進(jìn)行標(biāo)引(index)并對這些圖像進(jìn)行檢索。COIR使用基于區(qū)域的方式,
38、使用顏色、紋理和位置進(jìn)行indexing。對用戶而言,除了URL地址,所有的事都是自動完成。關(guān)于AMORE的更多信息可以在如下網(wǎng)址找到:BlobworldBlobworld是由U.C. Berkeley開發(fā)的CBVIR系統(tǒng)。程序自動地將圖像分割為不同的區(qū)域,這些區(qū)域大體上與對象或?qū)ο蟮囊徊糠窒鄬?yīng),系統(tǒng)支持用戶基于照片或圖像所包含的對象的查詢。他們在查找特定對象方面的做法是有效的,不足之處是,正如大多數(shù)的系統(tǒng)一樣,改系統(tǒng)只關(guān)注于“低層”特征而很少關(guān)心這些特征的空間組織關(guān)系。Blobworld系統(tǒng)同時支持基于文本和基于內(nèi)容的搜索。該系統(tǒng)在對用戶相關(guān)反饋的支持方面也是很有效的,因?yàn)樗故玖颂峤粓D像
39、的內(nèi)部表示以及查詢的結(jié)果。因此,與其它的一些考慮顏色直方圖相似度量的系統(tǒng)有所不同的是,該系統(tǒng)能夠幫助用戶理解為什么他們得到了某個結(jié)果。其他的公司和產(chǎn)品在過去的一些年里許多公司進(jìn)入了視覺搜索解決方案的這片新開辟的市場。這些公司包括:Ereo (), Cobion (), LookThatU,和 ImageLock ()。OPEN研究問題以及未來發(fā)展方向視覺信息檢索是一個比較活躍的研究領(lǐng)域,許多open問題仍然處于研究階段,其中的一些最突出的技術(shù)挑戰(zhàn)和研究機(jī)遇包括:用戶與系統(tǒng)之間更好的協(xié)作大家公認(rèn)CBVIR系統(tǒng)如果在處理循環(huán)中允許用戶的介入且允許他們提供相關(guān)反饋信息,則系統(tǒng)將只會達(dá)到可接受的性能。
40、研究人員仍在研究用戶如何給出相關(guān)反饋的信息以及系統(tǒng)如何進(jìn)行相應(yīng)的處理的細(xì)節(jié)。最小化圖像低層特征與人對圖象內(nèi)容的解釋之間的語義鴻溝視覺信息查詢的高層的概念與使用計(jì)算機(jī)視覺技術(shù)從圖像中抽取的低層的特征之間的區(qū)別用文字表述為“語義鴻溝”。最小化這個語義鴻溝的最有希望的方法是結(jié)合聯(lián)機(jī)的相關(guān)反饋信息使用脫機(jī)學(xué)習(xí)算法。使系統(tǒng)面向Web基于Web的搜索時使用的基于文本的搜索引擎還沒有相應(yīng)的能力完成對視覺信息的搜索。元數(shù)據(jù)的表示還沒有一個標(biāo)準(zhǔn),縮短系統(tǒng)的最大可承受的響應(yīng)時間,是目前需要克服的兩大困難。 高維索引目前,對高效的支持非歐幾里德的相似度度量方法的高維索引技術(shù)以及相似性函數(shù)功能運(yùn)行時它們自適應(yīng)進(jìn)行改動
41、的研究很活躍,但還沒有找到最終的解決方案。性能評價的標(biāo)準(zhǔn)化以及標(biāo)準(zhǔn)化基準(zhǔn)套件和實(shí)驗(yàn)臺的創(chuàng)造人們一致公認(rèn)需要一系列標(biāo)準(zhǔn)化的的圖像、查詢和性能度量方法來對不同的解決方案之間進(jìn)行比較。國際模式識別聯(lián)合會(IAPR)的一個技術(shù)委員會(TC)正試圖解決這個問題,到目前位置還未有一個最終的結(jié)果。人對圖像內(nèi)容的感知對人的視覺感知的心理物理特征(psychophysical aspects of human visual perception)的深入研究能夠使得我們對人如何進(jìn)行視覺相似性判斷有進(jìn)一步的了解,同時也會幫助提高CBVIR系統(tǒng)的性能help improve the performance of CB
42、VIR systems without precluding the inclusion of the human user in the loop。 訪問圖像視頻數(shù)據(jù)庫的新的visual interfaces查詢、瀏覽以及視覺信息圖像庫的定位方法都需要進(jìn)行改進(jìn),尤其是視頻信息引入后。計(jì)算機(jī)視覺與其他學(xué)科和媒體相集合圖像數(shù)據(jù)庫系統(tǒng)的成功離不開計(jì)算機(jī)視覺領(lǐng)域、數(shù)據(jù)庫領(lǐng)域以及其它一些研究領(lǐng)域研究人員的通力協(xié)作。MUSE:具有相關(guān)反饋機(jī)制的基于內(nèi)容的圖象檢索系統(tǒng)相關(guān)背景過去的兩年中作者一直在研究MUSE,這是一個具有相關(guān)反饋機(jī)制和學(xué)習(xí)能力的CBVIR系統(tǒng)。這個項(xiàng)目的目的是建立一個從大型的庫中檢索視覺
43、信息的智能化系統(tǒng)。其中的一些目標(biāo)包括:圖3:MUSE:結(jié)構(gòu)示意圖 簡潔、簡單、友好的用戶接口 從用戶交互學(xué)習(xí)的能力 用戶透明度:對用戶隱藏檢索引擎復(fù)雜的低層細(xì)節(jié) 對其他媒體種類的可擴(kuò)展性,尤其是視頻系統(tǒng)綜述圖3顯示了MUSE的主要組成部分。部分的系統(tǒng)操作是脫機(jī)狀態(tài)下完成的,還有一些操作是聯(lián)機(jī)執(zhí)行的。脫機(jī)階段的工作包括:特征抽取、圖像的表示以及庫中每幅圖像的組織。聯(lián)機(jī)交互由用戶通過GUI命令執(zhí)行。系統(tǒng)抽取用戶選出的相關(guān)圖像的特征并與所有其它的圖像特征相比較。根據(jù)相似度比較的結(jié)果來更新圖像是目標(biāo)圖像的概率并進(jìn)行排列。根據(jù)這些,系統(tǒng)存儲學(xué)習(xí)信息并決定下一步將顯示哪一張候選圖像。經(jīng)過一系列的循環(huán)重復(fù),
44、目標(biāo)圖像將會在屏幕上顯示出來。用戶的觀點(diǎn)MUSE的用戶接口比較簡單、簡潔,而且還很直觀(如圖4)。它包括一個菜單,兩個工具條和一個工作區(qū),工作區(qū)被分為兩個部分:左邊包括一個選定的圖像(可選的);右邊作為一個瀏覽器,它的具體細(xì)節(jié)依賴于操作模式。MUSE支持四種操作模式:自由瀏覽,隨機(jī)瀏覽,根據(jù)實(shí)例查詢以及相關(guān)反饋(不需要實(shí)例圖像)。在自由瀏覽模式下(如圖5),瀏覽器顯示當(dāng)前用戶所選擇的目錄下圖像的索引圖像。隨機(jī)模式下(如圖6),在顯示索引圖像之前打亂了目錄的內(nèi)容,working as a baseline against which the fourth mode (relevance feed
45、back) can be compared?;趯?shí)例的查詢模式(如圖7)已經(jīng)被實(shí)現(xiàn)用于當(dāng)做特征抽取和相似度度量階段的實(shí)驗(yàn)臺。使用一個圖像(左邊)作為例子,最好的匹配顯示在瀏覽器。最后,相關(guān)反饋模式起始于一個隨機(jī)的圖像的子集,基于用戶的輸入(指定每幅圖像是好的、壞的或者兩者都不是)系統(tǒng)來理解哪幅圖像是目標(biāo)圖像。在一個典型的使用相關(guān)反饋模式的交互中,用戶最初會在瀏覽器部分看見一個圖像的子集(如圖8)。圖4 MUSE:用戶界面根據(jù)每幅圖像與目標(biāo)圖像(例如:加拿大國旗)的相似與相異程度,在點(diǎn)擊GO按鈕之前,用戶可以不選或者選擇多個當(dāng)前顯示的圖像標(biāo)上“好”(good)或者“壞”(bad)標(biāo)記。與每幅圖像
46、相對應(yīng)的選擇按鈕會相應(yīng)的變?yōu)榫G色(該圖被認(rèn)為是好的例子)或者紅色(該圖被認(rèn)為是壞的例子)。在系統(tǒng)使用中,用戶所要做的也僅僅是選擇圖像和點(diǎn)擊GO按鈕這兩件事。一旦檢測到用戶已經(jīng)點(diǎn)擊了GO按鈕,系統(tǒng)首先檢驗(yàn)是否有圖像被選中。如果有如象被選中,系統(tǒng)重新計(jì)算每幅圖像就是目標(biāo)圖像的概率,并顯示一個新的更接近與目標(biāo)圖像的圖像子集(如圖9)。如果用戶開始并沒有選擇任何的圖像,系統(tǒng)會顯示四張新的隨機(jī)選擇的圖像。經(jīng)過一系列的重復(fù)操作,系統(tǒng)最終會得到目標(biāo)圖像(在本例中只需要進(jìn)行一次重復(fù)工作)。圖5 MUSE:自由瀏覽模式圖6 MUSE:隨機(jī)瀏覽模式圖7 MUSE:實(shí)例查詢模式圖8 MUSE:相關(guān)反饋模式:初始屏幕
47、圖9 MUSE:相關(guān)反饋模式:最優(yōu)結(jié)果BEHIND THE SCENES目前的MUSE原型僅僅支持基于顏色特征的檢索,將來MUSE的最終版預(yù)期將支持顏色相關(guān)特征組、紋理相關(guān)特征組和形狀相關(guān)特征組的檢索。顏色信息使用顏色相關(guān)曲線圖(color correlograms)進(jìn)行抽取,兩幅圖像的顏色相關(guān)曲線圖之間的比較使用L1距離度量方法。作為結(jié)果的特征向量使用PAM算法的一種變形組織成為組(clusters)。MUSE使用的是基于圖像相似性的信息檢索的一種概率模型。在這種模型下,給每幅圖像賦一個概率值,即這幅圖像是目標(biāo)圖像的概率。在用戶每次根據(jù)圖像間相似度選擇標(biāo)注圖像后系統(tǒng)重新計(jì)算這些概率值。在每次
48、迭代的最后,數(shù)據(jù)庫中的每幅圖像的概率值都被校正過,系統(tǒng)將根據(jù)這些概率值顯示那些最佳的圖像。MUSE支持兩種方式的學(xué)習(xí)。在會話(session)中修改圖像概率的過程從本質(zhì)上來講是一種學(xué)習(xí)理解用戶參數(shù)選擇以及相應(yīng)回答的方法。這種學(xué)習(xí)我們叫它“會話內(nèi)學(xué)習(xí)”(intra-session learning)。MUSE系統(tǒng)已經(jīng)擴(kuò)展到支持“會話內(nèi)學(xué)習(xí)”方法,也就是,使用對在某次會話過程中的用戶交互進(jìn)行學(xué)習(xí)所得到的信息,來提高系統(tǒng)在以后的會話中遇到類似情況時的性能。允許用戶保存恢復(fù)profiles就是完成這個目標(biāo)的一種方法。每次用戶登錄系統(tǒng)時,用戶可以選擇檢索已經(jīng)存在的登錄profiles,或者建立一個新的p
49、rofile,或者也可以忽略所有的profiles。Profiles的例子可以是多樣的,如:“賽車愛好者”,“莎朗斯通的影迷”或者“世界上的旗幟”。通過存儲profiles用戶可以花費(fèi)最小的額外代價間接地向系統(tǒng)提供語義層次的信息,即在每次的會話中保存或者恢復(fù)一次profile。MUSE使用貝葉斯網(wǎng)絡(luò)模型來估計(jì)assess用戶的要求和基于用戶與系統(tǒng)的交互的profiles??赡艿膽?yīng)用在本系統(tǒng)中所提出的絕大多數(shù)思想都能夠滿足任意其它的視覺信息檢索系統(tǒng)的需要。在MUSE系統(tǒng)開發(fā)過程中,系統(tǒng)使用了通用的圖像文件和專門的圖象庫進(jìn)行測試。由于掃描儀和數(shù)碼相機(jī)的普及以及相應(yīng)價格的降低,家庭照片也越來越多的以
50、數(shù)字格式進(jìn)行存儲,為了能夠使得家庭用戶能夠簡單、智能化的管理這些照片并對這些照片進(jìn)行編目,家庭照片管理可以成為本項(xiàng)目結(jié)果的一個具體應(yīng)用,在這方面潛在著一個很大的市場。Such a system would help minimizing the well-known phenomenon of pictures that are never retrieved, organized, and therefore enjoyed, ending up in a shoe box, or its digital equivalent, a folder in the home PCs hard d
51、isk.如何提高系統(tǒng)處理家庭照片相關(guān)處理的能力,如人臉識別,室內(nèi)與室外的分類,等等,這可能是我們在以后的MUSE版本中所要考慮的研究方向。結(jié)束語本章中我們對基于內(nèi)容的圖像檢索系統(tǒng)進(jìn)行了回顧和評價。我們介紹了一個CBVIR系統(tǒng)的體系結(jié)構(gòu),列出了設(shè)計(jì)開發(fā)這些系統(tǒng)的open問題。CBVIR領(lǐng)域的潛在市場已經(jīng)吸引了許多公司和大學(xué)的關(guān)注,也出現(xiàn)了一些商業(yè)性和研究性的系統(tǒng)原型。有興趣的讀者可以從本章中所提供的地址找到更多的信息。在本章的最后我們詳細(xì)介紹了由作者開發(fā)的一個CBVIR系統(tǒng)原型。參考: 畢 業(yè) 論 文論文題目學(xué) 院專 業(yè)年 級姓 名指導(dǎo)教師職 稱(200 年 月)教務(wù)處制畢業(yè)設(shè)計(jì)說明書與畢業(yè)論文
52、撰寫的規(guī)范化要求一篇完整的畢業(yè)設(shè)計(jì)說明書或畢業(yè)論文有題目、摘要及關(guān)鍵詞、目錄、引言(前言)、正文、結(jié)論、謝辭、參考文獻(xiàn)、附錄等幾部分構(gòu)成。要求理工科專業(yè)不少于4000字,文科專業(yè)不少于6000字。一、畢業(yè)設(shè)計(jì)說明書撰寫的主要內(nèi)容與基本要求一份完整的畢業(yè)設(shè)計(jì)說明書應(yīng)包括如下主要內(nèi)容:1題目設(shè)計(jì)課題名稱,要求簡潔、確切、鮮明。2中外文摘要及關(guān)鍵詞應(yīng)扼要敘述本設(shè)計(jì)的主要內(nèi)容、特點(diǎn),文字要簡練。中文摘要約300字左右;外文摘要約250個實(shí)詞左右。關(guān)鍵詞35個。3目錄主要內(nèi)容的目錄。4前言應(yīng)說明本設(shè)計(jì)的目的、意義、范圍及應(yīng)達(dá)到的技術(shù)要求;簡述本課題在國內(nèi)(外)的發(fā)展概況及存在的問題;本設(shè)計(jì)的指導(dǎo)思想;闡
53、述本設(shè)計(jì)應(yīng)解決的主要問題。 5正文(1)設(shè)計(jì)方案論證:應(yīng)說明設(shè)計(jì)原理并進(jìn)行方案選擇。應(yīng)說明為什么要選擇這個方案(包括各種方案的分析、比較);還應(yīng)闡述所采用方案的特點(diǎn)(如采用了何種新技術(shù)、新措施、提高了什么性能等)。(2)設(shè)計(jì)及計(jì)算部分:這是設(shè)計(jì)說明書的重要組成部分,應(yīng)詳細(xì)寫明設(shè)計(jì)結(jié)果及計(jì)算結(jié)果。(3)樣機(jī)或試件的各種實(shí)驗(yàn)及測試情況:包括實(shí)驗(yàn)方法、線路及數(shù)據(jù)處理等。(4)方案的校驗(yàn):說明所設(shè)計(jì)的系統(tǒng)是否滿足各項(xiàng)性能指標(biāo)的要求,能否達(dá)到預(yù)期效果。校驗(yàn)的方法可以是理論分析(即反推算),包括系統(tǒng)分析;也可以是實(shí)驗(yàn)測試及計(jì)算機(jī)的上機(jī)運(yùn)算等。6結(jié)論概括說明本設(shè)計(jì)的情況和價值 ,分析其優(yōu)點(diǎn)、特色,有何創(chuàng)新,
54、性能達(dá)到何水平,并指出其中存在的問題和今后的改進(jìn)方向。7謝辭簡述自己通過本設(shè)計(jì)的體會,并對指導(dǎo)老師和協(xié)助完成設(shè)計(jì)的有關(guān)人員表示謝意。8參考文獻(xiàn)應(yīng)列出主要參考文獻(xiàn)。9附錄將各種篇幅較大的圖紙、數(shù)據(jù)表格、計(jì)算機(jī)程序等作為附錄附于說明書之后。二、畢業(yè)論文撰寫的主要內(nèi)容與基本要求1題目題目應(yīng)該簡短、明確,要有概括性,讓人看后能大致了解文章的確切內(nèi)容、專業(yè)的特點(diǎn)和學(xué)科的范疇。題目的字?jǐn)?shù)要適當(dāng),一般不宜超過20字。字體為2中外文摘要及關(guān)鍵詞摘要也稱內(nèi)容提要,應(yīng)當(dāng)以濃縮的形式概括研究課題的主要內(nèi)容、方法和觀點(diǎn),以及取得的主要成果和結(jié)論,應(yīng)反映整個論文的精華。中文摘要約300字左右為宜,同時要求寫出250個實(shí)
55、詞左右的外文摘要。關(guān)鍵詞3-5個。摘要應(yīng)寫得扼要、準(zhǔn)確,一般在畢業(yè)論文全文完成后再寫摘要。在寫作中要注意以下幾點(diǎn):(1)用精練、概括的語言表達(dá),每項(xiàng)內(nèi)容均不宜展開論證。(2)要客觀陳述,不宜加主觀評價。(3)成果和結(jié)論性意見是摘要的重點(diǎn)內(nèi)容,在文字上用量較多,以加深讀者的印象。(4)要獨(dú)立成文,選詞用語要避免與全文尤其是前言和結(jié)論雷同。(5)既要寫得簡短扼要,又要行文活潑,在詞語潤色、表達(dá)方法和章法結(jié)構(gòu)上要盡可能寫得有文采,以喚起讀者對全文的閱讀的興趣。3目錄(必要時)論文編寫完成后,為了醒目和便于讀者閱讀,可為論文編寫一個目錄。目錄可分章節(jié),每一章節(jié)之后應(yīng)編寫頁碼。4前言前言是全篇論文的開場白,它包括:(1)選題的緣由。(2)對本課題已有研究情況的評述。(3)說明所要解決的問題和采用的手段、方法。(4)概括成果及意義。作為摘要和前言,雖然所定的內(nèi)容大體相同,但仍有很大的區(qū)別。區(qū)別主要在于:摘要一般要寫得高度概括、簡略,前言則可以稍微具體些;摘要的某些內(nèi)容,如結(jié)論意見,可以作為籠統(tǒng)的表達(dá),而前言中所有的內(nèi)容則必須明確表達(dá);摘要不寫選題的緣由,前言則明確反映;在文字量上前言一般多于摘要。5正文正文是作者對自己研究工作的詳細(xì)表述。它占全文的較多篇幅。主要內(nèi)容包括研究工作的基本前提、假設(shè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024石材行業(yè)深度合作開發(fā)合同書3篇
- VI設(shè)計(jì)合同書模板標(biāo)準(zhǔn)
- 2025年度個人住宅陽臺防水改造合同范本8篇
- 個人間緊急貸款協(xié)議樣本2024年版版
- 2025年度新能源汽車充電設(shè)施運(yùn)營管理承包合同協(xié)議書模板1500字4篇
- 長沙文創(chuàng)藝術(shù)職業(yè)學(xué)院《藝術(shù)學(xué)理論》2023-2024學(xué)年第一學(xué)期期末試卷
- 家庭火災(zāi)自救技巧的普及與推廣
- 小空間大功能單身公寓的空間利用畢業(yè)設(shè)計(jì)
- 2025年度精密模具租賃服務(wù)合同模板4篇
- 2025年食品加工委托生產(chǎn)與食品安全合同3篇
- 氣動調(diào)節(jié)閥調(diào)校
- 中考模擬考試化學(xué)試卷與答案解析(共三套)
- 新人教版五年級小學(xué)數(shù)學(xué)全冊奧數(shù)(含答案)
- 風(fēng)電場升壓站培訓(xùn)課件
- 收納盒注塑模具設(shè)計(jì)(論文-任務(wù)書-開題報(bào)告-圖紙)
- 博弈論全套課件
- CONSORT2010流程圖(FlowDiagram)【模板】文檔
- 腦電信號處理與特征提取
- 高中數(shù)學(xué)知識點(diǎn)全總結(jié)(電子版)
- GB/T 10322.7-2004鐵礦石粒度分布的篩分測定
- 2023新譯林版新教材高中英語必修一重點(diǎn)詞組歸納總結(jié)
評論
0/150
提交評論