基于內(nèi)容的圖像檢索系統(tǒng)報告_第1頁
基于內(nèi)容的圖像檢索系統(tǒng)報告_第2頁
基于內(nèi)容的圖像檢索系統(tǒng)報告_第3頁
基于內(nèi)容的圖像檢索系統(tǒng)報告_第4頁
基于內(nèi)容的圖像檢索系統(tǒng)報告_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六屆浙江省大學(xué)生電子商務(wù)競賽作品名稱:基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)作品類別:技術(shù)類20目錄第1章工程背景3第2章關(guān)鍵技術(shù)介紹6第3章系統(tǒng)分析與設(shè)計83.1需求分析8功能性需求分析8非功能性需求分析83.2系統(tǒng)設(shè)計10總體結(jié)構(gòu)設(shè)計10功能模塊設(shè)計11檢索流程設(shè)計12數(shù)據(jù)存儲設(shè)計14算法設(shè)計17第4章系統(tǒng)實現(xiàn)254.1數(shù)據(jù)采集模塊254.2數(shù)據(jù)檢索模塊284.3數(shù)據(jù)顯示模塊294.4數(shù)據(jù)推送模塊34第5章盈利模式與市場營銷推廣策略365.1目標(biāo)市場365.2盈利模式365.3系統(tǒng)推廣策略37第6章財務(wù)分析416.1搜索系統(tǒng)建設(shè)本錢416.2搜索引擎運行維護本錢416.3搜索系統(tǒng)宣傳推廣本錢42第7章風(fēng)險及對策437.1市場風(fēng)險及對策437.2技術(shù)風(fēng)險及對策437.3工程風(fēng)險及對策447.4競爭風(fēng)險及對策44第8章創(chuàng)新點45第9章總結(jié)46【參考文獻】47第1章工程背景隨著計算機軟硬件和互聯(lián)網(wǎng)技術(shù)的飛速開展,多媒體數(shù)據(jù)的數(shù)量以驚人的速度增長。各行各業(yè)有越來越多的信息通過圖像的形式進行表達,這些圖像中包含了大量有用的信息。但是這些圖像松散的分布在世界各地,缺少有效的組織,難以到達資源共享的目的。因此如何利用如此眾多的圖像信息并從中定位感興趣的圖像,是對圖像信息的查詢技術(shù)提出的重大挑戰(zhàn)。早在1951年,信息檢索(InformationRetrieval)這一術(shù)語就被CalvinMoores描述為使用戶的信息需求能夠變?yōu)樽罱K的有用信息的過程。當(dāng)然,他當(dāng)時指的是文本格式的文件檢索。但他的描述卻揭示了信息檢索系統(tǒng)的實質(zhì):幫助用戶具體定位相關(guān)信息。在1970年以后,隨著數(shù)據(jù)庫管理和計算機視覺兩個領(lǐng)域的飛速開展,圖像檢索技術(shù)(ImageRetrieval)的研究成為熱點。由于圖像檢索在這兩個領(lǐng)域的不同應(yīng)用,所以它們采用的研究方法也各自有所側(cè)重。數(shù)據(jù)庫管理領(lǐng)域的研究采用基于文本的圖像檢索方法,而計算機視覺領(lǐng)域那么偏重于基于視覺的圖像檢索?;谖谋镜膱D像檢索〔text-basedimageretrieval〕,主要在數(shù)據(jù)庫領(lǐng)域中進行研究,它的一個典型框架是,首先對圖像用文本進行注解(關(guān)鍵字),然后用基于文本的數(shù)據(jù)庫管理系統(tǒng)(DBMS)來進行圖像關(guān)鍵字檢索,諸如數(shù)據(jù)模型、多維度索引、查詢評價等的研究進展均是沿著這一領(lǐng)域所作的。但是,基于文本的圖像檢索存在很大困難,尤其是圖像的數(shù)據(jù)量非常大的時候,其一,手工對圖像進行注釋所需的工作量太大;其二,許多圖像很難用文字的方式進行描述;其三,不同的人對同一幅圖像的理解不一樣,即使同一個人對同一幅圖像在不同環(huán)境下理解也不完全相同,這樣使得對圖像的描述不唯一,造成檢索結(jié)果的千差萬別;其四,由于世界上存在許多語種,采用不同的語言文字對圖像進行描述而建立的索引在應(yīng)用中造成了一定的阻礙。因此基于文本方式的圖像檢索存在很大的局限性。90年代初期,隨著大規(guī)模數(shù)字圖像庫的出現(xiàn),上述的問題變得越來越鋒利。為克服這些問題,基于內(nèi)容的圖像檢索技術(shù)(content-basedimageretrieval)應(yīng)運而生。區(qū)別于原有系統(tǒng)中對圖像進行人工標(biāo)注的做法,基于內(nèi)容的檢索技術(shù)自動提取每幅圖像的視覺內(nèi)容特征作為其索引,如色彩、紋理、形狀等。此后幾年中,這個研究領(lǐng)域中的許多技術(shù)開展起來,一大批研究性的或商用的圖像檢索系統(tǒng)被建立起來?;趦?nèi)容的圖像檢索系統(tǒng)具有與傳統(tǒng)基于文本的檢索系統(tǒng)完全不同的構(gòu)架。首先,由于圖像依賴其視覺特征而非文本描述進行索引,查詢將根據(jù)圖像視覺特征的相似度進行。用戶通過選擇具有代表性的一幅或多幅例子圖像來構(gòu)造查詢,然后由系統(tǒng)查找與例子圖像在視覺內(nèi)容上比擬相似的圖像,按相似度大小排列返回給用戶。這就是所請的通過例子圖像的檢索(querybyimageexample)另外,基于內(nèi)容的檢索系統(tǒng)一般通過可視化界面和用戶進行頻繁的交EL,以便于用戶能夠方便地構(gòu)造查詢、評估檢索結(jié)果和改良檢索結(jié)果?;趦?nèi)容的圖像檢索作為一種利用圖像的顏色、紋理、形狀等特征進行檢索新的檢索技術(shù)。它融合了傳統(tǒng)的模式識別技術(shù)與多媒體良好的人機交互技術(shù),有著廣泛的開展應(yīng)用前景,特別是在電子商務(wù)領(lǐng)域。近年來,隨著Imemet技術(shù)和電子商務(wù)技術(shù)的不斷開展與成熟,以此為技術(shù)根底的網(wǎng)絡(luò)購物平臺層出不窮。網(wǎng)絡(luò)購物平臺中的商品貨源廣泛、品種齊全且價格合理,有著巨大的消費需求,因此得到了迅速的開展。目前,隨著物流效勞的完善,網(wǎng)絡(luò)購物作為一種新型的購物方式已經(jīng)漸漸取代了傳統(tǒng)的購物方式,成為一種時尚。縱觀國內(nèi)外的知名購物網(wǎng)站,它們無一例外的都為用戶提供了商品檢索功能。然而,很多購物網(wǎng)站只為用戶提供了基于關(guān)鍵字的檢索功能。網(wǎng)絡(luò)購物平臺中的一些商品難于用文字來表達其自身的屬性,這給用戶挑選中意的商品帶來的很大的不便。例如,服裝的款式花色很難用文字表達,這使得用戶難以用關(guān)鍵字檢索到具有欣宜花色和款式的服裝。然而,利用商品圖像作為查詢信息,這個問題就會迎刃而解。CBIR就像是一種為其量身定做的技術(shù),可以很好的解決對某些不便于用文字描述其特征的商品圖像的檢索問題,極大地方便用戶利用網(wǎng)絡(luò)購物平臺選購商品。我國個人消費網(wǎng)購規(guī)模正在以每年超過100%的增速快速開展。根據(jù)艾瑞、易觀等機構(gòu)的統(tǒng)計數(shù)據(jù),2023年中國個人消費網(wǎng)絡(luò)購物的金額已經(jīng)到達2500億,預(yù)計到2023年將到達7130億。盡管如此,網(wǎng)購交易額仍然只占個人消費總體消費額不到2%,開展空間巨大。隨著網(wǎng)購規(guī)模的開展,越來越多的商家和商品出現(xiàn)在互聯(lián)網(wǎng),這就給消費者挑選商品帶來了越來越大的困難。根據(jù)統(tǒng)計,目前淘寶已經(jīng)有超過300萬家商戶,在線超過3億件商品。這就給購物搜索帶來了巨大的市場機遇。根據(jù)艾瑞的統(tǒng)計,2023年購物搜索市場規(guī)模已經(jīng)超過11億,而且隨著網(wǎng)購交易規(guī)模的開展,增速也越來越快。而圖像購物搜索是購物搜索的重要組成局部,是近幾年國內(nèi)外研究的重點。同時,近年來隨著智能和3G通信網(wǎng)絡(luò)的開展,人們又多了一種購物選擇:利用實現(xiàn)移動購物。這種方式與傳統(tǒng)網(wǎng)購相比更加快捷、靈活、方便,可以充分利用的照相功能,結(jié)合圖像搜索,隨時隨地實現(xiàn)購物。由于移動商務(wù)需要基于平臺進行操作,考慮到平臺的特殊性,如何讓商品更條理、更清晰的展示在用戶面前是提升用戶體驗的核心因素。在分析商品購物特點的根底上,設(shè)計與開發(fā)了基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng),通過對商品圖像的自動識別,在海量商品數(shù)據(jù)中準(zhǔn)確、快速的尋找消費者感興趣的滿意商品。開發(fā)的系統(tǒng)同時支持網(wǎng)絡(luò)環(huán)境和移動環(huán)境。第2章關(guān)鍵技術(shù)介紹本系統(tǒng)采用Jsp+Servlet+Javabean三層結(jié)構(gòu),將用戶界面、數(shù)據(jù)內(nèi)容清晰地別離開來,明確了各個角色的定義。Servlet程序在效勞器端運行,動態(tài)地生成Web頁面。與傳統(tǒng)的CGI和許多其他類似CGI的技術(shù)相比,JavaServlet具有更高的效率,更容易使用,功能更強大,具有更好的可移植性,更節(jié)省投資。下面就jsp,servlet,javabean三方面進行介紹。servletservlet是在效勞器端執(zhí)行的,具有良好的移植性,不管操作系統(tǒng)是Windows、Linux、Unix等等,都能將寫好的Servlet程序放在這些操作系統(tǒng)上執(zhí)行,是真正的寫一次,到處執(zhí)行。另外Servlet功能強大,Servlet能完全發(fā)揮JavaAPI的威力,想寫網(wǎng)絡(luò)目錄查詢程序,那么可利用JNDIAPI,想連接數(shù)據(jù)庫,那么可利用JDBC等等。其次是性能,執(zhí)行一次以后,會停留在內(nèi)存中一段時間,當(dāng)有相同的請求發(fā)生時,Servlet會利用不同的線程來處理,在性能上會有大幅的提升,而效勞器會自動去除停留時間過長而且沒有執(zhí)行的Servlet,最后Servlet也有類型檢查的特性,并且利用Java的垃圾收集與沒有指針的設(shè)計,使得Servlet防止內(nèi)存管理的問題。2.jsp為了彌補Servlet在開發(fā)Web-based系統(tǒng)缺乏的地方,JSP出現(xiàn)了。JSP的出現(xiàn)大大簡化了Servlet處理Web系統(tǒng)的工作量。JSP是一種動態(tài)網(wǎng)頁技術(shù),即在傳統(tǒng)的HTML里嵌入Java程序,客戶端發(fā)出請求,效勞器端執(zhí)行,僅此而已。3.JavaBeanJavaBean是一個可重復(fù)使用,且跨平臺的軟件組件,可以在JBuilder、eclipse等軟件以可視化的方式來開發(fā),它是一個類,并封裝假設(shè)干方法,當(dāng)我們需要時,直接可以拿來用。本系統(tǒng)中將jsp作為視圖層,servlet作為控制層,javabean作為模型層,三者結(jié)合使用,取長補短,總的優(yōu)點有如下幾點:低耦合性視圖層和業(yè)務(wù)層別離,這樣就允許更改視圖層代碼而不用重新編譯模型和控制器代碼,同樣,一個應(yīng)用的業(yè)務(wù)流程或者業(yè)務(wù)規(guī)那么的改變只需要改動模型層即可。因為模型與控制器和視圖相別離,所以很容易改變應(yīng)用程序的數(shù)據(jù)層和業(yè)務(wù)規(guī)那么。高重用性和可適用性隨著技術(shù)的不斷進步,現(xiàn)在需要用越來越多的方式來訪問應(yīng)用程序。該架構(gòu)允許使用各種不同樣式的視圖來訪問同一個效勞器端的代碼。它包括任何WEB〔HTTP〕瀏覽器或者無線瀏覽器〔wap〕,比方,用戶可以通過電腦也可通過來訂購某樣產(chǎn)品,雖然訂購的方式不一樣,但處理訂購產(chǎn)品的方式是一樣的。由于模型返回的數(shù)據(jù)沒有進行格式化,所以同樣的構(gòu)件能被不同的界面使用。例如,很多數(shù)據(jù)可能用HTML來表示,但是也有可能用WAP來表示,而這些表示所需要的命令是改變視圖層的實現(xiàn)方式,而控制層和模型層無需做任何改變。較低的生命周期本錢使降低開發(fā)和維護用戶接口的技術(shù)含量成為可能。快速的部署使開發(fā)時間得到相當(dāng)大的縮減,它使程序員〔Java開發(fā)人員〕集中精力于業(yè)務(wù)邏輯,界面程序員〔HTML和JSP開發(fā)人員〕集中精力于表現(xiàn)形式上??删S護性別離視圖層和業(yè)務(wù)邏輯層也使得WEB應(yīng)用更易于維護和修改。有利于軟件工程化管理由于不同的層各司其職,每一層不同的應(yīng)用具有某些相同的特征,有利于通過工程化、工具化管理程序代碼第3章系統(tǒng)分析與設(shè)計3.1需求分析3.1.1功能性需求分析在一個基于內(nèi)容檢索的圖像數(shù)據(jù)庫中,用戶可以根據(jù)自己定義的圖像特征,查找類似或相關(guān)的圖像。例如:服裝設(shè)計師需要查找一些自己需要的服裝樣本:醫(yī)學(xué)工作者需要從醫(yī)學(xué)影像數(shù)據(jù)庫中查找一些相關(guān)的病例資料;互聯(lián)網(wǎng)愛好者可能需要在互聯(lián)網(wǎng)上下載一些圖像資料;文物工作者需要查找相關(guān)的文物圖像資料;公安部門需要根據(jù)指紋、腳印等進行罪犯資料的查詢;以及一些特殊環(huán)境里的電子鎖裝置(指紋識別、面容識別、掌紋等識別)等。基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)是指用戶提交一張商品圖像,系統(tǒng)對該商品圖像進行特征提取,用于檢索的特征主要有顏色、紋理、形狀、空間關(guān)系等,其中顏色、形狀、紋理應(yīng)用較為普遍,然后用提取出來的商品圖像特征和商品圖像庫中商品圖像的特征進行匹配,獲得特征相符的圖像集結(jié)果。在進行圖像查詢時,圖像的相似度是一個比擬抽象的概念。它不像文字那樣比擬直觀。在進行圖像查詢時,檢索的結(jié)果在原那么上應(yīng)該到達人眼所能識別的程度。為了高效的進行圖像查詢,首先根據(jù)圖像的自身信息,利用一些分析方法進行圖像特征的提取,并將圖像的特征信息存入圖像數(shù)據(jù)庫中。當(dāng)這些圖像由于需要被處理后,應(yīng)該重新進行特征信息的抽取,并更新圖像數(shù)據(jù)庫中該圖像對應(yīng)的特征信息。在進行圖像檢索時,首先抽取被檢索圖像的特征信息,然后和圖像數(shù)據(jù)庫中圖像的特征信息進行相似性比擬。最后依據(jù)相似度的大小輸出查詢結(jié)果。這一查詢技術(shù)是多學(xué)科結(jié)合的結(jié)果。具有較好的查詢結(jié)果。3.1.2非功能性需求分析1.用戶界面需求用戶界面需求如表3.1所示。表3.1用戶界面需求需求名稱詳細要求適宜性界面風(fēng)格應(yīng)符合形象以及系統(tǒng)本身的用途簡潔易用界面應(yīng)該簡潔,不應(yīng)花哨,使用戶能夠很快上手,各個操作均提供幫助一致性保證系統(tǒng)各個窗體界面風(fēng)格的一致國際化設(shè)計應(yīng)考慮國內(nèi)和國際語言和文化的差異美觀界面應(yīng)該專業(yè)美觀及時反應(yīng)信息對于處理時間較長的操作,應(yīng)有進度提示功能屏蔽對于不具備使用某功能權(quán)限的用戶,系統(tǒng)對該功能進行屏蔽2.系統(tǒng)質(zhì)量需求系統(tǒng)質(zhì)量需求如表3.2所示。表3.2系統(tǒng)質(zhì)量需求主要質(zhì)量屬性詳細要求正確性系統(tǒng)的各項功能必須能夠正確地運行健壯性具有一定容錯功能,在出現(xiàn)系統(tǒng)死機或網(wǎng)絡(luò)出現(xiàn)故障及其其他問題時候,應(yīng)能通過重新運行程序或者重啟系統(tǒng)恢復(fù)到上次正常運行時候的狀態(tài)可靠性系統(tǒng)應(yīng)能在相當(dāng)長的時間內(nèi)7*24小時運轉(zhuǎn)性能,效率響應(yīng)用戶請求不應(yīng)該超過10秒,超過的必須提供進度提示易用性操作應(yīng)該簡單方便清晰性各個模塊之間的關(guān)系應(yīng)該清晰,做到強內(nèi)聚、低耦合平安性防止非法用戶使用,對各級用戶提供不同權(quán)限可擴展性系統(tǒng)必須易于擴展功能,便于以后升級兼容性兼容多種數(shù)據(jù)庫可移植性可以移植到Linux或Unix系統(tǒng)之上3.2系統(tǒng)設(shè)計3.2.1總體結(jié)構(gòu)設(shè)計本系統(tǒng)主要實現(xiàn)以下功能:用戶上傳一張商品圖像,然后系統(tǒng)對上傳的商品圖像進行特征提取,并與效勞器中的已提取特征的商品圖像集進行匹配,由系統(tǒng)查找與用戶上傳商品圖像特征相似的商品圖像,并返回給用戶的系統(tǒng)。本系統(tǒng)總體框架結(jié)構(gòu)如圖3.1所示。數(shù)據(jù)源用戶預(yù)處理數(shù)據(jù)源用戶預(yù)處理特征提取目標(biāo)庫網(wǎng)絡(luò)爬蟲、蜘蛛程序特征提取子系統(tǒng)查詢子系統(tǒng)查詢接口檢索索引/過濾特征庫圖3.1系統(tǒng)總體框架結(jié)構(gòu)圖〔1〕查詢接口接收用戶提交的查詢商品圖像,將查詢請求傳給檢索模塊進行操作?!?〕描述模塊將用戶的查詢要求轉(zhuǎn)化為對圖像內(nèi)容的比擬抽象的內(nèi)容表達和描述,即通過圖像的分析,從而以一定的、計算機可以方便表達的數(shù)據(jù)結(jié)構(gòu)建立對圖像內(nèi)容的描述。這個模塊在圖像數(shù)據(jù)庫建庫時也需對每幅圖像進行?!?〕檢索匹配模塊檢索是指利用特征之間的距離函數(shù)來進行相似性匹配,模仿人類的認知過程,可以從特征庫中尋找匹配的特征,也可以臨時計算對象的特征。該模塊接收用戶查詢請求,對于文本的查詢直接搜索關(guān)鍵字與圖像描述,對于提交的圖像通過提取其的特征和特征庫中的圖像進行匹配,查找出符合條件的圖像集。向用戶返回匹配的結(jié)果并顯示。在圖像庫中搜索所需的圖像內(nèi)容。因為對被查詢圖像建立的表達描述也以對圖像數(shù)據(jù)庫中的圖像建立了,所以將對查詢圖的描述與圖像數(shù)據(jù)庫中被查詢的描述進行內(nèi)容匹配和比擬就可以確定它們在內(nèi)容上的一致性和相似性。這個匹配的結(jié)果將傳給提取模塊。〔4〕提取模塊根據(jù)匹配的結(jié)果在圖像數(shù)據(jù)庫中對感興趣的圖像定位,并在內(nèi)容匹配的根底上將圖像數(shù)據(jù)庫中所有滿足給定要求的圖像自動地提取出來以讓用戶使用。如果事先對圖像數(shù)據(jù)庫建立了索引,這樣在提取時就可提高效率。3.2.2功能模塊設(shè)計本系統(tǒng)主要包括數(shù)據(jù)采集、數(shù)據(jù)檢索、數(shù)據(jù)顯示和推送效勞等功能,具體功能模塊結(jié)構(gòu)如圖3.2所示?;趦?nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)數(shù)據(jù)采集數(shù)據(jù)檢索數(shù)據(jù)顯示推送效勞圖3.2系統(tǒng)功能模塊結(jié)構(gòu)圖數(shù)據(jù)采集從網(wǎng)上采集相關(guān)商品圖像以及商品信息。通過對采集的網(wǎng)頁分析,進行正那么表達式匹配,解析出DeepWeb中網(wǎng)頁中商品圖像的實際URL,有效地實現(xiàn)視商品圖像的自動批量下載。數(shù)據(jù)檢索用戶向系統(tǒng)提交一幅待查詢的例如圖像〔又稱關(guān)鍵圖像〕,然后系統(tǒng)將用戶提交的商品圖像與本地商品圖像庫進行相似比擬,檢索出符合用戶要求的商品圖像及其信息。數(shù)據(jù)顯示檢索后系統(tǒng)將滿足一定相似要求的圖像集結(jié)果反應(yīng)給用戶。搜索結(jié)果可以采用縮略圖和列表兩種顯示方式,并可以按照相似度進行排序。推送效勞通過分析用戶歷史操作記錄,然后將其推送給系統(tǒng)效勞器,效勞器根據(jù)用戶喜好對采集到的商品圖像信息進行分析判斷,并將符合條件的信息條目推送回客戶。3.2.3檢索流程設(shè)計圖像檢索子系統(tǒng)是整個系統(tǒng)的核心,系統(tǒng)根據(jù)用戶提出具體的查詢需求在圖像數(shù)據(jù)庫中進行檢索,并將結(jié)果集返回給用戶。這一階段主要需要考慮的問題包括:用戶需要的輸入形式、特征向量的相似性匹配、檢索結(jié)果的展示瀏覽、以及相關(guān)反應(yīng)的方式。因此圖像檢索子系統(tǒng)可以由查詢接口,相似性匹配,結(jié)果瀏覽及相關(guān)反應(yīng)四個模塊組成。圖像檢索的流程如圖3.3所示。開始開始用戶選擇要匹配的圖片用戶選擇要查詢的圖片類型提取用戶圖片特征向量獲取特征庫中一幅圖片的特征向量相似性計算數(shù)據(jù)庫中還有未搜索過的圖像?返回相似度較高的圖像用戶是否滿意?結(jié)束圖3.3圖像檢索流程數(shù)據(jù)存儲設(shè)計本系統(tǒng)數(shù)據(jù)庫語言采用MicrosoftSQLServer2005,數(shù)據(jù)庫名為ImageSerch,共有ImageInfo數(shù)據(jù)表、Admin數(shù)據(jù)表、User數(shù)據(jù)表、ImageFeature數(shù)據(jù)表以及Matching數(shù)據(jù)表五張表。它們的關(guān)系如圖3.4所示。圖3.4數(shù)據(jù)表關(guān)系ImageInfo數(shù)據(jù)表用來記錄商品圖像的各種信息,信息包括商品圖像網(wǎng)站介紹,商品圖像出處url,價格,產(chǎn)地,商家信息等。具體信息結(jié)構(gòu)如表3.3所示。表3.3ImageInfo表列名數(shù)據(jù)類型是否允許空是否主鍵備注idint否是表idimageIdint否否圖像編號,對應(yīng)存儲的圖像名稱namenvarchar(80)是否圖像網(wǎng)站介紹urlnvarchar(100)是否圖像出處urlkindnvarchar(10)是否類別pricenvarchar(20)是否價格productionnvarchar(20)是否貨物產(chǎn)地sexchar(2)是否物品男/女用gradenvarchar(8)是否商家等級fullUrlnvarchar(210)是否點擊圖像放大時顯示圖像的urldescribechar(1)是否該商品是否是如實描述,0為不是,1為是retirechar(1)是否該商品是否是7天退換,0為不是,1為是Admin數(shù)據(jù)表用來記錄管理員信息。具體信息如表3.4所示。表3.4Admin表列名數(shù)據(jù)類型是否允許空是否主鍵備注idint否是表idadminNamenvarchar(20)是否管理員名passWdnvarchar(20)是否登錄密碼regTimenvarchar(20)是否注冊時間User數(shù)據(jù)表用來記錄注冊用戶信息。具體信息如表3.5所示。表3.5User表列名數(shù)據(jù)類型是否允許空是否主鍵備注idint否是表iduserNamenvarchar(20)是否用戶名passWdnvarchar(20)是否登錄密碼regTimenvarchar(20)是否注冊時間ImageFeature數(shù)據(jù)表用來記錄各張商品圖像的特征的信息,包括商品圖像特征對應(yīng)的商品圖像信息表中的id,特征內(nèi)容,商品圖像類別等。具體信息如表3.6所示。表3.6ImageFeature表列名數(shù)據(jù)類型是否允許空是否主鍵備注idint否是表idimageInfoidnvarchar(40)是否圖像特征對應(yīng)的圖像信息表中的idfeatureContentnvarchar(1000)是否特征內(nèi)容kindnvarchar(20)是否圖像類別timenvarchar(20)是否提取特征時間Matching數(shù)據(jù)表用來記錄注冊用戶的歷史搜索記錄,為系統(tǒng)對用戶個性化設(shè)置提供數(shù)據(jù)根底。具體信息如表3.7所示。表3.7Matching表列名數(shù)據(jù)類型是否允許空是否主鍵備注idint否是表iduseridnvarchar(40)是否用戶idimageFeatureidnvarchar(1000)是否圖像特征表中的idtimenvarchar(20)是否搜索時間3.2.5算法設(shè)計圖像特征包括視覺特征和語義特征,如何實現(xiàn)這些特征的提取和表達是CBlR的根底和核心技術(shù),特征選取的好壞對整個CBlR系統(tǒng)有著重要的影響。圖像視覺特征包括顏色、紋理、形狀、外觀等。視覺特征又可分為一般特征和領(lǐng)域特征,前者包括顏色、紋理、形狀和物體間方位關(guān)系等,而后者根據(jù)不同的應(yīng)用有所不同,如人臉識別、指紋識別的專有特征等。本文中提到的特征都是視覺特征范疇中的一般特征。對特征提取技術(shù)的根本要求是準(zhǔn)確和快速,特征選取時要考慮以下四個原那么:(1)圖像的區(qū)分能力:應(yīng)能很好的區(qū)分視覺上差異較大的圖像(2)圖像的描述能力:一次查詢中能檢索到的最大圖像數(shù)(無關(guān)圖像排除能力(3)特征計算復(fù)雜度(4)特征的存儲空間需求圖像內(nèi)容可以理解為一個簡化了的層次模型,第一層為原始數(shù)據(jù)層,即圖像的原始像素點;第二層為物理特征層,反映了圖像內(nèi)容的低層物理特征,如顏色、紋理、形狀、輪廓、圖像內(nèi)容的空間關(guān)系和時間關(guān)系(對視頻來說)等;第三層為語義特征層,是人們對圖像內(nèi)容概念性的反映,一般是對圖像內(nèi)容的文字性描述。圖像特征的表示方法有三種:數(shù)值表示、關(guān)系表示和語義表示。譬如,圖像的顏色可用R、G、B三種數(shù)值表示,圖像中對象之間的位置關(guān)系就要用到關(guān)系表示,而語義表示方法需要對物體進行識別和解釋,往往要借助人類的知識推理。采用的表示方式不同,查詢時進行相似性比擬的算法也不一樣,如數(shù)值式的特征比擬可采用多維空間中點的距離來計算。圖像檢索所用到的根本特征大多屬于第二層特征,即顏色、紋理、形狀、輪廓空間關(guān)系等等。本系統(tǒng)涉及到的算法主要包括圖像特征提取和相似度量兩大局部。1、圖像特征提取圖像特征的提取是基于內(nèi)容的圖像檢索技術(shù)的根底。從廣義上講,圖像的特征包括基于文本〔語義〕特征〔如關(guān)鍵字、注釋等〕和視覺特征〔如色彩、紋理、形狀、對象外表等〕兩類。在本工程中,主要針對圖像視覺特征進行提取和表達。視覺特征又可分為通用的視覺特征和領(lǐng)域相關(guān)的視覺特征。前者用于描述所有圖像共有的特征,與圖像的具體內(nèi)容無關(guān),主要包括色彩、紋理和形狀;后者那么建立在對所描述圖像內(nèi)容的某些先驗知識〔或假設(shè)〕的根底上,與具體的應(yīng)用緊密有關(guān),例如人的面部特征或指紋特征等。由于領(lǐng)域相關(guān)的圖像特征主要屬于模式識別的研究范圍,在此我們就不再詳述,而只考慮通用的視覺特征。對于某個特定的圖像特征,通常又有多種不同的表達方法。由于人們主觀認識上的千差萬別,對于某個特征并不存在一個所謂的最正確的表達方式。事實上,圖像特征的不同表達方式從各個不同的角度刻畫了此特征的某些性質(zhì)。下面分為顏色、紋理和形狀特征三局部介紹?!?〕顏色特征顏色特征是在圖像檢索中應(yīng)用最為廣泛的視覺特征,主要原因在于顏色與圖像中所包含的物體或場景緊密相關(guān)。此外,與其他的視覺特征相比,顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,從而具有較高的魯棒性。在提取顏色特征時,我們首先需要選擇適宜的顏色空間來描述顏色特征,然后采用一定的量化方法將顏色特征表達為向量的形式,最后定義一種相似度〔距離〕標(biāo)準(zhǔn)用來衡量圖像之間在顏色上的相似性。在本節(jié)中,我們將主要采用顏色直方圖作為顏色特征的表示方法。顏色直方圖是在許多圖像檢索系統(tǒng)中被廣泛采用的顏色特征。它所描述的是不同色彩在整幅圖像中所占的比例,而并不關(guān)心每種色彩所處的空間位置,即無法描述圖像中的對象或物體。顏色直方圖可以是基于不同的顏色空間和坐標(biāo)系。最常用的顏色空間是RGB顏色空間,原因在于大局部的數(shù)字圖像都是用這種顏色空間表達的。然而,RGB空間結(jié)構(gòu)并不符合人們對顏色相似性的主觀判斷。因此,我們采用基于HSV空間、Luv空間和Lab空間的顏色直方圖,因為它們更接近于人們對顏色的主觀認識。其中HSV空間是直方圖最常用的顏色空間。它的三個分量分別代表色彩〔Hue〕、飽和度〔Saturation〕和值〔Value〕。從RGB空間到HSV空間的轉(zhuǎn)化公式如下所示: (1)其中r,g,b[0…1],h[0…6],且s,v[0…1]。計算顏色直方圖需要將顏色空間劃分成假設(shè)干個小的顏色區(qū)間,每個小區(qū)間成為直方圖的一個bin。這個過程稱為顏色量化〔colorquantization〕。然后,通過計算顏色落在每個小區(qū)間內(nèi)的像素數(shù)量可以得到顏色直方圖。顏色量化有許多方法,例如向量量化、聚類方法或者神經(jīng)網(wǎng)絡(luò)方法。最為常用的做法是將顏色空間的各個分量〔維度〕均勻地進行劃分。相比之下,聚類算法那么會考慮到圖像顏色特征在整個空間中的分布情況,從而防止出現(xiàn)某些bin中的像素數(shù)量非常稀疏的情況,使量化更為有效。另外,如果圖像是RGB格式而直方圖是HSV空間中的,我們可以預(yù)先建立從量化的RGB空間到量化的HSV空間的查找表,從而加快直方圖的計算過程。〔2〕紋理特征紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征。它是所有物體外表共有的內(nèi)在特性,例如云彩、樹木、磚、織物等都有各自的紋理特征。紋理特征包含了物體外表結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系,在基于內(nèi)容的圖像檢索中得到了廣泛的應(yīng)用。用戶可以通過提交包含有某種紋理的圖像來查找含有相似紋理的其他圖像。在本節(jié)中,我們將著重介紹在基于內(nèi)容的圖像檢索中采用的Tamura紋理特征。1)Tamura紋理特征基于人類對紋理的視覺感知的心理學(xué)的研究,Tamura等人提出了紋理特征的表達。Tamura紋理特征的六個分量對應(yīng)于心理學(xué)角度上紋理特征的六種屬性,分別是粗糙度〔coarseness〕、比照度〔contrast〕、方向度〔directionality〕、線像度〔linelikeness〕、規(guī)整度〔regularity〕和粗略度〔roughness〕。其中,前三個分量對于圖像檢索尤其重要。①粗糙度:粗糙度的計算可以分為以下幾個步驟進行。首先,計算圖像中大小為kk個像素的活動窗口中像素的平均強度值,即有 〔2〕其中k=0,1,…,5而g(i,j)是位于(i,j)的像素強度值。然后,對于每個像素,分別計算它在水平和垂直方向上互不重疊的窗口之間的平均強度差。 〔3〕其中對于每個像素,能使E值到達最大〔無論方向〕的k值用來設(shè)置最正確尺寸。最后,粗糙度可以通過計算整幅圖像中Sbest的平均值來得到,表達為 〔4〕粗糙度特征的另一種該進形式是采用直方圖來描述Sbest的分布,而不是像上述方法一樣簡單地計算Sbest的平均值。這種改良后的粗糙度特征能夠表達具有多種不同紋理特征的圖像或區(qū)域,因此對圖像檢索更為有利。②比照度:比照度是通過對像素強度分布情況的統(tǒng)計得到的。確切地說,它是通過來定義的,其中是四次矩而是方差。比照度是通過如下公式衡量的: 〔5〕該值給出了整個圖像或區(qū)域中比照度的全局度量。③方向度:計算方向度的需要計算每個像素所在位置上的梯度向量。該向量的模和方向分別定義為:(6)其中H和V分別是通過將圖像和以下兩個3x3操作符進行卷積操作所得的水平和垂直方向上的變化量。當(dāng)所有像素的梯度向量都被計算出來后,一個直方圖HD被構(gòu)造用來表達值。該直方圖首先對的值域范圍進行離散化,然后統(tǒng)計了每個bin中相應(yīng)的|G|大于給定閾值的像素數(shù)量。這個直方圖對于具有明顯方向性的圖像會表現(xiàn)出峰值,對于無明顯方向的圖像那么表現(xiàn)得比擬平坦。最后,圖像總體方向性可以通過計算直方圖中峰值的鋒利程度獲得,表示如下: (7)上式中的p代表直方圖中的峰值,np為直方圖中所有的峰值。對于某個峰值p,Wp代表該峰值所包含的所有的bin,而p是具有最高值的bin。(3)形狀特征物體和區(qū)域的形狀是圖像表達和圖像檢索中的另一重要的特征。不同于顏色或紋理等底層特征,形狀特征的表達必須以對圖像中物體或區(qū)域的劃分為根底。由于當(dāng)前的技術(shù)無法做到準(zhǔn)確而魯棒的自動圖像分割,圖像檢索中的形狀特征只能用于某些特殊應(yīng)用,在這些應(yīng)用中圖像包含的物體或區(qū)域可以直接獲得。另一方面,由于人們對物體形狀的變換、旋轉(zhuǎn)和縮放主觀上不太敏感,適宜的形狀特征必須滿足對變換、旋轉(zhuǎn)和縮放無關(guān),這對形狀相似度的計算也帶來了難度。通常來說,形狀特征有兩種表示方法,一種是輪廓特征的,一種是區(qū)域特征的。前者只用到物體的外邊界,而后者那么關(guān)系到整個形狀區(qū)域。本工程采用傅立葉描述符。1)傅立葉形狀描述符傅立葉形狀描述符〔Fouriershapedescriptors〕的根本思想是用物體邊界的傅立葉變換作為其形狀描述。假設(shè)一個二維物體的輪廓是由一系列坐標(biāo)為〔xs,ys〕的像素組成,其中0sN-1,而N是輪廓上像素的總數(shù)。從這些邊界點的坐標(biāo)中可以推導(dǎo)出三種形狀表達,分別是曲率函數(shù)、質(zhì)心距離和復(fù)坐標(biāo)函數(shù)。輪廓線上某點的曲率定義為輪廓切向角度相對于弧長的變化率。曲率函數(shù)K(s)可以表示為: (8)其中(s)是輪廓線的切向角度。質(zhì)心距離定義為從物體邊界點到物體中心〔xc,yc〕的距離,如下所示: (9)復(fù)坐標(biāo)函數(shù)是用復(fù)數(shù)所表示的像素坐標(biāo): (10)對這種復(fù)坐標(biāo)函數(shù)的傅立葉變換會產(chǎn)生一系列復(fù)數(shù)系數(shù)。這些系數(shù)在頻率上表示了物體形狀,其中低頻分量表示形狀的宏觀屬性,高頻分量表達了形狀的細節(jié)特征。形狀描述符可以從這些變換參數(shù)中得出。為了保持旋轉(zhuǎn)無關(guān)性,僅僅保存了參數(shù)的大小信息,而省去了相位信息??s放的無關(guān)性是通過將參數(shù)的大小除以DC分量〔或第一個非零參數(shù)〕的大小來保證的。請注意變換無關(guān)性是基于輪廓的形狀表示所固有的特點。對于曲率函數(shù)和質(zhì)心距離函數(shù),我們只考慮正頻率的坐標(biāo)軸,因為這時函數(shù)的傅立葉變換是對稱的,即有|F-i|=|Fi|?;谇屎瘮?shù)的形狀描述符表示為 (11)其中Fi表示傅立葉變換參數(shù)的第i個分量。類似的,由質(zhì)心距離所導(dǎo)出的形狀描述符為(12)對于復(fù)坐標(biāo)函數(shù),正頻率分量和負頻率分量被同時采用。由于DC參數(shù)與形狀的所處的位置有關(guān)而被省區(qū)。因此,第一個非零的頻率分量被用來對其它變換參數(shù)進行標(biāo)準(zhǔn)化。復(fù)坐標(biāo)函數(shù)所導(dǎo)出的形狀描述符為(13)為保證數(shù)據(jù)庫中所有物體的形狀特征都有相同的長度,在實施傅立葉變換之前需要將所有邊界點的數(shù)目統(tǒng)一為M。例如M可以取為2n=64,這就可以采用快速傅立葉變換來提高算法效率。2.相似度量圖像的相似性度量,是基于內(nèi)容的圖像檢索技術(shù)中一個關(guān)鍵問題。它是建立在圖像內(nèi)容的根底上,由圖像內(nèi)容的相似度得到圖像相似度的一種比擬方法。描述圖像顏色特征的方法有直方圖和顏色句柄。設(shè)描述圖像特征的顏色句柄,{(pi,wi)|p=1,…,N}表示顏色,p=(Ri,Gi,Bi)在圖像中包含wi個像素點。數(shù)據(jù)庫內(nèi)圖像顏色句柄的長度N一般是不同的,每幅圖像顏色句柄的長度由圖像本身的內(nèi)容決定。直方圖同顏色句柄有相同的表示形式,但對所有的圖像而言,直方圖對顏色空間的劃分是一致的。圖像的相似性測量用圖像之間的距離表示。距離越大,圖像之間的差異越大。反之亦然。距離有Minkowski距離、χ2統(tǒng)計距離,二次距離等。但是就本質(zhì)而言,這些方法可以被分成兩類:一一映射法和交叉映射法。一一映射法測距公式可以用下式表示:D(H,K)=DISTANCE(hi,ki)〔14〕其中H和K分別代表兩幅圖像的直方圖或顏色句柄,并且兩幅圖像直方圖簇數(shù)或顏色句柄的長度一定相等,對應(yīng)簇hi和ki之間的距離稱為根本距離。常用的屬于一一映射法的距離有:Minkowski距離:交集距離:〔16〕Kullback-Leibler距離:〔17〕χ2統(tǒng)計距離:〔18〕其中mi=(hi+ki)/2屬于交叉映射法的距離,其通用的表達式表示為:〔19〕二次距離:d2(H,K)=,其中矢量h和k分別代表直方圖或顏色句柄中的簇矢量,矩陣A=[aij],aij定義第i簇和第j簇之間的距離。本系統(tǒng)采用歐式距離作為特征相似度量的尺度。給定兩個高維特征向量:X(x1,x2,…,xd),Y(y1,y2,…,yd),那么其歐式相似距離為:(20)第4章系統(tǒng)實現(xiàn)本系統(tǒng)為用戶提供了一個快速查找網(wǎng)絡(luò)商品的平臺。系統(tǒng)開發(fā)環(huán)境采用MicrosoftWindowsXP,開發(fā)工具采用MyEclipse8.5,以及MicrosoftVisualC++6.0。系統(tǒng)架構(gòu)采用B/S結(jié)構(gòu),其中圖像數(shù)據(jù)相關(guān)信息的存儲和管理采用MicrosoftSQLServer2005數(shù)據(jù)庫。本系統(tǒng)主要支持JPG格式圖像的檢索。下面從數(shù)據(jù)采集模塊、數(shù)據(jù)檢索模塊、數(shù)據(jù)顯示模塊、數(shù)據(jù)推送模塊四個方面詳細介紹基于內(nèi)容的圖像檢索系統(tǒng)的實現(xiàn)。4.1數(shù)據(jù)采集模塊通過對采集的網(wǎng)頁分析,進行正那么表達式匹配,解析出DeepWeb中網(wǎng)頁中商品圖像的實際URL,有效地實現(xiàn)視商品圖像的自動批量下載。信息采集的流程如圖4.1所示?;谡敲幢磉_式基于正那么表達式匹配的圖像采集獲取DeepWeb網(wǎng)頁機器人〔Crawler〕預(yù)先設(shè)定的Url種子商品圖像網(wǎng)頁商品圖像圖4.1基于DeepWeb的商品圖像信息采集流程由于主要的信息內(nèi)容為各商品圖像的詳細信息,因此在對網(wǎng)絡(luò)上大多數(shù)產(chǎn)品展示及交易的網(wǎng)站,要進行篩選,應(yīng)遵循以下準(zhǔn)那么:1〕網(wǎng)站信息量要足夠大;2〕網(wǎng)頁結(jié)構(gòu)簡單,不會經(jīng)常變化,這有利于對信息的整合;3〕盡量防止動態(tài)網(wǎng)頁,因為動態(tài)網(wǎng)頁的內(nèi)容是在瀏覽網(wǎng)頁時生成的,爬蟲程序獲取網(wǎng)頁信息比擬困難。信息采集方式包括人工采集和自動采集,也可以通過人工設(shè)定網(wǎng)址和網(wǎng)頁分析url方式共同進行。本系統(tǒng)數(shù)據(jù)采集模塊實現(xiàn)采用網(wǎng)頁機器人〔Crawler〕。機器人實際上是一些基于Web的程序,通過請求Web站點上的HTML網(wǎng)頁來對采集該HTML網(wǎng)頁,它遍歷指定范圍內(nèi)的整個Web空間,不斷從一個網(wǎng)頁轉(zhuǎn)到另一個網(wǎng)頁,從一個站點移動到另一個站點,將采集到的網(wǎng)頁添加到網(wǎng)頁數(shù)據(jù)庫中。機器人每遇到一個新的網(wǎng)頁,都要搜索它內(nèi)部的所有鏈接,所以從理論上講,如果為機器人建立一個適當(dāng)?shù)某跏季W(wǎng)頁集,從這個初始網(wǎng)頁集出發(fā),遍歷所有的鏈接,機器人將能夠采集到整個Web空間的網(wǎng)頁。網(wǎng)絡(luò)機器人原理示意圖如圖4.2所示初始的初始的Url庫搶先式多線程技術(shù)高效率的調(diào)度算法一定時間內(nèi)收集到最大數(shù)量的商品圖片信息圖4.2網(wǎng)絡(luò)機器人原理示意圖機器人的運行方式為:從一組初始的URL集開始遍歷,首先將一個URL放入隊列中,隊列中記錄所有將被訪問的URL及訪問順序。spider從隊列中抽取一個URL,下載頁面,記錄該URL所指HTML文件中所有新的URL并將其參加隊列中。然后再以這些新的URL為起始點重復(fù)上述過程,直到?jīng)]有滿足條件的新URL為止。在遍歷web的過程中,spider通常將web作為一個有向圖來處理,將每一個頁面看作圖的一個節(jié)點,將頁面中的超級鏈接看作有向圖中的邊,于是可以使用有向圖的遍歷算法來對web進行遍歷。具體數(shù)據(jù)采集流程如圖4.3所示。開始開始初始化Url隊列將Url種子集參加隊列待處理隊列為空是否滿足結(jié)束條件建立多線程Url是否訪問過抓取網(wǎng)頁抓取成功相關(guān)度分析結(jié)束獲取新Url下載網(wǎng)頁是否相關(guān)待處理隊列是是否否是否是是否圖4.3信息采集過程4.2數(shù)據(jù)檢索模塊在本系統(tǒng)中涉及的數(shù)據(jù)有:圖像數(shù)據(jù),圖像特征數(shù)據(jù)和其它數(shù)據(jù)。圖像數(shù)據(jù)的存儲有兩種策略:一是把圖像數(shù)據(jù)整體存入數(shù)據(jù)庫;二是用文件管理的方式,圖像數(shù)據(jù)仍然存放在原來的文件系統(tǒng)中。前一種策略便于圖像數(shù)據(jù)的管理,圖像數(shù)據(jù)的平安性得到了保障,但是同時給數(shù)據(jù)的存取帶來了麻煩,而且圖像數(shù)據(jù)只是非結(jié)構(gòu)數(shù)據(jù),對其的操作依賴于應(yīng)用程序本身。另外圖像數(shù)據(jù)都存入數(shù)據(jù)庫中數(shù)據(jù)庫會變得非常龐大,使得圖像的檢索過程中,開銷大且對圖像數(shù)據(jù)的操作效率低。而第二種策略,在數(shù)據(jù)庫中通過存儲圖像數(shù)據(jù)的路徑來管理圖像,減小了系統(tǒng)開銷,也便于圖像顯示。因此系統(tǒng)采用第二種方法來管理圖像數(shù)據(jù)。在編程實現(xiàn)圖像顯示時,只要知道圖像數(shù)據(jù)的路徑和文件名稱,就可以通過相關(guān)函數(shù)方便的顯示圖像。本系統(tǒng)中圖像特征數(shù)據(jù)包括各個分塊的顏色直方圖和顏色布局特征。在檢索中要進行實時的匹配,需要直接從特征文件中讀取圖像的特征數(shù)據(jù),所以每個分塊的顏色直方圖數(shù)據(jù)和顏色布局特征都必須存儲在特征文件中。其它數(shù)據(jù)包括圖像的文件名、圖像的來源、圖像的類別等等,這些數(shù)據(jù)與圖像的路徑等信息一起存放在數(shù)據(jù)庫中。數(shù)據(jù)檢索模塊由查詢接口,相似性匹配2個子模塊組成。查詢接口模塊負責(zé)用戶以什么樣的方式輸入,通常輸入形式有很多種,如利用查詢語言SQL、直接給定圖像特征數(shù)值、給定待查詢圖像的類似圖像、手繪描述待查詢圖像等等。本系統(tǒng)采用例子圖像查詢作為用戶需求的輸入方式。該方法讓用戶向系統(tǒng)給出一幅待查詢的例如圖像〔又稱關(guān)鍵圖像〕,系統(tǒng)先對例如圖像提取其特征向量,然后系統(tǒng)將例如圖像提取其特征向量,然后系統(tǒng)將例如圖像與圖像數(shù)據(jù)文件中的圖像特征向量進行相似度匹配。系統(tǒng)主界面如圖4.4所示。圖4.4系統(tǒng)主界面系統(tǒng)主界面總體分上中下三局部,主局部由logo和搜索功能塊組成,用戶可以點擊瀏覽按鈕選擇本地要搜索的商品圖像進行上傳,如果想得到更精準(zhǔn)的結(jié)果,可以在類型中選擇要搜索物品的類型,減少搜索范圍,默認是在全部類別里面進行搜索。4.3數(shù)據(jù)顯示模塊數(shù)據(jù)顯示模塊負責(zé)將相似性計算后圖像數(shù)據(jù)庫中每個圖像與例如圖像的相似度值進行匹配,然后將相似的圖像顯示給用戶。搜索結(jié)果可以采用縮略圖和列表兩種顯示方式。具體結(jié)果顯示界面如圖4.5所示。圖4.5結(jié)果瀏覽界面該界面的左側(cè)為用戶上傳的商品圖像,經(jīng)過一定縮放處理后顯示,右側(cè)為搜索結(jié)果,結(jié)果信息包含了物品的價格,產(chǎn)地,商家的等級,信用保證,以及物品的名稱等信息,用戶可以直接點擊商品圖像跳轉(zhuǎn)到相應(yīng)的商鋪中進行操作。用戶可以通過點擊顯示方式動態(tài)的改變結(jié)果的顯示方式,方便不同用戶的瀏覽習(xí)慣。列表形式顯示結(jié)果的界面如圖4.6所示。圖4.6不同效果的瀏覽界面如果用戶對搜索結(jié)果不滿意,用戶那么可以通過調(diào)節(jié)相似度匹配值進行調(diào)整重新過濾結(jié)果。用戶也可以點擊相似度按鈕,對搜索的結(jié)果進行以相似度大小為依據(jù)的結(jié)果排序顯示。過濾排序界面如圖4.7所示。圖4.7過濾排序界面用戶在搜索結(jié)果區(qū)中用戶在搜索結(jié)果中還可以點擊商品圖像左上角的按鈕,進行商品圖像放大操作,以便更細致的觀察細節(jié),確定是否是自己要找的物品。界面如圖4.8所示。圖4.8商品圖像放大瀏覽界面如果用戶想對自己提交的商品圖像進行進一步的精確搜索,用戶可以點擊預(yù)覽圖下的細節(jié)搜索按鈕,對上傳的商品圖像進行重點細節(jié)截取,然后在全圖搜索的結(jié)果集中再進行搜索,細節(jié)搜索界面如圖4.9所示。圖4.9細節(jié)搜索界面如果沒有商品圖像與用戶提交的商品圖像相似,那么返回?zé)o結(jié)果界面如圖4.10所示。圖4.10無結(jié)果瀏覽界面用戶通過瀏覽界面瀏覽到系統(tǒng)返回的與例如商品圖像相似的商品圖像。如果用戶對返回的結(jié)果不滿意,用戶可以重新提交商品圖像,然后在搜索類型中選擇搜索類型,這樣可以減少搜索范圍,大幅度提高搜索結(jié)果的精準(zhǔn)性,假設(shè)用戶得到一個較為滿意的結(jié)果,那么檢索完畢。4.4數(shù)據(jù)推送模塊通過用戶的檢索記錄分析用戶喜好,然后將其推送給系統(tǒng)效勞器,效勞器根據(jù)用戶喜好對采集到的商品圖像信息進行分析判斷,并將符合條件的信息條目推送回客戶。主動個性化推送過程圖如圖4.11所示。返回結(jié)果返回結(jié)果發(fā)送請求信息推送發(fā)送定制請求定制請求互聯(lián)網(wǎng)訂閱庫推送效勞器數(shù)據(jù)效勞器圖4.11商品圖像信息主動個性化推送系統(tǒng)個性化推送界面如圖4.12所示。圖4.12商品圖像信息主動個性化推送用戶進行搜索后,在搜索結(jié)果區(qū),系統(tǒng)會自動的根據(jù)用戶歷史的搜索記錄,自動的為用戶推送相關(guān)商品圖像,并在您可能感興趣的商品區(qū)中展示給用戶。第5章盈利模式與市場營銷推廣策略5.1目標(biāo)市場隨著近年來,網(wǎng)上購物行業(yè)飛速開展,其獨特的營銷風(fēng)格,迎合了現(xiàn)代人快節(jié)奏的生活方式,網(wǎng)絡(luò)購物規(guī)模不斷擴大,根據(jù)統(tǒng)計,目前淘寶已經(jīng)有超過300萬家商戶,在線超過3億件商品,這就給在線商品圖像搜索帶來了巨大的市場機遇。根據(jù)艾瑞的統(tǒng)計,2023年購物搜索市場規(guī)模已經(jīng)超過11億,而且隨著網(wǎng)購交易規(guī)模的開展,增速也越來越快。因此在互聯(lián)網(wǎng)上海量的商品找到自己所感興趣的商品也就更加困難,然而這對網(wǎng)絡(luò)商品圖像搜索的開展創(chuàng)造了一個良好的空間?;趦?nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)的建立迎合了市場趨勢,滿足了當(dāng)前電子商務(wù)行業(yè)對網(wǎng)絡(luò)商品圖像搜索的需求。5.2盈利模式盈利模式是每個工程的生存之本。本工程的主要盈利在于廣告費和商家商品推送費。本系統(tǒng)在建設(shè)初期,明確盈利方向,以此建立起一個良性正向循環(huán)的商業(yè)模式。在系統(tǒng)建立之初,由內(nèi)容和技術(shù)開始,吸引足夠多的用戶進而形成品牌效益,然后先通過廣告形式賺取一定費用,并將利潤再投入內(nèi)容和技術(shù),繼續(xù)吸引用戶。在品牌效應(yīng)形成之后,通過收取商家的一定費用,在為用戶推送商品時優(yōu)先推送付費商家的商品,形成一個良性循環(huán)。本工程的盈利模式與現(xiàn)有搜索系統(tǒng)一樣,是假設(shè)干盈利模式的組合,如消費者免費、商家支付廣告費用,即CPS+CPC的組合等?!?〕CPS〔成交返傭模式〕+CPC〔點擊廣告付費模式〕CPS是由于本工程由于不掌握實際的生產(chǎn)資源,傭金模式就成為主要的盈利方式之一,即商家無需先付費,在搜索為其帶來買家購置商品后,按照商品成交額的一定比例支付傭金。隨著網(wǎng)絡(luò)的日益普及,網(wǎng)絡(luò)效勞收取傭金的現(xiàn)象也更加普遍,比方淘寶網(wǎng)的支付寶,對于淘寶網(wǎng)和阿里巴巴的注冊用戶是免費的,而對于兩個網(wǎng)站之外的用戶,支付寶會按交易額對其收取傭金。事實上,因為支付寶交易的平安性,許多網(wǎng)站接受其為自己的支付工具,比方瑞星殺毒軟件就接受支付寶的網(wǎng)上支付,支付寶提供應(yīng)第三方使用提取的傭金,據(jù)稱每年在100萬元以上。CPC是指廣告主預(yù)存一定費用,按消費者點擊廣告的次數(shù)進行付費。廣告主可自行控制點擊價和推廣費用,引擎根據(jù)其點擊價進行廣告位置排序,最后按點擊量進行廣告費用結(jié)算?!?〕有償發(fā)布模式有償發(fā)布是指本工程提供信息發(fā)布功能,但在發(fā)布信息時,是要付費的。通過對發(fā)布的信息收費,到達盈利的目的。有償發(fā)布商業(yè)信息主要是指商業(yè)廣告。2023年11月16日,新浪網(wǎng)發(fā)布了其第三季度未經(jīng)審計的財務(wù)報告。在截至2023年9月30日的第三季度中,新浪凈收入達10824.6萬美元,較去年同期增長16%;其中廣告收入8099.4萬美元,占凈收入的75%。由此可見,廣告收入在門戶網(wǎng)站的收入中占有很大比重。本工程也通過有償發(fā)布商業(yè)信息獲得盈利,中小企業(yè)或者一些其它網(wǎng)站可以針對性地選擇本系統(tǒng)直接投放廣告。廣告投放的位置可以采取競價的方式進行,實現(xiàn)投放廣告的企業(yè)獲得更好的廣告效益和本系統(tǒng)獲得更高的盈利的雙贏效果。例如廣告主20元/1000IP。〔3〕商家商品推送模式本系統(tǒng)因其具有其他搜索系統(tǒng)不具備的商品推送功能,根據(jù)用戶的搜索歷史,自動的推送相關(guān)的用戶可能感興趣的商品給用戶,而在推送過程中,可以根據(jù)商家的付費情況,類似于競價排名,付費多的商家商品優(yōu)先推送給用戶,提高商家買賣的成功率。5.3系統(tǒng)推廣策略基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)主要是為了提供海量商品圖像的有效索引。本工程可以與一些電子商務(wù)網(wǎng)站合作,在知名電子商務(wù)網(wǎng)站上進行推廣。搜索系統(tǒng)的目標(biāo)是廣闊網(wǎng)購用戶,在推廣策略上應(yīng)該抓住用戶的索引需求,從而吸引更多的用戶了解和使用基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)。根據(jù)系統(tǒng)建設(shè)目標(biāo),將基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)的推廣方案分為起步期、開展期、成熟期3個階段。在三個階段內(nèi)的推廣策略如圖5.1所示。圖5.1推廣過程圖在推廣初期,進行國內(nèi)外搜索引擎登錄和導(dǎo)航站的收錄。本階段主要為基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)的外部鏈接及反向鏈接數(shù)目的增加,目的是為了提高本工程較其他搜索引擎的有效性和總體排名。眾所周知,搜索引擎搜集的網(wǎng)頁數(shù)量是十分龐大的,每一個關(guān)鍵詞都對應(yīng)著很多的搜索結(jié)果,顯然排名靠后的結(jié)果很難被用戶所注意,所以提高工程的排名是至關(guān)重要的。在本系統(tǒng)投放初期,運用競價排名的方式可以快速提高其知名度。比方baidu,google這樣有償發(fā)布商業(yè)信息的訂購方式,當(dāng)用戶搜索到相應(yīng)的關(guān)鍵字時,百度可以保證付費的信息出現(xiàn)在第一頁或是特定的較為靠前的位置,等知名度提高后轉(zhuǎn)戰(zhàn)其它方式。針對性地對基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)進行優(yōu)化后,便可開始全方位的外部推廣,即開始向國內(nèi)外搜索引擎及各大分類目錄平臺提交收錄,為基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)爭取更多的搜索來源。在開展期,進行搜索引擎整合推廣。在垂直搜索引擎擁有一定量的用戶群后,有針對性地對用戶群進行廣泛的宣傳是提升知名度的重要渠道,包括建立Blog、BBS、郵件營銷、軟文推廣、網(wǎng)絡(luò)廣告及局部活動宣傳等。有效內(nèi)容的宣傳在擁有穩(wěn)定的流量之前是持續(xù)的,也是吸引有效用戶的最直接的手段,是搜索引擎開展的重要動力。〔1〕貼吧及交流群推廣包括百度貼吧、百度知道、雅虎知識堂、新浪愛問、QQ交流群、MSN交流群等及時性的推廣渠道。目前來說,該宣傳渠道是推廣本錢最低、效果最高的手段,百度貼吧、百度知道、百度百科等推廣更容易被百度搜索引擎所收錄,且排名更加靠前?!?〕口碑推廣即通過提高用戶滿意度,讓用戶主動為平臺做推廣,制造出一種廣泛的口碑營銷,這也是最為有效的推廣方式之一。常用的方法有:1〕利用各種免費效勞,如商品的推送功能,利用這些公司的口碑一傳十,十傳百到達病毒性營銷的目的。2〕制作帶有基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)的文字、Logo、地址等獨有標(biāo)記的桌面、壁紙、宣傳視頻等供用戶免費下載,能夠更迅速被網(wǎng)絡(luò)流傳?!?〕Blog推廣如今Blog不僅是人們進行深度溝通交流的方式,還可以被視為個人媒體、個人網(wǎng)絡(luò)導(dǎo)航和個人搜索引擎。Blog作為推廣工具的主要工作內(nèi)容為:1〕建立以基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)命名的Blog空間,并將用戶名稱設(shè)定為具有推廣作用的代表性文字。2〕定期在Blog中發(fā)布基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)相關(guān)的日志內(nèi)容,如最新網(wǎng)絡(luò)商品圖像、介紹性文字等;3)在各文章日志中參加本系統(tǒng)相關(guān)內(nèi)容的關(guān)鍵詞或與Blog背景色相同的地址鏈接,提高本系統(tǒng)的搜索率和點擊率。4)建立相關(guān)的交流群體,在小圈子中適當(dāng)進行口碑宣傳?!?〕郵件推廣在進行郵件推廣時,首先需要對推廣的對象進行一些針對性的考核,不能盲目的選擇郵件發(fā)放對象。我們可以從用戶需求層面著手,從其他電子商務(wù)網(wǎng)站,或相同互補類型網(wǎng)站中尋找有需要信息化效勞的用戶,有的放矢的工作才能發(fā)揮最大的效果。郵件廣告具體是指針對不同需求的用戶,如有需要展示網(wǎng)絡(luò)商品圖像的用戶、有網(wǎng)購需求的用戶、有需要尋找網(wǎng)絡(luò)商品的用戶制作不同的郵件內(nèi)容,針對其需求詳細介紹基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)所提供的效勞。郵件最好采用HTML格式,排版一定要清晰,并在頁面中參加鏈接,誘發(fā)用戶點擊,使其產(chǎn)生使用本搜索引擎的興趣。到達成熟期后,主要推廣策略包括友情鏈接、渠道網(wǎng)站聯(lián)盟等。如何將搜索引擎現(xiàn)有的資源整合開展起來是推廣的關(guān)鍵?!?〕友情鏈接策略網(wǎng)站鏈接的相關(guān)性是搜索引擎提升網(wǎng)站知名度的重要指標(biāo)。建立友情鏈接可以增加有效外部鏈接和反向鏈接,更加容易讓客戶找到我們的平臺。而友情連接并不是說越多越好,這也必須把握好一定的尺度??晒┻x擇的友情鏈接網(wǎng)站有:1〕已經(jīng)參加搜索引擎分類目錄的相關(guān)網(wǎng)站、所有主要搜索引擎中與行業(yè)相關(guān)的網(wǎng)站,都是理想的鏈接對象。2〕與競爭對手鏈接的相關(guān)網(wǎng)站。3〕容易被找到的相關(guān)網(wǎng)站:如淘寶網(wǎng)、當(dāng)當(dāng)網(wǎng)、卓越網(wǎng)等電子商務(wù)相關(guān)網(wǎng)站?!?〕利用免費資源除了免費登錄搜索引擎之外,免費公告板、免費分類廣告等都是可以利用的宣傳時機。例如:1〕免費信息發(fā)布信息發(fā)布是免費的平臺推廣的常用方法之一。將有關(guān)的平臺推廣發(fā)布在其他潛在用戶可能注意的網(wǎng)站上。適用于本搜索引擎信息發(fā)布的平臺有在線黃頁、分類廣告、供求信息匹配平臺、行業(yè)網(wǎng)站等。2〕快捷網(wǎng)址推薦合理利用網(wǎng)絡(luò)實名、通用網(wǎng)址以及其它類似的關(guān)鍵詞網(wǎng)站,以快捷訪問方式來實現(xiàn)垂直搜索引擎的推廣。快捷網(wǎng)址使用自然語言和網(wǎng)站URL建立其對應(yīng)關(guān)系,這對習(xí)慣于使用中文的用戶來說提供了極大的便利,用戶只需輸入更加容易記憶的快捷網(wǎng)址就可以訪問該網(wǎng)站。第6章財務(wù)分析搜索系統(tǒng)建立初期所籌集的資金主要用于系統(tǒng)平臺建設(shè),系統(tǒng)推廣營銷,系統(tǒng)維護費用三個方面。6.1搜索系統(tǒng)建設(shè)本錢搜索系統(tǒng)建設(shè)本錢是指搜索系統(tǒng)建設(shè)初期發(fā)生的建設(shè)費用,可分為硬件本錢、軟件本錢和其它本錢等。費用確定的依據(jù)為網(wǎng)上相關(guān)設(shè)備的報價,以及參考其他搜索系統(tǒng)的費用標(biāo)準(zhǔn)。〔1〕搜索系統(tǒng)硬件和軟件費用通過相關(guān)資料的收集以及網(wǎng)上詢價,基于內(nèi)容的網(wǎng)絡(luò)商品圖像檢索系統(tǒng)網(wǎng)站在建設(shè)時所要用到的硬件和軟件及其費用估測如表6.1所示。每年計算相關(guān)資產(chǎn)的折舊費用,計入營業(yè)費用。表6.1搜索引擎軟件與硬件費用硬件效勞器IBMSYSTEMX361013500路由器JuniperJ2350〔包轉(zhuǎn)發(fā)率750Mpps〕27000寬帶10M帶寬光纖接入30000軟件操作系統(tǒng)WindowsServer2003簡體中文版〔含10個客戶端訪問許可〕12271數(shù)據(jù)庫SQLServer2005簡體中文版〔含10個客戶端訪問許可〕12562開發(fā)平臺MicrosoftvisualStudio20057000防火墻CISCOASA5520-BUN-K9〔VPN/280000/450Mbps/console〕32000殺毒軟件瑞星2023免費總計合計1343333金額單位:元〔2〕技術(shù)人員工資技術(shù)人員工資初步定為3000元/每月,隨著搜索系統(tǒng)的投入,再根據(jù)系統(tǒng)收益情況,對技術(shù)人員進行加薪,該局部費用計入管理費用。6.2搜索引擎運行維護本錢搜索系統(tǒng)運行維護本錢是指系統(tǒng)建成投入使用后,為保障其正常運行需向網(wǎng)絡(luò)管理機構(gòu)支付的運行費用以及系統(tǒng)的技術(shù)維護和管理費用,包括搜索系統(tǒng)管理維護人員經(jīng)費、搜索系統(tǒng)設(shè)備更新以及其他開支等。搜索系統(tǒng)維護人員由技術(shù)開發(fā)人員擔(dān)任。搜索系統(tǒng)硬件與軟件更新費用平均每年10000元,該局部費用計入營業(yè)費用。6.3搜索系統(tǒng)宣傳推廣本錢搜索系統(tǒng)宣傳推廣本錢是指在搜索系統(tǒng)投入建成后對搜索系統(tǒng)進行宣傳所帶來的本錢,不同的宣傳方式所產(chǎn)生的本錢各有不同,我們主要采用媒體推廣和關(guān)系推廣方式。每年的搜索系統(tǒng)推廣費用5萬維持不變,該局部費用計入每年的營業(yè)費用。第7章風(fēng)險及對策眾所周知,風(fēng)險是無處不在的。我們的工程在實施的時候,可能會遇到各種各樣的問題和風(fēng)險。這就要求我們必須提前預(yù)測出可能出現(xiàn)的問題并做好相應(yīng)的對策,來應(yīng)對各方面的挑戰(zhàn)。7.1市場風(fēng)險及對策〔1〕風(fēng)險市場風(fēng)險主要表現(xiàn)為需求量不及預(yù)期。工程在運營初期可能會吸收不到足夠的商家和廣告加盟商,然而他們對于引擎的成長、贏利至關(guān)重要。此外由于一些網(wǎng)民不愿接受新事物,一個新的搜索引擎可能會遇到不愿意使用的用戶,這就成為系統(tǒng)進一步進入市場的障礙?!?〕對策如果沒有廣告收入,此行業(yè)是沒有生存空間的。所以應(yīng)對廣告和用戶體驗進行綜合調(diào)整,盡可能讓廣告客戶獲得廣告效益,又使得用戶獲得滿意的搜索結(jié)果??梢詫τ脩粼诓樵兘Y(jié)果出現(xiàn)后的瀏覽行為和關(guān)鍵詞輸入進行記錄,并進行有效整理統(tǒng)計分析,進而根據(jù)所獲得的相關(guān)數(shù)據(jù)進行二次應(yīng)用??梢該?jù)此對查詢結(jié)果進行重新排序,把和用戶興趣相似度高的排列在前面,以此來緩解競價排名帶來的負面影響。為了提高系統(tǒng)的普及率,需要加強與用戶的溝通,做好廣告工作,教會用戶最根本的使用方法。要利用各種資源進行品牌推廣建設(shè),通過讓用戶試用我們的系統(tǒng)進而成為會員。同時做好系統(tǒng)的實時更新,這是提高用戶滿意度和忠誠度的最有效方法。7.2技術(shù)風(fēng)險及對策〔1〕風(fēng)險基于內(nèi)容的網(wǎng)絡(luò)商

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論