垂直搜索引擎_第1頁
垂直搜索引擎_第2頁
垂直搜索引擎_第3頁
垂直搜索引擎_第4頁
垂直搜索引擎_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

針對某一個行業(yè)的專業(yè)搜索引擎垂直搜索引擎01簡介工作模式與通用搜索的區(qū)別數(shù)據(jù)特點特點關(guān)鍵技術(shù)目錄030502040607應(yīng)用價值發(fā)展趨勢應(yīng)用領(lǐng)域目錄0908基本信息垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是根據(jù)特定用戶的特定搜索請求,對站(頁)庫中的某類專門信息進行深度挖掘與整合后,再以某種形式將結(jié)果返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,通過針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的、有特定用途的信息和相關(guān)服務(wù)。簡介簡介垂直搜索引擎(VerticalSearchEngines),是與綜合(或通用)搜索引擎相對的一個概念,就是有針對性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供有專門的信息檢索服務(wù),以滿足用戶個性化的信息需求。垂直搜索引擎也常常被稱為專業(yè)搜索引擎(SpecialtySearchEngines)、專題搜索引擎(TopicalSearchEngines),是通過對專業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進行專業(yè)和深入的分析挖掘、過濾篩選,信息定位為更精準(zhǔn)的專業(yè)搜索,實際上是搜索引擎的細分和延伸。

垂直搜索引擎的價值在于其占有的信息資源的數(shù)量,能否提供全面權(quán)威的行業(yè)信息,能否最大限度擁有行業(yè)資源是垂直搜索引擎發(fā)展的關(guān)鍵。從某種意義上講,行業(yè)門戶站是垂直搜索引擎嫡親的父母,同時也是往往不能分割的有機整體。數(shù)據(jù)特點數(shù)據(jù)特點(1)數(shù)據(jù)來源垂直搜索引擎的數(shù)據(jù)來源有兩個方面:①來源于所處行業(yè)的相關(guān)站點。②來源于自身平臺:來源于自身平臺的搜索常被認(rèn)為是“站內(nèi)搜索”。但是,當(dāng)某一平臺上的信息達到足夠量大的時候,其實就是一種垂直搜索。況且,垂直搜索本身就是從這些行業(yè)站點提取出數(shù)據(jù)的。(2)數(shù)據(jù)特性垂直搜索引擎的數(shù)據(jù)傾向于結(jié)構(gòu)化和格式化。例如,在某個購物類的垂直搜索引擎上輸入“MP3”就會出現(xiàn)該產(chǎn)品的相關(guān)屬性,如內(nèi)存、尺寸、大小、電池型號、價格、生產(chǎn)廠家等相關(guān)技術(shù)屬性,有的還提供比價服務(wù)。在某餐飲搜索引擎的高級搜索針對一家餐館的搜索屬性設(shè)置多達300個選項,把想到和沒想到都列出來了,這就把搜索服務(wù)專業(yè)化、細致化、個性化了

。工作模式工作模式就垂直搜索引擎的工作模式來說,很多垂直搜索引擎是依靠人工或者半人工的方式來提取結(jié)構(gòu)化信息的,但近年智能化的非結(jié)構(gòu)化信息提取技術(shù)取得了重大進展,在一些領(lǐng)域也得到了有效應(yīng)用。具體而言,垂直搜索引擎的Spider更加專業(yè)化和可定制化,其能夠定向采集與垂直搜索范圍相關(guān)的頁,對內(nèi)容相關(guān)的以及適于進一步處理的頁進行優(yōu)先采集。其信息采集可以通過人工設(shè)定和頁分析等方式共同進行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶。比如,購物搜索引擎的整體工作流程大致如下:在Spider抓取頁后,對頁中的商品信息進行抽取,抽取出商品名稱、價格、簡介等信息,然后對信息進行比較、去重、分類,最后提供給用戶搜索,還可以通過分析挖掘為用戶提供市場行情報告。

特點特點①實時性:垂直搜索引擎需要獲取的信息來自于某一特定領(lǐng)域,這比起通用搜索引擎漫無邊際的信息抓取,有一個非常大的優(yōu)勢,那就是信息的實時性。由于互聯(lián)上的信息量非常巨大,通用搜索引擎的數(shù)據(jù)更新周期短則十幾天,長則幾個月,而垂直搜索引擎的數(shù)據(jù)更新完全可以以秒為單位。②數(shù)據(jù)挖掘分析、BI、報表:行業(yè)的歷史發(fā)展、最新動向、趨勢都是行業(yè)從業(yè)人員非常的話題。垂直搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價值的信息增值服務(wù)。③個性化、社會化;查詢服務(wù)只是垂直搜索引擎的一部分,垂直搜索引擎在用戶的個性化方向的發(fā)展非常重要。垂直搜索引擎不能只提供一個窗口,它應(yīng)該是一個用戶高度參與交互的社會化平臺。這不光是用戶粘度、忠誠度的問題,更為重要的是,垂直搜索引擎需要能夠獲取并且分析用戶的偏好信息,從而提供更加完善而且準(zhǔn)確的數(shù)據(jù)服務(wù)。④智能化語義:語義(semanticweb)將有可能成為下一代互聯(lián),此類絡(luò)上的數(shù)據(jù)和信息將被計算機程序所理解。這將為垂直搜索引擎提供一個巨大的機會,Spider程序如果能理解絡(luò)上的數(shù)據(jù),將對信息的收集和整理更加準(zhǔn)確和專業(yè),搜索服務(wù)的查全率和查準(zhǔn)率將更高。⑤多元化查詢:目前的搜索引擎,都只局限于關(guān)鍵字搜索,其中主要的原因是,對用戶的查詢需求無法建模,無法模式化。而關(guān)鍵字搜索帶來的問題是,搜索結(jié)果過多,并且不準(zhǔn)確。與通用搜索的區(qū)別與通用搜索的區(qū)別(1)信息處理的區(qū)別垂直搜索引擎和普通的頁搜索引擎的最大區(qū)別是對頁信息進行了結(jié)構(gòu)化信息抽取,也就是將頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比頁搜索是以頁為最小單位,基于視覺的頁塊分析是以頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進一步的加工處理,如去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。舉個例子來說明會更容易理解,比如購物搜索引摹,整體流程大致如下:抓取頁后,對頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本式計算機簡介細分成品牌、型號、CPU、內(nèi)存、硬盤、顯示屏……然后對信息進行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。在整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。(2)信息采集的區(qū)別垂直搜索引擎技術(shù)同信息采集技術(shù)不同的是,信息采集主要是將采集的信息導(dǎo)入本地數(shù)據(jù)庫,而垂直搜索引擎主要是以頁的形式展現(xiàn)給用戶。關(guān)鍵技術(shù)關(guān)鍵技術(shù)由于垂直搜索引擎服務(wù)具有其自身的特性,因此其技術(shù)要求特點上與通用搜索引擎有很多不同之處,主要有四大關(guān)鍵技術(shù)。(1)聚焦、實時和可管理的頁采集技術(shù)一般互聯(lián)搜索面向全信息,采集的范圍廣、數(shù)量大,但往往由于更新周期的要求,采集的深度或說層級比較淺,采集動態(tài)頁優(yōu)先級比較低,因而被稱為水平搜索。而垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標(biāo),所以只對局部來源的頁進行采集,采集的頁數(shù)量適中。但其要求采集的頁全面,必須達到更深的層級,采集動態(tài)頁的優(yōu)先級也相對較高。在實際應(yīng)用中,垂直搜索的頁采集技術(shù)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動態(tài)頁采集,即采集技術(shù)要能達到更加聚焦、縱深和可管控的需求,并且頁信息更新周期也更短,獲取信息更及時。(2)從非結(jié)構(gòu)化內(nèi)容到結(jié)構(gòu)化數(shù)據(jù)的頁解析技術(shù)水平搜索引擎僅能對頁的標(biāo)題和正文進行解析和提取,但不提供其時間、來源、作者及其他元數(shù)據(jù)的解析和提取。由于垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時間、來源、作者及其他元數(shù)據(jù)解析,包括對頁中特定內(nèi)容的提取。應(yīng)用價值應(yīng)用價值垂直搜索從海量的商訊中直接選出用戶最需要的供求信息、買(賣)家背景資料、交易方式、服務(wù)跟蹤等,它既是大量相關(guān)產(chǎn)品、企業(yè)信息的展示平臺,又是行業(yè)站、電子商務(wù)的聚合平臺,中小企業(yè)通過它可獲得傳統(tǒng)門戶站、通用搜索無法提供的閉合式絡(luò)體驗,這種附加值就是細分市場巨大的商業(yè)價值所在。總結(jié)起來,垂直搜索引擎在企業(yè)中的應(yīng)用價值包括:1.整合企業(yè)內(nèi)外資源,打造企業(yè)競爭情報系統(tǒng)的核心引擎企業(yè)的競爭情報信息既包括外部的互聯(lián)信息、商業(yè)數(shù)據(jù)庫信息等,也包括內(nèi)部的辦公文檔資料、內(nèi)部交流信息等。垂直搜索引擎是整合這些內(nèi)外信息資源的有效手段之一,在資源整合的基礎(chǔ)上,形成以情報規(guī)劃、情報采集、情報加工、情報服務(wù)、評估反饋為全生命周期的、完善的、統(tǒng)一的企業(yè)競爭情報平臺,為企業(yè)的風(fēng)險預(yù)警和決策支持提供信息服務(wù)。2.高效采集和組織管理企業(yè)內(nèi)外門戶信息,使信息共享更加便捷、有序隨著企業(yè)信息化的發(fā)展和深入,為了提高企業(yè)內(nèi)部、企業(yè)和客戶、企業(yè)和供應(yīng)商之間的信息傳遞和共享速度,加速企業(yè)的業(yè)務(wù)進程,大部分企業(yè)(特別是分支機構(gòu)較多的大型集團性企業(yè))都建立了內(nèi)外服務(wù)門戶,以便通過垂直搜索引擎高效地采集內(nèi)外門戶信息,為企業(yè)職工、客戶、供應(yīng)商提供統(tǒng)一的信息檢索入口,并通過權(quán)限控制實現(xiàn)安全的檢索服務(wù),使得信息的傳遞和共享更加便捷和有序。

應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業(yè)、各類信息都可以進一步細化成各類垂直搜索引擎。(一)音樂搜索除必應(yīng)外,各搜索引擎都提供了音樂搜索服務(wù),支持各種格式的音樂文件的搜索,并提供了各種榜單、音樂專題和挑歌功能。(二)視頻搜索除了谷歌,其他的搜索引擎都有其獨立的視頻搜索頁面,并提供了視頻分類搜索。(三)新聞搜索各搜索引擎都提供了分類搜索,例如,百度提供了國際、國內(nèi)、體育、娛樂等16個分類的新聞搜索。(四)圖書搜索目前僅有百度與谷歌提供了圖書搜索的服務(wù),因為涉及到版權(quán)的關(guān)系,只有那些已不再受版權(quán)保護或出版商已發(fā)展趨勢發(fā)展趨勢隨著新技術(shù)的發(fā)展和門檻的降低,垂直搜素引擎將向著以下適應(yīng)不同用戶需求的方向不斷發(fā)展。(1)目錄精細化方向發(fā)展。由于垂直搜索引擎相對于綜合搜素引擎的最大優(yōu)勢,是對信息進行深度的、精細化的處理。與早期的分類搜索引擎相似,但垂直搜素引擎只選定了某一特定行業(yè)或某一主題進行目錄的細化分類,結(jié)合機器抓取行業(yè)相關(guān)站點的信息提供專業(yè)化的搜素服務(wù)。這種專業(yè)化的分類目錄,很容易讓用戶迅速知道自己要找的是什么,并且按目錄點擊就能找到。未來的垂直搜素引擎將會更加精細的劃分不同的行業(yè),用戶想要什么就可以得到什么。(2)深度挖掘分析元數(shù)據(jù)。其特點是:元數(shù)據(jù)模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論