




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
模塊3信息檢索項(xiàng)目2檢索平臺(tái)信息垂直搜索引擎分析常見(jiàn)的文獻(xiàn)垂直搜索引擎項(xiàng)目2檢索平臺(tái)信息一、垂直搜索引擎分析(1)定義垂直搜索引擎是通過(guò)對(duì)專(zhuān)業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專(zhuān)業(yè)和深入的分析挖掘、過(guò)濾篩選,信息定位為更精準(zhǔn)的專(zhuān)業(yè)搜索。垂直搜索引擎能夠定向采集與垂直搜索范圍相關(guān)的網(wǎng)頁(yè),對(duì)內(nèi)容相關(guān)的以及適于進(jìn)一步處理的網(wǎng)頁(yè)進(jìn)行優(yōu)先采集。其信息采集可以通過(guò)人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶(hù),工作原理如圖3-12所示。圖3-12垂直搜索引擎工作原理一、垂直搜索引擎分析(2)數(shù)據(jù)來(lái)源垂直搜索引擎的數(shù)據(jù)來(lái)源有兩個(gè)方面:①來(lái)源于所處行業(yè)的相關(guān)站點(diǎn)。②來(lái)源于自身平臺(tái):來(lái)源于自身平臺(tái)的搜索常被認(rèn)為是“站內(nèi)搜索”。(3)數(shù)據(jù)特性垂直搜索引擎的數(shù)據(jù)傾向于結(jié)構(gòu)化和格式化。例如,在某個(gè)購(gòu)物類(lèi)的垂直搜索引擎上輸入“MP3”就會(huì)出現(xiàn)該產(chǎn)品的相關(guān)屬性,如內(nèi)存、尺寸、大小、電池型號(hào)、價(jià)格、生產(chǎn)廠家等相關(guān)技術(shù)屬性,有的還提供比價(jià)服務(wù)。在某餐飲搜索引擎的高級(jí)搜索針對(duì)一家餐館的搜索屬性設(shè)置多達(dá)300個(gè)選項(xiàng),把想到和沒(méi)想到都列出來(lái)了,這就把搜索服務(wù)專(zhuān)業(yè)化、細(xì)致化、個(gè)性化了。一、垂直搜索引擎分析(4)工作模式就垂直搜索引擎的工作模式來(lái)說(shuō),很多垂直搜索引掌是依靠人工或者半人工的方式來(lái)提取結(jié)構(gòu)化信息的,但近年智能化的非結(jié)構(gòu)化信息提取技術(shù)取得了重大進(jìn)展,在一些領(lǐng)域也得到了有效應(yīng)用。具體而言,垂直搜索引擎的Spider更加專(zhuān)業(yè)化和可定制化,其能夠定向采集與垂直搜索范圍相關(guān)的網(wǎng)頁(yè),對(duì)內(nèi)容相關(guān)的以及適于進(jìn)一步處理的網(wǎng)頁(yè)進(jìn)行優(yōu)先采集。其信息采集可以通過(guò)人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶(hù)。比如,購(gòu)物搜索引擎的整體工作流程大致如下:在Spider抓取網(wǎng)頁(yè)后,對(duì)網(wǎng)頁(yè)中的商品信息進(jìn)行抽取,抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介等信息,然后對(duì)信息進(jìn)行比較、去重、分類(lèi),最后提供給用戶(hù)搜索,還可以通過(guò)分析挖掘?yàn)橛脩?hù)提供市場(chǎng)行情報(bào)告。
一、垂直搜索引擎分析(5)特點(diǎn)①實(shí)時(shí)性:垂直搜索引擎需要獲取的信息來(lái)自于某一特定領(lǐng)域,這比起通用搜索引擎漫無(wú)邊際的信息抓取,有一個(gè)非常大的優(yōu)勢(shì),那就是信息的實(shí)時(shí)性。②數(shù)據(jù)挖掘分析、BI、報(bào)表:行業(yè)的歷史發(fā)展、最新動(dòng)向、趨勢(shì)都是行業(yè)從業(yè)人員非常關(guān)注的話題。垂直搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。③個(gè)性化、社會(huì)化;查詢(xún)服務(wù)只是垂直搜索引擎的一部分,垂直搜索引掌在用戶(hù)的個(gè)性化方向的發(fā)展非常重要。④智能化語(yǔ)義網(wǎng):語(yǔ)義網(wǎng)(semanticweb)將有可能成為下一代互聯(lián)網(wǎng),此類(lèi)網(wǎng)絡(luò)上的數(shù)據(jù)和信息將被計(jì)算機(jī)程序所理解。⑤多元化查詢(xún):目前的搜索引擎,都只局限于關(guān)鍵字搜索,其中主要的原因是,對(duì)用戶(hù)的查詢(xún)需求無(wú)法建模,無(wú)法模式化。一、垂直搜索引擎分析(6)應(yīng)用領(lǐng)域垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業(yè)、各類(lèi)信息都可以進(jìn)一步細(xì)化成各類(lèi)垂直搜索引擎。求職搜索可以在應(yīng)屆生求職網(wǎng)、智聯(lián)招聘、Boss直聘、51Job等正規(guī)知名求職門(mén)戶(hù)網(wǎng)站,完成求職信息的垂直檢索。音樂(lè)搜索除必應(yīng)外,各搜索引擎都提供了音樂(lè)搜索服務(wù),支持各種格式的音樂(lè)文件的搜索,并提供了各種榜單、音樂(lè)專(zhuān)題和挑歌功能。一、垂直搜索引擎分析(6)應(yīng)用領(lǐng)域垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業(yè)、各類(lèi)信息都可以進(jìn)一步細(xì)化成各類(lèi)垂直搜索引擎。求職搜索可以在應(yīng)屆生求職網(wǎng)、智聯(lián)招聘、Boss直聘、51Job等正規(guī)知名求職門(mén)戶(hù)網(wǎng)站,完成求職信息的垂直檢索。音樂(lè)搜索除必應(yīng)外,各搜索引擎都提供了音樂(lè)搜索服務(wù),支持各種格式的音樂(lè)文件的搜索,并提供了各種榜單、音樂(lè)專(zhuān)題和挑歌功能。一、垂直搜索引擎分析(6)應(yīng)用領(lǐng)域視頻搜索除了谷歌,其他的搜索引擎都有其獨(dú)立的視頻搜索頁(yè)面,并提供了視頻分類(lèi)搜索。新聞搜索各搜索引擎都提供了分類(lèi)搜索,例如,百度提供了國(guó)際、國(guó)內(nèi)、體育、娛樂(lè)等16個(gè)分類(lèi)的新聞搜索。圖書(shū)搜索目前僅有百度與谷歌提供了圖書(shū)搜索的服務(wù),因?yàn)樯婕暗桨鏅?quán)的關(guān)系,只有那些已不再受版權(quán)保護(hù)或出版商已授權(quán)搜索引擎的圖書(shū),才會(huì)提供給用戶(hù)預(yù)覽。只有在某些情況下,用戶(hù)才可以查看全文內(nèi)容,如公眾領(lǐng)域的圖書(shū)。對(duì)于那些無(wú)法預(yù)覽或下載的圖書(shū),搜索引擎則提供了借閱或購(gòu)買(mǎi)該書(shū)的渠道。一、垂直搜索引擎分析(6)應(yīng)用領(lǐng)域地圖搜索地圖搜索一般用于公交、行車(chē)路線的搜索,但大多數(shù)搜索引擎都集合了其他生活信息的搜索,如餐飲、住宿、出游、企業(yè)等信息的搜索。財(cái)經(jīng)搜索財(cái)經(jīng)搜索主要提供股市報(bào)價(jià)、資訊、貨幣匯率等信息的搜索,目前僅有谷歌和百度提供了財(cái)經(jīng)信息的垂直搜索。圖片搜索各搜索引擎都提供了圖片搜索服務(wù),并提供了內(nèi)容類(lèi)型、圖片尺寸、文件類(lèi)型、圖片顏色、圖片版式甚至圖片風(fēng)格等條件的限定搜索。必應(yīng)、谷歌提供的是一頁(yè)式瀏覽結(jié)果,其他幾款搜索引擎提供的則是傳統(tǒng)的分頁(yè)式瀏覽。
一、垂直搜索引擎分析(5)特點(diǎn)①實(shí)時(shí)性:垂直搜索引擎需要獲取的信息來(lái)自于某一特定領(lǐng)域,這比起通用搜索引擎漫無(wú)邊際的信息抓取,有一個(gè)非常大的優(yōu)勢(shì),那就是信息的實(shí)時(shí)性。②數(shù)據(jù)挖掘分析、BI、報(bào)表:行業(yè)的歷史發(fā)展、最新動(dòng)向、趨勢(shì)都是行業(yè)從業(yè)人員非常關(guān)注的話題。垂直搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。③個(gè)性化、社會(huì)化;查詢(xún)服務(wù)只是垂直搜索引擎的一部分,垂直搜索引掌在用戶(hù)的個(gè)性化方向的發(fā)展非常重要。④智能化語(yǔ)義網(wǎng):語(yǔ)義網(wǎng)(semanticweb)將有可能成為下一代互聯(lián)網(wǎng),此類(lèi)網(wǎng)絡(luò)上的數(shù)據(jù)和信息將被計(jì)算機(jī)程序所理解。⑤多元化查詢(xún):目前的搜索引擎,都只局限于關(guān)鍵字搜索,其中主要的原因是,對(duì)用戶(hù)的查詢(xún)需求無(wú)法建模,無(wú)法模式化。二、常見(jiàn)的文獻(xiàn)垂直搜索引擎1.普通文獻(xiàn)檢索普通文獻(xiàn)主要指期刊和圖書(shū)。國(guó)內(nèi)期刊檢索工具常用的有中國(guó)知網(wǎng)(CNKI)、萬(wàn)方數(shù)據(jù)資源系統(tǒng)、維普中文科技期刊數(shù)據(jù)庫(kù)等,國(guó)外期刊檢索工具有SpringerLink、Elsevier、RSC電子期刊等。圖書(shū)檢索系統(tǒng)有超星、讀秀、書(shū)生之家等。二、常見(jiàn)的文獻(xiàn)垂直搜索引擎2.特殊文獻(xiàn)檢索
(1)學(xué)位論文國(guó)內(nèi)論文收藏單位有中國(guó)科學(xué)技術(shù)信息研究所、國(guó)家圖書(shū)館、清華大學(xué)圖書(shū)館等。常用的學(xué)位論文數(shù)據(jù)庫(kù)有中國(guó)優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫(kù)、中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)、PQDD國(guó)外學(xué)位論文數(shù)據(jù)庫(kù)等。(2)會(huì)議文獻(xiàn)
會(huì)議文獻(xiàn)可以通過(guò)館藏印刷型會(huì)議文獻(xiàn)、文摘型會(huì)議論文數(shù)據(jù)庫(kù)、全文型會(huì)議論文數(shù)據(jù)庫(kù)、館外會(huì)議文獻(xiàn)等進(jìn)行檢索。中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù)是檢索會(huì)議文獻(xiàn)的主要工具,中國(guó)學(xué)術(shù)會(huì)議在線是獲取會(huì)議信息的主要網(wǎng)站。也可在中國(guó)知網(wǎng)檢索項(xiàng)中選擇會(huì)議文獻(xiàn)進(jìn)行檢索,如圖3-13所示二、常見(jiàn)的文獻(xiàn)垂直搜索引擎2.特殊文獻(xiàn)檢索(3)專(zhuān)利信息我國(guó)專(zhuān)利分為發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利三類(lèi)。專(zhuān)利文獻(xiàn)是申請(qǐng)或批準(zhǔn)的專(zhuān)利信息,包含專(zhuān)利的研究、設(shè)計(jì)、開(kāi)發(fā)、試驗(yàn)成果及專(zhuān)利所有者、專(zhuān)利申請(qǐng)批準(zhǔn)證書(shū)等信息。檢索中國(guó)專(zhuān)利可以登錄中國(guó)知識(shí)產(chǎn)權(quán)局專(zhuān)利檢索、中國(guó)專(zhuān)利信息網(wǎng)(圖3-14)。圖3-14中國(guó)專(zhuān)利信息網(wǎng)二、常見(jiàn)的文獻(xiàn)垂直搜索引擎2.特殊文獻(xiàn)檢索(4)科技報(bào)告。
科技報(bào)告是對(duì)科學(xué)技術(shù)研究結(jié)果的報(bào)告或研究進(jìn)展的記錄,它可以是科研成果的總結(jié),也可以是科研進(jìn)展情況的實(shí)際記錄??萍紙?bào)告大多涉及最新的科學(xué)研究成果,論述詳細(xì)具體,提供眾多可供參考的數(shù)據(jù)、圖表和成敗經(jīng)驗(yàn)。美國(guó)政府報(bào)告數(shù)據(jù)庫(kù)(NTIS)收錄了美國(guó)政府立項(xiàng)研究及開(kāi)發(fā)的項(xiàng)目報(bào)告。(5)標(biāo)準(zhǔn)文獻(xiàn)。標(biāo)準(zhǔn)文獻(xiàn)是按照規(guī)定程序編制并經(jīng)過(guò)一個(gè)公認(rèn)的權(quán)威機(jī)構(gòu)批準(zhǔn)的,供在一定范圍內(nèi)廣泛而多次使用,包括一整套在特定活動(dòng)領(lǐng)域必須執(zhí)行的規(guī)格、定額、規(guī)劃、要求的技術(shù)文件。檢索我國(guó)各類(lèi)標(biāo)準(zhǔn)的工具有國(guó)家市場(chǎng)監(jiān)督管理總局、中國(guó)認(rèn)證信息網(wǎng)、中國(guó)標(biāo)準(zhǔn)化協(xié)會(huì)等
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢節(jié)醫(yī)學(xué)高等專(zhuān)科學(xué)校《工程結(jié)構(gòu)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海市民辦新竹園中學(xué)2024年化學(xué)九年級(jí)第一學(xué)期期末達(dá)標(biāo)測(cè)試試題含解析
- 環(huán)境保護(hù)領(lǐng)域研究性學(xué)習(xí)報(bào)告范文
- 免疫性血小板減少癥合并動(dòng)靜脈血栓的臨床特征與防治策略研究
- 產(chǎn)科護(hù)理信息化建設(shè)計(jì)劃
- 醫(yī)院感染預(yù)防與控制責(zé)任小組職責(zé)
- 新能源光伏EPC總承包項(xiàng)目分包和采購(gòu)計(jì)劃
- 四年級(jí)下冊(cè)家庭安全教育教學(xué)計(jì)劃
- 水利樞紐施工文明施工技術(shù)組織措施
- 英語(yǔ)口語(yǔ)社社團(tuán)公益講座策劃計(jì)劃
- 圍手術(shù)期患者血液管理指南
- 漏肩風(fēng)(肩周炎)中醫(yī)臨床路徑及入院標(biāo)準(zhǔn)2020版
- 光面爆破知識(shí)講座課件
- 工程結(jié)構(gòu)檢測(cè)鑒定與加固第1章工程結(jié)構(gòu)檢測(cè)鑒定與加固概論課件
- 高鐵站裝飾裝修方案
- DB4401-T 112.1-2021 城市道路占道施工交通組織和安全措施設(shè)置+第1部分:交通安全設(shè)施設(shè)置-(高清現(xiàn)行)
- 質(zhì)量整改通知單(樣板)
- 杭州市高級(jí)中學(xué)2022年高一新生素質(zhì)測(cè)試(分班考)模擬試卷
- 《碳纖維片材加固混凝土結(jié)構(gòu)技術(shù)規(guī)程》(2022年版)
- 短視頻:策劃+拍攝+制作+運(yùn)營(yíng)課件(完整版)
- 預(yù)制場(chǎng)(梁場(chǎng))建設(shè)方案
評(píng)論
0/150
提交評(píng)論