




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、對象級垂直搜索1傳統(tǒng)搜索引擎頁面級的排序和檢索只抽取網(wǎng)頁的關(guān)鍵詞信息核心技術(shù)信息檢索易于使用搜索結(jié)果多而雜查詢能力有限2為什么需要對象級垂直搜索?網(wǎng)頁中包含豐富的現(xiàn)實(shí)世界對象信息用戶需要更準(zhǔn)確的信息查詢用戶感興趣的是特定對象而非網(wǎng)頁普通頁面級搜索包含太多無用信息,篩選耗費(fèi)時(shí)間,因此需要對象級垂直搜索進(jìn)行特定的對象搜索3什么是對象級垂直搜索? 對象級垂直搜索,就是以對象為檢索單位,通過扒取網(wǎng)頁中的對象信息、在結(jié)構(gòu)化數(shù)據(jù)庫中集成、提供給用戶更加強(qiáng)大的查詢功能、返回符合用戶特定需要的結(jié)果、查詢更加準(zhǔn)確的新一代網(wǎng)絡(luò)搜索。4對象級搜索VS頁面級搜索5對象級垂直搜索產(chǎn)品Libra Academic Sea
2、rch ()6對象級垂直搜索產(chǎn)品Windows Live Product Search (http:/)7對象級垂直搜索需求分析可靠性:高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)對生成直接和匯總的查詢結(jié)果是必要的完整性:數(shù)據(jù)用來提供值得信賴的查詢結(jié)果需要盡可能的完整排名精度:一個查詢有著數(shù)十億的潛在結(jié)果,因此最優(yōu)排名機(jī)制是定位有關(guān)對象的信息的關(guān)鍵度??蓴U(kuò)展性:對象級垂直搜索引擎應(yīng)包括垂直領(lǐng)域內(nèi)的所有網(wǎng)絡(luò)上和本地?cái)?shù)據(jù)庫中的信息,對象倉庫可能是巨大的,因此需要結(jié)合大型數(shù)據(jù)處理技術(shù),使結(jié)構(gòu)化數(shù)據(jù)檢索具有可擴(kuò)展性。8系統(tǒng)體系結(jié)構(gòu)與核心技術(shù)9系統(tǒng)體系結(jié)構(gòu)與核心技術(shù)抓取器和分類器(Crawler and Classifier):
3、負(fù)責(zé)自動收集所有包含特定垂直領(lǐng)域?qū)ο笮畔⒌木W(wǎng)頁/文件,被抓取的網(wǎng)頁/文件將被送到相應(yīng)的對象抽取器抽取結(jié)構(gòu)化對象信息并建立對象倉庫。對象抽取器(Object Extractor):負(fù)責(zé)從含有對象信息的網(wǎng)頁中抽取與所給定類型的對象有關(guān)的元數(shù)據(jù)。對象聚合器(Object Aggregator):每個抽取的web對象需要被映射到一個現(xiàn)實(shí)世界的對象,并存儲到Web的數(shù)據(jù)倉庫。這樣做,對象聚合器需要集成相同對象的信息并消除不同對象間的分歧。10系統(tǒng)體系結(jié)構(gòu)與核心技術(shù)對象級排名和分析(Object-level Ranking and Analysis):信息抽取和集成后,構(gòu)建web對象之間的關(guān)系圖,通過執(zhí)行
4、這個對象關(guān)系圖的鏈接分析,我們可以計(jì)算網(wǎng)絡(luò)對象的重要性,或者發(fā)現(xiàn)傳統(tǒng)網(wǎng)絡(luò)圖中無法獲得的其他有趣的知識或模式。11抓取器用節(jié)點(diǎn)表示對象,邊表示對象之間的關(guān)系,那么一個垂直領(lǐng)域的對象信息就構(gòu)成了一個對象關(guān)系圖。利用對象關(guān)系圖來指導(dǎo)扒取算法。例如學(xué)術(shù)論文搜索: 節(jié)點(diǎn):論文、作者、會議/期刊 關(guān)系:引用、撰寫、發(fā)表抓取器的最終目標(biāo)是切實(shí)有效地搜集相關(guān)網(wǎng)頁,并且完成節(jié)點(diǎn)、邊以及節(jié)點(diǎn)屬性值盡可能多的對象關(guān)系圖。12分類器與抓取器結(jié)合使用,為了保證抓取效率,分類器需要速度很快??梢允褂靡恍﹩l(fā)式算法來去掉不相關(guān)頁面,例如:在產(chǎn)品頁面分類器中,可以使用價(jià)格標(biāo)識符(例如美元符號$)來有效去除大部分的非產(chǎn)品頁面。
5、13對象抽取器由于網(wǎng)頁是基于許多不同的模板而設(shè)計(jì)的,因此如何從這些網(wǎng)頁中抽取信息是一個難點(diǎn)。一種解決方案是先區(qū)分不同的模板,根據(jù)每種模板設(shè)計(jì)抽取器。這被稱為template-dependent(模板無關(guān))的方法。但這種方法是不切實(shí)際的,因?yàn)楹茈y判斷一個網(wǎng)頁對應(yīng)的是什么模板,并且難以維護(hù)很多個面向不同模板的抽取器。14對象抽取器MSRA研究發(fā)現(xiàn)網(wǎng)頁中有很多與模板無關(guān)的特征: (1)一個網(wǎng)頁中的對象信息通常組合在一起成為一個對象塊,如圖4所示。 使用現(xiàn)有的網(wǎng)頁分割和數(shù)據(jù)記錄抽取技術(shù),可以自動檢測對象塊,這些對象塊可以進(jìn)一步分割到原子層的抽取實(shí)體,稱為對象元素。每個對象元素提供有關(guān)web對象的單一屬
6、性的部分信息。15對象抽取器(2)不同網(wǎng)站相同類型的web對象之間存在很強(qiáng)的順序性,MSRA對兩類web對象進(jìn)行了研究,分別是product pages和researchers homepages。該表說明了web對象之間的順序性,比如一個產(chǎn)品的name一定在產(chǎn)品的description之前。16對象抽取器對同類型的對象采用與模板無關(guān)的元數(shù)據(jù)抽取技術(shù),具體來說就是擴(kuò)展線性鏈條件隨機(jī)場(CRFs),它利用了順序特性的優(yōu)點(diǎn)。CRFs是無向圖模型的一種形式,它采用了鏈?zhǔn)綗o向圖結(jié)構(gòu)計(jì)算給定觀察值條件下輸出狀態(tài)的條件概率。 (1)2D CRF模型 (2)HCRF模型17對象聚合器在信息集成中有2個子問題
7、: (1)一個對象由于不一致的格式、拼寫錯誤等產(chǎn)生多個不一致的屬性值,比如說“WWW”和“World Wide Web”表示同一個意思。 (2)一個對象有除名字外的其他屬性,用來區(qū)分共享一個名字的多個對象。比如搜索“Lei Zhang”會出現(xiàn)多個不同結(jié)果。該問題在垂直搜索中很常見。18對象聚合器MSRA提出:在現(xiàn)有的對象屬性值的基礎(chǔ)上,通過對象關(guān)系圖里的對象關(guān)系來挖掘關(guān)聯(lián),作為區(qū)分姓名的附加屬性。 (1)他們方法背后的假設(shè)是:如果兩個相同的名稱是指在不同語境下的相同對象,那么它們更容易在實(shí)體關(guān)系圖中有著緊密的關(guān)聯(lián)。例如:如果兩個“Lei Zhang”是指同一個人,那么他們很可能共享一些合著者、
8、引用或者被關(guān)系鏈間接聯(lián)系。 (2)基于以上假設(shè),只有當(dāng)兩個相同名字的連接強(qiáng)度超過某個預(yù)定的閾值時(shí),它們才被認(rèn)為是指的同一個對象。19對象聚合器在現(xiàn)實(shí)應(yīng)用中,很多關(guān)系會在本地?cái)?shù)據(jù)集中丟失,比如說由于抽取技術(shù)限制,Libra中論文間的引用信息可能會丟失。因此指代同一個作者的兩個名字之間連接強(qiáng)度可能不足以達(dá)到匹配程度,所以需要除本地?cái)?shù)據(jù)集以外的更多數(shù)據(jù)。對于同一個對象的不同名稱表示,在網(wǎng)絡(luò)上它們的語境是強(qiáng)關(guān)聯(lián)的,稱之為Web Connections。并且通過它們上下文某些屬性的共現(xiàn)程度來衡量Web Connections。20對象聚合器采用Web Connections識別對象,MSRA發(fā)現(xiàn): a)
9、在不同網(wǎng)站中,一個給定類型的對象的分布規(guī)律符合冪律分布( )。如圖所示,只有很少的網(wǎng)站具有高覆蓋率,相對較高覆蓋率的網(wǎng)站大多是那些提供文件搜索服務(wù)或著名研究機(jī)構(gòu)的網(wǎng)站。21對象聚合器 b)對于一些小網(wǎng)站,某個對象的覆蓋率可能會很低(稱之為small hubs),但出現(xiàn)兩個相同的名稱時(shí)很有可能表示同一個對象。 c)通過利用一些對象類型進(jìn)行幾次探測從而發(fā)現(xiàn)覆蓋率高的大網(wǎng)站(稱為big hubs)是可行的,并且big hubs數(shù)量是有限的,如圖所示:我們可以從該圖中發(fā)現(xiàn),探測次數(shù)超過600次以后,發(fā)現(xiàn)的big hubs數(shù)量基本不再變化。22對象聚合器通過以上3點(diǎn)分析,MSRA通過以下方法判斷兩個對象
10、是否為同一個對象: a)如果兩個對象的上下文信息在一個small hub中被發(fā)現(xiàn),那么它們是同一個對象。 b)如果兩個對象沒有在small hubs中共現(xiàn),則需要計(jì)算它們在big hubs中的連接強(qiáng)度,由于big hubs數(shù)量是有限的,因此可以制定一個計(jì)算方法計(jì)算它們的連接強(qiáng)度。23對象聚合器對象集成總結(jié): a)使用覆蓋閾值來確定哪些網(wǎng)站/網(wǎng)頁是small hubs。 b)使用訓(xùn)練數(shù)據(jù),憑經(jīng)驗(yàn)選擇一個好的覆蓋閾值。 c)每次嘗試多個閾值,觀察結(jié)果的精度,一般來說,閾值越高,精度越低,因此需要設(shè)置一個相對保守的閾值來保證精度。24對象級排名和分析可以應(yīng)用連接分析技術(shù)有效計(jì)算出網(wǎng)頁對象的受關(guān)注度,
11、但是因?yàn)閷ο髨D的獨(dú)特特征,需要的技術(shù)也不一樣。對于連接分析,對象圖最獨(dú)特的特征是連接的異質(zhì)性。對象之間的相互連接類型不同。如一個論文對象被其他論文對象引用,被一組作者對象撰寫,被一個會議/期刊對象刊登。而這三種連接具有不同的語義。傳統(tǒng)的鏈接分析方法(包括PageRank、HITS)假定這些鏈接具有相同的“endorsement”語義,并且同等重要,直接應(yīng)用這些方法會導(dǎo)致不合理的流行度排名。25對象級排名和分析使用PopRank模型: PopRank是一種衡量對象圖中web對象的受關(guān)注程度的方法。 PopRank對PageRank模型進(jìn)行擴(kuò)展,對每個鏈接指向的對象增加一個流行度傳播因子(PPF,popularity propagation factor),對不同的關(guān)系類型使用不同的PPF。例如,對指向論文對象的鏈接,對三種不同的關(guān)系cited-by, authored-by and published-by,我們需要三個PPF,如圖所示:26框架一旦我們從網(wǎng)絡(luò)上扒取、抽取、集成對象,我們需要一個有效的框架來存儲、索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)六英語試卷答案
- 賣魚銷售合同范本
- 個人一周工作計(jì)劃
- 冷凍品供貨合同范本
- 醫(yī)院規(guī)培合同范本
- 加油站清洗工程合同范本
- 一建貨運(yùn)合同范本
- 代理運(yùn)營品牌合同范本
- 保管車輛協(xié)議合同范例
- 出租破屋改造合同范本
- 2025包頭青山賓館有限公司面向社會公開招聘18人筆試參考題庫附帶答案詳解
- 課件-DeepSeek從入門到精通
- 2025至2030年中國毛絨卡通玩具數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年度智能充電樁場地租賃合同范本3篇
- 2024年蕪湖職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 北師大版三年級下冊數(shù)學(xué)口算題練習(xí)1000道帶答案
- 技術(shù)推廣服務(wù)合同模板五篇
- 《智能制造技術(shù)基礎(chǔ)》課件-第3章 智能制造加工技術(shù)
- 心電監(jiān)護(hù)儀的操作及注意事項(xiàng) 課件
- GB/T 718-2024鑄造用生鐵
評論
0/150
提交評論