百萬量級的細粒度查詢意圖識別_第1頁
百萬量級的細粒度查詢意圖識別_第2頁
百萬量級的細粒度查詢意圖識別_第3頁
百萬量級的細粒度查詢意圖識別_第4頁
百萬量級的細粒度查詢意圖識別_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、星辰系統(tǒng):百萬量級細粒度查詢意圖識別目錄動機與目標現(xiàn)有方法框架與方法效果與應用動機與目標 搜索廣告的現(xiàn)狀 當前的搜索廣告中,搜索引擎主要基于關鍵字匹配的搜索模式。 問題 查詢短、特征稀疏、歧義強 字面匹配缺乏意圖相關特征 廣告缺乏相關性 傷害用戶體驗、造成客戶無效消耗動機與目標 目標 挖掘海量細粒度查詢意圖 建立查詢與意圖間映射關系 處理高頻與長尾查詢 高精確性與較高覆蓋率現(xiàn)有方法 Google的Google Rephil系統(tǒng) Google廣告相關性的頭號秘密武器 對詞或短語片段聚類發(fā)現(xiàn)概念 百萬量級的概念 基于Bayesian網絡的推斷方法 細節(jié)不公開現(xiàn)有方法 識別意圖的3類方法 短文本聚類

2、 Topic Modeling 查詢分類 特點 可發(fā)現(xiàn)細粒度意圖、難覆蓋長尾查詢 不同數(shù)據集Topic難對應,短文本分析精確不足 一般含幾十到上千個類,粒度較粗框架與方法 細粒度意圖識別方法框架與方法 星辰系統(tǒng)整體框架查詢聚類 構建Query同點擊網絡 基本假設:點擊相同網頁的查詢意圖相似 對網絡進行社團劃分 查詢間的意圖會有細微差別、誤點情況 聚類算法要具有一定抗噪性 圖挖掘中的社團發(fā)現(xiàn)算法社團發(fā)現(xiàn)算法 社團的定義 網絡中一群節(jié)點集合。 集合中節(jié)點間的內部鏈接很多,而集合中節(jié)點與外部網絡的鏈接卻很少。 傳統(tǒng)方法 主要發(fā)端于 Girvan 與 Newman 于 2002 年提出的開創(chuàng)性工作 定

3、義了一個質量函數(shù)M. Girvan and M. E. J. Newman, PNAS 99, 7821 (2002).M. E. J. Newman and M. Girvan, Phys. Rev. E 69, 026113 (2004).MMO算法MMO算法MMO算法的優(yōu)點 易于實現(xiàn) 時間復雜度近似線性,空間復雜度為線性。 推廣到 Hadoop 并行環(huán)境中的運行 避免生成極大的社團同點擊網絡構造 數(shù)據集 2年的匿名點擊日志 具體步驟 抽取query-URL的關系(1300萬查詢,1650萬URL) 如果兩個query間有一個同點擊,則在兩個query間連接一條邊 得到查詢同點擊網絡(13

4、00萬查詢節(jié)點,8億條邊)概念質量優(yōu)化 聚類存在的問題 過大的不純類 太多的細粒度聚類 聚類質量評估 聚類純度 聚類間的相關性查詢意圖推斷 問題定義 將query的意圖識別變?yōu)橐粋€大規(guī)模多分類問題 關鍵步驟 候選分類概念 拒絕分類結果查詢意圖推斷 候選概念的發(fā)現(xiàn)查詢意圖推斷 拒絕項 Query側相關性: 概念側相關性:概念發(fā)現(xiàn)的結果 概念分布 概念舉例精確性與覆蓋率 星辰系統(tǒng)的精確性與覆蓋率 統(tǒng)計查詢次數(shù) 精確性 97.4% 覆蓋率 61.3%查詢意圖追蹤查詢意圖追蹤線上Demo系統(tǒng)線上Demo系統(tǒng)線上Demo系統(tǒng)線上Demo系統(tǒng)廣告召回中的應用 廣告召回應用 訓練針對概念的商業(yè)性分類器 判斷每個概念是否適合召回廣告 線下計算每個概念和關鍵詞的相關性 線下選擇每個概念適合召回的關鍵詞鏈 線上判斷query所屬概念,根據概念召回廣告質量保

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論