solr7月14日周末沙龍_第1頁
solr7月14日周末沙龍_第2頁
solr7月14日周末沙龍_第3頁
solr7月14日周末沙龍_第4頁
solr7月14日周末沙龍_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Solr Community of Chinalucene評分機制分析風雨 CopyrightSolr Community of China議題一.(預備知識)二.相似度算法介紹VSM 介紹三.VSM對應lucene的打分公式推導四. Lucene評分公式的細化介紹五. 改變評分的一般策略六. 拍磚答疑時間預估時間:1小時Solr Community of China一.(預備知識)|產(chǎn)|產(chǎn)1.2.3.4.5.6.分詞:Token:倒排表最小Term:query的最小,即分詞中 詞,tilte:Tf:一個term在一個文檔中出現(xiàn)的次數(shù) Idf:一個term在多少個文檔中出現(xiàn)過向量運算:Solr

2、 Community of China二.常見相似度算法介紹VSMSolr Community of China三.VSM對應lucene的打分公式推導設:查詢向量為Vq = 文檔向量為Vd = W=tf*idf則:Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + + w(tn ,q)*w(tn, d)=tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + + tf(tn,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)Tf(t,q)=1, idf(t,q)約等于idf(t,d)Solr Com

3、munity of China三.VSM對應lucene的打分公式推導Lucene采用的Similarity,認為在計算文檔的向量長度的時候,每個Term的權重就丌再考慮在內(nèi)了,而是全部為一(如果按權重考慮會有問題)查詢語句中tf都為1,idf查詢語句這篇小文檔 即idf(t,q) = idf(t,d),得到如下公式Solr Community of China三.VSM對應lucene的打分公式推導代入余弦公式:加上lucene自己的各種boost和coordSolr Community of China四. Lucene評分公式的細化介紹1協(xié)調(diào)因子 coord(q,d)coord(q,d)

4、 = overlap/ maxOverlapoverlap(命中查詢個數(shù))maxOverlap(總查詢個數(shù))搜索語句為:名稱:”作者:|作者:”doc1:doc2:名稱:名稱:coord(q,d) = 1/2編委 coord(q,d) 2/2 (高)作者:Solr Community of China四. Lucene評分公式的細化介紹2. 查詢規(guī)范因子 queryNorm(q) (對排序無任何影響)queryNorm(q) = 1/(q.getBoost()2( idf(t)t.getBoost() )2)q.getBoost() 查詢語句總權重(query上設置的boost)t.getBo

5、ost() 子查詢權重(tilte:desc:)Solr Community of China3.文檔詞頻因子 tf(t in d)tf(t in d) = Math.sqrt(freq)例如 搜索名稱:名稱:名稱:文檔1:文檔2:tf=1tf=1.414 (高)簽名版Solr Community of China四. Lucene評分公式的細化介紹4. 文檔出現(xiàn)頻率因子 idf(t)idf(t) = 1.0 + log(numDocs/(docFreq+1)numDocs(總文檔數(shù))docFreq(有幾個文檔中出現(xiàn)了查詢的詞)例如搜索語句為:名稱:“名稱“” | 作者:“” 總文檔數(shù)為100

6、0如果名稱中包含”的文檔數(shù)為100 idf= 2.0作者名稱中包含作者“”的文檔數(shù)為10 idf= 3.0 (高)Solr Community of China四. Lucene評分公式的細化介紹5. 查詢權重t.getBoostiSolr Community of China四. Lucene評分公式的細化介紹6. 標準化因子 norm(t,d)norm(t,d) = doc.getBoost() lengthNorm f.getBoost() (注意:4.0以后沒有了 doc.getBoost() lengthNorm = 1.0 / Math.sqrt(numTerms)doc.getB

7、oost() (在每個文檔上設置的權重)f.getBoost() (在每個字段上設置的權重lengthNorm = 1.0 / Math.sqrt(numTerms)表示字段長度對打分的影響例如:文檔1:名稱:名稱:lengthNorm = 1/1.7 (高)文檔2:新刊第28期 = 1/3Solr Community of China四. Lucene評分公式的細化介紹將上面1-6部分細化的部分代入上面公式得到score(q,d)=(overlap / maxOverlap )(1/(q.getBoost()2( idf(t)t.getBoost() )2) ) ( tf(t in d)idf(t)2t.getBoost() doc.getBoost() lengthNorm f.getBoost() )查詢時確定: 1、2、3、4、5索引時確定:6Solr Community of China五. 改變評分的一般策略API調(diào)用:索引時刻:filed boost設置, doc boost設置4.0之前:doc.setBoost(5.0f);查詢時刻:queryBoost設置Solr Community of China五. 改變評分的一般策略重寫:Similarity (繼承DefaultSimilarity或TFIDFSi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論