版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、Solr Community of Chinalucene評分機制分析風雨 CopyrightSolr Community of China議題一.(預備知識)二.相似度算法介紹VSM 介紹三.VSM對應lucene的打分公式推導四. Lucene評分公式的細化介紹五. 改變評分的一般策略六. 拍磚答疑時間預估時間:1小時Solr Community of China一.(預備知識)|產(chǎn)|產(chǎn)1.2.3.4.5.6.分詞:Token:倒排表最小Term:query的最小,即分詞中 詞,tilte:Tf:一個term在一個文檔中出現(xiàn)的次數(shù) Idf:一個term在多少個文檔中出現(xiàn)過向量運算:Solr
2、 Community of China二.常見相似度算法介紹VSMSolr Community of China三.VSM對應lucene的打分公式推導設:查詢向量為Vq = 文檔向量為Vd = W=tf*idf則:Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + + w(tn ,q)*w(tn, d)=tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + + tf(tn,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)Tf(t,q)=1, idf(t,q)約等于idf(t,d)Solr Com
3、munity of China三.VSM對應lucene的打分公式推導Lucene采用的Similarity,認為在計算文檔的向量長度的時候,每個Term的權重就丌再考慮在內(nèi)了,而是全部為一(如果按權重考慮會有問題)查詢語句中tf都為1,idf查詢語句這篇小文檔 即idf(t,q) = idf(t,d),得到如下公式Solr Community of China三.VSM對應lucene的打分公式推導代入余弦公式:加上lucene自己的各種boost和coordSolr Community of China四. Lucene評分公式的細化介紹1協(xié)調(diào)因子 coord(q,d)coord(q,d)
4、 = overlap/ maxOverlapoverlap(命中查詢個數(shù))maxOverlap(總查詢個數(shù))搜索語句為:名稱:”作者:|作者:”doc1:doc2:名稱:名稱:coord(q,d) = 1/2編委 coord(q,d) 2/2 (高)作者:Solr Community of China四. Lucene評分公式的細化介紹2. 查詢規(guī)范因子 queryNorm(q) (對排序無任何影響)queryNorm(q) = 1/(q.getBoost()2( idf(t)t.getBoost() )2)q.getBoost() 查詢語句總權重(query上設置的boost)t.getBo
5、ost() 子查詢權重(tilte:desc:)Solr Community of China3.文檔詞頻因子 tf(t in d)tf(t in d) = Math.sqrt(freq)例如 搜索名稱:名稱:名稱:文檔1:文檔2:tf=1tf=1.414 (高)簽名版Solr Community of China四. Lucene評分公式的細化介紹4. 文檔出現(xiàn)頻率因子 idf(t)idf(t) = 1.0 + log(numDocs/(docFreq+1)numDocs(總文檔數(shù))docFreq(有幾個文檔中出現(xiàn)了查詢的詞)例如搜索語句為:名稱:“名稱“” | 作者:“” 總文檔數(shù)為100
6、0如果名稱中包含”的文檔數(shù)為100 idf= 2.0作者名稱中包含作者“”的文檔數(shù)為10 idf= 3.0 (高)Solr Community of China四. Lucene評分公式的細化介紹5. 查詢權重t.getBoostiSolr Community of China四. Lucene評分公式的細化介紹6. 標準化因子 norm(t,d)norm(t,d) = doc.getBoost() lengthNorm f.getBoost() (注意:4.0以后沒有了 doc.getBoost() lengthNorm = 1.0 / Math.sqrt(numTerms)doc.getB
7、oost() (在每個文檔上設置的權重)f.getBoost() (在每個字段上設置的權重lengthNorm = 1.0 / Math.sqrt(numTerms)表示字段長度對打分的影響例如:文檔1:名稱:名稱:lengthNorm = 1/1.7 (高)文檔2:新刊第28期 = 1/3Solr Community of China四. Lucene評分公式的細化介紹將上面1-6部分細化的部分代入上面公式得到score(q,d)=(overlap / maxOverlap )(1/(q.getBoost()2( idf(t)t.getBoost() )2) ) ( tf(t in d)idf(t)2t.getBoost() doc.getBoost() lengthNorm f.getBoost() )查詢時確定: 1、2、3、4、5索引時確定:6Solr Community of China五. 改變評分的一般策略API調(diào)用:索引時刻:filed boost設置, doc boost設置4.0之前:doc.setBoost(5.0f);查詢時刻:queryBoost設置Solr Community of China五. 改變評分的一般策略重寫:Similarity (繼承DefaultSimilarity或TFIDFSi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銷售部的實習報告大全
- 銷售工作總結(jié)工作計劃5篇范文
- 小學數(shù)學教學中問題情境創(chuàng)設現(xiàn)狀的調(diào)查問卷
- 銷售月工作計劃7篇范文
- 商標使用權授權協(xié)議
- 年度法治工作計劃4篇
- 信息技術園區(qū)砂石路施工
- 教育園區(qū)停車位交易樣本
- 建筑混凝土安全文明施工協(xié)議
- 城市噴泉建設施工合同類型
- 項目風險識別與控制-年度總結(jié)
- 《決策心理學》課件
- 裝飾裝修工程施工流程方案
- 2023-2024學年深圳市初三中考適應性考試英語試題(含答案)
- 《漏電保護器》課件
- 巖質(zhì)高陡邊坡穩(wěn)定性分析評價
- 私立民辦高中學校項目招商引資方案
- 工商管理學科發(fā)展前沿
- 【臨床貓瘟的診斷與治療3500字(論文)】
- 2069-3-3101-002 WKB產(chǎn)品判定準則-外發(fā)
- 新能源汽車技術職業(yè)生涯人物訪談報告
評論
0/150
提交評論