![solr7月14日周末沙龍_第1頁](http://file4.renrendoc.com/view/b8eaad825efe487bd4751f725234f362/b8eaad825efe487bd4751f725234f3621.gif)
![solr7月14日周末沙龍_第2頁](http://file4.renrendoc.com/view/b8eaad825efe487bd4751f725234f362/b8eaad825efe487bd4751f725234f3622.gif)
![solr7月14日周末沙龍_第3頁](http://file4.renrendoc.com/view/b8eaad825efe487bd4751f725234f362/b8eaad825efe487bd4751f725234f3623.gif)
![solr7月14日周末沙龍_第4頁](http://file4.renrendoc.com/view/b8eaad825efe487bd4751f725234f362/b8eaad825efe487bd4751f725234f3624.gif)
![solr7月14日周末沙龍_第5頁](http://file4.renrendoc.com/view/b8eaad825efe487bd4751f725234f362/b8eaad825efe487bd4751f725234f3625.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Solr Community of Chinalucene評(píng)分機(jī)制分析風(fēng)雨 CopyrightSolr Community of China議題一.(預(yù)備知識(shí))二.相似度算法介紹VSM 介紹三.VSM對(duì)應(yīng)lucene的打分公式推導(dǎo)四. Lucene評(píng)分公式的細(xì)化介紹五. 改變?cè)u(píng)分的一般策略六. 拍磚答疑時(shí)間預(yù)估時(shí)間:1小時(shí)Solr Community of China一.(預(yù)備知識(shí))|產(chǎn)|產(chǎn)1.2.3.4.5.6.分詞:Token:倒排表最小Term:query的最小,即分詞中 詞,tilte:Tf:一個(gè)term在一個(gè)文檔中出現(xiàn)的次數(shù) Idf:一個(gè)term在多少個(gè)文檔中出現(xiàn)過向量運(yùn)算:Solr
2、 Community of China二.常見相似度算法介紹VSMSolr Community of China三.VSM對(duì)應(yīng)lucene的打分公式推導(dǎo)設(shè):查詢向量為Vq = 文檔向量為Vd = W=tf*idf則:Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + + w(tn ,q)*w(tn, d)=tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + + tf(tn,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)Tf(t,q)=1, idf(t,q)約等于idf(t,d)Solr Com
3、munity of China三.VSM對(duì)應(yīng)lucene的打分公式推導(dǎo)Lucene采用的Similarity,認(rèn)為在計(jì)算文檔的向量長(zhǎng)度的時(shí)候,每個(gè)Term的權(quán)重就丌再考慮在內(nèi)了,而是全部為一(如果按權(quán)重考慮會(huì)有問題)查詢語句中tf都為1,idf查詢語句這篇小文檔 即idf(t,q) = idf(t,d),得到如下公式Solr Community of China三.VSM對(duì)應(yīng)lucene的打分公式推導(dǎo)代入余弦公式:加上lucene自己的各種boost和coordSolr Community of China四. Lucene評(píng)分公式的細(xì)化介紹1協(xié)調(diào)因子 coord(q,d)coord(q,d)
4、 = overlap/ maxOverlapoverlap(命中查詢個(gè)數(shù))maxOverlap(總查詢個(gè)數(shù))搜索語句為:名稱:”作者:|作者:”doc1:doc2:名稱:名稱:coord(q,d) = 1/2編委 coord(q,d) 2/2 (高)作者:Solr Community of China四. Lucene評(píng)分公式的細(xì)化介紹2. 查詢規(guī)范因子 queryNorm(q) (對(duì)排序無任何影響)queryNorm(q) = 1/(q.getBoost()2( idf(t)t.getBoost() )2)q.getBoost() 查詢語句總權(quán)重(query上設(shè)置的boost)t.getBo
5、ost() 子查詢權(quán)重(tilte:desc:)Solr Community of China3.文檔詞頻因子 tf(t in d)tf(t in d) = Math.sqrt(freq)例如 搜索名稱:名稱:名稱:文檔1:文檔2:tf=1tf=1.414 (高)簽名版Solr Community of China四. Lucene評(píng)分公式的細(xì)化介紹4. 文檔出現(xiàn)頻率因子 idf(t)idf(t) = 1.0 + log(numDocs/(docFreq+1)numDocs(總文檔數(shù))docFreq(有幾個(gè)文檔中出現(xiàn)了查詢的詞)例如搜索語句為:名稱:“名稱“” | 作者:“” 總文檔數(shù)為100
6、0如果名稱中包含”的文檔數(shù)為100 idf= 2.0作者名稱中包含作者“”的文檔數(shù)為10 idf= 3.0 (高)Solr Community of China四. Lucene評(píng)分公式的細(xì)化介紹5. 查詢權(quán)重t.getBoostiSolr Community of China四. Lucene評(píng)分公式的細(xì)化介紹6. 標(biāo)準(zhǔn)化因子 norm(t,d)norm(t,d) = doc.getBoost() lengthNorm f.getBoost() (注意:4.0以后沒有了 doc.getBoost() lengthNorm = 1.0 / Math.sqrt(numTerms)doc.getB
7、oost() (在每個(gè)文檔上設(shè)置的權(quán)重)f.getBoost() (在每個(gè)字段上設(shè)置的權(quán)重lengthNorm = 1.0 / Math.sqrt(numTerms)表示字段長(zhǎng)度對(duì)打分的影響例如:文檔1:名稱:名稱:lengthNorm = 1/1.7 (高)文檔2:新刊第28期 = 1/3Solr Community of China四. Lucene評(píng)分公式的細(xì)化介紹將上面1-6部分細(xì)化的部分代入上面公式得到score(q,d)=(overlap / maxOverlap )(1/(q.getBoost()2( idf(t)t.getBoost() )2) ) ( tf(t in d)idf(t)2t.getBoost() doc.getBoost() lengthNorm f.getBoost() )查詢時(shí)確定: 1、2、3、4、5索引時(shí)確定:6Solr Community of China五. 改變?cè)u(píng)分的一般策略API調(diào)用:索引時(shí)刻:filed boost設(shè)置, doc boost設(shè)置4.0之前:doc.setBoost(5.0f);查詢時(shí)刻:queryBoost設(shè)置Solr Community of China五. 改變?cè)u(píng)分的一般策略重寫:Similarity (繼承DefaultSimilarity或TFIDFSi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙教版數(shù)學(xué)七年級(jí)下冊(cè)3.5《整式的化簡(jiǎn)》聽評(píng)課記錄
- 蘇科版九年級(jí)數(shù)學(xué)聽評(píng)課記錄:第32講 正多邊形的外接圓
- 青島版數(shù)學(xué)七年級(jí)上冊(cè)3.2《有理數(shù)的乘法與除法》聽評(píng)課記錄3
- 一年級(jí)下冊(cè)數(shù)學(xué)聽評(píng)課記錄《看一看(一)》4 北師大版
- 部編版八年級(jí)歷史(上)《第17課 中國(guó)工農(nóng)紅軍長(zhǎng)征》聽課評(píng)課記錄
- 華師大版數(shù)學(xué)九年級(jí)下冊(cè)《復(fù)習(xí)題》聽評(píng)課記錄4
- 川教版歷史九年級(jí)下冊(cè)第3課《日本明治維新》聽課評(píng)課記錄
- 蘇科版數(shù)學(xué)九年級(jí)下冊(cè)《6.2 黃金分割》聽評(píng)課記錄
- 小學(xué)二年級(jí)數(shù)學(xué)口算訓(xùn)練
- 小學(xué)二年級(jí)上冊(cè)數(shù)學(xué)除法口算題
- 中央2025年交通運(yùn)輸部所屬事業(yè)單位招聘261人筆試歷年參考題庫附帶答案詳解
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 特殊教育學(xué)校2024-2025學(xué)年度第二學(xué)期教學(xué)工作計(jì)劃
- 2025年技術(shù)員個(gè)人工作計(jì)劃例文(四篇)
- 2025年第一次工地開工會(huì)議主要議程開工大吉模板
- 第16課抗日戰(zhàn)爭(zhēng)課件-人教版高中歷史必修一
- 對(duì)口升學(xué)語文模擬試卷(9)-江西省(解析版)
- 無人機(jī)運(yùn)營(yíng)方案
- 糖尿病高滲昏迷指南
- 【公開課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級(jí)下冊(cè)+
評(píng)論
0/150
提交評(píng)論