充電網(wǎng)全文檢索數(shù)據(jù)索引_第1頁(yè)
充電網(wǎng)全文檢索數(shù)據(jù)索引_第2頁(yè)
充電網(wǎng)全文檢索數(shù)據(jù)索引_第3頁(yè)
充電網(wǎng)全文檢索數(shù)據(jù)索引_第4頁(yè)
充電網(wǎng)全文檢索數(shù)據(jù)索引_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、充電網(wǎng)-全文檢索解決方案2021-08-03目錄一.全文檢索數(shù)據(jù)來(lái)源3二.數(shù)據(jù)抓取規(guī)那么4三.中文分詞-庖丁中文分詞庫(kù)4四.全文搜索效勞器Solr5五.全文搜索UI頁(yè)面6一. 全文檢索數(shù)據(jù)來(lái)源1. 課程數(shù)據(jù):Ø 所需檢索字段:id唯一標(biāo)識(shí)索引、課程名稱、課程簡(jiǎn)介、授課教師、所屬教師機(jī)構(gòu)、課程類型、發(fā)布時(shí)間、購(gòu)置量、點(diǎn)擊量、收藏量;Ø 點(diǎn)播課程:課件名稱、課程有效期;Ø 直播面授課程:報(bào)名開(kāi)始時(shí)間、結(jié)束時(shí)間、開(kāi)課日期;Ø 面授課程:面授地址Ø 排序字段:發(fā)布時(shí)間、綜合評(píng)價(jià);Ø 課程數(shù)據(jù)分詞查詢字段:課程名稱、課程簡(jiǎn)介、授課教師、發(fā)布時(shí)間

2、;2. 工程數(shù)據(jù):Ø 需要檢索字段:id唯一標(biāo)識(shí)索引、工程名稱、工程簡(jiǎn)介、工程類型、所屬機(jī)構(gòu)、工程類型、工程包含課程、報(bào)名開(kāi)始時(shí)間、結(jié)束時(shí)間、發(fā)布時(shí)間、購(gòu)置量、點(diǎn)擊量、收藏量;Ø 工程數(shù)據(jù)排序字段:發(fā)布時(shí)間、綜合評(píng)價(jià) ;Ø 工程數(shù)據(jù)分詞查詢字段:工程名稱、簡(jiǎn)介、所包含課程3. 教師數(shù)據(jù):Ø 需要檢索字段:id唯一標(biāo)識(shí)索引、教師名稱、教師簡(jiǎn)介、教師地址、教師評(píng)分,入住時(shí)間、包含課程名稱Ø 教師排序:教師評(píng)分,最后登陸時(shí)間;Ø 教師分詞查詢字段:教師名稱、教師簡(jiǎn)介、教師地址、包含課程;4. 機(jī)構(gòu)數(shù)據(jù):Ø 所需檢索字段:id唯一標(biāo)

3、識(shí)索引、機(jī)構(gòu)名稱、機(jī)構(gòu)簡(jiǎn)介、機(jī)構(gòu)地址、機(jī)構(gòu)評(píng)分、入住時(shí)間;Ø 機(jī)構(gòu)偏序字段:機(jī)構(gòu)評(píng)分、入住時(shí)間;Ø 機(jī)構(gòu)分詞查詢字段:機(jī)構(gòu)名稱、簡(jiǎn)介、機(jī)構(gòu)地址、包含工程課程、Ø 注:四中數(shù)據(jù)同時(shí)出現(xiàn)排序優(yōu)先級(jí)Ø 工程>課程>機(jī)構(gòu)>教師Ø 機(jī)構(gòu)排序:最后登陸時(shí)間,綜合評(píng)價(jià)二. 數(shù)據(jù)抓取規(guī)那么1、增量抓取,每間隔1小時(shí)做一次4類數(shù)據(jù)的數(shù)據(jù)抓取。2、全量更新,每間隔6個(gè)月做一次4類數(shù)據(jù)的全量更新。三. 中文分詞-庖丁中文分詞庫(kù)中文分詞使用“庖丁中文分詞庫(kù),基于Apache開(kāi)源協(xié)議。庖丁中文分詞庫(kù)是一個(gè)使用Java開(kāi)發(fā)的,可結(jié)合到Lucene應(yīng)用中的

4、,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了 國(guó)內(nèi)中文分詞方面開(kāi)源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開(kāi)源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。Paoding's Knives 中文分詞具有極 高效率 和 高擴(kuò)展性 。引入隱喻,采用完全的面向?qū)ο笤O(shè)計(jì),構(gòu)思先進(jìn)。高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,1秒 可準(zhǔn)確分詞 100萬(wàn) 漢字。采用基于 不限制個(gè)數(shù) 的詞典文件對(duì)文章進(jìn)行有效切分,使能夠?qū)?duì)詞匯分類定義。能夠?qū)ξ粗脑~匯進(jìn)行合理解析四. 全文搜索效勞器SolrApache Solr (讀音: SOLer) 是一個(gè)開(kāi)

5、源的搜索效勞器。Solr 使用 Java 語(yǔ)言開(kāi)發(fā),主要基于 和 Apache Lucene 實(shí)現(xiàn)。Apache Solr 中存儲(chǔ)的資源是以 Document 為對(duì)象進(jìn)行存儲(chǔ)的。每個(gè)文檔由一系列的 Field 構(gòu)成,每個(gè) Field 表示資源的一個(gè)屬性。Solr 中的每個(gè) Document 需要有能唯一標(biāo)識(shí)其自身的屬性,默認(rèn)情況下這個(gè)屬性的名字是 id,在 Schema 配置文件中使用:id進(jìn)行描述。Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索效勞器。文檔通過(guò) 利用XML加到一個(gè)搜索集合中。查詢?cè)摷弦彩峭ㄟ^(guò) 收到一個(gè)XML/JSON響應(yīng)來(lái)實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過(guò)索引復(fù)制來(lái)提高可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論