大白話ElasticSearch是什么以及應(yīng)用場景_第1頁
大白話ElasticSearch是什么以及應(yīng)用場景_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、ElasticSearch是什么以及應(yīng)場景ElasticSearch是個(gè)分布式,性能、可、可伸縮的搜索和分析系統(tǒng)看了上這段話,估計(jì)很多都懵了,這個(gè)是啥。我們先從搜索說起,先介紹下點(diǎn)1、什么是搜索百度、Google:我們想尋找個(gè)我們喜歡的電影或者書籍就會(huì)去百度或者Google搜索下?;ヂ?lián)搜索:電商搜索商品,招聘站搜索簡歷或者崗位IT系統(tǒng)的搜索:員管理搜索,會(huì)議管理搜索2、如果數(shù)據(jù)庫做搜索會(huì)怎么樣在軟件開發(fā),數(shù)據(jù)都是存儲(chǔ)在數(shù)據(jù)庫的,如電商站的商品信息,員的信息等等,如果從員度去做搜索功能,我們會(huì)這么設(shè)計(jì)以上會(huì)存在個(gè)問題:1.如果表記錄上千萬上億了這個(gè)性能問題,另外個(gè)如果有個(gè)本字段要在模糊配置,這個(gè)

2、就會(huì)出現(xiàn)嚴(yán)重的性能問題2.還不能將搜索詞拆分開來,如上這個(gè)只能搜索名字是“張三”開頭的員,如果想搜出“張三”那是搜索不出來的??傮w來說,數(shù)據(jù)庫來實(shí)現(xiàn)搜索,是不太靠譜的,通常性能也會(huì)很差3、什么是全檢索、倒排索引和Lucene舉個(gè)簡單的例:如最近上映的熱?。ǖ姓?:全解),我們想搜索下全解這個(gè)電視劇,可是在輸?shù)倪^程,不輸了”全解”,我們看看百度這個(gè)返回了什么,百度返回的結(jié)果確實(shí)是我想要找到的內(nèi)容,現(xiàn)在我們介紹下全檢索和倒排索引是什么我們看看下這個(gè)圖,假如我們有很多數(shù)據(jù)”全解電影,全解海報(bào),全解評(píng)論,全解章”等等信息,從數(shù)據(jù)到構(gòu)建倒排索引的過程我們圖中標(biāo)記為“1”,通俗點(diǎn)講就是,倒排索引就是講數(shù)

3、據(jù)中的詞拆分構(gòu)建個(gè)表,將關(guān)鍵字拆出來,后帶上這個(gè)章的documentid號(hào),例如中間這個(gè)就是倒排索引了。全檢索就較好理解的,就是當(dāng)我們輸“全解”,會(huì)被拆分成”全”,“解”2個(gè)此,2個(gè)詞去倒排索引去檢索數(shù)據(jù),檢索到的數(shù)據(jù)返回。整個(gè)過程就叫做全檢索如果這個(gè)數(shù)據(jù)庫的思維來做的話,假如共100W的記錄,按照之前的思路就是掃描100W次,且每次掃描,都需要匹配那個(gè)本所有的字符,確認(rèn)是否包含搜索的關(guān)鍵詞,且還不能將搜索詞拆解來進(jìn)檢索如果是利倒排索引的話,假設(shè)還是100W,拆分出來的詞語,假設(shè)有1000W個(gè)詞語,那么在倒排索引中,就有1000W。我們可能不需要檢索1000W詞,有可能檢索1次,就能找到我們需

4、要的數(shù)據(jù),也有可能是100W次,也有可能是1000W次lucene:就是個(gè)jar包,包含了封裝好的各種建倒排索引,以及進(jìn)搜索的代碼,包括各種算法。我們就java開發(fā)的時(shí)候3、ElasticSearch是什么Lucene是單機(jī)的模式,如果你的數(shù)據(jù)量超過了臺(tái)物理機(jī)的容量,你需要擴(kuò)容,將數(shù)據(jù)拆分成2份放在不同的集群,這個(gè)就是典型的分布式計(jì)算了。需要拷貝容錯(cuò),機(jī)器宕機(jī),數(shù)據(jù)致性等復(fù)雜的場景,這個(gè)實(shí)現(xiàn)就較復(fù)雜了。ES解決了這些問題1、動(dòng)維護(hù)數(shù)據(jù)的分布到多個(gè)節(jié)點(diǎn)的索引的建,還有搜索請(qǐng)求分布到多個(gè)節(jié)點(diǎn)的執(zhí)2、動(dòng)維護(hù)數(shù)據(jù)的冗余副本,保證了旦機(jī)器宕機(jī),不會(huì)丟失數(shù)據(jù)3、封裝了更多級(jí)的功能,例如聚合分析的功能,基于

5、地理位置的搜索ElasticSearch的功能1. 分布式的搜索引擎和數(shù)據(jù)分析引擎搜索:站的站內(nèi)搜索,IT系統(tǒng)的檢索數(shù)據(jù)分析:電商站,統(tǒng)計(jì)銷售排名前10的商家2. 全檢索,結(jié)構(gòu)化檢索,數(shù)據(jù)分析全檢索:我想搜索商品名稱包含某個(gè)關(guān)鍵字的商品結(jié)構(gòu)化檢索:我想搜索商品分類為化品的商品都有哪些數(shù)據(jù)分析:我們分析每個(gè)商品分類下有多少個(gè)商品3. 對(duì)海量數(shù)據(jù)進(jìn)近實(shí)時(shí)的處理分布式:ES動(dòng)可以將海量數(shù)據(jù)分散到多臺(tái)服務(wù)器上去存儲(chǔ)和檢索海聯(lián)數(shù)據(jù)的處理:分布式以后,就可以采量的服務(wù)器去存儲(chǔ)和檢索數(shù)據(jù),然然就可以實(shí)現(xiàn)海量數(shù)據(jù)的處理了近實(shí)時(shí):檢索數(shù)據(jù)要花費(fèi)1時(shí)(這就不要近實(shí)時(shí),離線批處理,batch-processing);在秒級(jí)別對(duì)數(shù)據(jù)進(jìn)搜索和分析ElasticSearch的應(yīng)場景1. 維基百科2. The Guardian(國外新聞?wù)荆?. Stack Overflow(國外的程序異常討論論壇)4. GitHub(開源代碼管理)5. 電商站6. 志數(shù)據(jù)分析7. 商品價(jià)格監(jiān)控站8. BI系統(tǒng)9. 站內(nèi)搜索ElasticSearch的特點(diǎn)1. 可以作為個(gè)型分布式集群(數(shù)百臺(tái)服務(wù)器)技術(shù),處理PB級(jí)數(shù)據(jù),服務(wù)公司;也可以運(yùn)在單機(jī)上,服務(wù)公司2. Elasticsearch不是什么新技術(shù),主要是將全檢索、數(shù)據(jù)分析以及分布式技術(shù),合并在了起3. 對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論