第15講-分布式全文搜索引擎search_第1頁
第15講-分布式全文搜索引擎search_第2頁
第15講-分布式全文搜索引擎search_第3頁
第15講-分布式全文搜索引擎search_第4頁
第15講-分布式全文搜索引擎search_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

分布式全文搜索引擎Search|2018年11

123412341什么是概一種基于ElasticSearch的分布式全文搜索與分對ElasticSearch進行了多種功能升級和優(yōu)化,并通過Esdrive實現(xiàn)了SQL的全方位支特分布式實時文 -PB級數(shù)據(jù)規(guī)分布式實時搜索分 分

Search簡 什么是特SQL引擎與搜索引擎相融高擴-在TDH平臺中,Search扮演兩種角作為Hyperbase作為一個獨立的服務(wù),既是一個分布式文 系統(tǒng),又是一個強大的全文搜索引

Search簡 文檔數(shù)據(jù)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)功能和性能均優(yōu)于日志分析統(tǒng)計和日志類時間序列數(shù)據(jù) 和分分高聚合率的統(tǒng)計分搜索引多條件模糊查不指定列的全文搜

Search簡 2

Search原Index(索引Search以Index為單位組織數(shù)據(jù) ),一個Index中的數(shù)據(jù)通常具有相似的特與HBase中的索引(全局索引)不是一個概念,這里是指Search的數(shù)據(jù)對Type(分類Type是Index的邏輯分類,如何分類由用戶決定,一個Index可定義一個或多個(文檔Search的最基礎(chǔ)數(shù)據(jù)單元,以JSON格-例如:員工的基本信息{"namezhangsan","age":30on_board_data":"2016-10-01",}Field(字段中的數(shù) 在Field

Search數(shù)據(jù)對象與傳統(tǒng)二維表的映射關(guān)Type是Index的邏輯分類

Search原(文檔分基本過-將詞轉(zhuǎn)換為標(biāo)準(zhǔn)形式,以提高查全率,如:電腦分詞-英文分詞器:standard、倒排索假設(shè)有兩篇文-文檔1的內(nèi)容:TomlivesinShanghai,IliveinShanghai-文檔2的內(nèi)容:Heoncelivedin

Search原

Search原倒排索對文檔進行分-文檔1的分詞結(jié)果:[TomliveShanghai]i]live-文檔2的分詞結(jié)果:[helive根據(jù)分詞結(jié)果,構(gòu)建倒排索詞3,1I41[2],2,5,31

Search原SQLAPIAPISQLSQL SQLSQL100TB10服務(wù)器節(jié)點搜索分析性能(秒全文索引模糊匹 3

FullFullFullFull3 3

Search安裝與配

Search安裝與配

Search安裝與配

Search安裝與配

Search安裝與配 4RESTEsdriveREST方在命令行中通過curl命 REST端口默認(rèn)為示任務(wù):搭建一個員工信息Index(Index名為 -Index的Type按部門分類:dev(研發(fā)部)、finance(財務(wù)部)和sales(銷售部第1步:創(chuàng)建名為employee的

Search基本用 /* /*創(chuàng)建Indexemployee,pretty表示以JSONcurl-XPUT{"acknowledged":}/*向/*向Indexemployee的Typedevcurl-XPUT'localhost:9200/employee/dev/1?pretty'-d"firstname":"lastname":"age":"on_board_date":"2015-10-31","hometown":"Beijing","school":"NanjingUniversity","married":false,"about":"IloveBeijing/*式{"_index":"employee",//index"_type":"_id":"_version":"_shards":"total":"successful":"failed":"created":type//Shard}示第2步:編 ,即向Index中新增一條員工信

Search基本用 REST

Search基本用/*/*獲取Indexemployee的Typedevcurl-XGET/*返回結(jié)果 {"_index":"employee","_type":"dev","_id":"1","_version":1,"found":"_source":"firstname":"San","lastname":"Zhang","age":26,"on_board_date":"2015-10-"hometown":"Beijing","school":"NanjingUniversity","married":false,"about":"IloveBeijing}}示第3步:查 是否存/*/*查看/employee/dev/1下是否存在 ,-i表示打印HTTPheader*/curl-i-XHEAD'localhost:9200/employee/dev/1'第4步:獲 REST

Search基本用/*/*中的age改為30curl-XPUT'localhost:9200/employee/dev/1?pretty'-d"firstname":"lastname":"Zhang","age":30,"on_board_date":"2015-10-31","hometown":"Beijing","school":"NanjingUniversity","married":false,"about":"IloveBeijing/*號加1{"_index":"employee",//index"_type":"_id":"_version":"_shards":"total":"successful":"failed":"created":type//Shard}示第5步:更 REST

Search基本用/*/*刪除/employee/dev/1curl-XDELETE示第6步:刪第7步:刪除/*/*刪除Indexemployeecurl-XDELETE{"acknowledged":} Esdrive

Search基本用EsdriveEsdrive

Esdrive

Search基本用創(chuàng)建Esdrive內(nèi)在Search中創(chuàng)建Index,同時在Inceptor中創(chuàng)建對應(yīng)的映射表(Esdrive內(nèi)表CREATETABLE<tableName>(<id>STRING,<col_name1><data_type1>,<col_name2><data_type2>,...)STOREDAS[WITHSHARDNUMBER<m>][REPLICATION<n>] Esdrive

Search基本用創(chuàng)建Esdrive內(nèi)示例:創(chuàng)建了一張名為esdrive_inner_table的Esdrive內(nèi)表,字段包含所有的數(shù)據(jù)類型,Shard為10,副本數(shù)為1,均采用默認(rèn)createcreatetableesdrive_inner_table(key1string,sv0int,sv1boolean,sv2tinyint,sv3smallint,sv4sv5float,sv6double,sv7string,sv8date,sv9timestamp)storedas Esdrive

Search基本用創(chuàng)建Esdrive外在Inceptor中創(chuàng)建映射表(Esdrive外表),與已存在的Index建立映射關(guān)創(chuàng)建Esdrive外表時,不可指定Shard和副本CREATEEXTERNALTABLE<tableName><id>STRING,<col_name1><data_type1>,<col_name2><data_type2>,)[WITH '='_id,<cl1>,<cl2>,...')] Esdrive

Search基本用創(chuàng)建Esdrive外示CREATECREATEEXTERNALTABLEesdrive_external_tablekey1string,ex0int,ex1bigint,ex2double,ex3)STOREDBYWITHSERDEPROPERTIES('elasticsearch.columns.map TBLPROPERTIES('elasticsearch.tablename'='default.esdrive_inner_table'); 4.2Esdrive

Search基本用分詞器 創(chuàng)建Esdrive內(nèi)表時,直接用SQL-只用于內(nèi)表中String類型的列,且不可以是內(nèi)表的首不同語言類型,選擇的分詞器不/*對中文列指定分詞器<col_name>STRING YZER'ZH' ② /*對英文列指定分詞器<col_name>STRING YZER'EN' 4.2Esdrive

Search基本用為Esdrive表增加只用于Esdrive內(nèi)表,不能用于外ALTERALTERTABLE<tableName>ADDCOLUMNS<col_name1><data_type1>,<col_name2><data_type2>,清空Esdrive只能清空Esdrive內(nèi)表,不能用于外TRUNCATETRUNCATETABLE刪除EsdriveLaIeceptorLaIeceptor 4.2Esdrive

Search基本用插入數(shù)單條插INSERTINSERTINTOesdrive_inner_table批量插BATCHINSERTBATCHINSERTINTOesdrive_inner_tableBATCHVALUES(VALUES('k2',3,true,3,4,5,6.1,7.33,'dsfx','2010-06-30插入時首列需唯INSERTINTOTABLEesdrive_start(key1,content,INSERTINTOTABLEesdrive_start(key1,content,tint,tbool)VALUES('1', oES',1, INSERTINTOTABLEesdrive_start(key1,content,tint,tbool)VALUES('2',osearch',2, 4.2Esdrive

Search基本用更新數(shù)UPDATEUPDATE<tableName>SET<col_name>=<value>WHEREeg:updateesdrive_inner_tablesetsv1=falsewhere刪除數(shù)DELETEDELETEFROM<tableName>WHEREeg:DELETEFROMesdrive_inner_tableWHERE 4.2Esdrive

Search基本用對于Select語句,EsdriveSQL與InceptorSQL的用法完全相包括Where、GroupBy、Join、集合運算EsdriveSQL檢索語義的實第1步:對被查詢文本進行分詞,生成倒排索第2步:對查詢條件進行EsdriveSQL檢索語義的優(yōu)語義更豐查詢性能更% 4.2EsdriveContains函通過Contains函數(shù)對查詢條件進行分

Search基本用<col_name>,)Near操作token1~n:表示檢索詞(n2),token②③<col_name>,'<col_name>,'NEAR((token1,token2[,token3,...]),slop[,4.2Esdrive

Search基本用Contains函Near操作Select*from yze_zhwherecontains(content,'near((京東,阿里1,7Fuzzy操作①phrase:表示需要查詢的短語。先經(jīng)過分詞得到多個token,查詢結(jié)果必須包含分詞后的所有②fuzziness:表示最大編輯距離(Levenshtein距離),用于表達短語之間的語義相似度,中文較復(fù)<col_name>,'FUZZY(phrase, 4.2Esdrive

Search基本用selectselectdtfrominceptorwherecontains(hphm,"term'魯D528E8orderbydtlimitselectdtfrominceptorwherecontains(hphm,"prefix'魯D528orderbydtlimitselectdtfrominceptorwhereconta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論