




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
10.4Elasticsearch10.4.1Elasticsearch的安裝10.410.4.1
Elasticsearch安裝由于Elasticsearch是用Java編寫的,所以安裝之前確保JavaJDK已安裝以及配置了正確的環(huán)境變量。打開網(wǎng)址https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.4.zip,下載并解壓,運(yùn)行bin目錄下的elasticsearch.bat文件,即可啟動(dòng)Elasticsearch服務(wù),如圖10-4所示。圖10-4es啟動(dòng)文件圖10.4.2
ik插件10.410.4.2
ik插件ik是ES的一個(gè)分詞插件,安裝ik分詞器,訪問/medcl/elasticsearch-analysis-ik找releases找到對(duì)應(yīng)的es版本,在es的安裝目錄的plugins文件夾下新建ik文件夾,將下載的壓縮包解壓到該文件夾下,如圖10-5所示。圖10-5ik插件安裝示意圖10.4.3Python操作Elasticsearch10.410.4.3Python操作ElasticsearchPython運(yùn)行ES的話,需要先安裝依賴包,通過pipinstallelasticsearch安裝即可。接下來學(xué)習(xí)ES的用法。整個(gè)流程如下:(1)連接ES;(2)創(chuàng)建索引;(3)插入數(shù)據(jù)。10.410.4.3Python操作Elasticsearch首先導(dǎo)入需要的庫:importtimeimportjsonfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportbulkimportplatformimportos10.410.4.3Python操作Elasticsearch把整個(gè)流程封裝成了一個(gè)類ProcessIntoES。classProcessIntoES:def__init__(self):self._index="crime_data"self.es=Elasticsearch([{"host":"","port":9200}],max_retries=3,retry_on_timeout=True)self.doc_type="crime"if(platform.system()=="Linux"):cur='/'.join(os.path.abspath(__file__).split('/')[:-1])self.music_file=os.path.join(cur,'data/qa_corpus.json')10.410.4.3Python操作Elasticsearchelif(platform.system()=='Windows'):cur=os.getcwd()+"\\"self.music_file=os.path.join(cur,'data\\qa_corpus.json')else:raise"系統(tǒng)不是Windows也不是Linux"print("初始化ProcessIntoES類完成")10.410.4.3Python操作Elasticsearch'''創(chuàng)建ES索引,確定分詞類型'''defcreate_mapping(self):print("開始創(chuàng)建ES索引")node_mappings={"mappings":{self.doc_type:{#type"properties":{"question":{#field:問題"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_smart",10.410.4.3Python操作Elasticsearch"index":"true"},"answers":{#field:答案"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_smart","index":"true"},}}}}10.410.4.3Python操作Elasticsearchifnotself.es.indices.exists(index=self._index):self.es.indices.create(index=self._index,body=node_mappings)print("Create{}mappingsuccessfully.".format(self._index))else:print("index({})alreadyexists.".format(self._index))print("創(chuàng)建ES索引結(jié)束")'''批量插入數(shù)據(jù)'''definsert_data_bulk(self,action_list):print("開始插入數(shù)據(jù)")success,_=bulk(self.es,action_list,index=self._index,raise_on_error=True)print("Performed{0}actions._:{1}".format(success,_))10.410.4.3Python操作Elasticsearch__init__方法中連接上了ES,默認(rèn)端口號(hào)是9200,并指定了_index和doc_type,其作用相當(dāng)于在創(chuàng)建數(shù)據(jù)庫的時(shí)候指定數(shù)據(jù)庫的名字和表的名字。create_mapping方法用來創(chuàng)建索引。analyzer字段的作用:(1)插入文檔時(shí),將text類型字段做分詞,然后插入倒排索引;(2)在查詢時(shí),先對(duì)text類型輸入做分詞,再去倒排索引搜索。如果想要“索引”和“查詢”,使用不同的分詞器,那么只需要在字段上使用search_analyzer。這樣,索引只看analyzer,查詢就看search_analyzer。ik_max_word:會(huì)對(duì)文本做最細(xì)力度的拆分;ik_smart:會(huì)對(duì)文本做最粗粒度的拆分。insert_data_bulk方法用來批量插入數(shù)據(jù)。action_list就是每批次要插入的數(shù)據(jù)。10.410.4.3Python操作Elasticsearch每個(gè)action的格式如下:action={"_index":pie._index,"_type":pie.doc_type,"_source":{"question":item['question'],"answers":'\n'.join(item['answers']),}}10.410.4.3Python操作Elasticsearchinit_ES函數(shù)是程序的主函數(shù),新建ProcessIntoES對(duì)象,創(chuàng)建索引,并插入數(shù)據(jù)。definit_ES():pie=ProcessIntoES()#創(chuàng)建ES的indexpie.create_mapping()start_time=time.time()index=0count=0action_list=[]BULK_COUNT=1000#每BULK_COUNT個(gè)句子一起插入到ES中10.410.4.3Python操作Elasticsearchforlineinopen(pie.music_file,encoding='utf-8'):ifnotline:continueitem=json.loads(line)print('\n'.join(item['answers']))index+=1
action={#'_op_type':'insert',"_index":pie._index,"_type":pie.doc_type,"_source":{"question":item['question'],"answers":'\n'.join(item['answers']),}}10.410.4.3Python操作Elasticsearchforlineinopen(pie.music_file,encoding='utf-8'):ifnotline:continueitem=json.loads(line)print('\n'.join(item['answers']))index+=1
action={#'_op_type':'insert',"_index":pie._index,"_type":pie.doc_type,"_source":{10.410.4.3Python操作Elasticsearch"question":item['question'],"answers":'\n'.join(item['answers']),}}action_list.append(action)ifindex>BULK_COUNT:pie.insert_data_bulk(action_list=action_list)inde
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)防早戀班會(huì)課件圖片
- 項(xiàng)目功能介紹課件
- 消防安全常識(shí)培訓(xùn)
- 2025年汽車功率轉(zhuǎn)換器項(xiàng)目發(fā)展計(jì)劃
- 2025年防沉劑項(xiàng)目合作計(jì)劃書
- 2025年攪墨棒項(xiàng)目合作計(jì)劃書
- 五年級(jí)數(shù)學(xué)上冊(cè)期末測(cè)試卷提高卷(一)蘇教版
- 捕魚活動(dòng)策劃方案
- 2025年中心靜脈導(dǎo)管項(xiàng)目合作計(jì)劃書
- 常州賓館冰蓄冷空調(diào)系統(tǒng)設(shè)計(jì)
- 2025年高考英語二輪復(fù)習(xí)專題08 非謂語動(dòng)詞(練習(xí))(原卷版)
- 細(xì)胞生活的環(huán)境說課稿
- 野生菌中毒知識(shí)講座
- 數(shù)據(jù)中心安全防護(hù)體系
- 2025年部編版小學(xué)一年級(jí)語文下冊(cè)全冊(cè)教案
- 《贊美技巧》課件
- 業(yè)委會(huì) 物業(yè)合同范本
- 充電樁售后合同范本
- 2025年青藏鐵路集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2025四川遂寧發(fā)展投資集團(tuán)限公司及直屬企業(yè)招聘21人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 年中績(jī)效總結(jié)報(bào)告
評(píng)論
0/150
提交評(píng)論