版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
10.4Elasticsearch10.4.1Elasticsearch的安裝10.410.4.1
Elasticsearch安裝由于Elasticsearch是用Java編寫的,所以安裝之前確保JavaJDK已安裝以及配置了正確的環(huán)境變量。打開網(wǎng)址https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.4.zip,下載并解壓,運行bin目錄下的elasticsearch.bat文件,即可啟動Elasticsearch服務(wù),如圖10-4所示。圖10-4es啟動文件圖10.4.2
ik插件10.410.4.2
ik插件ik是ES的一個分詞插件,安裝ik分詞器,訪問/medcl/elasticsearch-analysis-ik找releases找到對應(yīng)的es版本,在es的安裝目錄的plugins文件夾下新建ik文件夾,將下載的壓縮包解壓到該文件夾下,如圖10-5所示。圖10-5ik插件安裝示意圖10.4.3Python操作Elasticsearch10.410.4.3Python操作ElasticsearchPython運行ES的話,需要先安裝依賴包,通過pipinstallelasticsearch安裝即可。接下來學(xué)習(xí)ES的用法。整個流程如下:(1)連接ES;(2)創(chuàng)建索引;(3)插入數(shù)據(jù)。10.410.4.3Python操作Elasticsearch首先導(dǎo)入需要的庫:importtimeimportjsonfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportbulkimportplatformimportos10.410.4.3Python操作Elasticsearch把整個流程封裝成了一個類ProcessIntoES。classProcessIntoES:def__init__(self):self._index="crime_data"self.es=Elasticsearch([{"host":"","port":9200}],max_retries=3,retry_on_timeout=True)self.doc_type="crime"if(platform.system()=="Linux"):cur='/'.join(os.path.abspath(__file__).split('/')[:-1])self.music_file=os.path.join(cur,'data/qa_corpus.json')10.410.4.3Python操作Elasticsearchelif(platform.system()=='Windows'):cur=os.getcwd()+"\\"self.music_file=os.path.join(cur,'data\\qa_corpus.json')else:raise"系統(tǒng)不是Windows也不是Linux"print("初始化ProcessIntoES類完成")10.410.4.3Python操作Elasticsearch'''創(chuàng)建ES索引,確定分詞類型'''defcreate_mapping(self):print("開始創(chuàng)建ES索引")node_mappings={"mappings":{self.doc_type:{#type"properties":{"question":{#field:問題"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_smart",10.410.4.3Python操作Elasticsearch"index":"true"},"answers":{#field:答案"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_smart","index":"true"},}}}}10.410.4.3Python操作Elasticsearchifnotself.es.indices.exists(index=self._index):self.es.indices.create(index=self._index,body=node_mappings)print("Create{}mappingsuccessfully.".format(self._index))else:print("index({})alreadyexists.".format(self._index))print("創(chuàng)建ES索引結(jié)束")'''批量插入數(shù)據(jù)'''definsert_data_bulk(self,action_list):print("開始插入數(shù)據(jù)")success,_=bulk(self.es,action_list,index=self._index,raise_on_error=True)print("Performed{0}actions._:{1}".format(success,_))10.410.4.3Python操作Elasticsearch__init__方法中連接上了ES,默認(rèn)端口號是9200,并指定了_index和doc_type,其作用相當(dāng)于在創(chuàng)建數(shù)據(jù)庫的時候指定數(shù)據(jù)庫的名字和表的名字。create_mapping方法用來創(chuàng)建索引。analyzer字段的作用:(1)插入文檔時,將text類型字段做分詞,然后插入倒排索引;(2)在查詢時,先對text類型輸入做分詞,再去倒排索引搜索。如果想要“索引”和“查詢”,使用不同的分詞器,那么只需要在字段上使用search_analyzer。這樣,索引只看analyzer,查詢就看search_analyzer。ik_max_word:會對文本做最細(xì)力度的拆分;ik_smart:會對文本做最粗粒度的拆分。insert_data_bulk方法用來批量插入數(shù)據(jù)。action_list就是每批次要插入的數(shù)據(jù)。10.410.4.3Python操作Elasticsearch每個action的格式如下:action={"_index":pie._index,"_type":pie.doc_type,"_source":{"question":item['question'],"answers":'\n'.join(item['answers']),}}10.410.4.3Python操作Elasticsearchinit_ES函數(shù)是程序的主函數(shù),新建ProcessIntoES對象,創(chuàng)建索引,并插入數(shù)據(jù)。definit_ES():pie=ProcessIntoES()#創(chuàng)建ES的indexpie.create_mapping()start_time=time.time()index=0count=0action_list=[]BULK_COUNT=1000#每BULK_COUNT個句子一起插入到ES中10.410.4.3Python操作Elasticsearchforlineinopen(pie.music_file,encoding='utf-8'):ifnotline:continueitem=json.loads(line)print('\n'.join(item['answers']))index+=1
action={#'_op_type':'insert',"_index":pie._index,"_type":pie.doc_type,"_source":{"question":item['question'],"answers":'\n'.join(item['answers']),}}10.410.4.3Python操作Elasticsearchforlineinopen(pie.music_file,encoding='utf-8'):ifnotline:continueitem=json.loads(line)print('\n'.join(item['answers']))index+=1
action={#'_op_type':'insert',"_index":pie._index,"_type":pie.doc_type,"_source":{10.410.4.3Python操作Elasticsearch"question":item['question'],"answers":'\n'.join(item['answers']),}}action_list.append(action)ifindex>BULK_COUNT:pie.insert_data_bulk(action_list=action_list)inde
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 白葉2025版離婚協(xié)議中子女教育費用支付合同二零二五年度2篇
- 2025年牛津書皮紙行業(yè)深度研究分析報告
- 2025年度某金融公司信貸業(yè)務(wù)合作協(xié)議4篇
- 二零二五版13年個人住房出租協(xié)議租賃無憂2篇
- 2025年度大運河物流用人單位勞動合同模板修訂增補(bǔ)版4篇
- 二零二五年度停車場智能收費系統(tǒng)建設(shè)合同范本4篇
- 2025年度砼勞務(wù)分包工程結(jié)算審計合同范本
- 二零二五版班組施工退場安全管理合同3篇
- 2025年中國乘用車市場競爭格局及發(fā)展戰(zhàn)略研究咨詢報告
- 2025年耐高溫硅酮樹脂項目投資可行性研究分析報告
- 高考語文復(fù)習(xí)【知識精研】《千里江山圖》高考真題說題課件
- 河北省承德市2023-2024學(xué)年高一上學(xué)期期末物理試卷(含答案)
- 高中物理斜面模型大全(80個)
- 012主要研究者(PI)職責(zé)藥物臨床試驗機(jī)構(gòu)GCP SOP
- 農(nóng)耕研學(xué)活動方案種小麥
- 2024年佛山市勞動合同條例
- 污水管網(wǎng)規(guī)劃建設(shè)方案
- 城鎮(zhèn)智慧排水系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 采購管理制度及流程采購管理制度及流程
- 五年級美術(shù)下冊第9課《寫意蔬果》-優(yōu)秀課件4人教版
- 節(jié)能降耗課件
評論
0/150
提交評論