lunce搜索引擎框架

上傳人：d*** IP屬地：天津上傳時間：2022-04-14 格式：DOC 頁數(shù)：13 大?。?03KB 積分：15 舉報 版權(quán)申訴

免費預(yù)覽已結(jié)束，剩余8頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、全文搜索 lucene 使用與優(yōu)化2008-01-2320:581 lucene 簡介1.1 什么是 luceneLucene 是一個全文搜索框架，而不是應(yīng)用產(chǎn)品。因此它并不像或者googleDesktop 那么拿來就能用，它只是提供了一種工具讓你能實現(xiàn)這些產(chǎn)品。1.2 lucene 能做什么要回答這個問題，先要了解 lucene 的本質(zhì)。實際上 lucene 的功能很單一，說到底，就是你給它若干個字符串，然后它為你提供一個全文搜索服務(wù)，告訴你你要搜索的關(guān)鍵詞出現(xiàn)在哪里。知道了這個本質(zhì)，你就可以發(fā)揮想象做任何符合這個條件的事情了。你可以把站內(nèi)新聞都索引了，做個資料庫；你可以把一個數(shù)據(jù)庫表

2、的若干個字段索引起來，那就不用再擔(dān)心因為“l(fā)ike%”而鎖表了；你也可以寫個自己的搜索引擎,1.3 你該不 I 無&擇 lucene下面給出一些測試數(shù)據(jù)，如果你覺得可以接受，那么可以選擇。測試一：250 萬記錄，300M 左右文本，生成索引 380M 左右,800 線程下平均處理時間300ms測試二：37000 記錄，索引數(shù)據(jù)庫中的兩個 varchar 字段，索引文件 2.6M,800 線程下平均處理時間 1.5ms。2 lucene 的工作方式lucene 提供的服務(wù)實際包含兩部分：一入一出。所謂入是寫入，即將你提供的源（本質(zhì)是字符用）寫入索引或者將其從索引中刪除；所謂出是讀出，即向

3、用戶提供全文搜索服務(wù)，讓用戶可以通過關(guān)鍵詞定位源。2.1 寫入流程源字符串首先經(jīng)過 analyzer 處理，包括：分詞，分成一個個單詞；去除 stopword（可選）。將源中需要的信息加入 Document 的各個 Field 中，并把需要索引的 Field 索引起來，把需要存儲的 Field 存儲起來。將索引寫入存儲器，存儲器可以是內(nèi)存或磁盤。2.2 讀出流程用戶提供搜索關(guān)鍵詞，經(jīng)過 analyzer 處理。對處理后的關(guān)鍵詞搜索索引找出對應(yīng)的 Document用戶根據(jù)需要從找到的 Document 中提取需要的 Field。3 一些需要知道的概念lucene 用到一些概念，了解它們的含義，有

4、利于下面的講解。3.1 analyzerAnalyzer 是分析器，它的作用是把一個字符串按某種規(guī)則劃分成一個個詞語，并去除其中的無效詞語，這里說的無效詞語是指英文中的“of”、“the”，中文中的“的”、“地”等詞語，這些詞語在文章中大量出現(xiàn)，但是本身不包含什么關(guān)鍵信息，去掉有利于縮小索引文件、提高效率、提高命中率。分詞的規(guī)則千變?nèi)f化，但目的只有一個：按語義劃分。這點在英文中比較容易實現(xiàn)，因為英文本身就是以單詞為單位的，已經(jīng)用空格分開；而中文則必須以某種方法將連成一片的句子劃分成一個個詞語。具體劃分方法下面再詳細(xì)介紹，這里只需了解分析器的概念即可。3.2 document用戶提供的源

5、是一條條記錄，它們可以是文本文件、字符串或者數(shù)據(jù)庫表的一條記錄等等。一條記錄經(jīng)過索引之后，就是以一個 Document 的形式存儲在索引文件中的。用戶進行搜索，也是以 Document 列表的形式返回。3.3 field一個 Document 可以包含多個信息域，例如一篇文章可以包含“標(biāo)題”、“正文”、“最后修改時間”等信息域，這些信息域就是通過 Field 在 Document 中存儲的。Field 有兩個屬性可選：存儲和索引。通過存儲屬性你可以控制是否對這個 Field 進行存儲；通過索引屬性你可以控制是否對該 Field 進行索引。這看起來似乎有些廢話，事實上對這兩個屬性的正確組合很

6、重要，下面舉例說明：還是以剛才的文章為例子，我們需要對標(biāo)題和正文進行全文搜索，所以我們要把索引屬性設(shè)置為真，同時我們希望能直接從搜索結(jié)果中提取文章標(biāo)題，所以我們把標(biāo)題域的存儲屬性設(shè)置為真，但是由于正文域太大了，我們?yōu)榱丝s小索引文件大小，將正文域的存儲屬性設(shè)置為假，當(dāng)需要時再直接讀取文件；我們只是希望能從搜索解果中提取最后修改時間，不需要對它進行搜索，所以我們把最后修改時間域的存儲屬性設(shè)置為真，索引屬性設(shè)置為假。上面的三個域涵蓋了兩個屬性的三種組合，還有一種全為假的沒有用到，事實上 Field 不允許你那么設(shè)置，因為既不存儲又不索引的域是沒有意義的。3.4 termterm 是搜索的

7、最小單位，它表示文檔的一個詞語，term 由兩部分組成：它表示的詞語和這個詞語所出現(xiàn)的 fieldo3.5 tockentocken 是 term 的一次出現(xiàn)，它包含 trem 文本和相應(yīng)的起止偏移，以及一個類型字符串。一句話中可以出現(xiàn)多次相同的詞語，它們都用同一個 term 表示，但是用不同的tocken,每個 tocken 標(biāo)記該詞語出現(xiàn)的地方。3.6 segment添加索引時并不是每個 document 都馬上添加到同一個索引文件，它們首先被寫入到不同的小文件，然后再合并成一個大索引文件，這里每個小文件都是一個 segment。4 lucene 的結(jié)構(gòu)lucene 包括 core 和

8、sandbox 兩部分，其中 core 是 lucene 穩(wěn)定的核心部分，sandbox包含了一些附加功能，例如 highlighter、各種分析器。Lucenecore 有七個包：analysis,document,index,queryParser,search,store,util。4.1 analysisAnalysis 包含一些內(nèi)建的分析器，例如按空白字符分詞的 WhitespaceAnalyzer,添力口了 stopwrod 過濾的 StopAnalyzer,最常用的 StandardAnalyzer。4.2 documentDocument 包含文檔的數(shù)據(jù)結(jié)構(gòu)，例如 Docume

9、nt 類定義了存儲文檔的數(shù)據(jù)結(jié)構(gòu)，F(xiàn)ield類定義了 Document 的一個域。4.3 indexIndex 包含了索引的讀寫類，例如對索引文件的 segment 進行寫、合并、優(yōu)化的IndexWriter 類和對索引進行讀取和刪除操作的 IndexReader 類，這里要注意的是不要被 IndexReader 這個名字誤導(dǎo)，以為它是索引文件的讀取類，實際上刪除索引也是由它完成，IndexWriter 只關(guān)心如何將索引寫入一個個 segment,并將它們合并優(yōu)化；IndexReader 則關(guān)注索引文件中各個文檔的組織形式。4.4 queryParserQueryParser 包含了解析查詢語

10、句的類，lucene 的查詢語句和 sql 語句有點類似，有各種保留字，按照一定的語法可以組成各種查詢。Lucene 有很多種 Query 類，它們都繼承自 Query,執(zhí)行各種特殊的查詢，QueryParser 的作用就是解析查詢語句，按順序調(diào)用各種 Query 類查找出結(jié)果。4.5 searchSearch 包含了從索引中搜索結(jié)果的各種類，例如剛才說的各種 Query 類，包括TermQue 眇 BooleanQuery 等就在這個包里。4.6 storeStore 包含了索引的存儲類，例如 Directory 定義了索引文件的存儲結(jié)構(gòu)，F(xiàn)SDirectory為存儲在文件中的索引，RAMD

11、irectory 為存儲在內(nèi)存中的索引，MmapDirectory 為使用內(nèi)存映射的索引。4.7 utilUtil 包含一些公共工具類，例如時間和字符串之間的轉(zhuǎn)換工具。5 如何建索引9.1 最簡單的能完成索引的代碼片斷IndexWriterwriter=newIndexWriter(7data/index/”,newStandardAnalyzer(),true);Documentdoc=newDocument();doc.add(newField(title,luceneintroduction,Field.Store.YES,Field.Index.TOKENIZED);doc.add(n

12、ewField(content,luceneworkswell,Field.Store.YES,Field.Index.TOKENIZED);writer.addDocument(doc);writer.optimize();writer.close();下面我們分析一下這段代碼。首先我們創(chuàng)建了一個 writer,并指定存放索引的目錄為“/data/index,使用的分析器為StandardAnalyzer,第三個參數(shù)說明如果已經(jīng)有索引文件在索引目錄下，我們將覆蓋它們。然后我們新建一個 document我們向 document 添力口一個 field,名字是“title,內(nèi)容是“l(fā)ucenei

13、ntroduction,對它進行存儲并索引。再添加一個名字是“content”的 field,內(nèi)容是“l(fā)uceneworkswell,也是存儲并索引。然后我們將這個文檔添加到索引中，如果有多個文檔，可以重復(fù)上面的操作，創(chuàng)建 document 并添力口。添加完所有 document:,我們對索引進行優(yōu)化，優(yōu)化主要是將多個 segment 合并到一個，有利于提高索引速度。隨后將 writer 關(guān)閉，這點很重要。對，創(chuàng)建索引就這么簡單！當(dāng)然你可能修改上面的代碼獲得更具個性化的服務(wù)。9.2 將索引直接寫在內(nèi)存你需要首先創(chuàng)建一個 RAMDirectory,并將其傳給 writer,代碼如下：Direct

14、orydir=newRAMDirectory();IndexWriterwriter=newIndexWriter(dir,newStandardAnalyzer(),true);Documentdoc=newDocument();doc.add(newField(title,luceneintroduction,Field.Store.YES,Field.Index.TOKENIZED);doc.add(newField(content,luceneworkswell,Field.Store.YES,Field.Index.TOKENIZED);writer.addDocument(doc)

15、;writer.optimize();writer.close();9.3 索引文本文件如果你想把純文本文件索引起來，而不想自己將它們讀入字符串創(chuàng)建 field,你可以用下面的代碼創(chuàng)建 field:Fieldfield=newField(content,newFileReader(file);這里的 file 就是該文本文件。該構(gòu)造函數(shù)實際上是讀去文件內(nèi)容，并對其進行索引，但不存儲。6 如何維護索引索引的維護操作都是由 IndexReader 類提供。如何刪除索引lucene 提供了兩種從索引中刪除 document 的方法，一種是voiddeleteDocument(intdocNum)這種

16、方法是根據(jù) document 在索引中的編號來刪除，每個 document 加進索引后都會有個唯一編號，所以根據(jù)編號刪除是一種精確刪除，但是這個編號是索引的內(nèi)部結(jié)構(gòu)，一般我們不會知道某個文件的編號到底是幾，所以用處不大。另一種是voiddeleteDocuments(Termterm)這種方法實際上是首先根據(jù)參數(shù) term 執(zhí)行一個搜索操作，然后把搜索到的結(jié)果批量刪除了。我們可以通過這個方法提供一個嚴(yán)格的查詢條件，達到刪除指定 document 的目的。下面給出一個例子：Directorydir=FSDirectory.getDirectory(PATH,false);IndexReader

17、reader=IndexReader.open(dir);Termterm=newTerm(field,key);reader.deleteDocuments(term);reader.close();如何更新索引lucene 并沒有提供專門的索引更新方法，我們需要先將相應(yīng)的 document 刪除,然后再將新的 document 加入索引。例如：Directorydir=FSDirectory.getDirectory(PATH,false);IndexReaderreader=IndexReader.open(dir);Termterm=newTerm(title”,“l(fā)uceneintr

18、oduction);reader.deleteDocuments(term);reader.close();IndexWriterwriter=newIndexWriter(dir,newStandardAnalyzer(),true);Documentdoc=newDocument();doc.add(newField(title,luceneintroduction,Field.Store.YES,Field.Index.TOKENIZED);doc.add(newField(content,luceneisfunny,Field.Store.YES,Field.Index.TOKENIZ

19、ED);writer.addDocument(doc);writer.optimize();writer.close();7 如何搜索lucene 的搜索相當(dāng)強大，它提供了很多輔助查詢類，每個類都繼承自 Query 類,各自完成一種特殊的查詢，你可以像搭積木一樣將它們?nèi)我饨M合使用，完成一些復(fù)雜操作；另外 lucene 還提供了 Sort 類對結(jié)果進行排序，提供了 Filter 類對查詢條件進行限制。你或許會不自覺地拿它跟 SQM 句進行比較：lucene 能執(zhí)行 and、or、orderby、where、like%xx%操作嗎？”回答是：“當(dāng)然沒問題！”各種各樣的 Query下面我們看看 lu

20、cene 到底允許我們進行哪些查詢操作：TermQuery首先介紹最基本的查詢，如果你想執(zhí)行一個這樣的查詢：“在 content 域中包含lucene的 document,那么彳可以用 TermQueryTermt=newTerm(content,lucene;Queryquery=newTermQuery(t);BooleanQuery如果你想這么查詢：“在 content 域中包含 java 或 perl 的 document，那么你可以建立兩個 TermQuery 并把它們用 BooleanQuery 連接起來：TermQuerytermQuery1=newTermQuery(newTe

21、rm(content,java);TermQuerytermQuery2=newTermQuery(newTerm(content,perl);BooleanQuerybooleanQuery=newBooleanQuery();booleanQuery.add(termQuery1,BooleanClause.Occur.SHOULD);booleanQuery.add(termQuery2,BooleanClause.Occur.SHOULD);WildcardQuery如果你想對某單詞進行通配符查詢，你可以用 WildcardQuery，通配符包括？匹配一個任意字符和*匹配零個或多個任意

22、字符，例如你搜索use*,你可能找到useful或者useless：Queryquery=newWildcardQuery(newTerm(content,use*);PhraseQuery你可能對中日關(guān)系比較感興趣，想查找中和日挨得比較近（5 個字的距離內(nèi)）的文章，超過這個距離的不予考慮，你可以：PhraseQueryquery=newPhraseQuery();query.setSlop(5);query.add(newTerm(content,“中”);query.add(newTerm(content”,“日”);那么它可能搜到“中日合作，”、“中方和日方，”，但是搜不到“中國某高層領(lǐng)

23、導(dǎo)說日本欠扁”。PrefixQuery如果你想搜以中開頭的詞語，你可以用 PrefixQuery:PrefixQueryquery=newPrefixQuery(newTerm(content,中);FuzzyQueryFuzzyQuery 用來搜索相似的 term,使用 Levenshtein 算法。假設(shè)你想搜索跟wuzza相似的詞語，你可以：Queryquery=newFuzzyQuery(newTerm(content,wuzza);你可能得到fuzzy和wuzzy。RangeQuery另一個常用的 Query 是 RangeQuery,你也許想搜索時間域從 20060101 到2006

24、0130 之間的 document,你可以用 RangeQueryRangeQueryquery=newRangeQuery(newTerm(“time”,“20060101),newTerm(“time”，“20060130),true);最后的 true 表示用閉合區(qū)問。QueryParser看了這么多 Query,你可能會問：“不會讓我自己組合各種 Query 吧，太麻煩了！ ”當(dāng)然不會， lucene 提供了一種類似于 SQL句的查詢語句，我們姑且叫它 lucene語句，通過它，你可以把各種查詢一句話搞定，lucene 會自動把它們查分成小塊交給相應(yīng) Query 執(zhí)行。下面我們對應(yīng)每

25、種 Query 演示一下：TermQuery 可以用“field:key”方式，例如“content:lucene”。BooleanQuery 中與用+,或用，例如content:javacontenterl”。WildcardQuery 仍然用？和*,例如“content:use*”。PhraseQuery 用,但妝口“content:中日5”。PrefixQuery 用*,例如“中*”。FuzzyQuery 用,但”如content:wuzza。RangeQuery 用口或,前者表示閉區(qū)問，后者表示開區(qū)間，例如“time:20060101TO20060130”，注意 TO 區(qū)分大小寫。你可

26、以任意組合 querystring,完成復(fù)雜操作，例如“標(biāo)題或正文包括 lucene,并且時間在 20060101 至 ij20060130 之間的文章”可以表示為：“+(title:lucenecontent:lucene)+time:20060101TO20060130”。代碼如下：Directorydir=FSDirectory.getDirectory(PATH,false);IndexSearcheris=newIndexSearcher(dir);QueryParserparser=newQueryParser(content,newStandardAnalyzer();Query

27、query=parser.parse(+(title:lucenecontent:lucene)+time:20060101TO20060130;Hitshits=is.search(query);for(inti=0;ihits.length();i+)Documentdoc=hits.doc(i);System.out.println(doc.get(title);is.close();首先我們創(chuàng)建一個在指定文件目錄上的 IndexSearcher。然后創(chuàng)建一個使用 StandardAnalyzer 作為分析器的 QueryParser,它默認(rèn)搜索的域是content。接著我們用 Quer

28、yParser 來 parse 查詢字串，生成一個 Query。然后利用這個 Query 去查找結(jié)果，結(jié)果以 Hits 的形式返回。這個 Hits 對象包含一個列表，我們挨個把它的內(nèi)容顯示出來。Filterfilter 的作用就是限制只查詢索引的某個子集，它的作用有點像 SQM 句里的where,但又有區(qū)別，它不是正規(guī)查詢的一部分，只是對數(shù)據(jù)源進行預(yù)處理，然后交給查詢語句。注意它執(zhí)行的是預(yù)處理，而不是對查詢結(jié)果進行過濾，所以使用 filter 的代價是很大的，它可能會使一次查詢耗時提高一百倍。最常用的 filter 是 RangeFilter 和 QueryFilter。RangeFilter

29、是設(shè)定只搜索指定范圍內(nèi)的索引；QueryFilter 是在上次查詢的結(jié)果中搜索。Filter 的使用非常簡單，你只需創(chuàng)建一個 filter 實例，然后把它傳給 searcher 繼續(xù)上面的例子，查詢”時間在 20060101 到 20060130 之間的文章”除了將限制寫在querystring 中，你還可以寫在 RangeFilter 中：Directorydir=FSDirectory.getDirectory(PATH,false);IndexSearcheris=newIndexSearcher(dir);QueryParserparser=newQueryParser(conten

30、t,newStandardAnalyzer();Queryquery=parser.parse(title:lucenecontent:lucene;RangeFilterfilter=newRangeFilter(time,20060101,20060230,true,true);Hitshits=is.search(query,filter);for(inti=0;ihits.length();i+)Documentdoc=hits.doc(i);System.out.println(doc.get(title);is.close();Sort有時你想要一個排好序的結(jié)果集，就像 SQM 句

31、的“orderby,lucene 能做到：通過 Sort。Sortsort=newSort(“time);/相當(dāng)于 SQL!勺“orderbytime”Sortsort=newSort(“time”,true);/相當(dāng)于 SQL 的“orderbytimedesc”下面是一個完整的例子：Directorydir=FSDirectory.getDirectory(PATH,false);IndexSearcheris=newIndexSearcher(dir);QueryParserparser=newQueryParser(content,newStandardAnalyzer();Query

32、query=parser.parse(title:lucenecontent:lucene;RangeFilterfilter=newRangeFilter(time,20060101,20060230”,true,true);Sortsort=newSort(“time”);Hitshits=is.search(query,filter,sort);for(inti=0;ihits.length();i+)(Documentdoc=hits.doc(i);System.out.println(doc.get(title);)is.close();8 分析器在前面的概念介紹中我們已經(jīng)知道了分析

33、器的作用，就是把句子按照語義切分成一個個詞語。英文切分已經(jīng)有了很成熟的分析器：StandardAnalyzer,很多情況下 StandardAnalyzer 是個不錯的選擇。甚至你會發(fā)現(xiàn) StandardAnalyzer 也能對中文進行分詞。但是我們的焦點是中文分詞，StandardAnalyzer 能支持中文分詞嗎？實踐證明是可以的，但是效果并不好，搜索“如果”會把“牛奶不如果汁好喝”也搜索出來，而且索引文件很大。那么我們手頭上還有什么分析器可以使用呢？core里面沒有，我們可以在 sandbox 里面找到兩個：ChineseAnalyzer 和 CJKAnalyzero 但是它們同樣都有

34、分詞不準(zhǔn)的問題。相比之下用StandardAnalyzer 和 ChineseAnalyzer 建立索引時間差不多，索引文件大小也差不多，CJKAnalyzer 表現(xiàn)會差些，索引文件大且耗時比較長。要解決問題，首先分析一下這三個分析器的分詞方式。StandardAnalyzer 和ChineseAnalyzer 都是把句子按單個字切分，也就是說“牛奶不如果汁好喝”會被它們切分成“牛奶不如果汁好喝”；而 CJKAnalyzer 則會切分成“牛奶奶不不如如果果汁汁好好喝”。這也就解釋了為什么搜索“果汁”都能匹配這個句子。以上分詞的缺點至少有兩個：匹配不準(zhǔn)確和索引文件大。我們的目標(biāo)是將上面的句子

35、分解成“牛奶不如果汁好喝”。這里的關(guān)鍵就是語義識別，我們?nèi)绾巫R別“牛奶”是一個詞而“奶不”不是詞語？我們很自然會想到基于詞庫的分詞法，也就是我們先得到一個詞庫，里面列舉了大部分詞語，我們把句子按某種方式切分，當(dāng)?shù)玫降脑~語與詞庫中的項匹配時，我們就認(rèn)為這種切分是正確的。這樣切詞的過程就轉(zhuǎn)變成匹配的過程，而匹配的方式最簡單的有正向最大匹配和逆向最大匹配兩種，說白了就是一個從句子開頭向后進行匹配，一個從句子末尾向前進行匹配?；谠~庫的分詞詞庫非常重要，詞庫的容量直接影響搜索結(jié)果，在相同詞庫的前提下，據(jù)說逆向最大匹配優(yōu)于正向最大匹配。當(dāng)然還有別的分詞方法，這本身就是一個學(xué)科，我這里也沒有深入研

36、究?；氐骄唧w應(yīng)用，我們的目標(biāo)是能找到成熟的、現(xiàn)成的分詞工具，避免重新發(fā)明車輪。經(jīng)過網(wǎng)上搜索，用的比較多的是中科院的 ICTCLAS 和一個不開放源碼但是免費的 JE-Analysis。 ICTCLASW 個問題是它是一個動態(tài)鏈接庫，java 調(diào)用需要本地方法調(diào)用，不方便也有安全隱患，而且口碑也確實不大好。JE-Analysis 效果還不錯，當(dāng)然也會有分詞不準(zhǔn)的地方，相比比較方便放心。9 性能優(yōu)化一直到這里，我們還是在討論怎么樣使 lucene 跑起來，完成指定任務(wù)。利用前面說的也確實能完成大部分功能。但是測試表明 lucene 的性能并不是很好，在大數(shù)據(jù)量大并發(fā)的條件下甚至?xí)邪敕昼姺祷氐那闆r

37、。另外大數(shù)據(jù)量的數(shù)據(jù)初始化建立索引也是一個十分耗時的過程。那么如何提高 lucene 的性能呢？下面從優(yōu)化創(chuàng)建索引性能和優(yōu)化搜索性能兩方面介紹。優(yōu)化創(chuàng)建索引性能這方面的優(yōu)化途徑比較有限，IndexWriter 提供了一些接口可以控制建立索引的操作，另外我們可以先將索引寫入 RAMDirectory,再批量寫入 FSDirectory,不管怎樣，目的都是盡量少的文件 IO,因為創(chuàng)建索引的最大瓶頸在于磁盤 IO。另外選擇一個較好的分析器也能提高一些性能。通過設(shè)置 IndexWriter 的參數(shù)優(yōu)化索引建立setMaxBufferedDocs(intmaxBufferedDocs)控制寫入一個新的

38、segment 前內(nèi)存中保存的 document 的數(shù)目，設(shè)置較大的數(shù)目可以加快建索引速度，默認(rèn)為 10。setMaxMergeDocs(intmaxMergeDocs)控制一個 segment 中可以保存的最大 document 數(shù)目，值較小有利于追加索引的速度，默認(rèn) Integer.MAX_VALUE,無需修改。setMergeFactor(intmergeFactor)控制多個 segment 合并的頻率，值較大時建立索引速度較快，默認(rèn)是 10,可以在建立索引時設(shè)置為 100。通過 RAMDirectory 緩寫提高性能我們可以先把索引寫入 RAMDirectory,達到一定數(shù)量時再批量

39、寫進FSDirectory,減少磁盤 IO 次數(shù)。FSDirectoryfsDir=FSDirectory.getDirectory(/data/index,true);RAMDirectoryramDir=newRAMDirectory();IndexWriterfsWriter=newIndexWriter(fsDir,newStandardAnalyzer(),true);IndexWriterramWriter=newIndexWriter(ramDir,newStandardAnalyzer(),true);while(therearedocumentstoindex).create

40、Document.ramWriter.addDocument(doc);if(conditionforflushingmemorytodiskhasbeenmet)fsWriter.addIndexes(newDirectory 口ramDir);ramWriter.close();ramWriter=newIndexWriter(ramDir,newStandardAnalyzer(),true);選擇較好的分析器這個優(yōu)化主要是對磁盤空間的優(yōu)化，可以將索引文件減小將近一半，相同測試數(shù)據(jù)下由 600M 減少到 380M 但是對時間并沒有什么幫助，甚至?xí)枰L時間,因為較好的分析器需要匹配詞庫

41、，會消耗更多 cpu,測試數(shù)據(jù)用StandardAnalyzer 耗時 133 分鐘；用 MMAnalyzer 耗時 150 分鐘。優(yōu)化搜索性能雖然建立索引的操作非常耗時，但是那畢竟只在最初創(chuàng)建時才需要，平時只是少量的維護操作，更何況這些可以放到一個后臺進程處理，并不影響用戶搜索。我們創(chuàng)建索引的目的就是給用戶搜索，所以搜索的性能才是我們最關(guān)心的。下面就來探討一下如何提高搜索性能。將索引放入內(nèi)存這是一個最直觀的想法，因為內(nèi)存比磁盤快很多。Lucene 提供了 RAMDirectory可以在內(nèi)存中容納索引：DirectoryfsDir=FSDirectory.getDirectory(Di

42、rectoryramDir=newRAMDirectory(fsDir);Searchersearcher=newIndexSearcher(ramDir);但是實踐證明 RAMDirectory 和 FSDirectory 速度差不多，當(dāng)數(shù)據(jù)量很小時兩者都非?？欤?dāng)數(shù)據(jù)量較大時（索引文件 400MRAMDirectory 甚至比 FSDirectory 還要慢一點，這確實讓人出乎意料。而且 lucene 的搜索非常耗內(nèi)存，即使將 400M 的索引文件載入內(nèi)存，在運行一段時間后都會 outofmemory,所以個人認(rèn)為載入內(nèi)存的作用并不大。優(yōu)化時間范圍限制既然載入內(nèi)存并不能提高效率，一定有其

43、它瓶頸，經(jīng)過測試發(fā)現(xiàn)最大的瓶頸居然是時間范圍限制，那么我們可以怎樣使時間范圍限制的代價最小呢？當(dāng)需要搜索指定時間范圍內(nèi)的結(jié)果時，可以：1、用 RangeQuery,設(shè)置范圍，但是 RangeQuery 的實現(xiàn)實際上是將時間范圍內(nèi)的時間點展開，組成一個個 BooleanClause 加入到 BooleanQuery 中查詢，因此時間范圍不可能設(shè)置太大，經(jīng)測試，范圍超過一個月就會拋 BooleanQuery.TooManyClauses,可以通過設(shè)置 BooleanQuery.setMaxClauseCount(intmaxClauseCount)擴大，但是擴大也是有限的，并且隨著 maxClauseCount 擴大，占用內(nèi)存也擴大2、用 RangeFilter 代替 RangeQuery 經(jīng)測試速度不會比 RangeQuery 慢，但是仍然有性能瓶頸，查詢的 90 犯上時間耗費在 RangeFilter,研究其源碼發(fā)現(xiàn) RangeFilter 實際上是首先遍歷所有索引，生成一個 BitSet,標(biāo)記每個 document,在時間范圍內(nèi)的標(biāo)記為true，不在的標(biāo)記為 false，然后將結(jié)果傳遞給 Searcher 查找，這是十分

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

lunce搜索引擎框架

文檔簡介

溫馨提示

最新文檔

評論

lunce搜索引擎框架

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔