Java開源搜索引擎介紹_第1頁
Java開源搜索引擎介紹_第2頁
Java開源搜索引擎介紹_第3頁
Java開源搜索引擎介紹_第4頁
Java開源搜索引擎介紹_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、EgothorEgothor是一個用Java編寫的開源而高效的全文本搜索引擎。借助Java的跨平臺特性,Egothor能應(yīng)用于任何環(huán)境的應(yīng)用,既可配置為單獨(dú)的搜索引擎,又能用于你的應(yīng)用作為全文檢索之用。 更多Egothor信息NutchNutch是一個開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 更多Nutch信息LuceneApache Lucene是一個基于Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個字作索引,索引讓搜尋的效率比傳統(tǒng)的逐字比較大大提高,Lucen提供一組

2、解讀,過濾,分析文件,編排和使用索引的API,它的強(qiáng)大之處除了高效和簡單外,是最重要的是使使用者可以隨時應(yīng)自已需要自訂其功能。 更多Lucene信息Oxyus是一個純java寫的web搜索引擎。 更多Oxyus信息BDDBotBDDBot是一個簡單的易于理解和使用的搜索引擎。它目前在一個文本文件(urls.txt)列出的URL中爬行,將結(jié)果保存在一個數(shù)據(jù)庫中。它也支持一個簡單的Web服務(wù)器,這個服務(wù)器接受來自瀏覽器的查詢并返回響應(yīng)結(jié)果。它可以方便地集成到你的Web站點(diǎn)中。 更多BDDBot信息ZilverlineZilverline是一個搜索引擎,它通過web方式搜索本地硬盤或intranet

3、上的內(nèi)容。Zilverline可以從PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文檔中抓取它們的內(nèi)容來建立摘要和索引。從本地硬盤或intranet中查找到的結(jié)果可重新再進(jìn)行檢索。Zilverline支持多種語言其中包括中文。 更多Zilverline信息XQEngineXQEngine用于XML文檔的全文本搜索引擎.利用XQuery做為它的前端查詢語言.它能夠讓你查詢XML文檔集合通過使用關(guān)鍵字的邏輯組合.有點(diǎn)類似于Google與其它搜索引擎搜索HTML文檔一樣.XQEngine只是一個用Java開發(fā)的很緊湊的可嵌入的組

4、件. 更多XQEngine信息MG4JMG4J可以讓你為大量的文檔集合構(gòu)建一個被壓縮的全文本索引,通過使內(nèi)插編碼(interpolative coding)技術(shù). 更多MG4J信息JXTA SearchJXTA Search是一個分布式的搜索系統(tǒng).設(shè)計用在點(diǎn)對點(diǎn)的網(wǎng)絡(luò)與網(wǎng)站上. 更多JXTA Search信息YaCyYaCy基于p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務(wù)器.這個項目是構(gòu)建基于p2p Web索引網(wǎng)絡(luò)的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁或啟動分布式Crawling等.更多YaCy信息Red-PiranhaRed-Piranha

5、是一個開源搜索系統(tǒng),它能夠真正學(xué)習(xí)你所要查找的是什么.Red-Piranha可作為你桌面系統(tǒng)(Windows,Linux與Mac)的個人搜索引擎,或企業(yè)內(nèi)部網(wǎng)搜索引擎,或為你的網(wǎng)站提供搜索功能,或作為一個P2P搜索引擎,或與wiki結(jié)合作為一個知識/文檔管理解決方案,或搜索你要的RSS聚合信息,或搜索你公司的系統(tǒng)(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文檔,或作為一個提供搜索信息的WebService或為你的應(yīng)用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜

6、索后臺等等. 更多Red-Piranha信息LIUSLIUS是一個基于Jakarta Lucene項目的索引框架。LIUS為Lucene添加了對許多文件格式的進(jìn)行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。針對JavaBeans的索引特別有用當(dāng)我們要對數(shù)據(jù)庫進(jìn)行索引或剛好用戶使用持久層ORM技術(shù)如:Hibernate,JDO,Torque,TopLink進(jìn)行開發(fā)時。 更多LIUS信息ApertureAperture這個Java框架能夠從各種各樣的資料系統(tǒng)(如:文件系統(tǒng)、Web

7、站點(diǎn)、IMAP和Outlook郵箱)或存在這些系統(tǒng)中的文件(如:文檔、圖片)爬取和搜索其中的全文本內(nèi)容與元數(shù)據(jù)。它當(dāng)前支持的文件格式如下: Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer

8、, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (.eml files) 更多Aperture信息Apache SolrSolr是一個高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過http收到一個XML/JSON響應(yīng)來實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù)制來提高可用性,提供一套強(qiáng)大

9、Data Schema來定義字段,類型和設(shè)置文本分析,提供基于Web的管理界面等。 更多Apache Solr信息Lucene中文分詞“庖丁解?!?Paoding AnalysisPaodings Knives中文分詞具有極高效率和高擴(kuò)展性。引入隱喻,采用完全的面向?qū)ο笤O(shè)計,構(gòu)思先進(jìn)。高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,1秒可準(zhǔn)確分詞100萬漢字。采用基于不限制個數(shù)的詞典文件對文章進(jìn)行有效切分,使能夠?qū)υ~匯分類定義。能夠?qū)ξ粗脑~匯進(jìn)行合理解析。 更多Lucene中文分詞“庖丁解?!?Paoding Analysis信息Carrot2Carrot2是一個開源搜索結(jié)果分類引擎。它能夠自動把

10、搜索結(jié)果組織成一些專題分類。Carrot2提供的一個架構(gòu)能夠從各種搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)獲取搜索結(jié)果。 更多Carrot2信息RegainRegain是一個基于Jakarta Lucene封裝的搜索引擎。它能夠索引和查詢多種格式的文件(當(dāng)前支持的格式包括:HTML、XML、Excel、Powerpoint、Word、PDF和RTF)。此外它還提供一個標(biāo)簽庫以便易于將搜索結(jié)果展示在JSP頁面中。更多

11、Regain信息HounderHounder是一個完善的搜索系統(tǒng),Hounder只會檢索那些出現(xiàn)在互聯(lián)網(wǎng)上的文檔,并通過一個簡單的網(wǎng)頁來展示搜索結(jié)果。能夠完美與其它項目相結(jié)合。它在各方面的設(shè)計都是規(guī)模級的包括:索引網(wǎng)頁的數(shù)量,檢索速度,查詢并發(fā)數(shù)。它已經(jīng)成功應(yīng)用在多個大型搜索系統(tǒng)中。更多Hounder信息中文分詞器 IKAnalyzerIKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAn

12、alyzer3.0則發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項目,同時提供了對Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最細(xì)粒度切分算法“,具有50萬字/秒的高速處理能力。 采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。 優(yōu)化的詞典存儲,更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義 針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(作者吐血推薦);采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大的提高Luce

13、ne檢索的命中率。 更多中文分詞器 IKAnalyzer信息MustruMustru是一個桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等開源項目開發(fā)。能夠?qū)Ρ镜匚募到y(tǒng)的多個目錄進(jìn)行索引,然后使用一個Web界面查詢該索引。Mustru提供的功能包括: 從HTML、PDF和DOC等40多種常見的文件類型文件中抽取文本。 檢查重復(fù)的內(nèi)容。 使用GATE找出文本中的一些實(shí)體(人,地名和組織/機(jī)構(gòu))。 支持多線程索引、歸類和實(shí)體抽取。 能夠修復(fù)和恢復(fù)索引文件。 找出相似的文檔。 支持接受用自然語言提問,然后返回相應(yīng)答案列表。 使用一個預(yù)先定義好的分

14、類法將文本內(nèi)容歸類成體育、商業(yè)、健康等領(lǐng)域。更多Mustru信息Open Search ServerOpen Search Server是一個穩(wěn)定、高性能的搜索引擎和一個全文搜索算法套件??梢杂?0種語言對文檔進(jìn)行索引。多語言分析器將句子切成詞,然后基于文檔的語言將lemmatisation算法運(yùn)用在詞語之上。支持多種文檔格式包括:XML、HTML、PDF、Word和PowerPoint等。它還擁有一個基于Zkoss框架開發(fā)的Web操作界面。更多Open Search Server信息Nut只為lucene提供分布式搜索框架。理論上可對千G以上索引文件支持?jǐn)?shù)千萬級的用戶搜索訪問。Nut由Cli

15、ent、Server、Cache和DB四部分構(gòu)成。Client處理用戶請求和對搜索結(jié)果排序。Server對請求進(jìn)行搜索,Server上只放索引,數(shù)據(jù)存儲在DB中,Nut將索引和存儲分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當(dāng)前頁中的文檔id從DB上讀取數(shù)據(jù)。 更多Nut信息ElasticSearchElasticSearch是一個基于Lucene構(gòu)建的開源,分布式,RESTful搜索引擎。設(shè)計用于云計算中,能夠達(dá)到實(shí)時搜索,穩(wěn)定,可靠,快速,安裝使用方便。支持通過HTTP使用JSON進(jìn)行數(shù)據(jù)索引。 收錄時間:2010-10-09 11:0

16、7:48更多ElasticSearch信息Bobobobo-browse是一用java寫的lucene擴(kuò)展組件,通過它可以很方便在lucene上實(shí)現(xiàn)分組統(tǒng)計功能。比如說搜索電腦,可以得到cpu是intel的有幾條命中記錄,cpu是amd的有幾條命中記錄。 收錄時間:2010-11-18 11:41:18更多Bobo信息HSearchHSearch是一個基于Hadoop和HBase開發(fā)的開源NoSQL搜索引擎。HSearch提供的特性包括:* 多種文檔格式支持* 記錄和文檔級搜索訪問控制* 持續(xù)索引更新*使用多臺機(jī)器并行索引* 可嵌入到應(yīng)用程序中使用* 一個支持XML的REST-ful Web

17、Service網(wǎng)關(guān)*自動分片*自動復(fù)制 收錄時間:2011-01-04 20:55:46更多HSearch信息ConstellioConstellio是一個開源的企業(yè)搜索引擎基于Apache Solr實(shí)現(xiàn),并用到了Google Search Appliances connectors架構(gòu)。利用Constellio只要單擊一下就能夠可以搜索出你企業(yè)所有相關(guān)的內(nèi)容包括網(wǎng)站、郵箱、ECM, CRM。它支持超過15種語言的多語言搜索,支持文檔自動分類,為文檔添加標(biāo)簽和關(guān)鍵字??梢酝ㄟ^連接器為索引庫定制數(shù)據(jù)來源,連接器可以擴(kuò)展。默認(rèn)提供了數(shù)據(jù)庫、郵件、網(wǎng)頁、郵件的連接器。因為是基于solr做的,所以so

18、lr中的層面搜索、同義詞等也都在。支持定時通過連接器抓取數(shù)據(jù),支持對索引字段的配置。支持opensearch。支持用戶和組管理。支持對數(shù)據(jù)類型定制,這個功能應(yīng)該是通過可視化界面去修改solr的scheme文件。支持切詞器、過濾器、緩存管理。 此外它還開發(fā)多種編程語言的API包括:Ruby、PHP、Java、Python、JSon、C#、ColdFusion。 收錄時間:2011-01-05 09:08:42更多Constellio信息DocSearcherDocSearcher是一個文檔全文搜索工具,采用Lucene,POI Apache APIs以及PDF Box API等Java開源項目開

19、發(fā)。能夠搜索HTML、MS Word、MS Excel、RTF、PDF、Open Office (Star Office)、和 Text文檔。 收錄時間:2011-02-08 18:27:49更多DocSearcher信息起點(diǎn)R3企業(yè)級搜索引擎起點(diǎn)R3企業(yè)級搜索引擎是起點(diǎn)軟件提供的企業(yè)搜索解決方案,支持企業(yè)環(huán)境下的數(shù)據(jù)訪問控制(ACL),能夠通過定義用戶數(shù)據(jù)訪問權(quán)限來控制檢索數(shù)據(jù)的安全。 R3是一個強(qiáng)大的,高性能的JAVA企業(yè)級搜索引擎產(chǎn)品,R3構(gòu)建于Solr和Lucene之上,集成了POI、PDFBox和Apache Tika等第三方開源項目,在R3企業(yè)級搜索平臺上,你可以搜索出你企業(yè)所有相

20、關(guān)的內(nèi)容包括網(wǎng)站、郵箱、ECM, CRM。R3使用一中新的集群模式來實(shí)現(xiàn)分布式和集群功能,通過擴(kuò)展計算能力,R3能夠支持上千G文檔,完成復(fù)雜的并行運(yùn)算;R3能夠以集群模式運(yùn)行來提高系統(tǒng)的可用性。它支持超過15種語言的多語言搜索,能夠集成文檔自動分類和聚類功能,能夠為文檔自動、智能的添加標(biāo)簽和關(guān)鍵字??梢酝ㄟ^采集器為索引庫定制數(shù)據(jù)來源,采集器通過插件的方式擴(kuò)展。默認(rèn)提供數(shù)據(jù)庫、郵件、本地文件系統(tǒng)、網(wǎng)絡(luò)文件系統(tǒng)、FTP、Domino、CSV、Access的采集器。R3基于Solr之上,所以在Solr中的層面搜索、同義詞等都被完整的保留了下來。R3通過作業(yè)調(diào)度系統(tǒng)實(shí)現(xiàn)了任務(wù)的自動化采集、能夠增量索引

21、,支持?jǐn)?shù)據(jù)更新,能夠通過可視化的方式對索引字段進(jìn)行管理。R3具備用戶和用戶組管理,R3可以對數(shù)據(jù)類型定制,支持分詞器、過濾器、緩存管理。R3能夠很容易的集成Hadoop和HBase。此外它還開發(fā)多種編程語言的API包括:Ruby、PHP、Java、Python、JSon、C#、ColdFusion。收錄時間:2011-03-10 20:16:21更多起點(diǎn)R3企業(yè)級搜索引擎信息代碼搜索引擎 i.So.Code北京大學(xué)Asseters小組開發(fā)的新一代代碼搜索引擎。目前iSoCode可以檢索大約200個優(yōu)秀(是真的優(yōu)秀的)的開源項目,包括jdk、Lucene、log4j、jdom、commons-

22、lang、commons-cli等一大批大家經(jīng)常用到的開源項目在iSoCode中都可以找到,而且可以直接從iSoCode上下載項目源碼、jar包 以及javadoc。iSoCode的另外一大亮點(diǎn)是它可以同時幫你檢索你想要的API的具體實(shí)現(xiàn)細(xì)節(jié)、使用的實(shí)例、javadoc文檔以及在CSDN和百度上關(guān)于這個API的討論內(nèi)容等四大方面的信息!這么做可以再很多情況下免去了在百度上檢索再去找源代碼的繁瑣細(xì)節(jié)。 收錄時間:2011-03-22 22:18:33更多代碼搜索引擎 i.So.Code信息Katta分布式LuceneKatta是一個可擴(kuò)展的、高容錯性、準(zhǔn)實(shí)時的分布式搜索引擎。 具有索引復(fù)制的功能,會對索引進(jìn)行分片處理,讓索引分散到多個節(jié)點(diǎn)上,執(zhí)行分布式檢索。它能很好的運(yùn)行在由許多廉價服務(wù)器組成的大型集群之上,跟Hadoop MapReduce, Hadoop DFS, HBase, Bigtable or Hypertable類似。支持不同格式的索引文件,但是目前只實(shí)現(xiàn)了lucene索引文件和hadoop mapfiles的讀寫。 * 能輕松的構(gòu)建處理海量數(shù)據(jù)的高負(fù)載系統(tǒng)* 索引文件(lucene索引或者h(yuǎn)adoop mapfiles)的分片處理,分散到許多臺服務(wù)器上。* 多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論