




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、EgothorEgothor是一個用Java編寫的開源而高效的全文本搜索引擎。借助Java的跨平臺特性,Egothor能應用于任何環(huán)境的應用,既可配置為單獨的搜索引擎,又能用于你的應用作為全文檢索之用。 更多Egothor信息NutchNutch是一個開源Java實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 更多Nutch信息LuceneApache Lucene是一個基于Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個字作索引,索引讓搜尋的效率比傳統(tǒng)的逐字比較大大提高,Lucen提供一組
2、解讀,過濾,分析文件,編排和使用索引的API,它的強大之處除了高效和簡單外,是最重要的是使使用者可以隨時應自已需要自訂其功能。 更多Lucene信息Oxyus是一個純java寫的web搜索引擎。 更多Oxyus信息BDDBotBDDBot是一個簡單的易于理解和使用的搜索引擎。它目前在一個文本文件(urls.txt)列出的URL中爬行,將結果保存在一個數(shù)據(jù)庫中。它也支持一個簡單的Web服務器,這個服務器接受來自瀏覽器的查詢并返回響應結果。它可以方便地集成到你的Web站點中。 更多BDDBot信息ZilverlineZilverline是一個搜索引擎,它通過web方式搜索本地硬盤或intranet
3、上的內容。Zilverline可以從PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文檔中抓取它們的內容來建立摘要和索引。從本地硬盤或intranet中查找到的結果可重新再進行檢索。Zilverline支持多種語言其中包括中文。 更多Zilverline信息XQEngineXQEngine用于XML文檔的全文本搜索引擎.利用XQuery做為它的前端查詢語言.它能夠讓你查詢XML文檔集合通過使用關鍵字的邏輯組合.有點類似于Google與其它搜索引擎搜索HTML文檔一樣.XQEngine只是一個用Java開發(fā)的很緊湊的可嵌入的組
4、件. 更多XQEngine信息MG4JMG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術. 更多MG4J信息JXTA SearchJXTA Search是一個分布式的搜索系統(tǒng).設計用在點對點的網(wǎng)絡與網(wǎng)站上. 更多JXTA Search信息YaCyYaCy基于p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基于p2p Web索引網(wǎng)絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁或啟動分布式Crawling等.更多YaCy信息Red-PiranhaRed-Piranha
5、是一個開源搜索系統(tǒng),它能夠真正學習你所要查找的是什么.Red-Piranha可作為你桌面系統(tǒng)(Windows,Linux與Mac)的個人搜索引擎,或企業(yè)內部網(wǎng)搜索引擎,或為你的網(wǎng)站提供搜索功能,或作為一個P2P搜索引擎,或與wiki結合作為一個知識/文檔管理解決方案,或搜索你要的RSS聚合信息,或搜索你公司的系統(tǒng)(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文檔,或作為一個提供搜索信息的WebService或為你的應用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜
6、索后臺等等. 更多Red-Piranha信息LIUSLIUS是一個基于Jakarta Lucene項目的索引框架。LIUS為Lucene添加了對許多文件格式的進行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。針對JavaBeans的索引特別有用當我們要對數(shù)據(jù)庫進行索引或剛好用戶使用持久層ORM技術如:Hibernate,JDO,Torque,TopLink進行開發(fā)時。 更多LIUS信息ApertureAperture這個Java框架能夠從各種各樣的資料系統(tǒng)(如:文件系統(tǒng)、Web
7、站點、IMAP和Outlook郵箱)或存在這些系統(tǒng)中的文件(如:文檔、圖片)爬取和搜索其中的全文本內容與元數(shù)據(jù)。它當前支持的文件格式如下: Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer
8、, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (.eml files) 更多Aperture信息Apache SolrSolr是一個高性能,采用Java5開發(fā),基于Lucene的全文搜索服務器。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過http收到一個XML/JSON響應來實現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過索引復制來提高可用性,提供一套強大
9、Data Schema來定義字段,類型和設置文本分析,提供基于Web的管理界面等。 更多Apache Solr信息Lucene中文分詞“庖丁解?!?Paoding AnalysisPaodings Knives中文分詞具有極高效率和高擴展性。引入隱喻,采用完全的面向對象設計,構思先進。高效率:在PIII 1G內存?zhèn)€人機器上,1秒可準確分詞100萬漢字。采用基于不限制個數(shù)的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。能夠對未知的詞匯進行合理解析。 更多Lucene中文分詞“庖丁解?!?Paoding Analysis信息Carrot2Carrot2是一個開源搜索結果分類引擎。它能夠自動把
10、搜索結果組織成一些專題分類。Carrot2提供的一個架構能夠從各種搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)獲取搜索結果。 更多Carrot2信息RegainRegain是一個基于Jakarta Lucene封裝的搜索引擎。它能夠索引和查詢多種格式的文件(當前支持的格式包括:HTML、XML、Excel、Powerpoint、Word、PDF和RTF)。此外它還提供一個標簽庫以便易于將搜索結果展示在JSP頁面中。更多
11、Regain信息HounderHounder是一個完善的搜索系統(tǒng),Hounder只會檢索那些出現(xiàn)在互聯(lián)網(wǎng)上的文檔,并通過一個簡單的網(wǎng)頁來展示搜索結果。能夠完美與其它項目相結合。它在各方面的設計都是規(guī)模級的包括:索引網(wǎng)頁的數(shù)量,檢索速度,查詢并發(fā)數(shù)。它已經(jīng)成功應用在多個大型搜索系統(tǒng)中。更多Hounder信息中文分詞器 IKAnalyzerIKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAn
12、alyzer3.0則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最細粒度切分算法“,具有50萬字/秒的高速處理能力。 采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學計數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。 優(yōu)化的詞典存儲,更小的內存占用。支持用戶詞典擴展定義 針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(作者吐血推薦);采用歧義分析算法優(yōu)化查詢關鍵字的搜索排列組合,能極大的提高Luce
13、ne檢索的命中率。 更多中文分詞器 IKAnalyzer信息MustruMustru是一個桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等開源項目開發(fā)。能夠對本地文件系統(tǒng)的多個目錄進行索引,然后使用一個Web界面查詢該索引。Mustru提供的功能包括: 從HTML、PDF和DOC等40多種常見的文件類型文件中抽取文本。 檢查重復的內容。 使用GATE找出文本中的一些實體(人,地名和組織/機構)。 支持多線程索引、歸類和實體抽取。 能夠修復和恢復索引文件。 找出相似的文檔。 支持接受用自然語言提問,然后返回相應答案列表。 使用一個預先定義好的分
14、類法將文本內容歸類成體育、商業(yè)、健康等領域。更多Mustru信息Open Search ServerOpen Search Server是一個穩(wěn)定、高性能的搜索引擎和一個全文搜索算法套件??梢杂?0種語言對文檔進行索引。多語言分析器將句子切成詞,然后基于文檔的語言將lemmatisation算法運用在詞語之上。支持多種文檔格式包括:XML、HTML、PDF、Word和PowerPoint等。它還擁有一個基于Zkoss框架開發(fā)的Web操作界面。更多Open Search Server信息Nut只為lucene提供分布式搜索框架。理論上可對千G以上索引文件支持數(shù)千萬級的用戶搜索訪問。Nut由Cli
15、ent、Server、Cache和DB四部分構成。Client處理用戶請求和對搜索結果排序。Server對請求進行搜索,Server上只放索引,數(shù)據(jù)存儲在DB中,Nut將索引和存儲分離。Cache緩存的是搜索條件和結果文檔id。DB存儲著數(shù)據(jù),Client根據(jù)搜索排序結果,取出當前頁中的文檔id從DB上讀取數(shù)據(jù)。 更多Nut信息ElasticSearchElasticSearch是一個基于Lucene構建的開源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實時搜索,穩(wěn)定,可靠,快速,安裝使用方便。支持通過HTTP使用JSON進行數(shù)據(jù)索引。 收錄時間:2010-10-09 11:0
16、7:48更多ElasticSearch信息Bobobobo-browse是一用java寫的lucene擴展組件,通過它可以很方便在lucene上實現(xiàn)分組統(tǒng)計功能。比如說搜索電腦,可以得到cpu是intel的有幾條命中記錄,cpu是amd的有幾條命中記錄。 收錄時間:2010-11-18 11:41:18更多Bobo信息HSearchHSearch是一個基于Hadoop和HBase開發(fā)的開源NoSQL搜索引擎。HSearch提供的特性包括:* 多種文檔格式支持* 記錄和文檔級搜索訪問控制* 持續(xù)索引更新*使用多臺機器并行索引* 可嵌入到應用程序中使用* 一個支持XML的REST-ful Web
17、Service網(wǎng)關*自動分片*自動復制 收錄時間:2011-01-04 20:55:46更多HSearch信息ConstellioConstellio是一個開源的企業(yè)搜索引擎基于Apache Solr實現(xiàn),并用到了Google Search Appliances connectors架構。利用Constellio只要單擊一下就能夠可以搜索出你企業(yè)所有相關的內容包括網(wǎng)站、郵箱、ECM, CRM。它支持超過15種語言的多語言搜索,支持文檔自動分類,為文檔添加標簽和關鍵字??梢酝ㄟ^連接器為索引庫定制數(shù)據(jù)來源,連接器可以擴展。默認提供了數(shù)據(jù)庫、郵件、網(wǎng)頁、郵件的連接器。因為是基于solr做的,所以so
18、lr中的層面搜索、同義詞等也都在。支持定時通過連接器抓取數(shù)據(jù),支持對索引字段的配置。支持opensearch。支持用戶和組管理。支持對數(shù)據(jù)類型定制,這個功能應該是通過可視化界面去修改solr的scheme文件。支持切詞器、過濾器、緩存管理。 此外它還開發(fā)多種編程語言的API包括:Ruby、PHP、Java、Python、JSon、C#、ColdFusion。 收錄時間:2011-01-05 09:08:42更多Constellio信息DocSearcherDocSearcher是一個文檔全文搜索工具,采用Lucene,POI Apache APIs以及PDF Box API等Java開源項目開
19、發(fā)。能夠搜索HTML、MS Word、MS Excel、RTF、PDF、Open Office (Star Office)、和 Text文檔。 收錄時間:2011-02-08 18:27:49更多DocSearcher信息起點R3企業(yè)級搜索引擎起點R3企業(yè)級搜索引擎是起點軟件提供的企業(yè)搜索解決方案,支持企業(yè)環(huán)境下的數(shù)據(jù)訪問控制(ACL),能夠通過定義用戶數(shù)據(jù)訪問權限來控制檢索數(shù)據(jù)的安全。 R3是一個強大的,高性能的JAVA企業(yè)級搜索引擎產(chǎn)品,R3構建于Solr和Lucene之上,集成了POI、PDFBox和Apache Tika等第三方開源項目,在R3企業(yè)級搜索平臺上,你可以搜索出你企業(yè)所有相
20、關的內容包括網(wǎng)站、郵箱、ECM, CRM。R3使用一中新的集群模式來實現(xiàn)分布式和集群功能,通過擴展計算能力,R3能夠支持上千G文檔,完成復雜的并行運算;R3能夠以集群模式運行來提高系統(tǒng)的可用性。它支持超過15種語言的多語言搜索,能夠集成文檔自動分類和聚類功能,能夠為文檔自動、智能的添加標簽和關鍵字??梢酝ㄟ^采集器為索引庫定制數(shù)據(jù)來源,采集器通過插件的方式擴展。默認提供數(shù)據(jù)庫、郵件、本地文件系統(tǒng)、網(wǎng)絡文件系統(tǒng)、FTP、Domino、CSV、Access的采集器。R3基于Solr之上,所以在Solr中的層面搜索、同義詞等都被完整的保留了下來。R3通過作業(yè)調度系統(tǒng)實現(xiàn)了任務的自動化采集、能夠增量索引
21、,支持數(shù)據(jù)更新,能夠通過可視化的方式對索引字段進行管理。R3具備用戶和用戶組管理,R3可以對數(shù)據(jù)類型定制,支持分詞器、過濾器、緩存管理。R3能夠很容易的集成Hadoop和HBase。此外它還開發(fā)多種編程語言的API包括:Ruby、PHP、Java、Python、JSon、C#、ColdFusion。收錄時間:2011-03-10 20:16:21更多起點R3企業(yè)級搜索引擎信息代碼搜索引擎 i.So.Code北京大學Asseters小組開發(fā)的新一代代碼搜索引擎。目前iSoCode可以檢索大約200個優(yōu)秀(是真的優(yōu)秀的)的開源項目,包括jdk、Lucene、log4j、jdom、commons-
22、lang、commons-cli等一大批大家經(jīng)常用到的開源項目在iSoCode中都可以找到,而且可以直接從iSoCode上下載項目源碼、jar包 以及javadoc。iSoCode的另外一大亮點是它可以同時幫你檢索你想要的API的具體實現(xiàn)細節(jié)、使用的實例、javadoc文檔以及在CSDN和百度上關于這個API的討論內容等四大方面的信息!這么做可以再很多情況下免去了在百度上檢索再去找源代碼的繁瑣細節(jié)。 收錄時間:2011-03-22 22:18:33更多代碼搜索引擎 i.So.Code信息Katta分布式LuceneKatta是一個可擴展的、高容錯性、準實時的分布式搜索引擎。 具有索引復制的功能,會對索引進行分片處理,讓索引分散到多個節(jié)點上,執(zhí)行分布式檢索。它能很好的運行在由許多廉價服務器組成的大型集群之上,跟Hadoop MapReduce, Hadoop DFS, HBase, Bigtable or Hypertable類似。支持不同格式的索引文件,但是目前只實現(xiàn)了lucene索引文件和hadoop mapfiles的讀寫。 * 能輕松的構建處理海量數(shù)據(jù)的高負載系統(tǒng)* 索引文件(lucene索引或者hadoop mapfiles)的分片處理,分散到許多臺服務器上。* 多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 剛做完的數(shù)學試卷
- 費縣期末考試六上數(shù)學試卷
- 肝性昏迷的護理
- 肥城初一數(shù)學試卷
- 福建漳州數(shù)學試卷
- 高考的文科的數(shù)學試卷
- 廣安中考數(shù)學試卷
- 東北中學六年級數(shù)學試卷
- 個性化購物輔助工具開發(fā)考核試卷
- 燈湖中學月考數(shù)學試卷
- 防溺水救助培訓內容
- 衛(wèi)生監(jiān)督協(xié)管員培訓課件
- 國開(北京)2024年秋《財務案例分析》形考作業(yè)答案
- 廠區(qū)食堂二次供水水箱清洗協(xié)議
- DB52T 1512-2020 水利水電工程隧洞施工超前地質預報技術規(guī)程
- 單位綜合評價評語
- 牲畜用飲水槽相關項目實施方案
- 《數(shù)學課程標準》義務教育2022年修訂版(原版)
- 民政統(tǒng)計信息管理系統(tǒng)培訓手冊街鄉(xiāng)鎮(zhèn)
- 超聲科晉升主任(副主任)醫(yī)師超聲診斷子宮癌肉瘤病例報告專題分析
- 教學樓加固工程施工組織
評論
0/150
提交評論