下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Java開源搜索引擎分類列表Nutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工 具。包括全文搜索和Web爬蟲。Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過Http利用 XML加到一個(gè)搜索集合中。查詢?cè)摷弦彩峭ㄟ^http收到一個(gè)XML/JSON響應(yīng)來實(shí)現(xiàn)。它 的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù) 制來提高可用性,提供一套強(qiáng)大Data Schema來定義字段,類型和設(shè)置文本分析,提供基于 Web的管理界面等。Egothor是一個(gè)用Java編寫的開源而高效的全文本搜索引擎。借助J
2、ava的跨平臺(tái)特性, Egothor能應(yīng)用于任何環(huán)境的應(yīng)用,既可配置為單獨(dú)的搜索引擎,又能用于你的應(yīng)用作為全 文檢索之用。更多Egothor信息NutchNutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工 具。包括全文搜索和Web爬蟲。更多Nutch信息LuceneApache Lucene是一個(gè)基于Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋 功能。Lucene的最主要工作是替文件的每一個(gè)字作索引,索引讓搜尋的效率比傳統(tǒng)的逐字 比較大大提高,Lucen提供一組解讀,過濾,分析文件,編排和使用索引的API,它的強(qiáng)大 之處除了高效和簡單外,
3、是最重要的是使使用者可以隨時(shí)應(yīng)自已需要自訂其功能。更多Lucene信息Oxyus是一個(gè)純java寫的web搜索引擎。更多Oxyus信息BDDBotBDDBot是一個(gè)簡單的易于理解和使用的搜索引擎。它目前在一個(gè)文本文件(urls.txt洌出的 URL中爬行,將結(jié)果保存在一個(gè)數(shù)據(jù)庫中。它也支持一個(gè)簡單的Web服務(wù)器,這個(gè)服務(wù)器 接受來自瀏覽器的查詢并返回響應(yīng)結(jié)果。它可以方便地集成到你的Web站點(diǎn)中。更多BDDBot信息ZilverlineZilverline是一個(gè)搜索引擎,它通過web方式搜索本地硬盤或intranet上的內(nèi)容。Zilverline 可以從 PDF, Word, Excel, Po
4、werpoint, RTF, txt, java, CHM,zip, ra等文檔中抓取它們的內(nèi)容來 建立摘要和索引。從本地硬盤或intranet中查找到的結(jié)果可重新再進(jìn)行檢索。Zilverline支持 多種語言其中包括中文。更多Zilverline信息XQEngineXQEngine用于XML文檔的全文本搜索引擎.利用XQuery做為它的前端查詢語言.它能夠讓 你查詢XML文檔集合通過使用關(guān)鍵字的邏輯組合.有點(diǎn)類似于Google與其它搜索引擎搜索 HTML文檔一樣.XQEngine只是一個(gè)用Java開發(fā)的很緊湊的可嵌入的組件.更多XQEngine信息MG4JMG4J可以讓你為大量的文檔集合構(gòu)建
5、一個(gè)被壓縮的全文本索引,通過使內(nèi)插編碼 (interpolative coding)技術(shù).更多MG4J信息JXTA SearchJXTA Search是一個(gè)分布式的搜索系統(tǒng).設(shè)計(jì)用在點(diǎn)對(duì)點(diǎn)的網(wǎng)絡(luò)與網(wǎng)站上.更多JXTA Search信息YaCyYaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項(xiàng)目是構(gòu)建 基于p2p Web索引網(wǎng)絡(luò)的一個(gè)新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己 的網(wǎng)頁或啟動(dòng)分布式Crawling等.更多YaCy信息Red-PiranhaRed-Piranha是一個(gè)開源搜索系統(tǒng),它能夠真正”學(xué)習(xí)”你所要查找的是什么.Red-Pir
6、anha可作 為你桌面系統(tǒng)(Windows,Linux與Mac)的個(gè)人搜索引擎,或企業(yè)內(nèi)部網(wǎng)搜索引擎,或?yàn)槟愕木W(wǎng) 站提供搜索功能,或作為一個(gè)P2P搜索引擎,或與wiki結(jié)合作為一個(gè)知識(shí)/文檔管理解決方案, 或搜索你要的RSS聚合信息,或搜索你公司的系統(tǒng)(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文檔,或作為一個(gè)提供搜索信息的WebService或?yàn)槟愕?應(yīng)用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或 c#/.Net)提供搜索后臺(tái)等等.更多Red-Piranha信息LIUSLIUS
7、是一個(gè)基于Jakarta Lucene項(xiàng)目的索引框架。LIUS為Lucene添加了對(duì)許多文件格式的 進(jìn)行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和 JavaBeans。 針對(duì)JavaBeans的索引特別有用當(dāng)我們要對(duì)數(shù)據(jù)庫進(jìn)行索引或剛好用戶使用持久層ORM技 術(shù)如:Hibernate,JDO,Torque,TopLink進(jìn)行開發(fā)時(shí)。更多LIUS信息ApertureAperture這個(gè)Java框架能夠從各種各樣的資料系統(tǒng)(如:文件系統(tǒng)、Web站點(diǎn)、IMAP和Outlook 郵箱)或存在這些系統(tǒng)中
8、的文件(如:文檔、圖片)爬取和搜索其中的全文本內(nèi)容與元數(shù)據(jù)。它 當(dāng)前支持的文件格式如下:, Plain textHTML, XHTMLXML, PDF (Portable Document Format), RTF (Rich Text Format)Microsoft Office: Word, Excel, Powerpoint, Visio, PublisherMicrosoft Works, OpenOffice 1.x: Writer, Calc, Impress, DrawStarOffice 6.x - 7.x+: Writer, Calc, Impress, DrawOpenD
9、ocument (OpenOffice 2.x, StarOffice 8.x)Corel WordPerfect, Quattro, PresentationsEmails (.eml files)更多Aperture信息Apache SolrSolr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過Http利用 XML加到一個(gè)搜索集合中。查詢?cè)摷弦彩峭ㄟ^http收到一個(gè)XML/JSON響應(yīng)來實(shí)現(xiàn)。它 的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù) 制來提高可用性,提供一套強(qiáng)大Data Schema來定義字段,類型和設(shè)置文本分析,提供基于 Web的管理界面等。更多Apache Solr信息PaodingPaoding中文分詞是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi) 部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致 力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。Paoding中文分詞追求分詞的高效 率和用戶良好體驗(yàn)。更多Paoding信息Carrot2Carrot2是一個(gè)開源搜索結(jié)果分類引擎。它能夠自動(dòng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省徐州市邳州市2023-2024學(xué)年九年級(jí)上學(xué)期期中抽測(cè)英語試卷(含答案解析)
- 安全教育主題班會(huì)教案(15篇)
- 心理健康教育計(jì)劃
- 2024年山東省濱州市初中學(xué)業(yè)水平考試地理試卷含答案
- 2014-2018年燃料乙醇行業(yè)投資發(fā)展分析報(bào)告
- 2010-2012年碳四行業(yè)發(fā)展及企業(yè)競爭力分析報(bào)告
- 2024至2030年中國工業(yè)傳動(dòng)軸行業(yè)投資前景及策略咨詢研究報(bào)告
- 教科版科學(xué)六年級(jí)上冊(cè)生物多樣性的意義
- 2024年中國高爐撥風(fēng)系統(tǒng)市場(chǎng)調(diào)查研究報(bào)告
- 2024年中國活水素市場(chǎng)調(diào)查研究報(bào)告
- 五年級(jí)上冊(cè)數(shù)學(xué)教案-平行四邊形的認(rèn)識(shí)- 滬教版
- 水下混凝土灌注記錄(含計(jì)算公式新表格)
- 腫瘤姑息治療
- 班主任交流會(huì)發(fā)言材料
- 實(shí)驗(yàn)五 玉米的自交和雜交技術(shù)
- 各潮位站基面關(guān)系
- 高校實(shí)驗(yàn)室安全考試題庫及答案(完整版)
- 超高壓容器安全技術(shù)監(jiān)察規(guī)程
- 模具結(jié)構(gòu)之滑塊篇--ppt課件
- 電大中級(jí)財(cái)務(wù)會(huì)計(jì)二形成性考核冊(cè)
- 宮之奇諫假道(課堂PPT)
評(píng)論
0/150
提交評(píng)論