TRS全文數(shù)據(jù)庫介紹_第1頁
TRS全文數(shù)據(jù)庫介紹_第2頁
TRS全文數(shù)據(jù)庫介紹_第3頁
TRS全文數(shù)據(jù)庫介紹_第4頁
TRS全文數(shù)據(jù)庫介紹_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

TRSDataBaseServer

全文數(shù)據(jù)庫北京拓爾思信息技術(shù)股份有限公司什么是全文數(shù)據(jù)庫數(shù)據(jù)庫存儲在計算機內(nèi)的有組織的數(shù)據(jù)集合

網(wǎng)狀層狀關(guān)系型關(guān)系型數(shù)據(jù)庫全文型數(shù)據(jù)庫集結(jié)構(gòu)化與非結(jié)構(gòu)化檢索于一體的數(shù)據(jù)庫

百度GoogleTRS全文型數(shù)據(jù)庫是以結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)檢索為關(guān)注視角(而非實體間如何組織)的數(shù)據(jù)庫技術(shù)各實體與實體之間的聯(lián)系均用關(guān)系模型來表示 OracleSQLServerDB2結(jié)構(gòu)化與非結(jié)構(gòu)區(qū)別全文數(shù)據(jù)庫的定位與關(guān)系型數(shù)據(jù)庫相比與關(guān)系型數(shù)據(jù)庫相比沒有觸發(fā)器,沒有事務(wù),沒有實體間的關(guān)系有全文索引機制,支持海量數(shù)據(jù)檢索,支持高并發(fā)和快速檢索響應(yīng),支持相關(guān)度排序全文數(shù)據(jù)庫工作機制第一步第三步使用采集工具采集數(shù)據(jù),裝入全文數(shù)據(jù)庫全文數(shù)據(jù)庫通過接口接收到檢索請求,進行處理第二步全文數(shù)據(jù)庫建立索引第四步返回命中結(jié)果集檢索結(jié)果展現(xiàn)全文數(shù)據(jù)庫細分互聯(lián)網(wǎng)級搜索引擎企業(yè)級搜索引擎允許有一定的更新延遲需要快速響應(yīng),但只求查準,不求查全需要能主動發(fā)現(xiàn)新的網(wǎng)頁不允許有延遲既要查準,也要查全采集源類型廣泛(企業(yè)內(nèi)各型數(shù)據(jù))百度GoogleTRS融合互聯(lián)網(wǎng)搜索和企業(yè)搜索互聯(lián)網(wǎng)搜索和企業(yè)搜索并非一回事典型搜索引擎方案系統(tǒng)架構(gòu)異構(gòu)數(shù)據(jù)統(tǒng)一管理,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索Oracle,DB2,SQLServer…Notes,郵件服務(wù)器FileSystem:Word,PDF,EXLWeb:HTML,XMLMail,NewsAudio,VideoFlash

結(jié)構(gòu)化數(shù)據(jù):SQL查詢非結(jié)構(gòu)化數(shù)據(jù):全文檢索和搜索引擎但用戶的數(shù)據(jù)在很多情況下是結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù)+半結(jié)構(gòu)化數(shù)據(jù)北京拓爾思信息技術(shù)有限公司CoreIndexingServerContentCapture&IndexDATABASESQLSERVERORACLESYBASEDB2LotusDominoWebsite&PortalEIPERPSPSKMCISFile&DocumentMicrosoftOfficeAdobePDFRTFTEXTXMLMulti-MediaVideoAudioFlashMovieSEARCHSearchApplicationServices性能測試數(shù)據(jù)量PCServer數(shù)目速度(秒)1000萬1關(guān)鍵詞檢索*0.075邏輯表達式**0.3092000萬2關(guān)鍵詞檢索0.076邏輯表達式0.3144000萬4關(guān)鍵詞檢索0.103邏輯表達式0.377測試環(huán)境:Dell

2850(2xCPU,4G內(nèi)存,10000轉(zhuǎn)硬盤,RedhatAS4.0)性能測試數(shù)據(jù)量并發(fā)數(shù)速度(秒)1000萬1關(guān)鍵詞檢索0.08邏輯表達式0.3110關(guān)鍵詞檢索0.25邏輯表達式0.5750關(guān)鍵詞檢索1.26邏輯表達式4.75100關(guān)鍵詞檢索2.50邏輯表達式13.12TRS全文數(shù)據(jù)庫集群跨平臺支持,多種開發(fā)接口平臺:OS:Windows,Linux,Unix。DB:Oracle,DB2,SQLServer,Sybase應(yīng)用服務(wù)器:IBM,BEA,Tomcat等Web服務(wù)器:各種Http服務(wù)器開發(fā)接口:C/C++J2EE.NETTRS搜索引擎行業(yè)地位公司是中文全文檢索技術(shù)的創(chuàng)始者公司在2000年首先在國內(nèi)提出中文內(nèi)容管理理念和技術(shù)賽迪顧問2008年獨立調(diào)查數(shù)據(jù)表明TRS是國內(nèi):企業(yè)搜索軟件第一名主要競爭對手均為國際知名廠商2007年中國企業(yè)搜索產(chǎn)品

市場主力廠商份額結(jié)構(gòu)深厚的科研基礎(chǔ)和積累擁有自主核心技術(shù)和知識產(chǎn)權(quán),研發(fā)力量強大在信息檢索、知識挖掘和中文信息處理方面具有國內(nèi)外領(lǐng)先的研究能力和研究成果承擔多項國家863項目獲得國家科技進步二等獎,電子工業(yè)部科技進步一等獎2001年國家推薦的12個優(yōu)秀軟件產(chǎn)品之一擁有UNDP援建的中文信息處理研究中心和國內(nèi)外多所大學、研究機構(gòu)建立了長期合作研究關(guān)系清華大學(中文智能語言處理)香港中文大學(信息檢索)美國VirginiaTech.(數(shù)字圖書館和信息檢索)“TRShasthebesttechnologyinChineseTextRetrievalareainChina.ItisoneofthestrongestsoftwaredevelopmentfirmsinChina.”-Dr.KaifuLi,VPofMicrosoft,andformerlyManagingDirectorofMicrosoftResearchInstitute.TRS獲得國家科技進步獎國網(wǎng)搜索引擎

--融合互聯(lián)網(wǎng)搜索與企業(yè)搜索于一體的搜索應(yīng)用每天可支持1000萬的訪問次數(shù)國網(wǎng)搜索引擎

--融合互聯(lián)網(wǎng)搜索與企業(yè)搜索于一體的搜索應(yīng)用主要功能(二)——信息檢索本站檢索網(wǎng)站群檢索服務(wù)檢索文檔檢索國務(wù)院公報檢索文件檢索圖片檢索聯(lián)合檢索引導式智能檢索國防部網(wǎng)站搜索引擎國內(nèi)最大規(guī)模的多媒體、多文種新聞信息綜合性數(shù)據(jù)庫新華社多媒體數(shù)據(jù)庫

“新華搜索”系統(tǒng)

實現(xiàn)全方位新聞搜索

2008年北京奧運會前夕,“新搜”系統(tǒng)正式上線,先期推出了新華網(wǎng)文字、圖片、網(wǎng)頁等搜索功能,為全球網(wǎng)民了解北京奧運會的精彩內(nèi)容提供了專業(yè)的搜索服務(wù),受到網(wǎng)民歡迎。奧運會結(jié)束之后,新華網(wǎng)技術(shù)平臺加緊開發(fā)建設(shè),不斷完善“新搜”系統(tǒng),新推出了視頻搜索、多語種搜索和新華網(wǎng)地方頻道搜索功能,功能更為強大、實用。背景信息涉及政治、外交、經(jīng)濟、文教、科技、法律等各個領(lǐng)域并具有信息量大、權(quán)威、準確、及時、豐富等特點,不僅為國內(nèi)外的新聞機構(gòu)和企事業(yè)單位提供大量的新聞素材,同時也承擔國家重大活動的新聞報道工作新華社多媒體數(shù)據(jù)庫始建于1999年,采用TRS全文檢索的核心技術(shù),2002年,TRS公司與新華社技術(shù)局再次合作實施了新華社多媒體數(shù)據(jù)庫英文檢索引擎的提速改造,2008-2009年再次擴容升級。目前,多媒體數(shù)據(jù)庫中已經(jīng)存儲了上億條多媒體信息,數(shù)據(jù)容量超過20T,內(nèi)容涵蓋中、英、法、西、阿、俄等9大主流語種,以文字信息為主,包含圖片、圖表和音視頻信息。26專利信息服務(wù)平臺試驗系統(tǒng)26項目待檢索文本數(shù)據(jù)總數(shù)據(jù)量約1-2億條記錄。每條記錄20-80個字段不等。其中,專利文摘檢索數(shù)據(jù)8000萬條,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論