TRS企業(yè)搜索引擎白皮書_第1頁(yè)
TRS企業(yè)搜索引擎白皮書_第2頁(yè)
TRS企業(yè)搜索引擎白皮書_第3頁(yè)
TRS企業(yè)搜索引擎白皮書_第4頁(yè)
TRS企業(yè)搜索引擎白皮書_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、trs企業(yè)搜索引擎白皮書據(jù)統(tǒng)計(jì),企業(yè)(企業(yè)級(jí)組織機(jī)構(gòu)的統(tǒng)稱)每年的數(shù)據(jù)增長(zhǎng)超過(guò)100%,其中80%以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)形式存放在企業(yè)內(nèi)計(jì)算機(jī)系統(tǒng)中的各個(gè)角落,而這些數(shù)據(jù)總量遠(yuǎn)遠(yuǎn)超過(guò)了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè)98%以上的信息存儲(chǔ)在企業(yè)內(nèi)部,而發(fā)布到互聯(lián)網(wǎng)的信息僅占信息總量的1%-2%。自從有了信息,那么“搜索”就會(huì)成為人們永遠(yuǎn)避不開的宿命。因此,如何方便、快捷、安全地獲取企業(yè)內(nèi)部的信息,造就了一個(gè)新的,但實(shí)際上非常傳統(tǒng)的應(yīng)用企業(yè)搜索引擎。trs公司推出的企業(yè)搜索引擎解決方案,利用trs公司多年來(lái)自主開發(fā)的trs database server作為企業(yè)搜索引擎服務(wù)的平臺(tái),輔以

2、各種數(shù)據(jù)索引工具,配套數(shù)據(jù)內(nèi)容分發(fā)服務(wù)模塊,提供完整的、智能的、安全的、個(gè)性豐富的企業(yè)搜索引擎服務(wù)。北京拓爾思信息技術(shù)有限公司beijing trs information technology limited目 錄一、 搜索引擎面面觀 3二、 企業(yè)搜索引擎不同于互聯(lián)網(wǎng)搜索引擎 5三、 企業(yè)搜索平臺(tái)構(gòu)建企業(yè)搜索引擎應(yīng)用 8四、 trs企業(yè)搜索引擎架構(gòu) 10五、 trs企業(yè)搜索引擎核心優(yōu)勢(shì) 15 “安全”的搜索引擎 全息搜索 更高的搜索準(zhǔn)確性和智能性 個(gè)性化的搜索體驗(yàn) 實(shí)時(shí)資源整合搜索 強(qiáng)壯可靠的系統(tǒng)、低成本按需擴(kuò)展 基于內(nèi)容的自動(dòng)分類和聚類技術(shù) 優(yōu)異的全文檢索性能六、 trs企業(yè)搜索引擎應(yīng)用實(shí)

3、例 17 政府政府某部搜索引擎系統(tǒng) 政府深圳信息資源決策服務(wù)系統(tǒng) 媒體新華社多媒體數(shù)據(jù)庫(kù)搜索引擎服務(wù) 企業(yè)廣東移動(dòng)搜索引擎服務(wù)一、搜索引擎面面觀互聯(lián)網(wǎng),這個(gè)時(shí)代的寵兒,注意力的焦點(diǎn),在出現(xiàn)短短的10年來(lái),演繹著it領(lǐng)域的傳奇,在詮釋注意力經(jīng)濟(jì)的同時(shí),互聯(lián)網(wǎng)本身也一直成為這個(gè)時(shí)代人們的注意力焦點(diǎn),并且我們也毫不吝嗇地把我們這個(gè)時(shí)代稱之為“互聯(lián)網(wǎng)時(shí)代”?;ヂ?lián)網(wǎng)的出現(xiàn),信息的高速膨脹,搜索成為互聯(lián)網(wǎng)上信息獲取的主要手段。自1994年yahoo推出了超級(jí)目錄索引,從而成功地使搜索引擎的概念深入人心。如今,搜索引擎進(jìn)入了高速發(fā)展時(shí)期,目前互聯(lián)網(wǎng)上的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。

4、比如最近風(fēng)頭正勁的google,其數(shù)據(jù)庫(kù)中存放的網(wǎng)頁(yè)已達(dá)30億之巨!“搜索引擎”這個(gè)詞也成為流行詞語(yǔ),媒體、大眾、資本也狂熱得無(wú)搜不歡。并且,業(yè)界又大膽地提出“互聯(lián)網(wǎng)已經(jīng)從注意力經(jīng)濟(jì)過(guò)渡到搜索力經(jīng)濟(jì)”了。在互聯(lián)網(wǎng)上搜索引擎服務(wù)熱潮一浪高過(guò)一浪的同時(shí),我們也注意到另外一個(gè)現(xiàn)象,就是組織機(jī)構(gòu)內(nèi)部信息化浪潮,催生了大量的信息內(nèi)容。據(jù)統(tǒng)計(jì),企業(yè)數(shù)據(jù)每年以200%的速度增長(zhǎng),其中80%的數(shù)據(jù)以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)形式存放在企業(yè)內(nèi)計(jì)算機(jī)系統(tǒng)中的各個(gè)角落,而這些數(shù)據(jù)總量遠(yuǎn)遠(yuǎn)超過(guò)了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè)發(fā)布到互聯(lián)網(wǎng)的信息只占到信息量的1%-2%,而98%以上的信息是存儲(chǔ)在企業(yè)內(nèi)部的。自從

5、有了信息和內(nèi)容,那么“搜索”就會(huì)成為人們永遠(yuǎn)避不開的宿命。由此,如何方便、快捷、安全地獲取企業(yè)內(nèi)部的信息內(nèi)容,造就了一個(gè)新的,但實(shí)際上非常傳統(tǒng)的應(yīng)用“企業(yè)搜索引擎”。似乎業(yè)界也看到未來(lái)企業(yè)級(jí)搜索引擎的龐大技術(shù)市場(chǎng),各大it巨頭都紛紛推出了其相對(duì)應(yīng)的軟件產(chǎn)品和技術(shù)。同樣,因?yàn)樾畔⒌脑絹?lái)越多,人們使用計(jì)算機(jī),使用信息的頻度也越來(lái)越高。而在個(gè)人電腦中也就積累了大量的個(gè)人信息,如郵件、文檔、下載的各種網(wǎng)頁(yè)。對(duì)于個(gè)人桌面的信息搜索訴求,我們把她總結(jié)成為“個(gè)人搜索引擎”。我們可以從下表直觀地對(duì)搜索引擎有全方位的理解:互聯(lián)網(wǎng)搜索引擎?zhèn)€人桌面搜索引擎企業(yè)級(jí)搜索引擎搜索范圍整個(gè)internet網(wǎng)絡(luò)。 個(gè)人電腦

6、企業(yè)內(nèi)部所有的信息資源,以及部分外部資源。 搜索對(duì)象網(wǎng)頁(yè)、圖像及mp3等部分類型的多媒體文件。pc內(nèi)部的所有文檔信息。 企業(yè)資料庫(kù)、目錄、幫助文本、源代碼信息庫(kù)、新聞組等。如:網(wǎng)頁(yè)、電子郵件、office文件、pdf文件、圖片、音視頻多媒體文件、圖表、公文、研究報(bào)告等。應(yīng)用特點(diǎn)大而全,旨在為用戶提供更豐富的搜索結(jié)果。 面向個(gè)人文檔管理的智能化搜索工具。 專業(yè)、定向的搜索,注重結(jié)果的準(zhǔn)確性和高度匹配性,并且是一種信息安全的搜索。從上表可以看到,三類搜索引擎有著截然不同的搜索目標(biāo)和應(yīng)用特點(diǎn)。因此,其在實(shí)現(xiàn)技術(shù)機(jī)制和手段上也存在著極大的差異。長(zhǎng)期以來(lái),因?yàn)閭髅疥P(guān)注的總是熱點(diǎn),造成市場(chǎng)上混淆了這三者的

7、區(qū)別。一提到搜索引擎,就自然聯(lián)想到互聯(lián)網(wǎng)搜索引擎,再加上一些廠商刻意的推波助瀾,造成了互聯(lián)網(wǎng)搜索引擎取代所有搜索引擎的概念。而實(shí)際上我們可以看到不同搜索引擎之間的差別很大。二、企業(yè)搜索引擎不同于互聯(lián)網(wǎng)搜索引擎首先,我們所說(shuō)的企業(yè)搜索引擎(enterprise search engine,簡(jiǎn)稱ese)中的企業(yè)并非指單純的企業(yè),政府、教育、科研、媒體、醫(yī)療、軍隊(duì)、安全部門都有類似的應(yīng)用需求,這里的“企業(yè)”可以理解為“企業(yè)級(jí)”,即企業(yè)級(jí)搜索引擎。那么,對(duì)于企業(yè)級(jí)搜索,我們對(duì)“搜索”的訴求又是什么呢?和互聯(lián)網(wǎng)搜索引擎相比,它又有哪些不同呢?實(shí)際上,搜索引擎服務(wù)是內(nèi)容管理技術(shù)的一個(gè)典型應(yīng)用。我們不妨從內(nèi)

8、容管理的框架來(lái)看搜索引擎的各個(gè)環(huán)節(jié),即從信息內(nèi)容的采集,加工,管理,到服務(wù),以至到信息內(nèi)容的“發(fā)現(xiàn)”來(lái)比對(duì)一下企業(yè)級(jí)搜索引擎的不同。*seo:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網(wǎng)絡(luò)排名。1、復(fù)雜結(jié)構(gòu)數(shù)據(jù)的搜索互聯(lián)網(wǎng)上搜索的數(shù)據(jù)一般都是網(wǎng)頁(yè)形式的,盡管這幾年網(wǎng)上豐富起來(lái)的圖片、mp3等信息形式,但其組織形式仍是基于html組成的網(wǎng)頁(yè)。而企業(yè)級(jí)用戶需要搜索的數(shù)據(jù)既有互聯(lián)網(wǎng)站上的,也有內(nèi)部網(wǎng)站上的;既有網(wǎng)頁(yè)形式的,又有各種數(shù)據(jù)庫(kù)形式的,如sql server、oracle數(shù)據(jù)庫(kù)等;既有結(jié)構(gòu)化數(shù)據(jù),又更多的是各種電子文件格式的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),如word、excel、lotus note

9、s、pdf、xml等;既有文本形式的數(shù)據(jù),又有多媒體形式的數(shù)據(jù);而且,同一機(jī)構(gòu)的數(shù)據(jù)還可能分布在不同介質(zhì)的載體上。然而,不管數(shù)據(jù)的形式、來(lái)源、位置、平臺(tái)如何不同,企業(yè)用戶總是希望內(nèi)外數(shù)據(jù)能無(wú)縫結(jié)合,用一個(gè)搜索工具和統(tǒng)一的界面,發(fā)出幾個(gè)簡(jiǎn)單的檢索請(qǐng)求就能對(duì)所有資源進(jìn)行檢索,并很快就能有滿意的結(jié)果。并且,互聯(lián)網(wǎng)搜索內(nèi)容對(duì)于用戶來(lái)說(shuō)都是未知的,而企業(yè)級(jí)搜索的對(duì)象基本上是已知信息源,其中包括企業(yè)資料庫(kù)、目錄、幫助文本、源代碼信息庫(kù)、新聞組等,在對(duì)這些信息進(jìn)行索引時(shí),用戶需要按照內(nèi)容而不是通過(guò)比較源鏈接來(lái)進(jìn)行排列。2、嚴(yán)格的安全搜索在企業(yè)內(nèi)部,安全的問(wèn)題是無(wú)法回避的。因?yàn)槠髽I(yè)內(nèi)部的信息不象“人人平等”的

10、互聯(lián)網(wǎng)信息,其信息內(nèi)容帶有明顯的“等級(jí)”安全特性。所以,當(dāng)搜索技術(shù)變得無(wú)所不能,人們反而開始擔(dān)心,如果搜索的結(jié)果泄漏了企業(yè)的機(jī)密怎么辦?如果企業(yè)原有的安全架構(gòu)對(duì)新的搜索技術(shù)失效了怎么辦?這些疑問(wèn)都讓用戶感到如鯁在喉,岌岌小心。很多業(yè)內(nèi)人士在談到搜索安全的話題就憂心忡忡,他們普遍認(rèn)為搜索環(huán)境并沒(méi)有為企業(yè)級(jí)應(yīng)用做好足夠的準(zhǔn)備,未來(lái)充滿太多的變數(shù)。而在一些實(shí)際的應(yīng)用中,我們看到,即便為數(shù)據(jù)定義了文檔級(jí)和數(shù)據(jù)庫(kù)級(jí)的雙重安全保障,搜索引擎的魔爪還能透過(guò)授權(quán)的索引文檔來(lái)搜索它們。因此,針對(duì)企業(yè)網(wǎng)中不同的用戶對(duì)不同的資源,其使用權(quán)限都可能不一樣,需要企業(yè)搜索引擎能夠?qū)τ脩簟①Y源、權(quán)限分級(jí)管理和控制,確保系統(tǒng)

11、的安全。 3、高可靠的查全和查準(zhǔn)作為專業(yè)用戶,企業(yè)用戶需要查找的信息專業(yè)性強(qiáng)、概念復(fù)雜,而對(duì)查詢的查全率和查準(zhǔn)率有著非常高的要求。因此,需要利用各種手段來(lái)提高搜索引擎的查準(zhǔn)率和查全率。從查全率來(lái)看,互聯(lián)網(wǎng)搜索引擎無(wú)從談起查全率,因?yàn)榛ヂ?lián)網(wǎng)上的信息如此泛濫無(wú)邊,任何一個(gè)搜索引擎服務(wù)商都無(wú)法窮盡互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè)。而在企業(yè)級(jí)的某些應(yīng)用中,是不允許有所遺漏的檢索。必須對(duì)企業(yè)內(nèi)部每個(gè)需要提供服務(wù)的信息進(jìn)行索引。在檢索機(jī)制上必須保障效率的前提下達(dá)到全面搜索的要求。同樣的道理,在互聯(lián)網(wǎng)上因?yàn)樾畔⒆杂傻奶攸c(diǎn),決定了搜索只能通過(guò)“關(guān)鍵詞匹配”這種核心檢索手段去實(shí)現(xiàn)。而在企業(yè)內(nèi)部,信息的組織復(fù)雜了許多。企業(yè)級(jí)搜

12、索引擎有完善的信息分類體系,元數(shù)據(jù),對(duì)象數(shù)據(jù)多層邏輯的組織形式,在查詢上滿足基于對(duì)象數(shù)據(jù)內(nèi)容和元數(shù)據(jù)標(biāo)引體系的精確查詢要求。4、智能化的檢索服務(wù)企業(yè)內(nèi)部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性,不像互聯(lián)網(wǎng)搜索引擎僅提供信息參考。在企業(yè)內(nèi)部的搜索結(jié)果將直接參與到企業(yè)的運(yùn)營(yíng)、決策中。所以,對(duì)于搜索的結(jié)果處理,搜索過(guò)程中采用相關(guān)智能技術(shù)以達(dá)到迅速、準(zhǔn)確、全面定位目標(biāo)信息非常重要。例如采用相關(guān)度分析技術(shù),使相關(guān)度較高的結(jié)果排在結(jié)果列表的前面,相關(guān)度較低的結(jié)果排在后面,并屏蔽無(wú)用和錯(cuò)誤的信息;構(gòu)造強(qiáng)大的語(yǔ)義規(guī)則庫(kù),使系統(tǒng)能夠正確地判斷與檢索詞相關(guān)的同義詞、近似詞、上位詞、下位詞,幫助用戶判斷結(jié)果的相關(guān)度,并進(jìn)行進(jìn)

13、一步的查詢;支持完善的信息分類體系,對(duì)檢索結(jié)果自動(dòng)分類或者信息聚類;提供智能化的概念擴(kuò)展查詢等,都將有利于企業(yè)對(duì)信息資源的高效利用。5、企業(yè)搜索引擎通常都和企業(yè)其他的it應(yīng)用有機(jī)結(jié)合以內(nèi)容管理技術(shù)為框架,搜索技術(shù)為支撐,企業(yè)搜索引擎通常與數(shù)據(jù)管理、內(nèi)容管理、記錄管理、競(jìng)爭(zhēng)情報(bào)、團(tuán)隊(duì)協(xié)同、過(guò)程管理、信息門戶等知識(shí)管理的各個(gè)環(huán)節(jié)密切結(jié)合,構(gòu)成管理企業(yè)知識(shí)資產(chǎn)的完整而又靈活的體系。知識(shí)內(nèi)容管理對(duì)搜索引擎技術(shù)提出了更高的要求,而先進(jìn)的搜索引擎技術(shù)則為知識(shí)內(nèi)容管理提供了工具和保障。在市場(chǎng)上我們也可以看到,國(guó)內(nèi)外企業(yè)級(jí)搜索引擎廠商,有許多也是知識(shí)內(nèi)容管理解決方案的提供商。6、實(shí)時(shí)的信息搜索服務(wù)正如前所敘,

14、企業(yè)內(nèi)部的搜索服務(wù),具備業(yè)務(wù)特性,需要將搜索結(jié)果參與企業(yè)的運(yùn)營(yíng)和決策。所以通過(guò)搜索引擎提供的服務(wù),必須能夠動(dòng)態(tài)地反應(yīng)實(shí)際情況,即當(dāng)內(nèi)部的信息發(fā)生變化時(shí),必須能夠?qū)崟r(shí)反應(yīng)。在企業(yè),不允許出現(xiàn)像互聯(lián)網(wǎng)搜索引擎服務(wù)那樣信息滯后更新的現(xiàn)象。三、企業(yè)搜索平臺(tái)構(gòu)建企業(yè)搜索引擎應(yīng)用綜上所述,企業(yè)搜索引擎和互聯(lián)網(wǎng)搜索引擎有著明顯的差異。而且正因?yàn)槠髽I(yè)搜索引擎從應(yīng)用角度來(lái)看,對(duì)于技術(shù)供應(yīng)商來(lái)說(shuō)是個(gè)更加寬闊的市場(chǎng)。由此,進(jìn)入2004年以來(lái),市場(chǎng)上相繼出現(xiàn)了一些熱點(diǎn)。搜索廠商們開始摩拳擦掌,準(zhǔn)備在這場(chǎng)企業(yè)搜索戰(zhàn)役中搶占先機(jī)了。最近,越來(lái)越多來(lái)自于企業(yè)級(jí)搜索的消息在我們耳邊圍繞:google的專用搜索設(shè)備不斷出新,意

15、在將其在互聯(lián)網(wǎng)搜索引擎霸主地位延續(xù)到企業(yè)搜索引擎市場(chǎng)中來(lái)。ibm db2 information integrator、oracle files 10g相繼推出,數(shù)據(jù)庫(kù)廠商領(lǐng)土擴(kuò)張的雄心顯露無(wú)疑;yahoo通過(guò)合作與并購(gòu)的方式連連出招;microsoft將搜索產(chǎn)品的發(fā)布時(shí)鐘與 longhorn正式看齊.從技術(shù)的走向來(lái)看,分兩種流派:一是數(shù)據(jù)庫(kù)廠商在自身的關(guān)系型數(shù)據(jù)庫(kù)中增強(qiáng)檢索服務(wù)能力,以期多個(gè)應(yīng)用系統(tǒng)都部署各自的搜索服務(wù),而通過(guò)一個(gè)聯(lián)合搜索的方式實(shí)現(xiàn)企業(yè)內(nèi)的搜索引擎服務(wù)。二是更多的從事傳統(tǒng)的內(nèi)容管理廠商,在認(rèn)真分析了企業(yè)搜索引擎服務(wù)的特點(diǎn)后,提出了企業(yè)搜索平臺(tái)(enterprise searc

16、h platform,簡(jiǎn)稱esp)的提法。這一“技術(shù)流派”的支持者以國(guó)內(nèi)企業(yè)搜索引擎市場(chǎng)第一占有的trs為代表,還有國(guó)外的autonomy、verity等公司?,F(xiàn)實(shí)情況是,企業(yè)內(nèi)部的信息存儲(chǔ)在各個(gè)應(yīng)用系統(tǒng)中,并且采用不同的系統(tǒng)進(jìn)行管理并提供各自的搜索服務(wù)。例如:一個(gè)在內(nèi)容管理系統(tǒng)中,另一個(gè)在microsoft office環(huán)境中,還有一個(gè)在電子郵件程序中,采用esp架構(gòu)需要各個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行統(tǒng)一的、關(guān)聯(lián)的索引。并且還能在搜索之前對(duì)查詢語(yǔ)句進(jìn)行語(yǔ)法翻譯,以及拼寫檢查、短語(yǔ)檢測(cè)等語(yǔ)言處理。在執(zhí)行搜索步驟后,esp會(huì)把從原始將對(duì)應(yīng)的各個(gè)數(shù)據(jù)庫(kù)中內(nèi)容進(jìn)行用戶要求的封裝后返回給用戶。這樣,用戶就可以

17、借助結(jié)果頁(yè)面中的類別鏈接逐級(jí)縮小查詢范圍,提煉出想要的結(jié)果了。四、trs企業(yè)搜索引擎架構(gòu)國(guó)內(nèi)信息檢索和內(nèi)容管理軟件的領(lǐng)導(dǎo)廠商trs公司在企業(yè)搜索引擎領(lǐng)域占據(jù)著國(guó)內(nèi)企業(yè)級(jí)搜索引擎市場(chǎng)的80%,并且一直是該領(lǐng)域的技術(shù)領(lǐng)導(dǎo)者和理念先行者。公司已從成立之初提供基于中文的信息搜索軟件,發(fā)展到今天成為基于內(nèi)容管理技術(shù)提供豐富的全面的企業(yè)搜索引擎產(chǎn)品和解決方案的中國(guó)最具實(shí)力的軟件開發(fā)商之一。在實(shí)踐中積累了豐富的業(yè)務(wù)經(jīng)驗(yàn),在技術(shù)、產(chǎn)品和實(shí)踐方面具有獨(dú)特優(yōu)勢(shì)。trs公司推出的企業(yè)搜索引擎解決方案,利用trs公司多年來(lái)自主開發(fā)的trs database server作為企業(yè)搜索引擎服務(wù)的平臺(tái)。輔以各種數(shù)據(jù)索引工具

18、,配套數(shù)據(jù)內(nèi)容分發(fā)服務(wù)模塊,構(gòu)建成一個(gè)完整的,能夠索引企業(yè)內(nèi)部全面的信息內(nèi)容,提供安全分級(jí)授權(quán)的、個(gè)性豐富的檢索體驗(yàn)的企業(yè)搜索引擎服務(wù)。其框架如圖:從圖中可以看到,要實(shí)現(xiàn)一個(gè)完整的企業(yè)搜索引擎服務(wù),首先需要將存儲(chǔ)在企業(yè)組織內(nèi)部的各類信息通過(guò)對(duì)應(yīng)的手段索引到企業(yè)搜索引擎服務(wù)平臺(tái)服務(wù)器中。在trs提供的解決方案中,即將各類信息索引到trs database server(trs企業(yè)搜索引擎基礎(chǔ)平臺(tái)),然后通過(guò)有效的信息分發(fā)服務(wù)模塊實(shí)現(xiàn)定制化的企業(yè)搜索引擎服務(wù)。從技術(shù)角度來(lái)看,trs搜索引擎框架中,很好地利用模塊化的軟件解決了企業(yè)搜索引擎應(yīng)用中的三個(gè)核心環(huán)節(jié):內(nèi)容實(shí)時(shí)發(fā)現(xiàn)索引、內(nèi)容海量安全管理、內(nèi)容

19、智能個(gè)性搜索。并且trs搜索引擎方案突破了純粹的“搜索”概念,在搜索后處理方面,trs出色地解決了“內(nèi)容挖掘分析利用”這個(gè)課題。內(nèi)容實(shí)時(shí)發(fā)現(xiàn)索引在企業(yè)搜索引擎服務(wù)中,首先需要解決的一個(gè)問(wèn)題就是如何將多種格式、多種介質(zhì)形態(tài)、多種存儲(chǔ)方式的內(nèi)容信息,以實(shí)時(shí)的方式將這些信息進(jìn)行索引。并且在索引的過(guò)程中力求能夠做到準(zhǔn)確,并配合以相關(guān)智能語(yǔ)言技術(shù)做信息的去重、自動(dòng)標(biāo)引等能力。trs公司針對(duì)各種信息的來(lái)源和形態(tài)提供了一系列的輔助處理工具:trs網(wǎng)絡(luò)信息雷達(dá)系統(tǒng)(trs inforadar)針對(duì)企業(yè)搜索引擎服務(wù)中,需要對(duì)部分互聯(lián)網(wǎng)網(wǎng)站的信息進(jìn)行收集,并作為企業(yè)搜索引擎的重要內(nèi)容來(lái)源。為滿足此類需求,trs提

20、供的網(wǎng)絡(luò)信息雷達(dá)系統(tǒng),采用高效的網(wǎng)絡(luò)搜索技術(shù),監(jiān)控和采集互聯(lián)網(wǎng)信息,支持智能分類、自動(dòng)排重和靈活發(fā)布,實(shí)現(xiàn)海量網(wǎng)絡(luò)信息的高效采集、組織。將采集和分析處理好的數(shù)據(jù)實(shí)時(shí)提交到企業(yè)搜索引擎平臺(tái)服務(wù)器(trs database server)中。trs數(shù)據(jù)檢索網(wǎng)關(guān)(trs gateway for rdbms)在企業(yè)內(nèi)部,許多信息內(nèi)容的創(chuàng)建和生產(chǎn)都分散在各個(gè)應(yīng)用系統(tǒng)中,而這些應(yīng)用系統(tǒng)的數(shù)據(jù)存儲(chǔ)基本上都是采用關(guān)系型數(shù)據(jù)庫(kù)或者notes系統(tǒng)中。在企業(yè)搜索引擎應(yīng)用中,一個(gè)核心明顯的需求就是,當(dāng)這些應(yīng)用系統(tǒng)的數(shù)據(jù)產(chǎn)生和變化時(shí),希望實(shí)時(shí)地通過(guò)企業(yè)搜索引擎服務(wù)迅速查找到。這就需要有相關(guān)技術(shù)能夠?qū)崟r(shí)發(fā)現(xiàn)新數(shù)據(jù),并在發(fā)

21、現(xiàn)的同時(shí)索引到企業(yè)搜索引擎平臺(tái)服務(wù)器中。trs公司提供了針對(duì)系列的主流關(guān)系型數(shù)據(jù)庫(kù)和notes的檢索網(wǎng)關(guān)模塊,能夠?qū)?yīng)用中的數(shù)據(jù)實(shí)時(shí)地反映到企業(yè)搜索引擎平臺(tái)服務(wù)器中(trs database server)。trs 數(shù)據(jù)處理工具(trs data processor)在實(shí)際應(yīng)用中,企業(yè)搜索引擎還需要面對(duì)企業(yè)內(nèi)部各種類型的數(shù)據(jù)進(jìn)行加工、標(biāo)引、加載到trs數(shù)據(jù)庫(kù)中,通過(guò)trs data processor可以優(yōu)化后續(xù)的檢索、發(fā)布服務(wù)。trs data processor對(duì)已經(jīng)進(jìn)入trs數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行深層次的聯(lián)機(jī)加工,將信息及時(shí)索引到trs企業(yè)搜索引擎平臺(tái)服務(wù)器(trs database ser

22、ver)中。內(nèi)容海量安全管理在企業(yè)搜索引擎應(yīng)用中,海量信息的管理完全不同于互聯(lián)網(wǎng)搜索引擎。首先在信息總量上,因?yàn)槠髽I(yè)搜索引擎應(yīng)用是分散在各個(gè)企業(yè)內(nèi)部,所以單個(gè)的企業(yè)搜索引擎應(yīng)用的數(shù)據(jù)量和互聯(lián)網(wǎng)上的信息是不可同日而語(yǔ)的。但是從企業(yè)級(jí)應(yīng)用來(lái)看,因?yàn)槿魏我粋€(gè)機(jī)構(gòu)組織在實(shí)施其企業(yè)搜索引擎應(yīng)用時(shí),不可能象互聯(lián)網(wǎng)搜索引擎服務(wù)商那樣投資大批的機(jī)器設(shè)備。所以,在企業(yè)級(jí)應(yīng)用中,單位設(shè)備數(shù)據(jù)量(單位設(shè)備數(shù)據(jù)量=存儲(chǔ)管理的數(shù)據(jù)量機(jī)器設(shè)備數(shù))則遠(yuǎn)遠(yuǎn)高過(guò)互聯(lián)網(wǎng)搜索引擎服務(wù)。如何在單臺(tái)或者數(shù)臺(tái)機(jī)器中實(shí)現(xiàn)企業(yè)內(nèi)部海量數(shù)據(jù)的管理是企業(yè)搜索引擎平臺(tái)服務(wù)器需要直接響應(yīng)的問(wèn)題。同時(shí),企業(yè)搜索引擎服務(wù)中的安全問(wèn)題,也涉及到多個(gè)層面。

23、一是系統(tǒng)的安全,因?yàn)槠髽I(yè)搜索引擎的服務(wù)結(jié)果生產(chǎn)性特質(zhì),不允許服務(wù)系統(tǒng)出現(xiàn)錯(cuò)失現(xiàn)象。所以在系統(tǒng)架構(gòu)上,集群技術(shù)的應(yīng)用、分布式的支持都是企業(yè)搜索引擎平臺(tái)服務(wù)器需要解決的問(wèn)題。另一個(gè)更為重要的安全問(wèn)題就是信息本身的安全。企業(yè)搜索引擎服務(wù)必須保障信息是按秩序、按組織規(guī)則授權(quán)方式的搜索。而不象互聯(lián)網(wǎng)搜索引擎上的人人搜索。trs企業(yè)搜索引擎平臺(tái)服務(wù)器(trs database server)則很好地解決了上面提及的各種問(wèn)題。trs企業(yè)搜索引擎平臺(tái)服務(wù)器(trs database server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對(duì)企業(yè)信息內(nèi)容搜索引擎服務(wù)的管理和資源建設(shè)的新需求,發(fā)展了包括

24、native xml, 集群,unicode, 自然語(yǔ)言處理及智能檢索等眾多新功能,結(jié)合trs領(lǐng)先的結(jié)構(gòu)化和非結(jié)構(gòu)化聯(lián)合查詢技術(shù),從而滿足了用戶對(duì)企業(yè)搜索引擎的廣泛需求。更為重要的是,trs企業(yè)搜索引擎平臺(tái)服務(wù)器提供了多種安全機(jī)制的管理,涉及到系統(tǒng)安全和內(nèi)容安全各個(gè)方面。為安全的搜索奠定堅(jiān)實(shí)基礎(chǔ)。n native xml: 能夠?yàn)楦_的檢索提供存儲(chǔ)和檢索手段。n 集群:滿足海量信息處理和負(fù)載均衡的苛刻需求。n unicode: 以中文為主,提供多語(yǔ)言支持,實(shí)現(xiàn)了國(guó)際化。n 自然語(yǔ)言及智能檢索:實(shí)現(xiàn)更加人性化和達(dá)到更好的檢索效果。n 異構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化異構(gòu)信息聯(lián)合查詢。內(nèi)容智能個(gè)性搜索企業(yè)

25、搜索引擎在提供搜索服務(wù)方面,要滿足高效的同時(shí),更重要的是查全率和查準(zhǔn)率,同時(shí)需要提供智能化的概念擴(kuò)展搜索。還有,在企業(yè)搜索引擎應(yīng)用中,搜索體驗(yàn)上的需求和互聯(lián)網(wǎng)搜索也有很大的不同。即搜索的提交和結(jié)果的呈現(xiàn)都具有個(gè)性化特性。trs企業(yè)搜索引擎平臺(tái)服務(wù)器熔煉了trs公司多年在中文智能處理方面的研究成果,并結(jié)合十多年來(lái)的企業(yè)及搜索引擎的應(yīng)用經(jīng)驗(yàn)。多種中文智能處理技術(shù)的應(yīng)用,如智能分詞,字詞索引結(jié)合、主題詞表概念擴(kuò)展等技術(shù)的應(yīng)用,使得查全率和查準(zhǔn)率都得到極大的保障。同時(shí),在trs企業(yè)搜索引擎解決方案中。采用了模塊化的內(nèi)容分發(fā)服務(wù)模塊。讓用戶可以方便地通過(guò)頁(yè)面設(shè)計(jì)模板封裝等方式來(lái)實(shí)現(xiàn)個(gè)性化的搜索提交,結(jié)果

26、個(gè)性呈現(xiàn)。并且系統(tǒng)結(jié)合多種信息分發(fā)機(jī)制,將搜索、瀏覽、訂閱等功能有機(jī)集成。而對(duì)于信息發(fā)現(xiàn)和評(píng)估,系統(tǒng)也提供了很好的支持,并可以根據(jù)搜索的統(tǒng)計(jì),來(lái)評(píng)估信息內(nèi)容的使用情況及信息用戶的搜索習(xí)慣。內(nèi)容挖掘分析利用企業(yè)搜索引擎提供搜索服務(wù)僅僅是企業(yè)內(nèi)容利用的開始,以企業(yè)搜索引擎整合的內(nèi)容基礎(chǔ)為起點(diǎn),企業(yè)需要進(jìn)行再組織、再分發(fā),特別是應(yīng)用智能的知識(shí)挖掘技術(shù)進(jìn)行內(nèi)容的挖掘和分析,從而高效地獲取新的知識(shí)發(fā)現(xiàn)和利用價(jià)值。企業(yè)搜索引擎將組織中分散管理的信息整合在一起,再在組織層面實(shí)現(xiàn)新的增值,并共享給組織相關(guān)方面,從而有效實(shí)現(xiàn)組織內(nèi)容利用的最優(yōu)目標(biāo)。trs ckm中文知識(shí)挖掘基礎(chǔ)件以信息智能過(guò)濾和分析的文本挖掘技

27、術(shù),應(yīng)用統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和人工智能的最新研究成果,實(shí)現(xiàn)自動(dòng)分類、摘要、排重、聚類、敏感詞過(guò)濾分析等功能,提供c+/java開發(fā)接口和soap/web service應(yīng)用集成接口。五、trs企業(yè)搜索引擎核心優(yōu)勢(shì)trs企業(yè)搜索引擎產(chǎn)品和技術(shù)占有國(guó)內(nèi)市場(chǎng)的80%,一方面因?yàn)閠rs公司10多年來(lái)專注此領(lǐng)域,更主要的是通過(guò)10多年的努力,trs企業(yè)搜索引擎已經(jīng)具備了其核心競(jìng)爭(zhēng)能力,可以在眾多大型企業(yè)搜索引擎應(yīng)用項(xiàng)目中和國(guó)際巨頭競(jìng)爭(zhēng)角逐?!鞍踩钡乃阉饕鎡rs搜索引擎技術(shù)支持內(nèi)容安全性控制,可以通過(guò)域、ip段、url等廣域網(wǎng)范圍的控制,實(shí)現(xiàn)授權(quán)搜索采集,不亂采集。同時(shí),trs對(duì)查詢內(nèi)容進(jìn)行分級(jí)控制,

28、特定的人只能搜索和查詢特定的內(nèi)容。在trs搜索引擎技術(shù)中提供了信息智能過(guò)濾和禁用詞典設(shè)置,通過(guò)這些技術(shù),保障搜索引擎在提供便捷的搜索服務(wù)的同時(shí),也保證對(duì)不良信息搜索的過(guò)濾。另一方面,trs搜索引擎技術(shù)在安全模塊設(shè)計(jì)上提供了對(duì)pki/pmi體系支持的開放接口,可以保障將trs搜索引擎集成在企業(yè)內(nèi)整體的信息安全保障體系之中。全息搜索trs企業(yè)搜索引擎平臺(tái)服務(wù)器支持native xml的存儲(chǔ)和搜索。實(shí)現(xiàn)了從全文到元數(shù)據(jù)的多種聯(lián)合搜索,為企業(yè)搜索引擎應(yīng)用提供了全息檢索機(jī)制。更高的搜索準(zhǔn)確性和智能性trs搜索引擎技術(shù)支持按詞索引、按字索引、按關(guān)鍵詞索引,字詞混合索引,適應(yīng)不同應(yīng)用環(huán)境的需求,同時(shí)trs搜

29、索引擎內(nèi)嵌中文自動(dòng)分詞系統(tǒng)-檢索“北大”,檢索不出“東北大學(xué)”。內(nèi)嵌歧義處理實(shí)例規(guī)則庫(kù),正確識(shí)別歧義片斷,提高分詞準(zhǔn)確性分詞系統(tǒng)要達(dá)到一定的準(zhǔn)確率,需要和人一樣不斷積累知識(shí),也就是不斷積累分詞規(guī)則。trs公司從80年代末就開始積累分詞規(guī)則,這些規(guī)則從大量的語(yǔ)料中統(tǒng)計(jì)產(chǎn)生,如果語(yǔ)料的數(shù)量不夠則產(chǎn)生的規(guī)則往往帶有片面性,trs積累了2030gb的文本語(yǔ)料,且這些語(yǔ)料能反應(yīng)現(xiàn)中文語(yǔ)言的特點(diǎn)。如果一個(gè)語(yǔ)句切分時(shí)有歧義片段,則按適合的規(guī)則切分歧義片段,提高了查準(zhǔn)率。在查詢方面,trs提供了基于詞典的智能擴(kuò)展查詢,可以按同義詞、行業(yè)主題詞等詞典進(jìn)行智能擴(kuò)展查詢,例如,在查詢“銳器”時(shí),系統(tǒng)將自動(dòng)將包括“匕

30、首”、“刀”等內(nèi)容提供給信息搜索人員。在查詢中,對(duì)自動(dòng)聚類技術(shù)進(jìn)行充分利用,可以實(shí)現(xiàn)各類信息自動(dòng)相關(guān)等功能,為內(nèi)容比對(duì)分析提供了有利工具。個(gè)性化的搜索體驗(yàn)trs搜索引擎內(nèi)容分發(fā)服務(wù)模塊充分考慮了信息搜索過(guò)程中工作繁忙、對(duì)信息的時(shí)效性要求高等工作特點(diǎn)。提供了任務(wù)定制查詢、專欄預(yù)設(shè)查詢、個(gè)性化排序等功能。例如:使用者可以定制查詢?nèi)蝿?wù),比如“專項(xiàng)斗爭(zhēng)”、“專題文件”等單項(xiàng)任務(wù),又如可以定制查詢更新時(shí)間,查詢系統(tǒng)將根據(jù)定制的任務(wù),定期進(jìn)行相關(guān)信息查詢,定期將查詢結(jié)果推送到用戶的工作界面,方便信息需求者。另外,系統(tǒng)還提供了個(gè)人檢索歷史記錄、個(gè)性化界面設(shè)置等等功能,不同的使用者可以選擇適合自己的工作查詢界

31、面,提升系統(tǒng)的易用性和靈活性。實(shí)時(shí)資源整合搜索trs搜索引擎技術(shù)能將各種rdbms、文件系統(tǒng)、網(wǎng)頁(yè)信息等實(shí)時(shí)發(fā)現(xiàn),創(chuàng)建索引,為搜索服務(wù)提供基本的保障。標(biāo)準(zhǔn)、開放的系統(tǒng)標(biāo)準(zhǔn)、開放是一個(gè)應(yīng)用系統(tǒng)得以發(fā)展和壯大的基礎(chǔ),通過(guò)標(biāo)準(zhǔn)開放的模式,可以保證用戶更多地采用先進(jìn)的技術(shù)搭建個(gè)性化的應(yīng)用。隨著技術(shù)的發(fā)展,各個(gè)軟件供應(yīng)商越來(lái)越在某一領(lǐng)域具有專利或優(yōu)勢(shì)技術(shù),但是用戶的需求是全方位的,因此,最好的解決方案就是采用統(tǒng)一規(guī)范標(biāo)準(zhǔn)的接口進(jìn)行應(yīng)用集成,這也是國(guó)際化軟件發(fā)展趨勢(shì)。trs公司設(shè)計(jì)的搜索引擎解決方案在很多方面為應(yīng)用集成提供了保證,如支持系統(tǒng)三層體系結(jié)構(gòu),支持j2ee標(biāo)準(zhǔn)中間件,支持xml數(shù)據(jù)交換規(guī)范,提供

32、底層數(shù)據(jù)庫(kù)的各種平臺(tái)的完善的開發(fā)接口,提供模塊組件,支持二次開發(fā),開放底層數(shù)據(jù)存儲(chǔ)格式等。強(qiáng)壯可靠的系統(tǒng)、低成本按需擴(kuò)展trs搜索引擎平臺(tái)服務(wù)器采用了trs集群服務(wù)器技術(shù),實(shí)現(xiàn)了trs全文檢索數(shù)據(jù)庫(kù)的集群和負(fù)載均衡應(yīng)用,在采集方面利用分布式采集和任務(wù)集中控制模式可以進(jìn)行大規(guī)模采集,在未來(lái)可以通過(guò)增加硬件的方式,就能提高系統(tǒng)的處理能力。另外,隨著未來(lái)負(fù)載和訪問(wèn)量的增加,可以分步建立鏡像中心,滿足大規(guī)模應(yīng)用需要?;趦?nèi)容的自動(dòng)分類和聚類技術(shù)trs搜索引擎中嵌入式的內(nèi)容分類技術(shù)和聚類技術(shù),不但可以先按內(nèi)容、地區(qū)、來(lái)源等多種方式快速標(biāo)引各類信息,而且可以基于內(nèi)容對(duì)信息進(jìn)行自動(dòng)、準(zhǔn)確的分類,這兩種分類方

33、法有機(jī)結(jié)合為trs搜索引擎提供全面的、準(zhǔn)確的、快速的、智能的分類服務(wù)。優(yōu)異的全文檢索性能trs全文檢索系統(tǒng)在行業(yè)里具有領(lǐng)先的性能,是中文全文檢索的事實(shí)上的標(biāo)準(zhǔn),眾多的全文檢索廠商都以trs的性能指標(biāo)作為自己軟件評(píng)測(cè)的標(biāo)準(zhǔn)和系統(tǒng)發(fā)展方向。目前國(guó)內(nèi)唯一的商用千萬(wàn)級(jí)數(shù)據(jù)庫(kù)新華社多媒體數(shù)據(jù)庫(kù)就是采用trs作為底層檢索平臺(tái),目前,該系統(tǒng)已有將近8t數(shù)據(jù)量,檢索(包括簡(jiǎn)單檢索和復(fù)雜檢索)的平均響應(yīng)時(shí)間是秒級(jí)。并且,trs的檢索性能隨著數(shù)據(jù)的增加不會(huì)呈線性下降,可以在一個(gè)非常廣的數(shù)據(jù)規(guī)模范圍內(nèi)保證用戶的實(shí)際應(yīng)用。六、trs企業(yè)搜索引擎應(yīng)用實(shí)例 政府政府某部搜索引擎系統(tǒng)政府某部搜索引擎系統(tǒng)是垂直信息搜索的典型

34、,該系統(tǒng)依托于中國(guó)某部信息網(wǎng),是電子政務(wù)“金”字工程的有機(jī)組成部分。中國(guó)某部信息網(wǎng)是某部機(jī)關(guān)內(nèi)部管理使用的專網(wǎng),是全國(guó)各級(jí)該部機(jī)關(guān)內(nèi)部傳播和交流業(yè)務(wù)信息、隊(duì)伍建設(shè)信息、辦公信息的重要渠道。某部信息網(wǎng)上具有豐富的信息資源,網(wǎng)上已建立了數(shù)千個(gè)網(wǎng)站,網(wǎng)站上發(fā)布的各類網(wǎng)頁(yè)文件已達(dá)數(shù)百萬(wàn)個(gè);已建成的全國(guó)該業(yè)務(wù)應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)都已連入網(wǎng)內(nèi),各地該機(jī)關(guān)的應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)正在逐步連入網(wǎng)內(nèi);網(wǎng)上信息涵蓋了該機(jī)關(guān)各事務(wù)的基本情況和動(dòng)態(tài)。并且隨著發(fā)展,該信息網(wǎng)的網(wǎng)站數(shù)量、網(wǎng)頁(yè)數(shù)量和瀏覽網(wǎng)上信息數(shù)量都呈現(xiàn)著迅速上升的發(fā)展趨勢(shì)。在某部信息網(wǎng)中發(fā)布的數(shù)據(jù)具有資源比較分散的特性,在搜索引擎建設(shè)前,工作人員查找信息時(shí)需要訪問(wèn)

35、大量、不同的區(qū)域性站點(diǎn),甚至有時(shí)要訪問(wèn)到站點(diǎn)很深的層次中尋找信息,另外,很多信息又會(huì)被相關(guān)職能部門的網(wǎng)站刊登,造成大量重復(fù)信息?;谶@樣一個(gè)背景,并且為了充分發(fā)揮某信息網(wǎng)網(wǎng)上信息的作用,通過(guò)trs企業(yè)搜索引擎建設(shè)的某搜索引擎系統(tǒng)有效提高了信息資源整合組織和利用的效率。該系統(tǒng)針對(duì)網(wǎng)頁(yè)信息和應(yīng)用定位提供相關(guān)的搜索引擎解決方案,對(duì)網(wǎng)頁(yè)信息資源共享提供支持與服務(wù),同時(shí),為該部和各地該部部門在該網(wǎng)上查找相關(guān)應(yīng)用系統(tǒng)的定位信息提供服務(wù)某部搜索引擎系統(tǒng)包括了系統(tǒng)數(shù)據(jù)庫(kù)支持平臺(tái),采集、處理、存儲(chǔ)系統(tǒng),信息智能分析和系統(tǒng)管理等多方面應(yīng)用。 深圳信息資源決策服務(wù)系統(tǒng)深圳信息資源決策服務(wù)系統(tǒng)是trs公司和深圳市政府

36、于2004年合作建設(shè)的重點(diǎn)企業(yè)級(jí)搜索引擎服務(wù)系統(tǒng),是深圳市機(jī)關(guān)電子政務(wù)的重要組成部分。決策信息網(wǎng)主要為市級(jí)領(lǐng)導(dǎo)提供信息服務(wù),包括了政務(wù)信息、領(lǐng)導(dǎo)個(gè)人信息、視頻信息、統(tǒng)計(jì)信息、文件法規(guī)等豐富的內(nèi)容資源。決策信息網(wǎng)采用“統(tǒng)一平臺(tái)、分級(jí)授權(quán)”的方式進(jìn)行用戶管理,將權(quán)限下放給各個(gè)部門,通過(guò)這種方式實(shí)現(xiàn)對(duì)普通工作人員、市管領(lǐng)導(dǎo)、市常委委員不同角色的授權(quán),各部門按統(tǒng)一要求更新各自網(wǎng)站信息。通過(guò)決策信息網(wǎng),建立連接決策網(wǎng)數(shù)據(jù)中心和市局單位的網(wǎng)絡(luò)傳輸平臺(tái),建立包括圖文信息和視頻信息的數(shù)據(jù)中心,建立統(tǒng)一安全的管理平臺(tái)。深圳信息資源決策服務(wù)系統(tǒng)是深圳市機(jī)關(guān)電子政務(wù)系統(tǒng)的重要組成部分。它利用先進(jìn)的信息網(wǎng)絡(luò)技術(shù),整合

37、政務(wù)網(wǎng)和因特網(wǎng)各種信息資源,為市領(lǐng)導(dǎo)決策提供全面、準(zhǔn)確、最新的一站式信息服務(wù)。 媒體新華社多媒體數(shù)據(jù)庫(kù)搜索引擎服務(wù)新華通訊社作為國(guó)家通訊社,信息管理應(yīng)用服務(wù)系統(tǒng)擔(dān)負(fù)著采集、發(fā)布、管理各類文字及圖片信息的重大任務(wù)。其采集的信息涉及政治、外交、經(jīng)濟(jì)、文教、科技、法律等各個(gè)領(lǐng)域并具有信息量大、權(quán)威、準(zhǔn)確、及時(shí)、豐富等特點(diǎn)。不僅為國(guó)內(nèi)外的新聞機(jī)構(gòu)和企事業(yè)單位提供大量的新聞素材,同時(shí)也承擔(dān)國(guó)家重大活動(dòng)的新聞報(bào)道工作。新華社多媒體數(shù)據(jù)庫(kù)始建于1999年,采用trs全文檢索的核心技術(shù),2002年,trs公司與新華社技術(shù)局再次合作實(shí)施了新華社多媒體數(shù)據(jù)庫(kù)英文檢索引擎的提速改造,提速后的系統(tǒng)對(duì)于多媒體數(shù)據(jù)庫(kù)的全

38、文檢索能夠達(dá)到35秒左右響應(yīng)。目前,多媒體數(shù)據(jù)庫(kù)中已經(jīng)存儲(chǔ)了數(shù)千萬(wàn)條多媒體信息,數(shù)據(jù)容量接近8t,內(nèi)容涵蓋中、英、法、西、阿、俄等9大主流語(yǔ)種,以文字信息為主,包含圖片、圖表和音視頻信息。新華社多媒體數(shù)據(jù)庫(kù)底層采用trs和oracle協(xié)同工作的解決方式,由trs完成千萬(wàn)級(jí)數(shù)據(jù)的索引檢索服務(wù),由oracle完成信息制作流程,檢索方式分為本地聯(lián)機(jī)檢索和遠(yuǎn)程網(wǎng)絡(luò)檢索兩種方式,可進(jìn)行精確檢索、模糊檢索、全文檢索、對(duì)各檢索入口項(xiàng)實(shí)行任意聯(lián)合組配檢索;可實(shí)現(xiàn)多級(jí)檢索,逐級(jí)細(xì)化檢索條件,直至命中滿意的檢索結(jié)果;能夠?qū)z索結(jié)果排序。提供中英文全文檢索功能,中文按詞進(jìn)行全文檢索,具有智能詞庫(kù)機(jī)制。對(duì)圖片可按分類號(hào)、作者、拍攝時(shí)間、拍攝地點(diǎn)、照片文字說(shuō)明

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論