全文檢索系統(tǒng)整體方案說明_第1頁
全文檢索系統(tǒng)整體方案說明_第2頁
全文檢索系統(tǒng)整體方案說明_第3頁
全文檢索系統(tǒng)整體方案說明_第4頁
全文檢索系統(tǒng)整體方案說明_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料1全文檢索系統(tǒng)方案1.1全文檢索需求系統(tǒng)提供模糊檢索、分類搜索、高級復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑;支持字索引和詞索引;檢索條件具有完整的關(guān)鍵詞布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(與右括號)作關(guān)鍵詞查詢優(yōu)先級的設(shè)置;提供用戶多次遞進(jìn)查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準(zhǔn)確的查詢結(jié)果集;能夠支持對以上文件中的中文(簡體/繁體)、英文、日語、韓語內(nèi)容實(shí)現(xiàn)關(guān)鍵字檢索;支持對Word、TXT、PDF等多種主流文檔

2、格式全文檢索,并提供開發(fā)接口以支持特殊文檔格式的全文檢索;在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時,能在索引庫中反映出來,保證搜索的信息為最新,即支持增量索引機(jī)制;用戶可自行設(shè)定時間,讓系統(tǒng)自動定時進(jìn)行更新索引;對于百萬級記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時間不得超過10秒;提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索;同過相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來;不但能夠?qū)D片的描述信息進(jìn)行搜索,還能對圖片內(nèi)容的檢索;提供COM與SOAP的搜索接口(Interface)可讓其它應(yīng)用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒樵兘Y(jié)果的呈現(xiàn),用戶可通過應(yīng)用程序或?yàn)g覽器訪問全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看

3、檢索結(jié)果;查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷;在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標(biāo)識出來,用特殊的字體及顏色和其他文字進(jìn)行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置;查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時間,大小等條件進(jìn)行排序;可提供用戶對檢索命中結(jié)果文件在索引庫中進(jìn)行標(biāo)記,從而再次檢索時,不在標(biāo)記過的文件中進(jìn)行查詢;全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。Folder/ShareFolderwithDocumentsFuzzySearchSynonymPhraseWild-CardMulti-fieldFilte

4、rIRMSTermExtractTermIndexWebSiteRobot/SpiderByURLEntryAIRMS.IndexerAdapterDataSourceComposerFileExtractoraRDBMS(ODBC/OLEDB/JDBC)IndexDatabaseAAplicction(lUsrInterfeceeLotusDominoR5,R6(NSF)FileNET內(nèi)容管理針對企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形

5、成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對結(jié)構(gòu)化的數(shù)據(jù)虛擬層進(jìn)行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會在索引庫中進(jìn)行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁面,進(jìn)一步鏈接到信息原文查看詳細(xì)內(nèi)容。對于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個系統(tǒng)運(yùn)行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實(shí)時或定時創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。全文

6、檢索系統(tǒng)帶來的效益高效率的整合搜索,大幅減少組織成員在取得信息時花費(fèi)的時間!本系統(tǒng)和其它搜索系統(tǒng)只針對特定信息源搜索不同,它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強(qiáng)大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁面、簡易的操作方式,即可在最短時間內(nèi),完整、準(zhǔn)確、及時地掌握企業(yè)內(nèi)外所有信息,不必再耗費(fèi)大量時間的找尋信息!信息過量不會造成企業(yè)成員的信息焦慮!通過本系統(tǒng)強(qiáng)大的索引/搜索能力,大量的信息也可在瞬間過濾出符合使用者條件的信息,不必?fù)?dān)心迷失在漫漫的信息洪流之中!非結(jié)構(gòu)/非組織的信息,不再是知識管理的盲點(diǎn)!文件/檔案以及非經(jīng)過分類管理的信息,因?yàn)楦郊有畔⑾∩?,往往成為知識利用上難以

7、判斷、分析的信息。本系統(tǒng)直接針對內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用!整合容易,使用簡易,導(dǎo)入迅速,易于接受!套裝化、模塊化的設(shè)計(jì)及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡單,企業(yè)成員易于接受,導(dǎo)入方便。以最經(jīng)濟(jì)的時間、人力及費(fèi)用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。全文檢索系統(tǒng)平臺架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計(jì),系統(tǒng)平臺架構(gòu)示意圖如下:CustomizationDataSynchronizationaAuthorityImport/ExportrMassagingJrConfigurationClassificationElUnst

8、ructuredData7匡園函Semi-StructurecfDataStructuredData整個系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個部分。信息整合此部分主要作用是將企業(yè)內(nèi)部存儲于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進(jìn)行信息提取,形成一個相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。信息萃取和服務(wù)在信息整合層形成的相對結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對其中的每筆記錄進(jìn)行中文切分詞、索引、文件特征分析、自動分類等各種演算算法處理,形成可以提供搜索服務(wù)的索引庫。用戶利用本系統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音搜索、

9、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時、有效地搜索到符合自己搜索條件的信息。應(yīng)用整合本系統(tǒng)還提供了完整的外部程序整合機(jī)制。所有組件均提供SDK完整開發(fā)接口,方便應(yīng)用整合和應(yīng)用擴(kuò)展。1.4.1信息整合此部分主要提供對企業(yè)內(nèi)外部非結(jié)構(gòu)性數(shù)據(jù)信息源建立自動化數(shù)據(jù)匯入功能。根據(jù)用戶實(shí)際需求,用戶可以選擇導(dǎo)入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、圖片的文件名或摘要、及文字)自動化建立索引數(shù)據(jù),建立索引數(shù)據(jù)所處理之文字包括繁體中

10、文、簡體中文等;同時用戶可以選擇導(dǎo)入數(shù)據(jù)庫數(shù)據(jù),如Oracle、InformixSybase、MSSQL等。此外和Notes系統(tǒng)也已經(jīng)有了無縫整合,可掛載NotesComposer對nsf庫中正文及附件信息索引,在做索引的過程中自動把每筆記錄的權(quán)限鍵入索引庫。本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(DataAdapter),將異質(zhì)的數(shù)據(jù)來源與數(shù)據(jù)結(jié)構(gòu)進(jìn)行匯整與粹取,亦扮演將非結(jié)構(gòu)的信息結(jié)構(gòu)化,可以很容易地分析特殊檔案格式和管理復(fù)雜的數(shù)據(jù)源結(jié)構(gòu)(如遞歸、巢狀等)的多功能設(shè)計(jì),以方便信息檢索與管理。以e-mail含附件為例,e-mailAdapter可解析e-mail內(nèi)文,而當(dāng)選購officeAdapter

11、后,原來的e-mailAdapter即可解析office相關(guān)的附件文件,可視需求額外購買PDF、ZIP、RAR、OCR等不同數(shù)據(jù)適配器,即可交互搭配使用。搭配使用本系統(tǒng)的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta資料提取器,將可解析TextMicrosoftOffice、XML、RTF、PDFHTML、MHT及E-mail(含附件文件)及文件影音附檔(如影片的文件名或摘要、圖片的文件名或摘要、及文字)等格式,包括繁體中文、簡體中文、英文Unicode等;使用數(shù)據(jù)庫數(shù)據(jù)適配器,將可支持?jǐn)?shù)據(jù)庫數(shù)據(jù)匯入處理如Oracle、Informix、Syb

12、ase、MSSQL等。1.4.2信息萃取和服務(wù)此部分須提供對數(shù)據(jù)提取的內(nèi)容所包含的信息,進(jìn)行數(shù)據(jù)處理分析,包含:分類模式建立自動分類功能。針對非結(jié)構(gòu)性數(shù)據(jù)建立詞庫,詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。自動分類機(jī)制與專業(yè)詞庫須具備自動學(xué)習(xí)與修正之功能以提升數(shù)據(jù)處理準(zhǔn)確度。可針對不同使用層級、項(xiàng)目進(jìn)行非結(jié)構(gòu)性數(shù)據(jù)權(quán)限控管。依照使用者不同等級提供不同權(quán)限的查詢功能接口。應(yīng)用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進(jìn)行斷詞、索引、分類、文件特征等運(yùn)算與處理,以便滿足信息檢索與信息管理的應(yīng)用,提供多功能全面性的數(shù)據(jù)分析能力,可針對不同情境應(yīng)用加以整合,快速達(dá)到使用者需求。同時,用戶利用本系

13、統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時、有效地搜索到符合自己搜索條件的信息。1.4.3應(yīng)用整合CustomizationB國DataSynchronizationConfigurationimport/Export完整外部程序整合機(jī)制一所有組件均提供SDK完整開發(fā)接口,方便外部整合。另外大量提供XML的方法來進(jìn)行信息源更新時的同步以及權(quán)限的導(dǎo)入與檢查工作。1.5全文檢索系統(tǒng)功能特點(diǎn)L5.1基本檢索功能支持査詢結(jié)呆說定:索引庫査詞關(guān)

14、犍詞:全選哇不選廠分孚文件氐巧“廠龍卷鳳廠新聞數(shù)葩庫(I廠處遼弩理LL心)主階至詢毎口.顯天結(jié)昊救:n廣加廣宜2c5排序1屈頂.TI迄再3特殊功胄搬定:廠英立訶型間忡気換廠口卩丈同音1L卩英乂容錯冃卩戈:丈同艾或近G1L二1恁可以在查詢字荷串中虔月邏輯迄算荷弓爰.耳文77用口歹,|表示皿&表為陀!表示NOTr忙英文萬用字持廠二題査詢支持跨數(shù)據(jù)源索引與整合搜索。將分散在FileServer上的文件、遠(yuǎn)程網(wǎng)站中的網(wǎng)頁、群組軟件中的資料,以及數(shù)據(jù)庫中的文字與非文字紀(jì)錄,在一次搜尋條件下,整合搜尋出來??梢詫€數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)分別建立索引庫,到時可以通過索引庫的選擇來控制對哪些性質(zhì)的數(shù)據(jù)進(jìn)行

15、搜索;支持萬用字符(*、?)查詢。使用者可查詢部分關(guān)鍵字及*(代表多于一個字)或?(代表一個字)的組合。例如:輸入關(guān)鍵詞【Chin*】,會找到【China】、【Chine】、Chinese】等等。輸入關(guān)鍵詞【Chin?】,會找到【China】;搜尋條件具有完整的布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(與右括號)作關(guān)鍵詞查詢優(yōu)先級的設(shè)定,方便查詢者輸入布爾組合之查詢條件;內(nèi)建智能型快速響應(yīng)模式(Smartcache)機(jī)制,可以提供同一種查詢條件之重復(fù)使用率,提高系統(tǒng)資源的效益。Cache儲存目錄記錄了Cache檔案所要放置的地址,經(jīng)查詢過的資料或

16、畫面,第二次再進(jìn)入時,可重復(fù)使用第一次查詢結(jié)果;支持/多字段/多條件檢索,提高搜索精確度;單一字段內(nèi),支持AND/OR/NOT邏輯條件,且支持括號方式來提供條件優(yōu)先權(quán)。多字段條件間,支持AND/OR/NOT邏輯條件;索引庫:全選陛不選查詢關(guān)鍵詞中國申博1中國申博曲ZJ廠主題查詢堤兗重設(shè)底可以即書訥字杵串中應(yīng)耳淨(jìng)憩拉篡沖號應(yīng)英龍丁陽二沖:|表示0K&表尋MD.!表示NOT,*/英交方用字捋WFW7型枚小名:類修大頃件吉碼件芒件標(biāo)文作編文最文廠分見工件區(qū)出吃廠疋卷鳳(W也河新聞數(shù)摳片(LE)知識營煜吐明7Lre;eSitr.pliiec(GE2?1j)二h【i;:iLiErLWindm;j二Inu

17、ll-nul訕心丄12?3MB吏詢獵耒設(shè)疋;軒帀忌正結(jié)丟敷:Unicode、UTF-8、EUC-JP、Shift-JIS,并支持以Unicode同時輸入多國語系條件進(jìn)行搜尋。-r仔TrMi*“蘭親SKiiiri獰*亍JapaneseTraditionalChineseSimplifiedChineseK.nH!P|軒=?S#-4l?t:TT:i(TflfPIET-可出曰t!牛才LdSSfllXMHAi附皚HEJ3015;*OKI114512巴EhM3E?SEOISWIKDiSJSI斗酉OIWE=WTI+2.2HSt!畑冷TIH跑卅8打巴H自4l禍LlaFEElQl丄EH124鑒0DIS早蟲匸卩

18、I目EE基耳1E同個數(shù)據(jù)表或一條數(shù)據(jù)庫記錄中可以支持多國語言混排內(nèi)容;|ITlL甜耐加口f:詹比tlJ(辭dOWtLD申曰由BU-*!:彈晉ng呂卜比7如”空j謂音抄:號洌nwhS9W42!4n.L+Ftiii-dWORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料一個索引數(shù)據(jù)庫可以存在多國語言的不同數(shù)據(jù);可以輸入多國語言的檢索條件,并使用AND、0R、NOT邏輯關(guān)系;檢索結(jié)果中可以同時顯示多國語言記錄;搭配多國語言同義詞庫,可以通過單一語言條件,得到多國語言檢索結(jié)果;154中英文模糊搜索查詢功能內(nèi)建中英文容錯(Fuzzy)查詢功能。中英文容錯功能FuzzySearch,基于文

19、字特性,很多專有名詞及詞匯依情況不同,也許衍生出通用的簡稱,或是文字次序?qū)φ{(diào)。也有可能因?yàn)槟:幻鞔_的意象,使用者希望只需要輸入一個關(guān)鍵詞,就能一并查詢性質(zhì)類似或相關(guān)之信息。比如:輸入MobileNetwork可查到MobileApplianceNetwork等特定距離的詞句、輸入產(chǎn)業(yè)研究可查到產(chǎn)業(yè)結(jié)構(gòu)研究、產(chǎn)業(yè).研究等,擴(kuò)展搜尋的完整性。1.5.5近似概念詞庫輔助查詢功能可針對不同的索引庫設(shè)定同義詞組。如設(shè)定電腦$Computer$計(jì)算機(jī)為同義詞側(cè)使用者可搜索“電腦”時,可同時查到含有“Computer”或“計(jì)算機(jī)”的信息。WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料

20、LiH申哮炳局易斤一丫I.壻的中國-l,去岡尸欝幵爐了二販山“用市:14活:更美奸”的陳述亠在當(dāng)抱時間任別時比京時間19:30眄中國代奩團(tuán)幵皓進(jìn)行長度約如吩鐘前件直*屮曰曰一目-弋去13鮎旨言古詼譏為1H曰旺汪國丁住昊建如醫(yī)涪院刃三筑屮頁疳E務(wù)交貝云泯,上每千帀喪書記.帀七你工亍”口.曰期作咅:大卜:二幻滬世博會詵址-方年,走江秀叼變號沖國申博)力蘭可訐沖BI才氏消息麻匕弩.凹)日一地處荷工汜片的仲醫(yī)近代兒一一”一一已百電二歷丈蒞江南說獄戻寸總可尢一前鑼該國無M司員工共巨雙反中甚感及。恨霑m-中國口井世悻盤戊功后江丙楚船-廠址址將衣大世博園加一奇;n百臨祀遷出運(yùn),t司員工紋幼衣尺芒二匚(工土稱

21、E向吐齊烝示訂嶄斯Eli每刖三阿,也七要四刁ft?上弄斫吟現(xiàn)代化的富于做心競爭力的新江亂在今日的腔司超申博戒功丈令上,盤司童事疋F.T,產(chǎn);審工蕨岸共刁空:慶曲時悵,l.niri-百三十4年厲史抽中國篦一1肢門,日期.岸杳.丈小.it-X1S-以Web網(wǎng)頁形式呈現(xiàn)查詢結(jié)果,使用者可指定所欲察看的特定筆數(shù)或分頁瀏覽。支持二次搜索功能。提供屬性字段權(quán)重排序機(jī)制,管理者可自訂查詢結(jié)果的排序規(guī)則,讓搜尋結(jié)果按搜索者的意圖顯示。提供樹形分類目錄,提供查詢結(jié)果分類,可以讓使用者進(jìn)一步選取下一層目錄,以縮小查詢范圍。具有標(biāo)示原文關(guān)鍵詞功能,可以直接將原文中有關(guān)使用者輸入得關(guān)鍵詞全數(shù)標(biāo)示出來,同時系統(tǒng)管理者可

22、以自行設(shè)定關(guān)鍵詞標(biāo)示的顏色、大小、字型.等屬性。docKcy:FTTILE2中國申博代表團(tuán)開始逍行陳述戒帀”為主題區(qū))Tr;:l中國新聞社TextFAUTHOR:Ti-:i匚新出J月W1電匡乖展比局華:乜貢乂去=|前円斤庫體號吏料:洛和格硃亙旦仝議宮皮埃爾E子廳進(jìn)行申博陳也最后-個上場的中國代表團(tuán)已經(jīng)開始了主題為城讓生活更美好”的陳述。在當(dāng)?shù)貢r間恪孔時対諒時間19別時)中國代表團(tuán)開始迸行長度釣対孔分智的陳述。中國申博代議團(tuán)的發(fā)言者像次対;申國駐法匡人便癸建叨.國務(wù)院魚忌芒爺丸詩.匡奔委另貝悅,上塢市市委書記.if忙味艮宇-中M丄垢即心主豐題M我市,i上空活更角二這是七薄仝方史丄年空出現(xiàn)“城市占

23、主題.也是全世界都在熱切關(guān)注的話題。中國申博慎表因認(rèn)為,隨負(fù)殳賢速啟題K述頭日世=車旳城市病ZE匹為首七畀各也的、Th為了耳起入忙對云未城市丸韻皓種恵亂中匡遠(yuǎn)擇了T嘩引趕廣吃具嗎的主題.址豈一個交流的機(jī)會.激起對諸如如何治理城帀弊病、如何創(chuàng)立更多的就業(yè)機(jī)會、如何改善城巾三沽亙量尋卜|越展出誼茉A匪討必巨BIT裁巾左展旳先囲:圭劭加生態(tài)亞城市.可特續(xù)城帀.數(shù)字化規(guī)亡爭,匸展示現(xiàn)代城市乂叨左城市瓶劃勺查詢結(jié)果可同時顯示文件抬頭及重要摘要段落或者僅僅顯示文件抬頭以加快使用者的查詢速度。開發(fā)搜索接口,用戶可根據(jù)開發(fā)的SDK自己開發(fā)特定形式和顯示風(fēng)格的搜索結(jié)果頁面。1.5.8自然語言應(yīng)用組件利用自然語言

24、的形似相關(guān)詞功能,可對數(shù)據(jù)擷取內(nèi)容進(jìn)行新詞學(xué)習(xí),語意分析等,可自動建立新詞,提升數(shù)據(jù)處理準(zhǔn)確度?;谧匀徽Z言應(yīng)用組件,可實(shí)現(xiàn)相關(guān)文章查詢功能、重復(fù)文章查詢功能、自動摘要功能、語意查詢功能、形似相關(guān)詞建議功能等。從而能夠通過關(guān)聯(lián)組織的方式,把不同檔案庫中的相似、相關(guān)內(nèi)容一次性的搜索出來。相關(guān)文件查詢Key:214DB-News中國申博代表團(tuán)開始進(jìn)行陳述“城市為主題(圖)中國新聞社中新網(wǎng)12月汨電國際展覽局第1充次大會目前仍在摩洛哥蒙特卡洛的格林馬迪會議宮皮埃爾王子廳進(jìn)行申博陳述。城市,讓生活更美好。這是世博會歷史上第一次岀現(xiàn)“城市主題,創(chuàng)造一個交流的機(jī)會,激起對諸如如何治理城市弊病、如何創(chuàng)立更多

25、的就業(yè)機(jī)會、如何改善城市生活質(zhì)量等問題展開廣泛深入的討論。并展示現(xiàn)代城市文明在城市規(guī)劃與管理、科學(xué)、技術(shù)、文化和生活方式等方面的成果。場地所在及周邊區(qū)域集中反映了幾百年來上海城市發(fā)展的歷程。在景觀上互相協(xié)調(diào)。世博會各場館的布局將充分考慮到參觀者到達(dá)的便利性,在這條象征人類前進(jìn)腳歩的神奇橋梁上,No.TitleKelevanceDB:Files|News|Tornado|KMShareTotal:36IIIIIIIIIIIIIIIIIIIII57.73%IIIIIIIIIIIIIIIIIIIII53.76%李嵐清陳良宇吳儀為中國申辦世博會的陳述文申辦世界博覽會成功后上海人最關(guān)注十個問題快訊:上海

26、獲得2010年世博會主辦權(quán)IIIIIIIIIIIIIIIIIIIII46.39%IIIIIIIIIIIIIIIIIIIII40-10%5.快訊:中國高官莊嚴(yán)承諾世博主辦權(quán)志在必得IIIIIIIIIIIIIIIIIIIII39-72%&滬世博會選址-百年老江南“欲變身IIIIIIIIIIIIIIIIIIIII3S-30%4.快訊:中國高官作出莊嚴(yán)承諾為世博選票最后一搏文章自動摘要Key214DB-NewsAhEtmcrinii:中國申葷弋表團(tuán)尸站起斤臥迂“城方為主題阿畔國訪聞社中新州吐汨電國斷展反局削憲既.心=1飾乃亓華略哥篆標(biāo)C洛笛籽林曰:由并展宮皮圧不干子斤卅冇f博煉休-城H.1.1牛污更美

27、軒、込是主書臺方出上篦一氏出現(xiàn)“城門三題,創(chuàng)適一個交流筆機(jī)合,驗(yàn)匕燈因厲k何活莊城下逮病、如訐劃立更多的就業(yè)機(jī)含、如何改言城方生活質(zhì)量年巨題展開廣泛貳入的討論。打壓示現(xiàn)弋拒卞丈明產(chǎn)城市如劃u管專.科蘭、技久、戈代班?;盍κ襟牧Ρ獾子?場廿所布疋丐溝區(qū)域策屮瓦映丁匚白年米上冉城白發(fā)展的廳程”心景覘上互相協(xié)i月.世博訂各場館的布局馮克分卑慮刃爲(wèi)賓舌劉注的利性,.在這殺茅彳止人交前壬腳步的袒奇忻梁上,Percentage:|UefaULtTSentEncesize:|DpfauJtTCharactersize:|口航1TWeight:|DefaultT1.5.9自動分類應(yīng)用組件搭配自動分類組件,可

28、對擷取數(shù)據(jù)進(jìn)行分類,并可輔以導(dǎo)覽式分類組件與搜尋組件進(jìn)行整合,即可逐一依類別篩檢過濾資料,并顯示類別內(nèi)符合資料。導(dǎo)覽式分類栩關(guān)分霸目錄:栢關(guān)毎須目錄市場昔報(514)產(chǎn)品(386)客戸(382)-解決方案(373)-TornadoSearchf21-攥勢(154)-競爭者分析(160)-BlRadar(162)-財(cái)政部(66)-產(chǎn)業(yè)消息(114)-IRMS(137)-畫子時報(56)more,.more.more.議爭者325)翳徉(320)訐銷資料(170)-Verity陽-ISM32、-數(shù)育訓(xùn)純(140)-網(wǎng)擎OpenFind(75)-潔謫(50)-成功案例(14)-Inktomi(490

29、-亞太(50)-令司背員(9)more,.more.more.it區(qū)(70)Case首理(30)部門(26)-國外(68)-文件格式(26)-PSD(14)-大陸(8)-合約(15)-SMD(120-臺灣-往來信件(1)more,.more.Q查詢字串:按索i)共我到1,2第筆豊料,有200可供瀏覽.(此次按尋共花了1亂秒.)文件霸型:國耐匪文件類型:瞠皙暫箸畀屆艇國觀勻自動分類關(guān)健手查詢:搜索|查詢丨進(jìn)階奩詢厚負(fù)掩祝:惜料陳刊HSAIcirriQcoSEXch:1生-m肌曲丨斶-IF”f17門-F_F:48)Wqmsi-tir:FilW-C33).nfcFe日汁i,22Ca*c菅晝-弍i7b

30、;合約2-件味信件Dmin7教肓訓(xùn)糜1斗昭-H取-蟲詞青豆9)6於此搜尋結(jié)呆內(nèi)按尋廣於此廿類下搜尋o搜尋所有分類)亙詢宇串:擱索i)艾戎甄爭宜杜,有酣。查宜枚可炭劉藍(lán).此汶搜尋托芯了1.力秒J文I幡型卜拎匸丈件無型:繪筍皙四窗唇屆晶孚津越土魚詢詰果,|I|2|LIIIIINertWt林IT?ttl:2J:甘序:擋案日期工|曲:到小三MKL(0(VT究)r咋咅:H卜網(wǎng)乃丄翁第五章中小企業(yè)市塌廳銷現(xiàn)況(研究,調(diào)查)國穴育戊中4:的功韮亙耳球門世質(zhì),際r創(chuàng)栄垢苛之惻堆對亦發(fā)創(chuàng)新也是寺成攜制中延亙要壘-塩,為配合墳?zāi)w鼓助半小主業(yè)淮訂產(chǎn)業(yè)拉丙與窿品刖靳肝沉的吧弟目瞟,備育戒屮心唾才忸助誠匸啟趾新覷中屮企

31、釜朋麥新玄用拒魏計(jì)畫CSBIR-IJISS,眇干怎例,右成中1工軸助辛舌申詣上希寺帀篙祎北的計(jì)吉共石須畔,樹中-卜咋辛出條膽皆的艷尸右S筈旳旳益.311:20C905?r咋若:7t-:9990;1.5.10高效數(shù)據(jù)同步功能(增量索引)以前的全文搜索引擎在面對大資料量建立索引時,都會限制數(shù)據(jù)量的多少,而解決這個問題通常都是將資料量分為幾個部分分開建索引。但是這種方法并無WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料法徹底解決資料同步更新或檢索的需求。本系統(tǒng)提供漸進(jìn)式索引技術(shù),也就是通過增量索引機(jī)制可以逐步地分別為數(shù)據(jù)庫建立索引,對于異動的數(shù)據(jù)或索引,進(jìn)行實(shí)時的更新。1.5.

32、11高可用性備上,讓備用機(jī)共享其索引數(shù)據(jù),使全文檢索服務(wù)可以正常運(yùn)行。1.5.12可擴(kuò)充性:本系統(tǒng)可依不同需求擴(kuò)張,分類,自然語言,數(shù)據(jù)適配器等組件,更可置換其關(guān)鍵性應(yīng)用組件,例如:企業(yè)已使用其它分類組件,透過本系統(tǒng)提供之SDK,可取代原本之分類應(yīng)用組件,且不會影響原本服務(wù)機(jī)制。1.6大數(shù)據(jù)量全文檢索解決方案當(dāng)需要建立索引的數(shù)據(jù)量達(dá)到上千萬條時(大概上百個G),單個服務(wù)器檢索系統(tǒng)在性能方面是不可能得到保證的,這時候查詢一條信息所需要的時間已經(jīng)遠(yuǎn)遠(yuǎn)超出了使用者的容忍范圍,所以為保證全文檢索系統(tǒng)的高性能特點(diǎn),使用多臺檢索服務(wù)器機(jī)群來實(shí)施分布式檢索成為當(dāng)務(wù)之急!1.6.1大數(shù)據(jù)量全文檢索構(gòu)架圖如圖所

33、示,應(yīng)用系統(tǒng)的所有資料分散的部署到各個索引服務(wù)器上建立索引,之后把索引好的數(shù)據(jù)存儲到索引庫中,用戶發(fā)出一個搜索請求后,龍卷風(fēng)大數(shù)據(jù)量分布式檢索系統(tǒng)通過SOAP機(jī)制把搜索請求發(fā)送給索引服務(wù)器,然后接收到搜索請求的服務(wù)器會去到索引庫中把搜索者所需資料查找出來并且把所有查詢結(jié)果合并到一起通過用戶設(shè)定的排序方式在前端搜索頁面上顯示出來。在此期間,用戶發(fā)送搜索請求后,機(jī)群索引調(diào)度服務(wù)會根據(jù)索引服務(wù)器狀態(tài)表把搜索請求發(fā)給空閑的服務(wù)器,充分利用整個系統(tǒng)的每一分資源。1.6.2分布式技術(shù)優(yōu)勢多種數(shù)據(jù)庫信息統(tǒng)一建立索引,支持對數(shù)據(jù)庫的文件附件索引,無需對數(shù)據(jù)源進(jìn)行任何改動;支持T級總量數(shù)據(jù),每天G級的增量數(shù)據(jù)實(shí)

34、現(xiàn)秒級數(shù)據(jù)檢索,并且索引延遲時間保證在1小時以內(nèi),即實(shí)現(xiàn)用戶對每天更新數(shù)據(jù)能夠及時查詢,還能保證T級歷史數(shù)據(jù)的快速查詢;整個系統(tǒng)具有靈活的擴(kuò)展性,在系統(tǒng)應(yīng)用過程中,隨著用戶需檢索數(shù)據(jù)量的增加,可通過擴(kuò)展索引服務(wù)器和查詢服務(wù)器集群高性價比平滑升級,已經(jīng)索引過的數(shù)據(jù)和原有系統(tǒng)的穩(wěn)定性不受影響;高并發(fā)用戶訪問量支持;1.7搜索的權(quán)限控制IRMS提供的信息搜索并非是指人人皆可隨意搜索到任何信息,而是依照組織中的角色,讓搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無權(quán)限訪問的記錄是不會被搜索出來的。IRMS權(quán)限控制主要實(shí)現(xiàn):保證存取信息的安全性有該文件讀取權(quán)的人或群組,才有可能查詢到此一文件無該文件讀取權(quán)的人

35、或群組,不會知道有哪些無權(quán)讀取的文件存在如果每個人或群組文件的讀取權(quán)不同,查詢結(jié)果集就會不同1.7.1搜索系統(tǒng)和應(yīng)用系統(tǒng)權(quán)限整合方法針對不同的應(yīng)用及特定的權(quán)限規(guī)則,有多種方式可以實(shí)現(xiàn)IRMS搜索系統(tǒng)和應(yīng)用系統(tǒng)的權(quán)限整合。主要方法包括:1、分索引庫法:此種方法適用于權(quán)限較簡單,并且權(quán)限可以歸為幾大類的應(yīng)用。如用戶組分為公司領(lǐng)導(dǎo)組、部門經(jīng)理組、普通員工組,每組用戶WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料內(nèi)部權(quán)限相同,組之間才有權(quán)限差異。針對此種應(yīng)用,可以分別針對不用的用戶組創(chuàng)建不同的索引庫,分別放置于Group_for公司領(lǐng)導(dǎo)、Group_for部門經(jīng)理、Group_f

36、or_普通員工。搜索時,首先判斷用戶所在何用戶組,針對不同的用戶組再定向到不同的搜索庫中去全文檢索。2、特殊屬性過濾法:此種方法適用于信息資料源單一,并且有一特殊屬性字段可以判斷用戶權(quán)限的情況。如數(shù)據(jù)庫全文搜索時,有一字段值為授權(quán)訪問該記錄的所有用戶或組。針對此種特殊情況,可以選擇使用多字段屬性過濾的方法,在搜索頁面提交搜索請求后,使用該特殊屬性字段過濾最終的搜索結(jié)果。3、搜索結(jié)果過濾法:用戶提交搜索后,搜索引擎搜索時并不帶入權(quán)限信息,只是在搜索結(jié)果顯示時,使用應(yīng)用系統(tǒng)的權(quán)限規(guī)則來過濾搜索結(jié)果,并將符合該用戶權(quán)限范圍內(nèi)的信息顯示給搜索者。4、內(nèi)建權(quán)限規(guī)則法:搜索系統(tǒng)內(nèi)建權(quán)限規(guī)則,管理員根據(jù)搜索

37、信息來源的適用環(huán)境優(yōu)點(diǎn)缺點(diǎn)權(quán)限規(guī)則定制搜索系統(tǒng)的權(quán)限規(guī)則,用戶提交的搜索請求搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。5、導(dǎo)入權(quán)限規(guī)則法:搜索系統(tǒng)不內(nèi)建權(quán)限系統(tǒng),但提供權(quán)限導(dǎo)入機(jī)制。用戶將應(yīng)用系統(tǒng)的權(quán)限規(guī)則標(biāo)準(zhǔn)化后,通過搜索系統(tǒng)的API導(dǎo)入到搜索系統(tǒng)中。用戶提交搜索請求,搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。各種方法的比較:分索引庫法權(quán)限較簡單,并且權(quán)限可以歸為幾大類的應(yīng)用部署簡單適用范圍小特殊屬性信息資料源單一,并且部署簡單適用范圍小過濾法有一特殊屬性字段可以判斷用戶權(quán)限的情況搜索結(jié)果應(yīng)用系統(tǒng)權(quán)限判斷用時部署簡單應(yīng)用系統(tǒng)權(quán)限規(guī)則過濾法少復(fù)雜時,搜索結(jié)果權(quán)限判斷將很花時間,致使搜索結(jié)果顯示速度慢內(nèi)

38、建權(quán)限大部分應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜管理員需要為搜索規(guī)則法索系統(tǒng)中,搜索速系統(tǒng)索引庫中的每度和顯示速度快筆記錄分配權(quán)限,工作復(fù)雜導(dǎo)入權(quán)限大部分應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜需要將應(yīng)用系統(tǒng)權(quán)規(guī)則法索系統(tǒng)中,搜索速限規(guī)則導(dǎo)出為特定度和顯示速度快。格式。但一旦確定模支持批量導(dǎo)入機(jī)制式,則可重復(fù)使用按照以上搜索系統(tǒng)權(quán)限整合分析,此次應(yīng)用系統(tǒng)涉及的搜索信息來源所包括的Documentum、OA及其它應(yīng)用系統(tǒng)都有各自的權(quán)限規(guī)則,應(yīng)采用第四或第五種權(quán)限整合方法。IRMS全文檢索系統(tǒng)支持第五種權(quán)限整合方法,它的主要特點(diǎn)包括:支持實(shí)時權(quán)限信息導(dǎo)入和定時權(quán)限信息導(dǎo)入,用戶現(xiàn)有權(quán)限規(guī)則不用做任何改動;支持使用XMLExp

39、ort與Import的機(jī)制提供信息內(nèi)容權(quán)限控管的整合接口;支持權(quán)限信息導(dǎo)出為XML文件后,再批量XML文件導(dǎo)入的功能;提供權(quán)限組件及SDK,可單獨(dú)操作權(quán)限組件進(jìn)行不同的權(quán)限系統(tǒng)整合;利用XML進(jìn)行權(quán)限整合描述,和其它系統(tǒng)的權(quán)限架構(gòu)做整合。整合后,不同的權(quán)限使用者使用搜尋引擎、自然語言等應(yīng)用組件時,將得到符合各自權(quán)限的數(shù)據(jù);權(quán)限規(guī)則與IRMS可以完全分離,增加可重用性。1.7.2IRMS和Domino權(quán)限整合實(shí)例龍卷風(fēng)公司已經(jīng)開發(fā)出成熟的Domino適配器,實(shí)現(xiàn)將Domino中的文檔建立索引,實(shí)現(xiàn)全文檢索。通過管理界面設(shè)定需要如何連接DominoNSF數(shù)據(jù)庫,同時設(shè)定索引哪個View或表及其它信息。IRMSDominoComposer通過以上配置實(shí)現(xiàn)從Domino中提取文檔內(nèi)容,創(chuàng)建索引。IRMSPlatformNotesComposerSearchIndexDBIndexerIndexDBDisk/Storage1ILAN(DataSource)DominoNSFForm/ViewLotusNotes(Client):LotusNotes;ComponentInterface

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論