TRS培訓(xùn)總結(jié)交流-黃孝艷_第1頁
TRS培訓(xùn)總結(jié)交流-黃孝艷_第2頁
TRS培訓(xùn)總結(jié)交流-黃孝艷_第3頁
TRS培訓(xùn)總結(jié)交流-黃孝艷_第4頁
TRS培訓(xùn)總結(jié)交流-黃孝艷_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

TRS培訓(xùn)總結(jié)交流2023/2/6TRS原理全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。TRSServer是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。2023/2/6體系結(jié)構(gòu)

數(shù)據(jù)庫服務(wù)器管理員工具網(wǎng)關(guān)或適配器開發(fā)包內(nèi)容發(fā)布應(yīng)用服務(wù)器TRS軟件平臺介紹一、TRSServer全文數(shù)據(jù)庫系統(tǒng)二、TRS全文檢索網(wǎng)關(guān)(DB2)三、TRS全文檢索網(wǎng)關(guān)(Oracle)四、TRS全文檢索網(wǎng)關(guān)(MSSQL)五、TRS企業(yè)搜索應(yīng)用適配器-File六、TRS全文數(shù)據(jù)庫API2023/2/6----8----8----3----4----4----JAVA包一、TRSServer全文數(shù)據(jù)庫系統(tǒng)TRS全文數(shù)據(jù)庫服務(wù)器的核心技術(shù)為全文檢索全文數(shù)據(jù)庫=全文檢索+關(guān)系數(shù)據(jù)庫的基本關(guān)系特征+Native-XML數(shù)據(jù)庫特性;核心功能:對結(jié)構(gòu)化和非結(jié)構(gòu)化信息的統(tǒng)一存儲管理;基于元數(shù)據(jù)和全文的聯(lián)合查詢。2023/2/6管理員工具的作用TRS管理員是TRS信息發(fā)布檢索系統(tǒng)的客戶端管理工具,主要用于對各種TRS對象進(jìn)行管理、設(shè)計(jì)和維護(hù)等,并具備完整的檢索、瀏覽和維護(hù)功能。

啟動與退出[前提條件]

:TRS服務(wù)器處于啟動狀態(tài)雙擊桌面上“TRS管理員工具”圖標(biāo)輸入:

TRS服務(wù)器地址 端口號 用戶帳號名 口令字第一次進(jìn)入用系統(tǒng)默認(rèn)管理員帳號名(system)和口令字(manager)登錄可退出登錄并用其他用戶的身份重新登陸

用戶組:系統(tǒng)安裝時(shí),將自動創(chuàng)建兩個(gè)用戶組/用戶:administrator/system/和guest/pub。用戶:數(shù)據(jù)庫----相當(dāng)于關(guān)系型數(shù)據(jù)庫的一張表視圖(視圖字段):一個(gè)或幾個(gè)結(jié)構(gòu)完全相同的數(shù)據(jù)庫的集合,這樣可以提高查詢速度.視圖包含的數(shù)據(jù)庫均以AS$開頭;視圖包含的數(shù)據(jù)庫有順序,對視圖進(jìn)行裝庫,相當(dāng)于對最后一個(gè)數(shù)據(jù)庫裝庫;當(dāng)最后一個(gè)數(shù)據(jù)庫的記錄數(shù)超過設(shè)定值,視圖會自動創(chuàng)建一個(gè)新的庫。詞典:數(shù)據(jù)庫所用詞典,缺省為系統(tǒng)配置中的缺省分詞及停用詞典名。文件格式TRS基本概念:對象數(shù)據(jù)庫

數(shù)據(jù)庫是TRS系統(tǒng)中的主要數(shù)據(jù)對象,它物理地存儲了用戶加載到系統(tǒng)中的所有數(shù)據(jù)資料。每個(gè)TRS系統(tǒng)可管理多達(dá)數(shù)十億個(gè)數(shù)據(jù)庫。數(shù)據(jù)庫實(shí)際上是一個(gè)數(shù)據(jù)表,表的每一行是一個(gè)數(shù)據(jù)記錄,每一列則是一個(gè)數(shù)據(jù)字段,行列的交叉點(diǎn)即為字段值。

數(shù)據(jù)庫字段(1)TRS數(shù)據(jù)庫有六種類型的字段:

日期型(DATE)

;數(shù)值型(NUMBER);字符串型(CHAR)短語型(PHRASE);全文型(DOCUMENT);二進(jìn)制型(BIT)

我們可以對CHAR,DATE,NUMBER進(jìn)行字段級檢索,對PHRASE和DOCUMENT進(jìn)行全文檢索,但對BIT字段不進(jìn)行檢索,系統(tǒng)規(guī)定BIT字段始終不建索引。所有的查詢操作都是在一定的字段上進(jìn)行的。每個(gè)數(shù)據(jù)庫可定義1到1023個(gè)字段。

◎短語型字段(PHRASE)

可以用來存儲任何形式、任意長度的文本數(shù)據(jù),最適合作為“標(biāo)題”這樣的字段。短語型字段與字符串型字段的最大差別在于短語型字段支持自動分詞,而字符串型字段不支持自動分詞,其字段值整體是一個(gè)索引鍵值。主要特點(diǎn):沒有長度限制;沒有缺省值;沒有取值范圍;不允許多值;加載時(shí)不進(jìn)行字段值的唯一性檢查;加載時(shí)允許空值;允許建立索引;支持自動分詞,倒排索引屬性固定(只有位置);字段值必須是文本數(shù)據(jù);數(shù)據(jù)集中存儲。

數(shù)據(jù)庫字段(3)◎全文型字段(DOCMENT)

既可以用來存儲任何形式、任意長度的文本數(shù)據(jù),也可以用來存儲其它格式類型的多媒體數(shù)據(jù)。全文型字段區(qū)別于短語型字段的關(guān)鍵所在有三點(diǎn):

1、全文型字段的數(shù)據(jù)有多種存儲方式。系統(tǒng)通常是集中存儲短語型字段字段的數(shù)據(jù),而分類存儲全文型字段的數(shù)據(jù),這樣有助于提高大規(guī)模數(shù)據(jù)庫的檢索結(jié)果的概覽(不包括全文型字段和二進(jìn)制型字段)速度。

2、全文型字段的字段值可以附加一個(gè)源格式數(shù)據(jù)。

3、全文型字段的倒排索引屬性可以任意指定。

綜合起來,這類字段的主要特點(diǎn)是:沒有長度限制;沒有缺省值;

沒有取值范圍;不允許多值,但允許附加一個(gè)源格式數(shù)據(jù);加載時(shí)不進(jìn)行字段值的唯一性檢查;加載時(shí)允許空值;允許建立索引;支持自動分詞,倒排索引屬性可任意定義;字段值可以是多媒體數(shù)據(jù);數(shù)據(jù)有多種存儲方式。數(shù)據(jù)庫字段(4)◎二進(jìn)制型字段可以用來存儲任何格式類型的多媒體數(shù)據(jù),主要特點(diǎn)是:

沒有長度限制沒有缺省值沒有取值范圍允許多值加載時(shí)不進(jìn)行字段值的唯一性檢查加載時(shí)允許空值不建立索引字段值可以是任何多媒體數(shù)據(jù)數(shù)據(jù)有多種存儲方式數(shù)據(jù)庫字段(5)TRS標(biāo)準(zhǔn)裝庫文件格式數(shù)據(jù)記錄文件實(shí)際上是由一個(gè)或多個(gè)記錄數(shù)據(jù)組成的TRS置標(biāo)文本文件。每個(gè)記錄都以標(biāo)記“<REC>”開始,如下(其中n<=1023)<REC><字段名1>=字段值1……<字段名2>=字段值2……<字段名n>=字段值n……<REC><字段名1>=字段值1……<字段名2>=字段值2……<字段名n>=字段值n……可以在寫字板中或者trs管理員工具中直接編輯。創(chuàng)建數(shù)據(jù)文件多媒體格式文件的加載多媒體數(shù)據(jù)可加載到Document字段和Bit字段格式如:

<正文>=@c:\temp\test.doc^word<正文>=@c:\temp\test.xml^word<圖象>=@c:\temp\test.jpg^jpeg注意路徑設(shè)置:絕對路徑需要加@,相對路徑需要用磁盤共享或者FTP來實(shí)現(xiàn)?!咀ⅰ?/p>

對文本格式和HTML(XML)格式的數(shù)據(jù)入庫后可以直接進(jìn)行檢索。其他格式象word、pdf類型的數(shù)據(jù),需要使用后臺的OEM插件。(OEM配置見手冊)

主要功能:實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫向TRS全文檢索數(shù)據(jù)庫進(jìn)行數(shù)據(jù)遷移的工具。2023/2/6二、TRS全文檢索網(wǎng)關(guān)TRSGateWay使用例子 2、打開客戶端程序TrsAgentClient.EXE,選擇本地服務(wù)端口或遠(yuǎn)程服務(wù)端。TRSGateWay使用例子3、創(chuàng)建“RDBMS=>TRS”任務(wù)所謂“RDBMS=>TRS”任務(wù)就是將保存在RDBMS(ORACLE,SYBASE,DB2,SQLSERVER,MySQL,KBE)數(shù)據(jù)庫中的數(shù)據(jù)向TRS數(shù)據(jù)庫進(jìn)行遷移的任務(wù)。創(chuàng)建“RDBMS=>TRS”任務(wù)可以單擊“任務(wù)”菜單的“新建”->“RDBMS=>TRS”菜單項(xiàng),或單擊工具條上的“創(chuàng)建任務(wù)”的“RDBMS=>TRS”項(xiàng),又或先選中RDBMS圖標(biāo),鼠標(biāo)右鍵選擇新建。TRSGateWay使用例子創(chuàng)建“RDBMS=>TRS”任務(wù)共有五大步組成:第一步:登錄RDBMS數(shù)據(jù)庫

創(chuàng)建“RDBMS=>TRS”任務(wù)的第一步是登錄RDBMS數(shù)據(jù)庫。登錄RDBMS數(shù)據(jù)庫需要填寫的參數(shù)包括:服務(wù)器地址/服務(wù)名/數(shù)據(jù)庫名:指安裝RDBMS的服務(wù)器名,如果RDBMS是ORACLE的話,請?zhí)顚懕緳C(jī)CLIENT端設(shè)置的有效數(shù)據(jù)庫名。用戶名:指登錄RDBMS服務(wù)器的用戶名。密碼:指登錄RDBMS服務(wù)器的密碼。客戶端字符集:指RDBMS客戶端設(shè)置的字符集,需要正確選擇。

客戶端字符集的選擇會影響高級設(shè)置中原數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫的字符設(shè)置。如果在登錄過程中出現(xiàn)異常,請?jiān)谙逻叺臓顟B(tài)框中查看出錯(cuò)的原因。TRSGateWay使用例子

第二步:指定數(shù)據(jù)來源于RDBMS數(shù)據(jù)庫表或視圖

創(chuàng)建“RDBMS=>TRS”任務(wù)的第二步是指定數(shù)據(jù)來源。源為RDBMS數(shù)據(jù)庫時(shí),數(shù)據(jù)來源可以是RDBMS的一個(gè)表或一個(gè)視圖。選擇源數(shù)據(jù)庫

此選項(xiàng)只對SQLServer、Sybase、MySQL有意義,對其他數(shù)據(jù)庫將自動屏蔽。源為表

需要選擇表名。表名是由兩部分組成,第一部分是表空間,第二部分是表的名字。對于Sybase、MySQL而言,表名沒有第一部分。源為視圖

需要選擇源視圖,以及指定視圖所對應(yīng)的主表。對于Sybase、MySQL而言,表名沒有第一部分。主表的含義是如果針對視圖中的記錄選擇多值合并則根據(jù)主表中的主鍵來合并視圖中的記錄。“選擇條件”欄是指用戶可增加適當(dāng)?shù)募s束條件,用于檢索或過濾一定條件的記錄,在任務(wù)執(zhí)行時(shí)使用。內(nèi)容為where子句部分,但不需加上“where”字符,如只遷移公司名稱(對應(yīng)字段名COMPANY)為TRS的數(shù)據(jù)記錄,建立任務(wù)時(shí)填COMPANY=’TRS’即可。需要注意的是選擇條件中的SQL語句正確性要由用戶來保證。TRSGateWay使用例子第三步:指定RDBMS表或視圖的主鍵,并可進(jìn)行字段擴(kuò)展屬性設(shè)置。創(chuàng)建“RDBMS=>TRS”任務(wù)的第三步是指定RDBMS表或視圖的主鍵,該頁面在所有情況下均出現(xiàn)。數(shù)據(jù)源為RDBMS表

如果指定的數(shù)據(jù)源來自RDBMS表時(shí),系統(tǒng)將自動檢測該表在創(chuàng)建時(shí)是否設(shè)置了主鍵,如果設(shè)置了主鍵,則在主鍵下拉框中缺省顯示主鍵。在系統(tǒng)提示的指定主鍵列表中列出了指定的源數(shù)據(jù)庫表中所有可能成為主鍵的字段。可能成為主鍵的字段是指字段類型為NUMBER,CHAR,DATE,VARCHAR2的字段。數(shù)據(jù)源為RDBMS視圖

在系統(tǒng)提示的指定主鍵列表中列出了指定的源數(shù)據(jù)庫視圖中所有可能成為主鍵的字段??赡艹蔀橹麈I的字段是指字段類型為NUMBER,CHAR,DATE,VARCHAR2的字段。同時(shí)也要選擇與此對應(yīng)的主表的主鍵,因?yàn)橛行┮晥D可能會把主表的字段名重新命名,所以這里要有一個(gè)對應(yīng)關(guān)系存在。

需要注意的是:上一步操作,如果選擇操作對象為視圖時(shí),必須為視圖指定源表,也就是視圖的主表,當(dāng)建立增量更新任務(wù)時(shí),記錄任務(wù)更新的TRIGGER就創(chuàng)建在主表的主鍵上。在指定視圖主鍵時(shí),視圖的主鍵應(yīng)與視圖對應(yīng)的表列名相對應(yīng),否則會出現(xiàn)問題。另外如果要做全部更新的多線程任務(wù)則必須保證主鍵為NUMBER類型,任務(wù)的分段處理是以主鍵是數(shù)值為基礎(chǔ)的。TRSGateWay使用例子第四步:設(shè)置目標(biāo)數(shù)據(jù)庫創(chuàng)建“RDBMS=>TRS”任務(wù)的第四步是“設(shè)置目標(biāo)數(shù)據(jù)庫”。點(diǎn)選手工配置:1、填寫TRSSERVER相關(guān)鏈接信息。2、選擇創(chuàng)建庫或者使用已存在的庫。TRSGateWay使用例子第五步:設(shè)定同步方式,增量更新或者是全部更新。TRSGateWay實(shí)現(xiàn)說明1、實(shí)時(shí)更新監(jiān)控是基于關(guān)系數(shù)據(jù)庫的觸發(fā)器的。2、如果帶二位關(guān)系的數(shù)據(jù),請先將需要檢索的數(shù)據(jù)制作成一張視圖。使用GATEWAY工具來同步這張視圖。3、建立關(guān)系型數(shù)據(jù)庫視圖到TRS的增量更新任務(wù),如果視圖是多表聯(lián)立,非主表字段發(fā)生變化,網(wǎng)關(guān)無法進(jìn)行同步。用戶可根據(jù)項(xiàng)目特點(diǎn),適當(dāng)修改觸發(fā)器得以解決。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論