TRS全文檢索服務(wù)器_第1頁
TRS全文檢索服務(wù)器_第2頁
TRS全文檢索服務(wù)器_第3頁
TRS全文檢索服務(wù)器_第4頁
TRS全文檢索服務(wù)器_第5頁
已閱讀5頁,還剩229頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 全文檢索服務(wù)器 用 戶 手 冊 版本:v4.x 目目目 錄錄錄 關(guān)于本手冊關(guān)于本手冊.1 讀者對象.1 手冊組織.1 用戶反饋.2 聯(lián)系地址.3 第一部分 系統(tǒng)概述 第第 1 章章 基本概念基本概念.4 1.1 用戶組.4 1.2 用戶.5 1.3 數(shù)據(jù)庫.7 1.4 數(shù)據(jù)庫字段.11 1.5 視圖.14 1.6 視圖字段.15 1.7 數(shù)據(jù)格式.17 1.8 詞典.18 1.8.1 分詞詞典.20 1.8.2 附加分詞詞典.20 1.8.3 停用詞典.21 1.8.4 附加停用詞典.22 1.8.5 稀疏詞典.22 1.8.6 主題詞典.22 1.8.7 同義詞典.25 1.8.8 反義詞

2、典.25 1.8.9 其它詞典.26 第第 2 章章 字段與索引字段與索引.27 2.1 字段類型.27 2.1.1 日期型字段.27 2.1.2 數(shù)值型字段.28 2.1.3 字符串型字段.28 2.1.4 短語型字段.29 2.1.5 全文型字段.29 2.1.6 二進(jìn)制型字段.30 2.2 索引類型.30 2.3 索引策略.31 2.3.1 按詞索引策略.31 2.3.2 按字索引策略.32 2.3.3 按關(guān)鍵詞索引策略.32 2.3.4 二元組索引策略.33 第第 3 章章 權(quán)限權(quán)限.34 3.1 權(quán)限級別.34 3.1.1 用戶級權(quán)限.34 3.1.2 數(shù)據(jù)庫級權(quán)限.35 3.1.3

3、 字段級權(quán)限.36 3.1.4 記錄級權(quán)限.36 3.2 權(quán)限管理.37 3.3 權(quán)限檢查.38 3.3.1 用戶組操作.38 3.3.2 用戶操作.38 3.3.3 數(shù)據(jù)庫操作.38 3.3.4 數(shù)據(jù)庫字段操作.40 3.3.5 視圖操作.40 3.3.6 視圖字段操作.41 3.3.7 數(shù)據(jù)格式操作.42 3.3.8 詞典操作.42 第第 4 章章 數(shù)據(jù)庫加載與檢索數(shù)據(jù)庫加載與檢索.44 4.1 數(shù)據(jù)庫加載.44 4.2 數(shù)據(jù)庫檢索.44 4.2.1 運(yùn)算符.44 4.2.2 運(yùn)算符的等價關(guān)系.48 4.2.3 運(yùn)算符與字段的關(guān)系.49 4.2.4 統(tǒng)計(jì)函數(shù).51 4.2.5 檢索函數(shù).5

4、1 4.2.6 統(tǒng)計(jì)表達(dá)式.52 4.2.7 檢索表達(dá)式.53 4.2.8 檢索鍵值.55 4.2.9 特殊鍵值.59 第第 5 章章 系統(tǒng)配置系統(tǒng)配置.60 5.1 物理內(nèi)存數(shù).60 5.2 用戶實(shí)例最大空閑時間.60 5.3 用戶實(shí)例最小空閑時間.61 5.4 檢索超時時間.61 5.5 檢索結(jié)果記錄的排序限制.61 5.6 最大檢索歷史步數(shù).62 5.7 最大下載結(jié)果記錄數(shù).62 5.8 空閑狀態(tài)起止始時間.62 5.9 缺省數(shù)據(jù)庫屬性.63 5.10 缺省知識詞典集 .63 5.11 數(shù)據(jù)庫路徑集 .63 5.12 缺省數(shù)據(jù)庫備份設(shè)備 .63 5.13 臨時文件存放路徑 .63 第二部

5、分 系統(tǒng)安裝 第第 6 章章 服務(wù)器服務(wù)器在在 windows 下的安裝下的安裝 .67 6.1 trs 服務(wù)器目錄結(jié)構(gòu).67 6.2 安裝前的準(zhǔn)備工作.71 6.2.1 軟件及硬件環(huán)境.71 6.2.2 確認(rèn)安裝方式.71 6.3 安裝步驟.72 6.4 安裝后的工作.77 6.4.1 啟動服務(wù)器.77 6.4.2 關(guān)閉服務(wù)器.79 6.4.3 服務(wù)器升級.80 6.5 安裝失敗后的處理.81 6.5.1 安裝失敗的原因及解決方法.81 6.5.2 安裝失敗后的清理工作.81 第第 7 章章 服務(wù)器在服務(wù)器在 unix 下的安裝下的安裝.82 7.1 trs 服務(wù)器目錄結(jié)構(gòu).82 7.2 安

6、裝前的準(zhǔn)備工作.85 7.2.1 軟件及硬件環(huán)境.85 7.2.2 確定服務(wù)器的用戶帳號.86 7.2.3 確認(rèn)安裝方式.86 7.3 安裝步驟.87 7.4 安裝后的工作.89 7.4.1 啟動服務(wù)器.89 7.4.2 關(guān)閉服務(wù)器.90 7.4.3 服務(wù)器升級.91 7.5 安裝失敗后的處理.92 7.5.1 安裝失敗的原因及解決方法.92 7.5.2 安裝失敗后的清理工作.92 第第 8 章章 管理員工具的安裝管理員工具的安裝.93 8.1 trs 管理員簡介 .93 8.2 trs 管理員的目錄結(jié)構(gòu) .93 8.3 系統(tǒng)安裝要求.94 8.4 安裝過程.94 8.5 卸載過程.99 8.

7、6 安裝過程中的問題.100 第第 9 章章 關(guān)于數(shù)據(jù)鏡像模塊關(guān)于數(shù)據(jù)鏡像模塊.101 9.1 功能描述.101 9.2 實(shí)施準(zhǔn)備.102 9.2.1 主節(jié)點(diǎn)的準(zhǔn)備工作.102 9.2.2 子節(jié)點(diǎn)的準(zhǔn)備工作.102 9.3 鏡像初始化.102 9.3.1 手工初始化.103 9.3.2 自動初始化.103 9.4 鏡像的運(yùn)行.103 9.5 新增鏡像的子節(jié)點(diǎn).104 9.6 新增鏡像的數(shù)據(jù)庫.104 9.7 當(dāng)鏡像數(shù)據(jù)庫被破壞時.104 第第 10 章章 服務(wù)器工具服務(wù)器工具.105 10.1 服務(wù)器管理員.105 10.1.1 指定與服務(wù)器連接的端口號.105 10.1.2 列出服務(wù)器中所有

8、在線客戶端的信息.106 10.1.3 強(qiáng)制清除指定的用戶實(shí)例.106 10.1.4 獲取系統(tǒng)超級用戶的口令.106 10.1.5 刷新日志緩沖區(qū).107 10.1.6 在線備份服務(wù)器系統(tǒng).107 10.1.7 恢復(fù)服務(wù)器系統(tǒng).107 10.2 數(shù)據(jù)庫加載工具.107 10.2.1 指定與服務(wù)器連接的端口號.108 10.2.2 命令開關(guān)選項(xiàng).108 10.2.3 指定目標(biāo)數(shù)據(jù)庫.109 10.2.4 指定源數(shù)據(jù)文件.109 10.2.5 指定控制文件.109 第第 11 章章 配置文件配置文件.110 11.1 服務(wù)器運(yùn)行參數(shù)配置文件.110 11.2 服務(wù)器數(shù)據(jù)鏡像配置文件.122 11.

9、3 插件配置文件.125 第三部分 數(shù)據(jù)庫加載格式規(guī)范 第第 12 章章 準(zhǔn)備加準(zhǔn)備加載載.131 12.1 數(shù)據(jù)庫的準(zhǔn)備.131 12.2 準(zhǔn)備加載文件.132 第第 13 章章 數(shù)據(jù)文件數(shù)據(jù)文件.134 13.1 trs 格式文件 .134 13.1.1 標(biāo)準(zhǔn)格式.135 13.1.2 字段內(nèi)部標(biāo)識號標(biāo)記格式.139 13.1.3 字段順序號標(biāo)記格式.141 13.1.4 無字段標(biāo)記格式.142 13.1.5 全文格式.143 13.1.6 注釋信息.144 13.1.7 標(biāo)記引導(dǎo)符前綴.145 13.2 國際標(biāo)準(zhǔn)格式.147 13.2.1 iso2709 記錄格式.147 13.2.2

10、xml 記錄格式.148 13.3 批處理數(shù)據(jù)文件.150 第第 14 章章 加載多媒體數(shù)據(jù)加載多媒體數(shù)據(jù).152 14.1 加載 document 字段的多媒體數(shù)據(jù).152 14.1.1 數(shù)據(jù)格式控制符.153 14.1.2 存儲方式控制符.154 14.1.3 加載格式說明.155 14.2 加載 bit 字段的多媒體數(shù)據(jù) .157 14.3 應(yīng)用舉例.158 第第 15 章章 控制文件控制文件.160 15.1 控制文件的格式.160 15.2 控制文件的變量.160 15.2.1 record_file_format.162 15.2.2 bit_format_default.162

11、15.2.3 html_base_default.162 15.2.4 data_path_default.163 15.2.5 date_century_default.163 15.2.6 ignore_record_crypt.163 15.2.7 file_suffix_prior.164 15.2.8 sync_create_index .164 15.2.9 class_bit_store .164 15.2.10 class_document_store.165 15.2.11 waive_document_affix .165 15.2.12 waive_oemfilter_t

12、ext.166 15.2.13 keep_text_actual.166 15.2.14 check_text_iterative .166 15.2.15 multi_value_separater.167 15.2.16 section_tag_prefix.167 15.2.17 start_record_from.167 15.2.18 process_record_number .168 15.2.19 max_commit_number.168 15.2.20 max_error_number.168 15.2.21 column_name_sequence.168 15.2.22

13、 xml_segment_mark.169 15.2.23 xml_newline_mark.170 15.2.24 xml_hitshow_mark.170 15.2.25 xml_filter_cdata.171 15.2.26 xml_overwrite_pi.172 15.3 控制文件舉例.173 第第 16 章章 日期的入庫格式日期的入庫格式.174 第第 17 章章 詞典的加載詞典的加載.177 附錄附錄 a trs 保留字保留字 .180 附錄附錄 b trs 錯誤信息錯誤信息.182 1. 系統(tǒng)調(diào)用錯誤表(17000 17399).182 2. 虛擬平臺模塊錯誤表(17400

14、17499).186 3. 網(wǎng)絡(luò)調(diào)用錯誤表(17500 17999).188 4. 數(shù)據(jù)庫索引模塊錯誤表(18000 18499).190 5. 數(shù)據(jù)庫檢索模塊錯誤表(18500 18899).192 6. 分詞系統(tǒng)錯誤表(18900 18999).193 7. 遠(yuǎn)過程調(diào)用錯誤表(19000 19499).194 8. 系統(tǒng) key 錯誤表(19500 19999).194 9. 數(shù)據(jù)詞典模塊錯誤表(20000 20999).194 10. 應(yīng)用程序接口錯誤表(21000 21999).200 11. 命令語言錯誤表(22000 22999).201 附錄附錄 c win32 錯誤信息錯誤信息

15、.203 關(guān)關(guān)關(guān)于于于本本本手手手冊冊冊 本手冊介紹的主要內(nèi)容可以分為以下各個部分。第一部分介紹 trs 全文檢索 服務(wù)器主要特點(diǎn)、trs 中各對象的定義和作用、trs 的體系結(jié)構(gòu),第二部分介紹了 trs 全文檢索服務(wù)器和管理員工具(客戶機(jī))的在安裝前的準(zhǔn)備工作、具體的安裝 步驟,以及安裝后的工作,第三部分介紹在 trs 數(shù)據(jù)庫加載前組織各種數(shù)據(jù)文件 所必須遵循的格式規(guī)范。本手冊沒有涉及任何 trs 工具的使用方法和 trs 數(shù)據(jù)庫 加載工具的使用方法,是一個了解 trs 概念和 trs 全文檢索服務(wù)器的說明性手冊。 讀者對象 本手冊的讀者為 trs 系統(tǒng)安裝人員、trs 系統(tǒng)管理員,以及任何

16、希望對 trs 系統(tǒng)有一個全面深入詳細(xì)了解的 trs 用戶。 手冊組織 本手冊的內(nèi)容由三部分組成,第一部分:系統(tǒng)概述;第二部分:系統(tǒng)安裝;第 三部分:數(shù)據(jù)庫加載格式規(guī)范。具體組織如下: 第 1 章基本概念 第 2 章字段與索引 第 3 章權(quán)限 第 4 章數(shù)據(jù)加載與檢索 第 5 章系統(tǒng)配置 第 6 章服務(wù)器在 windows 下的安裝 第 7 章服務(wù)器在 unix 系統(tǒng)下的安裝 第 8 章管理員工具的安裝 第 9 章關(guān)于數(shù)據(jù)鏡像模塊 第 10 章 服務(wù)器工具 第 11 章 配置文件 第 12 章 準(zhǔn)備加載 第 13 章 數(shù)據(jù)文件 第 14 章 加載多媒體數(shù)據(jù) 第 15 章 控制文件 第 16 章

17、 日期的入庫格式 第 17 章 詞典的加載 附錄 a trs 保留字 附錄 b trs 錯誤信息 附錄 c win32 錯誤信息 用戶反饋 trs 公司感謝您使用 trs 產(chǎn)品。如果您發(fā)現(xiàn)本手冊中有錯誤或者產(chǎn)品運(yùn)行不 正確,或者您對本手冊有任何意見和建議,請及時與 trs 公司聯(lián)系。您的意見將 是我們做版本修訂時的重要依據(jù)。 聯(lián)系地址 trs 總部總部 營銷服務(wù)中心:營銷服務(wù)中心: 北京市海淀區(qū)花園東路 10 號高德大廈 401 室 郵編:100083 電話傳真email: 產(chǎn)品研發(fā)中心:產(chǎn)品研發(fā)中心: 北京 北四環(huán)中路 35 號健翔橋

18、北京信息工程學(xué)院圖書館三層 郵編:100101 電話傳真email: 上海分公司上海分公司 上海市成都北路 333 號 招商局廣場南樓 1505 室 郵編:200041 電話08 傳真email: 廣州分公司廣州分公司 廣州市先烈路 76 號 中僑大廈 16 層 h 室 郵編:510070 電話傳真email: 成都辦事處成都辦事處 成都市洗面橋街 29 號四川咨詢產(chǎn)業(yè)大廈 1309 室 郵編:610041 電話:028-855

19、33146 傳真email: website:. 第一部分 系統(tǒng)概述 第第第 1 1 1 章章章 基基基本本本概概概念念念 trs 系統(tǒng)中的對象包括: 用戶組 用戶 數(shù)據(jù)庫 數(shù)據(jù)庫字段 視圖 視圖字段 數(shù)據(jù)格式 詞典 所有這些對象都具有一致的命名規(guī)則: 對象名可以是中文,英文或中英文的組合,最長為 31 個字符。 對象名內(nèi)英文字母的大小寫無關(guān)。 對象名只能包括 a-z,a-z,0-9,_,或漢字。 除數(shù)據(jù)格式外,對象名不能是 trs 保留字(關(guān)鍵詞)。 同一屬域內(nèi)的對象不能重名。 第 1 章 基本概念 第 2 章 字段與索引 第 3 章 權(quán)限 第 4 章 數(shù)據(jù)加載與

20、檢索 第 5 章 系統(tǒng)配置 1.1 用戶組 trs 具有獨(dú)立于操作系統(tǒng)的用戶組管理機(jī)制。用戶組的設(shè)立,使得系統(tǒng)對數(shù)據(jù) 的安全控制更加完善,也更加簡單方便。每個 trs 系統(tǒng)可支持多達(dá) 65535 個用戶 組。 用戶組對象具有下列屬性: 名稱名稱 名稱是 trs 用戶組對象名,即用戶組名。用戶組名與用戶組名之間,以及用 戶組名與用戶名之間不能重復(fù)。 注釋信息注釋信息 注釋信息是對 trs 用戶組對象進(jìn)行說明的信息。 系統(tǒng)安裝時,將自動創(chuàng)建兩個用戶組:administrator 和 guest。系統(tǒng)還 有一個匿名用戶組。 1.2 用戶 trs 具有獨(dú)立于操作系統(tǒng)的用戶管理機(jī)制。要訪問 trs 系統(tǒng)

21、,必須首先申請 一個用戶帳號。用戶帳號是實(shí)現(xiàn)系統(tǒng)及數(shù)據(jù)安全的主要手段,也是系統(tǒng)記費(fèi)的主要 依據(jù)。每個 trs 系統(tǒng)可支持多達(dá) 65535 個用戶。 用戶對象具有下列屬性: 名稱名稱 名稱是 trs 用戶對象名,即用戶帳號名,也就是用戶名。用戶名與用戶名之 間,以及用戶名與用戶組名之間不能重復(fù)。 登錄口令登錄口令 登錄口令是該用戶登錄到 trs 系統(tǒng)時必須輸入的口令。設(shè)置登錄口令的目的 主要是為了保證用戶帳號的私用性。 登錄互斥開關(guān)登錄互斥開關(guān) 登錄互斥開關(guān)決定該用戶是否允許同時從多個不同的 ip 地址進(jìn)行登錄。 密級密級 密級定義了該用戶在 trs 系統(tǒng)的接觸機(jī)密數(shù)據(jù)的級別。數(shù)值越小,級別越高

22、。 對于數(shù)據(jù)庫中使用密級加密的數(shù)據(jù)記錄,只有當(dāng)用戶的密級值不大于記錄的密 級值時,才能看到該記錄的內(nèi)容。 類型類型 用戶的類型實(shí)際上是用戶在 trs 系統(tǒng)中的權(quán)限級別。trs 系統(tǒng)有四種用戶類 型: 系統(tǒng)數(shù)據(jù)庫管理員(dba) 用戶組數(shù)據(jù)庫管理員(gda) 系統(tǒng)資源用戶(resource) 系統(tǒng)登錄用戶(connect) 所屬用戶組所屬用戶組 即該用戶所在的用戶組。用戶也可屬于匿名用戶組。 最大檢索歷史步數(shù)最大檢索歷史步數(shù) 最大檢索歷史步數(shù)是指用戶在進(jìn)行數(shù)據(jù)庫查詢時,需要保存的最大檢索歷史步 數(shù)。保存的檢索歷史可以在以后檢索中直接引用,而不需要重新檢索。 最大下載記錄數(shù)最大下載記錄數(shù) 最大下載

23、記錄數(shù)是指用戶在進(jìn)行數(shù)據(jù)庫查詢時,允許一次下載的最大檢索結(jié)果 記錄數(shù)。 缺省附加分詞詞典缺省附加分詞詞典 該用戶在創(chuàng)建數(shù)據(jù)庫時,如果數(shù)據(jù)庫的附加分詞詞典指定為缺省值,則系統(tǒng)自 動為數(shù)據(jù)庫指定這里所給出的附加分詞詞典。 缺省附加停用詞典缺省附加停用詞典 該用戶在創(chuàng)建數(shù)據(jù)庫時,如果數(shù)據(jù)庫的附加停用詞典指定為缺省值,則系統(tǒng)自 動為數(shù)據(jù)庫指定這里所給出的附加停用詞典。 缺省稀疏詞典缺省稀疏詞典 該用戶在創(chuàng)建數(shù)據(jù)庫時,如果數(shù)據(jù)庫的稀疏詞典指定為缺省值,則系統(tǒng)自動為 數(shù)據(jù)庫指定這里所給出的稀疏詞典。 注釋信息注釋信息 注釋信息是對 trs 用戶對象進(jìn)行說明的信息。 系統(tǒng)安裝時,將自動創(chuàng)建兩個用戶:syst

24、em 和 pub。 system 是 trs 系統(tǒng)的超級用戶,其主要特征有: 是 dba 用戶。 屬于 administrator 用戶組。 不能被注銷。 不能修改名稱。 可由自己修改口令。 可創(chuàng)建和注銷其它任何用戶。 可清除任何用戶的口令。 可修改任何用戶的除口令以外的任何屬性。 可授予或收回任何用戶的任何權(quán)限。 pub 是 trs 系統(tǒng)的一個公共用戶,其只要特征有: 是 connect 用戶。 屬于 guest 用戶組。 不能修改名稱。 沒有口令,也不允許設(shè)置口令。 可被 system 用戶注銷。 對 trs 系統(tǒng)數(shù)據(jù)對象的操作,必須通過相關(guān)的權(quán)限檢查。 trs 用戶還有其它一些特點(diǎn): 每

25、一個用戶組中允許有多個 dba 用戶。 每一個用戶組中允許有多個 gda 用戶。 任何用戶可修改“自己”的某些屬性,這些屬性包括: 登錄口令 登錄互斥開關(guān) 最大檢索歷史步數(shù) 缺省附加分詞詞典 缺省附加停用詞典 缺省稀疏詞典 注釋信息 其它項(xiàng)只能由 system 用戶管理。 1.3 數(shù)據(jù)庫 數(shù)據(jù)庫是 trs 系統(tǒng)中的主要數(shù)據(jù)對象,它物理地存儲了用戶加載到系統(tǒng)中的 所有數(shù)據(jù)資料。每個 trs 系統(tǒng)可管理多達(dá)數(shù)十億個數(shù)據(jù)庫。數(shù)據(jù)庫實(shí)際上是一個 物理數(shù)據(jù)表,表的每一行是一個數(shù)據(jù)記錄,每一列則是一個數(shù)據(jù)字段,行與列的交 叉點(diǎn)即為字段值。 數(shù)據(jù)庫的規(guī)模主要指兩個方面:能夠容納的最大記錄數(shù)和數(shù)據(jù)庫文件的最大

26、容 量。一個數(shù)據(jù)庫的最大記錄數(shù)取決于操作系統(tǒng)的位數(shù)和 trs 所采用的文件系統(tǒng)的 位數(shù):在 32 位文件系統(tǒng)中,最多可容納 4 億多條記錄,而在 64 位文件系統(tǒng)中,如 果是 32 位操作系統(tǒng),則最多可容納 20 多億條記錄,如果是 64 位操作系統(tǒng),則最 多可容納 40 多億條記錄。制約數(shù)據(jù)庫文件最大容量的唯一因素是文件系統(tǒng)的位數(shù), 如果 trs 采用了 32 位文件系統(tǒng),則單個文件的大小不能超過 2g 字節(jié)(nt 平臺不 能超過 4g 字節(jié)) ,但如果采用 64 位文件系統(tǒng),則單個文件的容量實(shí)際上沒有限制。 操作系統(tǒng)與文件系統(tǒng)的位數(shù)沒有必然的聯(lián)系,許多操作系統(tǒng)與文件系統(tǒng)的位數(shù)沒有必然的聯(lián)系

27、,許多 32 位操作系統(tǒng)都支持位操作系統(tǒng)都支持 64 位文件位文件 系統(tǒng)系統(tǒng),如 win32、linux、solaris 等,所以在 32 位操作系統(tǒng)上,trs 也盡可能地 采用 64 位文件系統(tǒng)。 每個記錄的最大長度為每個記錄的最大長度為 256m 字節(jié),每個字段值的最大長度為字節(jié),每個字段值的最大長度為 16m 字節(jié)(但字節(jié)(但 以獨(dú)立文件方式,即以獨(dú)立文件方式,即 alone 方式存儲的字段值的長度不受此限制)方式存儲的字段值的長度不受此限制) 。但在實(shí)際中, 如果一個記錄(或字段值)太長,會引起操作系統(tǒng)忙于虛擬內(nèi)存的交換,使機(jī)器性 能急劇下降,所以系統(tǒng)人為地限制一個記錄的最大長度為機(jī)器

28、物理內(nèi)存兆字節(jié)數(shù)的 64 的倍數(shù)(最小為 1)兆字節(jié),如物理內(nèi)存為 128m,則允許的最大記錄長度為 2m 字節(jié)。 數(shù)據(jù)庫對象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)庫的對象名,即數(shù)據(jù)庫名,是訪問、維護(hù)和管理該數(shù)據(jù)庫的 入口。數(shù)據(jù)庫名不能與屬于同一用戶的其它數(shù)據(jù)庫、視圖以及各種詞典同名。 別名 別名是該數(shù)據(jù)庫名的別稱,一般是為了方便使用而給出的數(shù)據(jù)庫名的縮寫,或 其英文名稱。數(shù)據(jù)庫別名與數(shù)據(jù)庫名具有同等的地位。一個數(shù)據(jù)庫可以定義多 個別名。 所有者所有者 所有者表明哪個用戶擁有該數(shù)據(jù)庫。所有者與名稱(別名)唯一確定一個數(shù)據(jù) 庫對象。所有者對該數(shù)據(jù)庫能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制

29、的制 約。 缺省檢索字段缺省檢索字段 缺省檢索字段是指在對該數(shù)據(jù)庫進(jìn)行查詢時,檢索表達(dá)式中沒有明確指定檢索 目標(biāo)字段的子表達(dá)式所默認(rèn)的目標(biāo)字段。 分詞詞典分詞詞典 分詞詞典是該數(shù)據(jù)庫按詞索引時所引用的詞典。如果不為數(shù)據(jù)庫指定分詞詞典, 則該數(shù)據(jù)庫將按字索引。 附加分詞詞典附加分詞詞典 附加分詞詞典是該數(shù)據(jù)庫按詞索引時所引用的擴(kuò)充詞典。 停用詞典停用詞典 停用詞典是該數(shù)據(jù)庫按詞索引時所引用的不允許索引的詞典。 附加停用詞典附加停用詞典 附加停用詞典是該數(shù)據(jù)庫按詞索引時所引用的不允許索引的擴(kuò)充詞典。 稀疏詞典稀疏詞典 稀疏詞典該數(shù)據(jù)庫按詞索引時所引用的允許索引的詞典。如果不為數(shù)據(jù)庫指定 稀疏詞典,

30、則該數(shù)據(jù)庫索引所有不屬于停用詞典和附加停用詞典中的詞匯。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對該數(shù)據(jù)庫所擁有的權(quán)限。對數(shù)據(jù)庫 可設(shè)置的公共訪問權(quán)限共有五種: 記錄檢索權(quán) 數(shù)據(jù)更新權(quán) 數(shù)據(jù)索引權(quán) 數(shù)據(jù)庫結(jié)構(gòu)修改權(quán) 數(shù)據(jù)庫刪除權(quán) 詞根索引開關(guān)詞根索引開關(guān) 詞根索引開關(guān)決定數(shù)據(jù)庫的短語型和全文型字段數(shù)據(jù)中的英文串是否按詞根進(jìn) 行索引。如果設(shè)置該開關(guān),則索引不區(qū)分大小寫。 大小寫敏感開關(guān)大小寫敏感開關(guān) 大小寫敏感開關(guān)決定數(shù)據(jù)庫的字符型、短語型和全文型字段數(shù)據(jù)中的英文串是 否區(qū)分大小寫進(jìn)行索引。 數(shù)字索引開關(guān)數(shù)字索引開關(guān) 數(shù)字索引開關(guān)決定數(shù)據(jù)庫的短語型和全文型字段數(shù)據(jù)中的

31、數(shù)詞是否進(jìn)行索引。 二元組索引開關(guān)二元組索引開關(guān) 二元組索引開關(guān)決定數(shù)據(jù)庫的短語型和全文型字段是否建立二元組索引。 壓縮索引開關(guān)壓縮索引開關(guān) 壓縮索引開關(guān)決定數(shù)據(jù)庫是否建立壓縮索引。不壓縮索引時,索引與檢索速度 會稍有提高,但空間膨脹率會顯著增大,所以在實(shí)際使用時總是壓縮索引,以 獲得較好的時空比。 數(shù)據(jù)字符集數(shù)據(jù)字符集 數(shù)據(jù)字符集是指存儲在數(shù)據(jù)庫中的非英文數(shù)據(jù)所使用的字符集。trs 系統(tǒng)支持 的字符集有: 簡體中文(gb2312、gbk、gb18030) 繁體中文(big5) 純英文(english) 數(shù)據(jù)宿主系統(tǒng)數(shù)據(jù)宿主系統(tǒng) 有一類應(yīng)用:trs 系統(tǒng)只管理和維護(hù)索引,而數(shù)據(jù)存儲在其它系統(tǒng)中

32、。數(shù)據(jù)宿 主系統(tǒng)就是用來描述存儲數(shù)據(jù)的系統(tǒng)的信息。描述信息對 trs 沒有實(shí)際的意 義,如果數(shù)據(jù)庫沒有數(shù)據(jù)宿主系統(tǒng),則 trs 系統(tǒng)負(fù)責(zé)管理數(shù)據(jù)庫的數(shù)據(jù)。 數(shù)據(jù)存放路徑數(shù)據(jù)存放路徑 數(shù)據(jù)存放路徑指明數(shù)據(jù)庫數(shù)據(jù)文件的存儲目錄。 注釋信息注釋信息 注釋信息是對 trs 數(shù)據(jù)庫對象進(jìn)行說明的信息。 在定義數(shù)據(jù)庫時,對每一個屬性都必須給出其正確取值。在數(shù)據(jù)庫加載之前, 對數(shù)據(jù)庫的屬性可以進(jìn)行任意修改。 在加載了數(shù)據(jù)后,下列屬性不再允許修改: 數(shù)據(jù)字符集 數(shù)據(jù)宿主系統(tǒng) 數(shù)據(jù)存放路徑 當(dāng)創(chuàng)建了索引后,下列屬性不再允許修改: 分詞詞典 附加分詞詞典 停用詞典 附加停用詞典 稀疏詞典 缺省檢索字段 詞根索引開

33、關(guān) 大小寫敏感開關(guān) 數(shù)字索引開關(guān) 二元組索引開關(guān) 壓縮索引開關(guān) 1.4 數(shù)據(jù)庫字段 數(shù)據(jù)庫字段是 trs 系統(tǒng)對不同數(shù)據(jù)類型進(jìn)行存儲和管理的主要依據(jù),也是對 數(shù)據(jù)庫進(jìn)行查詢的唯一入口,所有的查詢操作都是在一定的字段上進(jìn)行的。每個數(shù) 據(jù)庫可定義 1 到 1023 個字段。 數(shù)據(jù)庫字段對象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)庫字段的對象名,即字段名,是訪問、維護(hù)和管理該數(shù)據(jù)庫 字段的入口。字段名不能與同一數(shù)據(jù)庫中的其它字段同名。 別名別名 別名是該字段名的別稱,一般是為了方便使用而給出的字段名的縮寫,或其英 文名稱。字段別名與字段名具有同等的地位。一個字段可以定義多個別名。 所屬數(shù)據(jù)庫所

34、屬數(shù)據(jù)庫 所屬數(shù)據(jù)庫指示該字段是哪個數(shù)據(jù)庫的字段。所屬數(shù)據(jù)庫與名稱(別名)唯一 確定一個數(shù)據(jù)庫字段對象。 數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)類型即字段類型,它決定了該字段所能存儲的數(shù)據(jù)類型。trs 能夠存儲和 索引六種類型的數(shù)據(jù): 日期型(date) 數(shù)值型(number) 字符串型(char) 短語型(phrase) 全文型(document) 二進(jìn)制型(bit) 缺省字段值缺省字段值 缺省字段值是指在數(shù)據(jù)庫加載時,對于未給出字段值的 date、number 或 char 型字段所對應(yīng)的缺省取值。 字段值格式字段值格式 該屬性對于不同的字段類型有不同的意義: 對于 char 型字段,字段值格式是指數(shù)據(jù)庫

35、加載時,給出的字段值所必 須遵循的格式。 對于 date 和 number 型字段,字段值格式是指輸出字段值時使用的格 式,并且由外部完成字段值的格式化。 對于其他類型的字段,該屬性沒有意義。 字段值范圍字段值范圍 字段值范圍是指在加載數(shù)據(jù)時,date、number 或 char 型字段的合法取 值的集合。 字段顯示名字段顯示名 字段顯示名是在用戶界面上該字段的對應(yīng)名字。 顯示區(qū)寬度顯示區(qū)寬度 顯示區(qū)寬度是字段值在用戶界面上顯示區(qū)域的缺省寬度單位數(shù)。 顯示區(qū)高度顯示區(qū)高度 顯示區(qū)高度是字段值在用戶界面上顯示區(qū)域的缺省高度單位數(shù)。 公共查詢開關(guān)公共查詢開關(guān) 公共查詢開關(guān)決定是否允許 trs 系統(tǒng)

36、中的所有用戶在該字段上進(jìn)行查詢。 禁止索引開關(guān)禁止索引開關(guān) 禁止索引開關(guān)決定該字段是否建立索引。bit 字段始終不建索引。 多值允許開關(guān)多值允許開關(guān) 多值允許開關(guān)決定在一個記錄中該字段是否允許存在多個值。phrase 和 document 字段始終不允許多個字段值。 值唯一性開關(guān)值唯一性開關(guān) 值唯一性開關(guān)決定在數(shù)據(jù)庫的所有記錄中,該字段(date、number 或 char 型字段)是否允許出現(xiàn)重復(fù)的字段值。 空值禁止開關(guān)空值禁止開關(guān) 空值禁止開關(guān)決定在一個記錄中該字段(date、number 或 char 型字段) 是否允許沒有字段值。 最大長度或精度最大長度或精度 該屬性對于不同的字段類型

37、有不同的意義: 對于 char 型字段,該屬性表示單個字段值的最大取值長度,超過規(guī)定 長度的字符將被忽略。字符串型單個字段值的最大長度是字符串型單個字段值的最大長度是 255 個字節(jié)個字節(jié)。 對于 number 型字段,該屬性表示字段值的小數(shù)位精度,或整數(shù)位的位 數(shù)。支持三種子類型,具體如下: 限定值限定值說明說明 0 6數(shù)據(jù)為小數(shù)位精度為 0 到 6 位的實(shí)數(shù)。 限定值即為小數(shù)位的精度。 表示范圍是 32 位二進(jìn)制單精度浮點(diǎn)數(shù)。表示整數(shù)時可確保 7 位十位十 進(jìn)制有符號整數(shù)進(jìn)制有符號整數(shù),即:9999999。 100 114數(shù)據(jù)為小數(shù)位精度為 0 到 14 位的實(shí)數(shù)。 限定值減去 100 后

38、,即為小數(shù)位的精度。 表示范圍是 64 位二進(jìn)制雙精度浮點(diǎn)數(shù)。表示整數(shù)時可確保 15 位位 十進(jìn)制有符號整數(shù)十進(jìn)制有符號整數(shù),即:999999999999999。 32數(shù)據(jù)為 0 到 32 位十進(jìn)制有符號整數(shù)位十進(jìn)制有符號整數(shù)。 表示范圍是:99999999999999999999999999999999。 對于其他類型的字段,該屬性沒有意義。 索引屬性索引屬性 索引屬性是指 document 字段的倒排索引項(xiàng)所包含的索引屬性名表。trs 系統(tǒng)支持的倒排索引屬性包括: 段落(seg) 句子(sen) 位置(pos) 在指定 document 字段的倒排索引屬性名表時,可以使用其中之一,或者 多

39、個的組合。 索引存放路徑索引存放路徑 索引存放路徑指明該字段的索引文件的存儲目錄。 注釋信息注釋信息 注釋信息是對 trs 數(shù)據(jù)庫字段對象進(jìn)行說明的信息。 在定義數(shù)據(jù)庫字段時,對每一個屬性都必須給出其正確取值。在數(shù)據(jù)庫加載之 前,對數(shù)據(jù)庫字段的屬性可以進(jìn)行任意修改。 在加載了數(shù)據(jù)后,下列屬性不再允許修改: 數(shù)據(jù)類型 缺省字段值 字段值格式 字段值范圍 多值允許開關(guān) 值唯一性開關(guān) 空值禁止開關(guān) 最大長度或精度 當(dāng)創(chuàng)建了索引后,下列屬性不再允許修改: 禁止索引開關(guān) 索引屬性 索引存放路徑 除了可定義的字段外,每個數(shù)據(jù)庫都有一個固定的名為 docid 的邏輯字段。 該字段的內(nèi)容是數(shù)據(jù)庫記錄的物理記錄

40、號,可用來查詢數(shù)據(jù)庫記錄。一個記錄加載 到數(shù)據(jù)庫以后就有了一個唯一的物理記錄號,除非對該記錄進(jìn)行修改,其值將始終 保持不變。 1.5 視圖 視圖是 trs 系統(tǒng)中的一種輔助數(shù)據(jù)對象。trs 系統(tǒng)支持對數(shù)據(jù)庫記錄和字段 進(jìn)行直接的授權(quán)機(jī)制來實(shí)現(xiàn)數(shù)據(jù)的安全保密性控制,但有時顯得有些煩瑣。通過視 圖來限制某些用戶對數(shù)據(jù)庫字段和記錄的查詢,就可以用一種簡便的方式間接地完 成對數(shù)據(jù)庫記錄和字段查詢權(quán)的控制。 視圖實(shí)際上是一個邏輯數(shù)據(jù)表,它是邏輯地從一個或多個數(shù)據(jù)庫中抽取一個或 多個字段并滿足指定條件的記錄。視圖并不物理地存儲數(shù)據(jù),只是描述了組成該視 圖的數(shù)據(jù)所遵循的邏輯。每個 trs 系統(tǒng)可管理多達(dá)數(shù)十

41、億個視圖,每個視圖中可 包含 1 到 128 個數(shù)據(jù)庫。 視圖對象具有下列屬性: 名稱名稱 名稱是 trs 視圖的對象名,即視圖名,是訪問、維護(hù)和管理該視圖的入口。 視圖名不能與屬于同一用戶的其它視圖、數(shù)據(jù)庫以及各種詞典同名。 別名別名 別名是該視圖名的別稱,一般是為了方便使用而給出的視圖名的縮寫,或其英 文名稱。視圖別名與視圖名具有同等的地位。一個視圖可以定義多個別名。 所有者所有者 所有者表明哪個用戶擁有該視圖。所有者與名稱(別名)唯一確定一個視圖對 象。所有者對該視圖能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制的制約。 缺省檢索字段缺省檢索字段 缺省檢索字段是指在對該視圖進(jìn)行查詢時,檢索表達(dá)

42、式?jīng)]有明確指定檢索目標(biāo) 字段的子表達(dá)式所默認(rèn)的目標(biāo)字段。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對該視圖所擁有的權(quán)限。對視圖可設(shè) 置的公共訪問權(quán)限共有三種: 記錄檢索權(quán) 視圖結(jié)構(gòu)修改權(quán) 視圖刪除權(quán) 所含數(shù)據(jù)庫所含數(shù)據(jù)庫 所含數(shù)據(jù)庫是指該視圖中所包含的數(shù)據(jù)庫。視圖中不能包含視圖。 記錄選取條件記錄選取條件 記錄選取條件實(shí)際上是一個對該視圖所包含的每個數(shù)據(jù)庫進(jìn)行檢索的檢索表達(dá) 式。記錄抽取條件中的檢索目標(biāo)字段(包括缺省的目標(biāo)字段)動態(tài)地對應(yīng)于該 視圖所包含的每個數(shù)據(jù)庫中的字段,而不是該視圖的字段。 注釋信息注釋信息 注釋信息是對 trs 視圖對象進(jìn)行說明的信息。 一般情

43、況下,視圖只能用于數(shù)據(jù)的查詢,而不支持對數(shù)據(jù)的“增、刪、改”等 操作,但 trs 系統(tǒng)支持一種特殊的視圖:數(shù)據(jù)庫自動分裂模式視圖,簡稱為自動 模式視圖。這種視圖不但支持對數(shù)據(jù)記錄的維護(hù),而且隨著數(shù)據(jù)記錄的增加,能夠 自動分裂數(shù)據(jù)庫,以維持?jǐn)?shù)據(jù)庫的規(guī)模。 1.6 視圖字段 視圖字段是對視圖進(jìn)行查詢的唯一入口,所有的查詢操作都是在一定的字段上 進(jìn)行的。每個視圖可定義 1 到 1023 個字段,每個字段可映射 1 到 64 個數(shù)據(jù)庫中的 某個字段。 視圖字段對象具有下列屬性: 名稱名稱 名稱是 trs 視圖字段的對象名,即字段名,是訪問、維護(hù)和管理該視圖字段 的入口。字段名不能與同一視圖中的其它字段

44、同名。 別名別名 別名是該字段名的別稱,一般是為了方便使用而給出的字段名的縮寫,或其英 文名稱。字段別名與字段名具有同等的地位。一個字段可以定義多個別名。 所屬視圖所屬視圖 所屬視圖指示該字段是哪個視圖的字段。所屬視圖與名稱(別名)唯一確定一 個視圖字段對象。 數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)類型即字段類型,它表明了該字段所映射的數(shù)據(jù)庫字段所存儲的數(shù)據(jù)類型。 對應(yīng)于數(shù)據(jù)庫字段,視圖字段也有六種類型: 日期型(date) 數(shù)值型(number) 字符串型(char) 短語型(phrase) 全文型(document) 二進(jìn)制型(bit) 字段顯示名字段顯示名 字段顯示名是上用戶界面上該字段的對應(yīng)名字。 顯

45、示區(qū)寬度顯示區(qū)寬度 顯示區(qū)寬度是字段值在用戶界面上顯示區(qū)域的缺省寬度單位數(shù)。 顯示區(qū)高度顯示區(qū)高度 顯示區(qū)高度是字段值在用戶界面上顯示區(qū)域的缺省高度單位數(shù)。 公共查詢開關(guān)公共查詢開關(guān) 公共查詢開關(guān)決定是否允許 trs 系統(tǒng)中的所有用戶在該字段上進(jìn)行查詢。 數(shù)據(jù)庫字段映射數(shù)據(jù)庫字段映射 數(shù)據(jù)庫字段映射決定了該字段對應(yīng)于哪些數(shù)據(jù)庫中的哪個字段。 注釋信息注釋信息 注釋信息是對 trs 視圖字段對象進(jìn)行說明的信息。 1.7 數(shù)據(jù)格式 數(shù)據(jù)格式用來說明多媒體數(shù)據(jù)的格式類型。在數(shù)據(jù)庫加載時,trs 系統(tǒng)將根據(jù) 數(shù)據(jù)格式確定相應(yīng)的數(shù)據(jù)存儲方式,使用相應(yīng)的分詞方法;在數(shù)據(jù)輸出時,trs 系 統(tǒng)將根據(jù)數(shù)據(jù)格式

46、對數(shù)據(jù)進(jìn)行相應(yīng)的處理,便于瀏覽。每個 trs 系統(tǒng)可管理多達(dá) 1023 個數(shù)據(jù)格式對象。 數(shù)據(jù)格式對象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)格式的對象名,即數(shù)據(jù)格式名,是訪問、維護(hù)和管理該數(shù)據(jù) 格式的入口。數(shù)據(jù)格式名不能重復(fù)。 所屬類所屬類 即該數(shù)據(jù)格式屬于哪種格式類型。trs 系統(tǒng)把數(shù)據(jù)格式劃分成六種類型: 純文本(text) 格式文檔(doc) 圖像(image) 音頻(audio) 視頻(video) 自定義(bit) 文件后綴文件后綴 文件后綴是指該數(shù)據(jù)格式的數(shù)據(jù)文件通常使用的文件名后綴。 壓縮開關(guān)壓縮開關(guān) 壓縮開關(guān)決定該數(shù)據(jù)格式的數(shù)據(jù)是否需要進(jìn)行無損壓縮。 注釋信息注釋信息

47、注釋信息是對數(shù)據(jù)格式對象進(jìn)行說明的信息。 trs 系統(tǒng)在安裝時,將自動創(chuàng)建下列數(shù)據(jù)格式對象(名稱): bit(不確定格式的二進(jìn)制數(shù)據(jù)) text(文本數(shù)據(jù)格式) word(microsoft word 文件格式) ws(wordstar 文件格式) wp(wordprofect 文件格式) xcl(microsoft excel 文件格式) wps(金山 wps 文件格式) s2(方正、華光二掃文件格式) doc(不確定格式的文檔文件格式) audio(不確定格式的音頻文件格式) image(通用圖象文件格式) video(不確定格式的視頻文件格式) avi(avi 動畫文件格式) mpeg(

48、mpeg 壓縮動畫文件格式) wave(wave 音頻文件格式) midi(midi 音頻文件格式) cda(cd 音頻文件格式) ps(postscript 文件格式) gif(gif 圖象文件格式) tif(tif 圖象文件格式) pcx(pcx 圖象文件格式) bmp(bmp 圖象文件格式) jpeg(jpeg 圖象文件格式) html(html 超文本文件格式) pdf(adobe pdf 文件格式) ppt(microsoft power piont 文件格式) rtf(rich text 文件格式) trs 系統(tǒng)允許用戶自己定義新的數(shù)據(jù)格式,或者修改已有的數(shù)據(jù)格式。數(shù)據(jù)格 式一旦定

49、義,就不允許刪除,所以必須謹(jǐn)慎,只有超級用戶(即 system 用戶) 有權(quán)創(chuàng)建新的數(shù)據(jù)格式。 1.8 詞典 trs 的全文檢索不單是一種快速的字串匹配系統(tǒng),要獲得良好的檢索效果,必 須使用一系列知識詞典。詞典對象是 trs 系統(tǒng)中非常重要的基礎(chǔ)資源,是按詞索 引和檢索技術(shù)的根本依據(jù)。 詞典對象具有下列屬性: 名稱名稱 名稱是 trs 詞典的對象名,即詞典名,是訪問、維護(hù)和管理該詞典的入口。 詞典名不能與屬于同一用戶的其它視圖、數(shù)據(jù)庫以及各種詞典同名。 所有者所有者 所有者表明哪個用戶擁有該詞典。所有者與名稱(別名)唯一確定一個詞典對 象。所有者對該詞典能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制

50、的制約。 類型類型 按用途劃分,trs 系統(tǒng)有八種類型的詞典: 分詞詞典(segment) 附加分詞詞典(segmentex) 停用詞典(stop) 附加停用詞典(stopex) 稀疏詞典(sparse) 主題詞典(thesaurus) 同義詞典(synonym) 反義詞典(antonym) 其中,分詞詞典、附加分詞詞典、停用詞典、附加停用詞典和稀疏詞典是用來 建立數(shù)據(jù)庫的索引并進(jìn)行查詢的詞典,統(tǒng)稱為索引詞典;主題詞典、同義詞典 和反義詞典是用于智能概念擴(kuò)展檢索的詞典,統(tǒng)稱為輔助知識詞典。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對該詞典所擁有的權(quán)限。對詞典可設(shè) 置的

51、公共訪問權(quán)限共有三種: 引用權(quán)(檢索權(quán)) 維護(hù)權(quán)(更新權(quán)) 刪除權(quán) 字符集字符集 字符集是指該詞典語言版本。trs 系統(tǒng)支持的字符集有: 簡體中文(gb2312、gbk、gb18030) 繁體中文(big5) 純英文(english) 注釋信息注釋信息 注釋信息是對 trs 詞典對象進(jìn)行說明的信息。 系統(tǒng)安裝時,將自動創(chuàng)建以下幾部系統(tǒng)缺省詞典:分詞詞典、停用詞典、主題 詞典、同義詞典和反義詞典。 1.8.1 分詞詞典 中文按詞索引和檢索是 trs 的主要特點(diǎn)之一,內(nèi)嵌的分詞系統(tǒng)采用以詞典為 基礎(chǔ)的分詞算法。分詞詞典用于漢語自動分詞,由若干個漢語詞匯組成,詞典中的 英文詞匯不起作用。每部分詞詞典

52、可容納多達(dá) 10 萬條詞匯,每個詞匯的最大長度 為 20 個字節(jié),即 10 個漢字。 trs 系統(tǒng)提供的缺省分詞詞典的每個詞匯具有語法屬性,以提高分詞的準(zhǔn)確性。 用戶定義的分詞詞典或增加的詞匯則沒有屬性。該分詞詞典是經(jīng)過加密處理的,用 戶可以瀏覽詞典的詞匯,但不能瀏覽其屬性。 分詞詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫時引用分詞詞典。分詞詞典被引用后,一般不允許再對該詞典進(jìn) 行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫的索引。 在一般情況下均使用系統(tǒng)提供的缺省分詞詞典。 對英文數(shù)據(jù)庫不使用分詞詞典。 一般不對系統(tǒng)缺省分詞詞典進(jìn)行維護(hù),當(dāng)需要加入用戶專業(yè)詞匯時,可通過創(chuàng) 建附加分詞詞典來實(shí)現(xiàn)。 分詞詞典中的英文詞匯不起作

53、用,因此不要在分詞詞典中加入英文詞匯。 生僻詞并不一定要加入到分詞詞典,這些詞即使不在詞典中,也能檢索。 trs 系統(tǒng)提供一個特殊空分詞詞典,其特殊性在于:詞典中沒有任何詞項(xiàng),并 且不能維護(hù);當(dāng)數(shù)據(jù)庫引用該詞典時,將按字建立索引(這就是這個詞典的特殊性) ,并用來指定“所有的單字都建索引” ,以便能夠進(jìn)行單個字的查詢(見 2.3.2 和 2.3.4 節(jié)) 。因此也把該詞典叫做“全字詞典全字詞典” 。 系統(tǒng)安裝時,該詞典將被自動創(chuàng)建。 1.8.2 附加分詞詞典 附加分詞詞典是分詞詞典的補(bǔ)充。trs 提供的缺省分詞詞典是一部通用的分詞 詞典,在多數(shù)情況下沒有包括用戶應(yīng)用的特殊詞匯。在這種情況下,一

54、般不是對系 統(tǒng)缺省分詞詞典進(jìn)行維護(hù),而是通過建立新的附加分詞詞典來定義新的詞匯,系統(tǒng) 在自動分詞時將同時參考分詞詞典和附加分詞詞典中的詞匯。 附加分詞詞典由一系列詞匯組成,詞典中的英文詞匯不起作用。每部附加分詞 詞典可容納多達(dá) 5 千條詞匯,每個詞匯的最大長度為 20 個字節(jié),即 10 個漢字。 附加分詞詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫時引用附加分詞詞典。附加分詞詞典被引用后,一般不允許再對 該詞典進(jìn)行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫的索引。 在一般情況下均使用系統(tǒng)提供的缺省分詞詞典。即使在數(shù)據(jù)庫不引用任何附加 分詞詞典,用戶應(yīng)用的特殊詞匯也能進(jìn)行檢索。 對英文數(shù)據(jù)庫不使用分詞詞典。 附加分詞詞典中的英

55、文詞匯不起作用,因此不要在附加分詞詞典中加入英文詞 匯。 附加分詞詞典一般包含了某個領(lǐng)域的專業(yè)詞匯。 1.8.3 停用詞典 停用詞典又稱為禁用詞典,它是由一系列沒有檢索意義的高頻詞組成的,如英 文文獻(xiàn)中的“the” 、 “of” 、 “and” 、 “to”等,中文文獻(xiàn)中的“的” 、 “關(guān)于” 、 “但是” 、 “而且”等。從相關(guān)性方面講,文獻(xiàn)中的這些詞沒有檢索意義,因?yàn)檫@些詞會出現(xiàn) 在每篇文獻(xiàn)中。在檢索系統(tǒng)中,通常使用停用詞典來過濾掉文獻(xiàn)中沒有檢索意義的 詞,以最大限度地減少數(shù)據(jù)庫的空間膨脹率、加快查詢速度。 停用詞典中的詞匯可以是中英文標(biāo)點(diǎn)符號、中英文高頻詞等。每部停用詞典可 容納多達(dá) 3

56、 千條詞匯,每個詞匯的最大長度為 10 個字節(jié),即 5 個漢字。 停用詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫時引用停用詞典。 一般不對系統(tǒng)缺省停用詞典進(jìn)行維護(hù),當(dāng)需要過濾更多的無意義詞時,可通過 創(chuàng)建附加停用詞典來實(shí)現(xiàn)。 無論是中文數(shù)據(jù)庫,還是英文數(shù)據(jù)庫,均可引用停用詞典。 并不是語言中所有的高頻詞都需要作為停用詞,例如“家” 、 “世界”是高頻詞, 但對大多數(shù)社會科學(xué)資料數(shù)據(jù)庫來說,它們可能是重要的詞匯。一個詞是不是 需要作為停用詞,與數(shù)據(jù)庫的領(lǐng)域特點(diǎn)有關(guān),如在計(jì)算機(jī)科學(xué)文獻(xiàn)中, “計(jì)算 機(jī)”可作為停用詞,因?yàn)樗鼛缀醭霈F(xiàn)在每一篇文獻(xiàn)中,沒有檢索意義。 1.8.4 附加停用詞典 附加停用詞典是停用詞典

57、的補(bǔ)充。trs 提供的缺省停用詞典是一部通用的停用 詞典,不包括特殊領(lǐng)域的無檢索意義的詞匯。在這種情況下,一般不是對系統(tǒng)缺省 停用詞典進(jìn)行維護(hù),而是通過建立新的附加停用詞典來滿足特殊要求。 附加停用詞典中的詞匯可以是中英文標(biāo)點(diǎn)符號、中英文高頻詞等。每部附加停 用詞典可容納多達(dá) 1 千條詞匯,每個詞匯的最大長度為 10 個字節(jié),即 5 個漢字。 附加停用詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫時引用附加停用詞典。 無論是中文數(shù)據(jù)庫,還是英文數(shù)據(jù)庫,均可引用附加停用詞典。 附加停用詞典一般包含了某個領(lǐng)域的高頻詞。 1.8.5 稀疏詞典 在某些應(yīng)用領(lǐng)域中,用戶并不需要進(jìn)行全文檢索,而希望從文獻(xiàn)中自動抽取一 些

58、詞匯作為檢索的關(guān)鍵詞,也就是說并不需要索引文獻(xiàn)中的所有詞匯,而只需索引 其中一些關(guān)鍵詞。稀疏詞典就是存儲這些關(guān)鍵詞匯的詞典。 關(guān)鍵詞既可是中文詞,也可是英文詞。每部稀疏詞典可容納多達(dá) 5 千條詞匯, 每個詞匯的最大長度為 20 個字節(jié),即 10 個漢字。 稀疏詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫時引用稀疏詞典。稀疏詞典被引用后,一般不允許再對該詞典進(jìn) 行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫的索引。 稀疏詞典一般單獨(dú)使用。 稀疏詞典中的詞匯既可以是中文詞匯,也可以為英文詞匯。 1.8.6 主題詞典 主題詞典又稱為敘詞表,它是一種語義詞典,由詞及其各種關(guān)系組成,能反映 某學(xué)科領(lǐng)域的語義相關(guān)概念。 主題詞典主要用于檢

59、索時的后控制和標(biāo)引時的自動或輔助選擇索引詞,是提高 查全率和查準(zhǔn)率、實(shí)現(xiàn)多語種檢索和智能化概念檢索的的重要途徑。在 trs 系統(tǒng) 中,主題詞典是一種特殊的數(shù)據(jù)庫,其最大規(guī)模與數(shù)據(jù)庫的相同。 主題詞典的使用要點(diǎn): 在數(shù)據(jù)錄入時,利用主題詞可進(jìn)行正確性校驗(yàn)或選擇規(guī)范化的主題詞進(jìn)行標(biāo)引, 或進(jìn)行上位詞的自動錄入。 在檢索過程中,可根據(jù)主題詞表中的詞間關(guān)系實(shí)施交互式地導(dǎo)航檢索過程,或 選擇相關(guān)的主題詞進(jìn)行檢索。利用主題詞典函數(shù),或自動擴(kuò)展功能進(jìn)行多語種 和智能化概念檢索。 trs 系統(tǒng)支持 ansi thesaurus 標(biāo)準(zhǔn)(z39.19-1980)所規(guī)定的所有 13 種詞間關(guān)系, 即:族首詞(lea

60、d term)、上位詞(broader term)、下位詞(narrower term)、等同詞 (equivalence, preferred term)、替代詞(用代詞, used for, non-preferred term)、相關(guān) 詞(related term)、縮略詞(abbreviation)、被所略詞(abbreviation for)、組合概念 (combined concepts)、歷史注釋(hsitory note)、范圍注釋(scope note)、外文等同詞 (language equivalent)、后組配概念(post-coordinated concept)。這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論