下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第 卷第 期 年 月中原工學(xué)院學(xué)報(bào) ,文章編號(hào):()基于 數(shù)據(jù)庫的檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)程傳鵬(中原工學(xué)院,鄭州 )摘 要: 結(jié)合 數(shù)據(jù)庫在處理非規(guī)范性文檔方面的優(yōu)勢,設(shè)計(jì)出了一種基于 數(shù)據(jù)庫的檔案入庫系統(tǒng),實(shí)現(xiàn)了紙質(zhì)檔案的電子存儲(chǔ),為電子文檔內(nèi)容的直接檢索做好了前期工作實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)提高了數(shù)據(jù)存儲(chǔ)空間的利用率關(guān) 鍵 詞: 非規(guī)范性數(shù)據(jù);檔案管理;數(shù)據(jù)庫;文本提取中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: :隨著計(jì)算機(jī)無紙辦公技術(shù)應(yīng)用的普及,各種格式的電子文件 資 料 大 量 涌 現(xiàn),不 僅 有 文 字 資 料,還 有 聲 音、圖像、動(dòng)畫、視頻等等這些文檔結(jié)構(gòu)無定、類型 各異、規(guī)格不一、長度參差,不能
2、直接轉(zhuǎn)化成關(guān)系數(shù)據(jù) 庫的字段信息,因而不能被傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理 系統(tǒng)有效地處理,大大降低了這些數(shù)據(jù)的使用價(jià)值據(jù) 統(tǒng)計(jì),諸如此類的非規(guī)范性數(shù)據(jù)信息占了互聯(lián)網(wǎng)上數(shù) 據(jù)的 傳統(tǒng) 的 關(guān) 系 型 數(shù) 據(jù) 庫 由 于 自 身 的 局 限 性, 已經(jīng)遠(yuǎn)遠(yuǎn)不 能 滿 足 今 天 非 規(guī) 范 性 數(shù) 據(jù) 快 速 增 長 的 需 要為了解決關(guān)系數(shù)據(jù)庫在非規(guī)范性數(shù)據(jù)處理上的不 足, 年瑞典 公司在皇家工學(xué) 院 的 圖 書 情 報(bào)檢索專用軟件 基礎(chǔ)上,開發(fā)出了專為處理非規(guī) 范性數(shù)據(jù)的軟件系統(tǒng) 系統(tǒng)本文分析了 數(shù) 據(jù)庫在處理非規(guī)范性電子文檔上的優(yōu)勢,并在此基礎(chǔ) 上,利用 數(shù)據(jù)庫設(shè)計(jì)出了一種電子文檔管理系統(tǒng)由字段組
3、成,每一個(gè)字段容許存放任意多個(gè)實(shí)體子字段自動(dòng)帶有編 號(hào),彼 此 相 互 獨(dú) 立 記 錄 的 字 段 長 度不限,設(shè)計(jì)數(shù)據(jù)庫字段時(shí)不需預(yù)定其大小關(guān)系型數(shù) 據(jù)庫的字段長度在設(shè)計(jì)數(shù)據(jù)庫時(shí)必須設(shè)定,裝庫時(shí)如 果數(shù)據(jù)內(nèi)容不夠量,它就不會(huì)“省”出沒用完的空間,而 數(shù)據(jù)多于設(shè)定 值 時(shí),超 過 部 分 又 沒 法 存 進(jìn) 去 是 多維結(jié)構(gòu)的數(shù)據(jù)庫,比較適合于大量不定長數(shù)據(jù)的存 儲(chǔ)數(shù)據(jù)庫 是 面 向 大 數(shù) 據(jù) 對 象 設(shè) 計(jì) 開 發(fā) 的,數(shù) 據(jù) 庫文件只由 個(gè)文件組成,分別是數(shù)據(jù)文件 、檢索詞文件 和詞根文件 ,因此數(shù)據(jù)庫的 存儲(chǔ)、復(fù)制、查詢、維護(hù)都很方便對于數(shù)據(jù)量以“百萬字節(jié)”計(jì)的多媒體信息的存儲(chǔ)而言,是
4、很好的選擇此外,可 隨 時(shí) 追 加 新 字 段如 首 次 設(shè) 計(jì) 數(shù) 據(jù) 庫時(shí)建立了 個(gè)字段,使用一段時(shí)間后要增加 個(gè)字 段,這時(shí)只需加上這 個(gè)字段即可,已有記錄中的數(shù)據(jù) 照常使用而關(guān) 系 型 數(shù) 據(jù) 庫 則 做 不 到 是 管 理 存 儲(chǔ)各種電子文檔資料的最佳解決方案,它有一種專門 存儲(chǔ)二進(jìn)制數(shù)據(jù)的字段,不僅能存儲(chǔ)多達(dá) 多種不 同格式 的 電 子 文 件,如 、 、等,而且 能 自 動(dòng) 抽 取 這 些 文 件 之 中 的 文 字信息,形成倒排文件,供人們進(jìn)行全文內(nèi)容的快速查 找在處理非 規(guī) 范 性 數(shù) 據(jù) 方 面,尤 其 是 當(dāng) 前 普 遍 面 臨 在處理非規(guī)范性數(shù)據(jù)方面的優(yōu)勢目前的檔案管理
5、系統(tǒng)大都是基于關(guān)系數(shù)據(jù)庫的,但關(guān)系型數(shù)據(jù)庫是二維平面結(jié)構(gòu),表的一行表示一個(gè) 記錄,表的一列代表記錄中的一個(gè)字段,一個(gè)字段只允 許 放 一 個(gè) 實(shí) 體 是 多 維 結(jié) 構(gòu) 的 數(shù) 據(jù) 庫 系 統(tǒng) ,記 錄文、圖、音、視 信 息 等 大 量 多 媒 體 信 息 管 理 的 情 況 下,要比關(guān)系型數(shù)據(jù)庫強(qiáng)很多收稿日期:作者簡介:程傳鵬()男,河南信陽人,講師,碩士機(jī)能夠存儲(chǔ)的數(shù)字化成果,即對所有未數(shù)字化的檔案進(jìn)行掃描,整理其屬性信息,并進(jìn)行數(shù)據(jù)存儲(chǔ),最終為 數(shù)字化檔案提供安全高效的管理方法,從而取代現(xiàn)有 的管理方式檔案管理系統(tǒng)結(jié)構(gòu)如圖 所示檔案管理系統(tǒng)主要實(shí)現(xiàn)如下 個(gè)方面的功能:()檔 案 掃 描
6、改 變 了 傳 統(tǒng) 的 用 掃 描 儀 掃 描 檔 案系統(tǒng)分析及設(shè)計(jì)系統(tǒng)目標(biāo)檔案數(shù)據(jù)庫管理,首先要將紙質(zhì)檔案轉(zhuǎn)變?yōu)橛?jì)算圖檔案管理系統(tǒng)結(jié)構(gòu)圖的方法,采用系統(tǒng)控制高速掃描儀方式進(jìn)行掃描,既保證了掃描檔案的質(zhì)量,又顯著提高了工作效率并且檔 案掃描后直接自動(dòng)存人數(shù)據(jù)庫內(nèi),改變了傳統(tǒng)的人工 手動(dòng)入庫工作量大、速度慢的缺點(diǎn)()數(shù)據(jù)建 庫不 同 時(shí) 期 的 檔 案,管 理 方 式 不 同,因此對其進(jìn)行分開存儲(chǔ)和管理為維護(hù)數(shù)據(jù)的實(shí)時(shí)性,系統(tǒng)提供對數(shù)據(jù)庫的維護(hù)與更新功能()文本信息提取對 存 入 數(shù) 據(jù) 庫 的 二 進(jìn) 制 文 件 進(jìn)行文本提取,提取后的文本信息同樣也保存在數(shù)據(jù) 庫里,為后續(xù)的基于電子文檔內(nèi)容的
7、信息檢索做好前 期工作()用戶管理通過 角 色 和 活 動(dòng) 的 權(quán) 限 來 進(jìn) 行 統(tǒng)一的管理根據(jù)業(yè)務(wù)分工,將系統(tǒng)的管理權(quán)限和角色關(guān) 聯(lián),即角色的權(quán)限只定義和系統(tǒng)模塊相關(guān)聯(lián)的權(quán)限,通 過角色權(quán)限的管理,控制用戶對系統(tǒng)的入庫、編輯、查 詢、刪除、打印等權(quán)限設(shè)計(jì)數(shù)據(jù)庫時(shí),可以事先準(zhǔn)備好一個(gè)數(shù)據(jù)庫 定義文本文件 ,通 過 系 統(tǒng) 提 供 的命令,在命令窗里直接生成數(shù)據(jù)庫結(jié)構(gòu): 數(shù)據(jù)庫定義文件 的格式如下:(: (), )其中,指的是字段名,最長 個(gè)英文字符,后用“:”; 指 的 是 字 段 號(hào),用 數(shù) 字 表 示; 指的是字段類型; 指的是不需要倒排,需要倒排時(shí),為空白;()指 的 是 字 段 說
8、明,說 明 性 文 字 放在圓括號(hào)內(nèi)本系統(tǒng)中最重要的數(shù)據(jù)庫 有 個(gè):一個(gè)是文檔數(shù) 據(jù)庫,一個(gè)是用戶數(shù)據(jù)庫與文字?jǐn)?shù)據(jù)不同,當(dāng)一個(gè)電子文件存放在 數(shù) 據(jù)庫記錄中時(shí),需 個(gè)字段來描述第一個(gè)字段定義為 字段,用來存 放 文 件 名;第 二 個(gè) 字 段 定 義 為 字段,用來存放全部文件內(nèi)容的信息;第三個(gè)字 段定義為字段,用來存放文件大小的數(shù)值;第 四個(gè)字段定 義 為 字 段,用 來 存 放 從 原 格 式 文 件 抽取出來的文字內(nèi)容文檔數(shù)據(jù)庫定義文件的格式如下:數(shù)據(jù)庫設(shè)計(jì)的數(shù)據(jù) 庫 由 記 錄 組 成,記 錄 又 由 字 段 組 成 記錄中的字段可容納 種不同類型的信息,包括 、其 中,類型可以存放二
9、進(jìn)制信息,記錄中字段的個(gè) 數(shù)不限除正文、字串?dāng)?shù)據(jù)類型外,其他類型字段下分 子字 段 (),正 文 類 型 字 段 下 分 段 落 ( ),段落之中又分句子(),句子之中又分 詞()字段中子字段的數(shù)量也是沒限制的中原工學(xué)院學(xué)報(bào) 年 第 卷 許多控件,在 這 些 控 件 中 選 擇 圖 像 掃 描 控 件,(:(), : (), : (), : ()本系統(tǒng)有 類用戶:系統(tǒng)管理員、數(shù)據(jù)管理員和普通用戶系統(tǒng)管理員的用戶名為,他有最高系統(tǒng)權(quán) 限,只 有 他 才 可 創(chuàng) 建 數(shù) 據(jù) 管 理 員 ( )、用 戶 經(jīng) 理()系統(tǒng)管理員本身也是 和 ,有建立數(shù)據(jù) 庫和開設(shè)新用戶的權(quán)限 有權(quán)建造數(shù)據(jù)庫,并授權(quán) 給
10、用戶或用戶組去訪問該數(shù)據(jù)庫只有經(jīng)他授權(quán)的用 戶(包括創(chuàng)建文件經(jīng)理的系統(tǒng)管理員)才能使用他創(chuàng)建 的數(shù) 據(jù) 庫 有 權(quán) 建 立 新 的 用 戶 或 用 戶 組一 個(gè) 系統(tǒng)可以有不限量的 或 用戶數(shù) 據(jù) 庫 定 義 文 件 的 格 式 如下:(: (): (),再單擊鍵,即完成添加任務(wù)此時(shí)在 中可以看到 新 添 加 的 類,查 看 類 的 源 文 件 ,可 深 入 了 解 該 控 件 的 屬 性 和 使 用 方 法通過 的 ,添加類型 為 的成 員 變 量 ,在 對 話 框 上 添 加 “開始 掃 描 ”按 鈕 控 件,設(shè) 置 該 按 鈕 控 件 的 為 然后,在工程中加入如下代碼: ()(?。ǎ?
11、(“掃描儀打開失敗”): ():)() (“掃描儀打開失敗”): ():()(“掃描儀打開失敗”):():):(),: : :數(shù)據(jù)庫的連接產(chǎn)品族提供了一個(gè)進(jìn)程內(nèi)的 組 件 ,通過調(diào)用 組 件,可 以 完 成 對 數(shù) 據(jù) 庫 的 添 加、刪除、查找等一些基本操作為了在程序中使用 組件,首先需要安裝 組件,并自動(dòng)完成 組件的注冊在 程序的頭文件中添加語 句 ,以 引 入 組 件,并 在 在 函 數(shù) ()中對 環(huán)境初始化,語句如下: ()為了在程序中使用 數(shù)據(jù)庫,需要先連接數(shù)據(jù) 庫,步驟如下:()在 頭 文 件 中 聲 明 ;()通過以下的語句來創(chuàng)造會(huì)話對象實(shí)例: ( );()連接數(shù)據(jù)庫,語句如下:
12、系統(tǒng)關(guān)鍵技術(shù)的實(shí)現(xiàn)掃描儀的控制首先,在 中新建一個(gè) ()項(xiàng)目文件,在 第一步中選擇 基于對 話 框 項(xiàng),第 二 項(xiàng) 中 選 擇 復(fù) 選 框,其他缺省這樣建立了一個(gè)以對話框?yàn)橹鞔翱诘膽?yīng) 用程序然后,在 中新建對話框,將該 對話 框 的 改 為,將 對 話框的 設(shè)置為在 主 菜 單 中 單 擊 【】【 】 【 】【】命 令,在 對 話 框 中 將 出 現(xiàn) ( , , , , ,);( ) 通 過 定 義 的 引 用,返回會(huì)話變量二進(jìn)制文件的存儲(chǔ)要把二進(jìn)制 文 件 上 傳 到 數(shù) 據(jù) 庫,需 要 用 到 函數(shù),其語法格式如下:( , , , )其中各參數(shù)的意義如下:文件名,包括路徑; :存放所抽取文
13、本的字段名稱; :選項(xiàng); :標(biāo)志,一般為空這個(gè)函數(shù)不僅能上載文件,而且能提取文檔中的文本字符程序中上載文件的代碼如下: ; (); () (圖添加 控件圖()單擊工具箱上的 控件,將此控件添加到 對 話 框 上,然 后 在 對 話 框 的 頭 文 件 中 聲 明 對象:;()如果要顯示磁盤上的文件,則需要用到 方法,代碼如下:()其中,指的是包含完整磁盤路徑的文件名如果要顯示存放在數(shù)據(jù)庫字段中的文件,則用如 下代碼: ; (), , ();, );() (), , );();文件的顯示產(chǎn)品族提供的 組件是一種文檔檢 索管理組件,它能將 多種不同格式的電子文檔存 放在 的數(shù)據(jù)庫之中,同時(shí)自動(dòng)抽取
14、其中的文字內(nèi) 容建立倒排文件,供用戶快速查看,最終顯示出和原有 文檔完全相同的視圖在程序中實(shí)現(xiàn)文檔預(yù)覽的步驟如下:()安 裝 ,同 時(shí) 系 統(tǒng) 自 動(dòng) 完 成 控件的注冊;()單 擊 【】 【 】 【】,打開【】對話框,如圖 所示;()選擇【 】文件夾中 的【】,單擊【】,將 控件添加到工程中;實(shí)驗(yàn)為了比較 數(shù)據(jù)庫和關(guān) 系 數(shù) 據(jù) 庫 在 處 理 電 子文檔方面的優(yōu)劣,本文選擇了 份紙質(zhì)文檔,經(jīng)過掃 描儀掃描后,形成 文件,文件大小為 分 別采用 數(shù)據(jù)庫和目前流行的 關(guān) 系數(shù)據(jù)庫對這些 文件進(jìn)行存儲(chǔ)和檢索分別從二 進(jìn)制文件的存儲(chǔ)、文檔的預(yù)覽、電子文檔的信息提取等方面以及存儲(chǔ)空間的利用率、檢索時(shí)
15、間指標(biāo)進(jìn)行比較,結(jié)果如表 所示中原工學(xué)院學(xué)報(bào) 年 第 卷 表關(guān)系數(shù)據(jù)庫和 數(shù)據(jù)庫的比較能否存取二進(jìn)制文件比較指標(biāo)能否顯示源文檔能否提取文字存儲(chǔ)空間利用率平均檢索時(shí)間數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫高短低長其中存儲(chǔ)空間利用率按如下公式計(jì)算: 文件大小結(jié)語存儲(chǔ)空間利用率 數(shù)據(jù)庫磁盤文件大小以不同的關(guān)鍵字進(jìn)行 次檢索,以這些檢索時(shí)間的平均值作為平均檢索時(shí)間,計(jì)算公式如下:本文針對電子文檔的特點(diǎn),利用 數(shù)據(jù)庫在處理電子文檔上的優(yōu)勢,設(shè)計(jì)出了一種基于 數(shù)據(jù)庫 的的電子文檔管理系統(tǒng)實(shí)驗(yàn)結(jié)果 表 明,采 用 數(shù) 據(jù)庫來處理電子文檔,不僅能提高存儲(chǔ)空間的利用效 率,而且檢索效率也要優(yōu)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫在以后 的工作中,我們將利用 所提供的 功 能,來 提 取 電 子文檔中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年道路運(yùn)輸客運(yùn)從業(yè)資格證繼續(xù)教育試題
- 考點(diǎn)07功能關(guān)系能量守恒定律
- 教師資格考試初中體育與健康面試試題與參考答案(2024年)
- 電氣施工方案
- 銀行職工羽毛球興趣小組活動(dòng)方案
- 個(gè)人月工作總結(jié)報(bào)告
- 大數(shù)據(jù)征信體系下個(gè)人信息保護(hù)探討
- 新華書店規(guī)章制度
- 教師資格考試高中地理學(xué)科知識(shí)與教學(xué)能力試卷及答案指導(dǎo)
- 2024年成果共贏:健康顧問業(yè)績分紅合同
- Python繪圖庫Turtle詳解(含豐富示例)
- 2010年408真題及答案解析
- 【課題研究設(shè)計(jì)與論證報(bào)告】深度學(xué)習(xí)視角下幼兒園自主游戲支持策略的實(shí)踐研究
- 0~36個(gè)月兒童中醫(yī)藥健康管理服務(wù)
- 第三章藥物的化學(xué)結(jié)構(gòu)與藥代動(dòng)力
- 智慧樹關(guān)愛生命-自救與急救技能章節(jié)習(xí)題及答案
- 讓數(shù)據(jù)成為生產(chǎn)力-數(shù)據(jù)全生命周期管理
- “工匠精神”視域下的高職院校學(xué)生職業(yè)素養(yǎng)教育的路徑研究課題開題報(bào)告
- 不要等到畢業(yè)以后(升級(jí)版)
- 一企一標(biāo)準(zhǔn)一崗一清單手冊模板
- 中西文化鑒賞知到章節(jié)答案智慧樹2023年鄭州大學(xué)
評(píng)論
0/150
提交評(píng)論