基于xml的文檔資料管理上_第1頁
基于xml的文檔資料管理上_第2頁
基于xml的文檔資料管理上_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于xml的文檔資料管理上

1文檔資料的問題萬維網(wǎng)是一個分布廣泛、全球范圍廣泛的信息服務中心。它包括新聞、廣告、消費信息、金融管理、教育、電子商務和許多其他信息服務。因此,高效資源和web知識的管理具有很大的挑戰(zhàn)。目前文檔管理所面臨的難題主要表現(xiàn)在以下幾個方面。(1)文檔資料的數(shù)量極其龐大。當前萬維網(wǎng)上的文檔資料過于龐大,其數(shù)據(jù)量以兆兆字節(jié)計算,而且仍然在迅速地增長。(2)文檔資料的組織形式多種多樣。目前的文檔資料以不同的格式存儲于不同的數(shù)據(jù)組織形式之中,其中包括文本數(shù)據(jù)、關系數(shù)據(jù)庫數(shù)據(jù)、面向對象數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)以及聲音、圖像、郵件等。(3)Web頁面的復雜性高于任何傳統(tǒng)的文本文檔。Web頁面缺乏統(tǒng)一的結構,它包含了遠比任何一組書籍或其它文本文檔多得多的風格和內(nèi)容。為解決以上問題,就必須實現(xiàn)文檔的同一性結構組織,和頁面內(nèi)容的有效的標識和索引。所謂同一性結構組織,意即數(shù)據(jù)文件的組織結構不依賴于系統(tǒng)平臺和數(shù)據(jù)庫管理平臺;實現(xiàn)頁面內(nèi)容的有效標識,即將數(shù)據(jù)信息與格式信息相分離,從而以有表述能力的標簽語言表達文檔內(nèi)容。2基于rssp的意義具有形成了xm-l-pcp的注意條XML技術作為文檔管理難題的解決手段已經(jīng)日益被人們接受和采納。一方面,大量的原始信息開始通過特定的轉換機制,整合為XML數(shù)據(jù);另一方面,未來將會有大量的Web頁面用XML書寫,并遵循一組良好的文檔類型定義,從而有利于促進不同Web站點間的信息交換,更便于實現(xiàn)對各種組織形式的海量文檔資料的有效管理。XML的最大優(yōu)點在于它的數(shù)據(jù)存儲格式不受顯示格式的制約。一般來說,一篇文檔包括三個要素:數(shù)據(jù)、結構以及顯示方式。XML把文檔的三要素獨立開來,分別處理。首先把顯示格式從數(shù)據(jù)內(nèi)容中獨立出來,保存在樣式表單文件中,這樣如果需要改變文檔的顯示方式,只要修改樣式表單文件就行了。XML的自我描述性質能夠很好地表現(xiàn)許多復雜的數(shù)據(jù)關系,使得基于XML的應用程序可以在XML文件中準確高效地搜索相關的數(shù)據(jù)內(nèi)容,忽略其他不相關部分。XML還有其他許多優(yōu)點,比如它有利于不同系統(tǒng)之間的信息交流,并有希望成為數(shù)據(jù)和文檔交換的標準機制。3創(chuàng)建系統(tǒng)配方本節(jié)主要描述基于XML的文檔管理,內(nèi)容包括以下幾個方面:(1)XML數(shù)據(jù)存取機制;(2)XML與數(shù)據(jù)庫;(3)XML文檔創(chuàng)建;(4)XML文檔類型定義;(5)XML文檔的顯示。3.1數(shù)據(jù)庫的應用從整體上講,XML定義了應用間傳遞數(shù)據(jù)的結構,而且這種結構的描述不是基于二進制的、只能由程序去判讀的代碼,而是一種簡單的、能夠用通用編輯器讀取的文本。XML數(shù)據(jù)源多種多樣,根據(jù)具體的應用,大概可分為下面三種:一種是XML純文本文檔,第二種是關系型數(shù)據(jù)庫,第三種則來源于其他各種應用數(shù)據(jù),如郵件、目錄清單、商務報告等。其中,第一種來源,即XML純文本文檔是最基本的也是最為簡單的,將數(shù)據(jù)存儲于文件中,其最大的優(yōu)點在于可以直接方便地讀取,或者加以樣式信息在瀏覽器中顯示,或者通過DOM接口編程同其他應用相連。第二種數(shù)據(jù)來源是對第一種來源的擴展,其目的是便于開發(fā)各種動態(tài)應用,其優(yōu)點則在于通過數(shù)據(jù)庫系統(tǒng)對數(shù)據(jù)進行管理,然后再利用服務器端應用(如ASP,JSP)等進行動態(tài)存取。這種方式最適合于當前最為流行的基于三層結構的應用開發(fā)。3.2關系數(shù)據(jù)庫中的表與表之間的關聯(lián)數(shù)據(jù)庫提供了對于大批量數(shù)據(jù)的有效存儲管理和快速信息檢索、查詢的功能。從體系結構上看,數(shù)據(jù)庫技術的發(fā)展歷經(jīng)了網(wǎng)絡型數(shù)據(jù)庫、層次型數(shù)據(jù)庫、關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫。雖然面向對象數(shù)據(jù)庫融入了面向對象技術,但是到目前為止,在各個領域使用最廣的還是關系數(shù)據(jù)庫。關系數(shù)據(jù)庫管理系統(tǒng)采用二維表格作為存儲數(shù)據(jù)的模型,表格由行和列組成,一般情況下,列被稱作“字段”用于表示組成數(shù)據(jù)有效信息的屬性,而行則用于指示一條完整的數(shù)據(jù)記錄。由于數(shù)據(jù)間的相關性可以通過表與表之間關鍵字來關聯(lián),由此產(chǎn)生了“關系”類型數(shù)據(jù)庫的由來。針對XML數(shù)據(jù),一般有兩種存儲方式:一是將其按結構層次拆分開來分別存于不同字段,二是將XML文檔原封不動地存入數(shù)據(jù)庫。3.3ent的關系型數(shù)據(jù)庫現(xiàn)在假定文檔保存在一個名叫document的關系型數(shù)據(jù)庫中,其中有football表,包含了甲A聯(lián)賽的報道。可以定義以下XML文檔結構:3.4屬性的互動關系文檔類型定義詳細描述了一組文檔結構規(guī)則,提供了一連串的元素、屬性、表示法和文檔中的各種實體以及其相互間的關系。對應于上面的XML文檔,可以進行下面的文檔類型定義:3.5web服務器xllXSL是為XML文檔定義的一種標識語言,提供了遠遠超過CSS的強大功能.它包含了一套元素集的XML語法規(guī)范,該語法規(guī)范用宋把XML文檔轉換成HTML文檔。一個XSL樣式表集合了一系列設計規(guī)則,以用于將信息從XML文檔中提取出來,并將其轉換成HTML等其它格式。XSL憑借其可擴展性能夠控制無窮無盡的標簽,而控制每個標簽的方式也是無窮無盡的,于是給Web提供了高級的布局特性。同時,XSL不僅僅是應用格式,當使用XML瀏覽器時,XSL源文檔中的信息將被評價、重新安排,然后重新組裝。這樣,最終所得到的不只是XML的數(shù)據(jù)版本,而且還可以被很容易地添加、修改和重新排序的靈活的源信息。這個最終產(chǎn)品叫做結果樹。這樣,XSL能使Web瀏覽器直接根據(jù)用戶的不同需求改變文檔的表示法,如數(shù)據(jù)的顯示順序改變,從而不需要再與服務器進行交互通信。通過變換樣式表,同一個文檔可以顯示得更大,或者經(jīng)過折疊,只顯示外面的一層。4實現(xiàn)相關文本文檔的同一性,提高資源的整合和共享為了解決文檔管理所面臨的難題(1)文檔資料的數(shù)量極其龐大、(2)文檔資料的組織形式多種多樣和(3)Web頁面的復雜性高于任何傳統(tǒng)的文本文檔,就必須實現(xiàn)文檔的同一性結構組織,和頁面內(nèi)容的有效的標識和索引?;赬ML技術實現(xiàn)文檔管理,已經(jīng)日益被人們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論