【畢業(yè)學位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究_第1頁
【畢業(yè)學位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究_第2頁
【畢業(yè)學位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究_第3頁
【畢業(yè)學位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究_第4頁
【畢業(yè)學位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分 類號: 密級: 研 究 生 學 位 論 文 論文題目(中文) 科研數(shù)據(jù) 的 遷移 和 保存元數(shù)據(jù)研究 論文題目(外文) 究生姓名 張 民 學科、專業(yè) 計算機科學與技術 計算機系統(tǒng)結構 研 究 方 向 服務計算 學 位 級 別 碩 士 導師姓名、職稱 張瑞生 教授 論 文 工 作 起 止 年 月 2010 年 9 月至 2013 年 5 月 論文提交日期 2013 年 5 月 論文答辯日期 2013 年 5 月 學位授予日期 校址:甘肅省蘭州市 原 創(chuàng) 性 聲 明 本人鄭重聲明:本人所呈交的學位論文,是在導師的指導下獨立進行研究所取得的成果。學位論文中凡引用他人已經(jīng)發(fā)表或未發(fā)表的成果、數(shù)據(jù)、觀點等,均已明確注明出處。除文中已經(jīng)注明引用的內容外,不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對本文的研究成果做出重要貢獻的個人和集體,均已在文中以明確方式標 明。 本聲明的法律責任由本人承擔。 論文作者簽名: 日 期: 關于學位論文使用授權的聲明 本人在導師指導下所完成的論文及相關的職務作品,知識產權歸屬蘭州大學。 本人完全了解蘭州大學有關保存、使用學位論文的規(guī)定,同意學校保存或向國家有關部門或機構送交論文的 紙質版 和電子版,允許論文被查閱和借閱;本人授權蘭州大學可以將本學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用任何復制手段保存和匯編本學位論文。 本人離校 后發(fā)表、使用學位論文或與該論文直接相關的學術論文或成果時,第一署名單位仍然為蘭州大學。 本學位論文研究內容: 可以公開 不宜公開,已在學位辦公室辦理保密申請,解密后適用本授權書。 (請在以上選項內選擇其中一項打“ ”) 論文作者簽名: 導師簽名: 日 期: 日 期: I 科研數(shù)據(jù) 的 遷移 和 保存元數(shù)據(jù)研究 摘 要 數(shù)字化科研的發(fā) 展和數(shù)據(jù)密集型科研范式的興起,迫切需要 有效地 保存科學實驗過程中 不斷增加的 、日益重要的 科研 數(shù)據(jù)。 科研 數(shù)據(jù)可以用 于 重現(xiàn)實驗 、驗證實驗的可靠性和有效性 , 使得他人基于現(xiàn)有的數(shù)據(jù)提出新的問題、促進科學研究 的 快速發(fā)展 。 但是,數(shù)據(jù) 所處的 軟件和硬件 環(huán)境 、 數(shù)據(jù) 格式 的 快速改變給數(shù)據(jù)的保存 帶來了巨大的挑戰(zhàn) 。 科研 數(shù)據(jù) 的 保存不僅要保存數(shù)據(jù) 本身 ,而且還要提供必要 的 信息,使得 未來的用戶 在新的環(huán)境中 能 夠 訪問 、 重用這些數(shù)據(jù) 。 數(shù)據(jù) 保存涉及許多復雜的問題 ,包括 數(shù)據(jù)的 遷移、仿真 ,數(shù)據(jù)的 完整性、 真實性, 分布式環(huán)境中的數(shù)據(jù)知識庫, 元數(shù)據(jù)等。 本文 以計算化學領域的科研數(shù)據(jù)為例,研究 數(shù)據(jù)的遷移和 保存 元數(shù)據(jù)的構建兩方面問題 ,并開發(fā)了相關的 軟件 。 遷移是將各種私有的科研數(shù)據(jù)格式轉換為通用的、廠商中立的化學數(shù)據(jù)表示形式 決眾多遺留格式的可訪問性問題。本文在分析科研數(shù)據(jù)文件的描述規(guī)范的基礎上,借助 具輔助建立詞法分析器和語法分析器,用于驗證科研數(shù)據(jù)文件是否正確; 通過 分析科研數(shù)據(jù)文件和 件之間的 結構 映射關系,開發(fā)了數(shù)據(jù)的轉換器,實現(xiàn)了科研數(shù)據(jù)文件到 件的轉換。 保存元數(shù)據(jù)是元數(shù)據(jù)的一種, 用于 支持 數(shù)據(jù)保存 知識庫中 數(shù)據(jù) 的 長期保存 過程 ,確保數(shù)據(jù)的 重用性 。 保存元數(shù)據(jù)的構建是在驗證科研數(shù)據(jù)文件合法的基礎上進行的 。 本 文 開發(fā)了元數(shù)據(jù) 提取工具 獲取與 數(shù)據(jù) 保存相關的元數(shù)據(jù)值 , 然后 , 利用 據(jù)模型, 以 件 的方式 合理地 組織、存儲這些 元數(shù)據(jù)值 , 自動的構建 了科研數(shù)據(jù)文件的 保存 元數(shù)據(jù) 。 關鍵詞: 數(shù)據(jù) 保 存 , 遷移 , 保存元數(shù)據(jù), 計算化學 N F of it of in is be be by to a to it to to a to to a of in on of in is to on in to It in In to on of ML is is to ML is a of to in a of in is on In is to ML of is 目 錄 摘 要 . I . 一章 緒論 . 1 究背景 . 1 算化學發(fā)展現(xiàn)狀 . 1 研數(shù)據(jù)的保存 . 2 究意義 . 3 究現(xiàn)狀以及分析 . 4 研數(shù)據(jù)保存的研究現(xiàn)狀 . 4 據(jù)保存實現(xiàn)的研究現(xiàn)狀 . 4 究現(xiàn)狀分析 . 6 究內容 . 6 文的組織結構 . 7 第二章 相關技術概述 . 8 據(jù)遷移 . 8 擴展標記語言 . 8 學標記語言 . 9 言分析器工具 . 10 數(shù)據(jù) . 10 存元數(shù)據(jù) . 11 據(jù)模型 . 11 使用 . 14 第三章 科研數(shù)據(jù)遷移研究 . 15 算化學中的數(shù)據(jù)描述方式 . 15 算化學中的科研數(shù)據(jù)及其特點 . 15 用的化學數(shù)據(jù)描述方式 . 16 換的基本思想 . 16 換的基本理論 . 16 換的基本步驟 . 17 統(tǒng)架構 . 17 據(jù)遷移的系統(tǒng)架構 . 17 據(jù)遷移的設計原則 . 19 據(jù)遷移的實現(xiàn)策略 . 19 據(jù)的驗證 . 20 件及其輸入數(shù)據(jù)文件 . 20 據(jù)驗證的實現(xiàn) . 21 據(jù)的轉換 . 23 間的映射關系 . 23 關方法的實現(xiàn) . 24 換中間件的實現(xiàn) . 25 用展示 . 27 第四章 科研數(shù)據(jù)的保存元 數(shù)據(jù)研究 . 29 存元數(shù)據(jù)的設計 . 29 存元數(shù)據(jù)的實現(xiàn)模式 . 29 統(tǒng)架構 . 30 要注意的幾個問題 . 31 存元數(shù)據(jù)的核心實現(xiàn) . 33 心類圖 . 33 核心實現(xiàn) . 34 各個實體模塊的實現(xiàn) . 35 據(jù)的不變性、完整性、真實性 . 36 字簽名 . 38 用展示 . 40 第五章 總結和展望 . 45 作總結 . 45 來展望 . 46 參考文獻 . 47 在學期間的研究成果 . 51 致 謝 . 52 蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 1 第一章 緒論 究背景 以“ 代表的數(shù)字化科研和 “數(shù)據(jù)密集型科研范式 ( ”的出現(xiàn)和發(fā)展 1,科學實驗產生的 大量 科研 數(shù)據(jù) 變得和科學文獻一樣 重要 ,受到國內外科學家 、政府和公眾 的普遍 重視 2??蒲袛?shù)據(jù)的管理 已經(jīng)被公認為是高等學校和研究機構面臨的最緊迫 的挑戰(zhàn)之一。由政府資助的科研項目產生的 科研 數(shù)據(jù)被看作是一種公共物品,應該 在公眾之間共享 。 科 研 數(shù)據(jù)可以用 于 重現(xiàn)實驗 結果 、 驗證實驗的可靠性和有效性 3, 使得 他人基于現(xiàn)有的數(shù)據(jù)提出新的問題 1, 4, 5、促進科學研究和革新的快速發(fā)展 1, 6。 科學家 認為,現(xiàn)在的科學研究模式已經(jīng)從 實驗 、理論 分析 兩種基本的研究模式, 和 以計算 模擬 為主的第三種 研究模式基礎上誕生出第四種研究模式 以 科 研 數(shù)據(jù)探索 為主 的研究模式。 在 2009 年 9 月 10 日出版的 刊“數(shù)據(jù)共享”特輯中, 就 提到 “科 研 數(shù)據(jù)的保存和獲取是科學研究和發(fā)展的前提” 7。 目前 數(shù)據(jù)探索研究已在生物醫(yī)學、高能物理、 地球科學、海洋科學等領域得到 了 廣泛的應用,并取得了顯著的成果。近年來數(shù)據(jù)重 用 的相關研究工作已逐漸成為各國政府和組織制定中長期科研政策的重要參考依據(jù)之一。美國自然科學基金委員會 (定自 2011 年 1 月起, 所有申請資助的科學家,需要 包括兩頁的科研數(shù)據(jù) 管理計劃 8。 德國資助了與數(shù)據(jù)保存相關的 28 個項目,超過 990 萬歐元。 新西蘭政府于近期將數(shù)據(jù)重用作為科研信息化優(yōu)先發(fā)展方向之一 9。 國內方面,國際科技數(shù)據(jù)委員會中國委員會于 2011 年 12 月召開了“數(shù)據(jù)密集型科研與數(shù)據(jù)科學研討會”,會議認為數(shù)據(jù)重用的相關研究 工作對于深化數(shù)據(jù)密集型科研的發(fā)展具有重要意義。 算化學發(fā)展現(xiàn)狀 計算化學 ( 研究的主要內容包括:化學知識(化學表達式、化合物的物理化學性質 、 化學反應及其機理和條件)的計算機表示;化學信息的組織、管理、檢索和深度應用;結構解析; 分子模擬; 藥物設計與發(fā)現(xiàn);定量構效關系研究等。 常用的計算化學軟件有: 10, S) 11, 12, 13, 14, I 15, 16等。 由于化學研究問題的復雜度不斷增加和 計算機技術的發(fā)展,化學家愈來愈依賴計算蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 2 化學軟件 幫助 科學 研究。 計算化學已經(jīng)變成一種強大的、有效的、可靠的 探索分子的結 構 和屬性的工具。 隨著 量子 化學 理論、 計算化學軟件 的發(fā)展 , 并行計算和分布式計算 能力 的顯著 提 升 , 化學家借助計算化學軟件進行科學實驗時,短 時間內 就能產生 大量的數(shù)據(jù) 26。 因此,如何 管理這些龐大的數(shù)據(jù)變 成了一個重要的 問 題 。另一方面 現(xiàn)有的大部分 計算化學軟件 都開發(fā)了 各自 的數(shù)據(jù)表示方法, 采用自己私有 的 格式 描述計算 化學 作業(yè) 的 輸入 數(shù)據(jù)文件和 結果 數(shù)據(jù) 文件 ,并且這些 格式之間 的 語法結構相差 很大, 這就給數(shù)據(jù)的 長期 保存 增加了 難 度。 研 數(shù)據(jù)的保存 數(shù)據(jù)保 存 ( 是一系列 的、持續(xù) 的 數(shù)據(jù)管理活動, 用于 長期維護數(shù)據(jù)的比特流,并確保 數(shù)據(jù)的 可訪問性 和 重用性 17。 數(shù)據(jù)保存 不僅需要保存 構成 數(shù)據(jù)集 的比特流 ( ,還需要提供足夠的信息 使得 未來的用戶能夠重新 訪問 和重用 這些數(shù)據(jù)。 對于書籍報紙等物理形式的數(shù)據(jù),即使花費再大的努力,總是能夠保存好,但是 對于數(shù)字化形式的 數(shù)據(jù) , 需要特定的計算機程序解釋 和呈現(xiàn) ,因此還需要 提供 額外的元數(shù)據(jù) 信息,用于描述數(shù)據(jù)對象 所處的環(huán)境和數(shù)據(jù)的格式 ,包括媒體、硬件和軟件環(huán)境 等; 另外, 未來的用戶很可能不再是數(shù)據(jù)的創(chuàng)建者,重用數(shù)據(jù)必須 依賴于 對 數(shù)據(jù)的正確描述。 因此數(shù)據(jù) 長期保存 需 要保存兩方面的內容:一是 維護構成數(shù)據(jù) 的比特 流;二是 確保數(shù)據(jù)在相當長的時間內的可訪問性 和重用性 ,這就需要 維護數(shù)據(jù) 的語義 信息 、溯源信息、身份信息、與其 它 數(shù)據(jù)的關系和權力信息等 。 由于數(shù)據(jù)本身的脆弱性和 信息技術的加速發(fā)展引起 的 信息技術的改變 和更新 , 科學數(shù)據(jù)的保存面臨了巨大的挑戰(zhàn)。 技術 過時 ( 被認為是數(shù)據(jù) 管理 和長期保存 面臨的 最大技術威脅 18。 技術 過時 包括: 存儲媒體、硬件和軟件、操作系統(tǒng)、應用軟件、 文件格式 等的過時 。 比如以前的計算機 具有的軟盤驅動器, 現(xiàn)在 的個人電腦基本 沒有軟盤驅動器了,因此,以前存儲在軟盤中的信息,由于沒有必要的硬件和軟件 環(huán)境 ,現(xiàn)在已經(jīng)變得不可讀、不可 訪問 了。 數(shù)字化科研環(huán)境的興起帶來的科學研究的數(shù)據(jù)對象的變化、科學問題復雜度的增加、科學數(shù)據(jù)量的增加,使得僅有少量的數(shù)據(jù)(比如科學文獻中的數(shù)據(jù))得到了較好的 保存 。 科學界 根深蒂固的文化是強調 不斷的 發(fā)現(xiàn),對舊的 數(shù)據(jù)不太欣賞 19。 科學家在 完成一個科研項目 后,忙著寫論文、發(fā)表論文,然后進行下一個 項目的 研究,而忽略了 保存 數(shù)據(jù)??茖W家在數(shù)據(jù)收集、分析以及項目完成的不同階段,可能將數(shù)據(jù)存儲在臺式電腦、筆記本、個人存儲介質、文件服務器或專用的數(shù)據(jù)服務器或者是云儲存服務上 20,對于 大量的無法 出版的科研 數(shù)據(jù),在蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 3 項目結束或是論文結束之后被遺棄, 然后 逐漸 變得不可 使 用。據(jù)德國科研機構的科學數(shù)據(jù)服務和信息系統(tǒng)的人員 計,科學研究中 90%數(shù)據(jù)變得不能訪問了。他的這一說法,也得到了哈佛大 學和美國國家基金委員會的 認 同 19。 究意義 由于計算機技術和化學理論的發(fā)展, 化學家 在 科學 實驗 過程 中, 短時間內 就能 產生大量的數(shù)據(jù)。 但是 ,大部分的科研數(shù)據(jù)并沒有出版和共享。這有多方面的原因: 一 是 , 科學界對于數(shù)據(jù)的保存不是太重視, 通常 每個 科學家 感興趣的 科研數(shù)據(jù) 是不一樣的 , 他 們 認為 我的數(shù)據(jù)可能別的科學家沒有興趣, 對于他們不感興趣的數(shù)據(jù), 常常丟棄了,而這些數(shù)據(jù)對于其他科研人員可能具有潛在的價值 ;二是 , 計算化學領域的科研數(shù)據(jù)格式大都依賴于各自軟件采取的 數(shù)據(jù) 描述方式,格式眾多,不便于保存, 導致 計算化學 中 的 科 研數(shù)據(jù) 只有小部分通過論文出版得到了 較好的 保存,大量的 科研 數(shù)據(jù)只能存儲在本地的計算機、個人存儲設備中,然后會逐漸丟失 ; 三是 ,信息技術的快速發(fā)展 和不斷變化 ,使得保存數(shù)據(jù) 、 確保數(shù)據(jù)的可訪問性 和重用性 變得更加復雜 ;四 是,一些科學家擔心他們的競爭者從 發(fā)布的 數(shù)據(jù)中推斷出 他 們現(xiàn)在的工作 。 從而 導致了大部分的科研數(shù)據(jù)沒有 很好的保存 和 發(fā)布, 然后 會 逐漸變得不可 訪問 。 因此, 對計算化學領域中的科研數(shù)據(jù)進行長期保存, 確保在相當長的一段 時間 內數(shù)據(jù)的可 訪問 性和 重用 性 是非常有意義的。 數(shù)據(jù)保存的研究熱點 包括: 數(shù)據(jù)的遷移、仿真,數(shù)據(jù)的完整性、 真實性,分布式環(huán)境中的數(shù)據(jù)知識庫,元數(shù)據(jù)等 。本文主要關注 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)的構建兩方面 問題 。 通過 將遺留的計算化學軟件的數(shù)據(jù) 描述 文件格式轉 換 為當前比較通用 、廠商中立的 化學 數(shù)據(jù) 表示形式 以 解決遺留格式的可訪問性問題; 構建 保存元數(shù)據(jù) 描述數(shù)據(jù)文件本身和數(shù)據(jù)文件的 變化 過程, 用于 支持數(shù)據(jù)的 長期 保存過程, 使得未來的用戶能夠訪問和重用 數(shù)據(jù) 。 通過 有效的 保存化學家 科學 實驗過程中產生的科研數(shù)據(jù), 能夠 在一定程度上避免 其他化學家的 重復計算,實驗結果能夠得到驗證, 為開發(fā)新方法提供數(shù)據(jù) 支持; 為數(shù)據(jù)挖掘提供有價值的 數(shù)據(jù) 資 源 , 為 論文等 出版物提供支撐信息。 蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 4 究現(xiàn)狀以及分析 研數(shù)據(jù)保存的 研究現(xiàn)狀 近幾年來,許多國外高校、 科研機構都建立了機構知識庫( 簡稱 ,用 于 管理 、 保存 和分發(fā) 本機構科研人員在 科學研究中 的智能輸出 21。這些智能輸出 包括未出版的論 文、 無法公開發(fā)表的論文 以及 一些 科研數(shù)據(jù) 。機構知識庫的主要目的是提供一套用于管理和傳播各個部門及其成員創(chuàng)作的數(shù)字化產品的服務 ,提供科研數(shù)據(jù)的開放獲取( 和學術交流 。機構知識庫 被認為是 能夠 直 接訪問科研結果的 最具有成本效益的 方式。 機構知識庫通過捕獲、保存和分發(fā) 本 機構的智力 輸出 ,能 較為 容易的證明該機構的科學和社會價值。 比較著名的 機構知識庫 有劍橋大學 建的 國麻省理工學院 建的 及 大學構建的機構知識庫。 這些機構知識 庫 主要是保存文本性的數(shù)據(jù) , 比如 期刊論文、會議論文、學位論文、技術報告、學習資料、管理資料、圖書、課件 。 在化學 數(shù) 據(jù) 的 保 存 方面 , 劍 橋 大 學 究 組 在基礎上,開發(fā)了大量的 面向 化學的 機構知識庫 , 有。 用于提交、 存儲和發(fā)布 合成化學、計算化學和晶體化學中的化學資料和科研數(shù)據(jù) 22;于提交、 存儲 和發(fā)布論文中出現(xiàn)的化學資料和科研數(shù)據(jù) 23, 24; 一個管理 化學 晶體數(shù)據(jù)的 知識庫 , 通過 自動的從網(wǎng)絡上收集晶體數(shù)據(jù) ,然后轉換 為基于 數(shù)據(jù),添加語義信息幫助瀏覽 和 檢索,并隨著 最新出版的 晶體 信息 文獻 進行更新 25; 供了組織、共享和檢索量子化學中的數(shù)據(jù) 26。 圖建立一個機構知識庫聯(lián)盟,用于管理和分發(fā)晶體實驗的原始數(shù)據(jù)和結果數(shù)據(jù),并 通過添加保存元數(shù)據(jù)( , 增強 機構知識庫中數(shù)據(jù)的 長期保存 功能 27, 28。 據(jù)保存實現(xiàn)的研究現(xiàn)狀 大多數(shù)的數(shù)據(jù)保存知識庫都是基于 參考模型 實現(xiàn)的。 開放檔案信息系統(tǒng) 是由美國空間數(shù)據(jù)系統(tǒng)咨詢委員會 定 的,最初是作為產生空間數(shù)據(jù)的形式化標準 , 并在 2003 年作為 標準( 4721: 2003) 發(fā)布。 它是一個功能性的框架,描述了數(shù)據(jù)保存知識庫中 基本的數(shù)據(jù)流向和 需 要的 功能 組件。 認為是高蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 5 度抽象的參考模型,描述了數(shù)據(jù)保存 知識庫 應有的責任, 而不是推薦任何特定的實現(xiàn) 29。它沒有涉及任何功能實現(xiàn)的技術細節(jié),比如系統(tǒng)架構、存儲或處理技術、數(shù)據(jù)庫的設計、計算平臺等。 數(shù)據(jù)保存涉及許多復雜的問題, 包括數(shù)據(jù)的遷移、仿真,數(shù)據(jù)的完整性、真實性,分布式環(huán)境中的數(shù)據(jù)知識庫,元數(shù)據(jù)等 。 遷移和仿真是 兩種常用的數(shù)據(jù)保存策略 。遷移 聚焦于數(shù)字對象本身 , 它是 將數(shù)據(jù)從一個平臺轉移到另一個平臺,包括硬件平臺和軟件平臺。而 仿真不聚焦于數(shù)據(jù) 對象 ,是通過 模擬 對象的軟件和硬件環(huán)境 , 重新創(chuàng)建對象的軟硬件環(huán)境 ,從而 顯示和 呈現(xiàn) 數(shù)據(jù) 。 如何選擇保存的策略 依賴于 需要 保存的對象、 數(shù)據(jù)知識庫的要 求 等 。 歐盟的 目 主要研 究了分布式環(huán)境中的數(shù)據(jù)保存, 開發(fā)了數(shù)據(jù)保存的框架和相應的應用程序解決方案 ,維護了數(shù)據(jù)的長期可訪問性,并確保了數(shù)據(jù)的真實性和完整性。該項 目采用數(shù)據(jù)格式遷移作為系統(tǒng)的保存策略,利用網(wǎng)格和云環(huán)境 維護和管理 眾多的 數(shù)據(jù), 利用元數(shù)據(jù)描述數(shù)據(jù)對象本身和數(shù)據(jù)的 溯源信息 ,確保數(shù)據(jù)的長期保存 30, 31。 類似的項目還有 2,它是一個分布式的、 由多個協(xié)作的節(jié)點構成的數(shù)據(jù)保存系統(tǒng),通過執(zhí)行預定義的工作流實現(xiàn)數(shù)據(jù)的長期保存 。 荷蘭科學數(shù)據(jù)檔案館的 目下的子項目 在研究將數(shù)據(jù)遷移為 從而 增強數(shù)據(jù)的耐用性和重用性 33。 目采用了仿真技術,并開發(fā)了一個仿真器 該仿真器 用 寫, 利用 擬機 的 優(yōu)勢 ,使得它能在大多數(shù)的操作系統(tǒng)和硬件架構上運行 34, 35。 人 基于 考模型,開發(fā)了一個新的用于處理溯源數(shù)據(jù)、描述相關事件的模型確保數(shù)據(jù)的 真實性 37, 研究數(shù)據(jù)的完整性和真實性的還 有 37, 38。 元數(shù)據(jù)即“關于數(shù)據(jù)的數(shù)據(jù)”, 用于描述 數(shù)據(jù)的特點和屬性 。 元數(shù)據(jù) 比較準確 的定義是:用于支持一個特定數(shù)據(jù)對象的結構化的 數(shù)據(jù) ,比如描述、識別、發(fā)現(xiàn)、檢索、權利管理和保存 39。 本文重點關注用于 保存的元數(shù)據(jù),即保存元數(shù)據(jù),因此這里主要介紹保存元數(shù)據(jù)。保存元數(shù)據(jù)是元數(shù)據(jù)的一種,用于支持數(shù)據(jù)知識庫中數(shù)據(jù)的長期保存過程。 美國的研究圖書館組織 究了用于促進數(shù)據(jù) 圖像的保存和訪問 的元數(shù)據(jù) ;澳大利亞國家圖書館創(chuàng)建了用于 數(shù)據(jù) 保存的邏輯數(shù)據(jù)模型 ; 新西蘭國家圖書館開發(fā)了用于支持新西蘭國家圖書館中的數(shù)據(jù)保存活動的元數(shù)據(jù)模式;等等 。 在開發(fā)數(shù)據(jù)保存 知識庫 的過程中采用了保存元數(shù)據(jù) 的 還有新西蘭國家 圖書館、 目等 40。 利用已存在的 保存 元數(shù)據(jù)模型 立保存元數(shù)據(jù)的有 州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 6 28和 目 41。 究現(xiàn)狀分析 綜上所述, 機構知識庫作為數(shù)據(jù)保存實現(xiàn)的一種特定形式,用于保存本機構人員產生的智能輸出,但是 現(xiàn) 有的 大部分機構知識庫 通常很少關注 數(shù)據(jù) 的長期保存 41對數(shù)據(jù)的長期保存不太重視 。 國內方面的工作剛剛起步。 因為 他們認為創(chuàng)建機構知識庫主要的目的 是 提供一個機構的智能輸出的 開放獲取,而不是提供數(shù)據(jù)的 長期保存 ,確保未來用戶的可訪問性和重用性 。因此 ,對計算化學 科研實驗過程 中 產生的 大量 科研數(shù)據(jù)進行長期保存,確保在相當長的一段 時間 內的數(shù)據(jù)的可訪問性和重用 性 是非常有意義的 。 數(shù)據(jù) 保存是一個很復雜的問題, 本文 主要 利用數(shù)據(jù) 格式 的 遷移和 保存 元數(shù)據(jù)確保 數(shù)據(jù)的長期保存 。以計算化學領域的科研數(shù)據(jù)為例, 重點研究 如何實現(xiàn)計算化學 中的 科研數(shù)據(jù) 格式 的遷移和 保存 元數(shù)據(jù)的 構建 , 使得未來的用戶能夠訪問和重用 化學家在科學 實驗過程中 產生的 數(shù)據(jù) 。 究內容 本文在 分析計算化學領域的科研數(shù)據(jù)的特點, 研究 通用的 數(shù)據(jù)保存知識庫的參考模型 相關的理論 和 技術的基礎上 , 重點研究了 數(shù)據(jù)保存中的兩個問題: 數(shù)據(jù) 格式 的遷移和 保存 元數(shù)據(jù) 的構建 ,并開發(fā)了相關的軟件 。 數(shù)據(jù)格式的遷移解決 了 計算化學中 遺留 數(shù)據(jù) 格式的可訪問性問題;應用保存元數(shù)據(jù) 支持 數(shù)據(jù)的長期 保存過程, 能夠 確保 科研 數(shù)據(jù)的可重用性 , 使得未來的用戶能夠訪問和重用數(shù)據(jù) 。本文的 主要 研究工作 包括以下幾個方面 : 1) 研究 數(shù)據(jù)保存相關的理論和技術。 數(shù)據(jù)保存相關的理論和技術主要包括:開放檔案信息系統(tǒng) 參考模型 據(jù)保存的策略:遷移和仿真,用于支持數(shù)據(jù)保存的 保存 元數(shù)據(jù)模型 及在實現(xiàn)數(shù)據(jù)遷移和構建 保存元數(shù)據(jù)的過程中涉及的 技術: 2) 科研數(shù)據(jù) 遷移 的 研究 。 在分析計算化學中的科研數(shù)據(jù) 格式 及其特點,以及常用的化學 數(shù)據(jù) 描述方式的基礎上,研究了 計算化學中 的 科研數(shù)據(jù) 格式 到 式之間的轉換。分析了轉換的相關理論,提出了 數(shù)據(jù)遷移 的系統(tǒng)架構 和 實現(xiàn)策略, 并 以計算化學軟件例, 研究和實現(xiàn)了 件中的科研數(shù)據(jù)到 件 的轉換 。 3) 保存元數(shù)據(jù) 的 研究 。 蘭州大學碩士研究生學位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 7 分析了 據(jù)模型,研究了如何構建保存元數(shù)據(jù)。提出了構建保存元數(shù)據(jù)的系統(tǒng)架構, 分析了實現(xiàn) 保存元數(shù)據(jù)過程中的 重 要模塊之間的執(zhí)行邏輯 、數(shù)據(jù)的不變性、完整性和真實性 , 并展示了一個 應用實例 。 數(shù)據(jù) 格式 的 遷移 和保存元數(shù)據(jù) 的構建 并不是完全不相關的, 遷移 是常用的數(shù)據(jù) 保存的方法 ,保存元數(shù)據(jù)用于描述數(shù)據(jù)文件本身以 及數(shù)據(jù)文件的變換過程,即數(shù)據(jù) 格式 的 遷移 過程也必須采用 保存 元數(shù)據(jù)進行描述。 數(shù)據(jù)的保存需要保存數(shù)據(jù)文件本身和 數(shù)據(jù)處理的 過程。 文的組織結構 論文共分為 5 章,組織結構如下: 第一章 緒論。論述了科研數(shù)據(jù)保存的研究 背景 , 研究意義, 分析了數(shù)據(jù)保存的研究現(xiàn)狀,然后簡述了本文的主要 研究內容 。 第二章 相關技術 概述 。 概述 了 與 本文相關的 理論和 技術 ,包括 數(shù)據(jù)的遷移 、 語言分析器工具 數(shù)據(jù)以及 據(jù)模型 。 第 三 章 科研數(shù)據(jù)遷移 研究 。 分析 了 轉換的 基本 理論 和實現(xiàn)步驟 , 提 出了數(shù)據(jù) 遷移 的 系統(tǒng)架構 和實現(xiàn)策略 , 并 以計算化學軟件 輸入數(shù)據(jù)文件 為例, 詳細描述了數(shù)據(jù)的驗證和數(shù)據(jù)的轉換過程 。 第 四 章 科研數(shù)據(jù)的 保存元數(shù)據(jù) 研究 。 提出了構建保存元數(shù)據(jù)的系統(tǒng)架構,分析了 實現(xiàn)保存元數(shù)據(jù)過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論