【畢業(yè)學(xué)位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究-服務(wù)技術(shù)_第1頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究-服務(wù)技術(shù)_第2頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究-服務(wù)技術(shù)_第3頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究-服務(wù)技術(shù)_第4頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究-服務(wù)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分 類號(hào): 密級(jí): 研 究 生 學(xué) 位 論 文 論文題目(中文) 科研數(shù)據(jù) 的 遷移 和 保存元數(shù)據(jù)研究 論文題目(外文) 究生姓名 張 民 學(xué)科、專業(yè) 計(jì)算機(jī)科學(xué)與技術(shù) 計(jì)算機(jī)系統(tǒng)結(jié)構(gòu) 研 究 方 向 服務(wù)計(jì)算 學(xué) 位 級(jí) 別 碩 士 導(dǎo)師姓名、職稱 張瑞生 教授 論 文 工 作 起 止 年 月 2010 年 9 月至 2013 年 5 月 論文提交日期 2013 年 5 月 論文答辯日期 2013 年 5 月 學(xué)位授予日期 校址:甘肅省蘭州市 原 創(chuàng) 性 聲 明 本人鄭重聲明:本人所呈交的學(xué)位論文,是在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的成果。學(xué)位論文中凡引用他人已經(jīng)發(fā)表或未發(fā)表的成果、數(shù)據(jù)、觀點(diǎn)等,均已明確注明出處。除文中已經(jīng)注明引用的內(nèi)容外,不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的科研成果。對(duì)本文的研究成果做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo) 明。 本聲明的法律責(zé)任由本人承擔(dān)。 論文作者簽名: 日 期: 關(guān)于學(xué)位論文使用授權(quán)的聲明 本人在導(dǎo)師指導(dǎo)下所完成的論文及相關(guān)的職務(wù)作品,知識(shí)產(chǎn)權(quán)歸屬蘭州大學(xué)。 本人完全了解蘭州大學(xué)有關(guān)保存、使用學(xué)位論文的規(guī)定,同意學(xué)校保存或向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的 紙質(zhì)版 和電子版,允許論文被查閱和借閱;本人授權(quán)蘭州大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用任何復(fù)制手段保存和匯編本學(xué)位論文。 本人離校 后發(fā)表、使用學(xué)位論文或與該論文直接相關(guān)的學(xué)術(shù)論文或成果時(shí),第一署名單位仍然為蘭州大學(xué)。 本學(xué)位論文研究?jī)?nèi)容: 可以公開 不宜公開,已在學(xué)位辦公室辦理保密申請(qǐng),解密后適用本授權(quán)書。 (請(qǐng)?jiān)谝陨线x項(xiàng)內(nèi)選擇其中一項(xiàng)打“ ”) 論文作者簽名: 導(dǎo)師簽名: 日 期: 日 期: I 科研數(shù)據(jù) 的 遷移 和 保存元數(shù)據(jù)研究 摘 要 數(shù)字化科研的發(fā) 展和數(shù)據(jù)密集型科研范式的興起,迫切需要 有效地 保存科學(xué)實(shí)驗(yàn)過(guò)程中 不斷增加的 、日益重要的 科研 數(shù)據(jù)。 科研 數(shù)據(jù)可以用 于 重現(xiàn)實(shí)驗(yàn) 、驗(yàn)證實(shí)驗(yàn)的可靠性和有效性 , 使得他人基于現(xiàn)有的數(shù)據(jù)提出新的問(wèn)題、促進(jìn)科學(xué)研究 的 快速發(fā)展 。 但是,數(shù)據(jù) 所處的 軟件和硬件 環(huán)境 、 數(shù)據(jù) 格式 的 快速改變給數(shù)據(jù)的保存 帶來(lái)了巨大的挑戰(zhàn) 。 科研 數(shù)據(jù) 的 保存不僅要保存數(shù)據(jù) 本身 ,而且還要提供必要 的 信息,使得 未來(lái)的用戶 在新的環(huán)境中 能 夠 訪問(wèn) 、 重用這些數(shù)據(jù) 。 數(shù)據(jù) 保存涉及許多復(fù)雜的問(wèn)題 ,包括 數(shù)據(jù)的 遷移、仿真 ,數(shù)據(jù)的 完整性、 真實(shí)性, 分布式環(huán)境中的數(shù)據(jù)知識(shí)庫(kù), 元數(shù)據(jù)等。 本文 以計(jì)算化學(xué)領(lǐng)域的科研數(shù)據(jù)為例,研究 數(shù)據(jù)的遷移和 保存 元數(shù)據(jù)的構(gòu)建兩方面問(wèn)題 ,并開發(fā)了相關(guān)的 軟件 。 遷移是將各種私有的科研數(shù)據(jù)格式轉(zhuǎn)換為通用的、廠商中立的化學(xué)數(shù)據(jù)表示形式 決眾多遺留格式的可訪問(wèn)性問(wèn)題。本文在分析科研數(shù)據(jù)文件的描述規(guī)范的基礎(chǔ)上,借助 具輔助建立詞法分析器和語(yǔ)法分析器,用于驗(yàn)證科研數(shù)據(jù)文件是否正確; 通過(guò) 分析科研數(shù)據(jù)文件和 件之間的 結(jié)構(gòu) 映射關(guān)系,開發(fā)了數(shù)據(jù)的轉(zhuǎn)換器,實(shí)現(xiàn)了科研數(shù)據(jù)文件到 件的轉(zhuǎn)換。 保存元數(shù)據(jù)是元數(shù)據(jù)的一種, 用于 支持 數(shù)據(jù)保存 知識(shí)庫(kù)中 數(shù)據(jù) 的 長(zhǎng)期保存 過(guò)程 ,確保數(shù)據(jù)的 重用性 。 保存元數(shù)據(jù)的構(gòu)建是在驗(yàn)證科研數(shù)據(jù)文件合法的基礎(chǔ)上進(jìn)行的 。 本 文 開發(fā)了元數(shù)據(jù) 提取工具 獲取與 數(shù)據(jù) 保存相關(guān)的元數(shù)據(jù)值 , 然后 , 利用 據(jù)模型, 以 件 的方式 合理地 組織、存儲(chǔ)這些 元數(shù)據(jù)值 , 自動(dòng)的構(gòu)建 了科研數(shù)據(jù)文件的 保存 元數(shù)據(jù) 。 關(guān)鍵詞: 數(shù)據(jù) 保 存 , 遷移 , 保存元數(shù)據(jù), 計(jì)算化學(xué) N F of it of in is be be by to a to it to to a to to a of in on of in is to on in to It in In to on of ML is is to ML is a of to in a of in is on In is to ML of is 目 錄 摘 要 . I . 一章 緒論 . 1 究背景 . 1 算化學(xué)發(fā)展現(xiàn)狀 . 1 研數(shù)據(jù)的保存 . 2 究意義 . 3 究現(xiàn)狀以及分析 . 4 研數(shù)據(jù)保存的研究現(xiàn)狀 . 4 據(jù)保存實(shí)現(xiàn)的研究現(xiàn)狀 . 4 究現(xiàn)狀分析 . 6 究?jī)?nèi)容 . 6 文的組織結(jié)構(gòu) . 7 第二章 相關(guān)技術(shù)概述 . 8 據(jù)遷移 . 8 擴(kuò)展標(biāo)記語(yǔ)言 . 8 學(xué)標(biāo)記語(yǔ)言 . 9 言分析器工具 . 10 數(shù)據(jù) . 10 存元數(shù)據(jù) . 11 據(jù)模型 . 11 使用 . 14 第三章 科研數(shù)據(jù)遷移研究 . 15 算化學(xué)中的數(shù)據(jù)描述方式 . 15 算化學(xué)中的科研數(shù)據(jù)及其特點(diǎn) . 15 用的化學(xué)數(shù)據(jù)描述方式 . 16 換的基本思想 . 16 換的基本理論 . 16 換的基本步驟 . 17 統(tǒng)架構(gòu) . 17 據(jù)遷移的系統(tǒng)架構(gòu) . 17 據(jù)遷移的設(shè)計(jì)原則 . 19 據(jù)遷移的實(shí)現(xiàn)策略 . 19 據(jù)的驗(yàn)證 . 20 件及其輸入數(shù)據(jù)文件 . 20 據(jù)驗(yàn)證的實(shí)現(xiàn) . 21 據(jù)的轉(zhuǎn)換 . 23 間的映射關(guān)系 . 23 關(guān)方法的實(shí)現(xiàn) . 24 換中間件的實(shí)現(xiàn) . 25 用展示 . 27 第四章 科研數(shù)據(jù)的保存元 數(shù)據(jù)研究 . 29 存元數(shù)據(jù)的設(shè)計(jì) . 29 存元數(shù)據(jù)的實(shí)現(xiàn)模式 . 29 統(tǒng)架構(gòu) . 30 要注意的幾個(gè)問(wèn)題 . 31 存元數(shù)據(jù)的核心實(shí)現(xiàn) . 33 心類圖 . 33 核心實(shí)現(xiàn) . 34 各個(gè)實(shí)體模塊的實(shí)現(xiàn) . 35 據(jù)的不變性、完整性、真實(shí)性 . 36 字簽名 . 38 用展示 . 40 第五章 總結(jié)和展望 . 45 作總結(jié) . 45 來(lái)展望 . 46 參考文獻(xiàn) . 47 在學(xué)期間的研究成果 . 51 致 謝 . 52 蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 1 第一章 緒論 究背景 以“ 代表的數(shù)字化科研和 “數(shù)據(jù)密集型科研范式 ( ”的出現(xiàn)和發(fā)展 1,科學(xué)實(shí)驗(yàn)產(chǎn)生的 大量 科研 數(shù)據(jù) 變得和科學(xué)文獻(xiàn)一樣 重要 ,受到國(guó)內(nèi)外科學(xué)家 、政府和公眾 的普遍 重視 2。科研數(shù)據(jù)的管理 已經(jīng)被公認(rèn)為是高等學(xué)校和研究機(jī)構(gòu)面臨的最緊迫 的挑戰(zhàn)之一。由政府資助的科研項(xiàng)目產(chǎn)生的 科研 數(shù)據(jù)被看作是一種公共物品,應(yīng)該 在公眾之間共享 。 科 研 數(shù)據(jù)可以用 于 重現(xiàn)實(shí)驗(yàn) 結(jié)果 、 驗(yàn)證實(shí)驗(yàn)的可靠性和有效性 3, 使得 他人基于現(xiàn)有的數(shù)據(jù)提出新的問(wèn)題 1, 4, 5、促進(jìn)科學(xué)研究和革新的快速發(fā)展 1, 6。 科學(xué)家 認(rèn)為,現(xiàn)在的科學(xué)研究模式已經(jīng)從 實(shí)驗(yàn) 、理論 分析 兩種基本的研究模式, 和 以計(jì)算 模擬 為主的第三種 研究模式基礎(chǔ)上誕生出第四種研究模式 以 科 研 數(shù)據(jù)探索 為主 的研究模式。 在 2009 年 9 月 10 日出版的 刊“數(shù)據(jù)共享”特輯中, 就 提到 “科 研 數(shù)據(jù)的保存和獲取是科學(xué)研究和發(fā)展的前提” 7。 目前 數(shù)據(jù)探索研究已在生物醫(yī)學(xué)、高能物理、 地球科學(xué)、海洋科學(xué)等領(lǐng)域得到 了 廣泛的應(yīng)用,并取得了顯著的成果。近年來(lái)數(shù)據(jù)重 用 的相關(guān)研究工作已逐漸成為各國(guó)政府和組織制定中長(zhǎng)期科研政策的重要參考依據(jù)之一。美國(guó)自然科學(xué)基金委員會(huì) (定自 2011 年 1 月起, 所有申請(qǐng)資助的科學(xué)家,需要 包括兩頁(yè)的科研數(shù)據(jù) 管理計(jì)劃 8。 德國(guó)資助了與數(shù)據(jù)保存相關(guān)的 28 個(gè)項(xiàng)目,超過(guò) 990 萬(wàn)歐元。 新西蘭政府于近期將數(shù)據(jù)重用作為科研信息化優(yōu)先發(fā)展方向之一 9。 國(guó)內(nèi)方面,國(guó)際科技數(shù)據(jù)委員會(huì)中國(guó)委員會(huì)于 2011 年 12 月召開了“數(shù)據(jù)密集型科研與數(shù)據(jù)科學(xué)研討會(huì)”,會(huì)議認(rèn)為數(shù)據(jù)重用的相關(guān)研究 工作對(duì)于深化數(shù)據(jù)密集型科研的發(fā)展具有重要意義。 算化學(xué)發(fā)展現(xiàn)狀 計(jì)算化學(xué) ( 研究的主要內(nèi)容包括:化學(xué)知識(shí)(化學(xué)表達(dá)式、化合物的物理化學(xué)性質(zhì) 、 化學(xué)反應(yīng)及其機(jī)理和條件)的計(jì)算機(jī)表示;化學(xué)信息的組織、管理、檢索和深度應(yīng)用;結(jié)構(gòu)解析; 分子模擬; 藥物設(shè)計(jì)與發(fā)現(xiàn);定量構(gòu)效關(guān)系研究等。 常用的計(jì)算化學(xué)軟件有: 10, S) 11, 12, 13, 14, I 15, 16等。 由于化學(xué)研究問(wèn)題的復(fù)雜度不斷增加和 計(jì)算機(jī)技術(shù)的發(fā)展,化學(xué)家愈來(lái)愈依賴計(jì)算蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 2 化學(xué)軟件 幫助 科學(xué) 研究。 計(jì)算化學(xué)已經(jīng)變成一種強(qiáng)大的、有效的、可靠的 探索分子的結(jié) 構(gòu) 和屬性的工具。 隨著 量子 化學(xué) 理論、 計(jì)算化學(xué)軟件 的發(fā)展 , 并行計(jì)算和分布式計(jì)算 能力 的顯著 提 升 , 化學(xué)家借助計(jì)算化學(xué)軟件進(jìn)行科學(xué)實(shí)驗(yàn)時(shí),短 時(shí)間內(nèi) 就能產(chǎn)生 大量的數(shù)據(jù) 26。 因此,如何 管理這些龐大的數(shù)據(jù)變 成了一個(gè)重要的 問(wèn) 題 。另一方面 現(xiàn)有的大部分 計(jì)算化學(xué)軟件 都開發(fā)了 各自 的數(shù)據(jù)表示方法, 采用自己私有 的 格式 描述計(jì)算 化學(xué) 作業(yè) 的 輸入 數(shù)據(jù)文件和 結(jié)果 數(shù)據(jù) 文件 ,并且這些 格式之間 的 語(yǔ)法結(jié)構(gòu)相差 很大, 這就給數(shù)據(jù)的 長(zhǎng)期 保存 增加了 難 度。 研 數(shù)據(jù)的保存 數(shù)據(jù)保 存 ( 是一系列 的、持續(xù) 的 數(shù)據(jù)管理活動(dòng), 用于 長(zhǎng)期維護(hù)數(shù)據(jù)的比特流,并確保 數(shù)據(jù)的 可訪問(wèn)性 和 重用性 17。 數(shù)據(jù)保存 不僅需要保存 構(gòu)成 數(shù)據(jù)集 的比特流 ( ,還需要提供足夠的信息 使得 未來(lái)的用戶能夠重新 訪問(wèn) 和重用 這些數(shù)據(jù)。 對(duì)于書籍報(bào)紙等物理形式的數(shù)據(jù),即使花費(fèi)再大的努力,總是能夠保存好,但是 對(duì)于數(shù)字化形式的 數(shù)據(jù) , 需要特定的計(jì)算機(jī)程序解釋 和呈現(xiàn) ,因此還需要 提供 額外的元數(shù)據(jù) 信息,用于描述數(shù)據(jù)對(duì)象 所處的環(huán)境和數(shù)據(jù)的格式 ,包括媒體、硬件和軟件環(huán)境 等; 另外, 未來(lái)的用戶很可能不再是數(shù)據(jù)的創(chuàng)建者,重用數(shù)據(jù)必須 依賴于 對(duì) 數(shù)據(jù)的正確描述。 因此數(shù)據(jù) 長(zhǎng)期保存 需 要保存兩方面的內(nèi)容:一是 維護(hù)構(gòu)成數(shù)據(jù) 的比特 流;二是 確保數(shù)據(jù)在相當(dāng)長(zhǎng)的時(shí)間內(nèi)的可訪問(wèn)性 和重用性 ,這就需要 維護(hù)數(shù)據(jù) 的語(yǔ)義 信息 、溯源信息、身份信息、與其 它 數(shù)據(jù)的關(guān)系和權(quán)力信息等 。 由于數(shù)據(jù)本身的脆弱性和 信息技術(shù)的加速發(fā)展引起 的 信息技術(shù)的改變 和更新 , 科學(xué)數(shù)據(jù)的保存面臨了巨大的挑戰(zhàn)。 技術(shù) 過(guò)時(shí) ( 被認(rèn)為是數(shù)據(jù) 管理 和長(zhǎng)期保存 面臨的 最大技術(shù)威脅 18。 技術(shù) 過(guò)時(shí) 包括: 存儲(chǔ)媒體、硬件和軟件、操作系統(tǒng)、應(yīng)用軟件、 文件格式 等的過(guò)時(shí) 。 比如以前的計(jì)算機(jī) 具有的軟盤驅(qū)動(dòng)器, 現(xiàn)在 的個(gè)人電腦基本 沒(méi)有軟盤驅(qū)動(dòng)器了,因此,以前存儲(chǔ)在軟盤中的信息,由于沒(méi)有必要的硬件和軟件 環(huán)境 ,現(xiàn)在已經(jīng)變得不可讀、不可 訪問(wèn) 了。 數(shù)字化科研環(huán)境的興起帶來(lái)的科學(xué)研究的數(shù)據(jù)對(duì)象的變化、科學(xué)問(wèn)題復(fù)雜度的增加、科學(xué)數(shù)據(jù)量的增加,使得僅有少量的數(shù)據(jù)(比如科學(xué)文獻(xiàn)中的數(shù)據(jù))得到了較好的 保存 。 科學(xué)界 根深蒂固的文化是強(qiáng)調(diào) 不斷的 發(fā)現(xiàn),對(duì)舊的 數(shù)據(jù)不太欣賞 19。 科學(xué)家在 完成一個(gè)科研項(xiàng)目 后,忙著寫論文、發(fā)表論文,然后進(jìn)行下一個(gè) 項(xiàng)目的 研究,而忽略了 保存 數(shù)據(jù)。科學(xué)家在數(shù)據(jù)收集、分析以及項(xiàng)目完成的不同階段,可能將數(shù)據(jù)存儲(chǔ)在臺(tái)式電腦、筆記本、個(gè)人存儲(chǔ)介質(zhì)、文件服務(wù)器或?qū)S玫臄?shù)據(jù)服務(wù)器或者是云儲(chǔ)存服務(wù)上 20,對(duì)于 大量的無(wú)法 出版的科研 數(shù)據(jù),在蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 3 項(xiàng)目結(jié)束或是論文結(jié)束之后被遺棄, 然后 逐漸 變得不可 使 用。據(jù)德國(guó)科研機(jī)構(gòu)的科學(xué)數(shù)據(jù)服務(wù)和信息系統(tǒng)的人員 計(jì),科學(xué)研究中 90%數(shù)據(jù)變得不能訪問(wèn)了。他的這一說(shuō)法,也得到了哈佛大 學(xué)和美國(guó)國(guó)家基金委員會(huì)的 認(rèn) 同 19。 究意義 由于計(jì)算機(jī)技術(shù)和化學(xué)理論的發(fā)展, 化學(xué)家 在 科學(xué) 實(shí)驗(yàn) 過(guò)程 中, 短時(shí)間內(nèi) 就能 產(chǎn)生大量的數(shù)據(jù)。 但是 ,大部分的科研數(shù)據(jù)并沒(méi)有出版和共享。這有多方面的原因: 一 是 , 科學(xué)界對(duì)于數(shù)據(jù)的保存不是太重視, 通常 每個(gè) 科學(xué)家 感興趣的 科研數(shù)據(jù) 是不一樣的 , 他 們 認(rèn)為 我的數(shù)據(jù)可能別的科學(xué)家沒(méi)有興趣, 對(duì)于他們不感興趣的數(shù)據(jù), 常常丟棄了,而這些數(shù)據(jù)對(duì)于其他科研人員可能具有潛在的價(jià)值 ;二是 , 計(jì)算化學(xué)領(lǐng)域的科研數(shù)據(jù)格式大都依賴于各自軟件采取的 數(shù)據(jù) 描述方式,格式眾多,不便于保存, 導(dǎo)致 計(jì)算化學(xué) 中 的 科 研數(shù)據(jù) 只有小部分通過(guò)論文出版得到了 較好的 保存,大量的 科研 數(shù)據(jù)只能存儲(chǔ)在本地的計(jì)算機(jī)、個(gè)人存儲(chǔ)設(shè)備中,然后會(huì)逐漸丟失 ; 三是 ,信息技術(shù)的快速發(fā)展 和不斷變化 ,使得保存數(shù)據(jù) 、 確保數(shù)據(jù)的可訪問(wèn)性 和重用性 變得更加復(fù)雜 ;四 是,一些科學(xué)家擔(dān)心他們的競(jìng)爭(zhēng)者從 發(fā)布的 數(shù)據(jù)中推斷出 他 們現(xiàn)在的工作 。 從而 導(dǎo)致了大部分的科研數(shù)據(jù)沒(méi)有 很好的保存 和 發(fā)布, 然后 會(huì) 逐漸變得不可 訪問(wèn) 。 因此, 對(duì)計(jì)算化學(xué)領(lǐng)域中的科研數(shù)據(jù)進(jìn)行長(zhǎng)期保存, 確保在相當(dāng)長(zhǎng)的一段 時(shí)間 內(nèi)數(shù)據(jù)的可 訪問(wèn) 性和 重用 性 是非常有意義的。 數(shù)據(jù)保存的研究熱點(diǎn) 包括: 數(shù)據(jù)的遷移、仿真,數(shù)據(jù)的完整性、 真實(shí)性,分布式環(huán)境中的數(shù)據(jù)知識(shí)庫(kù),元數(shù)據(jù)等 。本文主要關(guān)注 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)的構(gòu)建兩方面 問(wèn)題 。 通過(guò) 將遺留的計(jì)算化學(xué)軟件的數(shù)據(jù) 描述 文件格式轉(zhuǎn) 換 為當(dāng)前比較通用 、廠商中立的 化學(xué) 數(shù)據(jù) 表示形式 以 解決遺留格式的可訪問(wèn)性問(wèn)題; 構(gòu)建 保存元數(shù)據(jù) 描述數(shù)據(jù)文件本身和數(shù)據(jù)文件的 變化 過(guò)程, 用于 支持?jǐn)?shù)據(jù)的 長(zhǎng)期 保存過(guò)程, 使得未來(lái)的用戶能夠訪問(wèn)和重用 數(shù)據(jù) 。 通過(guò) 有效的 保存化學(xué)家 科學(xué) 實(shí)驗(yàn)過(guò)程中產(chǎn)生的科研數(shù)據(jù), 能夠 在一定程度上避免 其他化學(xué)家的 重復(fù)計(jì)算,實(shí)驗(yàn)結(jié)果能夠得到驗(yàn)證, 為開發(fā)新方法提供數(shù)據(jù) 支持; 為數(shù)據(jù)挖掘提供有價(jià)值的 數(shù)據(jù) 資 源 , 為 論文等 出版物提供支撐信息。 蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 4 究現(xiàn)狀以及分析 研數(shù)據(jù)保存的 研究現(xiàn)狀 近幾年來(lái),許多國(guó)外高校、 科研機(jī)構(gòu)都建立了機(jī)構(gòu)知識(shí)庫(kù)( 簡(jiǎn)稱 ,用 于 管理 、 保存 和分發(fā) 本機(jī)構(gòu)科研人員在 科學(xué)研究中 的智能輸出 21。這些智能輸出 包括未出版的論 文、 無(wú)法公開發(fā)表的論文 以及 一些 科研數(shù)據(jù) 。機(jī)構(gòu)知識(shí)庫(kù)的主要目的是提供一套用于管理和傳播各個(gè)部門及其成員創(chuàng)作的數(shù)字化產(chǎn)品的服務(wù) ,提供科研數(shù)據(jù)的開放獲?。?和學(xué)術(shù)交流 。機(jī)構(gòu)知識(shí)庫(kù) 被認(rèn)為是 能夠 直 接訪問(wèn)科研結(jié)果的 最具有成本效益的 方式。 機(jī)構(gòu)知識(shí)庫(kù)通過(guò)捕獲、保存和分發(fā) 本 機(jī)構(gòu)的智力 輸出 ,能 較為 容易的證明該機(jī)構(gòu)的科學(xué)和社會(huì)價(jià)值。 比較著名的 機(jī)構(gòu)知識(shí)庫(kù) 有劍橋大學(xué) 建的 國(guó)麻省理工學(xué)院 建的 及 大學(xué)構(gòu)建的機(jī)構(gòu)知識(shí)庫(kù)。 這些機(jī)構(gòu)知識(shí) 庫(kù) 主要是保存文本性的數(shù)據(jù) , 比如 期刊論文、會(huì)議論文、學(xué)位論文、技術(shù)報(bào)告、學(xué)習(xí)資料、管理資料、圖書、課件 。 在化學(xué) 數(shù) 據(jù) 的 保 存 方面 , 劍 橋 大 學(xué) 究 組 在基礎(chǔ)上,開發(fā)了大量的 面向 化學(xué)的 機(jī)構(gòu)知識(shí)庫(kù) , 有。 用于提交、 存儲(chǔ)和發(fā)布 合成化學(xué)、計(jì)算化學(xué)和晶體化學(xué)中的化學(xué)資料和科研數(shù)據(jù) 22;于提交、 存儲(chǔ) 和發(fā)布論文中出現(xiàn)的化學(xué)資料和科研數(shù)據(jù) 23, 24; 一個(gè)管理 化學(xué) 晶體數(shù)據(jù)的 知識(shí)庫(kù) , 通過(guò) 自動(dòng)的從網(wǎng)絡(luò)上收集晶體數(shù)據(jù) ,然后轉(zhuǎn)換 為基于 數(shù)據(jù),添加語(yǔ)義信息幫助瀏覽 和 檢索,并隨著 最新出版的 晶體 信息 文獻(xiàn) 進(jìn)行更新 25; 供了組織、共享和檢索量子化學(xué)中的數(shù)據(jù) 26。 圖建立一個(gè)機(jī)構(gòu)知識(shí)庫(kù)聯(lián)盟,用于管理和分發(fā)晶體實(shí)驗(yàn)的原始數(shù)據(jù)和結(jié)果數(shù)據(jù),并 通過(guò)添加保存元數(shù)據(jù)( , 增強(qiáng) 機(jī)構(gòu)知識(shí)庫(kù)中數(shù)據(jù)的 長(zhǎng)期保存 功能 27, 28。 據(jù)保存實(shí)現(xiàn)的研究現(xiàn)狀 大多數(shù)的數(shù)據(jù)保存知識(shí)庫(kù)都是基于 參考模型 實(shí)現(xiàn)的。 開放檔案信息系統(tǒng) 是由美國(guó)空間數(shù)據(jù)系統(tǒng)咨詢委員會(huì) 定 的,最初是作為產(chǎn)生空間數(shù)據(jù)的形式化標(biāo)準(zhǔn) , 并在 2003 年作為 標(biāo)準(zhǔn)( 4721: 2003) 發(fā)布。 它是一個(gè)功能性的框架,描述了數(shù)據(jù)保存知識(shí)庫(kù)中 基本的數(shù)據(jù)流向和 需 要的 功能 組件。 認(rèn)為是高蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 5 度抽象的參考模型,描述了數(shù)據(jù)保存 知識(shí)庫(kù) 應(yīng)有的責(zé)任, 而不是推薦任何特定的實(shí)現(xiàn) 29。它沒(méi)有涉及任何功能實(shí)現(xiàn)的技術(shù)細(xì)節(jié),比如系統(tǒng)架構(gòu)、存儲(chǔ)或處理技術(shù)、數(shù)據(jù)庫(kù)的設(shè)計(jì)、計(jì)算平臺(tái)等。 數(shù)據(jù)保存涉及許多復(fù)雜的問(wèn)題, 包括數(shù)據(jù)的遷移、仿真,數(shù)據(jù)的完整性、真實(shí)性,分布式環(huán)境中的數(shù)據(jù)知識(shí)庫(kù),元數(shù)據(jù)等 。 遷移和仿真是 兩種常用的數(shù)據(jù)保存策略 。遷移 聚焦于數(shù)字對(duì)象本身 , 它是 將數(shù)據(jù)從一個(gè)平臺(tái)轉(zhuǎn)移到另一個(gè)平臺(tái),包括硬件平臺(tái)和軟件平臺(tái)。而 仿真不聚焦于數(shù)據(jù) 對(duì)象 ,是通過(guò) 模擬 對(duì)象的軟件和硬件環(huán)境 , 重新創(chuàng)建對(duì)象的軟硬件環(huán)境 ,從而 顯示和 呈現(xiàn) 數(shù)據(jù) 。 如何選擇保存的策略 依賴于 需要 保存的對(duì)象、 數(shù)據(jù)知識(shí)庫(kù)的要 求 等 。 歐盟的 目 主要研 究了分布式環(huán)境中的數(shù)據(jù)保存, 開發(fā)了數(shù)據(jù)保存的框架和相應(yīng)的應(yīng)用程序解決方案 ,維護(hù)了數(shù)據(jù)的長(zhǎng)期可訪問(wèn)性,并確保了數(shù)據(jù)的真實(shí)性和完整性。該項(xiàng) 目采用數(shù)據(jù)格式遷移作為系統(tǒng)的保存策略,利用網(wǎng)格和云環(huán)境 維護(hù)和管理 眾多的 數(shù)據(jù), 利用元數(shù)據(jù)描述數(shù)據(jù)對(duì)象本身和數(shù)據(jù)的 溯源信息 ,確保數(shù)據(jù)的長(zhǎng)期保存 30, 31。 類似的項(xiàng)目還有 2,它是一個(gè)分布式的、 由多個(gè)協(xié)作的節(jié)點(diǎn)構(gòu)成的數(shù)據(jù)保存系統(tǒng),通過(guò)執(zhí)行預(yù)定義的工作流實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期保存 。 荷蘭科學(xué)數(shù)據(jù)檔案館的 目下的子項(xiàng)目 在研究將數(shù)據(jù)遷移為 從而 增強(qiáng)數(shù)據(jù)的耐用性和重用性 33。 目采用了仿真技術(shù),并開發(fā)了一個(gè)仿真器 該仿真器 用 寫, 利用 擬機(jī) 的 優(yōu)勢(shì) ,使得它能在大多數(shù)的操作系統(tǒng)和硬件架構(gòu)上運(yùn)行 34, 35。 人 基于 考模型,開發(fā)了一個(gè)新的用于處理溯源數(shù)據(jù)、描述相關(guān)事件的模型確保數(shù)據(jù)的 真實(shí)性 37, 研究數(shù)據(jù)的完整性和真實(shí)性的還 有 37, 38。 元數(shù)據(jù)即“關(guān)于數(shù)據(jù)的數(shù)據(jù)”, 用于描述 數(shù)據(jù)的特點(diǎn)和屬性 。 元數(shù)據(jù) 比較準(zhǔn)確 的定義是:用于支持一個(gè)特定數(shù)據(jù)對(duì)象的結(jié)構(gòu)化的 數(shù)據(jù) ,比如描述、識(shí)別、發(fā)現(xiàn)、檢索、權(quán)利管理和保存 39。 本文重點(diǎn)關(guān)注用于 保存的元數(shù)據(jù),即保存元數(shù)據(jù),因此這里主要介紹保存元數(shù)據(jù)。保存元數(shù)據(jù)是元數(shù)據(jù)的一種,用于支持?jǐn)?shù)據(jù)知識(shí)庫(kù)中數(shù)據(jù)的長(zhǎng)期保存過(guò)程。 美國(guó)的研究圖書館組織 究了用于促進(jìn)數(shù)據(jù) 圖像的保存和訪問(wèn) 的元數(shù)據(jù) ;澳大利亞國(guó)家圖書館創(chuàng)建了用于 數(shù)據(jù) 保存的邏輯數(shù)據(jù)模型 ; 新西蘭國(guó)家圖書館開發(fā)了用于支持新西蘭國(guó)家圖書館中的數(shù)據(jù)保存活動(dòng)的元數(shù)據(jù)模式;等等 。 在開發(fā)數(shù)據(jù)保存 知識(shí)庫(kù) 的過(guò)程中采用了保存元數(shù)據(jù) 的 還有新西蘭國(guó)家 圖書館、 目等 40。 利用已存在的 保存 元數(shù)據(jù)模型 立保存元數(shù)據(jù)的有 州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 6 28和 目 41。 究現(xiàn)狀分析 綜上所述, 機(jī)構(gòu)知識(shí)庫(kù)作為數(shù)據(jù)保存實(shí)現(xiàn)的一種特定形式,用于保存本機(jī)構(gòu)人員產(chǎn)生的智能輸出,但是 現(xiàn) 有的 大部分機(jī)構(gòu)知識(shí)庫(kù) 通常很少關(guān)注 數(shù)據(jù) 的長(zhǎng)期保存 41對(duì)數(shù)據(jù)的長(zhǎng)期保存不太重視 。 國(guó)內(nèi)方面的工作剛剛起步。 因?yàn)?他們認(rèn)為創(chuàng)建機(jī)構(gòu)知識(shí)庫(kù)主要的目的 是 提供一個(gè)機(jī)構(gòu)的智能輸出的 開放獲取,而不是提供數(shù)據(jù)的 長(zhǎng)期保存 ,確保未來(lái)用戶的可訪問(wèn)性和重用性 。因此 ,對(duì)計(jì)算化學(xué) 科研實(shí)驗(yàn)過(guò)程 中 產(chǎn)生的 大量 科研數(shù)據(jù)進(jìn)行長(zhǎng)期保存,確保在相當(dāng)長(zhǎng)的一段 時(shí)間 內(nèi)的數(shù)據(jù)的可訪問(wèn)性和重用 性 是非常有意義的 。 數(shù)據(jù) 保存是一個(gè)很復(fù)雜的問(wèn)題, 本文 主要 利用數(shù)據(jù) 格式 的 遷移和 保存 元數(shù)據(jù)確保 數(shù)據(jù)的長(zhǎng)期保存 。以計(jì)算化學(xué)領(lǐng)域的科研數(shù)據(jù)為例, 重點(diǎn)研究 如何實(shí)現(xiàn)計(jì)算化學(xué) 中的 科研數(shù)據(jù) 格式 的遷移和 保存 元數(shù)據(jù)的 構(gòu)建 , 使得未來(lái)的用戶能夠訪問(wèn)和重用 化學(xué)家在科學(xué) 實(shí)驗(yàn)過(guò)程中 產(chǎn)生的 數(shù)據(jù) 。 究?jī)?nèi)容 本文在 分析計(jì)算化學(xué)領(lǐng)域的科研數(shù)據(jù)的特點(diǎn), 研究 通用的 數(shù)據(jù)保存知識(shí)庫(kù)的參考模型 相關(guān)的理論 和 技術(shù)的基礎(chǔ)上 , 重點(diǎn)研究了 數(shù)據(jù)保存中的兩個(gè)問(wèn)題: 數(shù)據(jù) 格式 的遷移和 保存 元數(shù)據(jù) 的構(gòu)建 ,并開發(fā)了相關(guān)的軟件 。 數(shù)據(jù)格式的遷移解決 了 計(jì)算化學(xué)中 遺留 數(shù)據(jù) 格式的可訪問(wèn)性問(wèn)題;應(yīng)用保存元數(shù)據(jù) 支持 數(shù)據(jù)的長(zhǎng)期 保存過(guò)程, 能夠 確保 科研 數(shù)據(jù)的可重用性 , 使得未來(lái)的用戶能夠訪問(wèn)和重用數(shù)據(jù) 。本文的 主要 研究工作 包括以下幾個(gè)方面 : 1) 研究 數(shù)據(jù)保存相關(guān)的理論和技術(shù)。 數(shù)據(jù)保存相關(guān)的理論和技術(shù)主要包括:開放檔案信息系統(tǒng) 參考模型 據(jù)保存的策略:遷移和仿真,用于支持?jǐn)?shù)據(jù)保存的 保存 元數(shù)據(jù)模型 及在實(shí)現(xiàn)數(shù)據(jù)遷移和構(gòu)建 保存元數(shù)據(jù)的過(guò)程中涉及的 技術(shù): 2) 科研數(shù)據(jù) 遷移 的 研究 。 在分析計(jì)算化學(xué)中的科研數(shù)據(jù) 格式 及其特點(diǎn),以及常用的化學(xué) 數(shù)據(jù) 描述方式的基礎(chǔ)上,研究了 計(jì)算化學(xué)中 的 科研數(shù)據(jù) 格式 到 式之間的轉(zhuǎn)換。分析了轉(zhuǎn)換的相關(guān)理論,提出了 數(shù)據(jù)遷移 的系統(tǒng)架構(gòu) 和 實(shí)現(xiàn)策略, 并 以計(jì)算化學(xué)軟件例, 研究和實(shí)現(xiàn)了 件中的科研數(shù)據(jù)到 件 的轉(zhuǎn)換 。 3) 保存元數(shù)據(jù) 的 研究 。 蘭州大學(xué)碩士研究生學(xué)位論文 科研數(shù)據(jù)的遷移和保存元數(shù)據(jù)研究 7 分析了 據(jù)模型,研究了如何構(gòu)建保存元數(shù)據(jù)。提出了構(gòu)建保存元數(shù)據(jù)的系統(tǒng)架構(gòu), 分析了實(shí)現(xiàn) 保存元數(shù)據(jù)過(guò)程中的 重 要模塊之間的執(zhí)行邏輯 、數(shù)據(jù)的不變性、完整性和真實(shí)性 , 并展示了一個(gè) 應(yīng)用實(shí)例 。 數(shù)據(jù) 格式 的 遷移 和保存元數(shù)據(jù) 的構(gòu)建 并不是完全不相關(guān)的, 遷移 是常用的數(shù)據(jù) 保存的方法 ,保存元數(shù)據(jù)用于描述數(shù)據(jù)文件本身以 及數(shù)據(jù)文件的變換過(guò)程,即數(shù)據(jù) 格式 的 遷移 過(guò)程也必須采用 保存 元數(shù)據(jù)進(jìn)行描述。 數(shù)據(jù)的保存需要保存數(shù)據(jù)文件本身和 數(shù)據(jù)處理的 過(guò)程。 文的組織結(jié)構(gòu) 論文共分為 5 章,組織結(jié)構(gòu)如下: 第一章 緒論。論述了科研數(shù)據(jù)保存的研究 背景 , 研究意義, 分析了數(shù)據(jù)保存的研究現(xiàn)狀,然后簡(jiǎn)述了本文的主要 研究?jī)?nèi)容 。 第二章 相關(guān)技術(shù) 概述 。 概述 了 與 本文相關(guān)的 理論和 技術(shù) ,包括 數(shù)據(jù)的遷移 、 語(yǔ)言分析器工具 數(shù)據(jù)以及 據(jù)模型 。 第 三 章 科研數(shù)據(jù)遷移 研究 。 分析 了 轉(zhuǎn)換的 基本 理論 和實(shí)現(xiàn)步驟 , 提 出了數(shù)據(jù) 遷移 的 系統(tǒng)架構(gòu) 和實(shí)現(xiàn)策略 , 并 以計(jì)算化學(xué)軟件 輸入數(shù)據(jù)文件 為例, 詳細(xì)描述了數(shù)據(jù)的驗(yàn)證和數(shù)據(jù)的轉(zhuǎn)換過(guò)程 。 第 四 章 科研數(shù)據(jù)的 保存元數(shù)據(jù) 研究 。 提出了構(gòu)建保存元數(shù)據(jù)的系統(tǒng)架構(gòu),分析了 實(shí)現(xiàn)保存元數(shù)據(jù)過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論