版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
元數(shù)據(jù)在電子化學位論文中的應(yīng)用探討金毅王紹平(上海交通大學情報科學技術(shù)研究所,上海200030)摘要目前,元數(shù)據(jù)的研究和應(yīng)用方興未艾。網(wǎng)絡(luò)電子資源使用元數(shù)據(jù)的優(yōu)點是顯而易見的,但只有基本的元素和修飾詞比較一致,有了統(tǒng)一的標準,而在某些專業(yè)領(lǐng)域的應(yīng)用上還不成熟,研究也不夠深入。本文參考國內(nèi)外在電子化學位論文和元數(shù)據(jù)研究和應(yīng)用的最新成果,探討了元數(shù)據(jù)在電子化學位論文中的應(yīng)用,總結(jié)了電子化學位論文中使用元數(shù)據(jù)的優(yōu)點并提出一個初步的元數(shù)據(jù)集。關(guān)鍵詞學位論文電子化元數(shù)據(jù)DCThestudyonapplicationofmetadatainelectronicthesisanddissertationJinYi,WangShaoping(InstituteofInformationScienceandTechnology,ShanghaiJiaoTongUniversity,Shanghai200030)
AbstractThestudyandapplicationofmetadataareboomingnow.Theadvantagesofusingmetadatafornetworkelectronicresourcesareobvious.Butonlythebasicmetadataelementsandqualifiershaveunifiedstandard.Researchandapplicationinsomespecialareasarenotdeep.Thisarticlestudiesthelatestresearchonmetadataandelectronicthesis,anddiscussestheusageofmetadatainelectronicthesis,concludestheadvantagesoftheapplication,andproposesaninitialmetadataelementset.Keywordsthesis,dissertation,electronic,metadata,DC1引言
隨著信息技術(shù)的發(fā)展和Internet應(yīng)用的日益普及和深入,網(wǎng)上資源成為獲取信息越來越重要的途徑。提供數(shù)字化、無紙化的電子網(wǎng)絡(luò)信息服務(wù)是圖書館等信息提供者的當務(wù)之急。研究生學位論文是研究生申請碩士或博士學位的研究成果,對于相關(guān)專業(yè)的研究開發(fā)有重要的參考價值?,F(xiàn)在許多高校都在積極研究和開發(fā)學位論文的電子化,作為將來數(shù)字化圖書館的重要組成部分,無疑是很有意義的工作。但網(wǎng)絡(luò)信息資源的存儲、獲取、使用和傳輸與傳統(tǒng)信息資源又有很大不同,如何在浩如煙海的網(wǎng)絡(luò)信息空間中高效、迅速地做到信息的共享和交換,如何為電子化的網(wǎng)絡(luò)資源提供有效的信息組織方式,是當今信息網(wǎng)絡(luò)發(fā)展的一個熱點。
圖書館界和情報界對信息資源數(shù)據(jù)規(guī)范的研究已經(jīng)很久了,元數(shù)據(jù)也不是新生事物,傳統(tǒng)的圖書館卡片、圖書的版權(quán)說明等都是元數(shù)據(jù)。標準的元數(shù)據(jù)格式也已經(jīng)廣泛使用,如MARC(機讀目錄格式)、AACR(英美編目條例)等都是元數(shù)據(jù)的格式。目前絕大部分的書目記錄均采用上述格式,在數(shù)據(jù)檢索的查準率和數(shù)據(jù)描述的豐富性上還沒有其他的元數(shù)據(jù)格式可以超過它們。但是MARC和AACR也有局限性:需要在專門的軟件系統(tǒng)中使用,不太適合Internet的環(huán)境;編制記錄要經(jīng)專業(yè)訓練,花費較長的時間;不易處理動態(tài)的多媒體信息;程序修訂復雜、緩慢。由于以上這些局限性,在網(wǎng)絡(luò)環(huán)境中傳統(tǒng)的數(shù)據(jù)描述格式已跟不上形勢發(fā)展的需求,許多元數(shù)據(jù)研究項目紛紛出現(xiàn)。
眾多的元數(shù)據(jù)研究項目中,在圖書館界和情報界影響最大、應(yīng)用最為廣泛的就是DC(DublinCore)MetadataElementSet,既都柏林核心元數(shù)據(jù)集。從1995年產(chǎn)生,經(jīng)6年多的研究和探討,DC已被翻譯成多種文字,用戶遍及世界各地。許多國家已經(jīng)將DC納入國家標準中描述電子信息的一個部分,其影響正在不斷擴大。電子化的學位論文因其特點,非常適合采用以DC為基礎(chǔ)的元數(shù)據(jù)來描述,具有很好的應(yīng)用前景。
2電子化學位論文采用元數(shù)據(jù)的優(yōu)點
DC元數(shù)據(jù)集由15個基本元素組成,這15個基本元素稱為“簡單DC”,分三個部分:內(nèi)容描述部分、知識產(chǎn)權(quán)部分和外形描述部分。根據(jù)DC的可選擇性原則,可以簡化著錄項,最低限度只要7個元素(題名、主題、出版者、日期、類型、格式和標識符)就可以了。為了描述需要詳細著錄的資源,DC又推出了“復雜DC”,引進了修飾詞的概念,用于進一步明確元數(shù)據(jù)的特性。這樣可以把MARC、AACR的優(yōu)點和各種已有的分類法、主題詞表等控制語言吸收進來,極大地豐富了DC的描述性,并允許DC的地方版在15個基本元素的基礎(chǔ)上增加新的元素和修飾詞。DC的整個元素集是可擴展的,每個元素可以重復使用或有選擇地使用,而且還可以擁有子類型和子模式來增強功能。這樣,DC就具有可選擇性、可修飾性、可重復性和可擴展性的優(yōu)點。在電子化學位論文中使用以DC為基礎(chǔ)的元數(shù)據(jù)能充分發(fā)揮DC元數(shù)據(jù)在描述電子信息資源的優(yōu)勢,具有以下優(yōu)點:
(1)數(shù)據(jù)結(jié)構(gòu)簡單,可讀性強。DC只有15個基本著錄項,而且可以重復使用或有選擇地使用。通過使用修飾詞,可以方便地擴展和描述電子資源信息。相對于MARC數(shù)據(jù)格式,DC的數(shù)據(jù)結(jié)構(gòu)大大簡化了。而MARC元數(shù)據(jù)正如其名字本身所說明的,是計算機可讀及處理的數(shù)據(jù),對人而言,可讀性很差,對軟硬件平臺的依賴性很強。DC元數(shù)據(jù)使用標記語言的格式,兼容性和不依賴于軟硬件平臺的獨立性都很強。
在電子化學位論文中考慮采用的元數(shù)據(jù)(參見表1)大部分能在DC元數(shù)據(jù)集中直接得到,一些描述學位論文所需要的擴展信息可以通過使用修飾詞和擴展元素的辦法解決。
(2)著錄方便,生成記錄簡單快速。使用者無需經(jīng)過專業(yè)的培訓就可以為自己的資源創(chuàng)建元數(shù)據(jù),著錄格式很容易掌握和理解。上海交通大學從1996年開始要求研究生在論文答辯后提交學位論文的電子版本,在確定學位論文使用的元數(shù)據(jù)后,就可以讓學生在網(wǎng)上提交電子版本論文的同時,填寫一張簡單的著錄表格,經(jīng)程序檢查、處理后直接生成學位論文的元數(shù)據(jù)。這樣就可以讓學生自己完成學位論文的數(shù)據(jù)著錄,既大大減少了圖書館數(shù)據(jù)著錄人員的工作,也使學位論文的數(shù)據(jù)可以在第一時間轉(zhuǎn)入數(shù)據(jù)庫并提供網(wǎng)上檢索,數(shù)據(jù)滯后的時間將從幾個月縮短為幾天,甚至當天錄入當天即可在網(wǎng)上檢索到。而目前采用傳統(tǒng)的著錄方式,必須使用專用的編目軟件,著錄人員要經(jīng)過一段時間的嚴格培訓,并且編目方法也要復雜得多,學位論文的數(shù)據(jù)無法在短時間內(nèi)錄入、轉(zhuǎn)換入庫,網(wǎng)上檢索就更滯后了。
(3)DC是為電子資源量身定制的。DC本身就是隨著信息技術(shù)的發(fā)展和Internet應(yīng)用的日益普及和深入應(yīng)運而生,其可選擇性、可修飾性、可重復性和可擴展性的特點可以有效揭示電子資源的特征,為網(wǎng)絡(luò)電子資源的分類、組織和索引提供更好的途徑。DC描述的重點是電子資源的內(nèi)容、內(nèi)部結(jié)構(gòu)及應(yīng)用和管理,而不象傳統(tǒng)的著錄方法有很多外形特征的描述。使用DC,能很好地反映電子化學位論文的內(nèi)容和特征,比如學位論文的數(shù)據(jù)格式、全文指針、學位級別、保密級別等,都可以使用恰當?shù)腄C元素來反映。
(4)更適合在Internet上使用。電子化學位論文最終是應(yīng)該在Internet上檢索和瀏覽的?,F(xiàn)在網(wǎng)上的搜索引擎,如Yahoo、Sohu、Sina等的工作方式,主要是通過自動搜索軟件到站點抓取網(wǎng)頁,將網(wǎng)頁內(nèi)容索引后建立數(shù)據(jù)庫提供檢索。網(wǎng)頁使用的HTML語言有一個META標簽可以定義網(wǎng)頁的屬性,一般常用來定義網(wǎng)頁的主題詞和摘要,這樣搜索引擎可以直接將網(wǎng)頁的主題詞和摘要收錄進數(shù)據(jù)庫。否則就只能對整個網(wǎng)頁的內(nèi)容進行索引,這必然使查準率受到影響,檢索效率低下。
目前,DC元數(shù)據(jù)的存儲與管理大致有以下幾種方法:1)嵌入在信息資源中2)與通信協(xié)議捆綁3)存儲在數(shù)據(jù)庫中4)獨立的元數(shù)據(jù)文件
其中將DC元數(shù)據(jù)嵌入在信息資源中的方法目前使用得較多,一個最主要的應(yīng)用領(lǐng)域是基于HTML的應(yīng)用。根據(jù)“DC元數(shù)據(jù)在HTML中的編碼規(guī)則”(即RFC2731),DC元數(shù)據(jù)在HTML中的應(yīng)用主要與兩個HTML標簽有關(guān),一個是上面提到的META標簽,另一個是LINK標簽。通過使用這兩個標簽,DC元數(shù)據(jù)就方便地嵌入到HTML文件中。這樣搜索引擎可以有效地抓取和索引網(wǎng)頁文件中的DC元數(shù)據(jù)。本文的第3、4部分介紹了具體的使用方法和一個實例。雖然將DC元數(shù)據(jù)嵌入到HTML文件中使用方便,句法簡單,但考慮到HTML本身的結(jié)構(gòu)性不強,擴展能力和描述能力較差,以后的應(yīng)用方向應(yīng)該是與XML相關(guān),基于RDF(ResourceDescriptionFramework)的形式。XML在結(jié)構(gòu)化、擴展性、內(nèi)容描述等方面都要大大優(yōu)于HTML,是Internet發(fā)展的一個重要方向。DC元數(shù)據(jù)可以很好地嵌入到基于XML的RDF框架中,適應(yīng)將來技術(shù)發(fā)展的需要,也為不同元數(shù)據(jù)體系之間提供更好的互操作性。
此外,與通信協(xié)議捆綁也是一個很有前途的應(yīng)用方向。比如與圖書情報界使用較多的Z39.50協(xié)議相聯(lián)系,DC元數(shù)據(jù)可以得到更為有效和廣泛的使用。同時,DC元數(shù)據(jù)也可以象傳統(tǒng)的元數(shù)據(jù)一樣,存儲在數(shù)據(jù)庫中或作為獨立的元數(shù)據(jù)文件存在。在Internet的網(wǎng)絡(luò)環(huán)境下,DC元數(shù)據(jù)的存儲與管理有多種選擇和很大的靈活性,有著樂觀的發(fā)展前景。
3電子化學位論文使用的元數(shù)據(jù)集
確定電子化學位論文使用的元數(shù)據(jù)集,綜合考慮了以下幾個方面的因素:
(1)目前國內(nèi)學位論文使用的數(shù)據(jù)格式,比較統(tǒng)一的是由國家教育部CALIS支持并資助的高校學位論文數(shù)據(jù)庫項目所采用的數(shù)據(jù)規(guī)范,該項目由進入“211工程”的62所學校合作建設(shè),其數(shù)據(jù)格式也被參加的學校所共同采用。該數(shù)據(jù)格式定義完整、詳細,遵循國家標準GB/T2901-92(書目信息交換用磁帶格式),并使用標準推薦執(zhí)行的“中國公共交換格式(CCFC)”著錄。電子化學位論文使用的元數(shù)據(jù)主要參考了該數(shù)據(jù)規(guī)范。
(2)在國外,電子化學位論文研究比較早,也比較有成果的是美國的ETD(ElectronicThesisandDissertation)項目。該項目目前有120個成員,包括105所大學和15個研究所。上海交通大學是中國大陸唯一一所參加該項目的大學,從1999年開始與ETD項目組開展關(guān)于研究和實現(xiàn)學位論文電子化的交流,為自己的學位論文電子化建設(shè)提供了許多有益的建議。ETD項目組在最近的會議上提出了ETD互用性元數(shù)據(jù)標準(ETD-ms:anInteroperabilityMetadataStandardforElectronicThesesandDissertations,Version1.00),該標準定義了用于描述電子化學位論文的元數(shù)據(jù)標準。為了與ETD項目成員之間的數(shù)據(jù)規(guī)范保持一致,以利于數(shù)據(jù)共享和交換,我們在電子化學位論文使用的DC元素集中保留了ETD互用性元數(shù)據(jù)標準的所有元素。
(3)OCLC的合作在線資源目錄(CooperativeOnlineResourceCatalog,簡稱CORC),是一個在網(wǎng)絡(luò)環(huán)境下為本地或網(wǎng)絡(luò)電子資源建立元數(shù)據(jù)的系統(tǒng)。CORC系統(tǒng)為創(chuàng)建網(wǎng)絡(luò)電子資源元數(shù)據(jù)提供了很好的平臺,通過專門的自動工具和服務(wù)功能,可以讓使用者采用自己熟悉的標準(如MARC)來完成元數(shù)據(jù)的著錄和制作,并能以各種格式(如DC、XML等)輸出記錄。CORC為維護現(xiàn)有記錄和通過館際合作提供網(wǎng)上電子資源起到很好的示范作用,顯示了元數(shù)據(jù)應(yīng)用的廣闊前景。CORC的數(shù)據(jù)格式和著錄規(guī)范也是我們在確定電子化學位論文使用的元數(shù)據(jù)集的重要參考。
(4)另外一個給我們提供很多有益參考的站點是關(guān)于推廣可互用在線DC元數(shù)據(jù)標準的論壇,地址是,該站點上有許多DC元數(shù)據(jù)的研究和應(yīng)用文檔,以及國際會議、合作項目等的最新動態(tài)。其不斷更新的DC圖書館應(yīng)用綱要(DC-LibraryApplicationProfile,DC-LAP)總結(jié)了DC元素及應(yīng)用的最新研究成果,是關(guān)心DC元數(shù)據(jù)發(fā)展應(yīng)該密切注意的。
表1電子化學位論文使用的元數(shù)據(jù)集元素說明注釋dc.title論文題名必選dc.title.alternative并列題名dc.creator論文作者必選dc.subject主題標識必選dc.description.abstract文摘dc.description.note載體外形描述、記錄來源、注釋項dc.description.release版本dc.publisher出版單位dc.contributor其他貢獻者,如導師必選dc.contributor.role其他貢獻者角色dc.date論文完成日期必選dc.type文獻類型dc.format格式dc.identifier全文指針dc.language文獻語種必選dc.coverage范圍dc.rights保密級別學位級別必選thesis.degree.level教育層次thesis.degree.discipline作者單位thesis.degree.grantor授予單位dc.date.Submitted記錄生成日期#dc.format.medium文獻載體dc.identifier國際標準書號dc.identifier.callNumber館藏索取號N必選dc.contributor.attribute其他貢獻者單位#Corporate團體責任者*dc.date.published出版日期*dc.subject.class分類標識注:表中黑體元素為ETD互用性元數(shù)據(jù)標準(ETD-ms)中所確定的元素“#”參照的DC-LAP“*”參照OCLC的CORCDC著錄規(guī)范“N”為新增加的修飾詞
對表1中元素的一些說明:
大部分元素的用法和含義與DC元數(shù)據(jù)集的基本規(guī)范一致,本文不再詳細介紹,具體可參考。下面對與學位論文相關(guān)的以及新增加的元素作簡要的介紹,其中以“thesis”開頭的是ETD互用性元數(shù)據(jù)標準(ETD-ms)新增加的元素,是專門用于描述電子化學位論文的。(1)dc.title.alternative(并列題名),學位論文的英文題目。(2)dc.description.release(版本)說明學位論文的版本,應(yīng)使用復數(shù)。(3)dc.contributor.role(角色),其他貢獻者的角色,如導師、答辯委員會成員等。(4)dc.type(文獻類型),說明資源內(nèi)容的性質(zhì),ETD采用“ElectronicThesisorDissertation”;用“Text”,見/documents/dcmi-type-vocabulary/(5)dc.format(格式),指學位論文的數(shù)據(jù)格式(標準MIME類型),上海交通大學要求提交Word格式的學位論文,使用Application/msword,其他類型可以參照/in-notes/iana/assignments/media-types/media-types(6)dc.identifier說明學位論文對應(yīng)的全文指針,是一個可以瀏覽和下載該學位論文全文的地址,一般是是URI(統(tǒng)一資源標識符,UniformResourceIdentifier)。(7)(學位級別),論文申請的學位級別,如工學博士、理學碩士等。(8)thesis.degree.level(教育層次),說明論文的教育級別,如碩士、博士、博士后等。(9)thesis.degree.discipline(作者單位),通常是作者所在系、專業(yè),或論文涉及的項目名等。(10)thesis.degree.grantor(授予單位),授予學位的單位名稱。(11)dc.format.medium(文獻載體),一些早期的學位論文尚沒有電子化,本元素指明其載體特征,如印刷體、縮微體等。(12)dc.identifier.callNumber(館藏索取號),說明學位論文的館藏索取號。雖然將來印刷體的學位論文使用會越來越少,但一段時間內(nèi),印刷體和電子板兩種形式是并存的,同時還有大量尚沒有電子化的早期學位論文,館藏索取號可用于聯(lián)系兩種形式的學位論文和獲取印刷體的學位論文。但DC元數(shù)據(jù)集里沒有相對應(yīng)的元素,我們就增加了這個表示館藏索取號的元素。(13)dc.subject.class(分類標識),采用“中國圖書館分類法”,通過scheme=“CLC”加以說明。
4學位論文元數(shù)據(jù)嵌入在HTML文件中的一個例子
下面是一篇電子化的博士學位論文,其元數(shù)據(jù)嵌入在一個HTML文件的<HEAD></HEAD>標簽對中。<html>
<head>
<title>Metadatasampleofadissertation</title>
<linkrel="schema.DC"href="/DC/elements/1.0/">
<linkrel="schema.THESIS"href="/standards/metadata/">
<metaname="DC.title"content="基于FIR型控制器的內(nèi)模控制策略研究">
<metaname="DC.title.alternative"content="ResearchonInternalModelcontrolsystembasedontheFIR-typedcontroller">
<metaname="DC.creator"content="李建">
<metaname="DC.subject"content="內(nèi)??刂?FIR型控制器,internalmodelcontrol,FIR-typedcontroller">
<metaname="DC.description.abstract"content="內(nèi)模控制是一種基于平行模型結(jié)構(gòu)的輸出誤差反饋控制系統(tǒng),其控制策略是使內(nèi)模控制器逼近受控對象的逆動態(tài)。本文針對內(nèi)??刂频奶攸c,在FIR型控制器結(jié)構(gòu)下,提出了三種直接利用受控對象脈沖響應(yīng)來實現(xiàn)內(nèi)??刂频男路椒?,并將其擴展到一般的多變量控制系統(tǒng)。對于同時存在參數(shù)與結(jié)構(gòu)時變的受控對象,研究了自適應(yīng)內(nèi)模控制的控制方法與控制特性。對于不穩(wěn)定受控對象,則提出了利用多重輸出誤差反饋的極點配置內(nèi)??刂撇呗?。"><metaname="DC.description.note"content="105頁"><metaname="DC.contributor"content="周成"><metaname="DC.date"content="1998-01-01">
<metaname="DC.type"content="ElectronicThesisorDissertation">
<metaname="DC.format"content="Application/msword">
<metaname="DC.identifier"content="/.../9232317.doc">
<metaname="DC.language"content="cn">
<metaname="THESIS."content="工學博士">
<metaname="THESIS.degree.discipline"content="電子工程系">
<metaname="THESIS.degre
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職業(yè)理想 課件
- 2024年湖南省長沙市中考生物真題卷及答案解析
- 愛迪生課件兒童
- 西京學院《微電網(wǎng)技術(shù)及應(yīng)用》2022-2023學年期末試卷
- 北師大小學數(shù)學六年級上《分數(shù)混合運算(三)》教程
- 中等職業(yè)學校教師教育教學水平能力測試成績單附件2
- 西京學院《電工電子學》2022-2023學年期末試卷
- 西華師范大學《中學歷史課程標準解讀與教材分析》2022-2023學年第一學期期末試卷
- 如何提高 課件
- 西華師范大學《計算思維》2021-2022學年期末試卷
- 服務(wù)質(zhì)量保障措施及進度保障措施
- 牙周炎詳細版課件
- 魚塘清淤回填施工技術(shù)方案
- 建筑工程企業(yè)自我評價報告書
- 江蘇省南京市聯(lián)合體2023~2024學年八年級下學期期末考試數(shù)學試卷
- 2024年交管12123學法減分考試試題庫及答案
- DZ∕T 0262-2014 集鎮(zhèn)滑坡崩塌泥石流勘查規(guī)范(正式版)
- 大學生數(shù)媒個人職業(yè)生涯規(guī)劃
- 2024燕舞集團限公司公開招聘10人公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 湘教版一年級上冊音樂全冊教案2
- 延安紅色文化資源開發(fā)利用研究
評論
0/150
提交評論