




已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Web時(shí)代的“元數(shù)據(jù)方法”(一)2008-11-20【轉(zhuǎn)自數(shù)圖筆記】Tag:元數(shù)據(jù) web時(shí)代 數(shù)字圖書館 web2.o 電子書 版權(quán)聲明:轉(zhuǎn)載時(shí)請(qǐng)以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明/logs/31554968.html描述一類資源,首先需要明確為什么要描述,也就是明確需求。需求決定了那些實(shí)體需要析出,分別有哪些屬性應(yīng)該被描述,以及實(shí)體之間、屬性之間的關(guān)系是什么。我們現(xiàn)在的”元數(shù)據(jù)方案”一般就管到這一步,成果是ER圖和屬性表,基本方法論就是實(shí)體-關(guān)系分析?;竟δ芙唤o關(guān)系數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。上面幾乎和數(shù)據(jù)庫(kù)系統(tǒng)的開發(fā)如出一轍。所不同的,我們的目的是建立標(biāo)準(zhǔn)化的、供行業(yè)(領(lǐng)域)或更大范圍使用的”元數(shù)據(jù)規(guī)范“。即我們希望提供的屬性表以及編碼方案應(yīng)該是可被大家共同遵守的、可共享和重用的。但是上面這種思考方法(“思考范式”),到了Web時(shí)代,雖然引入和“神秘的配方”元數(shù)據(jù),也還是不夠用的。1、 Web是一個(gè)開放的環(huán)境,其功能需求考慮的不光是”自己”的需求,這里的”自己”是指的是本地系統(tǒng)的”相關(guān)用戶”,借用術(shù)語(yǔ)來(lái)說:”傳統(tǒng)的需求定義只考慮了企業(yè)級(jí)應(yīng)用范圍內(nèi)的各類代理(agent)的需求”,Web用戶訪問特定應(yīng)用的目的和方式常常會(huì)超出系統(tǒng)設(shè)定的情境,并且Web用戶是不接受”培訓(xùn)” 的,他們會(huì)有更多的”替代”選擇,甚至你系統(tǒng)的look and feel不好,他們都會(huì)走人。因此一個(gè)優(yōu)秀的Web應(yīng)用,必須能夠具有更好的可用性和更強(qiáng)的功能性,必須把更多的可能性置于你的”控制”之下,即便不直接開放,也要提供開放的可能性。2、這就是為什么很多數(shù)字圖書館的Web應(yīng)用,不能僅僅以”實(shí)現(xiàn)需求”為目標(biāo),而要深層挖掘”為什么”的原因。特別是現(xiàn)在Web2.0概念引入,需求分析、設(shè)計(jì)、實(shí)現(xiàn)諸多流程合一,用戶常常不僅要提出需求,還要介入設(shè)計(jì),并且關(guān)心如何實(shí)現(xiàn)。大多數(shù)軟件公司希望你明確定義需求,而采用什么平臺(tái)技術(shù)架構(gòu)來(lái)實(shí)現(xiàn),不需要你來(lái)關(guān)心。這樣開發(fā)出來(lái)的數(shù)字圖書館或2.0應(yīng)用,雖然能夠?qū)崿F(xiàn)功能,但是幾乎肯定不是一個(gè)“好的應(yīng)用”。你可以責(zé)怪用戶沒有充分明確需求,很多隱含的需求沒有提出來(lái),但系統(tǒng)不好就是不好,誰(shuí)都有責(zé)任。3、當(dāng)然這個(gè)困境應(yīng)該是由于軟件工程還沒有發(fā)展出相應(yīng)的分析方法和設(shè)計(jì)工具,以及經(jīng)驗(yàn)流程性的東西能夠支撐Web級(jí)的數(shù)字圖書館或Web2.0應(yīng)用的開發(fā)而造成,也并非任何一方的責(zé)任。4、 Web級(jí)的應(yīng)用對(duì)于資源描述的需求可能就常常包含在那些未被提出的”隱含的需求”中,例如Web范圍內(nèi)的語(yǔ)義互操作、數(shù)據(jù)共享、代碼(方案)可重用、永久保存的需要,以及相關(guān)技術(shù)標(biāo)準(zhǔn)和協(xié)議的支持和遵循等等。這些規(guī)范的研討和制定,實(shí)際上也是為了將來(lái)省事:你只要遵循了我的這些標(biāo)準(zhǔn)規(guī)范,許多可能的”隱含需求”就自然而然能夠的到滿足,即便你的行為是無(wú)意識(shí)的,好處是奉送的。因此目前的”元數(shù)據(jù)方法“(全稱應(yīng)該是”Web資源描述的元數(shù)據(jù)方法”),已經(jīng)超越了僅僅提出一套(不管是普適的,例如DC,還是領(lǐng)域的,例如IEEE- LOM或者DCAP)元素集的階段,因?yàn)楣馐菍傩栽丶沁h(yuǎn)遠(yuǎn)不夠的。目前DCMI所做的,希望在思想方法上進(jìn)行一定的統(tǒng)一,即:基于”我們?nèi)绾慰创@個(gè)世界”建立描述世間萬(wàn)物的一般方法,而建立起一個(gè)一致的思考模型(”抽象模型”);并且基于這個(gè)抽象模型,提出一整套的描述體系和元數(shù)據(jù)方案。語(yǔ)義Web技術(shù)可以提供這種方法的技術(shù)基礎(chǔ)。可以說,我們正在向語(yǔ)義描述的”統(tǒng)一場(chǎng)論”進(jìn)發(fā)。 Web時(shí)代的“元數(shù)據(jù)方法”(二)2008-11-20Tag:電子書 數(shù)字圖書館 元數(shù)據(jù) 版權(quán)聲明:轉(zhuǎn)載時(shí)請(qǐng)以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明/logs/31554980.html感謝雨師對(duì)上文的反饋:“高屋建瓴”。我可能總是把屋建得太高,讓我慢慢落下來(lái)吧同樣的世界,以不同的方法和角度去看,會(huì)呈現(xiàn)出完全不同的樣子,不僅如此,甚至?xí)吹酵耆煌臇|西。由于計(jì)算機(jī)處理能力的提高和認(rèn)識(shí)與技術(shù)的進(jìn)步,人們?cè)絹?lái)越傾向于按照事物的本來(lái)面目去描述事物,只要能認(rèn)識(shí)到這種“面目”。其中,面向?qū)ο?”搞對(duì)象“?)的方法被認(rèn)為跟接近大千世界的本原(就不說“本體”了哈),也是當(dāng)前計(jì)算機(jī)認(rèn)識(shí)世界的主流方法,以前我們把萬(wàn)物僅僅看成是數(shù)字或文字,而世間萬(wàn)物都是相互獨(dú)立而又普遍聯(lián)系的,我們?yōu)槭裁床荒茉赪eb上建立真實(shí)世界的一種”面向?qū)ο蟆钡奶摂M鏡像涅?都柏林核心元數(shù)據(jù)抽象模型(DCAM )就提供了這樣一種“面向?qū)ο蟆笨创澜绲姆椒?。它是為了向?jì)算機(jī)描述我們這個(gè)世界而提出的,你可以設(shè)想向一群外星人解釋我們這個(gè)世界,你應(yīng)該如何向他們描述才能讓他們理解呢?亞里士多德把世界看成是幾種元素,我們到達(dá)不了那個(gè)境界(深度),只能說:世界都是由“東西”組成的,每個(gè)東西都是獨(dú)立的,東西和東西之間又都是有聯(lián)系的,認(rèn)識(shí)東西就是認(rèn)識(shí)它的特點(diǎn)(屬性),不同的人可能看到不同的特點(diǎn),把特點(diǎn)說出來(lái)就是描述。然后,外星人就懂了,說:“噢,我們那里也是這樣的”DCAM是完全基于語(yǔ)義Web的基礎(chǔ)RDF模型的,因此可以認(rèn)為它是語(yǔ)義Web描述這個(gè)世界的一種基本方式。當(dāng)然,向外星人解釋這個(gè)世界不應(yīng)該要求所有人都能干,這樣的話”數(shù)字圖書館員“也就沒有“核心競(jìng)爭(zhēng)力”了。所以現(xiàn)在DCMI這一幫人(以及愛好者,如本人和平臺(tái)江 等),以及SW(SemanticWeb)的一大幫人都在日夜奮戰(zhàn),希望能夠提供許多方便的工具、平臺(tái)或環(huán)境,使得同志們?cè)诎凑諔T常的方式工作的同時(shí),規(guī)范的、外星人能夠看懂的語(yǔ)義 描述能夠“自動(dòng)”建立起來(lái)。讓大量的人文煙鬼繼續(xù)并且更好地坑蒙拐騙、欺壓百姓。上述的目標(biāo)距離實(shí)現(xiàn)尚有很長(zhǎng)的路要走?,F(xiàn)在的重點(diǎn)工作,是基于DCAM,建立一整套面向應(yīng)用的規(guī)范體系和架構(gòu)。新加坡框架 就是這樣提出來(lái)的。其目的是為“元數(shù)據(jù)方案”(DCAP: Dublin Core Application Profile)提供一套理論:一套完整的描述應(yīng)該包括哪些內(nèi)容?分別的作用是什么?哪些是定理(例如”用戶永遠(yuǎn)正確“),哪些可以通融等等。其中最重要的,是有關(guān)DSP(Discription Set Profile:描述集方案)的定義和規(guī)定。都柏林核心元數(shù)據(jù)(DCM)現(xiàn)在是什么東西呢?它以15個(gè)基本元素著名,但它早已不是那個(gè)東西了,它已經(jīng)成為一套體系,包括一個(gè)模型 (DCAM:Dublin Core Abstract Model,包括)和一套詞表(Vocabulary:其中除了元素,又包括子元素針對(duì)屬性詞來(lái)說的;修飾詞針對(duì)取值來(lái)說的,修飾詞還有編碼體系修飾詞和“取值”修飾詞),以及諸多 正在完善中的規(guī)定(新加坡框架及其編碼)。欲知后事,且聽下文。 Web時(shí)代的“元數(shù)據(jù)方法”(三)2008-11-20Tag:數(shù)字圖書館 電子書 元數(shù)據(jù) web2.o 版權(quán)聲明:轉(zhuǎn)載時(shí)請(qǐng)以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明/logs/31554989.html就像用ASCII(或者Unicode)表示字符一樣,RDF(Resouce Description Framework)是表達(dá)語(yǔ)義的基礎(chǔ)。(有人把它直接叫做元數(shù)據(jù)編碼標(biāo)準(zhǔn),錯(cuò)是沒錯(cuò),過于狹窄了)。這時(shí)候你就不要管RDF也必然是基于字符集的,就像你一般不需要管字符的二進(jìn)制表達(dá)一樣。用了RDF之后,你就當(dāng)機(jī)器天然是能夠直接處理“語(yǔ)義”的。語(yǔ)義底下的“層次”(如提供字符交換的編碼層,乃至提供網(wǎng)絡(luò)交換的各類協(xié)議中的層次。想起來(lái)雨師特喜歡分層,很有道理)就讓機(jī)器去管了,用術(shù)語(yǔ)說:字符編碼在這時(shí)候是對(duì)你是透明的。于是,計(jì)算機(jī)就能像字符匹配一樣,能夠進(jìn)行語(yǔ)義匹配了(記住:URI在這整個(gè)技術(shù)架構(gòu)中是極其重要的,機(jī)器沒有人聰明,只有通過URI來(lái)判斷唯一性和同一性,而人是可以經(jīng)常偷換概念的)。語(yǔ)義匹配除了像字符匹配那樣可以做“全等”運(yùn)算,還可以把傳統(tǒng)文本檢索中的許多“智能”提取出來(lái),進(jìn)行標(biāo)準(zhǔn)化和模塊化(也是一種“層次化”),例如同義詞概念匹配,概念族的關(guān)聯(lián),跨系統(tǒng)的語(yǔ)義互操作等,在文本檢索中只能作為系統(tǒng)內(nèi)嵌的功能,而在語(yǔ)義層面它可以是獨(dú)立的模塊或網(wǎng)絡(luò)服務(wù),結(jié)合領(lǐng)域應(yīng)用(似乎“普適”的智能已經(jīng)走到了盡頭,需要領(lǐng)域應(yīng)用才能突破),這種智能能夠挖掘出更多的東西,其威力是非常巨大的,現(xiàn)在才剛露端倪您猜對(duì)了,這當(dāng)然就是目前大熱門的本體技術(shù)。這里可能需要解釋一下什么是“語(yǔ)義 ”,語(yǔ)義:semantics,is the meaning of meanings,即“表達(dá)”背后的含義,“表達(dá)”可以是文本,圖像或任何其它東西。我一直很納悶李爵士當(dāng)初為什么不用Knowledge Web這個(gè)詞,而用了Semantic Web,敢情“知識(shí)”一詞含義太多,涉及到認(rèn)知過程,一團(tuán)漿糊,抑或已經(jīng)被“人工智能”弄得臭不可聞了?,F(xiàn)在越想越有理,Semantic,而不是Knowledge,高,就是高!RDF是“資源-屬性-屬性值”三元組,每一個(gè)三元組就是一個(gè)語(yǔ)義的基本單元。例如“紅樓夢(mèng)-作者-巴金”(別笑,我知道巴金不是曹雪芹,語(yǔ)義表達(dá)并不是語(yǔ)義判斷?。@個(gè)句式表達(dá)了一項(xiàng)基本語(yǔ)義。它可以用XML版本的RDF來(lái)表示,也可以用N3來(lái)表示,也可以什么東不用就用上面的句式來(lái)表示,等等,只要是三元組,都是RDF。別相信趙同學(xué)說你不對(duì),自信點(diǎn)。你知道了語(yǔ)義表達(dá)可以用RDF作為基本單位。那么,請(qǐng)聽題:”巴金-是-作家“是三元組嗎?”巴金不是曹雪芹”該如何表達(dá)呢?這些問題暫且按下不表,繼續(xù)來(lái)看“元數(shù)據(jù)”。這種思考是一種典型的“思考范式的轉(zhuǎn)型”,不要說不懂技術(shù)的,很多搞技術(shù)的人至今也轉(zhuǎn)不過來(lái)。甚至有技術(shù)大牛甘做釘子戶(例如RSS2.0,放棄RDF還振振有詞。試想如果Feed都是RDF,現(xiàn)在不是像FOAF一樣,又多了一個(gè)海量語(yǔ)義庫(kù)了嗎?),覺得干嘛那么麻煩!典型的技術(shù)實(shí)用主義,愚昧??! Web時(shí)代的“元數(shù)據(jù)方法”(四)2008-11-20Tag:電子書 數(shù)字圖書館 元數(shù)據(jù) web2.o 版權(quán)聲明:轉(zhuǎn)載時(shí)請(qǐng)以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明/logs/31555025.htmlWeb上的所有東西,可以看成文本(或數(shù)據(jù)流),也可以看成是一個(gè)個(gè)獨(dú)立的的“資源(resource)”,或者看成這兩者的混合(本來(lái)就是)。標(biāo) 識(shí)符是“資源”是否具有獨(dú)立性的基礎(chǔ),是核心,決定了“資源”的歸屬、身份、獲得途徑,等等。標(biāo)識(shí)符體系包括了解析體系。在這個(gè)體系里,國(guó)家不分大小,一 律平等。國(guó)家 內(nèi)部可以有不同的制度,無(wú)論多復(fù)雜,都可以交給ORE來(lái)負(fù)責(zé)(聽說最近牛排正在研究這個(gè),贊一個(gè)?。?。目前的技術(shù)架構(gòu),URI已成主宰,各類Handle 方式基 本上以URI為依托,雖說無(wú)奈,倒也無(wú)傷大雅,好在DOI等Handle系統(tǒng)也是獨(dú)立的,離了URI,只要有另外的體系能夠取代URI,也能存活。記得 DC的創(chuàng)始人Stu Weibel曾有一陣專門研究取代URI的體系,現(xiàn)在也不知下文了。這些理論問題就不多言了。因此,有沒有URI 是“是不是資源”的 充分必要條件。至此我們接受了這樣一種世界觀:網(wǎng)絡(luò)上的東西,除了有URI的“資源”,就是沒有URI的文本字串(literal或string),無(wú) 它。(在此我們不討論“網(wǎng)絡(luò)上的資源是現(xiàn)實(shí)中事物的指代”這樣一個(gè)哲學(xué)跨越,以及由此帶來(lái)的認(rèn)識(shí)論問題。) 任何一個(gè)描述,都要明確,描述的對(duì)象是什么。無(wú)論是什么,都應(yīng)該是一個(gè)網(wǎng)絡(luò)存在,都有URI。(此乃描述的“資源模型”) 任何一個(gè)描述,都要明確,描述的是什么。即如果描述顏色,就說“顏色”或“color”,描述作者,就說“作者”、“創(chuàng)建者”或“creator” 你立刻會(huì)發(fā)現(xiàn),這里面有著“屬性詞”(也稱為“術(shù)語(yǔ)”term,其實(shí)就是元數(shù)據(jù)元素metadata elements)統(tǒng)一的問題。這其實(shí)就是元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范所要做的:規(guī)范屬性詞。所有的屬性都有URI,因此也都是資源,于是都應(yīng)該有管理主體對(duì)其“負(fù)責(zé)“ 。由此可知,是不是DC元素(屬性詞)其實(shí)并不重要,只要大家都和諧相處。和諧相處的前提是,遵不遵從這個(gè)“資源模型”,因?yàn)椴蛔駨倪@個(gè)模型,就有可能不遵從屬性詞與資源對(duì)象的對(duì)應(yīng)關(guān)系,或者資源對(duì)象在網(wǎng)絡(luò)上沒有“戶口”(URI),整個(gè)描述體系就會(huì)亂套。而遵從這樣的體系,將來(lái)國(guó)家語(yǔ)委的工作就比較好了,同理,很多領(lǐng)域知識(shí)也可以管理起自己的”領(lǐng)域概念“,不方便的話托管給圖書館來(lái)管也可以。目前”維基百科“已經(jīng)在做此類事情了。將來(lái)所有的概念都有名有姓,有“監(jiān)管”了。換句話說,網(wǎng)絡(luò)上的每一句話每一個(gè)詞都有出處,就有意思了。當(dāng)然,這并不妨礙你發(fā)明自己的火星語(yǔ),只是發(fā)明的火星語(yǔ)也需要有眾多的URI管理起來(lái))。(這就是“描述集模型”) 任何一個(gè)描述,其屬性取值可以是互聯(lián)網(wǎng)上的任何東西,自然就包括有URI的資源和沒有URI的文本字串。是“資源”當(dāng)然也可以像上述屬性詞一樣進(jìn)行規(guī) 范,包括取值體系規(guī)范(例如年代的表示規(guī)范)和值域規(guī)范(從值的列表中選取,例如國(guó)家列表、各類復(fù)分表,以及大量的KOS詞表等)。當(dāng)然,文本字串是最常見的“值”。(這里涉及 “詞表模型”) 上述三個(gè)成份,構(gòu)成描述的基本單元:一個(gè)RDF表達(dá),也叫陳述(statement)。 一條資源描述可以由多個(gè)陳述(statement)組成,即多個(gè)屬性和屬性值對(duì)描述一個(gè)URI所標(biāo)識(shí)的資源; 多條相關(guān)的資源描述構(gòu)成一個(gè)描述集(Descri
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高墩施工防墜器速差技術(shù)專題
- 生態(tài)混凝土橋坡綠化工藝
- 2024年“巴渝工匠”杯競(jìng)賽負(fù)荷控制理論考試題庫(kù)大全-上(單選題)
- 高三年級(jí)下冊(cè)二??荚囌Z(yǔ)文試題(含答案)
- 防汛安全培訓(xùn)
- 中班走廊與樓梯健康安全
- 學(xué)校中層領(lǐng)導(dǎo)工作總結(jié)
- 實(shí)驗(yàn)小學(xué)教學(xué)常規(guī)培訓(xùn)
- 招聘面試培訓(xùn)
- 正畸口腔潰瘍護(hù)理常規(guī)
- 2022公務(wù)員錄用體檢操作手冊(cè)(試行)
- 航行通告教學(xué)課件
- 2023年護(hù)理考試-外科護(hù)理(副高)歷年考試真題試卷摘選答案
- 2022年廣東高考成績(jī)一分一段表重磅出爐
- 新版病人搬運(yùn)(輪椅)操作評(píng)分標(biāo)準(zhǔn)
- 重癥監(jiān)護(hù)ICU護(hù)理實(shí)習(xí)生出科考試試題及答案
- GB/Z 22074-2008塑料外殼式斷路器可靠性試驗(yàn)方法
- GB/T 32360-2015超濾膜測(cè)試方法
- 中藥學(xué)全套(完整版)課件
- 工程施工停止點(diǎn)檢查表
- 國(guó)開??啤锻鈬?guó)文學(xué)》十年期末考試題庫(kù)及答案
評(píng)論
0/150
提交評(píng)論