信息的檢索第三章信息的著錄和標引_第1頁
信息的檢索第三章信息的著錄和標引_第2頁
信息的檢索第三章信息的著錄和標引_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實用標準文案第二章信息著錄和標引3.1信息著錄的含義和標準一、信息著錄的含義信息著錄:簡稱著錄,指在組織檢索系統(tǒng)時對文獻內容和形式特征進行選擇和記錄的 過程。著錄對象是信息,著錄結果是款目或記錄??钅浚褐敢罁?jù)一定的標準方法,對一種文獻或信息源的內容價值物質形態(tài)進行描述而 形成的一條記錄??钅坑梢粭l條著錄項目組成。著錄項目:用于揭示文獻內容和形式特征的記錄事項。信息著錄的基本要求:準確性。要求著錄結果準確全面客觀的揭示文獻或其它信息 源的內容特征或形式特征規(guī)范化。要求信息著錄堅持標準化原則,按照統(tǒng)一的著錄項目, 著錄格式,標識符號進行著錄。二、信息著錄的作用1、揭示功能:信息著錄主要反映的是文獻

2、本身的特征,通過對文獻全面系統(tǒng)的分析, 揭示出其內容特征和形式特征,將其濃縮于只言片語中,從而表達文獻的基本信息。2、組織功能:信息著錄后形成的款目或記錄,是編制目錄的基礎,也是組織數(shù)據(jù)庫數(shù) 據(jù)的基本單元。文獻編目包括信息著錄和目錄組織兩步。信息著錄是對文獻內容特征形式 特征進行選擇記錄后形成款目或記錄。目錄組織是將這些款目或記錄按照一定組織規(guī)則編 排在一起最終形成檢索工具或數(shù)據(jù)庫。3、檢索功能:存儲是檢索的第一個階段,即將表達文獻特征的有檢索意義的標識通過 記錄組織成手工檢索工具或計算機數(shù)據(jù)庫,而表達文獻特征的標識需要通過著錄和標引來 完成。作為信息著錄結果的款目或記錄,記載了表達文獻特征的

3、各種標識。三、信息著錄的標準文獻著錄總則旨在根據(jù)各種類型文獻的共同特點,確定文獻著錄原則、內容、標 識符號、格式等的統(tǒng)一規(guī)定。具有指導作用為信息著錄提供原則性框架,并不作為文獻著 錄的直接依據(jù)。1、著錄項目:題名與責任者項版本項文獻特殊細節(jié)項出版發(fā)行項載體形 態(tài)項叢編項附注項文獻標準編號及有關記載項提要項2、著錄級次:著錄文獻的詳簡程度,分為三級:簡要級次,款目僅著錄主要項目 基本級次,著錄主要項目同時還著錄部分選擇項目詳細級次,著錄全部主要項目和全 部選擇項目。3、著錄格式:款目中各個著錄項目的排列次序和表達方式。分為卡片式款目著錄格 式和書本式款目著錄格式。目前,信息機構中并存著兩種目錄,

4、一種是卡片式目錄,一種是機讀目錄。3.2機讀目錄與元數(shù)據(jù)一、機讀目錄機讀目錄(MARC:機器可讀目錄的簡稱,來自英文machine-readable catalogue的簡稱,是利用計算機識讀和處理的目錄。CNMARC按照UNIMARC格式設計原則制定,并結合了漢字的特點,標識系統(tǒng)和數(shù)據(jù)代 碼規(guī)定比較詳細,目前廣泛應用于計算機編目。一條CNMAR記錄由記錄頭標區(qū)(包括的數(shù)據(jù)有記錄類型, 書目級別,記錄的完備程度, 記錄是否遵照國際標準書目著錄規(guī)則等),地址目次區(qū)(記錄關于數(shù)據(jù)字段區(qū)記錄情況的有關數(shù)據(jù)),數(shù)據(jù)字段區(qū)(由一些可變長數(shù)據(jù)組成,有十個功能塊,0-標識信息塊,1-編碼信息塊,2-著錄信息

5、塊,3-附注項,4-款目連接塊,5-相關題名塊,6-主題分析塊,7-知識 責任者塊,8-國際使用塊,9-國內使用塊),記錄分隔符組成。二、元數(shù)據(jù)元數(shù)據(jù):metadata,關于數(shù)據(jù)的數(shù)據(jù)。在互聯(lián)網中,元數(shù)據(jù)是指描述任何互聯(lián)網數(shù)據(jù) 和資源,促進互聯(lián)網信息資源組織和發(fā)現(xiàn)的數(shù)據(jù),以協(xié)助對網絡資源的識別、描述、位置 指示。元數(shù)據(jù)的作用:1、定位和檢索:借助于元數(shù)據(jù),人們可以準確地檢索和確認所需的 資源。2、著錄和描述:為了提高查全率和查準率,需要對網絡資源的數(shù)據(jù)單元進行詳細的 著錄和描述,描述數(shù)據(jù)單元的元數(shù)據(jù)叫做元數(shù)據(jù)元素。3、資源管理:利用元數(shù)據(jù)全面描述網絡資源,不僅有利于檢索,同時也有利于實現(xiàn) 對資

6、源安全有效的管理。4、資源保護與長期保存:利用元數(shù)據(jù)全面描述網絡資源,不僅有利于實現(xiàn)管理和查 詢,還有助于網絡資源的保護和長期保存。都柏林核心元數(shù)據(jù)集:一種跨領域的信息資源描述標準。其對應用的資源類型沒有根本性的限制。共包括15個元素:題名(title創(chuàng)作者(creator 主題及關鍵詞(subjectand keywords )描述(description)出版者(publisher )其他貢獻者(contributor)時間(date )類型(type )格式(format )標識(identifier )(11)來源(source ) (12)語言(language )(13)關聯(lián)(re

7、lation )(也)范圍(coverage )(15)版權(right )這十五個元 素都是可選擇可重復可擴展的。目前許多國家部門將都柏林核心元數(shù)據(jù)集作為一項基礎標 準。三、都柏林核心元數(shù)據(jù)和機讀目錄的比較都:簡單靈活具有語義互操作性可擴展性,有利于網絡信息資源描述機:揭示內容深入詳盡在信息存儲和檢索領域應用歷史悠久,是一種國際性的書 目著錄標準相同:兩者都是元數(shù)據(jù)在著錄文獻的相關信息上都是數(shù)據(jù)的數(shù)據(jù)目的:將文獻 的相關信息格式化用來描述信息資源的主題內容特征,并通過所描述的特征提供檢索的 依據(jù)不同:1、著錄對象不同:都的著錄對象是網絡資源或數(shù)據(jù)資源,其設計原則有可選擇 性可重復性可擴展性。

8、機比較適合傳統(tǒng)出版物、縮微制品、數(shù)據(jù)庫等,適用范圍主要限于 圖書情報機構和網上公共查詢目錄2、數(shù)據(jù)形式不同:都包括 15個元素,在應用中可選擇可重復可擴展,限定詞與元素 之間關系靈活,結構簡單靈巧。機由記錄頭標區(qū)、地址目次區(qū)、數(shù)據(jù)字段區(qū)、分隔符組成,結構嚴謹復雜。3、著錄主體不同:都著錄簡單明了,創(chuàng)建者和提供者無需培訓即可自己進行資源描述。 機著錄格式復雜內容嚴格,對使用者要求高,只有專業(yè)編目人員才能使用。4、 著錄詳簡程度不同:都德著錄比較簡單,只有15個元素,在著錄過程中可選擇可 重復課擴展順序可任意編排。機著錄詳盡細致,有嚴格的著錄規(guī)則。5、標識方法不同:都直接采用單詞或詞組進行標識,表

9、達直觀語義明確。機字段用3位阿拉伯數(shù)字標識,子字段用1位英文字母或阿拉伯數(shù)字標識,不具備語義。3.3信息標引的含義和步驟一、信息標引的含義信息標引:在分析文獻內容的基礎上,用某種檢索語言將文獻主題以及其他有檢索意 義的特征標識出來,是文獻存儲與檢索依據(jù)的一種文獻處理過程。標引是文獻存入檢索系統(tǒng)的依據(jù),又是從檢索系統(tǒng)中查出文獻的依據(jù)。二、信息標引的質量控制影響信息標引質量的因素很多,包括技術因素和管理因素。1、標引深度:即標引的全面性,指把一篇文獻所論述的各個主題內容提煉出來,給 出檢索詞并對其進行標引的完善程度,通常指一篇文獻被賦予主題詞的平均個數(shù)。一般 不超過10個主題詞。該標準是從揭示文獻

10、主題內容的廣度來衡量標引質量的。主題標引 中,不能僅從字面進行拆分組合,要通過閱讀全文確定文獻的顯性主題和隱形主題。2、專指度:檢索標識表達信息內容的精確程度。從揭示主題概念的精確度來衡量的。 在準確基礎上的全面性才是有意義的。主題標引中應選最恰當?shù)闹黝}詞,分類標引中應將 其歸入最專指的類目。3、一致性:選用表達文獻主題內容所需標引詞的一致程度。主題標引時由于標引人員 過多以及標引人員對文獻內容認識程度不同,而導致主題標引詞過多過少。三、信息標引的步驟:(一)主題分析主題分析:弄清文獻討論的中心思想,以確定被標引文獻的主題概念。1、主題類型和結構主題類型:依據(jù)主題數(shù)量多少,分為單主題和多主題。

11、單主題:一篇文獻只研究一 個事物(對象)或一個事物(對象)的一個或幾個方面。多主題:同時研究兩個或多個獨 立事物(對象)依據(jù)主題顯露程度,分為顯性主題和隱性主題。主題結構:構成文獻主題和各個基本主題的因素以及它們之間的相互關系。文獻主題 因素可歸納為五個基本方面:主體因素(文獻研究論述的關鍵性主題概念)、通用因素(對主題概念起限制修飾作用)、位置因素(文獻研究的事物(對象)所處的地理位置)、時間因素(文獻研究的事物(對象)所發(fā)生的時間)、文獻類型因素(文集叢書年鑒等)。2、主題分析方法主題分析:對文獻的內容特征和外表特征進行分析的過程,內容特征是其根本依據(jù), 外表特征是其輔助依據(jù)。方法有兩種:

12、一種是先找出文獻論述的對象,再進一步查明是論述了對象哪個方面的具體問題???按照事先設定好的主題結構模式提煉相關主題要素,分析主題要素之間關系。主題結構模 式可表述為“主體因素-通用因素-空間因素-時間因素-文獻類型因素”另一種是先找出文獻所涉及的各種概念,并查明它們之間的相互關系。文獻中包含哪 些因素就分析哪些因素,再將各個因素按主體結構模式進行分析。進行主題分析時要客觀全面反映文獻固有聯(lián)系,不能主觀臆斷標引人員還應考慮 到用戶的檢索需要,分析選定有實際意義的主題概念。(二)概念轉換概念轉換:以主題分析為基礎,將確定的主題概念賦予檢索標識的過程。其結果是形成檢索標識。分類標引的概念轉換依據(jù)主

13、題分析的結果,查找分類表,將 相應的分類號作為檢索標識賦予被標引的文獻。主題標引的概念轉換依據(jù)主題分析的結果, 查找主題詞表,將相應的主題詞作為檢索標識賦予被標引的文獻。概念轉換按復雜度分為兩類:直接轉換:直接從詞表中選出對應的分類號或主題詞即可分解轉換:將復雜概念進行分解后選擇相應分類號或主題詞。概念轉換結束后還要進行標引結果的審核。3.4分類標引和主題標引一、分類標引分類標引:依據(jù)一定的分類檢索語言,對文獻內容的學科性質及其有檢索意義的形式 特征進行分析歸納,賦予文獻分類檢索標識(分類號)的過程。目的:揭示文獻的內容及形式,以便將同類的文獻集中在一起把不同的文獻分開,根 據(jù)文獻的關系,科學

14、組織管理文獻。作用:編制分類目錄分類索引,組織分類排架,便于族性檢索。(一)基本原則1、學科屬性原則:文獻分類標引應以文獻論述的中心內容的學科屬性作為分類的主要 標準,以其他形式特征作為輔助標準。2、專指性原則:文獻分類標引必須符合專指性的要求,將文獻分入最恰當?shù)念?,而?能分入大于或小于文獻實際內容的類目。要區(qū)分總論與專論,一般原理與具體問題。3、實用性原則:根據(jù)讀者需要將文獻分入最大用途的類。對于交叉學科的文獻,應利 用互見分類分拆分類等予以揭示。4、系統(tǒng)性原則:凡是歸入下位類的書必須具有上位類的屬性,體現(xiàn)它們的從屬關系。5、一致性原則:將內容相同的文獻歸入同一個類目,不要分散于有關各類對

15、于難 以確定類屬的主題,可建立分類規(guī)范文檔,人為的將其集中到某類。(二)各種類型主題文獻的分類標引規(guī)則1、單主題文獻的分類標引規(guī)則:簡單對某一事物或問題進行綜合論述的文獻,應按 事物或問題的學科屬性歸類從某一學科角度論述某以主題的文獻,應按研究角度歸入有 關學科類目從幾門學科綜合論述一個主題的文獻,應按論述該主題的主要學科歸類。2、多主題文獻的分類標引規(guī)則:對各個主題進行分析,分清主次,然后按最能體現(xiàn) 文獻內容實質或在內容中起主導作用的主題歸類必要時對另外主題作附加分類若文獻 論述的幾個主題具有同等檢索意義,則分別標引。3、相關關系主題文獻的分類標引規(guī)則:(1 )應用關系:論述理論、方法、技術

16、、材料在某一主題或學科方面的應用的文獻, 歸入應用的主題或學科所屬類目論述理論、方法、技術、材料在多個主題或學科方面應 用的文獻,歸入理論方法等本身某一事物或學科應用到另一事物或學科產生的交叉學科 主題的文獻,歸入應用到的事物或學科所屬的類目。(2)影響關系:論述一個主題對另一主題產生影響的文獻,歸入被影響主題所屬類目論述一個主題對多個主題產生影響的文獻,歸入產生影響的主題本 身所屬類目。(3)因果關系:一般歸入結果方面的主題所屬類目若結果是多方面的且能區(qū)分重點,歸入重點主題所屬類目若不能分出重點,歸入原因方面的主題所屬類目(4)從屬關系:依較大主題的學科屬性歸類,必要時對次要主題進行分析分類

17、若 較小主題是論述重點,按較小主題的學科屬性分類。(5)兩個主題相互比較的文獻:按重點論述后所贊同的主題歸類,必要時為另一個 主題作互見多主題之間的比較,歸入包括這些主題的類組成的概括性類目(6)并列關系:歸入能概括其內容的上位類無共同上位類的,按論述重點所屬主 題歸重點不明的,按按一個主題的學科屬性歸類二、主題標引主題標引:依據(jù)一定的主題詞表,對文獻內容進行主題分析,賦予語詞檢索標識的過 程。意義:以主題詞作為文獻主題標識和查找依據(jù),有利于族性檢索,有利于文獻情報工 作的自動化現(xiàn)代化網絡化。(一)選詞規(guī)則1、文獻主題標引應選用詞表中的正式主題詞標引,非正式主題詞只起指向正式主題詞 的作用,本

18、身不得用于標引。2、文獻內容的主題概念在詞表中沒有相應的最專指主題詞時,可選用與其最直接相關 最鄰近的主題詞進行組配標引。3、文獻內容的主題概念在詞表中沒有恰當主題詞組配,可用一個最直接的上位主題詞 進行上位標引,或近義主題詞進行靠詞標引。4、新增詞應遵循一定原則:應是詞形規(guī)范概念明確具有較重要檢索意義或廣泛組配 作用應較成熟穩(wěn)定具有生命力應是詞表中明顯漏收的。5、各類名詞主題詞可直接作為正式主題詞來使用。(二)組配規(guī)則組配標引:將兩個或兩個以上主題詞按照一定的邏輯關系加以組織以表達文獻主題的 標引方法。1、主題詞的組配必須是概念組配不能是字面組配。2、當表達一個主題概念有多種組配方法可選時,

19、應優(yōu)先使用交叉組配,只有不能進行 交叉組配的才考慮使用限定組配。3、應選用與主題關系最鄰近最密切的主題詞進行組配,不能選擇泛指主題詞進行越級 組配。4、主題詞組配標引的結果,必須概念清楚確切具有單義性。5、 當一個標題的主題詞涉及不同的主題因素時,組配順序一般為“主體因素-通用因 素-空間因素-時間因素-文獻類型因素”;當一個標題中出現(xiàn)多個主體因素時,按對象、方法、材料、過程、條件進行排列。(三)主題詞組配標引的形式1、概念交叉組配:同級組配,兩個或以上具有概念交叉關系的主題詞進行組配,來表 達一個主題內容。表現(xiàn)為同級主題詞或事物與事物之間的組配。將要標引的復雜主題概念 分解為若干簡單主題概念

20、,且在詞表中均有其對應的正式主題詞,再將這些主題詞組配成 更專指的主題概念。2、概念限定關系組配:復分組配,由一個表示事物的主題詞和另一個或幾個表示事物 的部分、屬性、方面的主題詞組合起來表達一個新專指概念的組配方法。表現(xiàn)為事物與其 各方面的關系,而非事物與事物的關系。3、連接關系組配:是一種特殊的概念限定關系,指復合主題中主體因素之間具有應用關系、影響關系、因果關系、比較關系、相互關系等。3.5自動標引一、自動標引概括自動標引:通過計算機的操作處理,賦予檢索標識的活動。分類:標引深度:全文自動標引和題名自動標引從選用標引詞:敘詞自動標引和 關鍵詞自動標引標引方式:自動賦詞標引(標引詞來自預先

21、編制的詞表而非文獻本身) 和自動抽詞標引(文獻本身中抽詞)從標引形成標識:分類自動標引和主題自動標引二、自動標引方法(一)統(tǒng)計標引法統(tǒng)計標引法:各類標引法中歷史最長應用范圍最廣的一種。理論基礎是著名的齊夫定 律,建立在較成熟的語言學統(tǒng)計研究成果基礎之上,簡單易行,具有一定客觀性和合理性。1、詞頻統(tǒng)計法:該方法認為:一個詞在一篇文獻中的出現(xiàn)頻率是這個詞對這篇文章的 重要性的有效測度。根據(jù)齊夫定律,將一篇較長文章中出現(xiàn)的詞按遞減順序排列,用自然數(shù)這些詞編上等級序號,頻次最高是1級,用f表示頻次,r表示等級序號,則有 f x r=c(c為常數(shù))。盧恩在齊夫定律基礎上,提出自動抽詞基本思想,將詞的出現(xiàn)

22、頻率按等級排 列,以一定的標準排除高頻詞與低頻詞,剩下的就是最能代表文獻主題內容的詞。目前, 詞頻統(tǒng)計法常與其他方法連用。2、加權標引法:(1)逆文獻加權標引法:標引時不僅考慮詞在一篇文章中出現(xiàn)的頻率,而且考慮在 整個文獻集合中文獻頻率。標引詞的權重與出現(xiàn)頻率一致,與文獻頻率成反比。詞的 出現(xiàn)頻率指詞針對文獻集合中某篇文獻而言,詞的文獻頻率指詞針對整個文獻集合而言。 一篇特定文獻中,特征詞的出現(xiàn)頻率較高;在一個文獻集合中,非特征詞的出現(xiàn)頻率較 高。(2)詞區(qū)分值加權標引法:根據(jù)詞區(qū)分文獻的能力確定標引詞的權重,標引詞的權重 與其區(qū)分能力成正比。逆文獻加權標引法和詞區(qū)分值加權標引法主要依賴于詞的

23、頻率特征和詞的區(qū)分能力。 缺點:與用戶的跟相關性無關。(3)詞相關性加權標引法:根據(jù)檢索結果給出的相關性反饋確定標引詞的權重。(4)價值測度加權標引法:還要考慮相應的效率和費用。詞相關性加權標引法和價值測度加權標引法考慮標引詞詞在特定文獻或這個文獻集 合中的頻率特征標引詞在相關文獻集合和無關文獻集合中的頻率特征檢索結果的效益 值。3、n-Gram標引法:以n字符串為統(tǒng)計對象,將其統(tǒng)計得分賦予該串中心字符,然后選 擇得分超過特定閥值字符的單詞或短語作標引詞。原理簡單處理容易。4、統(tǒng)計學習標引法:通過一個學習過程建立標引詞與其相關詞和不相關詞的關系,并 以此為基礎確定標引詞的標引值。(二)語言分析

24、標引法1、句法分析標引法:從語法角度確定每個詞的作用(如是主語還是謂語)何詞之間的 相互關系(如是修飾還是被修飾)。一般通過與事先準備好的解析規(guī)則或語法相比較而實現(xiàn)。 淺層句法分析:只把句子解析成較小的單元但不揭示這些單元之間的句法關系深層句 法分析:充分解析和揭示句子的語法特點和反映的主題內容2、語義分析標引法:分析詞在特定的上下文中的確切含義,以選擇與主題含義相同的 標引詞。(三)人工智能標引法人工智能:計算機科學的一個分支,專門研究怎樣用計算機理解和模擬人類特有的智 能系統(tǒng)的活動。人工智能標引法:在標引中的具體技術是專家系統(tǒng)(又稱知識庫系統(tǒng)),專家系統(tǒng)的知識表示方法主要有產生式表示法、語義網絡表示法、框架表示法。三、自動分類自動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論