信息的檢索第三章信息的著錄和標(biāo)引_第1頁
信息的檢索第三章信息的著錄和標(biāo)引_第2頁
信息的檢索第三章信息的著錄和標(biāo)引_第3頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)用標(biāo)準(zhǔn)文案第二章信息著錄和標(biāo)引3.1信息著錄的含義和標(biāo)準(zhǔn)一、信息著錄的含義信息著錄:簡(jiǎn)稱著錄,指在組織檢索系統(tǒng)時(shí)對(duì)文獻(xiàn)內(nèi)容和形式特征進(jìn)行選擇和記錄的 過程。著錄對(duì)象是信息,著錄結(jié)果是款目或記錄??钅浚褐敢罁?jù)一定的標(biāo)準(zhǔn)方法,對(duì)一種文獻(xiàn)或信息源的內(nèi)容價(jià)值物質(zhì)形態(tài)進(jìn)行描述而 形成的一條記錄??钅坑梢粭l條著錄項(xiàng)目組成。著錄項(xiàng)目:用于揭示文獻(xiàn)內(nèi)容和形式特征的記錄事項(xiàng)。信息著錄的基本要求:準(zhǔn)確性。要求著錄結(jié)果準(zhǔn)確全面客觀的揭示文獻(xiàn)或其它信息 源的內(nèi)容特征或形式特征規(guī)范化。要求信息著錄堅(jiān)持標(biāo)準(zhǔn)化原則,按照統(tǒng)一的著錄項(xiàng)目, 著錄格式,標(biāo)識(shí)符號(hào)進(jìn)行著錄。二、信息著錄的作用1、揭示功能:信息著錄主要反映的是文獻(xiàn)

2、本身的特征,通過對(duì)文獻(xiàn)全面系統(tǒng)的分析, 揭示出其內(nèi)容特征和形式特征,將其濃縮于只言片語中,從而表達(dá)文獻(xiàn)的基本信息。2、組織功能:信息著錄后形成的款目或記錄,是編制目錄的基礎(chǔ),也是組織數(shù)據(jù)庫數(shù) 據(jù)的基本單元。文獻(xiàn)編目包括信息著錄和目錄組織兩步。信息著錄是對(duì)文獻(xiàn)內(nèi)容特征形式 特征進(jìn)行選擇記錄后形成款目或記錄。目錄組織是將這些款目或記錄按照一定組織規(guī)則編 排在一起最終形成檢索工具或數(shù)據(jù)庫。3、檢索功能:存儲(chǔ)是檢索的第一個(gè)階段,即將表達(dá)文獻(xiàn)特征的有檢索意義的標(biāo)識(shí)通過 記錄組織成手工檢索工具或計(jì)算機(jī)數(shù)據(jù)庫,而表達(dá)文獻(xiàn)特征的標(biāo)識(shí)需要通過著錄和標(biāo)引來 完成。作為信息著錄結(jié)果的款目或記錄,記載了表達(dá)文獻(xiàn)特征的

3、各種標(biāo)識(shí)。三、信息著錄的標(biāo)準(zhǔn)文獻(xiàn)著錄總則旨在根據(jù)各種類型文獻(xiàn)的共同特點(diǎn),確定文獻(xiàn)著錄原則、內(nèi)容、標(biāo) 識(shí)符號(hào)、格式等的統(tǒng)一規(guī)定。具有指導(dǎo)作用為信息著錄提供原則性框架,并不作為文獻(xiàn)著 錄的直接依據(jù)。1、著錄項(xiàng)目:題名與責(zé)任者項(xiàng)版本項(xiàng)文獻(xiàn)特殊細(xì)節(jié)項(xiàng)出版發(fā)行項(xiàng)載體形 態(tài)項(xiàng)叢編項(xiàng)附注項(xiàng)文獻(xiàn)標(biāo)準(zhǔn)編號(hào)及有關(guān)記載項(xiàng)提要項(xiàng)2、著錄級(jí)次:著錄文獻(xiàn)的詳簡(jiǎn)程度,分為三級(jí):簡(jiǎn)要級(jí)次,款目?jī)H著錄主要項(xiàng)目 基本級(jí)次,著錄主要項(xiàng)目同時(shí)還著錄部分選擇項(xiàng)目詳細(xì)級(jí)次,著錄全部主要項(xiàng)目和全 部選擇項(xiàng)目。3、著錄格式:款目中各個(gè)著錄項(xiàng)目的排列次序和表達(dá)方式。分為卡片式款目著錄格 式和書本式款目著錄格式。目前,信息機(jī)構(gòu)中并存著兩種目錄,

4、一種是卡片式目錄,一種是機(jī)讀目錄。3.2機(jī)讀目錄與元數(shù)據(jù)一、機(jī)讀目錄機(jī)讀目錄(MARC:機(jī)器可讀目錄的簡(jiǎn)稱,來自英文machine-readable catalogue的簡(jiǎn)稱,是利用計(jì)算機(jī)識(shí)讀和處理的目錄。CNMARC按照UNIMARC格式設(shè)計(jì)原則制定,并結(jié)合了漢字的特點(diǎn),標(biāo)識(shí)系統(tǒng)和數(shù)據(jù)代 碼規(guī)定比較詳細(xì),目前廣泛應(yīng)用于計(jì)算機(jī)編目。一條CNMAR記錄由記錄頭標(biāo)區(qū)(包括的數(shù)據(jù)有記錄類型, 書目級(jí)別,記錄的完備程度, 記錄是否遵照國際標(biāo)準(zhǔn)書目著錄規(guī)則等),地址目次區(qū)(記錄關(guān)于數(shù)據(jù)字段區(qū)記錄情況的有關(guān)數(shù)據(jù)),數(shù)據(jù)字段區(qū)(由一些可變長(zhǎng)數(shù)據(jù)組成,有十個(gè)功能塊,0-標(biāo)識(shí)信息塊,1-編碼信息塊,2-著錄信息

5、塊,3-附注項(xiàng),4-款目連接塊,5-相關(guān)題名塊,6-主題分析塊,7-知識(shí) 責(zé)任者塊,8-國際使用塊,9-國內(nèi)使用塊),記錄分隔符組成。二、元數(shù)據(jù)元數(shù)據(jù):metadata,關(guān)于數(shù)據(jù)的數(shù)據(jù)。在互聯(lián)網(wǎng)中,元數(shù)據(jù)是指描述任何互聯(lián)網(wǎng)數(shù)據(jù) 和資源,促進(jìn)互聯(lián)網(wǎng)信息資源組織和發(fā)現(xiàn)的數(shù)據(jù),以協(xié)助對(duì)網(wǎng)絡(luò)資源的識(shí)別、描述、位置 指示。元數(shù)據(jù)的作用:1、定位和檢索:借助于元數(shù)據(jù),人們可以準(zhǔn)確地檢索和確認(rèn)所需的 資源。2、著錄和描述:為了提高查全率和查準(zhǔn)率,需要對(duì)網(wǎng)絡(luò)資源的數(shù)據(jù)單元進(jìn)行詳細(xì)的 著錄和描述,描述數(shù)據(jù)單元的元數(shù)據(jù)叫做元數(shù)據(jù)元素。3、資源管理:利用元數(shù)據(jù)全面描述網(wǎng)絡(luò)資源,不僅有利于檢索,同時(shí)也有利于實(shí)現(xiàn) 對(duì)資

6、源安全有效的管理。4、資源保護(hù)與長(zhǎng)期保存:利用元數(shù)據(jù)全面描述網(wǎng)絡(luò)資源,不僅有利于實(shí)現(xiàn)管理和查 詢,還有助于網(wǎng)絡(luò)資源的保護(hù)和長(zhǎng)期保存。都柏林核心元數(shù)據(jù)集:一種跨領(lǐng)域的信息資源描述標(biāo)準(zhǔn)。其對(duì)應(yīng)用的資源類型沒有根本性的限制。共包括15個(gè)元素:題名(title創(chuàng)作者(creator 主題及關(guān)鍵詞(subjectand keywords )描述(description)出版者(publisher )其他貢獻(xiàn)者(contributor)時(shí)間(date )類型(type )格式(format )標(biāo)識(shí)(identifier )(11)來源(source ) (12)語言(language )(13)關(guān)聯(lián)(re

7、lation )(也)范圍(coverage )(15)版權(quán)(right )這十五個(gè)元 素都是可選擇可重復(fù)可擴(kuò)展的。目前許多國家部門將都柏林核心元數(shù)據(jù)集作為一項(xiàng)基礎(chǔ)標(biāo) 準(zhǔn)。三、都柏林核心元數(shù)據(jù)和機(jī)讀目錄的比較都:簡(jiǎn)單靈活具有語義互操作性可擴(kuò)展性,有利于網(wǎng)絡(luò)信息資源描述機(jī):揭示內(nèi)容深入詳盡在信息存儲(chǔ)和檢索領(lǐng)域應(yīng)用歷史悠久,是一種國際性的書 目著錄標(biāo)準(zhǔn)相同:兩者都是元數(shù)據(jù)在著錄文獻(xiàn)的相關(guān)信息上都是數(shù)據(jù)的數(shù)據(jù)目的:將文獻(xiàn) 的相關(guān)信息格式化用來描述信息資源的主題內(nèi)容特征,并通過所描述的特征提供檢索的 依據(jù)不同:1、著錄對(duì)象不同:都的著錄對(duì)象是網(wǎng)絡(luò)資源或數(shù)據(jù)資源,其設(shè)計(jì)原則有可選擇 性可重復(fù)性可擴(kuò)展性。

8、機(jī)比較適合傳統(tǒng)出版物、縮微制品、數(shù)據(jù)庫等,適用范圍主要限于 圖書情報(bào)機(jī)構(gòu)和網(wǎng)上公共查詢目錄2、數(shù)據(jù)形式不同:都包括 15個(gè)元素,在應(yīng)用中可選擇可重復(fù)可擴(kuò)展,限定詞與元素 之間關(guān)系靈活,結(jié)構(gòu)簡(jiǎn)單靈巧。機(jī)由記錄頭標(biāo)區(qū)、地址目次區(qū)、數(shù)據(jù)字段區(qū)、分隔符組成,結(jié)構(gòu)嚴(yán)謹(jǐn)復(fù)雜。3、著錄主體不同:都著錄簡(jiǎn)單明了,創(chuàng)建者和提供者無需培訓(xùn)即可自己進(jìn)行資源描述。 機(jī)著錄格式復(fù)雜內(nèi)容嚴(yán)格,對(duì)使用者要求高,只有專業(yè)編目人員才能使用。4、 著錄詳簡(jiǎn)程度不同:都德著錄比較簡(jiǎn)單,只有15個(gè)元素,在著錄過程中可選擇可 重復(fù)課擴(kuò)展順序可任意編排。機(jī)著錄詳盡細(xì)致,有嚴(yán)格的著錄規(guī)則。5、標(biāo)識(shí)方法不同:都直接采用單詞或詞組進(jìn)行標(biāo)識(shí),表

9、達(dá)直觀語義明確。機(jī)字段用3位阿拉伯?dāng)?shù)字標(biāo)識(shí),子字段用1位英文字母或阿拉伯?dāng)?shù)字標(biāo)識(shí),不具備語義。3.3信息標(biāo)引的含義和步驟一、信息標(biāo)引的含義信息標(biāo)引:在分析文獻(xiàn)內(nèi)容的基礎(chǔ)上,用某種檢索語言將文獻(xiàn)主題以及其他有檢索意 義的特征標(biāo)識(shí)出來,是文獻(xiàn)存儲(chǔ)與檢索依據(jù)的一種文獻(xiàn)處理過程。標(biāo)引是文獻(xiàn)存入檢索系統(tǒng)的依據(jù),又是從檢索系統(tǒng)中查出文獻(xiàn)的依據(jù)。二、信息標(biāo)引的質(zhì)量控制影響信息標(biāo)引質(zhì)量的因素很多,包括技術(shù)因素和管理因素。1、標(biāo)引深度:即標(biāo)引的全面性,指把一篇文獻(xiàn)所論述的各個(gè)主題內(nèi)容提煉出來,給 出檢索詞并對(duì)其進(jìn)行標(biāo)引的完善程度,通常指一篇文獻(xiàn)被賦予主題詞的平均個(gè)數(shù)。一般 不超過10個(gè)主題詞。該標(biāo)準(zhǔn)是從揭示文獻(xiàn)

10、主題內(nèi)容的廣度來衡量標(biāo)引質(zhì)量的。主題標(biāo)引 中,不能僅從字面進(jìn)行拆分組合,要通過閱讀全文確定文獻(xiàn)的顯性主題和隱形主題。2、專指度:檢索標(biāo)識(shí)表達(dá)信息內(nèi)容的精確程度。從揭示主題概念的精確度來衡量的。 在準(zhǔn)確基礎(chǔ)上的全面性才是有意義的。主題標(biāo)引中應(yīng)選最恰當(dāng)?shù)闹黝}詞,分類標(biāo)引中應(yīng)將 其歸入最專指的類目。3、一致性:選用表達(dá)文獻(xiàn)主題內(nèi)容所需標(biāo)引詞的一致程度。主題標(biāo)引時(shí)由于標(biāo)引人員 過多以及標(biāo)引人員對(duì)文獻(xiàn)內(nèi)容認(rèn)識(shí)程度不同,而導(dǎo)致主題標(biāo)引詞過多過少。三、信息標(biāo)引的步驟:(一)主題分析主題分析:弄清文獻(xiàn)討論的中心思想,以確定被標(biāo)引文獻(xiàn)的主題概念。1、主題類型和結(jié)構(gòu)主題類型:依據(jù)主題數(shù)量多少,分為單主題和多主題。

11、單主題:一篇文獻(xiàn)只研究一 個(gè)事物(對(duì)象)或一個(gè)事物(對(duì)象)的一個(gè)或幾個(gè)方面。多主題:同時(shí)研究?jī)蓚€(gè)或多個(gè)獨(dú) 立事物(對(duì)象)依據(jù)主題顯露程度,分為顯性主題和隱性主題。主題結(jié)構(gòu):構(gòu)成文獻(xiàn)主題和各個(gè)基本主題的因素以及它們之間的相互關(guān)系。文獻(xiàn)主題 因素可歸納為五個(gè)基本方面:主體因素(文獻(xiàn)研究論述的關(guān)鍵性主題概念)、通用因素(對(duì)主題概念起限制修飾作用)、位置因素(文獻(xiàn)研究的事物(對(duì)象)所處的地理位置)、時(shí)間因素(文獻(xiàn)研究的事物(對(duì)象)所發(fā)生的時(shí)間)、文獻(xiàn)類型因素(文集叢書年鑒等)。2、主題分析方法主題分析:對(duì)文獻(xiàn)的內(nèi)容特征和外表特征進(jìn)行分析的過程,內(nèi)容特征是其根本依據(jù), 外表特征是其輔助依據(jù)。方法有兩種:

12、一種是先找出文獻(xiàn)論述的對(duì)象,再進(jìn)一步查明是論述了對(duì)象哪個(gè)方面的具體問題???按照事先設(shè)定好的主題結(jié)構(gòu)模式提煉相關(guān)主題要素,分析主題要素之間關(guān)系。主題結(jié)構(gòu)模 式可表述為“主體因素-通用因素-空間因素-時(shí)間因素-文獻(xiàn)類型因素”另一種是先找出文獻(xiàn)所涉及的各種概念,并查明它們之間的相互關(guān)系。文獻(xiàn)中包含哪 些因素就分析哪些因素,再將各個(gè)因素按主體結(jié)構(gòu)模式進(jìn)行分析。進(jìn)行主題分析時(shí)要客觀全面反映文獻(xiàn)固有聯(lián)系,不能主觀臆斷標(biāo)引人員還應(yīng)考慮 到用戶的檢索需要,分析選定有實(shí)際意義的主題概念。(二)概念轉(zhuǎn)換概念轉(zhuǎn)換:以主題分析為基礎(chǔ),將確定的主題概念賦予檢索標(biāo)識(shí)的過程。其結(jié)果是形成檢索標(biāo)識(shí)。分類標(biāo)引的概念轉(zhuǎn)換依據(jù)主

13、題分析的結(jié)果,查找分類表,將 相應(yīng)的分類號(hào)作為檢索標(biāo)識(shí)賦予被標(biāo)引的文獻(xiàn)。主題標(biāo)引的概念轉(zhuǎn)換依據(jù)主題分析的結(jié)果, 查找主題詞表,將相應(yīng)的主題詞作為檢索標(biāo)識(shí)賦予被標(biāo)引的文獻(xiàn)。概念轉(zhuǎn)換按復(fù)雜度分為兩類:直接轉(zhuǎn)換:直接從詞表中選出對(duì)應(yīng)的分類號(hào)或主題詞即可分解轉(zhuǎn)換:將復(fù)雜概念進(jìn)行分解后選擇相應(yīng)分類號(hào)或主題詞。概念轉(zhuǎn)換結(jié)束后還要進(jìn)行標(biāo)引結(jié)果的審核。3.4分類標(biāo)引和主題標(biāo)引一、分類標(biāo)引分類標(biāo)引:依據(jù)一定的分類檢索語言,對(duì)文獻(xiàn)內(nèi)容的學(xué)科性質(zhì)及其有檢索意義的形式 特征進(jìn)行分析歸納,賦予文獻(xiàn)分類檢索標(biāo)識(shí)(分類號(hào))的過程。目的:揭示文獻(xiàn)的內(nèi)容及形式,以便將同類的文獻(xiàn)集中在一起把不同的文獻(xiàn)分開,根 據(jù)文獻(xiàn)的關(guān)系,科學(xué)

14、組織管理文獻(xiàn)。作用:編制分類目錄分類索引,組織分類排架,便于族性檢索。(一)基本原則1、學(xué)科屬性原則:文獻(xiàn)分類標(biāo)引應(yīng)以文獻(xiàn)論述的中心內(nèi)容的學(xué)科屬性作為分類的主要 標(biāo)準(zhǔn),以其他形式特征作為輔助標(biāo)準(zhǔn)。2、專指性原則:文獻(xiàn)分類標(biāo)引必須符合專指性的要求,將文獻(xiàn)分入最恰當(dāng)?shù)念悾?能分入大于或小于文獻(xiàn)實(shí)際內(nèi)容的類目。要區(qū)分總論與專論,一般原理與具體問題。3、實(shí)用性原則:根據(jù)讀者需要將文獻(xiàn)分入最大用途的類。對(duì)于交叉學(xué)科的文獻(xiàn),應(yīng)利 用互見分類分拆分類等予以揭示。4、系統(tǒng)性原則:凡是歸入下位類的書必須具有上位類的屬性,體現(xiàn)它們的從屬關(guān)系。5、一致性原則:將內(nèi)容相同的文獻(xiàn)歸入同一個(gè)類目,不要分散于有關(guān)各類對(duì)

15、于難 以確定類屬的主題,可建立分類規(guī)范文檔,人為的將其集中到某類。(二)各種類型主題文獻(xiàn)的分類標(biāo)引規(guī)則1、單主題文獻(xiàn)的分類標(biāo)引規(guī)則:簡(jiǎn)單對(duì)某一事物或問題進(jìn)行綜合論述的文獻(xiàn),應(yīng)按 事物或問題的學(xué)科屬性歸類從某一學(xué)科角度論述某以主題的文獻(xiàn),應(yīng)按研究角度歸入有 關(guān)學(xué)科類目從幾門學(xué)科綜合論述一個(gè)主題的文獻(xiàn),應(yīng)按論述該主題的主要學(xué)科歸類。2、多主題文獻(xiàn)的分類標(biāo)引規(guī)則:對(duì)各個(gè)主題進(jìn)行分析,分清主次,然后按最能體現(xiàn) 文獻(xiàn)內(nèi)容實(shí)質(zhì)或在內(nèi)容中起主導(dǎo)作用的主題歸類必要時(shí)對(duì)另外主題作附加分類若文獻(xiàn) 論述的幾個(gè)主題具有同等檢索意義,則分別標(biāo)引。3、相關(guān)關(guān)系主題文獻(xiàn)的分類標(biāo)引規(guī)則:(1 )應(yīng)用關(guān)系:論述理論、方法、技術(shù)

16、、材料在某一主題或?qū)W科方面的應(yīng)用的文獻(xiàn), 歸入應(yīng)用的主題或?qū)W科所屬類目論述理論、方法、技術(shù)、材料在多個(gè)主題或?qū)W科方面應(yīng) 用的文獻(xiàn),歸入理論方法等本身某一事物或?qū)W科應(yīng)用到另一事物或?qū)W科產(chǎn)生的交叉學(xué)科 主題的文獻(xiàn),歸入應(yīng)用到的事物或?qū)W科所屬的類目。(2)影響關(guān)系:論述一個(gè)主題對(duì)另一主題產(chǎn)生影響的文獻(xiàn),歸入被影響主題所屬類目論述一個(gè)主題對(duì)多個(gè)主題產(chǎn)生影響的文獻(xiàn),歸入產(chǎn)生影響的主題本 身所屬類目。(3)因果關(guān)系:一般歸入結(jié)果方面的主題所屬類目若結(jié)果是多方面的且能區(qū)分重點(diǎn),歸入重點(diǎn)主題所屬類目若不能分出重點(diǎn),歸入原因方面的主題所屬類目(4)從屬關(guān)系:依較大主題的學(xué)科屬性歸類,必要時(shí)對(duì)次要主題進(jìn)行分析分類

17、若 較小主題是論述重點(diǎn),按較小主題的學(xué)科屬性分類。(5)兩個(gè)主題相互比較的文獻(xiàn):按重點(diǎn)論述后所贊同的主題歸類,必要時(shí)為另一個(gè) 主題作互見多主題之間的比較,歸入包括這些主題的類組成的概括性類目(6)并列關(guān)系:歸入能概括其內(nèi)容的上位類無共同上位類的,按論述重點(diǎn)所屬主 題歸重點(diǎn)不明的,按按一個(gè)主題的學(xué)科屬性歸類二、主題標(biāo)引主題標(biāo)引:依據(jù)一定的主題詞表,對(duì)文獻(xiàn)內(nèi)容進(jìn)行主題分析,賦予語詞檢索標(biāo)識(shí)的過 程。意義:以主題詞作為文獻(xiàn)主題標(biāo)識(shí)和查找依據(jù),有利于族性檢索,有利于文獻(xiàn)情報(bào)工 作的自動(dòng)化現(xiàn)代化網(wǎng)絡(luò)化。(一)選詞規(guī)則1、文獻(xiàn)主題標(biāo)引應(yīng)選用詞表中的正式主題詞標(biāo)引,非正式主題詞只起指向正式主題詞 的作用,本

18、身不得用于標(biāo)引。2、文獻(xiàn)內(nèi)容的主題概念在詞表中沒有相應(yīng)的最專指主題詞時(shí),可選用與其最直接相關(guān) 最鄰近的主題詞進(jìn)行組配標(biāo)引。3、文獻(xiàn)內(nèi)容的主題概念在詞表中沒有恰當(dāng)主題詞組配,可用一個(gè)最直接的上位主題詞 進(jìn)行上位標(biāo)引,或近義主題詞進(jìn)行靠詞標(biāo)引。4、新增詞應(yīng)遵循一定原則:應(yīng)是詞形規(guī)范概念明確具有較重要檢索意義或廣泛組配 作用應(yīng)較成熟穩(wěn)定具有生命力應(yīng)是詞表中明顯漏收的。5、各類名詞主題詞可直接作為正式主題詞來使用。(二)組配規(guī)則組配標(biāo)引:將兩個(gè)或兩個(gè)以上主題詞按照一定的邏輯關(guān)系加以組織以表達(dá)文獻(xiàn)主題的 標(biāo)引方法。1、主題詞的組配必須是概念組配不能是字面組配。2、當(dāng)表達(dá)一個(gè)主題概念有多種組配方法可選時(shí),

19、應(yīng)優(yōu)先使用交叉組配,只有不能進(jìn)行 交叉組配的才考慮使用限定組配。3、應(yīng)選用與主題關(guān)系最鄰近最密切的主題詞進(jìn)行組配,不能選擇泛指主題詞進(jìn)行越級(jí) 組配。4、主題詞組配標(biāo)引的結(jié)果,必須概念清楚確切具有單義性。5、 當(dāng)一個(gè)標(biāo)題的主題詞涉及不同的主題因素時(shí),組配順序一般為“主體因素-通用因 素-空間因素-時(shí)間因素-文獻(xiàn)類型因素”;當(dāng)一個(gè)標(biāo)題中出現(xiàn)多個(gè)主體因素時(shí),按對(duì)象、方法、材料、過程、條件進(jìn)行排列。(三)主題詞組配標(biāo)引的形式1、概念交叉組配:同級(jí)組配,兩個(gè)或以上具有概念交叉關(guān)系的主題詞進(jìn)行組配,來表 達(dá)一個(gè)主題內(nèi)容。表現(xiàn)為同級(jí)主題詞或事物與事物之間的組配。將要標(biāo)引的復(fù)雜主題概念 分解為若干簡(jiǎn)單主題概念

20、,且在詞表中均有其對(duì)應(yīng)的正式主題詞,再將這些主題詞組配成 更專指的主題概念。2、概念限定關(guān)系組配:復(fù)分組配,由一個(gè)表示事物的主題詞和另一個(gè)或幾個(gè)表示事物 的部分、屬性、方面的主題詞組合起來表達(dá)一個(gè)新專指概念的組配方法。表現(xiàn)為事物與其 各方面的關(guān)系,而非事物與事物的關(guān)系。3、連接關(guān)系組配:是一種特殊的概念限定關(guān)系,指復(fù)合主題中主體因素之間具有應(yīng)用關(guān)系、影響關(guān)系、因果關(guān)系、比較關(guān)系、相互關(guān)系等。3.5自動(dòng)標(biāo)引一、自動(dòng)標(biāo)引概括自動(dòng)標(biāo)引:通過計(jì)算機(jī)的操作處理,賦予檢索標(biāo)識(shí)的活動(dòng)。分類:標(biāo)引深度:全文自動(dòng)標(biāo)引和題名自動(dòng)標(biāo)引從選用標(biāo)引詞:敘詞自動(dòng)標(biāo)引和 關(guān)鍵詞自動(dòng)標(biāo)引標(biāo)引方式:自動(dòng)賦詞標(biāo)引(標(biāo)引詞來自預(yù)先

21、編制的詞表而非文獻(xiàn)本身) 和自動(dòng)抽詞標(biāo)引(文獻(xiàn)本身中抽詞)從標(biāo)引形成標(biāo)識(shí):分類自動(dòng)標(biāo)引和主題自動(dòng)標(biāo)引二、自動(dòng)標(biāo)引方法(一)統(tǒng)計(jì)標(biāo)引法統(tǒng)計(jì)標(biāo)引法:各類標(biāo)引法中歷史最長(zhǎng)應(yīng)用范圍最廣的一種。理論基礎(chǔ)是著名的齊夫定 律,建立在較成熟的語言學(xué)統(tǒng)計(jì)研究成果基礎(chǔ)之上,簡(jiǎn)單易行,具有一定客觀性和合理性。1、詞頻統(tǒng)計(jì)法:該方法認(rèn)為:一個(gè)詞在一篇文獻(xiàn)中的出現(xiàn)頻率是這個(gè)詞對(duì)這篇文章的 重要性的有效測(cè)度。根據(jù)齊夫定律,將一篇較長(zhǎng)文章中出現(xiàn)的詞按遞減順序排列,用自然數(shù)這些詞編上等級(jí)序號(hào),頻次最高是1級(jí),用f表示頻次,r表示等級(jí)序號(hào),則有 f x r=c(c為常數(shù))。盧恩在齊夫定律基礎(chǔ)上,提出自動(dòng)抽詞基本思想,將詞的出現(xiàn)

22、頻率按等級(jí)排 列,以一定的標(biāo)準(zhǔn)排除高頻詞與低頻詞,剩下的就是最能代表文獻(xiàn)主題內(nèi)容的詞。目前, 詞頻統(tǒng)計(jì)法常與其他方法連用。2、加權(quán)標(biāo)引法:(1)逆文獻(xiàn)加權(quán)標(biāo)引法:標(biāo)引時(shí)不僅考慮詞在一篇文章中出現(xiàn)的頻率,而且考慮在 整個(gè)文獻(xiàn)集合中文獻(xiàn)頻率。標(biāo)引詞的權(quán)重與出現(xiàn)頻率一致,與文獻(xiàn)頻率成反比。詞的 出現(xiàn)頻率指詞針對(duì)文獻(xiàn)集合中某篇文獻(xiàn)而言,詞的文獻(xiàn)頻率指詞針對(duì)整個(gè)文獻(xiàn)集合而言。 一篇特定文獻(xiàn)中,特征詞的出現(xiàn)頻率較高;在一個(gè)文獻(xiàn)集合中,非特征詞的出現(xiàn)頻率較 高。(2)詞區(qū)分值加權(quán)標(biāo)引法:根據(jù)詞區(qū)分文獻(xiàn)的能力確定標(biāo)引詞的權(quán)重,標(biāo)引詞的權(quán)重 與其區(qū)分能力成正比。逆文獻(xiàn)加權(quán)標(biāo)引法和詞區(qū)分值加權(quán)標(biāo)引法主要依賴于詞的

23、頻率特征和詞的區(qū)分能力。 缺點(diǎn):與用戶的跟相關(guān)性無關(guān)。(3)詞相關(guān)性加權(quán)標(biāo)引法:根據(jù)檢索結(jié)果給出的相關(guān)性反饋確定標(biāo)引詞的權(quán)重。(4)價(jià)值測(cè)度加權(quán)標(biāo)引法:還要考慮相應(yīng)的效率和費(fèi)用。詞相關(guān)性加權(quán)標(biāo)引法和價(jià)值測(cè)度加權(quán)標(biāo)引法考慮標(biāo)引詞詞在特定文獻(xiàn)或這個(gè)文獻(xiàn)集 合中的頻率特征標(biāo)引詞在相關(guān)文獻(xiàn)集合和無關(guān)文獻(xiàn)集合中的頻率特征檢索結(jié)果的效益 值。3、n-Gram標(biāo)引法:以n字符串為統(tǒng)計(jì)對(duì)象,將其統(tǒng)計(jì)得分賦予該串中心字符,然后選 擇得分超過特定閥值字符的單詞或短語作標(biāo)引詞。原理簡(jiǎn)單處理容易。4、統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法:通過一個(gè)學(xué)習(xí)過程建立標(biāo)引詞與其相關(guān)詞和不相關(guān)詞的關(guān)系,并 以此為基礎(chǔ)確定標(biāo)引詞的標(biāo)引值。(二)語言分析

24、標(biāo)引法1、句法分析標(biāo)引法:從語法角度確定每個(gè)詞的作用(如是主語還是謂語)何詞之間的 相互關(guān)系(如是修飾還是被修飾)。一般通過與事先準(zhǔn)備好的解析規(guī)則或語法相比較而實(shí)現(xiàn)。 淺層句法分析:只把句子解析成較小的單元但不揭示這些單元之間的句法關(guān)系深層句 法分析:充分解析和揭示句子的語法特點(diǎn)和反映的主題內(nèi)容2、語義分析標(biāo)引法:分析詞在特定的上下文中的確切含義,以選擇與主題含義相同的 標(biāo)引詞。(三)人工智能標(biāo)引法人工智能:計(jì)算機(jī)科學(xué)的一個(gè)分支,專門研究怎樣用計(jì)算機(jī)理解和模擬人類特有的智 能系統(tǒng)的活動(dòng)。人工智能標(biāo)引法:在標(biāo)引中的具體技術(shù)是專家系統(tǒng)(又稱知識(shí)庫系統(tǒng)),專家系統(tǒng)的知識(shí)表示方法主要有產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法、框架表示法。三、自動(dòng)分類自動(dòng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論