第2章.信息資源管理中的內(nèi)容管理幻燈片.ppt_第1頁
第2章.信息資源管理中的內(nèi)容管理幻燈片.ppt_第2頁
第2章.信息資源管理中的內(nèi)容管理幻燈片.ppt_第3頁
第2章.信息資源管理中的內(nèi)容管理幻燈片.ppt_第4頁
第2章.信息資源管理中的內(nèi)容管理幻燈片.ppt_第5頁
已閱讀5頁,還剩166頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第2章信息資源管理中的內(nèi)容管理 本章基本內(nèi)容 2 1信息資源類型2 2信息采集2 3信息組織2 4信息檢索2 5信息分析2 6信息資源開發(fā)利用 2 1信息資源類型 2 1 1信息資源類型概述1 按信息載體劃分信息資源按載體材料和存儲技術(shù)可分為 1 印刷型信息資源 2 縮微型信息資源 3 聲像型信息資源 4 數(shù)字化信息資源 2 1 1信息資源類型概述 2 按加工深度劃分零次信息 研究正在進行研究項目的信息一次信息 原始文獻 研究報告等二次信息 文摘 索引等 為搜索一次信息而加工的出來的信息三次信息 綜述報告等 根據(jù)特定目的對一 二次信息的加工的結(jié)果 2 1 2文本類信息資源 文本類信息資源按出版形式劃分 可分為 1 圖書2 期刊3 會議文獻4 學(xué)位論文5 專利文獻6 研究報告7 政府出版物8 標(biāo)準(zhǔn)文獻9 產(chǎn)品資料10 文書檔案 2 1 3數(shù)據(jù)類信息資源 1 經(jīng)濟數(shù)據(jù)資源 1 宏觀經(jīng)濟統(tǒng)計數(shù)據(jù) 2 微觀經(jīng)濟數(shù)據(jù) 股票市場交易數(shù)據(jù) 上市公司財務(wù)指標(biāo)分析數(shù)據(jù) 上市公司治理結(jié)構(gòu)研究數(shù)據(jù) 上市公司兼并收購 資產(chǎn)重組研究數(shù)據(jù) 證券投資基金研究數(shù)據(jù) 上市債券研究數(shù)據(jù) 期貨市場研究數(shù)據(jù) 行業(yè)研究數(shù)據(jù) 商品市場數(shù)據(jù) 2 1 3數(shù)據(jù)類信息資源 3 經(jīng)濟資源數(shù)據(jù) 自然資源數(shù)據(jù) 城市基礎(chǔ)數(shù)據(jù) 企業(yè)法人數(shù)據(jù) 人口數(shù)據(jù) 2 1 3數(shù)據(jù)類信息資源 2 科學(xué)數(shù)據(jù)資源科學(xué)數(shù)據(jù)來源于各部門和各單位的觀測 監(jiān)測 調(diào)查 試驗 實驗以及研究分析等科技活動 涉及數(shù)值數(shù)據(jù) 空間數(shù)據(jù) 圖形數(shù)據(jù)和文本數(shù)據(jù)等各種類型 分布廣泛 內(nèi)容復(fù)雜 形式多樣 格式不一 數(shù)量龐大 1 基礎(chǔ)科學(xué)數(shù)據(jù) 2 基礎(chǔ)地理數(shù)據(jù) 3 空間數(shù)據(jù) 4 地震科學(xué)數(shù)據(jù) 2 1 3數(shù)據(jù)類信息資源 3 科學(xué)數(shù)據(jù)共享工程中國科學(xué)技術(shù)部的科學(xué)數(shù)據(jù)共享工程是科技基礎(chǔ)條件平臺工作的重要組成部分 實施科學(xué)數(shù)據(jù)共享工程 整合并共享現(xiàn)有的海量數(shù)據(jù)資源 讓科技界 學(xué)術(shù)界能夠方便地獲得所需要的數(shù)據(jù)資源 實現(xiàn)了數(shù)據(jù)資源的合理流動和充分利用 防止了科研活動的重復(fù)進行和科研經(jīng)費的浪費 有助于持續(xù)提升國家的科技創(chuàng)新能力 國家氣象局成為數(shù)據(jù)共享的先導(dǎo)和示范單位 2 1 3數(shù)據(jù)類信息資源 科技部又啟動了五個科學(xué)數(shù)據(jù)中心測繪科學(xué)數(shù)據(jù)共享服務(wù)水文水資源信息共享服務(wù)地震科學(xué)數(shù)據(jù)共享林業(yè)科學(xué)數(shù)據(jù)中心農(nóng)業(yè)科學(xué)數(shù)據(jù)中心三個共享服務(wù)網(wǎng)地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)現(xiàn)代農(nóng)業(yè)技術(shù) 農(nóng)村科技 信息共享服務(wù)網(wǎng)可持續(xù)發(fā)展信息共享平臺由此 包括氣象科學(xué)數(shù)據(jù)共享在內(nèi)九大行業(yè)的科學(xué)數(shù)據(jù)共享工程開始有條不紊地推進 2 2信息采集 2 2 1信息資源的數(shù)量和來源1 圖書的數(shù)量和來源據(jù)1995年 聯(lián)合國統(tǒng)計年鑒 對 個國家圖書出版情況的統(tǒng)計 全世界共生產(chǎn)圖書 萬多種 1997年美國出版圖書8 5萬 10萬種 英國9 5萬種 中國大陸10萬種 初版新書有5萬種 德國7 8萬種 法國3萬種 日本6萬種 還有意大利 西班牙等國 各有2萬 3萬種 近年來上述數(shù)字變化不大 俄羅斯出書也很多 前蘇聯(lián)一年出書8萬種 2 2 1信息資源的數(shù)量和來源 我國 這里僅指大陸地區(qū) 2003年有出版社570家 包括副牌社35家 共出版圖書190391種 其中新版圖書110812種 重版 重印圖書79579種 總印數(shù)66 7億冊 與上年相比圖書品種增長11 4 新版圖書品種增長10 重版 重印圖書品種增長13 2 總印數(shù)下降2 9 2 2 1信息資源的數(shù)量和來源 2 期刊的數(shù)量和來源由于期刊變化太快 所以 全世界的期刊有多少種 現(xiàn)在在版期刊有多少種 尚無人精確統(tǒng)計過 美國鮑克公司出版 烏利希國際期刊指南 Ulrich sInternationalPeriodicalsDirectory NewYork Bowker 1932 是目前反映國際期刊出版動態(tài)及訂購期刊的重要工具 其收集品種幾乎囊括了世界上正在出版的全部重要西文期刊 考察幾種權(quán)威的期刊工具書 目前在版期刊大約有15萬種 自有期刊以來 全世界累計出版期刊在300萬至500萬種之間 2 2 1信息資源的數(shù)量和來源 我國大陸地區(qū)2003年共出版期刊9074種 平均期印數(shù)19909萬冊 總印數(shù)29 47億冊 與上年相比種數(shù)增長0 5 平均期印數(shù)下降2 44 總印數(shù)下降0 14 出版報紙2119種 平均期印數(shù)19072 42萬份 總印數(shù)383 12億份 與上年相比 種數(shù)下降0 84 平均期印數(shù)增長1 88 總印數(shù)增長4 16 臺灣地區(qū)出版的期刊有5000余種 香港定期出版的期刊有670多種 澳門有20種 2 2 1信息資源的數(shù)量和來源 3 專利說明書的數(shù)量和來源世界上每年出版的專利說明書約為100 110萬件 根據(jù)中國國家知識產(chǎn)權(quán)局的統(tǒng)計數(shù)據(jù) 2003年我國專利申請總量為30 9萬件 授權(quán)量18 2萬件 分別比上年增長了22 和38 英國國家圖書館2004年累計專利說明書5348萬件專利說明書 是世界上最大的專利庫藏 截止2004年底 我國國家知識產(chǎn)權(quán)局專利局專利文獻館擁有29個國家3個國際組織的專利說明書 總量為4000多萬件 還可提供88個國家及國際組織專利信息檢索工具 2 2 1信息資源的數(shù)量和來源 4 技術(shù)標(biāo)準(zhǔn)的數(shù)量和來源技術(shù)標(biāo)準(zhǔn)是一種增長比較緩慢的文獻 目前 國際標(biāo)準(zhǔn)化組織 ISO 和國際電工委員會 IEC 頒布的現(xiàn)行有效的國際標(biāo)準(zhǔn)有16745項 約有100多個國家和地區(qū)設(shè)有全國性標(biāo)準(zhǔn)化組織 其中有90多個國家和地區(qū)制訂了國家標(biāo)準(zhǔn) 據(jù)統(tǒng)計 截止1991年年底 世界上各類標(biāo)準(zhǔn)文獻共計120多萬件 在我國 據(jù)統(tǒng)計 到2001年底 已頒布國家標(biāo)準(zhǔn)19744項 專業(yè) 部 標(biāo)準(zhǔn)31900項 地方標(biāo)準(zhǔn)11660項 企業(yè)標(biāo)準(zhǔn)871項 國家標(biāo)準(zhǔn)40 采用國際標(biāo)準(zhǔn)和國外先進標(biāo)準(zhǔn) 2 2 1信息資源的數(shù)量和來源 5 其他文獻的數(shù)量和來源據(jù) 科技會議錄索引 IndextoScientific TechnicalProceedings 簡稱ISTP 報道 全世界每年要召開上萬個科技會議 它每年報道大約4000多個會議的會議錄 收錄會議論文約16萬篇 世界會議 WorldMeetings 簡稱WM 是由美國WorldMeetingsInformationCenterInc 編輯 MacMilanPublishingCompany出版 專門報導(dǎo)未來兩年內(nèi)將要召開的國際學(xué)術(shù)會議信息 2 2 1信息資源的數(shù)量和來源 研究報告的數(shù)量隨著科技和經(jīng)濟的發(fā)展而迅速增長 1945 1950年間年全世界的產(chǎn)量在7500 100000件之間 20世紀(jì)70年代增至每年50萬件 80年代每年略有增加 在我國 中國科學(xué)技術(shù)情報研究所是收藏國外學(xué)位論文較多的單位 北京圖書館收藏了1983年由美國友好書刊基金會贈送的美國1938 1977年博士論文的縮微膠卷 1986年 清華大學(xué)訂購了美國部分著名大學(xué) 如麻省理工學(xué)院 1983年以來的 加利福尼亞大學(xué)伯克利分校 斯坦福大學(xué) 1984年以來某些系的 博士論文的縮微平片 中國學(xué)位論文通報 是我國自然科學(xué)類學(xué)位論文的權(quán)威性檢索工具 1985年創(chuàng)刊 2 2 1信息資源的數(shù)量和來源 6 數(shù)據(jù)資源的數(shù)量和來源數(shù)據(jù)資源數(shù)量非常龐大 而且增長迅猛 所以很難統(tǒng)計 據(jù)查 世界性的 國家或地區(qū)性的 學(xué)科或?qū)I(yè)性的數(shù)據(jù)量統(tǒng)計 都很難獲得 據(jù)報道 截止2004年10月底 我國大陸科學(xué)數(shù)據(jù)庫數(shù)據(jù)資源建設(shè)已建成專業(yè)數(shù)據(jù)庫388個 總數(shù)據(jù)量達(dá)13TB 目前 科學(xué)數(shù)據(jù)庫分布在各地的網(wǎng)站42個 上網(wǎng)專業(yè)庫322個 網(wǎng)上可查詢數(shù)據(jù)量達(dá)7 7TB 通過Internet提供共享服務(wù) 提前一年超額完成了 十五 期間數(shù)據(jù)資源達(dá)到10TB的建設(shè)任務(wù) 經(jīng)濟和社會生活領(lǐng)域產(chǎn)生的數(shù)據(jù)量更加龐大 2 2 1信息資源的數(shù)量和來源 科學(xué)數(shù)據(jù)的來源 一般是科研機構(gòu) 科學(xué)數(shù)據(jù)中心 以網(wǎng)絡(luò)或其他方式提供的科學(xué)數(shù)據(jù)庫等 經(jīng)濟和社會統(tǒng)計數(shù)據(jù)的主要來源有 行業(yè)協(xié)會 公司 銀行 交易所 經(jīng)紀(jì)人 政府部門和國際組織 獨立的調(diào)查機構(gòu) 市場研究機構(gòu) 數(shù)據(jù)匯編機構(gòu) 出版商 媒體 非營利性組織 大學(xué) 研究中心等以及它們的網(wǎng)站 行業(yè)和一般的商業(yè)數(shù)據(jù) 主要來自政府統(tǒng)計部門 國際統(tǒng)計機構(gòu) 政府調(diào)查資料 政府行政管理檔案 市場調(diào)研報告和行業(yè)報告 經(jīng)濟分析師報告 銀行報告 新聞報道 貿(mào)易類期刊 經(jīng)濟數(shù)據(jù)和財政數(shù)據(jù) 主要來自銀行 信貸機構(gòu) 保險公司 基金管理公司 政府經(jīng)濟普查機構(gòu) 媒體 面談?wù){(diào)查等渠道 2 2 2信息采集原則 信息采集是指通過各種方式獲取所需要的信息 是信息資源有效管理和利用的第一步 也是關(guān)鍵的一步 為了保證信息采集的質(zhì)量 應(yīng)堅持以下原則 1 系統(tǒng)性原則2 針對性原則3 及時性原則4 可靠性原則5 方便 經(jīng)濟的原則6 計劃性原則7 預(yù)見性原則 2 2 3信息采集策略 1 定向采集與定題采集2 單向采集與多向采集3 主動采集與跟蹤采集4 建立信息網(wǎng)絡(luò)5 利用互聯(lián)網(wǎng)進行信息采集6 嚴(yán)格管理與激勵措施相結(jié)合 2 2 4采集方式 1 文獻型信息資源的采集購買交換接收申請復(fù)制網(wǎng)絡(luò)搜索 2 2 4采集方式 2 實物型信息資源的采集采集人員通過參觀或參加各種實物展覽 定貨會 展銷會 交易會 或者現(xiàn)場參觀考察和觀摩同行實驗室 試驗站等方式實地考察實物 直接購買或索取實物樣品 2 2 4采集方式 3 鮮活型信息資源的采集交談 通過與員工 同事 熟人等進行直接對話 交談 討論和辯論來獲取信息 采訪 選擇特定對象 針對某些感興趣的問題主動提問 獲取信息 社會調(diào)查 指直接從社會中了解情況 采集信息和數(shù)據(jù) 收集到第一手資料 這是獲得真實可靠信息的重要手段 此外 還可以通過參加各類報告會或演講會 各類培訓(xùn)班 其他社交活動以及現(xiàn)場錄音等方式收集各種鮮活信息 2 2 4采集方式 4 數(shù)據(jù)的采集主要的采集方式有觀察 實驗 檢測 考察 調(diào)查 統(tǒng)計 檢索 普查和科學(xué)研究等 例如 空間信息的采集通常GPS系統(tǒng) 激光三維掃描系統(tǒng) 空間信息合成與編輯系統(tǒng)以及其他實時采集系統(tǒng)來實現(xiàn) 2 2 5新的采集技術(shù) 1 全自動電話訪談 CATS 近年來出現(xiàn)的一種使用內(nèi)置聲音回答技術(shù) 取代了傳統(tǒng)的調(diào)研方式和電話訪談 它利用專業(yè)調(diào)研員的錄音來代替訪問員逐字逐句地念出問題及答案 回答者可以將封閉式問題的答案通過電話上的撥號盤鍵入 開放式問題的答案則被逐一錄在磁帶上 2 2 5新的采集技術(shù) 2 交互式計算機輔助電話訪談 CATI 是中心控制電話訪談的 電腦化 形式 目前在美國十分流行 每一位訪問員各坐在一臺計算機終端或個人電腦前 當(dāng)被訪者電話被接通后 訪問員通過一個或幾個鍵啟動機器開始提問 問題和多選題的答案便立刻出現(xiàn)在屏幕上 這一方法省略了數(shù)據(jù)的編輯及錄入的步驟 2 2 5新的采集技術(shù) 3 電腦柜調(diào)研 一種類似于公用電話亭的電腦直接訪談?wù){(diào)研方式 帶觸摸屏的計算機存放在可自由移動的柜子里 計算機可以設(shè)計程序以指導(dǎo)復(fù)雜的調(diào)研 并顯示出全顏色的掃描圖像 產(chǎn)品 商店外觀等 還可以播放聲音錄音和電視影像 這種訪談方式的費用較低 而且被訪者更可能給出誠實的答案 由于調(diào)研前已進行了程序化設(shè)計 故更容易控制 在美國 西歐 日本等市場調(diào)研技術(shù)發(fā)達(dá)的國家 電腦柜調(diào)研已經(jīng)成功的用于貿(mào)易展示 會議 現(xiàn)在正在嘗試用于零售環(huán)境 在那里會有更多的用途 2 2 5新的采集技術(shù) 4 網(wǎng)絡(luò)調(diào)研系統(tǒng) 主要有E mail問卷 交互式電腦輔助電話訪談 CATI 系統(tǒng)和網(wǎng)絡(luò)調(diào)研系統(tǒng)等三種基本類型 E mail問卷按照已知的E mail地址發(fā)出 被訪者回答完畢將問卷回復(fù)給調(diào)研機構(gòu) 有專門的程序進行問卷準(zhǔn)備 列制E mail地址和收集數(shù)據(jù) 交互式計算機輔助電話訪談 CATI 系統(tǒng)前面已介紹過 網(wǎng)絡(luò)調(diào)研系統(tǒng)運用專門的問卷鏈接及傳輸軟件 問卷由簡易的可視問卷編輯器產(chǎn)生 自動傳送到互聯(lián)網(wǎng)服務(wù)器上 通過網(wǎng)站使用者可以隨時在屏幕上對回答數(shù)據(jù)進行整體統(tǒng)計或圖表統(tǒng)計 費用比CATI系統(tǒng)低 小規(guī)模的樣本調(diào)研 低于500名 的費用比E mail調(diào)研高 2 3信息組織 2 3 1信息表示概述 信息表示 Representationofinformation 是20世紀(jì)80年代以后開始使用的一個術(shù)語 在通信領(lǐng)域中又稱為 訊息表示 messagedesignation 它的一般涵義是指一種表述 由信源或通道機制 如編碼者 提供的 關(guān)于他們?nèi)绾蜗嘈旁撔畔⑦m合于現(xiàn)有的某種組織化標(biāo)識集合的一種陳述 statement 在知識組織系統(tǒng) 如情報檢索系統(tǒng) 中 信息表示就是信息在系統(tǒng)中存儲的邏輯結(jié)構(gòu)和物理結(jié)構(gòu)的一種表示方式 它通常要借助現(xiàn)有的某種語言工具來表示某信息在給定信息空間中的邏輯地址和物理地址 2 3 1信息表示概述 1 信息表示的來源信息表示的來源多種多樣 并不是只有分類和標(biāo)引 信息從創(chuàng)建到傳播利用的每一個階段都可能產(chǎn)生不同形式的信息表示 常見的有 信息的創(chuàng)作 生產(chǎn) 者為自己的作品命名 編輯出版部門對作品或信息的編輯加工 提供編輯排版符號 置標(biāo)語言 關(guān)鍵詞 類別標(biāo)記 特種文獻編號等 發(fā)行銷售部門對出版物加注標(biāo)識 如陳列標(biāo)志 或編制銷售目錄 圖書館對出版物進行編目和分類 信息機構(gòu)對信息內(nèi)容進行分析 標(biāo)引和摘錄 數(shù)據(jù)庫生產(chǎn)者和聯(lián)機服務(wù)商對每一個記錄 信息條目 進行識別 提取出檢索鍵 文本分析系統(tǒng) 如自動標(biāo)引系統(tǒng) 自動生成的信息表示 2 3 1信息表示概述 2 信息表示的生成方法 補充數(shù)據(jù)庫 數(shù)據(jù)表的知識 字段 關(guān)鍵字 記錄 排序 索引 派生法 是指信息表示直接來自對象信息集合自身 利用某些識別和分析技術(shù) 從對象信息集合中提取出可用于信息組織和檢索的語詞符號或其他特征標(biāo)識 傳統(tǒng)的派生法又稱為關(guān)鍵詞索引法 自動抽詞標(biāo)引或派生式標(biāo)引 不同的對象信息有不同的特征 所以其特征信息的識別和提取方法也不同 指派法 是指信息表示來自對象信息的外部 由信息加工處理者在對信息內(nèi)容進行分析的基礎(chǔ)上 考慮其潛在用戶的知識結(jié)構(gòu) 參考社會的公共知識結(jié)構(gòu) 確定要揭示的信息內(nèi)容屬性及表示方式 直至把標(biāo)識 如標(biāo)引詞 分類號 賦予對象信息的過程 2 3 2信息表示語言 1 置標(biāo)語言置標(biāo)語言 MarkupLanguage 由一些代碼 codes 或控制標(biāo)記 tags 組成 這些代碼或控制標(biāo)記本身若單獨存在是無意義的 它們必須結(jié)合文件信息后才能形成一份有用的電子文件 而所謂有用的電子文件是針對應(yīng)用軟件來說的 即應(yīng)用軟件能夠解讀電子文件中的置標(biāo)語言 并通過置標(biāo)語言的意義對電子文件進行特定的處理 置標(biāo)語言不同于一般的控制流程序設(shè)計語言 基本上可以被視為是一種數(shù)據(jù)流的文檔結(jié)構(gòu)描述語言 在計算機處理過程中 置標(biāo)語言的標(biāo)記既可以作為數(shù)據(jù) 也可以作為控制語句來使用 置標(biāo)語言的產(chǎn)生有多種因素 信息交換 InformationExchange 與信息再利用 InformationReuse 問題 2 3 2信息表示語言 1 置標(biāo)語言SGML StandardGeneralizedMarkupLanguage 是數(shù)據(jù)描述 數(shù)據(jù)模型化和數(shù)據(jù)交換的標(biāo)準(zhǔn) 是一種描述結(jié)構(gòu)的模式語言 也是標(biāo)識這些結(jié)構(gòu)的置標(biāo)語言 SGML是一個復(fù)雜的系統(tǒng) 就語言而言它是一種電子文獻的格式 即標(biāo)準(zhǔn)結(jié)構(gòu)化文獻格式 或描述文獻的一種計算機語言 HTML是SGML的一種簡化應(yīng)用 用于創(chuàng)建Web頁和Web信息發(fā)布的第一個通用語言 它提供跨平臺的文檔共享 它有一個固定的SGML規(guī)范聲明及相應(yīng)的DTD 并且著重在如何將信息顯示出來 而不是考慮如何將文件數(shù)據(jù)結(jié)構(gòu)化 XML是SGML的一個子集 其設(shè)計目標(biāo)是使SGML能夠像HTML一樣通過Web發(fā)送 接收與處理 它充分利用SGML特征并且簡單易用 保留了SGML80 的功能 卻使復(fù)雜度降低了20 XML文件可以獨立于Internet存在 其平臺無關(guān)性將對Web產(chǎn)生巨大的影響 2 3 2信息表示語言 2 元數(shù)據(jù)定義表示信息的最小單位 本質(zhì)上是數(shù)據(jù)表 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的有結(jié)構(gòu)的數(shù)據(jù) 或者定義和描述其它數(shù)據(jù)的數(shù)據(jù) 它規(guī)定了數(shù)字化信息的組成 其基本功能在于規(guī)范數(shù)據(jù)組織 便于檢索和傳遞 本質(zhì)上說 元數(shù)據(jù) Metadata 是一種數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn) 起源元數(shù)據(jù)概念最早起源于計算機科學(xué) 如數(shù)據(jù)字典 和圖書館界 如編目規(guī)則 機讀目錄記錄格式 元數(shù)據(jù)在其他很多領(lǐng)域也已經(jīng)有應(yīng)用 如在地理界的應(yīng)用相當(dāng)成熟 并實現(xiàn)了標(biāo)準(zhǔn)化 元數(shù)據(jù) Metadata 是隨著因特網(wǎng)上海量和迅速增長的信息資源和傳統(tǒng)的資源組織方式的局限性 而成為人們關(guān)注的焦點的 2 3 2信息表示語言 元數(shù)據(jù)分類根據(jù)其功能 元數(shù)據(jù)可以被劃分成三種基本類型 知識描述型元數(shù)據(jù) 用來描述 發(fā)現(xiàn)和鑒別數(shù)字化信息對象 如MARC等 結(jié)構(gòu)型元數(shù)據(jù) 用來描述數(shù)字化信息資源的內(nèi)部結(jié)構(gòu) 比前者更側(cè)重于數(shù)字化信息資源的內(nèi)在的形式特征 如目錄 章節(jié) 段落等特征 存取控制型元數(shù)據(jù) 用來描述數(shù)字化信息資源能夠被利用的基本條件和期限 以及指示這些資源的知識產(chǎn)權(quán)特征和使用權(quán)限 2 3 2信息表示語言 3 都柏林核心元數(shù)據(jù)格式 DC DC元數(shù)據(jù)格式是通過舉辦一系列研討會的形式發(fā)展起來的 第一次研討會于1995年3月在美國俄亥俄州的都柏林舉辦 這些研討會和會后相關(guān)的工作最終產(chǎn)生了由Weibel等人于1998年提出的一個精簡的元數(shù)據(jù)集 都柏林核心元素集 DubilnMetadataCoreElementsSet 簡稱都柏林核心元數(shù)據(jù) DC 2 3 2信息表示語言 DC元數(shù)據(jù)所包含的三個大類十五個要素 可基本揭示信息資源的特征 第一大類為描述資源內(nèi)容的要素 第二大類為描述知識產(chǎn)權(quán)的要素 第三大類為描述資源外部屬性的要素 DC的創(chuàng)制為專業(yè)或非專業(yè)編目人員 網(wǎng)絡(luò)信息創(chuàng)編者提供一個簡單 實用而又有效的信息描述工具 DC元數(shù)據(jù)所包含的十五個要素 1 題名 Title 資源的名稱 通常由創(chuàng)作者或出版者賦予 2 著者或創(chuàng)作者 AuthororCreator 對于創(chuàng)建資源的知識內(nèi)容負(fù)有主要責(zé)任的個人或組織 如文獻的作者 視覺資源的藝術(shù)家 攝影師或插圖繪畫者 3 主題詞和關(guān)鍵詞 SubjectandKeywords 表示資源主題內(nèi)容的單詞或詞組 屬于主題編目的范圍 見下面的主題標(biāo)引小節(jié) 4 描述 Description 資源內(nèi)容的文本描述 如文獻的文摘 視覺資源的內(nèi)容描述等 5 出版者 Publisher 負(fù)責(zé)使資源能夠以現(xiàn)有形式獲得的實體 如出版社 大學(xué)里的部門或社團實體 DC元數(shù)據(jù)所包含的十五個要素 6 其他貢獻者 OtherContributor 在創(chuàng)作者 Creator 項中未指明的 對資源作出了重要貢獻 但其貢獻次于創(chuàng)作者項中指明的個人或組織所做的貢獻的其他個人或組織 如編者 轉(zhuǎn)錄者和說明者 7 日期 Date 與資源的創(chuàng)建或可獲得性相關(guān)的日期 8 資源類型 ResourceType 資源的種類 如網(wǎng)頁 小說 詩歌 工作報告 技術(shù)報告 散文和詞典 9 形式或格式 Format 資源的數(shù)據(jù)形式和尺寸 如大小 持續(xù)時間 可選擇 10 資源標(biāo)識符 ResourceIdentifier 用來唯一標(biāo)識資源的字符串或數(shù)字 如URL和URN 11 來源 Source 有關(guān)另一資源的信息 當(dāng)前資源源于該資源 DC元數(shù)據(jù)所包含的十五個要素 12 語言 Language 資源的內(nèi)容中所使用的語言 13 相關(guān)資源 Relation 另一資源的標(biāo)識符及其與當(dāng)前資源的關(guān)系 14 覆蓋范圍 Coverage 資源內(nèi)容的空間或時間方面的特征 15 權(quán)限管理 RightsManagement 有關(guān)作品版權(quán)生命和使用方面的規(guī)范 DC的優(yōu)點 鼓勵作者和出版者以自動資源發(fā)現(xiàn)工具能收集的形式提供元數(shù)據(jù) 鼓勵包含有元數(shù)據(jù)的模塊的網(wǎng)絡(luò)出版物工具的創(chuàng)造 DC生成的記錄能作為更詳細(xì)的編目記錄的基礎(chǔ) 所以 在數(shù)字化圖書館的信息發(fā)現(xiàn) 信息檢索和信息組織諸方面 元數(shù)據(jù)都起著十分重要的作用 它為分布式數(shù)據(jù)發(fā)現(xiàn)和檢索奠定了基礎(chǔ) 2 3 2信息表示語言 4 信息檢索語言在信息檢索系統(tǒng)中 信息的表示和組織需借助一定的標(biāo)記系統(tǒng)或語言 信息檢索語言就是最重要的標(biāo)記系統(tǒng)或語言 所謂信息檢索語言 簡稱檢索語言 根據(jù)國際標(biāo)準(zhǔn)化組織 ISO 頒布的有關(guān)標(biāo)準(zhǔn)的解釋 是指用于信息內(nèi)容表示 存儲和檢索等過程的語言 或者是上述語言與給定檢索軟件中所特有的命令的組合 在西歐國家又稱為文獻工作語言 信息檢索語言的主要功能 信息表示功能 可用來表示 描述 某一信息 知識 單元的特征和用戶的信息需求 信息 知識組織功能 可以利用它來組織信息庫或知識倉庫中的信息和知識 使之成為一種有序的 便于管理和查詢的信息集合或知識集合 詞匯控制和協(xié)調(diào)功能 能對檢索系統(tǒng)中采用的信息表示方式 如標(biāo)引詞 檢索詞集合 加以規(guī)范和控制 使其意義和用法更加明確 專一和統(tǒng)一 同時能與其它檢索語言協(xié)調(diào)一致 一部分檢索語言具有此項功能 信息檢索語言的類型 自然語言 naturallanguages 在這里是指索引詞匯直接來自系統(tǒng)所處理的文獻或提問本身 使用前未經(jīng)優(yōu)選和規(guī)范化處理的一類檢索語言 其表現(xiàn)形式為題名或文中的關(guān)鍵詞集合 自然語言文本 自然語言提問以及早期的單元詞 它往往是標(biāo)引時手工或機器自動抽詞的產(chǎn)物 受控語言 controllanguages 指索引詞匯在使用前經(jīng)過優(yōu)選和規(guī)范化處理 并且整個語言經(jīng)常處于某種權(quán)威機構(gòu)或檢索系統(tǒng)的管理和控制之下的各種檢索語言的總稱 又稱規(guī)范化語言 受控語言的分類 受控語言按索引詞匯的組配特征來劃分 又可分為先組式語言和后組式語言兩大類型 索引詞匯的 組配 coordination 問題主要是因某些主題概念或命題不能用單個具詞來全面表示所引起的 用兩個或更多的詞或類的組合起來描述和表示文獻主題 這樣的作業(yè)或過程就稱為組配 如果組配作業(yè)是在標(biāo)引前或標(biāo)引中完成的 這樣的檢索語言均稱為先組式語言 其中前者稱為定組式 后者稱為散組式 如果標(biāo)引時只用一些基本詞匯分別去描述文獻主題的各個組成要素 索引詞匯不是事先組配好 而是事后組配 讓檢索者依需要進行自由組配 這樣的檢索語言就稱為后組式語言 信息檢索語言的類型 其他分類除了從規(guī)范化程度和組配特征來區(qū)分以外 還可以依據(jù)其他特征對檢索語言或知識組織系統(tǒng)作進一步的區(qū)分 如 以科學(xué)分類為基礎(chǔ)建立起來的各種分類系統(tǒng) 如圖書分類法 文獻分類法以及面向其他對象的分類體系 統(tǒng)稱為分類語言 以各專業(yè)領(lǐng)域的術(shù)語為基礎(chǔ) 以概念邏輯為規(guī)范手段的各種主題語言 如標(biāo)題詞語言 單元詞語言 敘詞語言 關(guān)鍵詞語言等 2 3 3信息資源編目 信息資源編目就是生成信息資源的替代記錄 利用這些記錄可以方便地鑒別 定位 訪問和使用資源 它是信息資源組織的基礎(chǔ)性工作 其主要任務(wù)之一是描述每一個信息資源單位或單元的外部特征和形式上的特征 也就是資源一般特征的著錄工作 另外 它還包括目錄體系設(shè)計 目錄組織 有關(guān)規(guī)章制度的制定等 狹義的資源編目未涉及到資源的內(nèi)容特征的分析 國際上通常稱之為描述性編目 以區(qū)別于廣義的編目工作中包含的分類工作或主題標(biāo)引工作 相應(yīng)地稱為主題編目 下文把信息資源編目簡稱為編目 2 3 3信息資源編目 傳統(tǒng)編目 手工編目 編目采用手工操作方式 目錄載體為書本式及卡片式 技術(shù)落后 編目工作分散重復(fù) 編目方法和數(shù)據(jù)不統(tǒng)一 目錄使用效率低 現(xiàn)代編目 機器編目 20世紀(jì)中葉以來 集中編目和合作編目模式逐步發(fā)展起來 信息技術(shù)在編目工作中的應(yīng)用 使編目工作開始進人自動化和網(wǎng)絡(luò)化階段 出現(xiàn)了機讀目錄 MARC 編目自動化系統(tǒng)和聯(lián)機編目網(wǎng)絡(luò) 有力地促進了編目數(shù)據(jù)交流和編目成果共享 2 3 3信息資源編目 1 資源編目工作的內(nèi)容編目準(zhǔn)備工作 元數(shù)據(jù)格式 必備的信息類型及其來源 內(nèi)容標(biāo)準(zhǔn)和編目規(guī)則 編目工具和接口 如前所述 元數(shù)據(jù)格式 如DublinCore MARC 是一些數(shù)據(jù)輸入和查詢的框架 信息類型及其來源 書目型描述性信息 題名 位置以及該資源內(nèi)容的責(zé)任個人和機構(gòu)等 這類信息一般直接從資源自身摘取 主題信息 如分類號 編目人員添加的關(guān)鍵詞 以及取自敘詞表或標(biāo)題表的詞匯 主要由標(biāo)引員根據(jù)主題法或分類法給出 管理型元數(shù)據(jù) 包括有助于管理信息資源的其他任何信息 如負(fù)責(zé)選擇和編目特定資源的相關(guān)人員的信息 一個目錄記錄的創(chuàng)建 或更新 日期以及對外發(fā)布所選資源的日期等 2 3 3信息資源編目 1 資源編目工作的內(nèi)容選擇內(nèi)容標(biāo)準(zhǔn)和編目規(guī)則 通常包括以下幾點了解可能存在的所有數(shù)據(jù)元素列表 簡要解釋每個元素項目需填什么信息 解釋信息如何填入數(shù)據(jù)元素項目中 規(guī)則 明確一些日期 語言代碼等的格式使用原則 所用到的外部標(biāo)準(zhǔn)的提示 或連接 例如 分類法 名稱規(guī)范 一旦開始編目 這些原則必須分發(fā)給負(fù)責(zé)資源著錄的人員 2 3 3信息資源編目 2 編目對象和資源著錄編目對象 各種形式的信息資源 如圖書 期刊 論文 研究報告 專利 技術(shù)標(biāo)準(zhǔn) 檔案 公文 網(wǎng)頁等 據(jù)報道 在1987 1997年的十年間 編目工作的對象就發(fā)生了很大變化 音視頻資料 數(shù)字化文獻和互聯(lián)網(wǎng)資源大量增加資源著錄 指按照一定的規(guī)則對文獻內(nèi)容與形式特征進行分析 選擇 記錄的過程 資源著錄的結(jié)果產(chǎn)生款目 也就是我們傳統(tǒng)上俗稱的目錄卡片 現(xiàn)在計算機編目后又稱 MARC記錄 描述的內(nèi)容事項 也稱為元數(shù)據(jù) 編目過程中 編目規(guī)則和標(biāo)準(zhǔn)化 2 3 3信息資源編目 3 編目規(guī)則和標(biāo)準(zhǔn)化編目規(guī)則和原則的作用是說明如何按指定格式生成元數(shù)據(jù) 為了保證描述工作的一致性和目錄質(zhì)量 編目工作必須遵循一定的方法和規(guī)范 圖書情報界把這種方法和規(guī)范稱為圖書著錄法 圖書著錄條例 文獻著錄規(guī)則 1908年 英美兩國圖書館界聯(lián)合制定了 英美編目條例 AACR 在國際上有很大影響 1977年提出的 國際標(biāo)準(zhǔn)書目著錄 ISBD 在世界范圍內(nèi)推廣應(yīng)用 促進了文獻編目的標(biāo)準(zhǔn)化 我國在1981年頒布了文獻著錄方面的國家標(biāo)準(zhǔn) 文獻著錄總則 1995年OCLC和NCSA聯(lián)合推出了一套新的基于DublinCore的編目規(guī)范 主張使用簡單的標(biāo)識集合來描述網(wǎng)絡(luò)信息資源和數(shù)字化資源 2 3 3信息資源編目 4 計算機編目和機讀目錄計算機編目就是借助計算機系統(tǒng)完成編目作業(yè) 包括單機編目和聯(lián)機編目 機讀目錄 Machine readablecatalogue 簡稱MARC 是一種以代碼形式和特定結(jié)構(gòu)記錄在計算機存貯載體上 可由計算機自動控制 處理和編輯輸出的目錄 聯(lián)機編目是指利用計算機和網(wǎng)絡(luò)環(huán)境 由多個機構(gòu)共同編目 合作建立具有統(tǒng)一標(biāo)準(zhǔn)的信息資源聯(lián)合目錄數(shù)據(jù)庫 并在此基礎(chǔ)上實現(xiàn)聯(lián)機合作編目 其優(yōu)點是降低編目成本 提高書目質(zhì)量 分享專業(yè)知識和技能 提高編目效率 2 3 3信息資源編目 5 目錄體系 目錄組織和維護目錄體系是指信息機構(gòu)為了合理地組織和揭示信息資源庫藏而設(shè)置的各種目錄所形成的一個體系 這些不同類型的目錄在內(nèi)容和功能上相互聯(lián)系相互補充 目錄體系的設(shè)計要考慮信息機構(gòu)的類型 任務(wù) 資源狀況 用戶需求和成本等因素 并且要保證目錄體系的穩(wěn)定性和連續(xù)性 目錄組織是指按照一定的次序?qū)⒏黝愔浲瓿傻目钅颗帕衅饋斫M成目錄的過程 目的是方便讀者檢索 2 3 4信息分類 1 分類的作用資源分類的目的在于使用戶更容易找到資源 分類法不同于其他主題標(biāo)引系統(tǒng) 如主題標(biāo)目和敘詞 它追求將相互關(guān)聯(lián)的資源集合形成一個等級體系 注釋和代碼的使用方便了等級主題樹的創(chuàng)建 通過構(gòu)建一個等級結(jié)構(gòu) 分類法使用戶可以找到一系列相關(guān)的信息 盡量避免遺漏 采用分類法可以大大方便信息瀏覽 2 3 4信息分類 2 分類法含義 分類法是歷史最悠久的一種檢索語言 分類法中的類通常以學(xué)科 領(lǐng)域或事物名稱命名 即類名 用特定的符號系統(tǒng) 類號 為簡略表現(xiàn)形式 類的涵義和適用范圍由類名和類表結(jié)構(gòu)共同決定 實例 國外最有影響的有美國的 杜威十進分類法 DDC 和 國會圖書館分類法 LCC 歐洲的 國際十進分類法 UDC 和 國際專利分類法 IPC 前蘇聯(lián)的 圖書館數(shù)目分類法 BBK 印度阮崗納贊的 冒號分類法 CC 我國近百年來也編制了數(shù)十種分類法 其中 目前在大陸應(yīng)用最廣的有 中國圖書館圖書分類法 在臺灣較通用的是劉國鈞編的 中國圖書分類法 2 3 4信息分類 主要分類 古今中外的所有分類法可以歸納為兩大類型 等級列舉式分類語法和分面分類法 1 等級列舉式分類語法 主要根據(jù)學(xué)科門類來列類 又稱體系分類語言 主要用于藏書組織和分類目錄編制 2 分面分類語言要按主題來列類 經(jīng)過描述對象的概念的分析與綜合 可以把復(fù)雜主題概念分析為若干簡單的主題概念或概念因素 簡單的主題概念可以綜合表達(dá)復(fù)雜的主題 簡單主題屬性即構(gòu)成 面 它屬于散組式語言 適用于編制分類目錄或索引 2 3 5主題標(biāo)引 主題標(biāo)引 簡稱標(biāo)引 indexing 是對文獻的內(nèi)容主題及其它有檢索意義的特征進行分析 識別 提煉和歸納 然后用某種檢索語言標(biāo)寫出來 作為信息存儲與檢索的依據(jù)的信息處理過程 標(biāo)引是信息分析加工過程中的重要環(huán)節(jié) 通過標(biāo)引 賦予文獻檢索標(biāo)識 指明其內(nèi)容特征 再配以書目信息編制出各種目錄 索引或數(shù)據(jù)庫 是實現(xiàn)文獻檢索的基礎(chǔ) 2 3 5主題標(biāo)引 標(biāo)引使用的語言可以是自然語言或受控語言 可按使用檢索語言的類型來劃分標(biāo)引類型 如使用分類檢索語言時 稱為分類標(biāo)引 使用主題檢索語言時 稱為主題標(biāo)引 主題標(biāo)引又分為受控標(biāo)引與自然語言標(biāo)引 受控標(biāo)引指須由事先指定的敘詞表 主題詞表 中選用相應(yīng)規(guī)范詞 對文獻進行標(biāo)引 自然語言標(biāo)引又稱自由詞標(biāo)引 指不設(shè)規(guī)范詞表而由標(biāo)引人員直接選用的文獻內(nèi)自然語言詞 對文獻進行標(biāo)引 2 3 5主題標(biāo)引 1 標(biāo)引的一般方法主題標(biāo)引包括兩個很不相同的智力工作步驟 即主題分析與概念轉(zhuǎn)換 主題分析是對所標(biāo)引的信息資源的內(nèi)容進行全面準(zhǔn)確的分析 把握其主題內(nèi)容或中心思想 形成主題概念 包括核心概念和輔助概念 概念轉(zhuǎn)換 指就是選用指定的檢索語言來表達(dá)主題概念 如果采用自然語言標(biāo)引 就可以用該資源本身提供的重要詞語 即關(guān)鍵詞 做標(biāo)引詞 如果采用受控語言標(biāo)引 則需要從某種指定的受控語言 如敘詞表 標(biāo)題表或分類表 中選擇適當(dāng)?shù)脑~ 即受控詞 來表達(dá)該主題概念 常見的方法有標(biāo)題法 元詞法 敘詞法 2 3 5主題標(biāo)引 2 標(biāo)題法標(biāo)題法采用標(biāo)題詞語言描述文獻主題和信息需求 編制主題目錄 索引 或建立索引文檔 它按照文獻所論及的事物 而不是學(xué)科屬性 集中相關(guān)文獻 強調(diào)知識的特指性 與分類法相比 標(biāo)題法具有較好的直接性和專指性 較適合于特性檢索 在系統(tǒng)性方面則比較差 不適合于特性檢索 此外 在表達(dá)主題的靈活性方面 又遜于元詞法和敘詞法 在主題標(biāo)引和索引工作中 它已逐漸被敘詞法所取代 2 3 5主題標(biāo)引 3 元詞法元詞法采用單元詞語言描述文獻主題和信息需求 編制索引或建立檢索文檔 它反對標(biāo)題法等傳統(tǒng)的標(biāo)引方法所用的主題詞預(yù)先固定組配的做法 主張標(biāo)引時用最小最基本的詞匯單位 即單元詞 做主題詞 通過檢索階段的布爾邏輯組配來合成主題概念 實現(xiàn)文獻主題與用戶提問的匹配 即后組配原理 元詞法的主要優(yōu)點是 表達(dá)主題靈活性好 詞匯控制工作量小 簡化了文獻標(biāo)引作業(yè) 便于提高標(biāo)引深度和專制度 用戶可通過調(diào)節(jié)組配元的成分和數(shù)量來優(yōu)化檢索結(jié)果 主要缺點是 單元詞又限于字面分解與組配 以造成分解不當(dāng)和錯誤組配 影響查準(zhǔn)率 2 3 5主題標(biāo)引 4 敘詞法 參考 知識點 如何認(rèn)識基本類目 標(biāo)題詞 關(guān)鍵詞和敘詞 敘詞法采用敘詞語言描述文獻主題和信息需求 編制主題目錄 索引或建立檢索文檔 它吸收和融合了多種索引方法和檢索語言的原理和長處 如元詞法的后組配原理 標(biāo)題法的預(yù)先組配原理和參照系統(tǒng) 分面組配分類法的概念分析與綜合原理 列舉式分類法的學(xué)科分類展示原理 關(guān)鍵詞法的輪排顯示原理等 敘詞法 敘詞是指從文獻中抽出的且規(guī)范化了的用以表達(dá)文獻主題的單義詞或代碼 敘詞法就是采用敘詞表述文獻主題 編制檢索系統(tǒng)的一種方法 敘詞法的主要優(yōu)點是 敘詞的表現(xiàn)力強 專指性和靈活性好 組配方法科學(xué) 詞匯控制技術(shù)較完善 顯示手段多 參照系統(tǒng)完善 詞間關(guān)系指示明確 因而能比其他索引方法更好地滿足特性檢索和族性檢索的需要 它逐漸取代了標(biāo)題法和元詞法 成為文獻標(biāo)引和情報檢索中應(yīng)用最普遍一種方法 2 4信息檢索 信息檢索就是將信息按一定的方式組織和存貯起來 并根據(jù)用戶的需要找出有關(guān)信息的過程 它是人類信息活動的一種過程 其中包括存與取兩個環(huán)節(jié) 但又不是簡單 機械的存取 在這里 存是指一種面向來自各種渠道的大量信息而進行的高度組織化的存貯 而所謂取 就是面向隨機出現(xiàn)的信息需求而進行的高度選擇性的檢索 且尤其強調(diào)快速便利地檢出與需求有關(guān)的信息 2 4 1信息檢索的類型 1 文獻檢索文獻檢索以文獻為對象 是用戶提問 檢索課題 與文獻集合 檢索工具或數(shù)據(jù)庫 中的記錄相關(guān)匹配和選擇的過程 從本質(zhì)上看 文獻檢索是一種相關(guān)性檢索 它不同于數(shù)據(jù)庫檢索和事實檢索 不直接解答用戶提出的問題本身 只限于提供與之相關(guān)的文獻資料供參考 根據(jù)加工深度不同 文獻檢索可分為題錄 目錄 檢索 文摘檢索 全文檢索和語段檢索 2 4 1信息檢索的類型 2 數(shù)據(jù)檢索數(shù)據(jù)檢索是將經(jīng)過選擇 整理和評價 鑒定 的數(shù)據(jù)存入某種載體中 并根據(jù)用戶需要從某種數(shù)據(jù)集合中檢索出能回答其問題的準(zhǔn)確 確定 數(shù)據(jù)的過程或技術(shù) 信息檢索的主要類型 與文獻檢索相對 廣泛地應(yīng)用于研究開發(fā) 科學(xué)計算 質(zhì)量控制 管理決策 計算機輔助設(shè)計與制造等領(lǐng)域 從本質(zhì)上看 數(shù)據(jù)檢索是一種確定性的檢索 它要直接提供用戶所需要的確切的數(shù)據(jù)或事實 而且檢索的結(jié)果也是確定的 要么輸出能回答用戶的具體問題的答案 要么檢索結(jié)果為零 數(shù)據(jù)檢索的對象為數(shù)值性數(shù)據(jù) 非數(shù)值性但可用數(shù)值表示的 可量化的 數(shù)據(jù) 如顏色 形狀等 和事實 它們或來自文獻資料 或直接來自實驗 觀測和調(diào)查過程 是信息內(nèi)容的高度濃縮物 2 4 1信息檢索的類型 3 事實檢索事實檢索是對事實 數(shù)據(jù)或知識進行組織 存貯和處理 并針對用戶的提問直接提供答案的過程和技術(shù) 是信息檢索中最高級最復(fù)雜的一種類型 它不同于文獻檢索和數(shù)據(jù)檢索 因為其目的不是泛泛的提供參考文獻 或者只限于提供已有的數(shù)據(jù)或事實 而是要從已有的基本數(shù)據(jù)或事實中推斷或演繹出新的數(shù)據(jù)或事實 事實檢索既包括數(shù)值性數(shù)據(jù)的存貯 檢索 算術(shù)運算 比較和數(shù)學(xué)推導(dǎo) 還包括非數(shù)值性數(shù)據(jù) 如事實 概念 思想 知識等 的存貯 檢索 比較和邏輯推理 從已有的數(shù)據(jù)或事實中發(fā)現(xiàn) 推導(dǎo) 歸納或演繹出新的知識 2 4 2計算機信息檢索 人類在經(jīng)歷了漫長的手工檢索時代和短暫的機械檢索階段后 終于在20世紀(jì)60年代迎來了計算機檢索時代 計算機信息檢索是由人和計算機共同作用下完成的信息存貯與檢索的過程 它60年代進入生產(chǎn)性開發(fā)和實際應(yīng)用時期 70年代開始向聯(lián)機化和網(wǎng)絡(luò)化發(fā)展 實現(xiàn)計算機檢索的主要設(shè)施是計算機信息檢索系統(tǒng) 信息檢索系統(tǒng)有許多不同類型 如脫機檢索系統(tǒng) 聯(lián)機檢索系統(tǒng) 光盤檢索系統(tǒng) 計算機輔助微縮品檢索系統(tǒng) 電視信息查詢系統(tǒng) 圖文電視 多媒體檢索系統(tǒng)等 2 4 2計算機信息檢索 1 計算機檢索系統(tǒng)的邏輯構(gòu)成其邏輯構(gòu)成一般有信息源采集與選擇子系統(tǒng) 內(nèi)容分析與標(biāo)引子系統(tǒng) 建庫系統(tǒng) 用戶接口子系統(tǒng) 提問處理子系統(tǒng) 詞表管理子系統(tǒng)等部分 信息源采集與選擇子系統(tǒng)的功能是根據(jù)系統(tǒng)的經(jīng)營方針和服務(wù)對象的需要 以快速和經(jīng)濟的手段 全面地選擇和采集各種信息源 文獻 數(shù)據(jù) 事實等 為建立和維護數(shù)據(jù)庫提供充足而適用的數(shù)據(jù)資源 計算機檢索系統(tǒng)的邏輯構(gòu)成 內(nèi)容分析與標(biāo)引子系統(tǒng)的功能是根據(jù)一定的規(guī)則和程序 由標(biāo)引員或計算機 或二者共同作用 對資源內(nèi)容進行分析 從中提取或賦予資源一定數(shù)量的標(biāo)識 如分類號 主題詞 關(guān)鍵詞等 作為信息存貯與檢索的依據(jù) 建庫子系統(tǒng)又稱數(shù)據(jù)庫生產(chǎn)子系統(tǒng) 其功能是建立和維護可直接用于信息檢索的數(shù)據(jù)庫 主要作業(yè)內(nèi)容有 數(shù)據(jù)錄入 錯誤檢查與處理 數(shù)據(jù)格式轉(zhuǎn)換 生成并定期更新各種文檔 計算機檢索系統(tǒng)的邏輯構(gòu)成 用戶接口子系統(tǒng)簡稱用戶接口 是面向系統(tǒng)用戶的一種人 機接口 系統(tǒng)與用戶之間實現(xiàn)通訊不可缺少的連接系統(tǒng) 通常由用戶模型 信息顯示 命令語言 反饋機制以及各種輸入輸出設(shè)備構(gòu)成 提問處理子系統(tǒng)的功能是處理用戶輸入的檢索詞或提問式 并將它們與數(shù)據(jù)庫中存貯的數(shù)據(jù) 如信息表示或其他數(shù)據(jù)標(biāo)識 進行比較運算 根據(jù)給定的匹配標(biāo)準(zhǔn)生成命中信息集合輸出 它一般要完成提問的接收 校驗 加工和匹配比較等操作 計算機檢索系統(tǒng)的邏輯構(gòu)成 詞表管理子系統(tǒng)的功能是對系統(tǒng)使用的檢索詞匯進行管理維護 使之與標(biāo)引 建庫和檢索等子系統(tǒng)相連接 支持用戶的各種詞匯查詢操作 并從提問 人 機對話或其他可獲得來源中采集新的詞匯信息 以及生成和輸出各種形式的詞匯數(shù)據(jù)和詞表產(chǎn)品 2 4 2計算機信息檢索 2 計算機檢索系統(tǒng)的物理構(gòu)成計算機檢索系統(tǒng)的物理構(gòu)成有三部分 硬件 計算機及外圍設(shè)備 軟件 系統(tǒng)軟件和情報檢索軟件 和數(shù)據(jù)庫 文獻或數(shù)據(jù)集合 硬件部分主要包括具有一定性能的主計算機 外圍設(shè)備以及與數(shù)據(jù)處理和數(shù)據(jù)傳輸有關(guān)的其他設(shè)備 計算機檢索系統(tǒng)的物理構(gòu)成 軟件部分包括系統(tǒng)軟件和應(yīng)用軟件 系統(tǒng)軟件一般包括操作系統(tǒng) 編譯程序與匯編程序 診斷程序 輸入輸出控制程序 作業(yè)程序與記帳程序 報表生成程序等 應(yīng)用軟件通常包括數(shù)據(jù)庫管理系統(tǒng) 建庫程序 數(shù)據(jù)輸入輸出程序 自動標(biāo)引程序 文檔管理程序 詞表管理程序 定題檢索服務(wù)程序 回溯檢索程序 記帳統(tǒng)計程序 通訊管理程序 總控程序等 計算機檢索系統(tǒng)的物理構(gòu)成 數(shù)據(jù)庫部分包括各種數(shù)據(jù)庫和文檔 數(shù)據(jù)庫是在計算機存儲設(shè)備上按照一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合 按照國際通用的數(shù)據(jù)庫分類方法 計算機檢索用的數(shù)據(jù)庫通常有下列類型 1 參考數(shù)據(jù)庫 Referencedatabase 2 源數(shù)據(jù)庫 Sourcedatabase 3 混合型數(shù)據(jù)庫 Hybriddatabases 此外 還可以按照載體形式來區(qū)分 有磁媒體數(shù)據(jù)庫 Databasesonmagneticmedia 光盤數(shù)據(jù)庫 Databaseonopticaldisc 多媒體數(shù)據(jù)庫 Multimediadatabase 2 4 3聯(lián)機檢索系統(tǒng) 聯(lián)機檢索系統(tǒng)曾經(jīng)是一種最便利 使用最廣泛的計算機檢索系統(tǒng) 它允許用戶以聯(lián)機會話方式直接訪問系統(tǒng)及其數(shù)據(jù)庫 不管它們位于何處 要實現(xiàn)這一點 往往又離不開一定的通訊設(shè)施和服務(wù)體制 進入通訊網(wǎng)中的聯(lián)機檢索系統(tǒng) 又稱為聯(lián)機檢索網(wǎng)絡(luò) 它是聯(lián)機檢索實現(xiàn)網(wǎng)絡(luò)化的結(jié)果 集合了許多現(xiàn)代先進的信息技術(shù) 一個實用的聯(lián)機檢索網(wǎng)絡(luò)至少由聯(lián)機檢索中心 通訊設(shè)施 檢索終端等三部分組成 2 4 3聯(lián)機檢索系統(tǒng) 1 聯(lián)機檢索中心它是聯(lián)機檢索網(wǎng)絡(luò)的中樞部分 由中央計算機 聯(lián)機數(shù)據(jù)庫 數(shù)據(jù)庫檢索與管理軟件以及相應(yīng)的檢索服務(wù)體制組成 中央計算機及外部設(shè)備包括中央處理機 中央存貯器 通訊部件 控制部件和連接外圍設(shè)備的通道輸入輸出子系統(tǒng) 中央計算機的功能是在系統(tǒng)軟件和檢索軟件的支持下完成情報信息的存貯 處理和檢索等操作 對整個系統(tǒng)的運行進行管理和控制 另外 還需要配備一些必要的外部設(shè)備 如磁盤 磁帶機 光盤機 高速打印機等 2 4 3聯(lián)機檢索系統(tǒng) 2 通訊設(shè)施它是發(fā)展聯(lián)機檢索服務(wù)的基礎(chǔ) 沒有發(fā)達(dá)的通訊網(wǎng) 建設(shè)聯(lián)機檢索網(wǎng)絡(luò)就無從談起 聯(lián)機檢索網(wǎng)絡(luò)的通訊設(shè)施一般包括通訊網(wǎng) 調(diào)制解調(diào)器 檢索終端 自動呼叫器 通訊控制器及其他設(shè)備 3 檢索軟件建立一個實用的聯(lián)機檢索系統(tǒng) 不僅需要上面所介紹的各種硬件設(shè)備 數(shù)據(jù)庫 通訊設(shè)施和服務(wù)體制 而且還需要有一套高性能的信息檢索軟件 才能使計算機系統(tǒng)有效地發(fā)揮作用 許多大型商用聯(lián)機檢索系統(tǒng)的軟件構(gòu)成情況是很少公開披露的 2 4 4聯(lián)機檢索方法 1 用戶需求分析用戶的信息需求多種多樣 用戶需求的形成 受許多社會因素和個人因素的影響 第一種對最新的信息的需求 即要求及時獲得 迅速傳遞 有這種需求的大多是一些探索未知的研究人員 以及那些從事管理決策工作的人員 第二種需求想了解某一理論 方法 設(shè)備 過程的片斷性信息 以解決其研究中的具體問題 這種需求最常見 數(shù)量最大 要求檢出的信息針對性強 能解決具體問題 第三種需求是想對某一課題進行系統(tǒng)詳盡的了解 以便掌握問題的歷史 發(fā)展及現(xiàn)狀 從事編寫教材和科技綜述 評價科技成果以及專利申請新穎性審查等工作的人往往會提出這種需求 這種需求要求檢索全面 系統(tǒng) 徹底 第四種需求是用戶已經(jīng)知道所需文獻資料的名稱或作者 或文獻號等 而要求獲得該文獻的原件 復(fù)印件 最新版本或不同文字的譯本以及等同專利說明書等 2 4 4聯(lián)機檢索方法 2 檢索策略制定弄清楚用戶需求之后 就要設(shè)計一種策略去達(dá)到目標(biāo) 檢索策略就是為實現(xiàn)檢索目標(biāo)而制定的全盤計劃和方案 是對整個檢索過程的謀劃和指導(dǎo) 選擇什么檢索系統(tǒng)和數(shù)據(jù)庫 通過什么途徑 選用什么檢索詞和邏輯組配方法以及需要哪些反饋操作等一系列問題的考慮與安排 都屬于檢索策略的范圍 美國人鮑納 CharlesBourne 比較全面地總結(jié)出了五種供聯(lián)機檢索檢索策略 最專指面優(yōu)先策略 最低登錄量的面優(yōu)先策略 積木式檢索策略 引文珠形增長 型策略 逐次分餾 型策略 值得參考和應(yīng)用 2 4 4聯(lián)機檢索方法 3 聯(lián)機檢索的基本程序從與聯(lián)機系統(tǒng)相連接開始 到與聯(lián)機系統(tǒng)脫離結(jié)束 主要經(jīng)由以下步驟 同中心計算機接通 并與系統(tǒng)聯(lián)機 根據(jù)既定的檢索策略選擇待檢索的數(shù)據(jù)庫或文檔 輸入并組配檢索詞 打印檢索結(jié)果 退出系統(tǒng) 并脫離電信系統(tǒng)連接 2 4 4聯(lián)機檢索方法 4 檢索技術(shù) 1 布爾檢索布爾檢索 BooleanSearch 利用布爾邏輯算符進行檢索詞或代碼的邏輯組配 是信息檢索中最常用的一種方法 常用的邏輯算符有 AND 與 OR 或 NOT 非 檢索技術(shù) 2 截詞檢索截詞檢索 TruncationSearch 也是信息檢索中常用的技術(shù)之一 它可以截取檢索詞的某一部分用于檢索 因此特別適合于西文檢索 可一次性地解決詞干相同的詞 英美拼法不同的詞的檢索 截詞符多采用通配符 可以用它代表多個字符 因此 截詞檢索有時也稱為通配符檢索 截詞檢索又有多種類型 按截斷的位置分 有 前方一致檢索 后方一致檢索 通配符檢索 按截斷的字符數(shù)量分 有 有限截斷 無限截斷 檢索技術(shù) 3 限制檢索限制檢索 LimitationSearch 是將檢索詞限定在某一范圍內(nèi)進行檢索的方法 以提高檢索效率 常用在字段限制中 即利用前 后綴符進行的字段檢索 將提問詞限定在標(biāo)題 著者 關(guān)鍵詞等字段中出現(xiàn) 以提高命中記錄的相關(guān)度 在檢索系統(tǒng)中 數(shù)據(jù)庫提供的可檢字段通常分為主題字段和非主題字段 檢索技術(shù) 4 位置檢索位置檢索 Proximitysearching 根據(jù)檢索詞之間的位置關(guān)系來定義命中記錄 它允許指定兩詞之間的詞序和詞距 詞序指兩詞之間前后順序 詞距指兩詞之間間隔的單詞數(shù) 常用的表示有 以DIALOG系統(tǒng)為例 W 或 算符 N 算符 nW 或 nN 算符 S 算符 檢索技術(shù) 5 加權(quán)檢索加權(quán)檢索 WeightedSearch 是按照權(quán)重來決定文獻是否命中的一種方法 是一種定量檢索技術(shù) 其側(cè)重點不是判定檢索詞是否存在 而是判定檢索詞在滿足檢索邏輯后對文獻命中與否的影響程度 加權(quán)檢索的基本方法是 在每個提問詞后面給定一個數(shù)值表示其重要程度 這個數(shù)值稱為權(quán)重 檢索時 先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在 然后將每篇命中文獻中出現(xiàn)的檢索詞的權(quán)值相加 權(quán)值之和達(dá)到或超過預(yù)先給定的閾值 該記錄即為命中記錄 運用加權(quán)檢索可以命中核心概念文獻 故它是一種縮小檢索范圍提高檢準(zhǔn)率的有效方法 檢索技術(shù) 6 多媒體檢索和超文本檢索多媒體檢索 MultimediaSearch 包括基于描述的多媒體檢索和基于內(nèi)容的多媒體檢索 基于描述的多媒體檢索就是用一個關(guān)鍵詞來描述所要查找的圖片或是音樂 比如可以用 classroom 這個詞來查找教室的圖片 也可以 spring 這個詞查找相關(guān)音樂 基于內(nèi)容的多媒體檢索就是用一些特征來查找多媒體信息 這些特征包括顏色 形狀 紋理等視覺特征 及音頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論