




已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
3 信息組織與檢索,概述 信息組織 信息檢索,信息存儲(chǔ)與檢索將信息按照一定的方式組織和存儲(chǔ)起來,并能根據(jù)信息用戶的需求找出其中相關(guān)信息的過程。它是一種有目的和組織化的信息存取活動(dòng),其中包括了“存”和“取”兩個(gè)基本環(huán)節(jié)。,3.1 概述,Web網(wǎng)站的設(shè)計(jì),首先涉及到各類材料的組織問題,它們包括內(nèi)容設(shè)計(jì)、導(dǎo)航設(shè)計(jì)和表現(xiàn)設(shè)計(jì)。 內(nèi)容設(shè)計(jì)要確定分類的準(zhǔn)則,然后根據(jù)分類準(zhǔn)則,劃分信息內(nèi)容。例如大學(xué)網(wǎng)站按學(xué)校概況、管理機(jī)構(gòu)、院系設(shè)置、招生信息、信息資源、圖書館、科學(xué)研究、教師隊(duì)伍、學(xué)生活動(dòng)等主題分類。 導(dǎo)航設(shè)計(jì)涉及到信息單元的瀏覽、用戶與Web內(nèi)容及結(jié)構(gòu)的交互。Web的兩個(gè)基本元素是網(wǎng)和鏈,鏈把頁面關(guān)聯(lián)起來,構(gòu)成巨大的“蜘蛛網(wǎng)”Web。 表現(xiàn)設(shè)計(jì),例如顏色、表現(xiàn)結(jié)構(gòu)布局、表現(xiàn)順序、表現(xiàn)方式等,目的是提供一個(gè)易于獲取信息的Web環(huán)境。,例:Web網(wǎng)站的設(shè)計(jì)和使用,設(shè)計(jì)的Web網(wǎng)站僅僅提供分類目錄和鏈的瀏覽是不夠的,尤其是對(duì)大中型的Web網(wǎng)站來說,用戶在瀏覽過程中容易迷航或在信息查找中花費(fèi)太多的時(shí)間,而又難以得到相關(guān)的信息內(nèi)容。 搜索引擎提供對(duì)Web網(wǎng)站信息內(nèi)容的組織和檢索。檢索系統(tǒng)能夠?yàn)槿魏嗡降挠脩?,包括專業(yè)用戶和一般用戶提供有效的信息檢索服務(wù)。 對(duì)于網(wǎng)頁文檔中的圖像、視頻和音頻,可以結(jié)合基于內(nèi)容的多媒體信息檢索技術(shù)。,3.2 信息組織,1信息組織的基本原理 信息組織是將處于無序狀態(tài)的特定信息,根據(jù)一定的原理和方法,使其成為有序狀態(tài)的過程。其目的是將無序信息變?yōu)橛行蛐畔ⅲ奖闳藗兝眯畔⒑陀行У貍鬟f信息。 信息組織的依據(jù)是事物的屬性,這些屬性可歸納為形式、內(nèi)容和效用三種類型。以服裝為例,款式、大小、生產(chǎn)廠家、生產(chǎn)時(shí)間和地點(diǎn)等屬于形式特征,服裝原料的物理和化學(xué)結(jié)構(gòu)屬于內(nèi)容特征,御寒、防雨、防曬等屬于效用特征。,信息組織的過程可分為序化和優(yōu)化兩個(gè)階段。 信息的序化是按照一定的方法將無序的信息組織成有序的信息的過程,它包含兩層含義:一是為了利用和管理上的方便,對(duì)沒有必然內(nèi)在聯(lián)系的信息加以組織;二是對(duì)本質(zhì)上有必然內(nèi)在聯(lián)系的信息,按照其自身的客觀邏輯結(jié)構(gòu)加以組織。前者融入了更多的主觀因素,后者則依據(jù)更多的客觀因素。 信息的優(yōu)化是在信息序化的基礎(chǔ)上進(jìn)行的,是針對(duì)某種目的對(duì)信息進(jìn)行再序化的過程。在信息組織的實(shí)際操作過程中,信息的序化和優(yōu)化之間并沒有十分明確的界限。,信息組織的目的,1)減少社會(huì)信息流的混亂程度。 2)提高信息產(chǎn)品的質(zhì)量和價(jià)值。 3)建立信息產(chǎn)品與用戶的聯(lián)系。 4)節(jié)省社會(huì)信息活動(dòng)的總成本。,信息組織的方法,(1)語法信息組織方法 以信息的形式特征為依據(jù)序化信息的方法。它不涉及信息的含義和用途,需要遵循方便性、標(biāo)準(zhǔn)化等原則。 1)字順組織法 從字、詞的角度集約有關(guān)信息,又有音序法、形序法、音序和形序并用三種形式,如書名的排序、著者姓名的排序和主題詞的排序等。 2)代碼組織法 以代碼表征信息和集約信息的方法,優(yōu)點(diǎn)是簡便易用,尤其適合計(jì)算機(jī)管理,如專利代碼組織法、商務(wù)條碼組織法、身份證代碼組織法、軍隊(duì)番號(hào)組織法和電話號(hào)碼組織法等。,3)地序組織法 以信息的空間特征為依據(jù)序化信息的方法,特點(diǎn)是能反應(yīng)地域特色。如各種地圖、地理文獻(xiàn)和風(fēng)景名勝介紹等的組織。 4)時(shí)序組織法 以信息的時(shí)間特征為依據(jù)組織信息的方法,優(yōu)點(diǎn)是能反映事物的發(fā)展規(guī)律,多為線性結(jié)構(gòu),如史書、年表、日記、傳記、檔案和連續(xù)出版物等的組織。 5)其他組織法 包括顏色組織法(如綠色代表郵政)、形狀組織法(如以書刊的開本大小為依據(jù)的組織法)、重量組織法(如拳擊手的分類)等。,(2)語義信息組織方法 以信息的內(nèi)容或本質(zhì)特征為依據(jù)序化信息的方法。需遵循客觀性原則。 1)邏輯組織法 根據(jù)信息之間的邏輯關(guān)聯(lián)組織信息,如政策的制定、研究報(bào)告的撰寫、文學(xué)作品中人物性格的發(fā)展等。 2)分類組織法 包括科學(xué)分類、文獻(xiàn)分類、專利分類、商品分類、職能分類等,能反映事物之間內(nèi)在的、本質(zhì)的聯(lián)系和區(qū)別,便于人們系統(tǒng)地認(rèn)識(shí)和了解信息。 3)主題組織法 從事物內(nèi)含的主題屬性出發(fā),以詞語作為概念標(biāo)識(shí),并通過概念標(biāo)識(shí)的字順排列和參照方法等間接地揭示概念之間相互關(guān)系的一種信息組織法,包括標(biāo)題法、單元詞法、敘詞法、關(guān)鍵詞法等幾種類型。,(3)語用信息組織方法 以信息的效用特征為依據(jù)序化信息,能反映和滿足用戶的信息需求。需遵循目的性、適用性和個(gè)性化原則。 1)權(quán)值組織法 賦予不同信息以不同的權(quán)重值,以權(quán)值大小組織信息。如決策方案的選擇、教學(xué)質(zhì)量的評(píng)估等。 2)概率組織法 根據(jù)事件發(fā)生的概率大小序化信息。如預(yù)測(cè)體育比賽的勝負(fù)、期貨交易等都。 3)特色組織法 根據(jù)用戶某一方面的特殊需求組織信息,如根據(jù)用戶的興趣組織球迷信息、攝影信息、旅游信息等。 4)重要性遞減組織法 依據(jù)信息的重要程度序化信息,通常的做法是突出重要信息使其處于醒目位置,而將其他信息置于相應(yīng)位置,如大眾傳播的欄目設(shè)置。,網(wǎng)絡(luò)信息組織 傳統(tǒng)的信息組織多采用手工編制的目錄、索引、文摘、綜述等形式,局限于文獻(xiàn)信息的組織。在網(wǎng)絡(luò)環(huán)境下,數(shù)字化信息占主導(dǎo)地位,信息組織的對(duì)象逐漸多樣化,范圍也隨之?dāng)U大,不再停留于對(duì)文獻(xiàn)特征的描述,而深入到知識(shí)和信息單元,致使傳統(tǒng)的信息組織方式不能滿足人們的各種信息需要。 網(wǎng)絡(luò)信息組織就是根據(jù)網(wǎng)絡(luò)信息特點(diǎn)和屬性,采用科學(xué)的方法,將大量的、分散的、雜亂的信息經(jīng)過搜集、篩選、整序、優(yōu)化,形成一個(gè)便于有效利用的整體的過程。,(1)一次網(wǎng)絡(luò)信息組織方式 1)文件方式 文件是存儲(chǔ)非結(jié)構(gòu)化信息的天然單位。但在網(wǎng)絡(luò)環(huán)境下,由于文件本身需要作為對(duì)象來管理,對(duì)結(jié)構(gòu)化信息組織顯得軟弱無力,文件方式只能是一次網(wǎng)絡(luò)信息組織的輔助形式。 2)超媒體方式 將文字、表格、聲音、圖形、圖像、視頻等多媒體信息以超文本方式組織起來,人們通過瀏覽的方式搜尋所需信息,避免了檢索語言的復(fù)雜性。 3)網(wǎng)站方式 通過標(biāo)記語言,將信息組織成一個(gè)個(gè)頁面,頁面對(duì)某機(jī)構(gòu)、個(gè)人或?qū)n}作全面介紹,用主頁將這些信息集中組織到一起,通過瀏覽器瀏覽。,(2)二次網(wǎng)絡(luò)信息組織 1)主題樹方法 將所含某一學(xué)科的所有已獲得的信息按照某種事先確定的概念體系結(jié)構(gòu),分門別類地逐層加以組織,用戶通過瀏覽的方式逐層加以選擇,層層遍歷,直至找到所需要的信息線索(即相關(guān)站點(diǎn)鏈接),并通過信息線索直接找到相應(yīng)的網(wǎng)絡(luò)信息資源。 2)數(shù)據(jù)庫方法 將所有已獲得的信息以固定的記錄格式存儲(chǔ),用戶通過關(guān)鍵詞及其組配查詢,找到所需要的信息線索(即相關(guān)站點(diǎn)鏈接),并通過信息線索直接找到相應(yīng)的網(wǎng)絡(luò)信息資源。,3.3 信息檢索,信息檢索的類型,(1)文獻(xiàn)檢索。通過二次文獻(xiàn)找出所需的一次文獻(xiàn)或三次文獻(xiàn)。 (2)數(shù)據(jù)檢索。以數(shù)據(jù)為對(duì)象的檢索,如查找某一數(shù)據(jù)。 (3)事實(shí)檢索。以特定的事實(shí)為檢索對(duì)象。事實(shí)內(nèi)容包括大量的科學(xué)事件和社會(huì)事件。 (4)概念檢索。查找特定概念的含義、作用、原理或使用范圍等解釋性的內(nèi)容或說明。,早期分類方法,新分類方法,(1)文本檢索。以各種自然語言符號(hào)系統(tǒng)所表示的信息為主要檢索對(duì)象。是傳統(tǒng)的文獻(xiàn)檢索方式的延續(xù)。 (2)數(shù)值檢索。針對(duì)數(shù)值型數(shù)據(jù)的查詢而發(fā)展起來的。它不僅能檢索出符合特定需求的數(shù)據(jù)信息,而且還可以在此基礎(chǔ)上提供一定的數(shù)據(jù)運(yùn)算能力和推導(dǎo)能力。在財(cái)經(jīng)、金融、統(tǒng)計(jì)等領(lǐng)域應(yīng)用廣泛。 (3)音/視頻檢索。針對(duì)各種數(shù)字化音頻和視頻信息而進(jìn)行查詢。目前正在研究和探索之中,屬于前沿領(lǐng)域。,信息檢索的原理,信息檢索對(duì)信息集合與需求集合的匹配與選擇,要對(duì)信息集合進(jìn)行特征化表示,即通過人工或計(jì)算機(jī)的方法對(duì)信息集合進(jìn)行加工處理,將原來隱含的、不易識(shí)別的特征顯性化。這種加工處理工作被稱為內(nèi)容分析與標(biāo)引。 要對(duì)用戶所提出的信息需求進(jìn)行分析,提取概念或?qū)傩裕⒗门c標(biāo)引過程相同的標(biāo)識(shí)系統(tǒng)(檢索語言)來表達(dá)需求中所包含的概念和屬性。 過匹配和選擇機(jī)制,對(duì)需求集合與信息集合進(jìn)行相似性比較。 根據(jù)一定的標(biāo)準(zhǔn)選出符合需要的信息。,網(wǎng)絡(luò)信息檢索通過網(wǎng)絡(luò)信息檢索工具檢索存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡(luò)信息資源。,1搜索引擎 根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集Web上的信息,并在對(duì)這些信息進(jìn)行組織和處理后為用戶提供檢索服務(wù)的系統(tǒng)。 搜索引擎為用戶提供了一個(gè)友好的檢索入口,用戶只需提供檢索式(關(guān)鍵詞列表)便能搜尋到包含這些關(guān)鍵詞的相關(guān)網(wǎng)頁。 搜索引擎通常包括 Crawler(爬蟲)模塊、索引模塊、數(shù)據(jù)集分析模塊、檢索引擎模塊、排序模塊和用戶模塊,以及索引數(shù)據(jù)集和/或網(wǎng)頁數(shù)據(jù)集。,搜索引擎依賴于Crawlers進(jìn)行網(wǎng)頁爬行,一個(gè)Crawler就是一個(gè)能自動(dòng)爬行Web網(wǎng)頁以供生成本地索引和/或本地網(wǎng)頁數(shù)據(jù)集的程序。 索引模塊對(duì)緩存中的每一個(gè)網(wǎng)頁進(jìn)行全文掃描,抽取所有的詞條,并記錄URL信息,形成一個(gè)巨大的能提供檢索所有詞條所在頁面的索引庫,并將數(shù)據(jù)存儲(chǔ)在索引數(shù)據(jù)集中。除了傳統(tǒng)的文本索引外,索引模塊在數(shù)據(jù)集分析模塊幫助下,還能產(chǎn)生反映網(wǎng)頁間鏈接的結(jié)構(gòu)索引和其他的功能索引。 檢索引擎模塊通過索引模塊負(fù)責(zé)接收和滿足來自用戶的每一個(gè)請(qǐng)求。由于網(wǎng)頁非常多,而用戶往往只輸入一個(gè)或兩個(gè)關(guān)鍵詞,導(dǎo)致檢索結(jié)果總是很大,因此搜索引擎利用排序模塊對(duì)檢索到的結(jié)果進(jìn)行排序。用戶模塊負(fù)責(zé)為用戶檢索提供友好的界面。,2. 網(wǎng)絡(luò)多媒體信息檢索,多媒體信息體現(xiàn)了人類最樸實(shí)的信息交流需求,直觀、形象、內(nèi)容豐富。網(wǎng)絡(luò)多媒體信息包括了文本、圖形、圖像、視頻、音頻等幾乎所有非網(wǎng)絡(luò)環(huán)境下的多媒體信息形式。,(1)基于文本方式的多媒體信息檢索技術(shù) 首先對(duì)多媒體進(jìn)行人工分析和抽取反映該多媒體物理特征和內(nèi)容特征的關(guān)鍵詞,然后對(duì)這些關(guān)鍵詞進(jìn)行文字著錄或標(biāo)引,建立類似于文本文獻(xiàn)的標(biāo)引著錄數(shù)據(jù)庫,從而將多媒體信息檢索轉(zhuǎn)變成對(duì)上述關(guān)鍵詞的檢索。檢索關(guān)鍵字段主要有:文件擴(kuò)展名(如gif、jpg、mpeg、avi、wav等);多媒體標(biāo)題和文字解說;其他檢索關(guān)鍵字段,如某些Web頁的頁標(biāo)題、由人工選擇或指定的某些標(biāo)引多媒體信息內(nèi)容的關(guān)鍵詞等。,(2)基于內(nèi)容特征的多媒體信息檢索技術(shù) 主要依據(jù)是圖像畫面、聲音和影像的內(nèi)容特征。如圖像畫面的顏色、紋理、形狀、結(jié)構(gòu);聲音的音頻、響度、頻寬、音色和節(jié)奏;影像的對(duì)象運(yùn)動(dòng)特征、顏色和光線的變化等。 在組織多媒體信息時(shí),組織者根據(jù)媒體的上述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肝癌的快速檢測(cè)技術(shù)
- 鄂州市九下期中數(shù)學(xué)試卷
- 工廠著裝培訓(xùn)課件
- 福建五年級(jí)數(shù)學(xué)試卷
- 2025年03月青島市衛(wèi)生健康系統(tǒng)公開招聘工作人員人數(shù)統(tǒng)計(jì)截至012日1630筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 2025年06月浙江金華永康市醫(yī)療急救指揮中心招聘編外人員2人筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 2025至2030寵物衣服產(chǎn)業(yè)行業(yè)市場(chǎng)占有率及投資前景評(píng)估規(guī)劃報(bào)告
- 2025至2030超白涂料產(chǎn)業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資價(jià)值報(bào)告
- 2025至2030餐飲行業(yè)市場(chǎng)深度研究與戰(zhàn)略咨詢分析報(bào)告
- 電腦怎么弄數(shù)學(xué)試卷
- 醫(yī)護(hù)人員手衛(wèi)生知識(shí)培訓(xùn)課件
- QCT1171-2022汽車漆面保護(hù)膜
- DZ∕T 0207-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硅質(zhì)原料類(正式版)
- 廣東省普通高中生物學(xué)業(yè)水平合格性考試真題卷含答案
- SHT 3081-2019 石油化工儀表接地設(shè)計(jì)規(guī)范
- HJ 1051-2019 土壤 石油類的測(cè)定 紅外分光光度法(正式版)
- 新課標(biāo)背景下的大單元教學(xué)研究:國內(nèi)外大單元教學(xué)發(fā)展與演進(jìn)綜述
- 安全生產(chǎn)的責(zé)任書
- (正式版)HGT 4339-2024 機(jī)械設(shè)備用涂料
- 電網(wǎng)建設(shè)項(xiàng)目施工項(xiàng)目部環(huán)境保護(hù)和水土保持標(biāo)準(zhǔn)化管理手冊(cè)(變電工程分冊(cè))
- JJG 105-2000轉(zhuǎn)速表行業(yè)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論