




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文信息處理技術(shù)原理與應(yīng)用第一頁,共五十五頁,編輯于2023年,星期六第七章中文信息處理技術(shù)的應(yīng)用
中文應(yīng)用系統(tǒng)發(fā)展概況中文電子印刷排版系統(tǒng)中文信息檢索系統(tǒng)基于Internet的搜索引擎中文辦公自動(dòng)化系統(tǒng)
2第二頁,共五十五頁,編輯于2023年,星期六中文應(yīng)用系統(tǒng)發(fā)展概況對(duì)我國中文信息處理技術(shù)一些經(jīng)歷的回顧
我國的文字信息處理研發(fā)工作開始于一九七四年。當(dāng)時(shí)國家有一專項(xiàng)工程,代號(hào)為七四八工程(漢字信息處理系統(tǒng)工程),最初擬定的研發(fā)目標(biāo)有三項(xiàng)。一、精密型中文編輯排版系統(tǒng);二、中文信息檢索系統(tǒng);三、中文信息遠(yuǎn)距通信系統(tǒng)。
3第三頁,共五十五頁,編輯于2023年,星期六中文信息處理的發(fā)展走了一個(gè)馬鞍型
在2004年4月舉行的第一屆中文信息處理發(fā)展國際研討會(huì)上,倪光南院士對(duì)中文信息處理的發(fā)展進(jìn)行了總結(jié),認(rèn)為中文信息處理的發(fā)展走了一個(gè)馬鞍型。從20世紀(jì)70年代至90年代中期算一個(gè)高潮期,90年代中期進(jìn)入低潮。自90年代未起,中文信息處理由冷轉(zhuǎn)熱,再度活躍。第一個(gè)高潮期
中文信息處理的第一個(gè)高潮期的核心問題是字的處理。在這一時(shí)期造就了聯(lián)想、方正、四通等一批靠中文處理產(chǎn)品起家的企業(yè)。4第四頁,共五十五頁,編輯于2023年,星期六中文信息處理的低谷期90年代中期,電腦由DOS升級(jí)到Windows平臺(tái)。微軟公司自Windows3.2全面采用當(dāng)時(shí)最先進(jìn)的中文信息處理技術(shù),傳統(tǒng)的中文信息處理產(chǎn)品失去了市場(chǎng)。這一時(shí)期可以認(rèn)為是中文信息處理的低谷,原先做中文信息處理的公司紛紛轉(zhuǎn)向。中文信息遭遇互聯(lián)網(wǎng)--推動(dòng)中文信息處理進(jìn)入了第二次高潮90年代末,互聯(lián)網(wǎng)忽地?zé)狒[起來。無線互聯(lián)網(wǎng),手機(jī)、PDA等促進(jìn)中文信息技術(shù)的發(fā)展。5第五頁,共五十五頁,編輯于2023年,星期六互聯(lián)網(wǎng)時(shí)代對(duì)中文信息處理產(chǎn)生了新需求完成從字到語義的跨越中文檢索獲普遍關(guān)注機(jī)器翻譯大發(fā)展識(shí)別技術(shù)領(lǐng)先國際語音合成走出實(shí)驗(yàn)室6第六頁,共五十五頁,編輯于2023年,星期六中文電子印刷排版系統(tǒng)
在文字信息處理技術(shù)的基礎(chǔ)上,要求達(dá)到高精度地編排出符合印刷出版要求的版面質(zhì)量的計(jì)算機(jī)系統(tǒng),稱為電子印刷排版系統(tǒng)。它和一般文字處理技術(shù)的主要差別在于編排精度,文字質(zhì)量,和要求編排出各種版面(書、報(bào)、刊物;文科和科技版,廣告等)的格式。7第七頁,共五十五頁,編輯于2023年,星期六中文電子印刷排版系統(tǒng)技術(shù)簡(jiǎn)介中文編輯排版關(guān)于排版用的精密字模關(guān)于字模數(shù)目關(guān)于字體數(shù)目8第八頁,共五十五頁,編輯于2023年,星期六中文電子印刷排版系統(tǒng)設(shè)備的構(gòu)成
9第九頁,共五十五頁,編輯于2023年,星期六其中數(shù)據(jù)采集漢字終端、漢字造字終端、圖文掃描儀組成系統(tǒng)的輸入設(shè)備。系統(tǒng)的前處理部分輸出的結(jié)果是經(jīng)編排好的版面信息,已有版面格式,但其中的文字是以代碼形式提供的,尚須轉(zhuǎn)換成達(dá)到出版印刷質(zhì)量的漢字字模,包括按指定要求的字號(hào)尺寸規(guī)格。這項(xiàng)工作由照排控制機(jī)完成。照排控制機(jī)和照排輸出設(shè)備等構(gòu)成系統(tǒng)的后處理部分。照排控制機(jī)除了把輸出版面信息中的漢字代碼轉(zhuǎn)換成精密漢字字模信息(包括字體、字號(hào)尺寸等的變化)外,尚須要控制照排機(jī)輸出具有完整信息的版面。用作系統(tǒng)輸出設(shè)備的照排機(jī)目前普遍使用激光掃描照排機(jī)。10第十頁,共五十五頁,編輯于2023年,星期六精密漢字字模和照排控制技術(shù)
文字印刷排版系統(tǒng)的主要功能特點(diǎn)是把文字,各種符號(hào)、圖形、照片、表格等在版面上作精確定位。因此,一個(gè)排版系統(tǒng),先要定出版面精度指標(biāo)。同時(shí)也要求漢字字模具有相當(dāng)于版面定位精度的高質(zhì)量。也就是要求有高的分辨率等級(jí)。通常精密印刷要求分辨率達(dá)到25~100線/毫米。具有這種分辨率等級(jí)的漢字字模稱為精密漢字字模。
11第十一頁,共五十五頁,編輯于2023年,星期六一.精密型漢字字模信息壓縮技術(shù)精密漢字字模信息的壓縮方法,目前應(yīng)用較普遍的有:黑白段長(zhǎng)度編碼方法字模筆畫輪廓描述方法(也稱為矢量描述方法)精密型漢字字模庫
12第十二頁,共五十五頁,編輯于2023年,星期六黑白段編碼方法漢字字模有規(guī)則筆畫和不規(guī)則筆畫13第十三頁,共五十五頁,編輯于2023年,星期六二.字模信息還原和照排控制
在輸出版面信息供制版印刷時(shí),必須把字模壓縮信息還原成實(shí)際點(diǎn)陣字模,包括按要求形成不同字體,不同字號(hào)尺寸等文字變倍的功能;此外,還要對(duì)照排輸出設(shè)備實(shí)現(xiàn)控制。這兩項(xiàng)工作由照排控制器完成。照排控制器的功能,可以用硬設(shè)備實(shí)現(xiàn),也可以用軟件方法實(shí)現(xiàn)??梢杂酶咝阅艿耐ㄓ梦⑿蜋C(jī)作為控制器的主處理機(jī),以增強(qiáng)設(shè)備的通用性。照排控制器除了實(shí)現(xiàn)上述功能外,尚應(yīng)具備其它方面的功能。如提供大容量的緩沖存儲(chǔ),以匹配系統(tǒng)前后處理部分的工作速度。提供字模變形、旋轉(zhuǎn)、傾斜、鏡象排印、陰陽圖變換、打陰影、打斜線、網(wǎng)格,提供灰度等級(jí)、基本圖形、曲線等豐富的功能。
14第十四頁,共五十五頁,編輯于2023年,星期六激光照排機(jī)
激光照排機(jī)是照排系統(tǒng)的版面輸出設(shè)備。它的工作原理并不復(fù)雜,但對(duì)光學(xué)和機(jī)械動(dòng)作的精度要求卻很高。激光照排機(jī)的輸出分辨率一般在25~50線/毫米(635~1270線/吋),高的可達(dá)100線/毫米。激光照排機(jī)的工作原理是用一定直徑的激光束(若輸出分辨率為40線/毫米,則光束直徑為25微米),用聲光調(diào)制方法經(jīng)字模信息的調(diào)制后,使光束在感光底片上感光,于是版面信息便記錄到感光底片上。經(jīng)顯影、定形后,成為制作印刷版用的底版。除了分辨率指標(biāo)外,還有輸出速度。目前一種連續(xù)輸出性能的照排機(jī),輸出速度在100~500毫米/分鐘。輸出樣張的幅面,具有A4,A3,A2幾種規(guī)格,其中A4,A3是用于書版的,A2用于報(bào)版。15第十五頁,共五十五頁,編輯于2023年,星期六排版軟件的功能
一、排版的主要功能排版的主要功能是使文字、符號(hào)、表格、公式、圖形、照片等內(nèi)容在版面上精確定位。為此,排版軟件設(shè)計(jì)時(shí)要對(duì)版面分割成基本尺寸,以輸出分辨率的倒數(shù)來表示這一基本尺寸。也即文字、圖形等能以這一基本尺寸在版面上作上下、左右調(diào)整位置,以達(dá)到精密編排的目的。16第十六頁,共五十五頁,編輯于2023年,星期六二、批處理和交互式排版早期的排版軟件,是以批處理方式執(zhí)行的。也就是用編譯方式得出目標(biāo)程序。至少要在一組排版命令輸入后才能執(zhí)行和得出結(jié)果。近幾年來發(fā)展的是一種交互式操作的排版方式,也就是解釋執(zhí)行的排版方式。計(jì)算機(jī)可以對(duì)每一條排版命令產(chǎn)生即時(shí)和正確的反應(yīng)。需要解決反饋顯示中的一些技術(shù)問題,可以實(shí)現(xiàn)全交互式的排版操作,也即國內(nèi)目前流行的“即打即排”操作,將成為另一種流行的排版方式。
17第十七頁,共五十五頁,編輯于2023年,星期六三、排版應(yīng)用軟件在排版應(yīng)用方面,國內(nèi)已積累了不少成果。如能夠編排各種文科書版、刊物,各種科技書版,復(fù)雜的數(shù)學(xué)公式和各種化學(xué)分子式、符號(hào)也能自動(dòng)編排。還能整版地編排各種大、小幅面的報(bào)版。將多窗口顯示技術(shù)用于排版處理;開發(fā)以圖形處理為特點(diǎn)的排版技術(shù);吸收目前國內(nèi)外流行的組版軟件包的功能;增加鼠標(biāo)器定位,用菜單選擇方式指定排版要求的功能;開發(fā)、改善對(duì)用戶的友好界面,盡可能地方便用戶使用。18第十八頁,共五十五頁,編輯于2023年,星期六電子印刷排版系統(tǒng)多個(gè)層次等級(jí)
精密漢字照排系統(tǒng)臺(tái)式印刷排版系統(tǒng)普及型輕印刷系統(tǒng)上述三種檔次等級(jí)的中文印刷排版系統(tǒng)應(yīng)平行發(fā)展,它們各有自己的特點(diǎn)和適用范圍。其中普及型的輕印刷系統(tǒng)可以和高檔的中文文字處理機(jī)或PC兼容機(jī)相銜接。19第十九頁,共五十五頁,編輯于2023年,星期六電子印刷排版系統(tǒng)相關(guān)方案和產(chǎn)品介紹網(wǎng)絡(luò)時(shí)代的方正報(bào)業(yè)數(shù)字化流程方案
20第二十頁,共五十五頁,編輯于2023年,星期六方正自動(dòng)化排版解決方案
21第二十一頁,共五十五頁,編輯于2023年,星期六22第二十二頁,共五十五頁,編輯于2023年,星期六23第二十三頁,共五十五頁,編輯于2023年,星期六24第二十四頁,共五十五頁,編輯于2023年,星期六中文信息檢索系統(tǒng)
情報(bào)資料檢索是現(xiàn)代化管理技術(shù)中的重要項(xiàng)目之一。也是計(jì)算機(jī)信息處理領(lǐng)域內(nèi)的一個(gè)重要應(yīng)用項(xiàng)目。情報(bào)資料不僅包括科技情報(bào),也包括一般的圖書資料,文獻(xiàn)檔案、新聞報(bào)導(dǎo),事實(shí)數(shù)據(jù)等,用途非常廣泛。早期的情報(bào)資料檢索系統(tǒng),都是以文件系統(tǒng)的形式建立,作業(yè)方式以批處理為主。自從數(shù)據(jù)管理系統(tǒng)技術(shù)推廣應(yīng)用后,情報(bào)資料檢索系統(tǒng)也以數(shù)據(jù)庫系統(tǒng)的形式建立,應(yīng)用上有更大的靈活性,提供查找情報(bào)資料的方便性,提高了信息的利用率。25第二十五頁,共五十五頁,編輯于2023年,星期六由于計(jì)算機(jī)的性能速度的提高,運(yùn)行方式也以多用戶聯(lián)機(jī)實(shí)時(shí)操作為主。中文情報(bào)檢索技術(shù)和英文檢索在原理上完全相同。一個(gè)中、英文兼容的系統(tǒng),在系統(tǒng)中建立用中文代碼表達(dá)的原始文檔,就可以用作中文情報(bào)資料的檢索。若是用數(shù)據(jù)庫管理系統(tǒng)來管理中文情報(bào)資料的情況,則數(shù)據(jù)庫管理系統(tǒng)也必須具有中、英文兼容的功能。由于漢語單字或詞組之間沒有明顯的分隔符,因此對(duì)于漢語信息的檢索實(shí)際上要比西文基于單詞的檢索困難得多。國內(nèi)有眾多單位在研究漢語分詞技術(shù),中文文本的標(biāo)引技術(shù),中文文獻(xiàn)的自動(dòng)分類方法等。26第二十六頁,共五十五頁,編輯于2023年,星期六信息、知識(shí)、文獻(xiàn)
一.信息信息是用文字、數(shù)據(jù)或信號(hào)等形式通過一定的傳遞和處理來表現(xiàn)各種相互聯(lián)系客觀事物在運(yùn)動(dòng)變化中所具有特征內(nèi)容的總稱。信息所具有的基本屬性可歸結(jié)為以下四方面:(1)信息具有普遍性和客觀性(2)信息具有相對(duì)性和特殊性(3)信息具有實(shí)質(zhì)性和傳遞性(4)信息具有中介性和共享性27第二十七頁,共五十五頁,編輯于2023年,星期六二.知識(shí)知識(shí)是人類在認(rèn)識(shí)和改造世界的社會(huì)實(shí)踐中獲得的對(duì)事物本質(zhì)的認(rèn)識(shí)的成果和結(jié)晶。即人類通過有目的、有區(qū)別、有選擇地利用信息,對(duì)自然界、人類社會(huì)及思維方式與運(yùn)動(dòng)規(guī)律的認(rèn)識(shí)、分析與掌握,并通過人的大腦進(jìn)行思維整合使信息系統(tǒng)化而構(gòu)成知識(shí)。1.
知識(shí)的屬性知識(shí)的屬性主要有:意識(shí)性信息性實(shí)踐性28第二十八頁,共五十五頁,編輯于2023年,星期六規(guī)律性繼承性滲透性2.
知識(shí)的類型根據(jù)國際經(jīng)合組織(OECD)的定義,人類現(xiàn)有的知識(shí)可分為四大類:Knowwhat(知道是什么)—關(guān)于事實(shí)方面的知識(shí)。Knowwhy
(知道為什么)—關(guān)于自然原理和規(guī)律方面的知識(shí)。Knowhow
(知道怎么做)—關(guān)于技能或能力方面的知識(shí)。Knowwho
(知道誰有知識(shí))—關(guān)于到哪里尋求知識(shí)的知識(shí)。
29第二十九頁,共五十五頁,編輯于2023年,星期六三.
文獻(xiàn)1.文獻(xiàn)的構(gòu)成要素
文獻(xiàn)是記錄有知識(shí)的一切載體。即知識(shí)信息必須通過文獻(xiàn)載體進(jìn)行存儲(chǔ)和傳遞,構(gòu)成文獻(xiàn)的三個(gè)最基本要素是:構(gòu)成文獻(xiàn)內(nèi)核的知識(shí)信息。負(fù)載知識(shí)信息的物質(zhì)載體。記錄知識(shí)信息的符號(hào)和技術(shù)。2.文獻(xiàn)的基本屬性知識(shí)性
傳遞性動(dòng)態(tài)性
綜上所述,信息、知識(shí)、文獻(xiàn)三者的關(guān)系可歸結(jié)為:信息是生產(chǎn)知識(shí)的原料,知識(shí)是被人類系統(tǒng)化后的信息,文獻(xiàn)是存儲(chǔ)、傳遞知識(shí)信息的載體。
30第三十頁,共五十五頁,編輯于2023年,星期六文獻(xiàn)信息資源的類型與特點(diǎn)
一.
以載體材料、存儲(chǔ)技術(shù)和傳遞方式劃分可分為印刷型、縮微型、聲像型和機(jī)讀型(電子型)。
二.
以撰寫的目的和文體劃分主要可分為著作、學(xué)術(shù)論文、專利說明書、科技報(bào)告、技術(shù)標(biāo)準(zhǔn)、科技檔案、產(chǎn)品資料。其中信息含量、學(xué)術(shù)價(jià)值和使用頻率較高的為前五種。
31第三十一頁,共五十五頁,編輯于2023年,星期六三.
按信息的加工深度劃分
文獻(xiàn)信息資源按其信息加工深度劃分,可分為零次文獻(xiàn)信息、一次文獻(xiàn)信息、二次文獻(xiàn)信息、三次文獻(xiàn)信息和高次文獻(xiàn)信息。
從零次文獻(xiàn)信息資源到一次、二次、三次、高次文獻(xiàn)信息資源,是一個(gè)從不成熟到成熟,由分散到集中,由無序到有序,由博而略,由略而深,對(duì)知識(shí)信息進(jìn)行不同層次加工的過程。每一過程所含知識(shí)信息的質(zhì)和量都不同,對(duì)人們利用知識(shí)信息所起的作用也不同。
32第三十二頁,共五十五頁,編輯于2023年,星期六信息檢索的含義與實(shí)質(zhì)
信息檢索通常是指從以任何方式組成的信息集合中,查找特定用戶在特定時(shí)間和條件下所需信息的方法與過程,完整的信息檢索含義還包括信息的存儲(chǔ)。從而可知,信息檢索的全過程應(yīng)包括兩個(gè)主要的方面:
1.信息標(biāo)引和存儲(chǔ)過程2.信息的需求分析和檢索過程33第三十三頁,共五十五頁,編輯于2023年,星期六計(jì)算機(jī)檢索的發(fā)展歷史
脫機(jī)檢索聯(lián)機(jī)檢索光盤檢索網(wǎng)絡(luò)檢索34第三十四頁,共五十五頁,編輯于2023年,星期六計(jì)算機(jī)檢索原理
計(jì)算機(jī)信息檢索的原理可歸納為:將檢索提問標(biāo)識(shí)與系統(tǒng)中的存貯文獻(xiàn)的特征標(biāo)識(shí)進(jìn)行比較,并輸出命中文獻(xiàn),即字符串匹配和邏輯運(yùn)算的過程。
35第三十五頁,共五十五頁,編輯于2023年,星期六信息檢索的類型與特點(diǎn)
書目信息檢索
全文信息檢索
數(shù)據(jù)信息檢索
事實(shí)信息檢索
36第三十六頁,共五十五頁,編輯于2023年,星期六中文文本的標(biāo)引
一.
如何進(jìn)行中文標(biāo)引?(主題,作者,標(biāo)題,文種,頁碼,單位等)現(xiàn)在全球有那些實(shí)用的自動(dòng)標(biāo)引系統(tǒng)?
在手工標(biāo)引中,標(biāo)引員的一般工作流程是:閱讀待標(biāo)引的文獻(xiàn)—分析文獻(xiàn)內(nèi)容—提取文獻(xiàn)主題概念—用詞語符號(hào)或語句去表達(dá)主題概念—使表達(dá)規(guī)范化(轉(zhuǎn)換為受控詞)—編制索引款目—將全部索引款目匯集和編輯為索引或文檔。
在自動(dòng)標(biāo)引中,手工標(biāo)引的基本內(nèi)容和要求應(yīng)當(dāng)保留下來,但實(shí)現(xiàn)的方法和處理流程可以不同。37第三十七頁,共五十五頁,編輯于2023年,星期六標(biāo)引作業(yè)自動(dòng)化的一般流程是:
a.獲得機(jī)器可讀的待標(biāo)文獻(xiàn)文本。b.語句分析。c.詞語加權(quán)。d.確定標(biāo)引詞的權(quán)閾值。e.選出標(biāo)引詞。f.轉(zhuǎn)換。g.文檔生成與索引編輯輸出。h.反饋。38第三十八頁,共五十五頁,編輯于2023年,星期六二.主題的表現(xiàn)形式有哪幾種?哪種最實(shí)用?如何評(píng)價(jià)?標(biāo)引就是標(biāo)識(shí)、引導(dǎo),是描述文獻(xiàn)“關(guān)于什么”。生成二次文獻(xiàn)時(shí),需要進(jìn)行分類標(biāo)引,作者標(biāo)引,作者單位標(biāo)引等,但主題標(biāo)引是最重要的標(biāo)引。
主題從表現(xiàn)層次上來看,從低到高依次為:主題詞、主題概念、主題句、主題段落、主題篇章。摘要也是某種形式的主題。
在主題自動(dòng)提取和標(biāo)引的歷史上,由于系統(tǒng)和資源等的限制,大部分工作都僅僅局限在主題詞這一層面上。從信息檢索的角度來看,主題概念可能是相對(duì)比較實(shí)用的一種。主題概念不僅包含了主題詞,它更是比主題詞高一個(gè)檔次的表現(xiàn)。但是,我們也應(yīng)當(dāng)承認(rèn),實(shí)現(xiàn)主題概念的標(biāo)引的困難遠(yuǎn)遠(yuǎn)大于主題詞標(biāo)引。主題概念也是進(jìn)行計(jì)算機(jī)自動(dòng)文獻(xiàn)分類和智能搜索引擎開發(fā)的很好的,甚至是關(guān)鍵的技術(shù)。39第三十九頁,共五十五頁,編輯于2023年,星期六從網(wǎng)絡(luò)的角度的來看,主題句的表現(xiàn)形式可能是最具有應(yīng)用價(jià)值的研究。當(dāng)用戶需要在訪問Internet網(wǎng)絡(luò)上的Web頁面和E-mail時(shí),最好有這樣一種智能的工具軟件,將所訪問對(duì)象的主題句自動(dòng)提取出來,以最簡(jiǎn)潔的速度傳輸過來,節(jié)省時(shí)間和費(fèi)用。
40第四十頁,共五十五頁,編輯于2023年,星期六三.如何進(jìn)行知識(shí)標(biāo)引?世界上有沒有有關(guān)的報(bào)導(dǎo)與討論?
應(yīng)當(dāng)說明,“知識(shí)標(biāo)引”和“基于知識(shí)的標(biāo)引”不是完全相同的概念。
知識(shí)標(biāo)引是對(duì)文獻(xiàn)用提取或發(fā)現(xiàn)的知識(shí)進(jìn)行標(biāo)引,這些知識(shí)原來是隱性地蘊(yùn)涵于文本之中的,而基于知識(shí)的標(biāo)引則是根據(jù)事先獲取或存儲(chǔ)的知識(shí)(這些知識(shí)大都是用規(guī)則的方式存儲(chǔ)的)進(jìn)行主題標(biāo)引。
通過Internet的搜索引擎,根據(jù)關(guān)鍵詞“知識(shí)標(biāo)引”進(jìn)行檢索,認(rèn)為目前世界上進(jìn)行知識(shí)標(biāo)引的報(bào)導(dǎo)基本為空白,而基于知識(shí)的標(biāo)引則已經(jīng)有報(bào)導(dǎo)可見。
從文本中進(jìn)行知識(shí)發(fā)掘,是比結(jié)構(gòu)化的數(shù)據(jù)記錄中進(jìn)行知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘更難(盡管更有意義)的工作。41第四十一頁,共五十五頁,編輯于2023年,星期六四.如何進(jìn)行立體動(dòng)態(tài)面向用戶的分類?
1立體指的是在一個(gè)分類系統(tǒng)中,同時(shí)存在著多種分類體系,這些分類體系可以進(jìn)行相互轉(zhuǎn)換,以便于人們從不同的角度對(duì)同一事物進(jìn)行觀察,同時(shí)適應(yīng)世界上存在著許多不同的分類體系,無法合而為一的事實(shí)。
2動(dòng)態(tài)指的是信息的增加是不均勻的,一個(gè)時(shí)間某個(gè)或某些類別分枝可能會(huì)變得很粗,這樣就破壞了均勻分類、便于快速檢索的分類原則。為此,應(yīng)當(dāng)使分類體系能夠隨著信息的不平衡增長(zhǎng)而動(dòng)態(tài)地進(jìn)行調(diào)整,從而保持類別體系相對(duì)平衡的狀態(tài)。
3面向用戶指的是不同的用戶需要不同的分類體系,因此,要能夠根據(jù)用戶需要,自動(dòng)地構(gòu)建不同的分類體系。42第四十二頁,共五十五頁,編輯于2023年,星期六五.如何對(duì)中文信息進(jìn)行分類?分類應(yīng)當(dāng)按照有利于檢索的準(zhǔn)、快、全的目標(biāo)。1有利于查準(zhǔn)2有利于查快3有利于查全43第四十三頁,共五十五頁,編輯于2023年,星期六六.分類體系要不要對(duì)現(xiàn)有的分類體系進(jìn)行改造?
1傳統(tǒng)的圖書分類體系已經(jīng)不能適應(yīng)網(wǎng)絡(luò)信息分類的需要2現(xiàn)有的網(wǎng)絡(luò)分類體系需要進(jìn)一步的改造
44第四十四頁,共五十五頁,編輯于2023年,星期六信息檢索技術(shù)
信息檢索技術(shù)是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機(jī)數(shù)據(jù)庫、光盤數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫檢索有關(guān)信息而采用的相關(guān)技術(shù),主要有布爾檢索、詞位檢索、截詞檢索和限制檢索。45第四十五頁,共五十五頁,編輯于2023年,星期六一.布爾檢索利用布爾邏輯算符進(jìn)行檢索詞的邏輯組配,是常用的一種檢索技術(shù)。(1)邏輯與(2)
邏輯或(3)
邏輯非二
.
詞位檢索詞位檢索是以數(shù)據(jù)庫原始記錄中的檢索詞之間的特定位置關(guān)系為對(duì)象的運(yùn)算,又稱全文檢索。詞位檢索是一種可以不依賴敘詞表而直接使用自由詞進(jìn)行檢索的一種技術(shù)46第四十六頁,共五十五頁,編輯于2023年,星期六三.
截詞檢索截詞檢索是預(yù)防漏檢提高查全率的一種常用檢索技術(shù),大多數(shù)系統(tǒng)都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進(jìn)行截?cái)啵缓笫褂媒卦~符進(jìn)行處理,可節(jié)省輸入的字符,又可達(dá)到較高的查全率。四.
限制檢索使用截詞檢索,簡(jiǎn)化了布爾檢索中的邏輯或功能,并沒有改善布爾檢索的性質(zhì)。使用位置檢索,只能限制檢索詞之間的相對(duì)位置,不能完全確定檢索詞在數(shù)據(jù)庫記錄中出現(xiàn)的字段位置,特別在使用自由詞進(jìn)行全文檢索時(shí),需要用字段限制查找的范圍。常用的字段代碼有標(biāo)題(TI)、文摘(AB)、敘詞或受控詞(DE或
CT)、標(biāo)識(shí)詞或自由詞(ID或
UT)、作者(AU)、語種(LA)、刊名(JN)、文獻(xiàn)類型(DT)、年代(PY)等。這些限制符在不同的系統(tǒng)有不同的表達(dá)形式和使用規(guī)則,在進(jìn)行字段限制檢索時(shí),應(yīng)參閱系統(tǒng)及有關(guān)數(shù)據(jù)庫的的使用說明,避免產(chǎn)生檢索誤差。
47第四十七頁,共五十五頁,編輯于2023年,星期六基于Internet的搜索引擎
1.概念從廣義上講,搜索引擎應(yīng)包括兩部分:一是對(duì)信息的采集、存儲(chǔ)和組織。搜索引擎按照一定規(guī)律和方式對(duì)Web
站點(diǎn)進(jìn)行搜索,將搜索到的WWW頁面信息存儲(chǔ)到搜索引擎的數(shù)據(jù)庫,并按照一定方式進(jìn)行分類,建立索引數(shù)據(jù)庫。此階段,搜索引擎是客戶機(jī),向WWW站點(diǎn)提出搜索請(qǐng)求,各類信息資源系統(tǒng)是服務(wù)器。二是信息檢索。用戶用一定方式檢索搜索引擎服務(wù)器上WWW站點(diǎn)或網(wǎng)頁。此階段,用戶端是客戶機(jī),向搜索引擎提出檢索請(qǐng)求,搜索引擎是服務(wù)器。從狹義上講,搜索引擎是針對(duì)用戶而言的,即進(jìn)行信息檢索。其基本檢索構(gòu)成主要是從這一層面來進(jìn)行描述的。主要由關(guān)鍵詞檢索和分類瀏覽兩部分構(gòu)成。
48第四十八頁,共五十五頁,編輯于2023年,星期六2.分類
目前因特網(wǎng)上的搜索引擎很明顯地可分為兩大類,一類是自由詞或關(guān)鍵詞檢索搜索引擎,另一類是分類搜索引擎,當(dāng)然這兩類搜索引擎的功能是互相借鑒和滲透的。
Internet上的搜索引擎數(shù)千個(gè),還可以從多種角度對(duì)其進(jìn)行分類。這里僅從搜索語種、檢索功能和檢索內(nèi)容方面進(jìn)行劃分。(1)按搜索語種劃分按搜索語種,可分為中文搜索引擎和西文搜索引擎。1)中文搜索引擎主要包括中國大陸、港澳臺(tái)、新加坡等地的各種中文搜索引擎。例如:中國大陸主要搜索引擎有:中國人、雅虎、搜狐、新浪、網(wǎng)易、百度、悠游、找到啦、搜索客等。港澳臺(tái)主要的搜索引擎有:蕃薯藤、怪獸、茉莉之窗等。
2)西文搜索引擎主要包括國外搜索引擎。例如:Altavista、HotBot、Excite、Lycos、Yahoo!等。
49第四十九頁,共五十五頁,編輯于2023年,星期六(2)按檢索功能劃分按檢索功能,分為單搜索引擎和多搜索引擎
1)單搜索引擎:主要是指搜索引擎之間沒有嵌套,是獨(dú)立的單一性搜索引擎。2)多搜索引擎:是指一個(gè)搜索引擎包含多個(gè)單搜索引擎。例如:(3)按檢索內(nèi)容劃分按檢索內(nèi)容,分為綜合型搜索引擎和專題型搜索引擎1)綜合型搜索引擎:搜索時(shí),不受主題范圍和數(shù)據(jù)類型限制,可根據(jù)需要搜索幾乎任何學(xué)科的信息。2)專題型搜索引擎:搜索時(shí),主題范圍和數(shù)據(jù)類型受到限制,只能檢索到某一專題的網(wǎng)址或網(wǎng)頁。例如:美國化學(xué)工業(yè)專業(yè)搜索引擎、化工Yahoo、中國電力搜索引擎等。50第五十頁,共五十五頁,編輯于2023年,星期六3.檢索功能除分類瀏覽或自由詞檢索外等基本功能外,還應(yīng)提供各種檢索功能擴(kuò)展,如邏輯檢索功能(支持AND、OR、NOT),其他邏輯檢索功能(NEAR、PHRASE)和各種其它功能(如截詞檢索)等。4.結(jié)果顯示搜索引擎總是要將檢索結(jié)果返回給用戶,而結(jié)果顯示的好壞直接影響到搜索引擎的使用效果。因此,結(jié)果顯示的內(nèi)容組織,如何排序,是否提供足夠的相關(guān)信息(內(nèi)碼、文件大小、文件日期等),對(duì)用戶對(duì)檢索結(jié)果的判斷具有很大的影響。5.頁面組織大多數(shù)搜索引擎本身就是WEB站點(diǎn),其頁面組織就如同用戶的使用界面一樣,組織得好與壞直接影響到用戶的使用效果。頁面是否能根據(jù)用戶需求定制也是頁面組織的一個(gè)重要內(nèi)容。6.其他功能搜索引擎,尤其是國外的搜索引擎,為了招攬用戶,在提供搜索服務(wù)之外,還提供其他相關(guān)服務(wù)。如新聞提供、免費(fèi)EMAIL,自動(dòng)翻譯、網(wǎng)上聊天,常用信息(天氣、旅游等)等,以其吸引更多的用戶,從而獲取更多的廣告收益。51第五十一頁,共五十五頁,編輯于2023年,星期六國外主要搜索引擎對(duì)照國外搜索引擎AltaVistaLycosHotBotExciteInfoseekYahoo網(wǎng)址A庫容量(百萬條)140301105530不詳/較之一般搜索引擎少更新周期1天至1月1至2周1天至2周1至3周1天2月不詳缺省布爾檢索或(or)或(or)下拉菜單任選與(and)或(or)與(and)支持的布爾運(yùn)算符及操作符and,andnot,or,near(within10)/+,-and,or,not/+,-and,or,not/+,-AND,ANDNOT,OR/+,-and,or,not,adjacent,near(within100)/+,-and,or其他操作near;"phrase"-not();"phrase""phrase""phrase""phrase"通配符*$
*可檢字段標(biāo)題/URL/全文/鏈接/主機(jī)標(biāo)題/全文前部標(biāo)題/域/depth
標(biāo)題/URL/站點(diǎn)/鏈接標(biāo)題/URL進(jìn)一步限制日期/語種
日期
日期文件類型檢索applet/objectsound/pictureapplets/image/video+
applet/image
結(jié)果排序(是)否是否是是范圍WWW/新聞組WWW/Top5%WWW/新聞組WWW/新聞組/新聞WWWWWW/新聞組/電子郵件支持元數(shù)據(jù)標(biāo)記是部分是否是-大小寫是否是否是是52第五十二頁,共五十五頁,編輯于2023年,星期六中文搜索引擎對(duì)照總表
名字1URL庫記錄數(shù)2主頁內(nèi)碼3支持多內(nèi)碼4更新間隔5主頁頁面組織6關(guān)鍵字搜索引擎ChinaByte559902GBY快一般網(wǎng)易大量GB--快好天網(wǎng)中英文搜索引擎P:800060萬6千網(wǎng)頁/9萬6千新聞組文獻(xiàn)GBY快一般OMRON上海熱線搜索器W162006GB--慢一般悠游中文搜索>40萬GB/BIG5Y快一般茉莉之窗572206EN(GB/BIG5)Y慢一般蓋世搜索引擎G.tw大量BIG5--快一般怪獸搜索.tw一般BIG5--慢一般搜神引擎W.tw一般BIG5--慢好Seednet搜索引擎S.tw一般BIG5--快好AltaVista中文搜索W大量EN(GB/BIG5)Y快一般分類搜索引擎搜狐W有限GBY慢一般常青藤S有限GB/BIG5Y慢一般指南針C:8010≈20萬頁GB--快一般華
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司形象宣傳合同范例
- 農(nóng)產(chǎn)品合同范例
- 產(chǎn)權(quán)車位出租合同范例
- 個(gè)人購書合同范本
- 上海勞務(wù)合同范例固定
- 別墅裝修招商合作合同范例
- 代理居間合同范例
- 農(nóng)村訂婚采購合同范例
- 書購買合同范例
- 加壓設(shè)備購銷合同范例
- 《PLC應(yīng)用技術(shù)(西門子S7-1200)第二版》全套教學(xué)課件
- 第一單元練習(xí)卷(單元測(cè)試)2023-2024學(xué)年統(tǒng)編版語文六年級(jí)下冊(cè)
- 新《鐵路勞動(dòng)安全》考試題庫500題(含答案)
- 注塑正交試驗(yàn)(DOE)案例表
- 漯河市物業(yè)服務(wù)收費(fèi)管理辦法
- 2022年湖南(土建)二級(jí)造價(jià)師考試題庫匯總(含基礎(chǔ)和實(shí)務(wù))
- 歷屆全國初中數(shù)學(xué)聯(lián)賽真題及答案
- 頸椎病ppt課件
- 基巖標(biāo)(分層標(biāo))結(jié)構(gòu)示意圖
- 人教版新課標(biāo)六年級(jí)數(shù)學(xué)下冊(cè)(4~6單元)重點(diǎn)知識(shí)歸納
- (完整版)Brownbear繪本
評(píng)論
0/150
提交評(píng)論