《翻譯技術(shù)》課件-第一節(jié) 基礎(chǔ)知識翻譯技術(shù) 搜索技術(shù)基礎(chǔ)知識_第1頁
《翻譯技術(shù)》課件-第一節(jié) 基礎(chǔ)知識翻譯技術(shù) 搜索技術(shù)基礎(chǔ)知識_第2頁
《翻譯技術(shù)》課件-第一節(jié) 基礎(chǔ)知識翻譯技術(shù) 搜索技術(shù)基礎(chǔ)知識_第3頁
《翻譯技術(shù)》課件-第一節(jié) 基礎(chǔ)知識翻譯技術(shù) 搜索技術(shù)基礎(chǔ)知識_第4頁
《翻譯技術(shù)》課件-第一節(jié) 基礎(chǔ)知識翻譯技術(shù) 搜索技術(shù)基礎(chǔ)知識_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章搜索技術(shù)

第一節(jié)基礎(chǔ)知識第一節(jié)基礎(chǔ)知識1.搜索的定義

搜索是用戶借助工具檢索特定內(nèi)容并且獲取所需結(jié)果的行為。2.搜索引擎的定義

搜索引擎(SearchEngine)是一個信息處理系統(tǒng),以一定的策略在互聯(lián)網(wǎng)上搜集、發(fā)現(xiàn)、理解、提取、組織和處理信息,并為用戶提供檢索服務(wù)。搜索引擎技術(shù)解決了從互聯(lián)網(wǎng)上準(zhǔn)確有效地獲取信息的問題。一、搜索和搜索引擎的定義搜索引擎一般包括三個子系統(tǒng)信息搜集信息整理信息檢索發(fā)現(xiàn)、跟蹤和采集網(wǎng)絡(luò)信息資源組織所采集的網(wǎng)頁信息,建立索引查詢系統(tǒng)提供瀏覽器界面的信息查詢

目前,搜索引擎有人工和自動兩種采集方式。1.搜索引擎的組成及功能二、搜索引擎的基本原理從互聯(lián)網(wǎng)上抓取網(wǎng)頁建立索引數(shù)據(jù)庫在索引數(shù)據(jù)庫中搜索排序2.搜索引擎的工作原理二、搜索引擎的基本原理是否聯(lián)網(wǎng)線上搜索/網(wǎng)絡(luò)搜索線下搜索/桌面搜索信息采集方式機(jī)器人搜索引擎人工采集搜索引擎搜索工具百度搜索Google搜索Bing搜索……三、搜索引擎的分類搜索內(nèi)容網(wǎng)頁搜索文本搜索圖片搜索音頻、視頻搜索……信息內(nèi)容組織方式全文搜索引擎目錄索引搜索引擎元搜索引擎用戶應(yīng)用聚類搜索整合搜索個性化搜索自然語言搜索桌面自動搜索社交化搜索垂直搜索跨語言搜索三、搜索的分類

搜索引擎實際上是一種數(shù)據(jù)庫檢索,可以用數(shù)據(jù)庫檢索的基本語法組織檢索條件。要提高搜商,就要掌握這些基本的搜索語法。搜索引擎通常提供的幾種檢索功能(一)布爾檢索(二)位置運算符檢索(三)詞組檢索(四)截詞檢索(五)字段檢索……四、搜索的方法1.定義布爾邏輯檢索(Booleanoperators)是指利用布爾運算符連接各檢索詞,然后由計算機(jī)進(jìn)行相應(yīng)的邏輯運算,找到所需信息的方法。布爾邏輯檢索是通過布爾邏輯運算符來實現(xiàn)的。具體說來,邏輯運算符包括“與”、“或”、“非”,即英文的AND、OR、NOT。(一)布爾邏輯檢索表2-1布爾邏輯運算符邏輯“與AND”含義檢索同時含有X詞、Y詞的文獻(xiàn)用法連接不同概念,表達(dá)復(fù)合主題運算符“AND”;“*”檢索式“XANDY”;“X*Y”作用可以縮小檢索范圍,有利于提高查準(zhǔn)率邏輯“或OR”含義檢索出要么有X詞、要么有Y詞的文獻(xiàn)用法連接同一概念的不同表達(dá)方式或相關(guān)詞,以防漏檢運算符OR”;“+”檢索式“XORY”;“X+Y”作用可以擴(kuò)大檢索范圍,防止漏檢,有利于提高查全率邏輯“非NOT”含義檢索出含有X詞,但是不含有Y詞的文獻(xiàn)用法用于排除某些概念,達(dá)到精確檢索的目的運算符“NOT”;“-”檢索式“XNOTY”;“X-Y”作用從原檢索范圍中,排除無需檢索或影響檢索結(jié)果的概念,有利于提升查全率(一)布爾邏輯檢索邏輯“與”只要求兩個檢索詞必須出現(xiàn)在同一篇文獻(xiàn)中,沒有限定運算符兩側(cè)檢索詞的位置關(guān)系,有時難免造成誤檢。運用位置算符表示兩個檢索詞的位置鄰近關(guān)系,又叫鄰近檢索(proximitysearch)。位置運算符又稱鄰接運算符(adjacentoperators),適用于兩個檢索詞以指定間距或順序出現(xiàn)的場合。跟AND運算符類似,但它在功能上更具體。(二)位置運算符檢索WithW是with的縮寫。(W)或用()表示其連接的兩個檢索詞必須按序出現(xiàn),中間不允許插詞,只能有一空格或標(biāo)點、符號。如:high(W)class命中的記錄中出現(xiàn)的匹配詞可能有:highclass或high-class。(nW)與(W)類似,只是它允許插詞,插詞量小于或等于n個。如:silicon(1W)sensor命中的記錄中出現(xiàn)的匹配詞除siliconsensor外,還可能有:siliconintegratedsensor,siliconimagesensor,silicon-basedsensor等。如:silicon(2W)sensor命中的記錄中出現(xiàn)的匹配詞除上例的外,還可能會有:siliconangularratesensor,silicon-basedchemicalsensor等等。NearN是near的縮寫。(N)表示其連接的兩個檢索詞的順序可以互易,但兩詞間不允許插詞。如:internet(N)accessing命中記錄中出現(xiàn)的匹配詞可能有:internetaccessing,accessinginternet。(nN)中的n表示允許插詞量少于或等于n個。如:internet(1N)accessing命中記錄中除上例的外,還會可能有:accessinginternet,accessingtheinternet,internetaccessing等。SameSAME運算符所連接的兩詞必須在同一字段或同一句話中,順序不同。如:Ad=(GuangzhousameGuangdongAIBPolytenic),命中的記錄中出現(xiàn)的匹配情況是地址字段中含有Guangzhou和GuangdongAIBPolytenic。SubfieldS是Subfield的縮寫。(S)表示其連接的兩個檢索詞必須出現(xiàn)在同一子字段中。子字段是指字段中的一部分,如一句句子,一個詞組、短語。字段不限,詞序不限。如:silicon(S)sensor命中記錄出現(xiàn)的匹配情況如:Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.表2-2位置運算符(二)位置運算符檢索1.定義詞組搜索(PhraseSearch),也叫短語檢索,是指輸入兩個詞以上的詞組(短語),提交搜索引擎檢索并反饋結(jié)果。2.一般技巧若要精確查找一個詞組或多個漢字,最好用雙引號括起來。用詞組搜索來縮小范圍是搜索的好辦法。但會涉及選詞表達(dá)檢索內(nèi)容的問題,所以合適的詞組對提高搜索效率是很重要的。(三)詞組檢索1.定義截詞檢索是指在檢索詞的適當(dāng)位置截斷,用截詞符代替可變化的部分。由于檢索詞與數(shù)據(jù)庫存儲信息的字符是部分一致性匹配,所以又稱為部分一致檢索或者通配符檢索。2.作用解決一個檢索詞的單復(fù)數(shù)、詞性變化以及英美詞匯拼寫差異等問題“*”代表一個或多個字符“?”代表一個字符3.截詞方式根據(jù)截詞的位置,可以分為前截斷、后截斷、中間截斷;根據(jù)截詞的數(shù)量,可以分為有限截斷和無限截斷。(四)截詞檢索3.截詞方式根據(jù)截詞位置前截斷是將截詞符置放在字符串左側(cè),是后方一致檢索。前截斷后截斷是將截詞符放在字符串右側(cè),是前方一致檢索。后截斷中間截斷又稱為中間屏蔽,是一種用截詞符屏蔽詞中不同字符的方法。中間截斷(四)截詞檢索3.截詞方式根據(jù)截詞數(shù)量有限截斷是限制被截斷字符的數(shù)量,譬如,輸入“translat??"后可以檢索到translator、translated兩個詞。有限截斷無限截斷中不限制被截斷的字符數(shù)量,譬如,輸入“translat*”后,可以檢索出:translator、translators、translated、translating、translation、translational等。無限截斷(四)截詞檢索1.定義字段檢索是指在單個庫中檢索符合某指定字段的記錄。2.一般技巧每個檢索條件最多包含5個字段。有時,字段位置不同,在文獻(xiàn)主要內(nèi)容中的作用也會不同。譬如,人名在作者字段出現(xiàn)表示其為文獻(xiàn)作者,而在摘要和全文中出現(xiàn)則可能是對此人的評價。一般,數(shù)據(jù)庫指定字段代碼有:文摘(AB)、作者(AU)、機(jī)構(gòu)名稱(CS)、標(biāo)志詞(ID)、語種(LA)、出版年代(PY)、題名(TI)等。譬如,要搜索題目為“機(jī)器翻譯”的文章,可在搜索引擎中輸入“title=機(jī)器翻譯”,別忘了在“=”后加空格。(五)字段檢索(一)多維化(二)智能化(三)專業(yè)化(四)社交化1.語義搜索2.知識圖譜垂直搜索引擎1.傳統(tǒng)搜索2.社交化搜索信息的緯度1.信息的格式2.信息的載體3.信息的傳播方式五、搜索引擎的發(fā)展趨勢(一)多維化格式常見的信息緯度載體網(wǎng)頁、圖片、音頻、視頻、PDF文檔、MicrosoftOffice文檔等傳播方式資訊、圖書、地圖、學(xué)術(shù)、大學(xué)、博客等電腦、手機(jī)等五、搜索引擎的發(fā)展趨勢(二)智能化01語義搜索未來搜索引擎學(xué)習(xí)人類語言的能力更為強(qiáng)大,能從語言學(xué)的角度分析用戶關(guān)鍵詞的語境、個人搜索喜好等因素,從多種來源中收集信息,將更準(zhǔn)確且相互關(guān)聯(lián)的信息提供給用戶。02知識圖譜知識圖譜是展示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的—系列圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識以及它們的相互聯(lián)系。用戶搜索時,除顯示用戶的搜索結(jié)果,關(guān)聯(lián)的重要信息也將以發(fā)散圖表的形式呈現(xiàn)出來。五、搜索引擎的發(fā)展趨勢(三)垂直細(xì)分化醫(yī)學(xué)搜索領(lǐng)域:360良醫(yī)搜索、搜狗明醫(yī)搜索、MedSite、MedExplorer、MedicalMatrix等專利搜索領(lǐng)域:中華人民共和國國家知識產(chǎn)權(quán)局——專利檢索、歐洲專利局網(wǎng)上專利檢索、美國專利商標(biāo)局網(wǎng)上專利檢索、世界知識產(chǎn)權(quán)組織網(wǎng)上專利檢索、Google專利搜索等……垂直搜索引擎

由此可知,垂直搜索引擎是滿足專業(yè)需求或者某項業(yè)務(wù)需求的專業(yè)搜索引擎,是搜索引擎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論