




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用摘要:介紹了搜索引擎的分類、工作原理,并具體分析了搜索引擎的體系結(jié)構(gòu),包括信息的搜集系統(tǒng)、索引系統(tǒng)以及查詢接口?;诂F(xiàn)在人工智能技術(shù)的迅速發(fā)展,對于在搜索引擎中運用的人工智能技術(shù)進(jìn)行了研究,且著重分析了搜索引擎重要模塊: Robot的智能化、智能代理技術(shù)以及查詢接口的智能化,有力地描述了搜索引擎發(fā)展的智能化方向與方法,對智能型搜索引擎所面臨的挑戰(zhàn)以及未來發(fā)展進(jìn)行了展望。關(guān)鍵字:人工智能;搜索技術(shù);應(yīng)用;The practical application of search technology in artificial intelligence field L
2、iao Yongqi(institution of Mechanical Engineering and shanghai institution of technology and shanghai)Abstracts:The classification and operating principles of the search engine are introduced in this paper,and its systematic structure is analyzed concretely, including the systems of collection and in
3、dex andthe input of inquiries. The application ofArtificial Intelligence(AI) technology to search engine isstudied, especially the intelligentization of the importantmodules of the search engine such asRobot,agents, and the input of inquires, and the direction and means of the intelligentization are
4、 described.The future development of the intelligent search engine and the challenges are also discussed.Key Words: Artificial intelligence; search technology; application;0 引言隨著Internet的發(fā)展,網(wǎng)絡(luò)已經(jīng)是信息發(fā)布和傳輸?shù)闹匾绞?Web已經(jīng)發(fā)展成為擁有幾億頁面的分布式信息空間,而且仍以每120240d翻一倍的速度增加。雖然Internet上蘊(yùn)藏著巨大的信息資源,但是要從這個信息海洋中準(zhǔn)確快速地找到并獲得自己所需
5、的信息,往往比較困難。為了解決這個問題,人們開發(fā)了各種檢索工具,以期望能提供這種信息服務(wù)。隨著各種技術(shù)的日漸成熟,網(wǎng)絡(luò)搜索引擎開始迅速發(fā)展起來。網(wǎng)絡(luò)搜索引擎是以一定的策略在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并對信息進(jìn)行理解、提取、組織和處理,為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。1搜索引擎技術(shù)1. 1搜索引擎的分類1. 1. 1目錄式搜索引擎目錄式搜索引擎的特點是以人工方式或半自動方式搜集信息,編輯人員在訪問了某個Web站點后形成信息摘要,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別,把站點的URL和描述放在這個類別中,當(dāng)用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶
6、提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會將之添加到合適的類別中。目錄式搜索引擎的優(yōu)點是信息準(zhǔn)確、導(dǎo)航質(zhì)量高。以Yahoo為主要代表。這類搜索引擎的缺點也是顯而易見的,由于人工的介入,使得費用增加,而且維護(hù)量大、信息量少、信息更新不及時。1. 1. 2基于Robot的搜索引擎這類搜索引擎的特點是由一個稱為Robot(也叫做Spider、Web Crawler或Web Wanderer)的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引系統(tǒng)為搜集到的信息建立索引,由查詢接口根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。它的一個重要特征是,搜索引擎要定期訪問大多數(shù)
7、以前搜集的網(wǎng)頁,刷新索引,以反映出網(wǎng)頁的更新情況,去除一些死鏈接,網(wǎng)頁的部分內(nèi)容和變化情況將會反映到用戶查詢的結(jié)果中?;赗obot的搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù)?,F(xiàn)在的許多搜索引擎都屬于此類,例如Google, AltaVista等。它的缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。1. 1. 3Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(Multiple Search Engine),它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,當(dāng)用戶查詢一個關(guān)鍵詞時,它把用戶的查詢請求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問數(shù)個搜索引擎來查詢這個關(guān)鍵詞,并把
8、搜索引擎返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后再返回給用戶。在目前所存在的搜索引擎中,沒有一個搜索引擎能夠覆蓋所有的WWW資源,大部分的搜索引擎都只能涉及到整個資源的一小部分,并且各類搜索引擎的信息來源差異較大,因此集成多個搜索引擎而產(chǎn)生的Meta搜索引擎具有比傳統(tǒng)引擎覆蓋面大,搜索效果更好且具有可擴(kuò)展性等優(yōu)點。它的缺點是有一定的局限性,不能夠充分使用所使用搜索引擎的功能。1. 2搜索引擎的工作原理與主要技術(shù)搜索引擎的工作原理是:由一個Robot盡可能多地收集WWW上的網(wǎng)頁,按照每個網(wǎng)頁的文本內(nèi)容建立單詞到網(wǎng)頁的反向索引,用戶在查詢感興趣的主題時,輸入該主題的關(guān)鍵字作為查詢條件,搜索引擎利用
9、事先建立好的網(wǎng)頁庫和單詞索引,檢索出符合條件的網(wǎng)頁返回給用戶。搜索引擎一般由3個部分組成,如圖1所示???戶WWW站點索引數(shù)據(jù)庫查詢接口收索Robot圖1搜索引擎組成示意圖1. 2. 1信息搜集系統(tǒng)信息搜集系統(tǒng)是通過Robot來自動完成的, Robot在Internet中漫游,盡可能多、盡可能快地搜集各種類型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,為了保證搜索引擎上的信息的完整性和時效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2種搜集信息的策略:(1)從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)
10、先或發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo! )。(2)將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負(fù)責(zé)一個子空間的窮盡搜索。1. 2. 2索引系統(tǒng)Robot搜集信息后,由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。一個搜索引擎的有
11、效性在很大程度上取決于索引的質(zhì)量。1. 2. 3查詢接口當(dāng)用戶提出查詢要求時,搜索引擎根據(jù)用戶的查詢在索引數(shù)據(jù)庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實現(xiàn)某種用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。查詢接口的設(shè)計和實現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。2人工智能技術(shù)的應(yīng)用研究Internet迅速的發(fā)展,使得網(wǎng)上的信息呈現(xiàn)指數(shù)級增長, Internet的問題已經(jīng)從“提供信息”轉(zhuǎn)到“如何從浩如煙海的信息中提取對自己有用的信息資源”?,F(xiàn)有的搜索引擎存在著返回的無用信息太多、搜索效率低下
12、、信息組織混亂等缺陷。起源于20世紀(jì)50年代的人工智能(AI)技術(shù),可以在Internet中導(dǎo)引用戶,不僅在用戶進(jìn)行搜索、瀏覽時給予直接的支持,而且能夠提供具有獨立搜索功能的智能體的幕后支持。因此人工智能已經(jīng)在Internet中扮演越來越重要的角色。2. 1Robot的智能化2. 1. 1人工智能技術(shù)基于Robot的搜索引擎中已經(jīng)使用了大量人工智能的技術(shù)。Robot的核心目的是獲取Internet上的信息資源,它是利用主頁中的超文本鏈接遍歷Web,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。一般步驟如下:(1) Robot從起始URL列表中取出URL并從網(wǎng)上讀取其內(nèi)容。(2)從每
13、一個文檔中提取某些信息并放入索引數(shù)據(jù)庫中。(3)從文檔中提取指向其它文檔的URL,并加入到URL列表中。(4)重復(fù)上述3個步驟,直到再沒有新的URL發(fā)現(xiàn)或超出了某些限制(時間或磁盤空間)。(5)給索引數(shù)據(jù)庫加上查詢接口,向網(wǎng)上用戶發(fā)布。其算法一般采用人工智能的搜索策略中的深度優(yōu)先和廣度優(yōu)先2種基本的策略。廣度優(yōu)先策略可以跟蹤當(dāng)前頁面中的每一個URL,所以能覆蓋盡可能多的網(wǎng)頁。而深度優(yōu)先策略則能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用。兩種算法都是通過對網(wǎng)頁的內(nèi)容的分析判斷與用戶查詢是否符合來檢索出用戶需要的網(wǎng)頁,缺乏對檢索后的網(wǎng)頁進(jìn)行進(jìn)一步分析的能力,而且一次遍歷往往
14、需要花費很長的時間,檢索到的信息存在大量的冗余和噪音。因此,為了提高搜索效率,運用啟發(fā)式搜索策略來進(jìn)行對網(wǎng)頁的搜集,即Robot通過啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時機(jī)獲取從Internet上自動收集、整理的信息。2. 1. 2啟發(fā)式搜索算法常用有2種啟發(fā)式搜索算法:(1)加權(quán)的啟發(fā)式搜索算法:用加權(quán)的啟發(fā)式搜索算法控制信息資源的搜集,系統(tǒng)根據(jù)用戶配置的領(lǐng)域?qū)蛟~和資源服務(wù)器所在的地域信息,以啟發(fā)式函數(shù)計算每個URL的權(quán)值,并選擇權(quán)值高的URL優(yōu)先訪問。(2)用相關(guān)度及用戶興趣作為評價函數(shù)的啟發(fā)式搜索算法,對于系統(tǒng)中維護(hù)的一個超鏈隊列,根據(jù)評價函數(shù)值,按照由小到大的順序?qū)⒊滉犈判?然
15、后選擇具有最小評價函數(shù)值的超鏈作為下一個要擴(kuò)展的結(jié)點。2. 2智能代理技術(shù)智能代理又稱智能體,是人工智能研究的新成果,近幾年的發(fā)展非常迅速。它使用自動獲得的領(lǐng)域模型、用戶知識進(jìn)行信息搜集、索引、過濾,并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理的特點是具有不斷學(xué)習(xí)、適應(yīng)信息和適應(yīng)用戶興趣動態(tài)變化的能力,從而能夠提供個性化的服務(wù)。2. 2. 1智能代理的優(yōu)勢(1)智能性。具有豐富的知識和一定的推理能力,能分析用戶的需求和揣測用戶的意圖,以便能完成較復(fù)雜的任務(wù),而且它可以從經(jīng)驗中不斷學(xué)習(xí),以提高自己處理問題的能力。(2)代理性。顧名思義智能代理是用戶的某種代理,它可以代替用戶完成一
16、些任務(wù),并主動將結(jié)果反饋給用戶。(3)主動性。它能根據(jù)用戶的需求和環(huán)境的變化,主動向用戶報告并提供服務(wù)。(4)協(xié)作性。它能通過各種通信協(xié)議和其他智能代理進(jìn)行信息交流,并可以相互協(xié)調(diào)共同完成復(fù)雜的任務(wù)。2. 2. 2客戶端智能代理和服務(wù)器端智能代理(1)客戶端智能代理技術(shù)以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主題”的檢索模式,在密切關(guān)注個體需求、提高信息與用戶需求相關(guān)系統(tǒng),彼此間可以通過統(tǒng)一的傳輸協(xié)議進(jìn)行溝通,交換信息,從而使更多的信息得以挖掘,以彌補(bǔ)智能代理信息搜索范圍有限的缺陷。(2)服務(wù)器端智能代理引入用戶反饋機(jī)制來完善檢索機(jī)制,提高檢索命中率,同時也可以提供面向個人的特殊檢索服務(wù)。這
17、種方式是記錄該用戶的查詢蹤跡,從而在用戶再次登錄時結(jié)合以往的用戶檢索記錄來配合提供相關(guān)的檢索服務(wù)。并且可以通過對用戶的反饋意見進(jìn)行跟蹤,獲取用戶對結(jié)果的評價,以便提高檢索質(zhì)量。2. 3查詢接口的智能化2. 3. 1基于關(guān)鍵詞匹配搜索技術(shù)當(dāng)用戶提出查詢請求時,用戶最關(guān)心的是搜索結(jié)果是否能夠滿足自己的需要。目前采取的一種常見的策略是將用戶的查詢請求分解成若干關(guān)鍵詞,根據(jù)這些關(guān)鍵詞計算Web文檔跟用戶請求的匹配程度,從而挑出若干匹配的文檔。匹配程度的衡量準(zhǔn)則很多:一種是根據(jù)關(guān)鍵詞在文檔中出現(xiàn)的頻率確定它對用戶請求的匹配程度;一種是計算關(guān)鍵詞出現(xiàn)次數(shù)和頁面總詞數(shù)之比。但是基于關(guān)鍵詞匹配的搜索技術(shù)有較大
18、的局限性。它不能區(qū)分同形異義,也不能聯(lián)想到關(guān)鍵詞的同義詞。2. 3. 2自然語言查詢?yōu)榱颂岣咚阉饕鎸τ脩舨樵冋埱蟮睦斫?就必須有一個好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,應(yīng)用自然語言理解技術(shù)進(jìn)行自然語言智能答詢。它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。因而具有信息服務(wù)的智能化、人性化特征。它允許用戶采用自然語言進(jìn)行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比,自然語言查詢的優(yōu)勢體現(xiàn)在:(1)由于自然語言查詢具有智能分詞
19、功能,因此使得查詢變得更為簡單、易于操作。(2)采用知識(概念)檢索技術(shù),明確和縮小了搜索范圍,減少了對無用信息的搜索。(3)由于有綜合知識庫為背景,使得信息檢索與導(dǎo)航服務(wù)更具有智能性。利用自然語言理解技術(shù)進(jìn)行智能搜索主要分為語義理解、知識管理和知識檢索。其中,知識庫是其基礎(chǔ)和核心。在語義理解的過程中,智能分詞技術(shù)是重要的一個環(huán)節(jié),它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當(dāng)?shù)靥峁┳銐虻脑~來供分析程序處理,并且過濾掉冗余的信息,這是提高語義分析的質(zhì)量和速度的重要前提。知識檢索可以利用語義分析的結(jié)果,對知識庫進(jìn)行概念級的檢索,對用戶提出的問題給出準(zhǔn)確度最高、相關(guān)度
20、最強(qiáng)的檢索結(jié)果。3結(jié)束語Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫和全球范圍內(nèi)傳播信息的主要渠道,擁有大量結(jié)構(gòu)復(fù)雜且分散的信息資源。將人工智能技術(shù)應(yīng)用于搜索引擎提高Internet資源利用率,正日益得到廣泛的重視和研究。本文簡單探討和研究了搜索引擎的工作原理,研究了人工智能在搜索引擎中應(yīng)用方法,但是,由于人工智能技術(shù)發(fā)展還遠(yuǎn)遠(yuǎn)不夠成熟,網(wǎng)絡(luò)信息組織無序性、信息媒體多樣化,要建立真正的基于自然語言理解的智能答詢系統(tǒng),理解自然語言及所代表的實際含義,根據(jù)問題找出用戶實際想要的答案,還有很多的理論和應(yīng)用難題。Internet 網(wǎng)絡(luò)技術(shù)的快速發(fā)展 ,使網(wǎng)絡(luò)已經(jīng)成為了人們?nèi)粘I畈豢苫蛉钡囊徊糠?,它作為信息發(fā)布、傳播的主要方式 ,Web 擁有幾億頁面的分布式信息空間 ,目前仍然以 130200d 翻一番的速度增加。Internet 信息廣泛 ,涵蓋量很大 ,要從中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化妝學(xué)校合同范本
- 包車居間服務(wù)合同范本
- 鄉(xiāng)村園林出售合同范本
- 別墅大門購買合同范本
- 醫(yī)療旅行合同范本
- 倉庫分租協(xié)議合同范例
- 分包非標(biāo)工程合同范本
- 勞動配送合同范本
- 上牌購車合同范本
- 公寓欄桿維修合同范本
- 2024 河北公務(wù)員考試(筆試、省直、A類、C類)4套真題及答案
- 廈門2025年福建廈門市公安文職人員服務(wù)中心招聘17人筆試歷年參考題庫附帶答案詳解
- 2025年高三歷史教學(xué)工作計劃
- 《職業(yè)性肌肉骨骼疾患的工效學(xué)預(yù)防指南 》
- 不同產(chǎn)地筠連紅茶風(fēng)味化學(xué)成分差異分析
- DB50 577-2015 汽車整車制造表面涂裝大氣污染物排放標(biāo)準(zhǔn)
- 生態(tài)安全課件
- 消防風(fēng)道風(fēng)管施工方案
- 大學(xué)英語(西安歐亞學(xué)院)知到智慧樹章節(jié)測試課后答案2024年秋西安歐亞學(xué)院
- 人教版高中英語挖掘文本深度學(xué)習(xí)-選修四-UNIT-2-(答案版)
- 八下冀教版英語單詞表
評論
0/150
提交評論