版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
西安交通大學電子與信息工程學院喬亞男qiaoyanan@信息檢索導論1互聯(lián)網(wǎng)搜索引擎搜索引擎是大家耳熟能詳?shù)漠a(chǎn)品搜索是一個古老的計算機科學問題,范圍和深度不斷加強隨著網(wǎng)絡的發(fā)展,成為一個重要的工具搜索引擎是信息檢索技術在大規(guī)模文本集合上的實際應用2信息檢索起源信息檢索(InformationRetrieval)最早出現(xiàn)在圖書館領域,是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關的信息的過程和技術互聯(lián)網(wǎng)的出現(xiàn),豐富了信息檢索的內(nèi)涵。常常以搜索引擎的出現(xiàn)突出互聯(lián)網(wǎng)信息檢索概念搜索引擎(searchengine)是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統(tǒng)。3我們所使用的Web搜索系統(tǒng)TheWebWebspiderIndexerIndexesSearchUser4完整課程框架(32課時)信息檢索概述及評價信息檢索模型檢索的改進技術查詢操作Web信息檢索文本分類與聚類信息過濾和問答系統(tǒng)前沿研究展望5緊湊課程框架概覽(2課時)進階(3課時)最新研究進展(3課時)6參考書參考書信息檢索系統(tǒng)導論,機械工業(yè)出版社,2008搜索引擎-信息檢索實踐,BruceCroft等,2010RicardoBaeza-YatesandBerthierRibeiro-Neto,ModernInformationRetrieval,Addison-Wesley.1999.ChristopherD.Manning,PrabhakarRaghavanandHinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress.2007.李曉明,閆宏飛等。搜索引擎原理、技術與系統(tǒng)7信息檢索概述8在這一部分將介紹:信息檢索概念及意義信息檢索體系結(jié)構歷史與現(xiàn)狀發(fā)展趨勢和面臨的挑戰(zhàn)國內(nèi)外主要搜索引擎9信息檢索的概念及意義10信息檢索定義信息檢索是從非結(jié)構化的文檔集中找出與用戶需求相關的信息和其它相關技術的區(qū)別和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是結(jié)構化數(shù)據(jù),IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。和情報檢索的區(qū)別情報檢索介紹如何利用信息檢索工具11典型的信息檢索任務給定條件自然語言的文檔集合用戶的提問(Query)查找結(jié)果和query相關的經(jīng)過排序(Rank)的文檔子集12用戶需求:Query及Profile形式關鍵詞帶布爾操作的關鍵詞自由文本事例文檔...13早期信息檢索系統(tǒng)IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..14Web搜索系統(tǒng)提問IR系統(tǒng)排序后的文本1.第1頁2.第2頁3.第3頁
..文檔語料庫WebSpider15Web搜索將IR技術應用于WorldWideWeb上的HTML網(wǎng)頁和純文本相比,網(wǎng)頁的特點如下:必須通過在網(wǎng)上“爬行”搜集網(wǎng)頁可以開發(fā)結(jié)構布局信息文檔的更新是不可控的可以開發(fā)網(wǎng)頁之間的鏈接結(jié)構16信息檢索處理的對象非結(jié)構化數(shù)據(jù)文本數(shù)據(jù):新聞、科技論文等網(wǎng)頁:HTML、XML多媒體數(shù)據(jù):圖像、視頻、圖形、音頻目前最主要的處理對象是互聯(lián)網(wǎng)文字圖片17基于內(nèi)容的圖像查詢
基于內(nèi)容的圖像查詢:目標,顏色,紋理圖像數(shù)據(jù)庫/互聯(lián)網(wǎng)用戶的提問查詢搜索引擎18基于文本的圖像查詢19信息檢索的重要性由信息匱乏到信息爆炸,需要有效的檢索方式傳統(tǒng)管理軟件需要嵌入IR技術在SQL數(shù)據(jù)庫中已采用文本檢索技術select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes辦公平臺上同樣也已采用文本檢索技術互聯(lián)網(wǎng)數(shù)據(jù)的增長和在線文檔(如聯(lián)機用戶手冊等)的增長,向IR技術提出迫切需求檢索無處不在20信息檢索系統(tǒng)體系結(jié)構21信息檢索系統(tǒng)的體系結(jié)構文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢操作搜索排序排序后的文檔用戶反饋文本操作用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔分詞刪除停用詞Stemming(提取詞干)為文檔建立倒排索引表根據(jù)倒排索引表檢索出與提問相關的文檔將檢索出的文檔根據(jù)相關性排序Query輸入和文檔輸出相關反饋結(jié)果的可視化對query進行變換,以改進檢索結(jié)果22IR的歷史與現(xiàn)狀23圖書館卡片索引&智能問答系統(tǒng)24IR的歷史1960-70’s:最初的信息檢索系統(tǒng)面向小型的科學文摘數(shù)據(jù)庫、法律和商業(yè)文檔檢索模型為基本的布爾模型和向量空間模型CornellUniversity的Prof.Salton成為這個領域的先驅(qū),著名的IR向量空間模型的創(chuàng)始人,開發(fā)了著名的SMART向量空間模型IR系統(tǒng),并免費開放源代碼,大大促進了IR的發(fā)展25IR歷史1980’s:IR技術出現(xiàn)在大型文檔數(shù)據(jù)庫中Lexis-Nexis美國LEXIS-NEXIS公司創(chuàng)始于1973年,其數(shù)據(jù)庫內(nèi)容很廣,其中法規(guī)法律方面的數(shù)據(jù)庫是LEXIS-NEXIS的特色信息源,具有非常大的影響力,尤其在法律業(yè)界具有很高知名度Dialog目前世界上最大的聯(lián)機檢索檢索系統(tǒng)之一,包括各學科數(shù)據(jù)庫600多種,可查詢研究動態(tài),SCI,EI收錄以及專利等情況MEDLINEMEDLINE是美國國家醫(yī)學圖書館的文獻數(shù)據(jù)庫26IR歷史1990’s:在互聯(lián)網(wǎng)上對FTP服務器上的文檔進行搜索ArchieArchie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件WAIS代表“廣域信息服務”(WideAreaInformationService),是一種能查詢500個檢索數(shù)據(jù)庫的工具27IR歷史1990’s(續(xù)):在WorldWideWeb上進行搜索Yahoo1994年4月,Stanford兩名博士生,美籍華人JerryYang(楊致遠)和DavidFilo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索?;谀夸浀臋z索AltavistaAltaVista是網(wǎng)上最早的爬行搜索引擎。AltaVista搜索技術從純文本搜索技術開始,發(fā)布于1995年;1997年,其搜索能力擴展到25種語言搜索;1999年開始多媒體文件的搜索;2001年首次推出網(wǎng)上免費新聞搜索,2003年AltaVista被Overture收購。
28IR歷史1990’s(續(xù)):有組織地進行評測美國標準與技術研究所NIST和國防部高級研究規(guī)劃局DARPA共同發(fā)起TREC,1992年開始智能推薦系統(tǒng)(個性化推薦,良好的互動性,適應性)RingoAmazon(亞馬遜網(wǎng)絡售書)NetPerceptions29IR歷史以雅虎初期為代表的第一代搜索引擎以人工目錄分類為基礎的網(wǎng)站搜索開辟了一個時代第一代搜索引擎指主要依靠人工分揀的分類目錄搜索,這種方式是被動的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已經(jīng)退出搜索舞臺。30IR歷史2000’s為Web搜索服務的鏈接分析Google自動信息抽取WhizbangFetchBurningGlass問答系統(tǒng)TRECQ/Atrack31IR現(xiàn)狀近期的IR:多媒體檢索圖像(Image)視頻(Video)聲音(speech)和音頻(Audio)音樂(music)跨語言檢索DARPATides項目智能化、個性化檢索32IR現(xiàn)狀以Google為代表的第二代搜索引擎以超鏈分析技術為基礎的大規(guī)模網(wǎng)頁搜索,根據(jù)關鍵詞的分布情況對頁面進行分類和排序優(yōu)點:只要網(wǎng)頁上出現(xiàn)了某個關鍵詞,就能夠使用全文檢索用關鍵詞匹配把該網(wǎng)頁查出來不足:返回的無用信息太多原因:僅采用機械的關鍵詞匹配來實現(xiàn)33IR現(xiàn)狀多數(shù)檢索系統(tǒng)是基于關鍵詞的搜索可能找不到同義詞“PRC”vs.“China”“電腦”vs.“計算機”可能檢索到一些不相關的多義詞“bat”(baseballvs.mammal)“Apple”(companyvs.fruit)保安(地名vs.保護安全的人員)同義詞詞義消岐3435發(fā)展趨勢互聯(lián)網(wǎng)正從提供信息服務向提供平臺服務延伸傳統(tǒng)互聯(lián)網(wǎng)正在向移動互聯(lián)網(wǎng)延伸從服務模式看從傳播手段看互聯(lián)網(wǎng)正從信息傳播和娛樂消費為主向商務服務領域延伸從應用領域看362008年第三季度中國搜索引擎市場規(guī)模達14.29億人民幣,同比2007第三季度的8.38億人民幣,增長70.5%。37搜索引擎用戶的抱怨搜索結(jié)果重復率高,搜索到的網(wǎng)頁打不開等令人煩惱個性化內(nèi)容少,結(jié)果雷同也是不可以忍受的專業(yè)搜索功能差信息更新速度慢73.3%54.1%48.3%49.1%多媒體搜索功能弱30.1%垂直實時跨媒體個性化精準38搜索技術發(fā)展趨勢ThemeGalleryisaDesignDigitalContent&ContentsmalldevelopedbyGuildDesignInc.趨勢2.智能化1.個性化
多媒體化
垂直化
社區(qū)化
移動化
個性化
智能化
精準化搜索技術39各種趨勢的背景精準化(個性化):更有效地獲取信息智能化:更便捷地表達需求商務化:在產(chǎn)業(yè)鏈中尋找更高價值移動化:移動互聯(lián)網(wǎng)的迅猛發(fā)展社區(qū)化:社交媒體的崛起垂直化:深入行業(yè)多媒體化:整合多媒體數(shù)據(jù)40跨媒體檢索應用體驗輸入一類媒體,返回另一類媒體
輸入文本,返回圖片;輸入圖片,返回文本基礎處理各類媒體信息的集成同時利用圖片自身的圖像信息和圖片周圍的環(huán)繞文字對圖片內(nèi)容進行分析,并建立索引41米歇爾·奧巴馬一群小學生草坪人臉識別與環(huán)繞文字分析相結(jié)合的圖片檢索42搜索引擎對大規(guī)模并行計算的需求計算搜索結(jié)果排序倒排索引生成日志統(tǒng)計和分析并行計算智能挖掘
統(tǒng)計詞頻43云計算當今社會,PC依然是我們?nèi)粘9ぷ魃钪械暮诵墓ぞ咴凇霸朴嬎恪睍r代,“云”會替我們做存儲和計算的工作是一種網(wǎng)絡服務可以在任何地點用任何設備,如電腦、手機等,快速地計算和找到這些資料,再也不用擔心資料丟失Google,Amazon,IBM,Intel都在這方面有所動作阿里云44從自然語言處理入手,提高信息檢索質(zhì)量信息檢索數(shù)據(jù)庫并行處理網(wǎng)絡信息安全數(shù)據(jù)挖掘自然語言處理知識管理操作系統(tǒng)圖像、視頻、語音45百度框計算>>“請給我找出好聽的音樂”個性化用戶需求分析46百度框計算“框計算”到底意味著什么呢,“框計算”到底意味著什么呢?首先,“框”是一個功能強大的需求收集器和分析器其次,由于“框”能在互聯(lián)網(wǎng)可選范圍內(nèi)根據(jù)用戶需求自動匹配最佳的應用和服務,這個“框”又帶有典型的操作系統(tǒng)特性47PowersetPowerset是美國舊金山的一家搜索引擎公司,它的搜索引擎所使用的核心技術自然語言處理技術。這使得Powerset與Google從本質(zhì)上有區(qū)別。48WolframAlphaWolframAlpha是首個“計算知識搜索”引擎,其“父親”為美國計算機科學家史蒂芬·沃爾弗拉姆49WolframAlphaWolframAlpha的工作原理同谷歌網(wǎng)頁搜索有著較大區(qū)別在WolframAlpha服務中,用戶在搜索框鍵入需要查詢的問題后,該搜索引擎將直接向用戶返回答案,而不是返回一大堆網(wǎng)頁鏈接同Powerset的語義搜索一樣,用戶也可在WolframAlpha當中鍵入符合語法意義的問題查詢句子50智能化以自然語言理解技術為基礎的新一代搜索引擎,我們稱之為智能搜索引擎由于它將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,能夠?qū)崿F(xiàn)分詞技術、同義詞技術、詞義消歧、概念搜索以及機器翻譯技術等允許用戶采用自然語言進行信息的檢索,為用戶提供更方便、更確切的搜索服務51個性化個性化趨勢是搜索引擎的一個未來發(fā)展的重要特征和必然趨勢之一通過搜索引擎的社區(qū)化產(chǎn)品(即對注冊用戶提供服務)的方式來組織個人信息分析特定用戶的搜索需求限定的范圍,然后按照用戶需求范圍擴展到互聯(lián)網(wǎng)上其他的同類網(wǎng)站給出最相關的結(jié)果
52個性化用戶需求分析如何理解用戶的搜索意圖當輸入城市名的時候,很可能要找:當?shù)氐木频?、地圖、名勝等;當輸入電影名時,很可能要找:影評、主要演員、在線觀看的地址;當輸入手機型號時,很可能要找:評測對比、性能等;當輸入某些癥狀時,很可能找的是疑似病的特征、原因、治愈方法、專家醫(yī)院等等。需要建立大型的詞匯語義關聯(lián)和領域本體搜索日志和用戶行為的挖掘53IBM沃森54沃森(Watson)"沃森"(Watson)是為了紀念IBM創(chuàng)始人ThomasJ.Watson而取的。IBM開發(fā)沃森旨在完成一項艱巨挑戰(zhàn):建造一個能與人類回答問題能力匹敵的計算系統(tǒng)。這要求其具有足夠的速度、精確度和置信度,并且能使用人類的自然語言回答問題。這一系統(tǒng)沒有連接至互聯(lián)網(wǎng),因此不會通過網(wǎng)絡進行搜索,僅靠內(nèi)存資料庫作答。55超強計算機沃森由90臺IBM服務器、360個計算機芯片驅(qū)動組成,是一個有10臺普通冰箱那么大的計算機系統(tǒng)。它擁有15TB內(nèi)存、2880個處理器、每秒可進行80萬億次運算(這是目前的情況)。這些服務器采用Linux操作系統(tǒng)。IBM為沃森配置的處理器是Power7系列處理器,擁有八個核心、32個線程,主頻最高可達4.1GHz,其二級緩存更是達到了32MB。存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》(WorldBookEncyclopedia)等數(shù)百萬份資料。56Siri57Siri功能Siri是蘋果公司在其產(chǎn)品iphone4S上應用的一項語音控制功能。Siri可以令iPhone4S變身為一臺智能化機器人,利用Siri用戶可以通過手機讀短信、介紹餐廳、詢問天氣、語音設置鬧鐘等。Siri可以支持自然語言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預報、日程安排、搜索資料等應用。還能夠不斷學習新的聲音和語調(diào),提供對話式的應答。58Siri技術總體,人工智能以及云計算前端,面向用戶,和用戶交互的技術,主要是語音識別以及語音合成技術后臺,基本的結(jié)構猜測可能是分析用戶的輸入(已經(jīng)通過語音轉(zhuǎn)化),根據(jù)輸入類型,分別采用合適的技術(合適的技術后臺)進行處理以Google為代表的網(wǎng)頁搜索技術;以WolframAlpha為代表的知識搜索技術(或者知識計算技術);以Wikipedia為代表的知識庫(和WolframAlpha不同的是,這些知識來自人類的手工編輯)技術(包括其他百科,如電影百科等);以Yelp為代表的問答以及推薦技術59社交網(wǎng)絡&實時搜索60社交網(wǎng)絡&實時搜索即時通訊,是微博客的典型應用它允許用戶將自己的最新動態(tài)和想法以短信息的形式發(fā)送給手機和個性化網(wǎng)站群,而不僅僅是發(fā)送給個人2006年,博客技術先驅(qū)創(chuàng)始人埃文·威廉姆斯(EvanWilliams)創(chuàng)建的新興公司Obvious推出了Twitter服務國外:Facebook,Twitter國內(nèi):人人網(wǎng),新浪、騰訊、網(wǎng)易微博等61垂直搜索垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。垂直搜索引擎的應用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進一步細化成各類的垂直搜索引擎
62垂直搜索垂直主題的搜索引擎以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如象股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿意度較高Google宗旨是盡快讓用戶離開google,垂直搜索應該是粘住用戶方式的變化,檢索方法沒有質(zhì)的變化63服務模式由單一向綜合過渡Google的gtalk,gmailMSN的搜索等由通用到專業(yè)垂直搜索由競價排名到封口費一定程度上影響搜索引擎的公正性64IR面臨的挑戰(zhàn)65Web搜索的事實是怎樣的?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國陶瓷臺盆行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國金剛輪磨輪行業(yè)投資前景及策略咨詢研究報告
- 私募基金投資協(xié)議書
- 餐飲門面轉(zhuǎn)讓合同協(xié)議書
- 國際留學合作協(xié)議書
- 商業(yè)地產(chǎn)抵押合同協(xié)議書
- 文化機構人才培養(yǎng)制度設計
- 生物制藥GSP質(zhì)量控制制度
- 民航貴賓服務合同
- 醫(yī)療扶貧制度在偏遠地區(qū)的應用
- 2024年山東濟南新舊動能轉(zhuǎn)換起步區(qū)專職網(wǎng)格員招聘筆試沖刺題(帶答案解析)
- 走進民航智慧樹知到期末考試答案章節(jié)答案2024年中國民航大學
- 項目四任務一《三股辮我會編》(課件)浙教版二年級下冊綜合實踐活動
- 熱力管道閥門井施工方案
- 國家開放大學《理工英語3》章節(jié)測試參考答案
- 智能手機維修技術第二版全套教學課件
- 巴金名著導讀《十年一夢》
- 項目申報書(模板)(高校)
- 教科版五年級科學上冊全冊教學設計
- 三只松鼠客戶關系管理
- XX電站接地裝置的熱穩(wěn)定校驗報告(220kV)
評論
0/150
提交評論