版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息檢索的相關(guān)概念第一頁,共五十頁,2022年,8月28日提綱信息檢索的基本概念
信息檢索的歷史信息檢索和其他學(xué)科的關(guān)系信息檢索的基本流程2第二頁,共五十頁,2022年,8月28日提綱信息檢索的基本概念
信息檢索的歷史信息檢索和其他學(xué)科的關(guān)系信息檢索的基本流程3第三頁,共五十頁,2022年,8月28日信息檢索的基本概念信息檢索產(chǎn)生信息檢索簡介信息檢索概念4第四頁,共五十頁,2022年,8月28日信息檢索的基本概念信息檢索產(chǎn)生信息檢索簡介信息檢索概念5第五頁,共五十頁,2022年,8月28日信息過載(INFORMATIONOVERLOAD)全世界每年產(chǎn)生1到2EB(1EB≈1018B)信息,相當(dāng)于地球上每個人大概產(chǎn)生250MB信息,其中紙質(zhì)信息僅占所有信息的0.3%(Lyman&Hal03)靜態(tài)網(wǎng)頁有上百億,動態(tài)及隱藏網(wǎng)頁至少是靜態(tài)網(wǎng)頁的500倍。TomLandauer認(rèn)為人的大腦只能存儲量,一輩子只能接觸6G的信息量。6第六頁,共五十頁,2022年,8月28日INTERNET增長(1)7第七頁,共五十頁,2022年,8月28日INTERNET增長(2)8第八頁,共五十頁,2022年,8月28日全球數(shù)字化進(jìn)程加快1998年,美國前副總統(tǒng)戈爾提出數(shù)字化地球的概念。1998年,江澤民總書記提出數(shù)字中國戰(zhàn)略構(gòu)想。1999年,北京市市長劉淇提出數(shù)字北京概念。全世界啟動了數(shù)字圖書館、數(shù)字博物館在內(nèi)的一系列工程,另外包括虛擬博物館、數(shù)字電影、交互電視、會議電視、遠(yuǎn)程教育、遙感、GPS等在內(nèi)的服務(wù)或應(yīng)用也產(chǎn)生大量文本和多媒體數(shù)據(jù)。9第九頁,共五十頁,2022年,8月28日問題!一方面,人們可以獲得的信息的來源非常廣泛。另一方面,人們?nèi)绾慰焖?、?zhǔn)確、全面地獲得自己所需要的信息?非常困難!信息量太大,而且信息冗余度大、質(zhì)量良莠不齊、格式不一、位置分散、關(guān)聯(lián)復(fù)雜、語言繁多用戶需求的表達(dá)和理解非常困難信息的理解非常困難— 自然語言文本、圖片、視頻10第十頁,共五十頁,2022年,8月28日11信息檢索是研究如何解決上述問題的一門學(xué)科!
IR系統(tǒng)用戶需求相關(guān)結(jié)果第十一頁,共五十頁,2022年,8月28日信息檢索的基本概念信息檢索產(chǎn)生信息檢索簡介信息檢索概念12第十二頁,共五十頁,2022年,8月28日信息檢索
信息檢索簡介(1)InformationRetrieval這個術(shù)語產(chǎn)生于CalvinMooers1948年在MIT的碩士論文。InformationRetrieval(IR):從文檔集合中返回滿足用戶需求的相關(guān)信息的過程。作為一門學(xué)科,是研究信息的獲(acquisition表示 (representation)、存(storage)、組織 (organization)和訪問 (access)的一門學(xué)問。13第十三頁,共五十頁,2022年,8月28日信息檢索簡介(2)信息檢索可以看成計算機科學(xué)Science)和圖書情報學(xué)的交叉學(xué)科。(Computer(Library&Info.Science)以計算機為手段,處理信息對象和其他學(xué)科也融合:語言學(xué)、認(rèn)知科學(xué)等檢索來自英文單詞 Retrieval,有些人把它翻譯成獲取。其本義是“獲得與輸入要求相匹配的輸出”。和我們平時所理解的搜索意義上的檢索不一樣。14第十四頁,共五十頁,2022年,8月28日信息檢索簡介(3)IR不僅僅是搜索,IR系統(tǒng)也不僅僅是搜索引擎。例1:返回與信息檢索相關(guān)的網(wǎng)頁→搜索引擎(SearchEngine,SE)例2:毛主席的生日是哪天?→問答系統(tǒng)(QuestionAnswering,QA)例3:返回聯(lián)想PC的型號、配置、價格等信息信息抽取(InformationExtraction,IE)例4:訂閱有關(guān)NBA的新聞信息過濾(InformationFiltering)、信息推薦也可以這樣說,狹義的IR通常是指InformationSearch,而廣義的IR包含非常多的內(nèi)容 (SE,QA,Search,IE等)。本課程介紹的是廣義的IR.第十五頁,共五十頁,2022年,8月28日信息檢索的基本概念信息檢索產(chǎn)生信息檢索簡介信息檢索中的基本概念16第十六頁,共五十頁,2022年,8月28日信息檢索中的基本概念—用戶需求用戶需求(UserNeed,UN):用戶需要獲得的信息.嚴(yán)格地說,UN只存在于用戶的內(nèi)心,但是通常用文本嚴(yán)格地說,UN只存在于用戶的內(nèi)心,但是通常用文本來描述,如查找與2006世界杯相關(guān)的新聞,有時也稱為主題(Topic)UN提交給檢索系統(tǒng)時稱為查詢(Query),如2006世界杯,對同一個UN,不同人不同時候可以構(gòu)造出不同的Query,比如上述需求也可表示成2006世界杯新聞,Query在IR系統(tǒng)中往往還有內(nèi)部表示17第十七頁,共五十頁,2022年,8月28日信息檢索中的基本概念—文檔與文檔集文檔(Document):檢索的對象可以是文本,也可以是圖像、視頻、語音等多媒體文檔,textretrieval/imageretrieval/videoretrieval/speechretrieval/multimediaretrieval可以是無格式、半格式、有格式的文檔集合(Collection):所有待檢索的文檔構(gòu)成的集合也稱為Repository,Corpus18第十八頁,共五十頁,2022年,8月28日信息檢索的基本概念—相關(guān)度相關(guān)(relevant、相關(guān)度relevance)相關(guān)取決于用戶的判斷,是一個主觀概念不同用戶做出的判斷很難保證一致.即使是同一用戶在不同時期、不同環(huán)境下做出的判斷也不盡相同19第十九頁,共五十頁,2022年,8月28日信息檢索的基本概念—相關(guān)度(續(xù))定義“相關(guān)性”的兩個角度:系統(tǒng)角度:系統(tǒng)輸出結(jié)果,用戶是信息的接受者。這種理解置用戶于被動的地位,基于這種理解,研究的重心落在系統(tǒng)本身。主題相關(guān)性:檢索系統(tǒng)檢出的文檔的主題即核心內(nèi)容與用戶的信息需求相匹配。系統(tǒng)角度相關(guān)并不和用戶脫節(jié)。系統(tǒng)角度定義的相關(guān)簡單可以計算。用戶角度:觀察用戶對檢索結(jié)果的反應(yīng),是系統(tǒng)輸出向用戶需求的投射。相關(guān)性被認(rèn)為是用戶方面的屬性。用戶角度定義的相關(guān)目前仍然難以計算?,F(xiàn)代信息檢索研究中仍然主要采用系統(tǒng)角度定義的主題相關(guān)性概念,當(dāng)然也強調(diào)考慮用戶的認(rèn)知因素。20第二十頁,共五十頁,2022年,8月28日信息檢索的基本概念—相關(guān)度(續(xù))21第二十一頁,共五十頁,2022年,8月28日信息檢索的基本概念—相關(guān)度(續(xù))形式上說,信息檢索中的相關(guān)度是一個函數(shù)R,輸入是查詢Q、文檔D和文檔集合C,返回的是一個實數(shù)值R=f(Q,D,C)信息檢索就是給定一個查詢Q,從文檔集合C中計算每篇文檔D與Q的相關(guān)度并排序(Ranking)。相關(guān)度通常只有相對意義,對一個Q,不同文檔的相關(guān)度可以比較,而對于不同的Q的相關(guān)度不便比較相關(guān)度的輸入信息可以更多,比如用戶的背景信息、用戶的查詢歷史等等現(xiàn)代信息檢索中相關(guān)度不是唯一度量,如還有:重要度、權(quán)威度、新穎度等度量?;蛘哒f這些因子都影響Google中據(jù)說用了上百種排名因子22第二十二頁,共五十頁,2022年,8月28日信息檢索的基本概念--信息檢索和數(shù)據(jù)庫檢索23
近年來,隨著XML的出現(xiàn),兩種檢索已經(jīng)逐漸融合,邊界越來越不明顯。第二十三頁,共五十頁,2022年,8月28日信息檢索課程介紹本文將主要介紹面向文本對象的檢索,即文本檢索(textretrieval)。文本是人們表達(dá)知識(論文)、交流(口語)的最常用的形式。文本可以用于描述其他媒體。其他媒體形式的檢索的方法往往借鑒自文本檢索。信息檢索的兩種研究方式:以計算機為中心:IR的工作主要是建立索引、對用戶查詢進(jìn)行處理、排序算法等等以用戶為中心:IR的主要工作是考察用戶的行為、理解用戶的需求、這些行為和需求如何影響檢索系統(tǒng)的組織本課程主要研究以計算機為中心的IR問題,目前是主流24第二十四頁,共五十頁,2022年,8月28日提綱信息檢索的基本概念信息檢索的歷史信息檢索和其他學(xué)科的關(guān)系信息檢索的基本流程25第二十五頁,共五十頁,2022年,8月28日歷史分段計算機出現(xiàn)以前計算機出現(xiàn)以后Internet出現(xiàn)以后26第二十六頁,共五十頁,2022年,8月28日IR歷史--計算機出現(xiàn)以前計算機出現(xiàn)以前:約4000年前,人類就開始有目的地組織信息,一個典型的例子就是圖書中的目錄。隨后,逐漸出現(xiàn)索引的概念,即從一些詞和概念指向相關(guān)信息或者文檔的指針。計算機問世以前,人們主要通過手工方式來建立索引。27第二十七頁,共五十頁,2022年,8月28日IR歷史--計算機出現(xiàn)以后1948:C.N.Mooers在其MIT的碩士論文中第一次創(chuàng)造了“Information
Retrieval”這個術(shù)語。1960-70年代:人們開始使用計算機為一些小規(guī)??萍己蜕虡I(yè)文獻(xiàn)的摘要建立文本檢索系統(tǒng)。產(chǎn)生了布爾模型(BooleanModel)、向量空間模型(VectorSpaceModel)和概率檢索模型(ProbabilisticModel)??的螤柎髮W(xué)的Salton領(lǐng)導(dǎo)的研究小組是該領(lǐng)域研究的佼佼者。倫敦城市大學(xué)的Robertson及劍橋大學(xué)的SparckJones是概率模型的倡導(dǎo)者。28第二十八頁,共五十頁,2022年,8月28日IR歷史--計算機出現(xiàn)以后(續(xù))1980年代:出現(xiàn)了一些商用的較大規(guī)模數(shù)據(jù)庫檢索系統(tǒng)Lexis-NexisDialogMEDLINE29第二十九頁,共五十頁,2022年,8月28日IR歷史--INTERNET出現(xiàn)以后1986:Internet正式形成1990’s:第一個網(wǎng)絡(luò)搜索工具:1990年加拿大蒙特利爾大學(xué)開發(fā)的FTP搜索工具Archie第一個WEB搜索引擎:1994年美國CMU開發(fā)的Lycos1995:斯坦福大學(xué)博士生開發(fā)的Yahoo1998:斯坦福大學(xué)博士生開發(fā)的Google,提出PageRank計算公式。1998:基于語言模型的IR模型提出。30第三十頁,共五十頁,2022年,8月28日IR歷史--INTERNET出現(xiàn)以后(續(xù)1)1990年代的其他重要事件:評測會議NISTTREC推薦系統(tǒng)的出現(xiàn)RingoAmazonNetPerceptions文本分類和聚類的使用31第三十一頁,共五十頁,2022年,8月28日IR歷史--INTERNET出現(xiàn)以后(續(xù)2)2000’s信息抽取WhizbangFetchBurningGlass問答系統(tǒng)TRECQ/Atrack2001年,百度成立32第三十二頁,共五十頁,2022年,8月28日IR歷史--INTERNET出現(xiàn)以后(續(xù)3)2000以來的其他重要事件:多媒體IRImageVideoAudioandmusic跨語言IRDARPATides文本摘要DUC評測33第三十三頁,共五十頁,2022年,8月28日提綱信息檢索的基本概念信息檢索的歷史信息檢索和其他學(xué)科的關(guān)系信息檢索的基本流程34第三十四頁,共五十頁,2022年,8月28日相關(guān)研究領(lǐng)域圖書情報學(xué)(Library&Info.Science)數(shù)據(jù)庫管理(DatabaseManagement)人工智能(ArtificialIntelligence)自然語言處理(NaturalLanguageProcessing)機器學(xué)習(xí)(MachineLearning)35第三十五頁,共五十頁,2022年,8月28日圖書情報學(xué)(LIBRARYAND
INFORMATIONSCIENCE,LIS)IR最初起源于LISLIS主要關(guān)注IR中的用戶方(人機交互、用戶界面、可視化)LIS關(guān)注人類只是的高效分類LIS關(guān)注文獻(xiàn)的引用分析(citationanalysis)和文獻(xiàn)計量(bibliometrics)近年來數(shù)字圖書館方面的工作使得LIS和IR日益融合。36第三十六頁,共五十頁,2022年,8月28日數(shù)據(jù)庫管理系統(tǒng)(DATABASE
MANAGEMENT,DM)DM主要面向關(guān)系表中的結(jié)構(gòu)化數(shù)據(jù)而非自由文本。DM主要集中于高效解決形式化語言(如SQL)定義的查詢。DM中不論是查詢還是數(shù)據(jù)都具有明確的語義。近年來半結(jié)構(gòu)化的XML數(shù)據(jù)的出現(xiàn)使DM和IR逐漸融合37第三十七頁,共五十頁,2022年,8月28日人工智能(ARTIFICIALINTELLIGENCE,AI)AI關(guān)注知識的表示、推理和智能行為。AI中知識的形式化表示一階謂詞邏輯(FirstOrderPredicateLogic)貝葉斯網(wǎng)絡(luò)(BayesianNetworks)近年來Web本體及智能信息Agen方面研究使得IR和AI相互融合。38第三十八頁,共五十頁,2022年,8月28日自然語言理解(NATURALLANGUAGE
PROCESSING,NLP)NLP關(guān)注自然語言文本的語法(syntactic)、語義(semantic)及語用(pragmatic)分析。NLP可以分析短語結(jié)構(gòu)和語義,使得IR可以在短語上、或者從語義上進(jìn)行處理,而不是僅僅基于單個關(guān)鍵詞。NLP和IR天生就是融合的。39第三十九頁,共五十頁,2022年,8月28日NLP和IR融合的其他方面
通過上下文詞義消歧(wordsensedisambiguation)來確定一個詞在某個特定上下文的語義。通過一些NLP方法來獲得文檔中的一個語言片斷(informationextraction).通過NLP方法可以從文檔集合中返回一些問題的答案(questionanswering)40第四十頁,共五十頁,2022年,8月28日機器學(xué)習(xí)(MACHINELEARNING,ML)ML關(guān)注通過對經(jīng)驗的學(xué)習(xí)來提高計算機系統(tǒng)的性能。從標(biāo)注好的例子中學(xué)習(xí)相關(guān)概念,然后進(jìn)行自動分類(有監(jiān)督的學(xué)習(xí),supervisedlearning)將未標(biāo)注的例子自動聚集到有意義的不同集合中(無監(jiān)督的學(xué)習(xí),unsupervisedlearning).41第四十一頁,共五十頁,2022年,8月28日ML和IR融合的方面文本分類(TextCategorization)自動層次分類(如Yahoo目錄)自適應(yīng)過濾或推薦(Adaptivefiltering/recommending)垃圾過濾(Spamfiltering)文本聚類(TextClustering)IR結(jié)果的自動聚類層次型類別體系的自動構(gòu)建(如Yahoo).42第四十二頁,共五十頁,2022年,8月28日提綱信息檢索的基本概念信息檢索的歷史信息檢索和其他學(xué)科的關(guān)系信息檢索的基本流程43第四十三頁,共五十頁,2022年,8月28日IR系統(tǒng)示意圖44第四十四頁,共五十頁,2022年,8月28日IR系統(tǒng)的組成框架45第四十五頁,共五十頁,2022年,8月28日IR系統(tǒng)的組成部分(1)用戶接口(UserInterface):用戶和IR系統(tǒng)的人機接口輸入查詢(Query)返回排序后的結(jié)果文檔(RankedDocs)并對其進(jìn)行可視化(Visualization)支持用戶進(jìn)行相關(guān)反饋(Feedback)用戶的兩種任務(wù):retrieval或者browsingIR的兩種模式:pull(adhoc)或者push(filtering)Pull:用戶是主動的發(fā)起請求,在一個相對穩(wěn)定的數(shù)據(jù)集合上進(jìn)行查詢Push:用戶事先定義自己的興趣,系統(tǒng)在不斷到來的流動數(shù)據(jù)上進(jìn)行操作,將滿足用戶興趣的數(shù)據(jù)推送給用戶46第四十六頁,共五十頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度房屋抵押貸款風(fēng)險評估與風(fēng)險控制合同2篇
- 2025年度木材市場木材加工企業(yè)木方板材采購合同規(guī)范2篇
- 2025版二零二五門店租賃合同:文化創(chuàng)意空間合作協(xié)議4篇
- 哺乳期乳腺炎鄭長花講解
- 2025年度金融機構(gòu)外匯擔(dān)保業(yè)務(wù)風(fēng)險管理合同
- 2025版并購重組項目財務(wù)顧問服務(wù)合同3篇
- 2025年度個性化家庭食材采購合同(全新升級)3篇
- 2025年度旅游民宿租賃合同合法經(jīng)營推動鄉(xiāng)村旅游發(fā)展4篇
- 二零二五年度倉儲外包服務(wù)合同樣本(2025年度)12篇
- 2025版電子商務(wù)平臺空商鋪租賃合同細(xì)則
- 2024版塑料購銷合同范本買賣
- 2024-2025學(xué)年人教新版高二(上)英語寒假作業(yè)(五)
- JJF 2184-2025電子計價秤型式評價大綱(試行)
- GB/T 44890-2024行政許可工作規(guī)范
- 2024年安徽省中考數(shù)學(xué)試卷含答案
- 2025屆山東省德州市物理高三第一學(xué)期期末調(diào)研模擬試題含解析
- 2024年滬教版一年級上學(xué)期語文期末復(fù)習(xí)習(xí)題
- 兩人退股協(xié)議書范文合伙人簽字
- 2024版【人教精通版】小學(xué)英語六年級下冊全冊教案
- 汽車噴漆勞務(wù)外包合同范本
- 微項目 探討如何利用工業(yè)廢氣中的二氧化碳合成甲醇-2025年高考化學(xué)選擇性必修第一冊(魯科版)
評論
0/150
提交評論