




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
互聯(lián)網(wǎng)應(yīng)用技術(shù)概論第1頁(yè)/共61頁(yè)2自我介紹主講老師:王斌,中科院計(jì)算所博士畢業(yè),副研究員,博士生導(dǎo)師?,F(xiàn)為中科院計(jì)算所前瞻研究實(shí)驗(yàn)室信息檢索課題組負(fù)責(zé)人。北大軟件學(xué)院兼職教師。先后從事和承擔(dān)信息檢索、自然語(yǔ)言處理相關(guān)的國(guó)家級(jí)研發(fā)項(xiàng)目10余項(xiàng),發(fā)表相關(guān)論文100余篇。培養(yǎng)研究生20余名。計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,ACM、IEEE、中文信息學(xué)會(huì)會(huì)員,中文信息學(xué)會(huì)信息檢索專委會(huì)委員,《中文信息學(xué)報(bào)》編委。/~wangbin/
wangbin@辦公電話:62601350第2頁(yè)/共61頁(yè)3提綱互聯(lián)網(wǎng)應(yīng)用的例子基于內(nèi)容的互聯(lián)網(wǎng)應(yīng)用的基本技術(shù)搜索技術(shù)信息分類和聚類技術(shù)信息過(guò)濾和推薦技術(shù)考核方法第3頁(yè)/共61頁(yè)4提綱互聯(lián)網(wǎng)應(yīng)用的例子基于內(nèi)容的互聯(lián)網(wǎng)應(yīng)用的基本技術(shù)搜索技術(shù)信息分類和聚類技術(shù)信息過(guò)濾和推薦技術(shù)考核方法第4頁(yè)/共61頁(yè)5搜索引擎搜索推薦推薦第5頁(yè)/共61頁(yè)6更多的搜索引擎第6頁(yè)/共61頁(yè)7GoogleKiller?2009-05-18推出2008-07-28推出第7頁(yè)/共61頁(yè)8Email搜索分類第8頁(yè)/共61頁(yè)9Email分類搜索推薦第9頁(yè)/共61頁(yè)10分類目錄搜索分類第10頁(yè)/共61頁(yè)11電子商務(wù)推薦第11頁(yè)/共61頁(yè)12BBS推薦搜索第12頁(yè)/共61頁(yè)13社區(qū)網(wǎng)站-豆瓣網(wǎng)推薦推薦搜索第13頁(yè)/共61頁(yè)14社區(qū)網(wǎng)站--校內(nèi)網(wǎng)第14頁(yè)/共61頁(yè)15博客推薦第15頁(yè)/共61頁(yè)16以上應(yīng)用的共同特征基于內(nèi)容的應(yīng)用內(nèi)容是互聯(lián)網(wǎng)應(yīng)用的生命線包括幾個(gè)主要共同的技術(shù)搜索分類/聚類過(guò)濾/推薦第16頁(yè)/共61頁(yè)17提綱互聯(lián)網(wǎng)應(yīng)用的例子基于內(nèi)容的互聯(lián)網(wǎng)應(yīng)用的基本技術(shù)搜索技術(shù)信息分類和聚類技術(shù)信息過(guò)濾和推薦技術(shù)考核方法第17頁(yè)/共61頁(yè)18搜索(Search)搜索:從大量文檔(Document)集合(Collection)中根據(jù)用戶的需求(UserInformationNeed)返回相關(guān)(Relevant)文檔集合并排序(Ranking)的應(yīng)用。主要特點(diǎn):用戶的需求動(dòng)態(tài)變化,文檔集合相對(duì)靜態(tài)事先下載,事先組織,在線搜索應(yīng)用例子:搜索引擎站內(nèi)搜索第18頁(yè)/共61頁(yè)19搜索技術(shù)信息的獲取技術(shù)信息的組織和整理技術(shù)相關(guān)度計(jì)算和排序技術(shù)結(jié)果呈現(xiàn)技術(shù)相關(guān)反饋、查詢擴(kuò)展技術(shù)搜索的評(píng)估第19頁(yè)/共61頁(yè)20搜索系統(tǒng)的組成框架文檔集合管理器索引文檔表示查詢處理查找排序排序文檔用戶反饋文本處理用戶界面結(jié)果文檔查詢文本查詢表示爬蟲Internet第20頁(yè)/共61頁(yè)21信息分類(Classification)信息分類:根據(jù)已有的類別體系(如:體育、經(jīng)濟(jì)、軍事…)和訓(xùn)練文檔(每個(gè)類別對(duì)應(yīng)若干文檔),對(duì)一篇新的文檔判斷其所屬類別。屬于有監(jiān)督的機(jī)器學(xué)習(xí)主要特點(diǎn):類別體系靜態(tài),但是需要分類的文檔動(dòng)態(tài)變化事先訓(xùn)練,在線分類需要大量訓(xùn)練文檔集合應(yīng)用例子:垃圾郵件/網(wǎng)頁(yè)分類第21頁(yè)/共61頁(yè)22第22頁(yè)/共61頁(yè)23信息聚類(Clustering)聚類:從大量文檔集合中自動(dòng)聚團(tuán)的過(guò)程,屬于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)主要特點(diǎn):事先無(wú)類別體系需要事后進(jìn)行解釋應(yīng)用例子:檢索結(jié)果聚類話題發(fā)現(xiàn)第23頁(yè)/共61頁(yè)24第24頁(yè)/共61頁(yè)25文本分類系統(tǒng)的組成框架文本表示訓(xùn)練過(guò)程分類過(guò)程訓(xùn)練文本統(tǒng)計(jì)統(tǒng)計(jì)量特征表示學(xué)習(xí)分類器新文本特征表示類別第25頁(yè)/共61頁(yè)26信息過(guò)濾信息過(guò)濾:從動(dòng)態(tài)的信息流中將滿足用戶興趣的信息挑選出來(lái),用戶的興趣一般在較長(zhǎng)一段時(shí)間內(nèi)比較穩(wěn)定不會(huì)改變(靜態(tài))。主要特點(diǎn):用戶興趣靜態(tài),數(shù)據(jù)動(dòng)態(tài)對(duì)用戶興趣建模應(yīng)用例子:廣告推薦/商品推薦第26頁(yè)/共61頁(yè)27信息過(guò)濾系統(tǒng)的組成框架(d)學(xué)習(xí)器用戶信息提供者(b)過(guò)濾器(a)數(shù)據(jù)分析器(c)用戶建模更新反饋相關(guān)數(shù)據(jù)項(xiàng)數(shù)據(jù)表示項(xiàng)數(shù)據(jù)項(xiàng)個(gè)人信息用戶模型第27頁(yè)/共61頁(yè)28提綱互聯(lián)網(wǎng)應(yīng)用的例子基于內(nèi)容的互聯(lián)網(wǎng)應(yīng)用的基本技術(shù)搜索技術(shù)信息分類和聚類技術(shù)信息過(guò)濾和推薦技術(shù)考核方法第28頁(yè)/共61頁(yè)29考核方法技術(shù)專題討論(20%)學(xué)生分小組,選定一技術(shù)專題,共同讀資料學(xué)習(xí)技術(shù),并在課上交流。閱讀(30%)閱讀1篇論文SIGIR2008/2009,針對(duì)每篇文章寫出至少閱讀報(bào)告(含評(píng)論)評(píng)論要有自己的見解,不要簡(jiǎn)單翻譯原文的摘要和結(jié)論評(píng)論主要著眼于文章的主要?jiǎng)?chuàng)新點(diǎn)和對(duì)自己?jiǎn)l(fā)最大的地方,以及可能的下一步研究工作課程項(xiàng)目(50%)2到3名同學(xué)一組完成可以演示的具有一定創(chuàng)新的課堂項(xiàng)目可從建議的項(xiàng)目列表中選項(xiàng)目,也可自己擬定項(xiàng)目(但需要與任課教師協(xié)商,取得任課教師的認(rèn)可)。第29頁(yè)/共61頁(yè)30論文閱讀ACMSIGIRConference第30頁(yè)/共61頁(yè)31課程項(xiàng)目(一)、檢索型:(1)垂直搜索:選擇2個(gè)或以上的餐館網(wǎng)站進(jìn)行爬行(餐館記錄不少于5000條),實(shí)現(xiàn)基于關(guān)鍵詞的餐館搜索,爬蟲能夠及時(shí)更新。(2)論文搜索:下載全部SIGIR論文,實(shí)現(xiàn)對(duì)論文的標(biāo)題、摘要及全文的搜索,并實(shí)現(xiàn)論文之間的關(guān)系鏈接圖,分析作者的共現(xiàn)關(guān)系并以圖的方式顯示。(3)桌面搜索:能夠?qū)崿F(xiàn)本機(jī)PPT文件的抽取及搜索,不少于1000篇PPT文件。能夠自動(dòng)抽取PPT的標(biāo)題、目錄等信息。第31頁(yè)/共61頁(yè)32課程項(xiàng)目(續(xù))(二)、文本分類型:(1)文本分類:分類體系為:財(cái)經(jīng)、科技、汽車、房產(chǎn)、體育、娛樂(lè)、其它類,利用網(wǎng)站的新聞主頁(yè),訓(xùn)練一個(gè)分類器(訓(xùn)練集合不能少于2000篇文檔)。能夠?qū)崿F(xiàn)新的網(wǎng)頁(yè)的分類。(2)文本傾向性分析:下載餐館的評(píng)論信息進(jìn)行訓(xùn)練,最后對(duì)餐館的評(píng)論進(jìn)行文本傾向性分析,分析對(duì)餐館的評(píng)價(jià)(包括總評(píng)和細(xì)評(píng),細(xì)評(píng)包括價(jià)格、味道、環(huán)境三個(gè)方面)是褒還是貶。(3)層次分類:PascalChallengeonLargeScaleHierarchicalTextClassification,http://lshtc.iit.demokritos.gr/node/1。提交ShortPaper。時(shí)間表:Startoftesting:July10,2009.Endoftesting,submissionofexecutables:November16,2009.Endofscalabilitytestandannouncementofresults:December14,2009.Submissionofshortpapers:December21,2009.第32頁(yè)/共61頁(yè)33課程項(xiàng)目(續(xù))(三)、其他型:(1)、問(wèn)答系統(tǒng):實(shí)現(xiàn)奧運(yùn)知識(shí)的問(wèn)答系統(tǒng)。奧運(yùn)知識(shí)不少于1萬(wàn)條語(yǔ)句或記錄。(2)、歌曲檢索:通過(guò)哼曲調(diào)的方法實(shí)現(xiàn)mp3歌曲的檢索。mp3歌曲不少于200個(gè)。(3)廣告搜索:搜集不少于1000個(gè)廣告,實(shí)現(xiàn)對(duì)它們的搜索,搜索時(shí)不止是關(guān)鍵詞匹配。(四)、自選型:學(xué)生可以自行設(shè)計(jì)和選擇本課程相關(guān)的其他題目,但是需要經(jīng)過(guò)任課老師同意。第33頁(yè)/共61頁(yè)34為什么要開這門課?互聯(lián)網(wǎng)內(nèi)容應(yīng)用的核心技術(shù)是信息檢索技術(shù)第34頁(yè)/共61頁(yè)35市場(chǎng)發(fā)展的需求用戶需要信息檢索技術(shù):互聯(lián)網(wǎng)的信息量太大、噪音太多,尋找所需要的信息非常不容易公司需要信息檢索技術(shù):搜索引擎改變了很多傳統(tǒng)的生活方式,Yahoo、Google、Baidu,還有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到這個(gè)搜索技術(shù)的競(jìng)爭(zhēng)。不只是搜索引擎才需要信息檢索技術(shù),電子商務(wù)(如亞馬遜網(wǎng)站、阿里巴巴)、數(shù)字圖書館工程等都需要信息檢索技術(shù)人才的競(jìng)爭(zhēng):搜索相關(guān)人才人數(shù)出現(xiàn)缺口,他們非常搶手,待遇如日中天是不是泡沫:2000年左右出現(xiàn)的網(wǎng)絡(luò)泡沫和現(xiàn)在的互聯(lián)網(wǎng)有什么不同,搜索引擎在其中占什么位置?第35頁(yè)/共61頁(yè)36幾個(gè)應(yīng)用需求手機(jī)搜索產(chǎn)品搜索專利搜索廣告推薦消費(fèi)行為分析網(wǎng)絡(luò)評(píng)論分析SEO營(yíng)銷……第36頁(yè)/共61頁(yè)37對(duì)相關(guān)專業(yè)研究生的基本要求信息檢索技術(shù)是內(nèi)容應(yīng)用特別是互聯(lián)網(wǎng)內(nèi)容應(yīng)用的核心技術(shù),可以說(shuō)在這些應(yīng)用中無(wú)處不在信息檢索將會(huì)成為一門計(jì)算機(jī)專業(yè)的基礎(chǔ)學(xué)科搜索(狹義的信息檢索)的三個(gè)層次(個(gè)人觀點(diǎn))第37頁(yè)/共61頁(yè)38應(yīng)用層次:搜索是一項(xiàng)非常重要的應(yīng)用!第38頁(yè)/共61頁(yè)39中間層次:搜索是極其重要的API第39頁(yè)/共61頁(yè)40www.G第40頁(yè)/共61頁(yè)41介紹一本有趣的書!第41頁(yè)/共61頁(yè)42核心層次:搜索是未來(lái)操作系統(tǒng)的重要組成部分!第42頁(yè)/共61頁(yè)43相關(guān)研究人物和資源第43頁(yè)/共61頁(yè)44國(guó)際著名研究機(jī)構(gòu)和代表人物美國(guó)康奈爾大學(xué)Salton(1927-1995)現(xiàn)代信息檢索的奠基人SMART的完成人第一任Salton獎(jiǎng)得主,ACMFellow英國(guó)劍橋大學(xué)SparckJones(1935-2007)概率檢索模型的提出者之一NLP和IR中的先輩曾獲ACL終身成就獎(jiǎng)和Salton獎(jiǎng)第44頁(yè)/共61頁(yè)45國(guó)際著名研究機(jī)構(gòu)和代表人物美國(guó)UMassCIIRW.B.Croft,ACMFellow基于統(tǒng)計(jì)語(yǔ)言建模IR模型的提出者和倡導(dǎo)者和CMU共同開發(fā)了Lemur工具Salton獎(jiǎng)得主英國(guó)Glasgow大學(xué)Rijsbergen,ACMFellow信息檢索邏輯推理學(xué)派的提出者和倡導(dǎo)者現(xiàn)在試圖用量子物理的方法解決IR問(wèn)題Salton獎(jiǎng)得主英國(guó)微軟劍橋研究院、倫敦城市大學(xué)Robertson概率檢索模型的倡導(dǎo)者開發(fā)了OKAPISalton獎(jiǎng)得主第45頁(yè)/共61頁(yè)46第46頁(yè)/共61頁(yè)47第47頁(yè)/共61頁(yè)48國(guó)際著名研究機(jī)構(gòu)和代表人物美國(guó)CMU美國(guó)UIUC微軟研究院IBM研究院Google研究院Yahoo研究院第48頁(yè)/共61頁(yè)49一些活躍的華裔學(xué)者加拿大蒙特利爾大學(xué)聶建云教授跨語(yǔ)言檢索IR模型美國(guó)UIUCChengxiangZhai博士IR模型美國(guó)CMUYimingYang教授文本分類第49頁(yè)/共61頁(yè)50一些活躍的華裔學(xué)者臺(tái)灣中研院簡(jiǎn)立峰號(hào)稱“中文搜索”第一人加入Google研究院第50頁(yè)/共61頁(yè)51國(guó)內(nèi)一些相關(guān)研究機(jī)構(gòu)北京大學(xué)復(fù)旦大學(xué)清華大學(xué)哈爾濱工業(yè)大學(xué)上海交通大學(xué)中科院計(jì)算所中科院軟件所中科院自動(dòng)化所……第51頁(yè)/共61頁(yè)52重要會(huì)議國(guó)際會(huì)議(COLING2010、SIGIR2011將在北京舉行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTRECAIRS、ECIR國(guó)內(nèi)會(huì)議:全國(guó)信息檢索學(xué)術(shù)會(huì)議(1年一屆,下半年今年11月在上海交大舉行)全國(guó)計(jì)算語(yǔ)言學(xué)聯(lián)合會(huì)議(2年一屆)搜索引擎和WEB挖掘?qū)W術(shù)會(huì)議(1年一屆,上半年)第52頁(yè)/共61頁(yè)53ACMSIGIRACM:美國(guó)計(jì)算機(jī)學(xué)會(huì)SIGIR:specialinterestgrouponinformationretrieval,特定興趣組ACMSIGIRConference:IR領(lǐng)域的最重要會(huì)議,起始于1971年,2009年是第31屆。第53頁(yè)/共61頁(yè)54IR及相關(guān)研究領(lǐng)域重要會(huì)議ACMSIGIRVLDB,PODS,ICDEASISLearning/MiningNLPApplicationsStatisticsSoftware/systemsCOLING,EMNLP,ANLPHLTNIPS,UAIRECOMB,PSBJCDLInfo.ScienceInfoRetrievalACMCIKMDatabasesACMSIGMODACLICMLAAAIACMSIGKDDISMBWWWSOSPOSDITREC第54頁(yè)/共61頁(yè)55重要期刊國(guó)際:ACMTransactionsonInformationSystems(TOIS)ACMTransactionsonAsianLanguageInformationProcessing(TALIP)InformationProcessing&Management(IP&M)InformationRetrieval國(guó)內(nèi)中文信息學(xué)報(bào)情報(bào)學(xué)報(bào)第55頁(yè)/共61頁(yè)56重要工具Lemur:包含各種IR模型的實(shí)驗(yàn)平臺(tái),C++SMART:向量空間模型工具,C編寫Weka:分類工具,Java編寫Lucene:開源檢索工具,各種語(yǔ)言編寫的版本Larbin:采集工具,C++Firtex:檢索平臺(tái),C++,計(jì)算所開發(fā)第56頁(yè)/共61頁(yè)57參考書籍及文獻(xiàn)ChristopherD.Manning,PrabhakarRaghavan&HinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress2008Electronicversion(draft)canbedownloadedfrom/~hinrich/information-retrieval-book.html
Baeza-Yates,R.&B.Ribeiro-Neto.eds.ModernInformationRetrieval.ACMPress,19
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 2773-2025寧鄉(xiāng)豬
- 電力放線盤施工方案
- 渠道襯砌施工方案
- 污水管道施工方案
- 2025年度智能交通管理系統(tǒng)上班勞動(dòng)合同
- 二零二五年度商業(yè)廣場(chǎng)特色商業(yè)街區(qū)租賃與物業(yè)管理合同
- 二零二五年度文藝演出青少年藝術(shù)培訓(xùn)合作協(xié)議
- 二零二五年度金融風(fēng)險(xiǎn)評(píng)估風(fēng)險(xiǎn)承擔(dān)合同
- 二零二五年度個(gè)體飯店承包及食品安全追溯合同
- 鋼結(jié)構(gòu)工程人才培養(yǎng)與交流合同范文(2025年度)
- 中國(guó)高血壓防治指南(2024年修訂版)
- 現(xiàn)場(chǎng)物資安全管理
- 蔬菜種植基地管理手冊(cè)
- 2024解析:第二十章電與磁-講核心(解析版)
- 2023年會(huì)計(jì)基礎(chǔ)各章節(jié)習(xí)題及答案
- 《中小學(xué)教師人工智能素養(yǎng)框架與實(shí)踐路徑研究》專題講座
- DB4101T 25.2-2021 物業(yè)服務(wù)規(guī)范 第2部分:住宅
- 舞臺(tái)設(shè)計(jì)課件教學(xué)課件
- 六年級(jí)數(shù)學(xué)下冊(cè) 負(fù)數(shù)練習(xí)題(人教版)
- 2024-2030年中國(guó)康復(fù)醫(yī)院行業(yè)管理模式分析及發(fā)展規(guī)劃研究報(bào)告
- 斐訊PSG1218路由器的上網(wǎng)設(shè)置教程
評(píng)論
0/150
提交評(píng)論