




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、Web 圖與 Crawling Web Graph的性質(zhì) 大小,連接性,結構 Size = Sa/( nO/nb) 200 million nodes & 1.5 billion links Some parts un reachable, Others have long paths found Bow-tie Structure Power law network (scale-free network) 重尾分布(heavy tail,長尾)是:度大的節(jié)點(網(wǎng)頁)概率小,但很多,并 不能忽略。 對數(shù)尺度下為一斜線 Small world network Diameter of graph
2、 is small (log N) as compared to overall size Empirical study of Web-graph reveals small-world property d = 0.35 + 2.06 log (n) 高性能搜集系統(tǒng) DNS resolve bottleneck 搜索引擎中可以設計一個專用的DN模塊,含有 1、用于地址解析的DNSslient (和本模塊的DNSS存服務器打交道): 專門對付多個請求的并發(fā)處理,容許一次發(fā)出多個解析請求,通 過polling來看請求的完成情況 協(xié)助在多個DNS server之間做負載分配(例如根據(jù)掌握的URL
3、S行適當調(diào)度) 2、緩存 server : 大緩存容量,跨DN系統(tǒng)的刷新保持內(nèi)容 3、預取 client 用不著等待解析的完成 Fetch bottleneck 多個并發(fā)的抓取 1、用多線程 / 多進程 2、用異步 I/O: 帶事件處理的非阻塞 sockets Politeness DoS、 robots.txt 在“利用訪問的局部性 ”和 “對網(wǎng)站的禮貌性 ”之間求得平衡 Duplicate detection 對UR進行規(guī)格化 MD摘要檢測重復的網(wǎng)頁 信息檢索 信息檢索模型 信息檢索研究和解決哪一類問題? Representation Storage Organization Access
4、 of information items for people who are interesting in them 檢索模型包括幾個方面內(nèi)容? D: 文檔集的機內(nèi)表示 Q: 用戶需求的機內(nèi)表示 F: 文檔表示、查詢表示和它們之間的關系的模型框架 R(qi, dj): query qi和 document dj 間的 relevance 計算函數(shù) 三種經(jīng)典檢索模型看待檢索問題的角度有何異同? 1、布爾模型 每個索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或不出現(xiàn),對應權值為0 或1。 查詢是由三種布爾邏輯運算符 and, or, not 連接索引詞組成的布爾表達式 2、向量空間模型 文檔表示D:文
5、檔用詞向量表示:詞典 刀=k1,k2,kt構成一個線性空間, d=為此空間內(nèi)的向量 wi稱為權值,表示對應詞項 ki對于表達文檔d的重要程度 查詢表示與D相似:q=,查詢可以是一個文檔 Idf=lg(N/ni) 3、經(jīng)典概率模型 信息獲取看成是一個過程:用戶提交一個查詢,系統(tǒng)提供給用戶它所認為的 相關結果列表;用戶考察這個集合后給出一些輔助信息,系統(tǒng)再進一步根 據(jù)這輔助信息 (加上以前的信息) 得到一個新的相關結果列表; 如此繼續(xù)。 VSM 向量空間模型 概率模型 文檔表示:同向量模型: 查詢表示:同向量模型: R(q i ,d j )的計算:也用Sim(q i ,d j)表示,它的思想是用先
6、驗值來計算后驗值, 具體的解釋如下: 進行獨立性假設:詞語在文檔或查詢中的出現(xiàn)是獨立的。 對于q存在一個相關子集R(R是 D的子集) 隨機從D中取出一個d,它屬于R的概率是多少P( R|d),它不屬于R的概率是多 少P ( R的補集|d) Sim(qi ,dj )用 P ( R|d)/ P ( R 的補集 |d )來表示,Sim(q i ,d j)越大,則認 為d與q越相關。其中P ( R|d)/ P ( R的補集|d )的計算利用了先驗值, 也即利用系統(tǒng)中已知的相關子集中字典中的詞出現(xiàn)的概率。 逐步求精過程(leehoom) 第1 步:P(ki|R) = 0.5,P(ki,R 的補)=ni/
7、N 其中N = |D| ,ni表示D中含有ki的文檔個數(shù) 第2步:根據(jù)lisy前面總結的公式計算出前r個文檔,記為V,Vi為V中含有ki 的文檔組成的 集合。P(ki|R) 約等于P(ki|V) 約等于|Vi|/|V|,P(ki|R的補)約等于 P(ki,D-V) f約 2PR 等于(ni - |Vi|)/(N - ljV|) R 第3步:重復迭代過程2 信息檢索系統(tǒng)評估 檢索系統(tǒng)性能如何評測? 一般用什么樣的評測指標? 對某個測試參考集,信息查詢實例為I,I對應的相關文檔集合為 R。假設 用某個檢索策略對I進行處理后,得到一個結果集合 A。令Ra表示R與 A的交 集。 查全率(Recall)
8、:檢出的相關文檔個數(shù)與相關文檔集合總數(shù)的比值,即 R=|Ra| / |R| 查準率(Precision):檢出的相關文檔個數(shù)與檢出文檔總數(shù)的比值,即 P=|Ra| / |A| 測試集 文檔集、信息查詢的實例,實例對應的相關文檔 評估指標P,R,F F指數(shù)=2PR/(P+R) 信息提取 信息提取處理的問題是? 信息提取是通過分析非結構化文本,提取預先定義好的實體、關系或事件, 把非結構化的文本轉(zhuǎn)化為結構化的信息庫 Wrapper是?如何構造?為什么要做 Wrapper Induction ? Lear ning wrappers is wrapper in duct ion Sometimes,
9、 the relati onsare structural. Webpages gen erated by a database. Tables, lists, etc. Cantcomputers automatically learn the patter ns a huma n wrapper-writer would use? Wrapper in ducti on is usually regular relati ons which can be expressed by the structure of the document: the item in bold in the
10、3rd column of the table is the price Wrapper in ducti on tech niq ues can also lear n: If there is a page about a research project X and there is a link n ear the word people to a page that is about a person Y then Y is a member of the project X. HMM是?怎樣在實際問題中應用?(理解) 文本分類 什么是分類問題?:形式化定義 Given:A desc
11、riptionof an instanee,xX, where X is the instanee Ianguage or instanee space . A fixed set of categories: C = c1, c2,cn Determine:The category of x: c(x)三C, where c(x) is a categorization function whose doma in is Xand whose range is C 不同文本表示視角下的分類方法:向量空間和概率表示 KNN算法 To classify docume ntd into class
12、 c Define k-n eighborhood N as k n earest n eighbors of d Count nu mber of docume nts i in N that bel ong to c Estimate P(c| d) as i/k Choose as class argmaxc P(c|d) 分類面、線性可分性(了解) 有限規(guī)模數(shù)據(jù)集上分類評測的方法 語料庫 分類結果評估主要指標 準確率 P 召回率 R F測度值F 宏平均 Macro- 微平均 Micro- Macroaveraged precisi on: (10/20 + 90/100)/2 = 0.
13、7 Microaveraged precisi on: 100/120 = .83 ATC Evaluation Training set/Test set Confusion-matrix Recall: cii/ 第i 列和 Perception: cii/ 第 i行禾口 N-fold Cross-validation 分成N份,N-1份做訓練集,1份做測試集,則輪換可有 N份相互獨立的測試集,最 后求平均 文本聚類 什么是聚類問題? 聚類是對數(shù)據(jù)對象進行劃分的一種過程,與分類不同的是,它所劃分的類是 未知的,故此,這是一個無指導的學習(un supervised learni ng )過
14、 程,即聚類算法不需要教師的指導,不需要提供訓練數(shù)據(jù),它傾向于 數(shù)據(jù)的自然劃分。 問題背景(motivations) Whole corpus an alysis/navigatio nBetter user in terface For improvi ng recall in search applicati ons Better search results For better n avigati on of search results Effective “ user recall” will be higher For speedi ng up vector space retr
15、ieval Faster search 導航、結果集、結果導航、根據(jù)預先的聚類返回結果而不需計算向量相似度 問題描述(problem statement) PrtiHonal dustring. Given: a cfD di| n $imjlarihr measure (or distance metrk) a 卩arli honing criterion a desired number of cluslers K Cocnpule; An assignment function * : D 一 1K such that sa th ties the pirlitiaiAing crite
16、rion wilh respect to the similarity measure, 文檔集、相似度度量、劃分標準、聚類個數(shù)K 聚類評測(evaluation) 選擇人工已經(jīng)分好類或者做好標記的文檔集合作為測試集合,聚類結束后, 將聚類結果與已有的人工分類結果進行比較。 聚類錯誤率CE=(錯誤關聯(lián)+遺漏關聯(lián))/文檔集合中所有可能的文檔對的數(shù)量 聚類全面率CR=正確關聯(lián)數(shù)/人工分類中文檔對的數(shù)量 聚類準確率CP=正確關聯(lián)數(shù)/聚類結果中文檔對的數(shù)量 聚類方法 戈U分方法(partitional clustering) K-means 算法 Given: X: a sei of A veclor
17、s d: distance metric A: desired number of clusteis Select K random seeds丙.:懇用 fiom X Let 譏:=勵,1 k p = c*E Tp Power Iterati on: 初始化向量pO,使得|p0|=1 對于k = 1,2, 執(zhí)行如下步驟 x = ETpk-1 ,基本迭代 pk = x/|x|,規(guī)格化步驟 PageRank 算法 瀏覽者每次以一定的概率(1- B )沿著超鏈走,以概率(3 )重新隨機選擇一個 新的起始節(jié)點 Lu,v=Eu,v/d u prB、 Pi十=(1 P)LTpi + 二(1n b = (
18、1 0)LT + 石(1n) |Pi NNJ HITS算法(了解) HITS針對具體查詢、應用在查詢時間,而PageRa nk是獨立于查詢的 Root set, R(q):和查詢q相關的網(wǎng)頁集合 Base set, V(q):除了 R(q)夕卜,還包括指向R(q)元素和被R(q)元素指向的網(wǎng)頁 Expa nded set = V - R 兩個概念(直覺上有意義) 1、AUTHORITY(權威型網(wǎng)頁):內(nèi)容權威,質(zhì)量高的網(wǎng)頁 2、 HUB(目錄型網(wǎng)頁):指向許多authority 網(wǎng)頁的網(wǎng)頁 交叉定義 一個網(wǎng)頁u的a值依賴于指向它的網(wǎng)頁 v的h值 一個網(wǎng)頁u的h值依賴于它所指的網(wǎng)頁 v的a值 a
19、 = ET h 信息推薦 h = E a 二 E ET h 推薦系統(tǒng)(Recommendation System) What they are? Given a set of users and items Recomme nd items to a user based on 1、Past behavior of this and other users Who has viewed/bought/liked what? 2、Additional information on users and items Both users and items can have known attrib
20、utes age, genre, price, 相關算法 Classical Collaborative Filtering (CF)- memory-based algorithm n Pa J =+ 托刀- Vi) paq =Va 7 a.Paq n p aq =Z waiZiq i =1 Wai =E Zak zik k Ziq 二 v iq vi Combine collaborative and content filtering Model-based algorithm 系統(tǒng)評估 MAE存在的冋題是? 文本索引 Text Parsing Tokenize, normalize, lemmatization, stem Inverted Inde
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綠色包裝印刷行業(yè)節(jié)能減排技術應用案例分析考核試卷
- 中藥批發(fā)物流設施冷鏈物流技術應用研究考核試卷
- 化工設備安全風險信息共享平臺建設考核試卷
- 區(qū)塊鏈驅(qū)動的虛擬商品交易與用戶參與度提升考核試卷
- 急診醫(yī)學題庫(含答案)
- 住宅租賃合同(集錦15篇)
- 保險協(xié)議書 合集15篇
- 2022科護士長工作總結
- 四川省眉山市東坡區(qū)校際聯(lián)考2024-2025學年高一下學期6月期末物理試卷(含答案)
- 化學趣味實驗大全
- 碼頭項目事故案例
- 針灸美容整形培訓課件
- 2025年湖南電氣職業(yè)技術學院單招職業(yè)傾向性考試題庫附答案
- 管道施工應急預案
- 2025年1月國家開放大學法學本科《中國法律史》期末紙質(zhì)考試試題及答案
- 國家開放大學漢語言文學本科《古代小說戲曲專題》期末紙質(zhì)考試第二大題填空題庫2025春期版
- 人教版數(shù)學七年級上冊單元測試卷-第一單元-有理數(shù)(含答案)
- 應急城市城市防沙治沙應急管理預案
- 2021衛(wèi)生監(jiān)督法律法規(guī)知識競賽題庫及答案
- 懲罰游戲?qū)W校班會公司早會小游戲晨會年會團建課堂娛樂互動340
- 中國郵政集團有限公司國企招聘筆試真題2024
評論
0/150
提交評論