




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Web Data mining復(fù)習(xí)與總結(jié)一、 課程主要內(nèi)容數(shù)據(jù)挖掘概述+WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ch1 概述):又被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)()。是指從數(shù)據(jù)源(如DB、文本、圖片、萬(wàn)維網(wǎng)等)探尋有用的模式或知識(shí)的過(guò)程。這些模式必須是有用的、有潛在價(jià)值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉的學(xué)科,包括機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘(ch6-12)的目標(biāo)是從web超鏈接、網(wǎng)頁(yè)內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過(guò)程中使用的數(shù)據(jù)類別,web挖掘的任務(wù)劃分為三種主要的類型:web結(jié)構(gòu)挖掘、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘:從表征web結(jié)構(gòu)的
2、超鏈接中尋找知識(shí)。Ch6-ch8:信息檢索與web搜索;鏈接分析;web爬取。web內(nèi)容挖掘:從網(wǎng)頁(yè)內(nèi)容中抽取有用的信息和知識(shí)。Ch9-ch11:結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成;信息集成;觀點(diǎn)挖掘。web使用挖掘:從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問(wèn)模式。Ch12:web使用挖掘二、 各章主要知識(shí)點(diǎn)(一) (ch1)概述主要知識(shí)點(diǎn)1、 萬(wàn)維網(wǎng)、超文本、超鏈接、超媒體的概念;2、 HTTP,HTML,URL, WEB,TCP/IP的含義;3、 Web數(shù)據(jù)的特點(diǎn):P56;4、 數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務(wù)、KDD過(guò)程、KDD的數(shù)據(jù)類型等;5、 Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過(guò)程
3、等。6、 關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預(yù)測(cè)、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘:包括信息檢索與WEB搜索、鏈接分析、WEB爬取(二) (ch6)信息檢索與web搜索1、 基本概念:(1)信息檢索IR:即幫助使用者從大號(hào)的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲(chǔ)、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應(yīng)的一組文檔,得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序,最常用的用戶查詢信息是一組關(guān)鍵字(又稱詞)。其基本信息是單個(gè)文檔,大量的文檔形成文本數(shù)據(jù)庫(kù)。(2)web搜索:是信息檢索的一個(gè)重要分支。區(qū)別于信息檢索的特點(diǎn)是:效率是WEB搜索的一個(gè)最為重要的問(wèn)題;網(wǎng)頁(yè)與傳統(tǒng)信息檢索系統(tǒng)
4、中使用的普通文檔不同:(1)具有超鏈接以及錨文本、(2)網(wǎng)頁(yè)是半結(jié)構(gòu)化的、(3)網(wǎng)頁(yè)中的內(nèi)容基本上是有組織的,并且在一些結(jié)構(gòu)塊中出現(xiàn);作弊技術(shù)是網(wǎng)絡(luò)上的一個(gè)重要的問(wèn)題。(3)IR基本架構(gòu):用戶查詢(關(guān)鍵字查詢、布爾查詢、短語(yǔ)查詢、鄰近查詢、全文查詢、自然語(yǔ)言查詢等)+查詢操作(作簡(jiǎn)單預(yù)處理如STOP WORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋關(guān)聯(lián)性反饋)+索引器(為提高查詢效率對(duì)原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引,形成文檔索引返回文檔索引,如倒排索引)+檢索系統(tǒng)(為每個(gè)索引文檔計(jì)算與查詢的相關(guān)度分?jǐn)?shù))關(guān)鍵字查詢布爾查詢短語(yǔ)查詢鄰近查詢?nèi)牟樵冏匀徽Z(yǔ)言查詢預(yù)處理關(guān)聯(lián)性反饋倒排索引計(jì)算文檔與查詢的相
5、關(guān)度分?jǐn)?shù)布爾模型(布爾查詢:AND、OR、NOT)向量空間模型(TF表、TFIDF表、查詢、相關(guān)度排名)語(yǔ)言模型概率模型關(guān)聯(lián)性反饋(4)查全率(recall)、查準(zhǔn)率(precision)、查準(zhǔn)率查全率曲線(PR曲線)、排名查準(zhǔn)率(rank precision)、F-score(5)網(wǎng)頁(yè)預(yù)處理:移除停用詞、詞干提取、數(shù)字、連字號(hào)、標(biāo)點(diǎn)、字符大小寫(xiě)的處理;辨別不同的字段;辨別錨文本;移除HTML標(biāo)簽;辨別主要內(nèi)容塊;(6)副本探測(cè)(對(duì)整個(gè)文本HashMD5算法;基于n元短語(yǔ)的副本探測(cè)技術(shù)):即復(fù)制頁(yè)面,可減少索引大小,改善搜索效率; 鏡像:復(fù)制站點(diǎn)的技術(shù)。(7)倒排索引:是一張列表,包含了每一個(gè)
6、不同的詞和包含該詞的文檔列表??杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非???。記錄格式:idj,fij,o1,o2,.o|fij|倒排索引的建立及壓縮:搜索引擎基于向量空間模型和詞匹配模型。爬取網(wǎng)頁(yè)!元搜索引擎和組合多種排序:略網(wǎng)絡(luò)作弊的概念及分類:l 內(nèi)容作弊(詞組作弊):標(biāo)題、元標(biāo)記、正文、錨文本、網(wǎng)址。如內(nèi)容重復(fù)、或添加其他不相關(guān)的l 鏈接作弊(影響知名度分?jǐn)?shù)):鏈出鏈接作弊(指向中心頁(yè)面目錄克?。┗蜴溔腈溄幼鞅祝▌?chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等)l 隱藏技術(shù):內(nèi)容隱藏(隱藏垃圾項(xiàng))、掩飾技術(shù)(垃圾網(wǎng)絡(luò)服務(wù)器、重定向技術(shù)等)l 抵制作弊:分類處理
7、區(qū)別對(duì)待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等;信任排名方法可用。2、主要知識(shí)點(diǎn)(1) IR系統(tǒng)的基本架構(gòu)及原理l 用戶查詢的主要形式:關(guān)鍵字查詢、布爾查詢、短語(yǔ)查詢、鄰近查詢、全文查詢、自然語(yǔ)言查詢的含義l 查詢操作l 索引器l 檢索系統(tǒng)(2) 信息檢索模型主要有四種信息檢索模型:布爾模型、向量空間模型、語(yǔ)言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理,了解統(tǒng)計(jì)語(yǔ)言模型、概率模型。布爾模型:文檔表示法、布爾查詢、文檔檢索。向量空間模型:文檔表示法(詞頻率表TF、詞逆向文檔頻率TFIDF等)、查詢、檢出文件以及相關(guān)度排名(向量夾角余弦相似度、Okapi相關(guān)度計(jì)算、旋轉(zhuǎn)標(biāo)準(zhǔn)化權(quán)值)(3) 信息檢
8、索模型的評(píng)估標(biāo)準(zhǔn)查全率(recall)查準(zhǔn)率(precision)查準(zhǔn)率查全率曲線(PR曲線)排名查準(zhǔn)率(rank precision)F-score(4)文本和網(wǎng)頁(yè)的預(yù)處理內(nèi)容l 停用詞移除l 詞干提取l 數(shù)字的預(yù)處理l 連字號(hào)的預(yù)處理l 標(biāo)點(diǎn)符號(hào)的預(yù)處理l 字符大小寫(xiě)的預(yù)處理*網(wǎng)頁(yè)預(yù)處理步驟:l 辨別不同的字段:標(biāo)題、元數(shù)據(jù)、正文等l 辨別錨文本l 移除HTML標(biāo)簽l 辨別主要內(nèi)容塊(根據(jù)視覺(jué)線索分塊、樹(shù)匹配)l 副本探測(cè)(5)倒排索引及其壓縮l 倒排索引的概念:l 使用倒排索引搜索的算法步驟搜索詞匯表、結(jié)果合并、計(jì)算排名分?jǐn)?shù)l 索引的建立方法:使用TRIE數(shù)據(jù)結(jié)構(gòu)相比其他的結(jié)構(gòu)更加有效。
9、l 索引的壓縮方法:常用的有兩種,即變位模式(一元編碼、Elias gamma編碼和delta編碼)和變字節(jié)模式(整數(shù)對(duì)應(yīng)到自定義的二進(jìn)制編碼)。l 索引壓縮的解碼:一元編碼的解碼、變字節(jié)編碼的解碼了解(6)隱式主義索引(略)(7)WEB搜索搜索引擎搜索引擎基于向量空間模型和詞匹配模型。爬取網(wǎng)頁(yè)!搜索引擎的工作步驟:分解(parsing);索引(indexing);搜索并排序(預(yù)處理、利用倒排索引查找含有全部查詢?cè)~的頁(yè)面、對(duì)頁(yè)面排序并返回給用戶)。其中排序算法是核心。搜索引擎的排序算法:網(wǎng)頁(yè)質(zhì)量和網(wǎng)頁(yè)知名度是排序的重要因素。可利用超鏈接(鏈入鏈接pagerank算法、鏈出鏈接) 的數(shù)量作為排序
10、網(wǎng)頁(yè)的指標(biāo)之一;內(nèi)容質(zhì)量可利用(1)出現(xiàn)的形式,如標(biāo)題、錨文本、網(wǎng)址、正文等;(2)計(jì)數(shù):以不同形式出現(xiàn)的詞的計(jì)數(shù);(3)位置:對(duì)于以不同出現(xiàn)形式出現(xiàn)的詞的位置記錄。基于內(nèi)容的網(wǎng)頁(yè)評(píng)估分?jǐn)?shù)(IR分?jǐn)?shù))與知名度分?jǐn)?shù)的加權(quán)和以得到網(wǎng)頁(yè)的排名分?jǐn)?shù)。另見(jiàn)第七章中的計(jì)算方法。搜索引擎的兩種查詢方式:?jiǎn)卧~語(yǔ)查詢和多詞語(yǔ)查詢。網(wǎng)絡(luò)作弊技術(shù):使用人為的手段,讓一些網(wǎng)頁(yè)高于其應(yīng)有的排名。網(wǎng)頁(yè)作弊的主要形式:內(nèi)容作弊、鏈接作弊、隱藏技術(shù)(內(nèi)容隱藏、掩飾技術(shù)、重定向)、抵制作弊(信任排名等技術(shù))。(三) (ch7)鏈接分析1、 基本概念(1)社會(huì)關(guān)系網(wǎng):是一門(mén)研究社會(huì)中社會(huì)實(shí)體(組織中的人、或者叫參與者)以及他們之
11、間的活動(dòng)與關(guān)系的學(xué)問(wèn)。這種關(guān)系或活動(dòng)可以用網(wǎng)絡(luò)或圖來(lái)表示。(2)社會(huì)網(wǎng)絡(luò)分析:分析研究社會(huì)關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特性,以及每個(gè)參與者的職責(zé)、位置、威望等屬性;找出各種類型的子圖。l 社會(huì)網(wǎng)絡(luò)分析方法:中心性和權(quán)威性。l 中心性(鏈出)的概念:鏈接(連接)、中心參與者。度中心性(有向圖、無(wú)向圖的度中心性)接近中心性(無(wú)向圖、有向圖的接近中心性)中介中心性(無(wú)向圖、有向圖的中介中心性)l 權(quán)威性(鏈入)的概念度權(quán)威鄰近權(quán)威等級(jí)權(quán)威(pagerank、hits算法)(3)同引分析的概念:用來(lái)度量不由自主文檔之間的相似性。引文耦合的概念: 將引用同一篇其他論文的兩篇論文聯(lián)系起來(lái)。兩篇論文引用的相同文章數(shù)目越多
12、,它們之間就越相似。Pagerank算法的基本思想Hits算法的基本思想社區(qū)發(fā)現(xiàn)的相關(guān)概念。2、 主要知識(shí)點(diǎn)(1)社會(huì)網(wǎng)絡(luò)分析:分析研究社會(huì)關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特性,以及每個(gè)參與者的職責(zé)、位置、威望等屬性;找出各種類型的子圖。(2)絡(luò)分析方法:中心性和權(quán)威性,這兩種指標(biāo)對(duì)于網(wǎng)絡(luò)搜索以及鏈接分析都有非常密切的關(guān)系,是社會(huì)關(guān)系網(wǎng)中參與者的著名程度進(jìn)行度量的標(biāo)準(zhǔn)。中心性(鏈出)的概念:鏈接(連接)、中心參與者。三種中心性度量:度中心性(有向圖、無(wú)向圖的度中心性)、接近中心性(無(wú)向圖、有向圖的接近中心性)、中介中心性(無(wú)向圖、有向圖的中介中心性)。權(quán)威性(鏈入)的概念:度權(quán)威、鄰近權(quán)威、分級(jí)權(quán)威(pager
13、ank、hits算法)。度權(quán)威:鄰近權(quán)威:等級(jí)權(quán)威:(3)同引分析的概念:用來(lái)度量不由自主文檔之間的相似性。引文耦合的概念: 將引用同一篇其他論文的兩篇論文聯(lián)系起來(lái)。兩篇論文引用的相同文章數(shù)目越多,它們之間就越相似。PAGERANK算法:1998年4月提出。了解基本思想及原理。PAGERANK算法的優(yōu)缺點(diǎn)PAGERANKT可能改進(jìn)timed pagerank算法的基本思想。HITS算法:1998年1月提出。了解其基本思想。(4)掌握同引分析與引文耦合與PAGERANK算法和HITS算法的關(guān)系。HITS算法的優(yōu)點(diǎn)、缺點(diǎn)及可能的改進(jìn)。了解社區(qū)發(fā)現(xiàn)的基本原理。(四) (ch8)WEB爬取1. 基本概
14、念(1)WEB爬蟲(chóng)(蜘蛛或機(jī)器人):能自動(dòng)下載網(wǎng)頁(yè)的程序。(2)WEB爬蟲(chóng)的分類:通用爬蟲(chóng)、限定爬蟲(chóng)、主題爬蟲(chóng)。通用爬蟲(chóng)限定爬蟲(chóng)主題爬蟲(chóng)(3)簡(jiǎn)單爬蟲(chóng)算法:種子URL、隊(duì)列、頁(yè)面獲取、網(wǎng)頁(yè)庫(kù)等模塊。l 寬度優(yōu)先爬蟲(chóng)l 帶偏好的爬蟲(chóng)網(wǎng)頁(yè)獲取/網(wǎng)頁(yè)解析/刪除無(wú)用詞、詞干提取、鏈接提取和規(guī)范化/爬蟲(chóng)陷井網(wǎng)頁(yè)庫(kù)爬蟲(chóng)消耗的資源:網(wǎng)絡(luò)、中CPU和磁盤(pán)。(4)爬蟲(chóng)的改進(jìn):實(shí)現(xiàn)并發(fā)性(并行爬蟲(chóng)架構(gòu))。通用爬蟲(chóng):可擴(kuò)展性、爬蟲(chóng)覆蓋率、新鮮度和重要度。限定爬蟲(chóng):能爬取用戶感興趣的某一類網(wǎng)頁(yè)。熟悉概念。主題爬蟲(chóng):帶偏好爬取網(wǎng)頁(yè)的爬蟲(chóng)。熟悉概念。了解通用爬蟲(chóng)、限定爬蟲(chóng)、主題爬蟲(chóng)的聯(lián)系與區(qū)別。2、 主要知識(shí)點(diǎn)簡(jiǎn)單爬蟲(chóng)算
15、法及改進(jìn)(并行爬蟲(chóng))。限定爬蟲(chóng)算法的基本思想。主題爬蟲(chóng)的基本原理。三種爬蟲(chóng)算法的聯(lián)系與區(qū)別WEB內(nèi)容挖掘:包括結(jié)構(gòu)化信息抽取、信息集成、觀點(diǎn)挖掘。(五) (ch9)結(jié)構(gòu)化數(shù)據(jù)抽取:包裝器生成1、基本概念(1)WEB信息抽取:從網(wǎng)頁(yè)中抽取目標(biāo)信息,包括:從自然語(yǔ)言文本中抽取信息及從網(wǎng)頁(yè)的結(jié)構(gòu)化數(shù)據(jù)中抽取信息。l 包裝器:抽取結(jié)構(gòu)化數(shù)據(jù)的程序。l WEB結(jié)構(gòu)化數(shù)據(jù):從后臺(tái)數(shù)據(jù)庫(kù)獲取的數(shù)據(jù)記錄,它們按照一定的模板被展現(xiàn)在網(wǎng)頁(yè)上。l 數(shù)據(jù)記錄(2)信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動(dòng)抽?。o(wú)監(jiān)督學(xué)習(xí)方法)。l 數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁(yè)),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模
16、型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。l 列表頁(yè)l 詳情頁(yè)l 數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實(shí)例;元組類型實(shí)例等。l 數(shù)據(jù)實(shí)例的HTML編碼(3)包裝器歸納的概念及基本原理EC樹(shù)開(kāi)始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則:正規(guī)則、負(fù)規(guī)則地標(biāo)提純拓樸提純 包裝器學(xué)習(xí)的重要問(wèn)題之一:手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力??赡艿陌b器歸納學(xué)習(xí)的改進(jìn):主動(dòng)學(xué)習(xí)或協(xié)同測(cè)試的方法。l 主動(dòng)學(xué)習(xí):是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)步驟:從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L;手
17、工標(biāo)注L中的樣例,并令UUL;基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器;將W應(yīng)用于U以找到一個(gè)提供信息樣例的集合L;如果L,則終止,否則轉(zhuǎn)。 算法的關(guān)鍵是步。l 協(xié)同測(cè)試的方法可用來(lái)識(shí)別提供信息的樣例。了解其基本思想。l 包裝器維護(hù):包裝器驗(yàn)證問(wèn)題、包裝器修復(fù)問(wèn)題。學(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式,以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注,再學(xué)習(xí)。l 基于實(shí)例的包裝器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過(guò)將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較,來(lái)從一個(gè)新的實(shí)例或網(wǎng)頁(yè)中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中,某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注,這是沒(méi)有附加機(jī)制的主動(dòng)學(xué)習(xí)。(4)自
18、動(dòng)包裝生成中的問(wèn)題:手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽??;包裝器維護(hù)的開(kāi)銷很大。l 包裝器自動(dòng)生成中的模板:指代網(wǎng)頁(yè)設(shè)計(jì)者所采用的隱藏模板。l 包裝器自動(dòng)生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。l 包裝器的應(yīng)用兩個(gè)抽取問(wèn)題:基于一張列表頁(yè)的抽取;基于多張網(wǎng)頁(yè)的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板檢測(cè)HTML編碼字符串中重復(fù)出現(xiàn)的模式。l 信息抽取技術(shù):字符串匹配和樹(shù)匹配。l DOM:文檔對(duì)象模型標(biāo)簽樹(shù)。l 字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。l 點(diǎn)突變是指下列操作之一改變一個(gè)字符;插入一個(gè)字符;刪除一個(gè)字符。l 掌握字符串的對(duì)齊算法。l 樹(shù)
19、匹配中的樹(shù)編輯距離:是將樹(shù)A變換為樹(shù)B所需要的最小操作集對(duì)應(yīng)的代價(jià)。l 樹(shù)編輯距離的操作包括:節(jié)點(diǎn)刪除;節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。l 解樹(shù)編輯距離問(wèn)題應(yīng)時(shí)尋找兩棵樹(shù)間的最小代價(jià)映射。l 樹(shù)代價(jià)映射的定義l 簡(jiǎn)單樹(shù)匹配STM:不允許節(jié)點(diǎn)替換和層次交叉,STM的目標(biāo)是找到兩棵樹(shù)間的最大匹配。l 最大匹配:設(shè)A、B是兩棵樹(shù),而iA和jB是A和B中的兩節(jié)點(diǎn),兩棵樹(shù)間的一個(gè)匹配定義為一個(gè)映射M,使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)(i,j)M,( i,j都不是根節(jié)點(diǎn)),都有(parent(i),parent(j) M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊:產(chǎn)生一個(gè)對(duì)所有字
20、符串或樹(shù)的全局對(duì)齊任務(wù)稱為多重對(duì)齊。 兩種多重對(duì)齊算法:中星方法和部分樹(shù)對(duì)齊。中星方法部分樹(shù)對(duì)齊方法:構(gòu)建DOM樹(shù)標(biāo)簽樹(shù)。標(biāo)簽樹(shù)的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺(jué)提示的方法。利用標(biāo)簽構(gòu)建DOM樹(shù):HTML編碼清理;樹(shù)的構(gòu)建。用標(biāo)簽和視覺(jué)提示構(gòu)建DOM樹(shù):通過(guò)調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長(zhǎng)廊形的四個(gè)邊界;依據(jù)開(kāi)始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹(shù)。包含檢驗(yàn):是指檢驗(yàn)一個(gè)長(zhǎng)方形是否被另一個(gè)長(zhǎng)方形包含?;诹斜眄?yè)的抽取:平坦數(shù)據(jù)記錄的抽取假設(shè)網(wǎng)頁(yè)的DOM樹(shù)已經(jīng)構(gòu)建,給定一個(gè)含有多個(gè)列表,且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁(yè),將執(zhí)行下列任務(wù):(1)識(shí)別每個(gè)列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)
21、據(jù)區(qū)域(挖掘廣義節(jié)點(diǎn)序列;比較廣義節(jié)點(diǎn););MDR算法(2)將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;識(shí)別數(shù)據(jù)記錄、(3)對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽取;沖突消解;利用視覺(jué)信息等;基于列表頁(yè)的抽取嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解2 主要知識(shí)點(diǎn)信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動(dòng)抽?。o(wú)監(jiān)督學(xué)習(xí)方法)。(1)數(shù)據(jù)抽取:給定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁(yè)),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁(yè)/詳情頁(yè)數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集
22、合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實(shí)例;元組類型實(shí)例等。數(shù)據(jù)實(shí)例的HTML編碼(2)包裝器歸納的概念及基本原理l EC樹(shù)l 開(kāi)始規(guī)則/結(jié)束規(guī)則l 地標(biāo)l 通配符l 析取規(guī)則l 學(xué)習(xí)抽取規(guī)則:正規(guī)則、負(fù)規(guī)則l 地標(biāo)提純l 拓樸提純 包裝器學(xué)習(xí)的重要問(wèn)題之一:手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力??赡艿陌b器歸納學(xué)習(xí)的改進(jìn):主動(dòng)學(xué)習(xí)或協(xié)同測(cè)試的方法。了解主動(dòng)學(xué)習(xí):是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)的算法步驟:(1)從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L;(2)手工標(biāo)注L中的樣例,并令UUL;(3)基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器;(4)將W應(yīng)用于U以找到一
23、個(gè)提供信息樣例的集合L;(5)如果L,則終止,否則轉(zhuǎn)(2)。 算法的關(guān)鍵是(4)步。協(xié)同測(cè)試的方法可用來(lái)識(shí)別提供信息的樣例。了解其基本思想。包裝器維護(hù):包裝器驗(yàn)證問(wèn)題、包裝器修復(fù)問(wèn)題。學(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式,以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注,再學(xué)習(xí)?;趯?shí)例的包裝器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過(guò)將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較,來(lái)從一個(gè)新的實(shí)例或網(wǎng)頁(yè)中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中,某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注,這是沒(méi)有附加機(jī)制的主動(dòng)學(xué)習(xí)。(3)自動(dòng)包裝生成中的問(wèn)題:手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽取;包裝器維護(hù)的開(kāi)銷很大。包
24、裝器自動(dòng)生成中的模板:指代網(wǎng)頁(yè)設(shè)計(jì)者所采用的隱藏模板。包裝器自動(dòng)生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用兩個(gè)抽取問(wèn)題:基于一張列表頁(yè)的抽??;基于多張網(wǎng)頁(yè)的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板檢測(cè)HTML編碼字符串中重復(fù)出現(xiàn)的模式。(4)信息抽取技術(shù):字符串匹配和樹(shù)匹配及相關(guān)算法。DOM:文檔對(duì)象模型標(biāo)簽樹(shù)。字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。點(diǎn)突變是指下列操作之一改變一個(gè)字符;插入一個(gè)字符;刪除一個(gè)字符。掌握字符串的對(duì)齊算法。樹(shù)匹配中的樹(shù)編輯距離:是將樹(shù)A變換為樹(shù)B所需要的最小操作集對(duì)應(yīng)的代價(jià)。樹(shù)編輯距離的操作包括:節(jié)點(diǎn)刪
25、除;節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。解樹(shù)編輯距離問(wèn)題應(yīng)時(shí)尋找兩棵樹(shù)間的最小代價(jià)映射。樹(shù)代價(jià)映射的定義簡(jiǎn)單樹(shù)匹配STM:不允許節(jié)點(diǎn)替換和層次交叉,STM的目標(biāo)是找到兩棵樹(shù)間的最大匹配。最大匹配:設(shè)A、B是兩棵樹(shù),而iA和jB是A和B中的兩節(jié)點(diǎn),兩棵樹(shù)間的一個(gè)匹配定義為一個(gè)映射M,使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)(i,j)M,( i,j都不是根節(jié)點(diǎn)),都有(parent(i),parent(j) M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊:產(chǎn)生一個(gè)對(duì)所有字符串或樹(shù)的全局對(duì)齊任務(wù)稱為多重對(duì)齊。 兩種多重對(duì)齊算法:中星方法和部分樹(shù)對(duì)齊。中星方法掌握運(yùn)用部分樹(shù)對(duì)齊方法:掌握應(yīng)
26、用構(gòu)建DOM樹(shù)標(biāo)簽樹(shù)。標(biāo)簽樹(shù)的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺(jué)提示的方法。利用標(biāo)簽構(gòu)建DOM樹(shù):HTML編碼清理;樹(shù)的構(gòu)建。用標(biāo)簽和視覺(jué)提示構(gòu)建DOM樹(shù):通過(guò)調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長(zhǎng)廊形的四個(gè)邊界;依據(jù)開(kāi)始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹(shù)。包含檢驗(yàn):是指檢驗(yàn)一個(gè)長(zhǎng)方形是否被另一個(gè)長(zhǎng)方形包含。基于列表頁(yè)的抽?。浩教箶?shù)據(jù)記錄的抽取平坦數(shù)據(jù)記錄抽取流程或算法步驟:假設(shè)網(wǎng)頁(yè)的DOM樹(shù)已經(jīng)構(gòu)建,給定一個(gè)含有多個(gè)列表,且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁(yè),將執(zhí)行下列任務(wù)(應(yīng)盡量細(xì)化內(nèi)核):(1)識(shí)別每個(gè)列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)據(jù)區(qū)域(挖掘廣義節(jié)點(diǎn)序列;比較廣義節(jié)點(diǎn););MDR
27、算法, (2)將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;識(shí)別數(shù)據(jù)記錄、(3)對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽??;沖突消解;利用視覺(jué)信息等;基于列表頁(yè)的抽取嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解(六) (ch10)信息集成1、基本概念(1)信息集成:最初的研究是針對(duì)關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)。(2)WEB全局搜索界面:是用來(lái)產(chǎn)生查詢字從而到WEB數(shù)據(jù)庫(kù)(深層WEB)中獲取相關(guān)信息的。全局搜索界面允許用戶輸入相關(guān)的信息,系統(tǒng)根據(jù)用戶提供的信息自動(dòng)填寫(xiě)所有的源搜索界面從而從各個(gè)站點(diǎn)獲取所。各站點(diǎn)返回的數(shù)據(jù)需要經(jīng)過(guò)集成,展示給用戶。(3)樣式表匹配
28、:是指對(duì)于兩個(gè)或更多個(gè)數(shù)據(jù)庫(kù)的樣式表建立映射,把具有相同意義的屬性(或元素)映射到一起。目的是把多個(gè)樣式表整合為一張全局的統(tǒng)一的樣式表。(4)樣式表的匹配方法:半自動(dòng)化的匹配(有難度,基于啟發(fā)式的領(lǐng)域知識(shí))或自動(dòng)匹配(難度很大,產(chǎn)生候選匹配由用戶確認(rèn))。l 基于輸入信息,樣式表匹配的不同類型:樣式表層次的匹配、領(lǐng)域和實(shí)例層次的匹配;樣式表、領(lǐng)域、實(shí)例整合的匹配。l 樣式表匹配的預(yù)處理:分詞、擴(kuò)展、移除無(wú)用詞和詞干提取、詞的標(biāo)準(zhǔn)化等。l 匹配類型:1:1;1:m;m:1;m:nl 樣式表層次的匹配中,主要有兩種信息:樣式表中屬性的名稱、描述等的自然語(yǔ)言詞匯(基于語(yǔ)言學(xué)的算法名稱匹配、上位關(guān)系、基
29、于描述的匹配等);樣式表中的限制(數(shù)據(jù)類型和數(shù)值范圍、唯一性、關(guān)系類型的的限制等)。l 基于領(lǐng)域和實(shí)例層次的匹配:在WEB數(shù)據(jù)庫(kù)中,數(shù)據(jù)實(shí)例易于獲得;有些應(yīng)用中,屬性的領(lǐng)域信息也是可獲得的。l 屬性的領(lǐng)域分為:簡(jiǎn)單領(lǐng)域和復(fù)雜領(lǐng)域。l 簡(jiǎn)單領(lǐng)域是指該領(lǐng)域中的實(shí)例值都是簡(jiǎn)單的,也就是非合成的。l 數(shù)據(jù)類型:如果樣式表對(duì)于屬性的類型沒(méi)有說(shuō)明,則需要通過(guò)屬性的實(shí)例值來(lái)判斷元素的數(shù)據(jù)類型。l 識(shí)別數(shù)據(jù)類型的方法:半自動(dòng)方法(即正則表達(dá)式匹配的方法)和自動(dòng)化方法(使用機(jī)器學(xué)習(xí)的方法)。l 匹配算法:DI 1DI6 簡(jiǎn)單領(lǐng)域匹配算法l DI 1使用數(shù)據(jù)類型作為限制信息,建立對(duì)應(yīng)表來(lái)描述一系列預(yù)定義好的數(shù)據(jù)類
30、型之間的兼容度。l DI 2對(duì)于數(shù)字類型的數(shù)據(jù),數(shù)值范圍、平均值和言狀都可以被用來(lái)計(jì)算他們之間的數(shù)據(jù)類型的相似度。l DI 3對(duì)于不確定的數(shù)據(jù)類型,可以抽取和比較兩個(gè)元素的實(shí)例值,以決定其屬性是否匹配。l DI 4對(duì)于字母和數(shù)字混雜的數(shù)據(jù)類型,字符串的長(zhǎng)度和字母/非字母的比例都是非常有用的信息。l DI 5對(duì)于文本數(shù)據(jù),可以用夾角余弦計(jì)算屬性之間的相似度。l DI 6把樣式表元素的名稱添加到實(shí)例值中進(jìn)行比較。l 復(fù)合的領(lǐng)域和屬性:一個(gè)K元的復(fù)合領(lǐng)域是一個(gè)有序的K元組,其中第i個(gè)部分是第i個(gè)子領(lǐng)域的值,記作di。每個(gè)di都是一個(gè)簡(jiǎn)單領(lǐng)域。如果一個(gè)屬性所有的領(lǐng)域是復(fù)合的,則稱該屬性是復(fù)合的屬性。l
31、 一個(gè)復(fù)合領(lǐng)域通??梢酝ㄟ^(guò)它的實(shí)例值來(lái)反映。往往含有各種形式的分隔符,或其他的特殊單詞。進(jìn)行復(fù)合領(lǐng)域的匹配時(shí),為了保證分隔的正確性,需要大量的實(shí)例值。l 算法DI 7一個(gè)簡(jiǎn)單領(lǐng)域與一個(gè)復(fù)合領(lǐng)域的相似度是通過(guò)比較簡(jiǎn)單領(lǐng)域和復(fù)合領(lǐng)域的各個(gè)子領(lǐng)域來(lái)實(shí)現(xiàn)的。兩個(gè)復(fù)合領(lǐng)域的相似度也是通過(guò)比較他們各自所包含的簡(jiǎn)單子領(lǐng)域的相似性來(lái)決定的。l 不同相似度的聯(lián)合:可通過(guò)多種策略實(shí)現(xiàn)取最大值的策略;加權(quán)和;加權(quán)平均;機(jī)器學(xué)習(xí)的方法。l 1:m匹配對(duì)于part-of 類型的匹配;對(duì)于is-a類型的匹配l 樣式表匹配的結(jié)果的處理:最熱門(mén)N個(gè)候選;取最大相似度;閾值篩選等。(5)WEB全局搜索界面:把多個(gè)搜索界面集成為
32、一個(gè)以提供給用戶一個(gè)全局的搜索因人而異,無(wú)需用戶逐個(gè)手動(dòng)搜索各個(gè)數(shù)據(jù)源,只需在全局搜索界面上輸入所需的信息即可。l WEB全局搜索界面與普通的信息集成的區(qū)別:在WEB搜索界面中縮寫(xiě)記號(hào)使用非常有限;詞匯有限;WEB中有大量的相似數(shù)據(jù)庫(kù)(網(wǎng)頁(yè));附加的結(jié)構(gòu)。l WEB全局搜索界面集成的方法:基于聚類的算法;基于互關(guān)系的方法;基于實(shí)例的方法。l WEB全局搜索界面構(gòu)建步驟:l 一個(gè)良好的全局搜索界面應(yīng)該滿足的條件:結(jié)構(gòu)上的正確性;詞匯的正確性和實(shí)例的正確性。2、主要知識(shí)點(diǎn)(1)信息集成:從單一網(wǎng)站上抽取信息往往是不夠的,需要從大量的站點(diǎn)中提取數(shù)據(jù),然后對(duì)提取出的數(shù)據(jù)進(jìn)行集成以便提供增值服務(wù)。對(duì)不同
33、的數(shù)據(jù)而言集成意味著匹配出表示同類信息的列,或者匹配出語(yǔ)義相同但是表達(dá)方式不同的值,并可能存放在后臺(tái)數(shù)據(jù)庫(kù)中。(2)信息集成的基本方法:樣式表匹配抽取樣式表樣式表預(yù)處理樣式表層次的匹配(基于語(yǔ)言學(xué)的算法、或基于樣式表中限制的算法)、基于領(lǐng)域和實(shí)例層次的匹配(簡(jiǎn)單領(lǐng)域匹配方法半自動(dòng)的方法或自動(dòng)的方法;復(fù)合領(lǐng)域匹配的方法)、樣式表/領(lǐng)域/實(shí)例整合的匹配; 大量樣式表的匹配(借助聚類算法、互關(guān)系或模式發(fā)現(xiàn)算法)樣式表匹配的結(jié)果處理(最熱門(mén)的N個(gè)候選;最大相似度;閾值篩選等)用戶交互(匹配系統(tǒng)搭建;匹配的后期工作)。(3)WEB搜索界面的集成:全局搜索界面的構(gòu)建全局搜索界面樣式表:全局搜索界面構(gòu)建:基
34、于聚類的算法、基于互關(guān)系的方法、基于實(shí)例的方法。基于聚類的算法:了解實(shí)現(xiàn)思想基于互關(guān)系的方法:了解實(shí)現(xiàn)思想基于實(shí)例的方法:了解實(shí)現(xiàn)思想(七) (ch11)觀點(diǎn)挖掘1、基本概念l 背景:從網(wǎng)頁(yè)中抽取的結(jié)構(gòu)化數(shù)據(jù)通常在網(wǎng)頁(yè)設(shè)計(jì)時(shí)是來(lái)自于一個(gè)后臺(tái)的數(shù)據(jù)庫(kù),并遵循一定的模板格式顯示在網(wǎng)頁(yè)中。此外,網(wǎng)頁(yè)中還存在大量的非結(jié)構(gòu)化的文本信息,包括了所有類型的各種有價(jià)值的信息,分析這些信息是非常重要的。l 觀點(diǎn)挖掘的背景:企業(yè)需要了解用戶對(duì)其產(chǎn)品或服務(wù)的評(píng)價(jià);新用戶需要知道現(xiàn)有用戶對(duì)某產(chǎn)品或服務(wù)的評(píng)價(jià);了解評(píng)價(jià)可為廣告放置提供參考等。l 現(xiàn)實(shí)性與可能性:網(wǎng)絡(luò)用戶有多種發(fā)表觀點(diǎn)的方法:商業(yè)網(wǎng)站、產(chǎn)品或服務(wù)評(píng)價(jià)、博
35、客、論壇等。本章內(nèi)容:評(píng)估文本、觀點(diǎn)搜索、觀點(diǎn)欺詐。(1)評(píng)估文本的三個(gè)挖掘任務(wù):意見(jiàn)分類、基于特征的觀點(diǎn)挖掘和摘要、比較性句子和比較關(guān)系挖掘。(2)觀點(diǎn)挖掘:可以使用戶搜索關(guān)于任何對(duì)象的觀點(diǎn)。(3)觀點(diǎn)欺詐:欺詐性觀點(diǎn)是指有些人為推銷自身產(chǎn)品或服務(wù)?;蛘邠p害競(jìng)爭(zhēng)對(duì)手聲譽(yù)而發(fā)表的那些不切實(shí)際的或者懷有惡意的觀點(diǎn)。l 意見(jiàn)分類:正面評(píng)論、負(fù)面評(píng)論和中立評(píng)論。意見(jiàn)分類主要用于快速判定大眾對(duì)一個(gè)對(duì)象的普遍觀點(diǎn)。該任務(wù)和傳統(tǒng)的基于主題的文本分類相似。但有不同。意見(jiàn)分類中主題相關(guān)的詞匯并不重要,表征正面或負(fù)面觀點(diǎn)的詞匯更加重要。意見(jiàn)分類的研究層次:主要是文檔層次;其次還有句子層次的。意見(jiàn)分類的具體方法:
36、基于意見(jiàn)短語(yǔ)的分類;采用文本分類方法進(jìn)行意見(jiàn)分類;基于評(píng)分函數(shù)進(jìn)行分類。l 基于意見(jiàn)短語(yǔ)的分類:基于各個(gè)評(píng)估文本中正面和負(fù)面的意見(jiàn)詞和短語(yǔ)。算法步驟:基于調(diào)整性標(biāo)注的自然語(yǔ)言處理技術(shù)S1. 抽取包含有形容詞和副詞的短語(yǔ),采用賓州樹(shù)庫(kù)詞性標(biāo)注集(表11.1)+基于特征的觀點(diǎn)摘要(表11.2);S2. 采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語(yǔ)的語(yǔ)義傾向(一個(gè)短語(yǔ)的語(yǔ)義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算);S3. 給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語(yǔ)的平均SO。如果平均SO是正的,則為正面證人否則為負(fù)面評(píng)價(jià)。l 采用文本分類方法進(jìn)行意見(jiàn)分類:將該問(wèn)題作為基于
37、主題的文本分類問(wèn)題,可采用naïve Bayesian, VM, N等方法。l 基于評(píng)分函數(shù)進(jìn)行分類:采用通用評(píng)分函數(shù),算法步驟為:S1. 在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值,介于11之間;S2.算法將新文檔的所有詞的評(píng)分求和,并給出分類的判斷?;谔卣鞯挠^點(diǎn)挖掘和摘要:一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說(shuō)明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中,評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià),挖掘往往作用于句子層面。l 定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征產(chǎn)品特征l 判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象:一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品
38、、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū):(T,A),其中T是一個(gè)層次化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個(gè)關(guān)于屬性的集合,每個(gè)部件都擁有它自己的子部件或?qū)傩约?。O:數(shù)碼相機(jī)部件:lens,battery,view-finder.Battery: life, size, weight. 顯式特征和隱式特征:如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中,則稱它是r的一個(gè)顯式特征。如果f沒(méi)有在r中出現(xiàn),則稱其為r的一個(gè)隱式特征。如 the battery life of this camera is too short. This camera is too large.某一特征的觀點(diǎn)
39、段:一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的連續(xù)句子。如:the battery quality is good, but the battery life is short.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn):一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如:this picture quality of this camera is amazing. The earphone broke in two days.觀點(diǎn)持有對(duì)象:關(guān)于某一特定
40、觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡(jiǎn)要模型:一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合Ff1,f2,fn,每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語(yǔ)Wi的集合。即對(duì)于n個(gè)特征,有一個(gè)對(duì)應(yīng)的同義詞集合WW1,W2,Wn。由于每個(gè)F中的特征fi都有一個(gè)名字(標(biāo)記為fi),可得到fiWi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjÍF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了的特征fkSj,可以從Wk中選擇一個(gè)詞或者短語(yǔ)來(lái)描述該特征,并對(duì)其表達(dá)正面或負(fù)面的觀點(diǎn)。給定一個(gè)評(píng)測(cè)文本集合D作為輸入,則可有如下三個(gè)問(wèn)題:P1:F和W都是未知的,在
41、觀點(diǎn)挖掘中需要挖掘的任務(wù)T1、T2和T3.T1:從每個(gè)評(píng)估dD中定位與抽取被評(píng)估對(duì)象的特征。T2:確定對(duì)于該特征的觀點(diǎn)是正面的、負(fù)面的或中立的。T3:由于不同的人可能采用不同的詞或短語(yǔ)來(lái)描述同樣的特征。需將各個(gè)特征的同義詞進(jìn)行歸并。P2:F已知而W未知。與P1類似有三個(gè)任務(wù),但處理更簡(jiǎn)單。其中T1與T2同前;但T3可將已發(fā)現(xiàn)的特征與給定特征集合F進(jìn)行匹配而求解。P3:W已知(可以推出F也是已知的)。僅需要進(jìn)行任務(wù)T2,即在抽取所有包含相應(yīng)特征的句子后,確定一個(gè)已知特征上的觀點(diǎn)是正面的,負(fù)面的還是中立的。基于特征的摘要:形成針對(duì)某一對(duì)象的各種觀點(diǎn)的基于特征的摘要。對(duì)象特征提取:主要用在在線產(chǎn)品的
42、評(píng)審上。有三種類型的評(píng)審格式,不同的評(píng)審格式需要不同的技術(shù)進(jìn)行特征提取。格式1:區(qū)分正面、負(fù)面以及細(xì)節(jié)的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn);此外,還要給出細(xì)節(jié)評(píng)審。格式2:區(qū)分正面和負(fù)面的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn);但不需要給出獨(dú)立的細(xì)節(jié)評(píng)審。格式3:自由格式。評(píng)審者可以自由地給出評(píng)價(jià)。不必區(qū)分正面或負(fù)面觀點(diǎn)。格式1中特征抽取算法:S1:用于LSR挖掘的訓(xùn)練數(shù)據(jù)準(zhǔn)備;S2:標(biāo)記順序規(guī)則挖掘;找到包含特征的規(guī)則,詞性標(biāo)注和詞形成語(yǔ)言模式; S3:特征抽取,考慮三種情形:l 如果一個(gè)句子片段匹配多個(gè)規(guī)則的處理l 對(duì)于沒(méi)有規(guī)則適用的句子片段,如果存在,被詞性標(biāo)注工具標(biāo)出來(lái)的名
43、詞和名詞短語(yǔ)被抽取為特征;l 對(duì)于只有一個(gè)詞的句子片段,單一詞匯被對(duì)待為特征。隱式特征匹配同義詞分組特征粒度格式2和格式3的特征抽取算法:了解S1:找到所有的調(diào)頻名詞和名詞短語(yǔ);名詞和名詞短語(yǔ)可能通過(guò)詞性標(biāo)注工具勷S2:通過(guò)利用意見(jiàn)詞找到不頻繁出現(xiàn)的特征。意見(jiàn)詞(又稱觀點(diǎn)詞)通常表達(dá)正面或負(fù)面評(píng)價(jià)的形容詞和副詞。觀點(diǎn)傾向分類:意見(jiàn)詞和短語(yǔ)是那些表達(dá)了正面或負(fù)面意見(jiàn)(觀點(diǎn))的詞,通常是形容詞和副詞,也可是動(dòng)詞或名詞。已構(gòu)建了意見(jiàn)詞的集合l 人工找到一個(gè)正面或負(fù)面詞匯、成語(yǔ)的種子集合,為形容詞、動(dòng)詞、名詞和副詞、成語(yǔ)等都準(zhǔn)備一個(gè)單獨(dú)的種子集合。l 在WORDNET中迭代地查找它們的同義詞和反義詞,
44、以此擴(kuò)展種子集合直到收斂。l 人工檢查結(jié)果,并去除不正確的詞匯。l 識(shí)別句子的意見(jiàn)詞和短語(yǔ),是正面的則賦值 +1,負(fù)面的賦值 為1,所有的賦值相加,為正則結(jié)論是正面的,否則結(jié)論為負(fù)面的。比較性句子和比較關(guān)系挖掘直接表達(dá)某一對(duì)象的正面或負(fù)面觀點(diǎn)只是評(píng)估的一種形式,將一個(gè)對(duì)象和其他同等對(duì)象進(jìn)行比較是另一種形式。比較也是更能讓人信服的一種方式。分為主觀比較和客觀比較。如the picture quality of camera x is great. 典型句子主觀比較:the picture quality of camera x is better than that of camera y.客觀
45、比較:camera Xis 20 grams heavier than camera y.比較性句子和判定比較關(guān)系是很難的。很多包含比較級(jí)(最高級(jí))的句子并不是比較格式;而不包含這類詞的句子卻是比較性句子。比較性句子:是一個(gè)表達(dá)了多個(gè)對(duì)象之間的相似或者不同關(guān)系的句子,比較性句子中的比較關(guān)系通常由一個(gè)形容詞或副詞的比較級(jí)或最高級(jí)來(lái)表達(dá)。幾種重要的比較類型:等級(jí)比較和非等級(jí)比較,其中等級(jí)比較可進(jìn)一步分為形容詞和副詞比較。等級(jí)比較包括:不相等的等級(jí)比較、相等等級(jí)的比較、最高級(jí)的比較。非等級(jí)比較比較了兩個(gè)或者多個(gè)對(duì)象的特征,但并不對(duì)他們進(jìn)行分級(jí)??煞譃槿N類型:對(duì)象A和對(duì)象B在某些特征上相似或者不同;
46、對(duì)象A有特征f1,而對(duì)象B有特征f2;對(duì)象A擁有特征f,但是對(duì)象B沒(méi)有。比較性句子的三種類型:非平等等級(jí)比較;平等比較;最高級(jí)比較。比較關(guān)系的抽?。簂 序列數(shù)據(jù)產(chǎn)生:用于挖掘的順序數(shù)據(jù)庫(kù)創(chuàng)建;在數(shù)據(jù)中手工標(biāo)記每個(gè)句子的標(biāo)號(hào)詞.l LSR的生成挖掘規(guī)則系統(tǒng)被用來(lái)生成標(biāo)號(hào)順序規(guī)則。l 關(guān)系項(xiàng)抽取,如使用規(guī)則來(lái)匹配句子,并用具有最高置信度的規(guī)則來(lái)抽取關(guān)系項(xiàng)。觀點(diǎn)搜索包括:1. 搜索某一特定對(duì)象或?qū)ο筇卣魃系挠^點(diǎn)。2. 搜索某一個(gè)人或組織對(duì)某一特定對(duì)象或?qū)ο筇卣鞯目捶āS^點(diǎn)欺詐指人們故意誤導(dǎo)讀者和自動(dòng)觀點(diǎn)挖掘系統(tǒng)的行為(比如撰寫(xiě)欺詐性的評(píng)審)。觀點(diǎn)欺詐的目的:推銷某些目標(biāo)對(duì)象;損害某些其他目標(biāo)對(duì)象的聲
47、譽(yù)等。觀點(diǎn)欺詐的行為:為了推銷目標(biāo)對(duì)象撰寫(xiě)一些不切實(shí)際的正面評(píng)審炒作欺詐;為了詆毀某些目標(biāo)對(duì)象的聲譽(yù),撰寫(xiě)一些不公平或者惡毒的反而評(píng)審誹謗欺詐。欺詐和欺詐者的種類:人工欺詐和自動(dòng)欺詐;個(gè)人欺詐和群組欺詐。隱藏技巧:欺詐者為了避免被檢測(cè)出來(lái)所采取的預(yù)防措施。欺詐檢測(cè):面向評(píng)論的欺詐檢測(cè);面向評(píng)論者的欺詐檢測(cè);面向服務(wù)器的欺詐檢測(cè)。面向評(píng)論的欺詐檢測(cè):比較內(nèi)容相似性;檢測(cè)評(píng)分和內(nèi)容例外;比較多個(gè)網(wǎng)站的平均打分;檢測(cè)評(píng)分例外。面向評(píng)論者的欺詐檢測(cè):觀察早期用戶;檢測(cè)早期修正動(dòng)作;比較同一評(píng)論者對(duì)于不同品牌產(chǎn)品的評(píng)論打分;比較評(píng)論時(shí)間。面向服務(wù)器的欺詐檢測(cè)。2、主要知識(shí)點(diǎn)(1)意見(jiàn)分類l 基于意見(jiàn)短語(yǔ)
48、的分類算法:基于各個(gè)評(píng)估文本中正面和負(fù)面的意見(jiàn)詞和短語(yǔ)。算法步驟:基于調(diào)整性標(biāo)注的自然語(yǔ)言處理技術(shù)S1. 抽取包含有形容詞和副詞的短語(yǔ),采用賓州樹(shù)庫(kù)詞性標(biāo)注集(表11.1)+基于特征的觀點(diǎn)摘要(表11.2);S2. 采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語(yǔ)的語(yǔ)義傾向(一個(gè)短語(yǔ)的語(yǔ)義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算);S3. 給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語(yǔ)的平均SO。如果平均SO是正的,則為正面證人否則為負(fù)面評(píng)價(jià)。l 采用文本分類方法進(jìn)行意見(jiàn)分類:將該問(wèn)題作為基于主題的文本分類問(wèn)題,可采用naïve Bayesian, VM, N等方法
49、。l 基于評(píng)分函數(shù)進(jìn)行分類:采用通用評(píng)分函數(shù),算法步驟為:S1. 在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值,介于11之間;S2.算法將新文檔的所有詞的評(píng)分求和,并給出分類的判斷。(2) 基于特征的觀點(diǎn)挖掘和摘要:一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說(shuō)明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中,評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià),挖掘往往作用于句子層面。l 定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征產(chǎn)品特征l 判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象:一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū):(T,A),其中T是一個(gè)層次
50、化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個(gè)關(guān)于屬性的集合,每個(gè)部件都擁有它自己的子部件或?qū)傩约稀:數(shù)碼相機(jī)部件:lens,battery,view-finder.Battery: life, size, weight. 顯式特征和隱式特征:如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中,則稱它是r的一個(gè)顯式特征。如果f沒(méi)有在r中出現(xiàn),則稱其為r的一個(gè)隱式特征。如 the battery life of this camera is too short. This camera is too large.某一特征的觀點(diǎn)段:一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的
51、連續(xù)句子。如:the battery quality is good, but the battery life is short.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn):一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如:this picture quality of this camera is amazing. The earphone broke in two days.觀點(diǎn)持有對(duì)象:關(guān)于某一特定觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡(jiǎn)要模型:一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合Ff1,f2,fn,每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語(yǔ)Wi的集合。即對(duì)于n個(gè)特征,有一個(gè)對(duì)應(yīng)的同義詞集合WW1,W2,Wn。由于每個(gè)F中的特征fi都有一個(gè)名字(標(biāo)記為fi),可得到fiWi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjÍF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備系統(tǒng)變更管理制度
- 設(shè)施農(nóng)業(yè)臺(tái)賬管理制度
- 設(shè)計(jì)研發(fā)團(tuán)隊(duì)管理制度
- 診室發(fā)熱患者管理制度
- 診所感染監(jiān)測(cè)管理制度
- 診療服務(wù)收費(fèi)管理制度
- 財(cái)務(wù)經(jīng)費(fèi)開(kāi)支管理制度
- 財(cái)政評(píng)審稽核管理制度
- 貨品安全存放管理制度
- 貨物儲(chǔ)存?zhèn)}庫(kù)管理制度
- 安全生產(chǎn)管理臺(tái)賬(合集)
- 福建省廈門(mén)市第一中學(xué)2025屆七下英語(yǔ)期末質(zhì)量跟蹤監(jiān)視試題含答案
- 大學(xué)語(yǔ)文試題及答案 二
- 物理中考二輪復(fù)習(xí)教案 1作圖專題3(電學(xué)電磁學(xué))
- 石膏廠安全管理制度 最終
- 2025年河北省中考麒麟卷生物(二)
- 結(jié)構(gòu)動(dòng)力學(xué)完整版本
- 2025年八年級(jí)數(shù)學(xué)下學(xué)期期末總復(fù)習(xí)八年級(jí)數(shù)學(xué)下學(xué)期期末測(cè)試卷(2)(學(xué)生版+解析)
- 四級(jí)閱讀測(cè)試題及答案
- 農(nóng)村供水水質(zhì)管理制度
- 建筑工地應(yīng)急預(yù)案方案
評(píng)論
0/150
提交評(píng)論