網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)

上傳人：露*** IP屬地：上海上傳時(shí)間：2022-05-02 格式：DOCX 頁(yè)數(shù)：17 大?。?7.28KB 積分：12 舉報(bào) 版權(quán)申訴

網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)_第2頁(yè)

網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)_第3頁(yè)

網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)_第4頁(yè)

網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)_第5頁(yè)

已閱讀5頁(yè)，還剩12頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Web Data mining復(fù)習(xí)與總結(jié)一、課程主要內(nèi)容數(shù)據(jù)挖掘概述+WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘（ch1 概述）：又被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)（）。是指從數(shù)據(jù)源（如DB、文本、圖片、萬(wàn)維網(wǎng)等）探尋有用的模式或知識(shí)的過(guò)程。這些模式必須是有用的、有潛在價(jià)值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉的學(xué)科，包括機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘（ch6-12）的目標(biāo)是從web超鏈接、網(wǎng)頁(yè)內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過(guò)程中使用的數(shù)據(jù)類別，web挖掘的任務(wù)劃分為三種主要的類型：web結(jié)構(gòu)挖掘、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘：從表征web結(jié)構(gòu)的

2、超鏈接中尋找知識(shí)。Ch6-ch8：信息檢索與web搜索；鏈接分析；web爬取。web內(nèi)容挖掘：從網(wǎng)頁(yè)內(nèi)容中抽取有用的信息和知識(shí)。Ch9-ch11：結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成；信息集成；觀點(diǎn)挖掘。web使用挖掘：從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問(wèn)模式。Ch12：web使用挖掘二、各章主要知識(shí)點(diǎn)（一）（ch1）概述主要知識(shí)點(diǎn)1、萬(wàn)維網(wǎng)、超文本、超鏈接、超媒體的概念；2、 HTTP，HTML，URL， WEB，TCP/IP的含義；3、 Web數(shù)據(jù)的特點(diǎn)：P56；4、數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務(wù)、KDD過(guò)程、KDD的數(shù)據(jù)類型等；5、 Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過(guò)程

3、等。6、關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預(yù)測(cè)、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘：包括信息檢索與WEB搜索、鏈接分析、WEB爬取（二）（ch6）信息檢索與web搜索1、基本概念：（1）信息檢索IR：即幫助使用者從大號(hào)的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲(chǔ)、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應(yīng)的一組文檔，得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序，最常用的用戶查詢信息是一組關(guān)鍵字（又稱詞）。其基本信息是單個(gè)文檔，大量的文檔形成文本數(shù)據(jù)庫(kù)。（2）web搜索：是信息檢索的一個(gè)重要分支。區(qū)別于信息檢索的特點(diǎn)是：效率是WEB搜索的一個(gè)最為重要的問(wèn)題；網(wǎng)頁(yè)與傳統(tǒng)信息檢索系統(tǒng)

4、中使用的普通文檔不同：（1）具有超鏈接以及錨文本、（2）網(wǎng)頁(yè)是半結(jié)構(gòu)化的、（3）網(wǎng)頁(yè)中的內(nèi)容基本上是有組織的，并且在一些結(jié)構(gòu)塊中出現(xiàn)；作弊技術(shù)是網(wǎng)絡(luò)上的一個(gè)重要的問(wèn)題。（3）IR基本架構(gòu)：用戶查詢（關(guān)鍵字查詢、布爾查詢、短語(yǔ)查詢、鄰近查詢、全文查詢、自然語(yǔ)言查詢等）+查詢操作（作簡(jiǎn)單預(yù)處理如STOP WORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋關(guān)聯(lián)性反饋）+索引器（為提高查詢效率對(duì)原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引，形成文檔索引返回文檔索引，如倒排索引）+檢索系統(tǒng)（為每個(gè)索引文檔計(jì)算與查詢的相關(guān)度分?jǐn)?shù)）關(guān)鍵字查詢布爾查詢短語(yǔ)查詢鄰近查詢?nèi)牟樵冏匀徽Z(yǔ)言查詢預(yù)處理關(guān)聯(lián)性反饋倒排索引計(jì)算文檔與查詢的相

5、關(guān)度分?jǐn)?shù)布爾模型（布爾查詢：AND、OR、NOT）向量空間模型（TF表、TFIDF表、查詢、相關(guān)度排名）語(yǔ)言模型概率模型關(guān)聯(lián)性反饋（4）查全率（recall）、查準(zhǔn)率（precision）、查準(zhǔn)率查全率曲線（PR曲線）、排名查準(zhǔn)率（rank precision）、F-score（5）網(wǎng)頁(yè)預(yù)處理：移除停用詞、詞干提取、數(shù)字、連字號(hào)、標(biāo)點(diǎn)、字符大小寫(xiě)的處理；辨別不同的字段；辨別錨文本；移除HTML標(biāo)簽；辨別主要內(nèi)容塊；（6）副本探測(cè)（對(duì)整個(gè)文本HashMD5算法；基于n元短語(yǔ)的副本探測(cè)技術(shù)）：即復(fù)制頁(yè)面，可減少索引大小，改善搜索效率；鏡像：復(fù)制站點(diǎn)的技術(shù)。（7）倒排索引：是一張列表，包含了每一個(gè)

6、不同的詞和包含該詞的文檔列表?？杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非?？?。記錄格式：idj,fij,o1,o2,.o|fij|倒排索引的建立及壓縮：搜索引擎基于向量空間模型和詞匹配模型。爬取網(wǎng)頁(yè)！元搜索引擎和組合多種排序：略網(wǎng)絡(luò)作弊的概念及分類：l 內(nèi)容作弊（詞組作弊）：標(biāo)題、元標(biāo)記、正文、錨文本、網(wǎng)址。如內(nèi)容重復(fù)、或添加其他不相關(guān)的l 鏈接作弊（影響知名度分?jǐn)?shù)）：鏈出鏈接作弊（指向中心頁(yè)面目錄克?。┗蜴溔腈溄幼鞅祝▌?chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等）l 隱藏技術(shù)：內(nèi)容隱藏（隱藏垃圾項(xiàng)）、掩飾技術(shù)（垃圾網(wǎng)絡(luò)服務(wù)器、重定向技術(shù)等）l 抵制作弊：分類處理

7、區(qū)別對(duì)待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等；信任排名方法可用。2、主要知識(shí)點(diǎn)（1） IR系統(tǒng)的基本架構(gòu)及原理l 用戶查詢的主要形式：關(guān)鍵字查詢、布爾查詢、短語(yǔ)查詢、鄰近查詢、全文查詢、自然語(yǔ)言查詢的含義l 查詢操作l 索引器l 檢索系統(tǒng)（2）信息檢索模型主要有四種信息檢索模型：布爾模型、向量空間模型、語(yǔ)言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理，了解統(tǒng)計(jì)語(yǔ)言模型、概率模型。布爾模型：文檔表示法、布爾查詢、文檔檢索。向量空間模型：文檔表示法（詞頻率表TF、詞逆向文檔頻率TFIDF等）、查詢、檢出文件以及相關(guān)度排名（向量夾角余弦相似度、Okapi相關(guān)度計(jì)算、旋轉(zhuǎn)標(biāo)準(zhǔn)化權(quán)值）（3）信息檢

8、索模型的評(píng)估標(biāo)準(zhǔn)查全率（recall）查準(zhǔn)率（precision）查準(zhǔn)率查全率曲線（PR曲線）排名查準(zhǔn)率（rank precision）F-score（4）文本和網(wǎng)頁(yè)的預(yù)處理內(nèi)容l 停用詞移除l 詞干提取l 數(shù)字的預(yù)處理l 連字號(hào)的預(yù)處理l 標(biāo)點(diǎn)符號(hào)的預(yù)處理l 字符大小寫(xiě)的預(yù)處理*網(wǎng)頁(yè)預(yù)處理步驟：l 辨別不同的字段：標(biāo)題、元數(shù)據(jù)、正文等l 辨別錨文本l 移除HTML標(biāo)簽l 辨別主要內(nèi)容塊（根據(jù)視覺(jué)線索分塊、樹(shù)匹配）l 副本探測(cè)（5）倒排索引及其壓縮l 倒排索引的概念：l 使用倒排索引搜索的算法步驟搜索詞匯表、結(jié)果合并、計(jì)算排名分?jǐn)?shù)l 索引的建立方法：使用TRIE數(shù)據(jù)結(jié)構(gòu)相比其他的結(jié)構(gòu)更加有效。

9、l 索引的壓縮方法：常用的有兩種，即變位模式（一元編碼、Elias gamma編碼和delta編碼）和變字節(jié)模式（整數(shù)對(duì)應(yīng)到自定義的二進(jìn)制編碼）。l 索引壓縮的解碼：一元編碼的解碼、變字節(jié)編碼的解碼了解（6）隱式主義索引（略）（7）WEB搜索搜索引擎搜索引擎基于向量空間模型和詞匹配模型。爬取網(wǎng)頁(yè)！搜索引擎的工作步驟：分解（parsing）；索引（indexing）；搜索并排序（預(yù)處理、利用倒排索引查找含有全部查詢?cè)~的頁(yè)面、對(duì)頁(yè)面排序并返回給用戶）。其中排序算法是核心。搜索引擎的排序算法：網(wǎng)頁(yè)質(zhì)量和網(wǎng)頁(yè)知名度是排序的重要因素。可利用超鏈接（鏈入鏈接pagerank算法、鏈出鏈接）的數(shù)量作為排序

10、網(wǎng)頁(yè)的指標(biāo)之一；內(nèi)容質(zhì)量可利用（1）出現(xiàn)的形式，如標(biāo)題、錨文本、網(wǎng)址、正文等；（2）計(jì)數(shù)：以不同形式出現(xiàn)的詞的計(jì)數(shù)；（3）位置：對(duì)于以不同出現(xiàn)形式出現(xiàn)的詞的位置記錄。基于內(nèi)容的網(wǎng)頁(yè)評(píng)估分?jǐn)?shù)（IR分?jǐn)?shù)）與知名度分?jǐn)?shù)的加權(quán)和以得到網(wǎng)頁(yè)的排名分?jǐn)?shù)。另見(jiàn)第七章中的計(jì)算方法。搜索引擎的兩種查詢方式：?jiǎn)卧~語(yǔ)查詢和多詞語(yǔ)查詢。網(wǎng)絡(luò)作弊技術(shù)：使用人為的手段，讓一些網(wǎng)頁(yè)高于其應(yīng)有的排名。網(wǎng)頁(yè)作弊的主要形式：內(nèi)容作弊、鏈接作弊、隱藏技術(shù)（內(nèi)容隱藏、掩飾技術(shù)、重定向）、抵制作弊（信任排名等技術(shù)）。（三）（ch7）鏈接分析1、基本概念(1)社會(huì)關(guān)系網(wǎng)：是一門(mén)研究社會(huì)中社會(huì)實(shí)體（組織中的人、或者叫參與者）以及他們之

11、間的活動(dòng)與關(guān)系的學(xué)問(wèn)。這種關(guān)系或活動(dòng)可以用網(wǎng)絡(luò)或圖來(lái)表示。(2)社會(huì)網(wǎng)絡(luò)分析：分析研究社會(huì)關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特性，以及每個(gè)參與者的職責(zé)、位置、威望等屬性；找出各種類型的子圖。l 社會(huì)網(wǎng)絡(luò)分析方法：中心性和權(quán)威性。l 中心性（鏈出）的概念：鏈接（連接）、中心參與者。度中心性（有向圖、無(wú)向圖的度中心性）接近中心性（無(wú)向圖、有向圖的接近中心性）中介中心性（無(wú)向圖、有向圖的中介中心性）l 權(quán)威性（鏈入）的概念度權(quán)威鄰近權(quán)威等級(jí)權(quán)威(pagerank、hits算法)(3)同引分析的概念：用來(lái)度量不由自主文檔之間的相似性。引文耦合的概念：將引用同一篇其他論文的兩篇論文聯(lián)系起來(lái)。兩篇論文引用的相同文章數(shù)目越多

12、，它們之間就越相似。Pagerank算法的基本思想Hits算法的基本思想社區(qū)發(fā)現(xiàn)的相關(guān)概念。2、主要知識(shí)點(diǎn)(1)社會(huì)網(wǎng)絡(luò)分析：分析研究社會(huì)關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特性，以及每個(gè)參與者的職責(zé)、位置、威望等屬性；找出各種類型的子圖。(2)絡(luò)分析方法：中心性和權(quán)威性，這兩種指標(biāo)對(duì)于網(wǎng)絡(luò)搜索以及鏈接分析都有非常密切的關(guān)系，是社會(huì)關(guān)系網(wǎng)中參與者的著名程度進(jìn)行度量的標(biāo)準(zhǔn)。中心性（鏈出）的概念：鏈接（連接）、中心參與者。三種中心性度量：度中心性（有向圖、無(wú)向圖的度中心性）、接近中心性（無(wú)向圖、有向圖的接近中心性）、中介中心性（無(wú)向圖、有向圖的中介中心性）。權(quán)威性（鏈入）的概念：度權(quán)威、鄰近權(quán)威、分級(jí)權(quán)威(pager

13、ank、hits算法)。度權(quán)威：鄰近權(quán)威：等級(jí)權(quán)威：(3)同引分析的概念：用來(lái)度量不由自主文檔之間的相似性。引文耦合的概念：將引用同一篇其他論文的兩篇論文聯(lián)系起來(lái)。兩篇論文引用的相同文章數(shù)目越多，它們之間就越相似。PAGERANK算法：1998年4月提出。了解基本思想及原理。PAGERANK算法的優(yōu)缺點(diǎn)PAGERANKT可能改進(jìn)timed pagerank算法的基本思想。HITS算法：1998年1月提出。了解其基本思想。(4)掌握同引分析與引文耦合與PAGERANK算法和HITS算法的關(guān)系。HITS算法的優(yōu)點(diǎn)、缺點(diǎn)及可能的改進(jìn)。了解社區(qū)發(fā)現(xiàn)的基本原理。（四）（ch8）WEB爬取1. 基本概

14、念（1）WEB爬蟲(chóng)（蜘蛛或機(jī)器人）：能自動(dòng)下載網(wǎng)頁(yè)的程序。（2）WEB爬蟲(chóng)的分類：通用爬蟲(chóng)、限定爬蟲(chóng)、主題爬蟲(chóng)。通用爬蟲(chóng)限定爬蟲(chóng)主題爬蟲(chóng)（3）簡(jiǎn)單爬蟲(chóng)算法：種子URL、隊(duì)列、頁(yè)面獲取、網(wǎng)頁(yè)庫(kù)等模塊。l 寬度優(yōu)先爬蟲(chóng)l 帶偏好的爬蟲(chóng)網(wǎng)頁(yè)獲取/網(wǎng)頁(yè)解析/刪除無(wú)用詞、詞干提取、鏈接提取和規(guī)范化/爬蟲(chóng)陷井網(wǎng)頁(yè)庫(kù)爬蟲(chóng)消耗的資源：網(wǎng)絡(luò)、中CPU和磁盤(pán)。(4)爬蟲(chóng)的改進(jìn)：實(shí)現(xiàn)并發(fā)性（并行爬蟲(chóng)架構(gòu)）。通用爬蟲(chóng)：可擴(kuò)展性、爬蟲(chóng)覆蓋率、新鮮度和重要度。限定爬蟲(chóng)：能爬取用戶感興趣的某一類網(wǎng)頁(yè)。熟悉概念。主題爬蟲(chóng)：帶偏好爬取網(wǎng)頁(yè)的爬蟲(chóng)。熟悉概念。了解通用爬蟲(chóng)、限定爬蟲(chóng)、主題爬蟲(chóng)的聯(lián)系與區(qū)別。2、主要知識(shí)點(diǎn)簡(jiǎn)單爬蟲(chóng)算

15、法及改進(jìn)（并行爬蟲(chóng)）。限定爬蟲(chóng)算法的基本思想。主題爬蟲(chóng)的基本原理。三種爬蟲(chóng)算法的聯(lián)系與區(qū)別WEB內(nèi)容挖掘：包括結(jié)構(gòu)化信息抽取、信息集成、觀點(diǎn)挖掘。（五） (ch9)結(jié)構(gòu)化數(shù)據(jù)抽取：包裝器生成1、基本概念（1）WEB信息抽取：從網(wǎng)頁(yè)中抽取目標(biāo)信息，包括：從自然語(yǔ)言文本中抽取信息及從網(wǎng)頁(yè)的結(jié)構(gòu)化數(shù)據(jù)中抽取信息。l 包裝器：抽取結(jié)構(gòu)化數(shù)據(jù)的程序。l WEB結(jié)構(gòu)化數(shù)據(jù)：從后臺(tái)數(shù)據(jù)庫(kù)獲取的數(shù)據(jù)記錄，它們按照一定的模板被展現(xiàn)在網(wǎng)頁(yè)上。l 數(shù)據(jù)記錄（2）信息抽取的主要方法：手工方法、包裝器歸納（監(jiān)督學(xué)習(xí)方法）、自動(dòng)抽?。o(wú)監(jiān)督學(xué)習(xí)方法）。l 數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)（網(wǎng)頁(yè)），抽取系統(tǒng)恢復(fù)數(shù)據(jù)模

16、型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。l 列表頁(yè)l 詳情頁(yè)l 數(shù)據(jù)模型：嵌套關(guān)系；基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型；平坦關(guān)系；集合類型實(shí)例；元組類型實(shí)例等。l 數(shù)據(jù)實(shí)例的HTML編碼（3）包裝器歸納的概念及基本原理EC樹(shù)開(kāi)始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則：正規(guī)則、負(fù)規(guī)則地標(biāo)提純拓樸提純包裝器學(xué)習(xí)的重要問(wèn)題之一：手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力?？赡艿陌b器歸納學(xué)習(xí)的改進(jìn)：主動(dòng)學(xué)習(xí)或協(xié)同測(cè)試的方法。l 主動(dòng)學(xué)習(xí)：是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)步驟：從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L；手

17、工標(biāo)注L中的樣例，并令UUL；基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器；將W應(yīng)用于U以找到一個(gè)提供信息樣例的集合L；如果L，則終止，否則轉(zhuǎn)。算法的關(guān)鍵是步。l 協(xié)同測(cè)試的方法可用來(lái)識(shí)別提供信息的樣例。了解其基本思想。l 包裝器維護(hù)：包裝器驗(yàn)證問(wèn)題、包裝器修復(fù)問(wèn)題。學(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式，以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注，再學(xué)習(xí)。l 基于實(shí)例的包裝器學(xué)習(xí)：不用學(xué)習(xí)抽取規(guī)則，而是通過(guò)將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較，來(lái)從一個(gè)新的實(shí)例或網(wǎng)頁(yè)中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中，某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注，這是沒(méi)有附加機(jī)制的主動(dòng)學(xué)習(xí)。（4）自

18、動(dòng)包裝生成中的問(wèn)題：手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽??；包裝器維護(hù)的開(kāi)銷很大。l 包裝器自動(dòng)生成中的模板：指代網(wǎng)頁(yè)設(shè)計(jì)者所采用的隱藏模板。l 包裝器自動(dòng)生成中的模式：指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。l 包裝器的應(yīng)用兩個(gè)抽取問(wèn)題：基于一張列表頁(yè)的抽取；基于多張網(wǎng)頁(yè)的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板檢測(cè)HTML編碼字符串中重復(fù)出現(xiàn)的模式。l 信息抽取技術(shù)：字符串匹配和樹(shù)匹配。l DOM：文檔對(duì)象模型標(biāo)簽樹(shù)。l 字符串的編輯距離：即萊文斯坦距離，定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。l 點(diǎn)突變是指下列操作之一改變一個(gè)字符；插入一個(gè)字符；刪除一個(gè)字符。l 掌握字符串的對(duì)齊算法。l 樹(shù)

19、匹配中的樹(shù)編輯距離：是將樹(shù)A變換為樹(shù)B所需要的最小操作集對(duì)應(yīng)的代價(jià)。l 樹(shù)編輯距離的操作包括：節(jié)點(diǎn)刪除；節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。l 解樹(shù)編輯距離問(wèn)題應(yīng)時(shí)尋找兩棵樹(shù)間的最小代價(jià)映射。l 樹(shù)代價(jià)映射的定義l 簡(jiǎn)單樹(shù)匹配STM：不允許節(jié)點(diǎn)替換和層次交叉，STM的目標(biāo)是找到兩棵樹(shù)間的最大匹配。l 最大匹配：設(shè)A、B是兩棵樹(shù)，而iA和jB是A和B中的兩節(jié)點(diǎn)，兩棵樹(shù)間的一個(gè)匹配定義為一個(gè)映射M，使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)（i,j）M,( i,j都不是根節(jié)點(diǎn))，都有（parent(i）,parent(j) M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊：產(chǎn)生一個(gè)對(duì)所有字

20、符串或樹(shù)的全局對(duì)齊任務(wù)稱為多重對(duì)齊。兩種多重對(duì)齊算法：中星方法和部分樹(shù)對(duì)齊。中星方法部分樹(shù)對(duì)齊方法：構(gòu)建DOM樹(shù)標(biāo)簽樹(shù)。標(biāo)簽樹(shù)的構(gòu)建方法：標(biāo)簽方法或用標(biāo)簽和視覺(jué)提示的方法。利用標(biāo)簽構(gòu)建DOM樹(shù)：HTML編碼清理；樹(shù)的構(gòu)建。用標(biāo)簽和視覺(jué)提示構(gòu)建DOM樹(shù)：通過(guò)調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長(zhǎng)廊形的四個(gè)邊界；依據(jù)開(kāi)始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹(shù)。包含檢驗(yàn)：是指檢驗(yàn)一個(gè)長(zhǎng)方形是否被另一個(gè)長(zhǎng)方形包含?；诹斜眄?yè)的抽取：平坦數(shù)據(jù)記錄的抽取假設(shè)網(wǎng)頁(yè)的DOM樹(shù)已經(jīng)構(gòu)建，給定一個(gè)含有多個(gè)列表，且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁(yè)，將執(zhí)行下列任務(wù)：（1）識(shí)別每個(gè)列表（也稱為數(shù)據(jù)區(qū)域），即挖掘所有數(shù)

21、據(jù)區(qū)域（挖掘廣義節(jié)點(diǎn)序列；比較廣義節(jié)點(diǎn)；）；MDR算法（2）將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段，以及；識(shí)別數(shù)據(jù)記錄、（3）對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽取；沖突消解；利用視覺(jué)信息等；基于列表頁(yè)的抽取嵌套數(shù)據(jù)記錄（NET算法：后序遍歷）：了解2 主要知識(shí)點(diǎn)信息抽取的主要方法：手工方法、包裝器歸納（監(jiān)督學(xué)習(xí)方法）、自動(dòng)抽?。o(wú)監(jiān)督學(xué)習(xí)方法）。（1）數(shù)據(jù)抽取：給定由HTML標(biāo)記編碼的數(shù)據(jù)（網(wǎng)頁(yè)），抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁(yè)/詳情頁(yè)數(shù)據(jù)模型：嵌套關(guān)系；基本類型、元組類型、集

22、合類型、平坦元組類型、平坦集合類型；平坦關(guān)系；集合類型實(shí)例；元組類型實(shí)例等。數(shù)據(jù)實(shí)例的HTML編碼（2）包裝器歸納的概念及基本原理l EC樹(shù)l 開(kāi)始規(guī)則/結(jié)束規(guī)則l 地標(biāo)l 通配符l 析取規(guī)則l 學(xué)習(xí)抽取規(guī)則：正規(guī)則、負(fù)規(guī)則l 地標(biāo)提純l 拓樸提純包裝器學(xué)習(xí)的重要問(wèn)題之一：手工標(biāo)注訓(xùn)練樣例。費(fèi)時(shí)費(fèi)力?？赡艿陌b器歸納學(xué)習(xí)的改進(jìn)：主動(dòng)學(xué)習(xí)或協(xié)同測(cè)試的方法。了解主動(dòng)學(xué)習(xí)：是一種幫助自動(dòng)識(shí)別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動(dòng)學(xué)習(xí)的算法步驟：（1）從U中隨機(jī)選取一個(gè)較小的未標(biāo)注樣例子集L；（2）手工標(biāo)注L中的樣例，并令UUL；（3）基于標(biāo)注樣例集L學(xué)習(xí)一個(gè)包裝器；（4）將W應(yīng)用于U以找到一

23、個(gè)提供信息樣例的集合L；（5）如果L，則終止，否則轉(zhuǎn)（2）。算法的關(guān)鍵是（4）步。協(xié)同測(cè)試的方法可用來(lái)識(shí)別提供信息的樣例。了解其基本思想。包裝器維護(hù)：包裝器驗(yàn)證問(wèn)題、包裝器修復(fù)問(wèn)題。學(xué)習(xí)目標(biāo)數(shù)據(jù)項(xiàng)的特征模式，以監(jiān)視抽取工作以及檢驗(yàn)所抽取的數(shù)據(jù)項(xiàng)是否正確。再標(biāo)注，再學(xué)習(xí)?；趯?shí)例的包裝器學(xué)習(xí)：不用學(xué)習(xí)抽取規(guī)則，而是通過(guò)將目標(biāo)數(shù)據(jù)項(xiàng)的前綴和后綴標(biāo)志字符串與對(duì)應(yīng)的標(biāo)注好的樣例進(jìn)行比較，來(lái)從一個(gè)新的實(shí)例或網(wǎng)頁(yè)中識(shí)別目標(biāo)數(shù)據(jù)項(xiàng)。如果一個(gè)未標(biāo)注的樣例中，某個(gè)數(shù)據(jù)項(xiàng)不能被識(shí)別。則它將被交付標(biāo)注，這是沒(méi)有附加機(jī)制的主動(dòng)學(xué)習(xí)。（3）自動(dòng)包裝生成中的問(wèn)題：手工標(biāo)注不適合對(duì)大量站點(diǎn)的抽取；包裝器維護(hù)的開(kāi)銷很大。包

24、裝器自動(dòng)生成中的模板：指代網(wǎng)頁(yè)設(shè)計(jì)者所采用的隱藏模板。包裝器自動(dòng)生成中的模式：指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用兩個(gè)抽取問(wèn)題：基于一張列表頁(yè)的抽??；基于多張網(wǎng)頁(yè)的抽取。從一組編碼好的同種類型的實(shí)例中尋找編碼模板檢測(cè)HTML編碼字符串中重復(fù)出現(xiàn)的模式。（4）信息抽取技術(shù)：字符串匹配和樹(shù)匹配及相關(guān)算法。DOM：文檔對(duì)象模型標(biāo)簽樹(shù)。字符串的編輯距離：即萊文斯坦距離，定義為將串S1變成串S2所需要的點(diǎn)突變的最少次數(shù)。點(diǎn)突變是指下列操作之一改變一個(gè)字符；插入一個(gè)字符；刪除一個(gè)字符。掌握字符串的對(duì)齊算法。樹(shù)匹配中的樹(shù)編輯距離：是將樹(shù)A變換為樹(shù)B所需要的最小操作集對(duì)應(yīng)的代價(jià)。樹(shù)編輯距離的操作包括：節(jié)點(diǎn)刪

25、除；節(jié)點(diǎn)插入和節(jié)點(diǎn)替換。每個(gè)操作都被指定了一個(gè)代價(jià)。解樹(shù)編輯距離問(wèn)題應(yīng)時(shí)尋找兩棵樹(shù)間的最小代價(jià)映射。樹(shù)代價(jià)映射的定義簡(jiǎn)單樹(shù)匹配STM：不允許節(jié)點(diǎn)替換和層次交叉，STM的目標(biāo)是找到兩棵樹(shù)間的最大匹配。最大匹配：設(shè)A、B是兩棵樹(shù)，而iA和jB是A和B中的兩節(jié)點(diǎn)，兩棵樹(shù)間的一個(gè)匹配定義為一個(gè)映射M，使得對(duì)每一個(gè)節(jié)點(diǎn)對(duì)（i,j）M,( i,j都不是根節(jié)點(diǎn))，都有（parent(i）,parent(j) M。一個(gè)最大匹配就是一個(gè)擁有最多節(jié)點(diǎn)對(duì)的匹配。了解STM算法多重對(duì)齊：產(chǎn)生一個(gè)對(duì)所有字符串或樹(shù)的全局對(duì)齊任務(wù)稱為多重對(duì)齊。兩種多重對(duì)齊算法：中星方法和部分樹(shù)對(duì)齊。中星方法掌握運(yùn)用部分樹(shù)對(duì)齊方法：掌握應(yīng)

26、用構(gòu)建DOM樹(shù)標(biāo)簽樹(shù)。標(biāo)簽樹(shù)的構(gòu)建方法：標(biāo)簽方法或用標(biāo)簽和視覺(jué)提示的方法。利用標(biāo)簽構(gòu)建DOM樹(shù)：HTML編碼清理；樹(shù)的構(gòu)建。用標(biāo)簽和視覺(jué)提示構(gòu)建DOM樹(shù)：通過(guò)調(diào)用瀏覽器的渲染引擎找到每一個(gè)HTML元素長(zhǎng)廊形的四個(gè)邊界；依據(jù)開(kāi)始標(biāo)簽序列進(jìn)行包含檢驗(yàn)以構(gòu)建標(biāo)簽樹(shù)。包含檢驗(yàn)：是指檢驗(yàn)一個(gè)長(zhǎng)方形是否被另一個(gè)長(zhǎng)方形包含。基于列表頁(yè)的抽?。浩教箶?shù)據(jù)記錄的抽取平坦數(shù)據(jù)記錄抽取流程或算法步驟：假設(shè)網(wǎng)頁(yè)的DOM樹(shù)已經(jīng)構(gòu)建，給定一個(gè)含有多個(gè)列表，且每個(gè)列表含有多個(gè)數(shù)據(jù)記錄的列表頁(yè)，將執(zhí)行下列任務(wù)（應(yīng)盡量細(xì)化內(nèi)核）：（1）識(shí)別每個(gè)列表（也稱為數(shù)據(jù)區(qū)域），即挖掘所有數(shù)據(jù)區(qū)域（挖掘廣義節(jié)點(diǎn)序列；比較廣義節(jié)點(diǎn)；）；MDR

27、算法，（2）將每個(gè)列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段，以及；識(shí)別數(shù)據(jù)記錄、（3）對(duì)齊數(shù)據(jù)記錄中的數(shù)據(jù)項(xiàng)以為每一個(gè)數(shù)據(jù)區(qū)域產(chǎn)生一個(gè)數(shù)據(jù)表和一個(gè)正則表達(dá)式。數(shù)據(jù)項(xiàng)對(duì)齊與抽??；沖突消解；利用視覺(jué)信息等；基于列表頁(yè)的抽取嵌套數(shù)據(jù)記錄（NET算法：后序遍歷）：了解（六） (ch10)信息集成1、基本概念（1）信息集成：最初的研究是針對(duì)關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)。（2）WEB全局搜索界面：是用來(lái)產(chǎn)生查詢字從而到WEB數(shù)據(jù)庫(kù)（深層WEB）中獲取相關(guān)信息的。全局搜索界面允許用戶輸入相關(guān)的信息，系統(tǒng)根據(jù)用戶提供的信息自動(dòng)填寫(xiě)所有的源搜索界面從而從各個(gè)站點(diǎn)獲取所。各站點(diǎn)返回的數(shù)據(jù)需要經(jīng)過(guò)集成，展示給用戶。（3）樣式表匹配

28、：是指對(duì)于兩個(gè)或更多個(gè)數(shù)據(jù)庫(kù)的樣式表建立映射，把具有相同意義的屬性（或元素）映射到一起。目的是把多個(gè)樣式表整合為一張全局的統(tǒng)一的樣式表。（4）樣式表的匹配方法：半自動(dòng)化的匹配（有難度，基于啟發(fā)式的領(lǐng)域知識(shí)）或自動(dòng)匹配（難度很大，產(chǎn)生候選匹配由用戶確認(rèn)）。l 基于輸入信息，樣式表匹配的不同類型：樣式表層次的匹配、領(lǐng)域和實(shí)例層次的匹配；樣式表、領(lǐng)域、實(shí)例整合的匹配。l 樣式表匹配的預(yù)處理：分詞、擴(kuò)展、移除無(wú)用詞和詞干提取、詞的標(biāo)準(zhǔn)化等。l 匹配類型：1：1；1：m；m：1；m：nl 樣式表層次的匹配中，主要有兩種信息：樣式表中屬性的名稱、描述等的自然語(yǔ)言詞匯（基于語(yǔ)言學(xué)的算法名稱匹配、上位關(guān)系、基

29、于描述的匹配等）；樣式表中的限制（數(shù)據(jù)類型和數(shù)值范圍、唯一性、關(guān)系類型的的限制等）。l 基于領(lǐng)域和實(shí)例層次的匹配：在WEB數(shù)據(jù)庫(kù)中，數(shù)據(jù)實(shí)例易于獲得；有些應(yīng)用中，屬性的領(lǐng)域信息也是可獲得的。l 屬性的領(lǐng)域分為：簡(jiǎn)單領(lǐng)域和復(fù)雜領(lǐng)域。l 簡(jiǎn)單領(lǐng)域是指該領(lǐng)域中的實(shí)例值都是簡(jiǎn)單的，也就是非合成的。l 數(shù)據(jù)類型：如果樣式表對(duì)于屬性的類型沒(méi)有說(shuō)明，則需要通過(guò)屬性的實(shí)例值來(lái)判斷元素的數(shù)據(jù)類型。l 識(shí)別數(shù)據(jù)類型的方法：半自動(dòng)方法（即正則表達(dá)式匹配的方法）和自動(dòng)化方法（使用機(jī)器學(xué)習(xí)的方法）。l 匹配算法：DI 1DI6 簡(jiǎn)單領(lǐng)域匹配算法l DI 1使用數(shù)據(jù)類型作為限制信息，建立對(duì)應(yīng)表來(lái)描述一系列預(yù)定義好的數(shù)據(jù)類

30、型之間的兼容度。l DI 2對(duì)于數(shù)字類型的數(shù)據(jù)，數(shù)值范圍、平均值和言狀都可以被用來(lái)計(jì)算他們之間的數(shù)據(jù)類型的相似度。l DI 3對(duì)于不確定的數(shù)據(jù)類型，可以抽取和比較兩個(gè)元素的實(shí)例值，以決定其屬性是否匹配。l DI 4對(duì)于字母和數(shù)字混雜的數(shù)據(jù)類型，字符串的長(zhǎng)度和字母/非字母的比例都是非常有用的信息。l DI 5對(duì)于文本數(shù)據(jù)，可以用夾角余弦計(jì)算屬性之間的相似度。l DI 6把樣式表元素的名稱添加到實(shí)例值中進(jìn)行比較。l 復(fù)合的領(lǐng)域和屬性：一個(gè)K元的復(fù)合領(lǐng)域是一個(gè)有序的K元組，其中第i個(gè)部分是第i個(gè)子領(lǐng)域的值，記作di。每個(gè)di都是一個(gè)簡(jiǎn)單領(lǐng)域。如果一個(gè)屬性所有的領(lǐng)域是復(fù)合的，則稱該屬性是復(fù)合的屬性。l

31、一個(gè)復(fù)合領(lǐng)域通?？梢酝ㄟ^(guò)它的實(shí)例值來(lái)反映。往往含有各種形式的分隔符，或其他的特殊單詞。進(jìn)行復(fù)合領(lǐng)域的匹配時(shí)，為了保證分隔的正確性，需要大量的實(shí)例值。l 算法DI 7一個(gè)簡(jiǎn)單領(lǐng)域與一個(gè)復(fù)合領(lǐng)域的相似度是通過(guò)比較簡(jiǎn)單領(lǐng)域和復(fù)合領(lǐng)域的各個(gè)子領(lǐng)域來(lái)實(shí)現(xiàn)的。兩個(gè)復(fù)合領(lǐng)域的相似度也是通過(guò)比較他們各自所包含的簡(jiǎn)單子領(lǐng)域的相似性來(lái)決定的。l 不同相似度的聯(lián)合：可通過(guò)多種策略實(shí)現(xiàn)取最大值的策略；加權(quán)和；加權(quán)平均；機(jī)器學(xué)習(xí)的方法。l 1：m匹配對(duì)于part-of 類型的匹配；對(duì)于is-a類型的匹配l 樣式表匹配的結(jié)果的處理：最熱門(mén)N個(gè)候選；取最大相似度；閾值篩選等。（5）WEB全局搜索界面：把多個(gè)搜索界面集成為

32、一個(gè)以提供給用戶一個(gè)全局的搜索因人而異，無(wú)需用戶逐個(gè)手動(dòng)搜索各個(gè)數(shù)據(jù)源，只需在全局搜索界面上輸入所需的信息即可。l WEB全局搜索界面與普通的信息集成的區(qū)別：在WEB搜索界面中縮寫(xiě)記號(hào)使用非常有限；詞匯有限；WEB中有大量的相似數(shù)據(jù)庫(kù)（網(wǎng)頁(yè)）；附加的結(jié)構(gòu)。l WEB全局搜索界面集成的方法：基于聚類的算法；基于互關(guān)系的方法；基于實(shí)例的方法。l WEB全局搜索界面構(gòu)建步驟：l 一個(gè)良好的全局搜索界面應(yīng)該滿足的條件：結(jié)構(gòu)上的正確性；詞匯的正確性和實(shí)例的正確性。2、主要知識(shí)點(diǎn)（1）信息集成：從單一網(wǎng)站上抽取信息往往是不夠的，需要從大量的站點(diǎn)中提取數(shù)據(jù)，然后對(duì)提取出的數(shù)據(jù)進(jìn)行集成以便提供增值服務(wù)。對(duì)不同

33、的數(shù)據(jù)而言集成意味著匹配出表示同類信息的列，或者匹配出語(yǔ)義相同但是表達(dá)方式不同的值，并可能存放在后臺(tái)數(shù)據(jù)庫(kù)中。（2）信息集成的基本方法：樣式表匹配抽取樣式表樣式表預(yù)處理樣式表層次的匹配（基于語(yǔ)言學(xué)的算法、或基于樣式表中限制的算法）、基于領(lǐng)域和實(shí)例層次的匹配（簡(jiǎn)單領(lǐng)域匹配方法半自動(dòng)的方法或自動(dòng)的方法；復(fù)合領(lǐng)域匹配的方法）、樣式表/領(lǐng)域/實(shí)例整合的匹配；大量樣式表的匹配（借助聚類算法、互關(guān)系或模式發(fā)現(xiàn)算法）樣式表匹配的結(jié)果處理（最熱門(mén)的N個(gè)候選；最大相似度；閾值篩選等）用戶交互（匹配系統(tǒng)搭建；匹配的后期工作）。（3）WEB搜索界面的集成：全局搜索界面的構(gòu)建全局搜索界面樣式表：全局搜索界面構(gòu)建：基

34、于聚類的算法、基于互關(guān)系的方法、基于實(shí)例的方法。基于聚類的算法：了解實(shí)現(xiàn)思想基于互關(guān)系的方法：了解實(shí)現(xiàn)思想基于實(shí)例的方法：了解實(shí)現(xiàn)思想（七） (ch11)觀點(diǎn)挖掘1、基本概念l 背景：從網(wǎng)頁(yè)中抽取的結(jié)構(gòu)化數(shù)據(jù)通常在網(wǎng)頁(yè)設(shè)計(jì)時(shí)是來(lái)自于一個(gè)后臺(tái)的數(shù)據(jù)庫(kù)，并遵循一定的模板格式顯示在網(wǎng)頁(yè)中。此外，網(wǎng)頁(yè)中還存在大量的非結(jié)構(gòu)化的文本信息，包括了所有類型的各種有價(jià)值的信息，分析這些信息是非常重要的。l 觀點(diǎn)挖掘的背景：企業(yè)需要了解用戶對(duì)其產(chǎn)品或服務(wù)的評(píng)價(jià)；新用戶需要知道現(xiàn)有用戶對(duì)某產(chǎn)品或服務(wù)的評(píng)價(jià)；了解評(píng)價(jià)可為廣告放置提供參考等。l 現(xiàn)實(shí)性與可能性：網(wǎng)絡(luò)用戶有多種發(fā)表觀點(diǎn)的方法：商業(yè)網(wǎng)站、產(chǎn)品或服務(wù)評(píng)價(jià)、博

35、客、論壇等。本章內(nèi)容：評(píng)估文本、觀點(diǎn)搜索、觀點(diǎn)欺詐。（1）評(píng)估文本的三個(gè)挖掘任務(wù)：意見(jiàn)分類、基于特征的觀點(diǎn)挖掘和摘要、比較性句子和比較關(guān)系挖掘。（2）觀點(diǎn)挖掘：可以使用戶搜索關(guān)于任何對(duì)象的觀點(diǎn)。（3）觀點(diǎn)欺詐：欺詐性觀點(diǎn)是指有些人為推銷自身產(chǎn)品或服務(wù)?；蛘邠p害競(jìng)爭(zhēng)對(duì)手聲譽(yù)而發(fā)表的那些不切實(shí)際的或者懷有惡意的觀點(diǎn)。l 意見(jiàn)分類：正面評(píng)論、負(fù)面評(píng)論和中立評(píng)論。意見(jiàn)分類主要用于快速判定大眾對(duì)一個(gè)對(duì)象的普遍觀點(diǎn)。該任務(wù)和傳統(tǒng)的基于主題的文本分類相似。但有不同。意見(jiàn)分類中主題相關(guān)的詞匯并不重要，表征正面或負(fù)面觀點(diǎn)的詞匯更加重要。意見(jiàn)分類的研究層次：主要是文檔層次；其次還有句子層次的。意見(jiàn)分類的具體方法：

36、基于意見(jiàn)短語(yǔ)的分類；采用文本分類方法進(jìn)行意見(jiàn)分類；基于評(píng)分函數(shù)進(jìn)行分類。l 基于意見(jiàn)短語(yǔ)的分類：基于各個(gè)評(píng)估文本中正面和負(fù)面的意見(jiàn)詞和短語(yǔ)。算法步驟：基于調(diào)整性標(biāo)注的自然語(yǔ)言處理技術(shù)S1. 抽取包含有形容詞和副詞的短語(yǔ)，采用賓州樹(shù)庫(kù)詞性標(biāo)注集（表11.1）+基于特征的觀點(diǎn)摘要（表11.2）；S2. 采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語(yǔ)的語(yǔ)義傾向（一個(gè)短語(yǔ)的語(yǔ)義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算）；S3. 給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語(yǔ)的平均SO。如果平均SO是正的，則為正面證人否則為負(fù)面評(píng)價(jià)。l 采用文本分類方法進(jìn)行意見(jiàn)分類：將該問(wèn)題作為基于

37、主題的文本分類問(wèn)題，可采用naïve Bayesian, VM, N等方法。l 基于評(píng)分函數(shù)進(jìn)行分類：采用通用評(píng)分函數(shù)，算法步驟為：S1. 在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值，介于11之間；S2.算法將新文檔的所有詞的評(píng)分求和，并給出分類的判斷?；谔卣鞯挠^點(diǎn)挖掘和摘要：一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說(shuō)明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中，評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià)，挖掘往往作用于句子層面。l 定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征產(chǎn)品特征l 判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象：一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品

38、、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū)：（T，A），其中T是一個(gè)層次化或者結(jié)構(gòu)化的部件（或者組件）、子部件等。A是一個(gè)關(guān)于屬性的集合，每個(gè)部件都擁有它自己的子部件或?qū)傩约?。O：數(shù)碼相機(jī)部件：lens,battery,view-finder.Battery: life, size, weight. 顯式特征和隱式特征：如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中，則稱它是r的一個(gè)顯式特征。如果f沒(méi)有在r中出現(xiàn)，則稱其為r的一個(gè)隱式特征。如 the battery life of this camera is too short. This camera is too large.某一特征的觀點(diǎn)

39、段：一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的連續(xù)句子。如：the battery quality is good, but the battery life is short.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn)：一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如：this picture quality of this camera is amazing. The earphone broke in two days.觀點(diǎn)持有對(duì)象：關(guān)于某一特定

40、觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡(jiǎn)要模型：一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合Ff1,f2,fn，每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語(yǔ)Wi的集合。即對(duì)于n個(gè)特征，有一個(gè)對(duì)應(yīng)的同義詞集合WW1，W2，Wn。由于每個(gè)F中的特征fi都有一個(gè)名字（標(biāo)記為fi），可得到fiWi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjÍF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了的特征fkSj，可以從Wk中選擇一個(gè)詞或者短語(yǔ)來(lái)描述該特征，并對(duì)其表達(dá)正面或負(fù)面的觀點(diǎn)。給定一個(gè)評(píng)測(cè)文本集合D作為輸入，則可有如下三個(gè)問(wèn)題：P1：F和W都是未知的，在

41、觀點(diǎn)挖掘中需要挖掘的任務(wù)T1、T2和T3.T1：從每個(gè)評(píng)估dD中定位與抽取被評(píng)估對(duì)象的特征。T2：確定對(duì)于該特征的觀點(diǎn)是正面的、負(fù)面的或中立的。T3：由于不同的人可能采用不同的詞或短語(yǔ)來(lái)描述同樣的特征。需將各個(gè)特征的同義詞進(jìn)行歸并。P2：F已知而W未知。與P1類似有三個(gè)任務(wù)，但處理更簡(jiǎn)單。其中T1與T2同前；但T3可將已發(fā)現(xiàn)的特征與給定特征集合F進(jìn)行匹配而求解。P3：W已知（可以推出F也是已知的）。僅需要進(jìn)行任務(wù)T2，即在抽取所有包含相應(yīng)特征的句子后，確定一個(gè)已知特征上的觀點(diǎn)是正面的，負(fù)面的還是中立的。基于特征的摘要：形成針對(duì)某一對(duì)象的各種觀點(diǎn)的基于特征的摘要。對(duì)象特征提取：主要用在在線產(chǎn)品的

42、評(píng)審上。有三種類型的評(píng)審格式，不同的評(píng)審格式需要不同的技術(shù)進(jìn)行特征提取。格式1：區(qū)分正面、負(fù)面以及細(xì)節(jié)的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn)；此外，還要給出細(xì)節(jié)評(píng)審。格式2：區(qū)分正面和負(fù)面的評(píng)審。評(píng)審者被要求獨(dú)立地描述正面和負(fù)面觀點(diǎn)；但不需要給出獨(dú)立的細(xì)節(jié)評(píng)審。格式3：自由格式。評(píng)審者可以自由地給出評(píng)價(jià)。不必區(qū)分正面或負(fù)面觀點(diǎn)。格式1中特征抽取算法：S1：用于LSR挖掘的訓(xùn)練數(shù)據(jù)準(zhǔn)備；S2：標(biāo)記順序規(guī)則挖掘；找到包含特征的規(guī)則，詞性標(biāo)注和詞形成語(yǔ)言模式； S3：特征抽取，考慮三種情形：l 如果一個(gè)句子片段匹配多個(gè)規(guī)則的處理l 對(duì)于沒(méi)有規(guī)則適用的句子片段，如果存在，被詞性標(biāo)注工具標(biāo)出來(lái)的名

43、詞和名詞短語(yǔ)被抽取為特征；l 對(duì)于只有一個(gè)詞的句子片段，單一詞匯被對(duì)待為特征。隱式特征匹配同義詞分組特征粒度格式2和格式3的特征抽取算法：了解S1：找到所有的調(diào)頻名詞和名詞短語(yǔ)；名詞和名詞短語(yǔ)可能通過(guò)詞性標(biāo)注工具勷S2：通過(guò)利用意見(jiàn)詞找到不頻繁出現(xiàn)的特征。意見(jiàn)詞（又稱觀點(diǎn)詞）通常表達(dá)正面或負(fù)面評(píng)價(jià)的形容詞和副詞。觀點(diǎn)傾向分類：意見(jiàn)詞和短語(yǔ)是那些表達(dá)了正面或負(fù)面意見(jiàn)（觀點(diǎn)）的詞，通常是形容詞和副詞，也可是動(dòng)詞或名詞。已構(gòu)建了意見(jiàn)詞的集合l 人工找到一個(gè)正面或負(fù)面詞匯、成語(yǔ)的種子集合，為形容詞、動(dòng)詞、名詞和副詞、成語(yǔ)等都準(zhǔn)備一個(gè)單獨(dú)的種子集合。l 在WORDNET中迭代地查找它們的同義詞和反義詞，

44、以此擴(kuò)展種子集合直到收斂。l 人工檢查結(jié)果，并去除不正確的詞匯。l 識(shí)別句子的意見(jiàn)詞和短語(yǔ)，是正面的則賦值 +1，負(fù)面的賦值為1，所有的賦值相加，為正則結(jié)論是正面的，否則結(jié)論為負(fù)面的。比較性句子和比較關(guān)系挖掘直接表達(dá)某一對(duì)象的正面或負(fù)面觀點(diǎn)只是評(píng)估的一種形式，將一個(gè)對(duì)象和其他同等對(duì)象進(jìn)行比較是另一種形式。比較也是更能讓人信服的一種方式。分為主觀比較和客觀比較。如the picture quality of camera x is great. 典型句子主觀比較：the picture quality of camera x is better than that of camera y.客觀

45、比較：camera Xis 20 grams heavier than camera y.比較性句子和判定比較關(guān)系是很難的。很多包含比較級(jí)（最高級(jí)）的句子并不是比較格式；而不包含這類詞的句子卻是比較性句子。比較性句子：是一個(gè)表達(dá)了多個(gè)對(duì)象之間的相似或者不同關(guān)系的句子，比較性句子中的比較關(guān)系通常由一個(gè)形容詞或副詞的比較級(jí)或最高級(jí)來(lái)表達(dá)。幾種重要的比較類型：等級(jí)比較和非等級(jí)比較，其中等級(jí)比較可進(jìn)一步分為形容詞和副詞比較。等級(jí)比較包括：不相等的等級(jí)比較、相等等級(jí)的比較、最高級(jí)的比較。非等級(jí)比較比較了兩個(gè)或者多個(gè)對(duì)象的特征，但并不對(duì)他們進(jìn)行分級(jí)?？煞譃槿N類型：對(duì)象A和對(duì)象B在某些特征上相似或者不同；

46、對(duì)象A有特征f1，而對(duì)象B有特征f2；對(duì)象A擁有特征f，但是對(duì)象B沒(méi)有。比較性句子的三種類型：非平等等級(jí)比較；平等比較；最高級(jí)比較。比較關(guān)系的抽?。簂序列數(shù)據(jù)產(chǎn)生：用于挖掘的順序數(shù)據(jù)庫(kù)創(chuàng)建；在數(shù)據(jù)中手工標(biāo)記每個(gè)句子的標(biāo)號(hào)詞.l LSR的生成挖掘規(guī)則系統(tǒng)被用來(lái)生成標(biāo)號(hào)順序規(guī)則。l 關(guān)系項(xiàng)抽取，如使用規(guī)則來(lái)匹配句子，并用具有最高置信度的規(guī)則來(lái)抽取關(guān)系項(xiàng)。觀點(diǎn)搜索包括：1. 搜索某一特定對(duì)象或?qū)ο筇卣魃系挠^點(diǎn)。2. 搜索某一個(gè)人或組織對(duì)某一特定對(duì)象或?qū)ο筇卣鞯目捶āＳ^點(diǎn)欺詐指人們故意誤導(dǎo)讀者和自動(dòng)觀點(diǎn)挖掘系統(tǒng)的行為（比如撰寫(xiě)欺詐性的評(píng)審）。觀點(diǎn)欺詐的目的：推銷某些目標(biāo)對(duì)象；損害某些其他目標(biāo)對(duì)象的聲

47、譽(yù)等。觀點(diǎn)欺詐的行為：為了推銷目標(biāo)對(duì)象撰寫(xiě)一些不切實(shí)際的正面評(píng)審炒作欺詐；為了詆毀某些目標(biāo)對(duì)象的聲譽(yù)，撰寫(xiě)一些不公平或者惡毒的反而評(píng)審誹謗欺詐。欺詐和欺詐者的種類：人工欺詐和自動(dòng)欺詐；個(gè)人欺詐和群組欺詐。隱藏技巧：欺詐者為了避免被檢測(cè)出來(lái)所采取的預(yù)防措施。欺詐檢測(cè)：面向評(píng)論的欺詐檢測(cè)；面向評(píng)論者的欺詐檢測(cè)；面向服務(wù)器的欺詐檢測(cè)。面向評(píng)論的欺詐檢測(cè)：比較內(nèi)容相似性；檢測(cè)評(píng)分和內(nèi)容例外；比較多個(gè)網(wǎng)站的平均打分；檢測(cè)評(píng)分例外。面向評(píng)論者的欺詐檢測(cè)：觀察早期用戶；檢測(cè)早期修正動(dòng)作；比較同一評(píng)論者對(duì)于不同品牌產(chǎn)品的評(píng)論打分；比較評(píng)論時(shí)間。面向服務(wù)器的欺詐檢測(cè)。2、主要知識(shí)點(diǎn)（1）意見(jiàn)分類l 基于意見(jiàn)短語(yǔ)

48、的分類算法：基于各個(gè)評(píng)估文本中正面和負(fù)面的意見(jiàn)詞和短語(yǔ)。算法步驟：基于調(diào)整性標(biāo)注的自然語(yǔ)言處理技術(shù)S1. 抽取包含有形容詞和副詞的短語(yǔ)，采用賓州樹(shù)庫(kù)詞性標(biāo)注集（表11.1）+基于特征的觀點(diǎn)摘要（表11.2）；S2. 采用點(diǎn)對(duì)互信息估計(jì)所抽取的短語(yǔ)的語(yǔ)義傾向（一個(gè)短語(yǔ)的語(yǔ)義傾向SO基于它和正面參考詞“excellent”與負(fù)面詞“poor”的關(guān)聯(lián)程度進(jìn)行計(jì)算）；S3. 給定一個(gè)評(píng)審。算法計(jì)算評(píng)審中所有短語(yǔ)的平均SO。如果平均SO是正的，則為正面證人否則為負(fù)面評(píng)價(jià)。l 采用文本分類方法進(jìn)行意見(jiàn)分類：將該問(wèn)題作為基于主題的文本分類問(wèn)題，可采用naïve Bayesian, VM, N等方法

49、。l 基于評(píng)分函數(shù)進(jìn)行分類：采用通用評(píng)分函數(shù)，算法步驟為：S1. 在訓(xùn)練集中采用評(píng)分公式為每個(gè)詞賦值，介于11之間；S2.算法將新文檔的所有詞的評(píng)分求和，并給出分類的判斷。（2）基于特征的觀點(diǎn)挖掘和摘要：一個(gè)關(guān)于特定對(duì)象的正面評(píng)估文本并不能說(shuō)明作者對(duì)于該對(duì)象的任一方面都有正面的評(píng)價(jià)。在一個(gè)特定產(chǎn)品的評(píng)審中，評(píng)審人通常會(huì)同時(shí)給出一個(gè)產(chǎn)品的正面或負(fù)面評(píng)價(jià)，挖掘往往作用于句子層面。l 定位和抽取評(píng)審者所評(píng)論產(chǎn)品的特征產(chǎn)品特征l 判定對(duì)于特定特征的評(píng)價(jià)是正面的、負(fù)面的還是中立的。對(duì)象：一個(gè)對(duì)象O是指一個(gè)實(shí)體,它可以是一個(gè)產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個(gè)序?qū)：（T，A），其中T是一個(gè)層次

50、化或者結(jié)構(gòu)化的部件（或者組件）、子部件等。A是一個(gè)關(guān)于屬性的集合，每個(gè)部件都擁有它自己的子部件或?qū)傩约稀：數(shù)碼相機(jī)部件：lens,battery,view-finder.Battery: life, size, weight. 顯式特征和隱式特征：如果一個(gè)特征f出現(xiàn)在一個(gè)評(píng)估文本r中，則稱它是r的一個(gè)顯式特征。如果f沒(méi)有在r中出現(xiàn)，則稱其為r的一個(gè)隱式特征。如 the battery life of this camera is too short. This camera is too large.某一特征的觀點(diǎn)段：一個(gè)關(guān)于對(duì)象r的特征f的觀點(diǎn)段是r中一組表達(dá)了關(guān)于f的正面或者負(fù)面觀點(diǎn)的

51、連續(xù)句子。如：the battery quality is good, but the battery life is short.大多數(shù)的研究集中在句子上。每個(gè)段落由一個(gè)單獨(dú)的句子組成。顯式觀點(diǎn)和隱式觀點(diǎn)：一個(gè)關(guān)于特征f的顯式觀點(diǎn)是一個(gè)直接表達(dá)了正面或負(fù)面觀點(diǎn)的主觀句子。一個(gè)關(guān)于特征f的隱式觀點(diǎn)是一個(gè)蘊(yùn)含了正面或負(fù)面觀點(diǎn)的客觀句子。如：this picture quality of this camera is amazing. The earphone broke in two days.觀點(diǎn)持有對(duì)象：關(guān)于某一特定觀點(diǎn)的持有對(duì)象是指擁有這一觀點(diǎn)的人或組織。一個(gè)對(duì)象和該對(duì)象之上的觀點(diǎn)集合的簡(jiǎn)要模型：一個(gè)對(duì)象可以被表示為一個(gè)關(guān)于特征的有限集合Ff1,f2,fn，每一個(gè)F中的特征fi都可以表示為一個(gè)同義詞或者同義短語(yǔ)Wi的集合。即對(duì)于n個(gè)特征，有一個(gè)對(duì)應(yīng)的同義詞集合WW1，W2，Wn。由于每個(gè)F中的特征fi都有一個(gè)名字（標(biāo)記為fi），可得到fiWi。每個(gè)作者或觀點(diǎn)持有對(duì)象j對(duì)一個(gè)特征的子集SjÍF進(jìn)行評(píng)論。對(duì)于每個(gè)觀點(diǎn)持有對(duì)象進(jìn)行評(píng)論了

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點(diǎn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔