文本挖掘與web數(shù)據(jù)挖掘課件

上傳人：o*** IP屬地：貴州上傳時間：2023-09-15 格式：PPT 頁數(shù)：81 大?。?60.60KB 積分：25 舉報 版權申訴

已閱讀5頁，還剩76頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2023/9/14第8章文本挖掘與Web數(shù)據(jù)挖掘

文本挖掘

Web數(shù)據(jù)挖掘>>案例五：跨語言智能學術搜索系統(tǒng)>>案例六：基于內容的垃圾郵件識別>>2023/8/6第8章文本挖掘與Web數(shù)據(jù)挖掘文本挖掘8.1文本挖掘8.1.1分詞8.1.2文本表示與詞權重計算8.1.3文本特征選擇8.1.4文本分類8.1.5文本聚類8.1.6文檔自動摘要2023/9/148.1文本挖掘8.1.1分詞2023/8/68.1.1分詞分詞(詞切分)是指將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程英文：單詞之間以空格作為自然分界符，容易中文：詞沒有一個形式上的分界符，難中文分詞極具挑戰(zhàn)性的問題歧義切分問題：[研究/生]物；學生會|學生會玩魔方未登錄詞問題：新詞(木有、凡客體)，人名等分詞法主要分為以下三大類：基于詞典的方法、基于統(tǒng)計的方法、基于語法分析的方法2023/9/148.1.1分詞分詞(詞切分)是指將連續(xù)的字序列按照一定的規(guī)基于詞典的分詞法正向最大匹配從左開始算起，最大是指從一個設定的長度開始匹配，直到第一個匹配成功就切分成為一個詞逆向最大匹配與正向最大匹配相似，區(qū)別在于從右至左匹配例子：研究生命起源正向匹配結果：研究生/命/起源逆向匹配結果：研究/生命/起源特點：簡單，易實現(xiàn)；正確率受詞典大小限制2023/9/14基于詞典的分詞法正向最大匹配2023/8/6基于統(tǒng)計的分詞法假設：詞是穩(wěn)定的單字組合，直觀地，在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構成一個詞只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典(統(tǒng)計)分詞法基于統(tǒng)計模型的分詞方法是研究熱點，如基于隱馬爾可夫的方法、基于最大熵的方法特點：精度高、詞性標注、命名實體識別；需要語料作支撐2023/9/14基于統(tǒng)計的分詞法假設：詞是穩(wěn)定的單字組合，直觀地，在上下文中基于中文語法的分詞方法通過讓計算機模擬人對句子的理解，達到識別詞的效果其基本思想就是在分詞的同時進行句法、語義分析，利用句法和語義信息來處理歧義現(xiàn)象包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分特點：由于漢語語言知識的籠統(tǒng)、復雜性，基于理解的分詞系統(tǒng)還處在試驗階段2023/9/14基于中文語法的分詞方法通過讓計算機模擬人對句子的理解，達到識常見分詞工具ICTCLAS中國科學院計算技術研究所開發(fā)采用層疊隱馬爾可夫模型中文分詞，詞性標注，命名實體識別，新詞識別支持C/C++/C#/Delphi/Java等主流開發(fā)語言imdict-Chinese-analyzerICTCLAS中文分詞程序基于Java的重新實現(xiàn)采用基于隱馬爾科夫模型的方法直接為Lucene搜索引擎提供簡體中文分詞支持2023/9/14常見分詞工具ICTCLAS2023/8/6常見分詞工具(續(xù))IKAnalyzer采用特有的“正向迭代最細粒度切分算法”基于Java語言開發(fā)的輕量級開源分詞工具包60萬字/秒的高速處理能力簡易中文分詞系統(tǒng)SCWShightman個人開發(fā)采用標準C開發(fā)提供

C接口、PHP擴展(源碼、WIN32的DLL文件)2023/9/14常見分詞工具(續(xù))IKAnalyzer2023/8/6常見分詞工具(續(xù))盤古分詞基于.netFramework的中英文分詞組件中文未登錄詞識別、人名識別、多元分詞等功能支持英文專用詞識別、英文原詞輸出、英文大小寫同時輸出等單線程分詞速度為390KB/s，雙線程分詞速度為690KB/s(

CoreDuo1.8GHz)其它

Paoding(庖丁解牛分詞)、HTTPCWS、MMSEG4J以及CC-CEDICT等2023/9/14常見分詞工具(續(xù))盤古分詞2023/8/68.1.2文本表示與詞權重計算

目前文本表示主要是采用向量空間模型(VectorSpaceModel，VSM)每個文本被表示為在一個高維詞條空間中的一個向量詞條權重wi,j一般采用TF×IDF方法來計算得到2023/9/148.1.2文本表示與詞權重計算

目前文本表示主要是采用向量8.1.3文本特征選擇文本特征選擇是根據(jù)某種準則從原始特征中選擇部分最有區(qū)分類別能力的特征主要分為無監(jiān)督和有監(jiān)督的方法常用的方法有以下幾種文檔頻率(DocumentFrequency，DF)單詞權(TermStrength，TS)信息增益(InformationGain，IG)互信息(MutualInformation，MI)期望交叉熵(ExpectedCrossEntropy，ECE)2023/9/148.1.3文本特征選擇文本特征選擇是根據(jù)某種準則從原始特征基于文檔頻率的方法文檔頻率是指所有訓練文本中出現(xiàn)某個特征詞的頻率是一種無監(jiān)督的方法通常會分別設置一個小的閾值和大的閾值來過濾一些低頻詞和頻數(shù)特別高的詞特點優(yōu)點：簡單、易行缺點：低頻詞有時能很好反映類別信息；忽略了特征詞在文檔中出現(xiàn)的次數(shù)2023/9/14基于文檔頻率的方法文檔頻率是指所有訓練文本中出現(xiàn)某個特征詞的基于信息增益的方法根據(jù)某個特征詞t在一篇文檔中出現(xiàn)或者不出現(xiàn)的次數(shù)來計算為分類所能提供的信息量，并根據(jù)該信息量大小來衡量特征詞的重要程度，進而決定特征詞的取舍信息增益是最常用的文本特征選擇方法之一特點：該方法只考察特征詞對整個分類的區(qū)分能力，不能具體到某個類別上2023/9/14基于信息增益的方法根據(jù)某個特征詞t在一篇文檔中出現(xiàn)或者不出現(xiàn)8.1.4文本分類文本自動分類(簡稱“文本分類”)是在預定義的分類體系下，根據(jù)文本的特征(詞條或短語)，將給定文本分配到特定一個或多個類別的過程基本步驟可以分為三步：將預先分過類的文本作為訓練集輸入構建分類模型對新輸入的文本進行分類常見的算法包括：線性分類器、k最近鄰分類器、樸素貝葉斯、決策樹、支持向量機分類器2023/9/148.1.4文本分類文本自動分類(簡稱“文本分類”)是在預定樸素貝葉斯分類器貝葉斯分類算法有兩種模型：多變量伯努利事件模型和多項式事件模型多變量伯努利事件模型特征詞在文本中出現(xiàn)則權重為1，否則權重為0。不考慮特征詞的出現(xiàn)順序，忽略詞出現(xiàn)的次數(shù)多項式事件模型一篇文檔被看作是一系列有序排列的詞的集合2023/9/14樸素貝葉斯分類器貝葉斯分類算法有兩種模型：多變量伯努利事件模常用基準語料Reuters-21578是最常用的公開英文語料庫21578篇新聞報道135個類別20Newsgroups是重要的公開英文語料庫大致20000篇新聞組文檔6個不同的主題以及20個不同類別的新聞組TanCorp是公開的中文基準語料庫收集文本14150篇分為兩個層次。第一層12個類別，第二層60個類別2023/9/14常用基準語料Reuters-21578是最常用的公開英文語料常用基準語料(續(xù))復旦大學中文文本分類語料庫測試語料共9833篇文檔，訓練語料共9804篇文檔包含20個類別其它語料庫還包括OHSUMED、WebKB、TREC系列和TDT系列等2023/9/14常用基準語料(續(xù))復旦大學中文文本分類語料庫2023/8/6模型評估文本自動分類通常是不平衡的分類任務，常用的分類準確率(Accuracy)指標并不合適一般使用每個類的F-measure值以及全部類F-measure值的平均來評估算法的性能其中，r表示每個類的召回率(Recall)，p表示每個類的精度(Precision)，通常β取值為1，也就是經(jīng)常被使用到的F1值2023/9/14模型評估文本自動分類通常是不平衡的分類任務，常用的分類準確率模型評估(續(xù))語料上的整體性能，通常采用微平均和宏平均方法微平均是根據(jù)所有類準確劃分文本個數(shù)和錯誤劃分文本個數(shù)來計算精度和召回率宏平均則是計算每個類別得到的精度和召回率的平均值在不平衡數(shù)據(jù)分類上，宏平均方法更能反映出分類器的性能。2023/9/14模型評估(續(xù))語料上的整體性能，通常采用微平均和宏平均方法28.1.5文本聚類自動化程度較高的無監(jiān)督機器學習方法,不需要預先對文檔手工標注類別主要任務是把一個文本集分成若干個稱為簇的子集，然后在給定的某種相似性度量下把各個文檔分配到與最其相似的簇中相似性度量方法在此過程起著至關重要的作用2023/9/148.1.5文本聚類自動化程度較高的無監(jiān)督機器學習方法,不需文本相似度計算方法主要分為兩大類：基于語料庫統(tǒng)計的方法和基于語義理解的方法基于語料庫統(tǒng)計的方法：基于漢明距離和基于空間向量模型的方法漢明距離用來描述兩個等長碼字對應位置的不同字符的個數(shù)，從而計算出兩個碼字的相似度基于空間向量模型方法是一種簡單有效的方法2023/9/14文本相似度計算方法主要分為兩大類：基于語料庫統(tǒng)計的方法和基于文本相似度計算(續(xù))基于語義理解的方法：考慮語義信息的文本相似度計算方法該方法主要分為三大類：詞語相似度、句子相似度、段落相似度計算詞語相似度往往需要一部語義詞典作為支持，目前使用頻率最高的語義詞典是《知網(wǎng)》句子相似度計算要通過利用語法結構來分析漢語句子機構相當復雜，段落相似度計算更復雜2023/9/14文本相似度計算(續(xù))基于語義理解的方法：考慮語義信息的文本相文本聚類過程以K-means算法詳細介紹文本聚類的過程任意選擇k個文本作為初始聚類中心Repeat

計算輸入文本與簇之間的相似度，將文本分配到最相似的簇中

更新簇質心向量Until簇質心不再發(fā)生變化2023/9/14文本聚類過程以K-means算法詳細介紹文本聚類的過程202評估指標外部質量準則的聚類熵、聚類精度文本分類方法的召回率、精度、F-measure值文本聚類算法整體性能的評估宏平均或微平均F-measure值聚類熵2023/9/14評估指標外部質量準則的聚類熵、聚類精度2023/8/68.1.6文檔自動摘要文檔自動摘要，簡稱自動文摘，是指利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文處理過程大致可分為三個步驟：文本分析過程信息轉換過程重組源表示內容，生成文摘并確保文摘的連貫性2023/9/148.1.6文檔自動摘要文檔自動摘要，簡稱自動文摘，是指利用文檔自動摘要的類型按不同標準，文檔自動摘要可分為不同類型：根據(jù)文摘的功能劃分，指示型文摘、報道型文摘和評論型文摘根據(jù)輸入文本的數(shù)量劃分，單文檔文摘和多文檔文摘根據(jù)原文語言種類劃分，單語言文摘和跨語言文摘根據(jù)文摘和原文的關系劃分，摘錄型文摘和理解型文摘根據(jù)文摘的應用劃分，普通型文摘和面向用戶查詢文摘2023/9/14文檔自動摘要的類型按不同標準，文檔自動摘要可分為不同類型：2相關技術文檔自動摘要技術主要有以下幾種類型自動摘錄法最大邊緣相關自動文摘法基于理解的自動文摘基于信息抽取的自動文摘基于結構的自動文摘基于LSI語句聚類的自動文摘2023/9/14相關技術文檔自動摘要技術主要有以下幾種類型2023/8/6相關技術(續(xù))自動摘錄法將文本看成是句子的線性排列，將句子看成詞的線性排列，然后從文本中摘錄最重要的句子作為文摘句最大邊緣相關法從文本中挑選出與該文本最相關的，同時與已挑選出的所有代表句最不相關的句子作為下一個代表句基于理解的方法利用語言學知識獲取語言結構，更重要的是利用領域知識進行判斷、推理，得到文摘的語義表示，從語義表示中生成摘要2023/9/14相關技術(續(xù))自動摘錄法將文本看成是句子的線性排列，將句子看相關技術(續(xù))基于信息抽取的方法首先根據(jù)領域知識建立該領域的文摘框架，然后使用信息抽取方法先對文本進行主題識別，再對文本中有用片段進行有限深度的分析，最后利用文摘模板將文摘框架中內容轉換為文摘輸出基于結構的方法將文章視為句子的關聯(lián)網(wǎng)絡，與很多句子都有聯(lián)系的中心句被確認為文摘句，句子間的關系可通過詞間關系、連接詞等確定2023/9/14相關技術(續(xù))基于信息抽取的方法首先根據(jù)領域知識建立該領域的相關技術(續(xù))基于LSI語句聚類的方法利用潛在語義索引LSI(LatentSemanticIndexing)，獲得特征項和文本的語義結構表示。在語義空間考慮特征項權重不是依賴于單純的詞頻信息，而是考慮到特征項對于文本主題的表現(xiàn)能力以及在整個文本集中使用的模式。2023/9/14相關技術(續(xù))基于LSI語句聚類的方法利用潛在語義索引LSI相關技術(續(xù))以上方法普遍會面臨以下三個關鍵問題的挑戰(zhàn)文檔冗余信息的識別和處理重要信息的辨認生成文摘的連貫性2023/9/14相關技術(續(xù))以上方法普遍會面臨以下三個關鍵問題的挑戰(zhàn)202性能評估自動文摘包含標準文摘的信息比率是內部測評中對文摘內容完整性的一種重要測評幾個主流的評價方法：單文檔文摘評價系統(tǒng)(SummaryEvaluationEnvironment)ROUGEPyramidBE(BasicElements)方法2023/9/14性能評估自動文摘包含標準文摘的信息比率是內部測評中對文摘內容8.2Web數(shù)據(jù)挖掘8.2.1Web內容挖掘8.2.2Web使用挖掘8.2.3Web結構挖掘2023/9/148.2Web數(shù)據(jù)挖掘8.2.1Web內容挖掘2023/88.2.1Web內容挖掘Web內容挖掘是從Web頁面的文本、圖像、視頻和組成頁面的其它內容中提取信息的過程Web內容挖掘在Web搜索、垃圾郵件過濾、敏感信息過濾、情報分析、數(shù)字圖書館建設、網(wǎng)絡輿情監(jiān)控等方面有著重要的應用價值文本挖掘技術可應用于Web頁面的文本挖掘中圖像和視頻等內容的挖掘是多媒體數(shù)據(jù)挖掘中的重要部分主要方法也是數(shù)據(jù)預處理、分類、聚類、關聯(lián)規(guī)則2023/9/148.2.1Web內容挖掘Web內容挖掘是從Web頁面的文本8.2.2Web使用挖掘Web使用挖掘通過挖掘Web日志記錄，發(fā)現(xiàn)用戶訪問Web頁面的模式可以識別電子商務的潛在客戶增強對最終用戶的因特網(wǎng)信息服務的質量和交互改進Web服務器系統(tǒng)性能2023/9/148.2.2Web使用挖掘Web使用挖掘通過挖掘Web日志記數(shù)據(jù)收集Web使用記錄挖掘中的主要數(shù)據(jù)來源是服務器日志文件，主要可分為以下四種類型數(shù)據(jù)使用記錄數(shù)據(jù)：首要的數(shù)據(jù)來源內容數(shù)據(jù)：由文字材料和圖片組成結構數(shù)據(jù)：從設計者的角度所看到的網(wǎng)站內容組織結構用戶數(shù)據(jù)：包括注冊用戶人口統(tǒng)計信息(如性別、年齡、職業(yè)等)、用戶對各種對象的訪問率、用戶的購買記錄或歷史訪問記錄等2023/9/14數(shù)據(jù)收集Web使用記錄挖掘中的主要數(shù)據(jù)來源是服務器日志文件，預處理2023/9/14Web日志文件數(shù)據(jù)清理用戶識別會話識別預處理結果事務識別路徑補充站點結構統(tǒng)計訪問預處理2023/8/6Web數(shù)據(jù)清理用戶識別會話識別預處理結Web使用模式的發(fā)現(xiàn)和分析會話及訪問者分析在已預處理的會話數(shù)據(jù)中，發(fā)現(xiàn)訪問者行為的知識使用記錄聚類分析用戶聚類：用戶聚類的目的是對具有相同瀏覽模式的用戶進行分組頁面聚類：在基于使用記錄數(shù)據(jù)的聚類中，被經(jīng)常訪問的項目或購買記錄可能被自動組織成一個個分組2023/9/14Web使用模式的發(fā)現(xiàn)和分析會話及訪問者分析2023/8/6Web使用模式的發(fā)現(xiàn)和分析(續(xù))關聯(lián)規(guī)則及相關度分析可以找到普遍在一起被訪問或被購買的頁面或項目的分組可以用在Web個性化推薦系統(tǒng)中在電子商務的推薦系統(tǒng)中使用關聯(lián)規(guī)則，目標用戶的偏好是符合每個規(guī)則前項X中的項目，而在右側的項目所符合的規(guī)則按照置信度排序，這個列表中排名靠前的N個項目便可考慮推薦給目標用戶問題：若數(shù)據(jù)集稀疏，則無法給出任何推薦解決方案：協(xié)同過濾2023/9/14Web使用模式的發(fā)現(xiàn)和分析(續(xù))關聯(lián)規(guī)則及相關度分析2023Web使用模式的發(fā)現(xiàn)和分析(續(xù))導航模式分析要發(fā)現(xiàn)或分析用戶導航模式，一種方法是將網(wǎng)站中導航活動建模成Markov模型Markov模型：每個頁面訪問可以被表示成一個狀態(tài)，兩個狀態(tài)間的轉換概率可以表示用戶從一個狀態(tài)到另一個狀態(tài)的可能性。這種表示方式允許計算一些有用的用戶或網(wǎng)站的度量2023/9/14Web使用模式的發(fā)現(xiàn)和分析(續(xù))導航模式分析2023/8/6Web使用模式的發(fā)現(xiàn)和分析(續(xù))基于Web用戶事務的分類和預測在Web使用實例中，基于用戶人口統(tǒng)計信息以及他們的購買活動，分類技術可以將用戶分成高購買傾向和非高購買傾向兩類協(xié)同過濾是Web領域分類和預測中的一個重要應用k近鄰分類器(kNN)是一種簡單有效的協(xié)同過濾方法，通過計算當前用戶模型和以往用戶模型的相關度，預測用戶訪問率或購買傾向，以找到數(shù)據(jù)庫中有著相似特性和偏好的用戶2023/9/14Web使用模式的發(fā)現(xiàn)和分析(續(xù))基于Web用戶事務的分類和預8.2.3Web結構挖掘Web結構挖掘就是指通過分析不同網(wǎng)頁之間的超鏈接結構，網(wǎng)頁內部用HTML、XML表示的樹形結構，以及文檔URL中的目錄路徑結構等，發(fā)現(xiàn)許多蘊含在網(wǎng)絡內容之外的對我們有潛在價值的模式和知識的過程Web頁之間的超鏈接結構中包含了許多有用的信息。當網(wǎng)頁A到網(wǎng)頁B存在一個超鏈接時，則說明網(wǎng)頁A的作者認為網(wǎng)頁B的內容非常重要，且兩個網(wǎng)頁的內容具有相似的主題2023/9/148.2.3Web結構挖掘Web結構挖掘就是指通過分析不同網(wǎng)PageRank算法目前對Web結構進行分析的主要方法是將Web看作有向圖，然后根據(jù)一定的啟發(fā)規(guī)則，用圖論的方法對其進行分析PageRank算法是超鏈接結構分析中最成功的代表之一搜索引擎Google就是通過利用該算法和anchortext標記、詞頻統(tǒng)計等因素相結合的方法，對檢索出的大量結果進行相關度排序，將最權威的網(wǎng)頁盡量排在前面2023/9/14PageRank算法目前對Web結構進行分析的主要方法是將WPageRank算法(續(xù))PageRank算法假設從一個網(wǎng)頁指向另一個網(wǎng)頁的超鏈接是一種對目標網(wǎng)站權威的隱含認可，因此，一個頁面的入度越大則它的權威就越高另一方面，指向網(wǎng)頁自身也有權威值，一個擁有高權威值網(wǎng)頁指向的網(wǎng)頁比一個擁有低權威值網(wǎng)頁指向的網(wǎng)頁更加重要，如果一個網(wǎng)頁被其它重要網(wǎng)頁所指向，那么該網(wǎng)頁也很重要2023/9/14PageRank算法(續(xù))PageRank算法假設2023/HITS算法

Web的鏈接具有以下特征有些鏈接具有注釋性，也有些鏈接是起導航或廣告作用。有注釋性的鏈接才用于權威判斷基于商業(yè)或競爭因素考慮，很少有Web網(wǎng)頁指向其競爭領域的權威網(wǎng)頁權威網(wǎng)頁很少具有明顯的描述，例如Google主頁不會明確給出Web搜索引擎之類的描述信息PageRank算法中對于向外鏈接的權值貢獻是平均的，但根據(jù)以上Web的鏈接特征可看出平均地分布權值不符合鏈接的實際情況2023/9/14HITS算法

Web的鏈接具有以下特征2023/8/6HITS算法(續(xù))康奈爾大學博士J.Kleinberg提出的HITS(HypertextInducedTopicSearch)算法在算法中引入了另外一種網(wǎng)頁，稱為Hub網(wǎng)頁Hub網(wǎng)頁是提供指向權威網(wǎng)頁(Authority)鏈接集合的Web網(wǎng)頁，它本身可能并不重要，但是Hub網(wǎng)頁卻提供了指向就某個主題而言最為重要的站點的鏈接集合Kleinberg認為網(wǎng)頁的重要性應該依賴于用戶提出的檢索主題，而且對每一個網(wǎng)頁應該將其Authority權重和Hub權重分開來考慮2023/9/14HITS算法(續(xù))康奈爾大學博士J.Kleinberg提出HITS算法(續(xù))根據(jù)頁面之間的超鏈接結構，將頁面分為Authority頁和Hub頁一般來說，好的Hub網(wǎng)頁指向許多好的Authority網(wǎng)頁，好的Authority網(wǎng)頁是由許多好的Hub網(wǎng)頁指向的Web網(wǎng)頁。這種Hub與Authority網(wǎng)頁之間的相互加強關系，可用于Authority網(wǎng)頁的發(fā)現(xiàn)和Web結構和資源的自動發(fā)現(xiàn)，這就是HITS算法的基本思想2023/9/14HITS算法(續(xù))根據(jù)頁面之間的超鏈接結構，將頁面分為AutHITS算法(續(xù))HITS算法如下將查詢q提交給傳統(tǒng)的基于關鍵字匹配的搜索引擎從搜索引擎返回的網(wǎng)頁中取前n(在介紹的HITS論文中采用n=200)個網(wǎng)頁作為根集(rootset)，用S表示通過向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁將S擴展成基集T接著算法對基集T內部的每個網(wǎng)頁進行處理，計算T中每個網(wǎng)頁的Authority值和Hub值迭代計算并輸出一組具有較大Hub值的頁面和具有較大Authority值的頁面2023/9/14HITS算法(續(xù))HITS算法如下2023/8/6PageRank與HITS算法的對比處理對象和算法效率不同PageRank算法可以離線計算每個網(wǎng)頁的PageRank值，能對用戶查詢產(chǎn)生快速的響應HITS算法由根集S生成基集T的時間開銷很昂貴，實時性較差傳播模型不同PageRank算法是基于隨機游走類型的HITS算法將網(wǎng)頁分為Authority網(wǎng)頁和Hub網(wǎng)頁，Authority網(wǎng)頁和Hub網(wǎng)頁交互傳播，相互加強2023/9/14PageRank與HITS算法的對比處理對象和算法效率不同2PageRank與HITS算法的對比(續(xù))反網(wǎng)頁作弊能力不同PageRank算法能較好地防止網(wǎng)頁作弊的發(fā)生HITS算法則沒有這樣好的反作弊能力，因為網(wǎng)頁擁有者可以很容易地在自己的網(wǎng)頁上添加大量指向權威網(wǎng)頁的鏈接，進而影響HITS算法得到的Authority值和Hub值“主題漂移”問題HITS算法存在“主題漂移”問題PageRank則較好地克服了“主題漂移”問題2023/9/14PageRank與HITS算法的對比(續(xù))反網(wǎng)頁作弊能力不同8.3跨語言智能學術搜索系統(tǒng)8.3.1混合語種文本分詞8.3.2基于機器翻譯的跨語言信息檢索8.3.3不同語種文本的搜索結果聚類8.3.4基于聚類的個性化信息檢索8.3.5基于聚類的查詢擴展8.3.6其它檢索便利工具8.3.7系統(tǒng)性能評估2023/9/148.3跨語言智能學術搜索系統(tǒng)8.3.1混合語種文本分詞28.3.1混合語種文本分詞漢語詞法分析系統(tǒng)ICTCLAS中文分詞；詞性標注；關鍵詞提??；命名實體識別；未登錄詞識別分詞正確率高達97.58%(973專家組評測)；未登錄詞識別召回率均高于90%，其中中國人名的識別召回率接近98%；處理速度為31.5Kbytes/sLucene高性能文本分析器，可根據(jù)單詞間的空格進行分詞大小寫轉換、不規(guī)則符號過濾、停用詞過濾(Stopwordsfiltering)、詞干提取(Stemming)2023/9/148.3.1混合語種文本分詞漢語詞法分析系統(tǒng)ICTCLAS2整合ICTCLAS和Lucene混合語種分詞策略：輸入一個文本；

采用ICTCLAS對所輸入文本進行中文分詞以及詞性標注處理；提取標注為“x”詞性字符串，采用Lucene標準分析器(StandardAnalyzer)進行第二趟分詞，對輸入字符串進行大小寫轉換、不規(guī)則符號過濾、停用詞過濾、詞干提??；文本是否已經(jīng)處理完，如果否則轉(1)；結束。2023/9/14整合ICTCLAS和Lucene混合語種分詞策略：2023/8.3.2基于機器翻譯的跨語言信息檢索基于統(tǒng)計的機器翻譯方法已經(jīng)具備用戶可接受的準確率Google翻譯是基于統(tǒng)計方法的機器翻譯研究結合Google翻譯和元搜索技術實現(xiàn)基于機器翻譯的跨語言學術檢索2023/9/148.3.2基于機器翻譯的跨語言信息檢索基于統(tǒng)計的機器翻譯方實現(xiàn)流程：用戶輸入查詢詞并選擇目標語言；若目標語言與源語言(查詢詞所屬語言)相同則轉(3)，否則將查詢詞翻譯成目標語言，作為新的查詢詞；將查詢詞提交到搜索源；返回搜索結果。2023/9/14實現(xiàn)流程：2023/8/68.3.3不同語種文本的搜索結果聚類

對不同語種文本采用不同的聚類算法：使用Lingo搜索結果聚類算法對西語文本進行聚類處理采用一趟聚類算法對中文搜索返回結果進行增量多層聚類2023/9/148.3.3不同語種文本的搜索結果聚類

對不同語種文本采用8.3.4基于聚類的個性化信息檢索個性化信息檢索主要是通過用戶興趣模型對搜索返回結果進行個性化重排序和個性化過濾返回結果等方式實現(xiàn)介紹方法的流程：觀察用戶對聚類結果的點擊行為，實時提取用戶的興趣偏好生成并更新用戶實時興趣模型采用余弦夾角公式計算興趣模型與搜索結果相似度按照相似度從大到小對其進行重排序，以實現(xiàn)個性化的檢索需求2023/9/148.3.4基于聚類的個性化信息檢索個性化信息檢索主要是通過8.3.5基于聚類的查詢擴展通過查詢擴展技術，搜索引擎系統(tǒng)能較好地理解用戶的查詢意圖采用基于局部分析的聚類分析方法選取可讀性強的聚類結果類標簽作為擴展詞提供交互式的擴展詞選擇方式2023/9/148.3.5基于聚類的查詢擴展通過查詢擴展技術，搜索引擎系統(tǒng)8.3.6其它檢索便利工具面向文獻來源網(wǎng)站(URL)的層次歸類方法“.com”、“.cn”“.”“”基于文獻發(fā)表期刊或者會議的歸類方法引用文獻聚類功能按相似度排序、按時間排序、按被引用次數(shù)排序2023/9/148.3.6其它檢索便利工具面向文獻來源網(wǎng)站(URL)的層次8.3.7系統(tǒng)性能評估系統(tǒng)的分詞速度為111kb/sMTCLIR(MachineTranslationCLIR)的短查詢詞、中查詢詞和長查詢平均準確率分別為0.4446、0.5536和0.617MCIBC和Lingo的微平均F-Measure值分別達到了0.4917和0.5178個性化排序方法得到了較高的P@5、P@10和P@20值(均高于0.5)2023/9/148.3.7系統(tǒng)性能評估系統(tǒng)的分詞速度為111kb/s20部分系統(tǒng)截圖2023/9/14部分系統(tǒng)截圖2023/8/62023/9/142023/8/62023/9/142023/8/62023/9/142023/8/62023/9/142023/8/68.4基于內容的垃圾郵件識別8.4.1垃圾郵件識別方法簡介8.4.2基于內容的垃圾郵件識別方法工作原理8.4.3一種基于聚類的垃圾郵件識別方法2023/9/148.4基于內容的垃圾郵件識別8.4.1垃圾郵件識別方法簡8.4.1垃圾郵件識別方法簡介主流的垃圾郵件識別技術可分為郵件服務器端防范技術和郵件客戶端防范技術兩大類郵件服務器端防范技術：基于IP地址、域名和“(黑)白名單”過濾技術；基于信頭、信體、附件的內容過濾技術；基于連接頻率的動態(tài)規(guī)則技術；郵件客戶端防范技術：充分利用黑名單，白名單功能；慎用“自動回復”功能；盡量避免泄露郵件地址；2023/9/148.4.1垃圾郵件識別方法簡介主流的垃圾郵件識別技術可分為基于內容的垃圾郵件識別技術基于內容的垃圾郵件識別技術是郵件服務器端防范技術的主流技術，以上提到的基于信頭、信體、附件的內容過濾技術是典型的基于內容的方法這類型方法的典型代表有Bayes方法、kNN、支持向量機SVM、Rocchio、神經(jīng)網(wǎng)絡等2023/9/14基于內容的垃圾郵件識別技術基于內容的垃圾郵件識別技術是郵件服8.4.2基于內容的垃圾郵件識別方法工作原理一封標準格式的電子郵件包含有郵件頭部(mailhead)和郵件體(mailbody)兩部分郵件頭部包括發(fā)件人，收件人，抄送人，發(fā)信日期，主題，附件等信息郵件體包括郵件正文信息實例圖如下：2023/9/148.4.2基于內容的垃圾郵件識別方法工作原理一封標準格式的2023/9/142023/8/6垃圾郵件過濾的基礎在不考慮附件、圖片化文字等問題，只簡單考慮郵件中包含的文本內容情況下，這類垃圾郵件大概占總垃圾郵件數(shù)量的80%垃圾郵件過濾的基礎是識別出所接收到郵件是正常郵件還是垃圾郵件，而這個識別過程可以看作是一

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本挖掘與web數(shù)據(jù)挖掘課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔