




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘中的文本挖掘的分類算法綜述2015 級計算機科學(xué)與技術(shù)專業(yè)(專升本)田林玉 150907190108摘要隨著科技的發(fā)展和網(wǎng)絡(luò)普及 ,網(wǎng)絡(luò)上的文檔信息不斷地增加 ,文本處理和分類 成為大數(shù)據(jù)的關(guān)鍵技術(shù) .大數(shù)據(jù)多數(shù)是以文本形式存在 ,所以文本挖掘技術(shù)具有極 強的應(yīng)用與極高的商業(yè)價值 ,但其挖掘技術(shù)面臨著難以克服的問題 ,本文對文本挖 掘進行概述包括 文本挖掘的研究 ,文本挖掘算法以及在各領(lǐng)域的應(yīng)用 ,等進行探討 , 最后舉例說名文本挖掘問題 .關(guān)鍵詞:數(shù)據(jù)挖掘,文本挖掘,文本分類算法ABSTRACTWith the development of Web 2.0, the number o
2、f documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the meth
3、ods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classific
4、ation algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work.KEYWORDS :data mining, text mining, text classification algorithms,KNN目錄摘要 1
5、.ABSTRACT 1.第六章 結(jié)論 2.2.參考文獻 2.3.、文本挖掘1.1 文本挖掘介紹文本挖掘是指從數(shù)據(jù)中抽取文本中事先未知的、 讓人容易理解的、 最終可用的知 識的過程,運用這些知識更好地組織信息以便把文本型信息源作為分析的對象, 利用定量計算和定性分析的方法,從中尋找信息的結(jié)構(gòu)、模型、 模式等各種隱含 的知識,這種知識對用戶而言是新穎的,具有潛在價值。直觀的說,當(dāng)數(shù)據(jù)挖掘 的對象完全由文本這種數(shù)據(jù)類型組成時, 這個過程就稱為文直觀的說, 當(dāng)數(shù)據(jù)挖 掘的對象完全由文本這種數(shù)據(jù)類型組成時, 這個過程就是文本挖掘。 文本挖掘也 稱為文本數(shù)據(jù)挖掘。1.1.2 文本挖掘的概述 文本挖掘涵蓋多
6、種技術(shù) ,包括信息抽取 ,信息檢索 ,自然語言處理和數(shù)據(jù)挖掘技術(shù)。 它的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識, 但是文本挖掘也是 一項非常困難的工作 ,因為它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù) 所以它是一個多學(xué)科混雜的領(lǐng)域 ,涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計 學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。文本挖掘在商業(yè) 智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用。例如,客戶關(guān)系管理, 自動郵件回復(fù),垃圾郵件過濾,自動簡歷評審,搜索引擎等等。2.2 文本挖掘的過程(1)文本準備階段是對文本進行選擇、凈化和預(yù)處理的過程,用來確定文 本型信息源以及信息源
7、中用于進一步分析的文本。 具體任務(wù)包括詞性的標注、 句 子和段落的劃分、信息過濾等。(2)特征標引是指給出文本內(nèi)容特征的過程,通常由計算機系統(tǒng)自動選擇 一組主題詞或關(guān)鍵詞可以作為文本的特征表示。(3)詞頻矩陣將維就是自動從原始特征集中提取出部分特征的過程,一般 通過兩種途徑:一是根據(jù)對樣本集的統(tǒng)計分析刪除不包含任何信息或只包含少量 信息的特征;二是將若干低級特征合成一個新特征。(4)知識模式的提取是發(fā)現(xiàn)文本中的不同實體、實體間概念關(guān)系以及文本 中其他類型的隱含知識的過程。(5)知識模式評價階段的任務(wù)是從提取出的知識模式集合中篩選出用戶感 興趣的、有意義的知識模式。(6)知識模式輸出的任務(wù)是將挖
8、掘出來的知識模式以多種方式提交給用戶。 文本挖掘可以完成不同文檔的比較, 以及文檔重要性和相關(guān)性排列, 或者找出多文檔的模式及趨勢。2.3 文本挖掘技術(shù)文本挖掘不但要處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔數(shù)據(jù) , 而且還要處理其 中復(fù)雜的語義關(guān)系 , 因此 , 現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。對于非結(jié) 構(gòu)化問題 , 一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結(jié)構(gòu)化數(shù)據(jù)進行挖掘 , 由于數(shù)據(jù)非常復(fù)雜 , 導(dǎo)致這種算法的復(fù)雜性很高 ; 另一條途徑就是將非結(jié)構(gòu)化問 題結(jié)構(gòu)化 , 利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進行挖掘 , 目前的文本挖掘一般采用該途徑 進行。對于語義關(guān)系 , 則需要集成計算語言學(xué)和自然語言處理
9、等成果進行分析。 我們按照文本挖掘的過程介紹其涉及的主要技術(shù)及其主要進展。2.3.1 數(shù)據(jù)預(yù)處理技術(shù)預(yù)處理技術(shù)主要包括 Stemming( 英文) / 分詞( 中文 ) 、特征表示和特征提 取。與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比 , 文本具有有限的結(jié)構(gòu) , 或者根本就沒有結(jié)構(gòu)。 此外 , 文檔的內(nèi)容是人類所使用的自然語言 , 計算機很難處理其語義。文本信息 源的這些特殊性使得數(shù)據(jù)預(yù)處理技術(shù)在文本挖掘中更加重要。(1)分詞技術(shù)在對文檔進行特征提取前 , 需要先進行文本信息的預(yù)處理 , 對英文而言需進 行 Stemming 處理 , 中文的情況則不同 , 因為中文詞與詞之間沒有固有的間隔符 ( 空格 )
10、, 需要進行分詞處理。目前主要有基于詞庫的分詞算法和無詞典的分詞 技術(shù)兩種?;谠~庫的分詞算法包括正向最大匹配、正向最小匹配、逆向匹配及逐詞遍 歷匹配法等。這類算法的特點是易于實現(xiàn) , 設(shè)計簡單 ; 但分詞的正確性很大程度 上取決于所建的詞庫。 因此基于詞庫的分詞技術(shù)對于歧義和未登錄詞的切分具有 很大的困難。楊斌等在分析了最大匹配法的特點后 , 提出了一種改進的算法。該 算法在允許一定的分詞錯誤率的情況下 , 能顯著提高分詞效率 , 其速度優(yōu)于傳統(tǒng) 的最大匹配法。鄒濤等采用了基于詞典的正向逐詞遍歷匹配法 , 取得了較好的效 果。基于無詞典的分詞技術(shù)的基本思想是 : 基于詞頻的統(tǒng)計 ,將原文中任
11、意前后 緊鄰的兩個字作為一個詞進行出現(xiàn)頻率的統(tǒng)計 , 出現(xiàn)的次數(shù)越高 , 成為一個詞的 可能性也就越大 , 在頻率超過某個預(yù)先設(shè)定的閾值時 , 就將其作為一個詞進行索 引。這種方法能夠有效地提取出未登錄詞。(2)特征表示文本特征指的是關(guān)于文本的元數(shù)據(jù) , 分為描述性特征 ( 如文本的名稱、 日期、 大小、類型等 ) 和語義性特征 ( 如文本的作者、機構(gòu)、標題、內(nèi)容等 ) 。特征表 示是指以一定特征項 ( 如詞條或描述 ) 來代表文檔 , 在文本挖掘時只需對這些特 征項進行處理 , 從而實現(xiàn)對非結(jié)構(gòu)化的文本處理。這是一個非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn) 換的處理步驟。 特征表示的構(gòu)造過程就是挖掘模型的構(gòu)造過程
12、。 特征表示模型有 多種, 常用的有布爾邏輯型、 向量空間模型 ( Vector Space Model, VSM) 、概率型 以及混合型等。 W3C 近來制定的 XML , RDF 等規(guī)范提供了對 Web 文檔資源進 行描述的語言和框架。(3)特征提取用向量空間模型得到的特征向量的維數(shù)往往會達到數(shù)十萬維 , 如此高維的特 征對即將進行的分類學(xué)習(xí)未必全是重要、有益的 (一般只選擇2%5%的最佳 特征作為分類依據(jù) ) , 而且高維的特征會大大增加機器的學(xué)習(xí)時間 , 這便是特征 提取所要完成的工作。特征提取算法一般是構(gòu)造一個評價函數(shù) , 對每個特征進行評估 , 然后把特征 按分值高低排隊 , 預(yù)定
13、數(shù)目分數(shù)最高的特征被選取。在文本處理中 , 常用的評估 函數(shù)有信息增益 ( Information Gain) 、期望交叉熵 ( Expected Cross Entropy) 、互 信息(Mutual Information)、文本證據(jù)權(quán)(The Weight of Evidenee for Text和詞頻。2.3.2 數(shù)據(jù)挖掘分析技術(shù)文本轉(zhuǎn)換為向量形式并經(jīng)特征提取以后 , 便可以進行挖掘分析了。常用的文 本挖掘分析技術(shù)有 : 文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián) 分析、分布分析和趨勢預(yù)測等。(1) 文本結(jié)構(gòu)分析其目的是為了更好地理解文本的主題思想 , 了解文本所表達的內(nèi)容以
14、及采用 的方式。 最終結(jié)果是建立文本的邏輯結(jié)構(gòu) ,即文本結(jié)構(gòu)樹 , 根節(jié)點是文本主題 , 依 次為層次和段落。(2) 文本摘要文本摘要是指從文檔中抽取關(guān)鍵信息 , 用簡潔的形式對文檔內(nèi)容進行解釋和 概括。這樣 , 用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。任何一篇文章總有一些主題句 , 大部分位于整篇文章的開頭或末尾部分 , 而 且往往是在段首或段尾 , 因此文本摘要自動生成算法主要考察文本的開頭、 末尾 , 而且在構(gòu)造句子的權(quán)值函數(shù)時 , 相應(yīng)的給標題、子標題、段首和段尾的句子較大 的權(quán)值 , 按權(quán)值大小選擇句子組成相應(yīng)的摘要。(3) 文本分類文本分類的目的是讓機器學(xué)會一個分類函
15、數(shù)或分類模型,該模型能把文本映射到己存在的多個類別中的某一類 , 使檢索或查詢的速度更快 , 準確率更高。訓(xùn) 練方法和分類算法是分類系統(tǒng)的核心部分。用于文本分類的分類方法較多 , 主要 有樸素貝葉斯分類 ( Native Bayes) 、向量空間模型、決策樹、支持向量機、后向 傳播分類、遺傳算法、基于案例的推理、 K -最臨近、基于中心點的分類方法、 粗糙集、模糊集以及線性最小二乘 ( Linear Least Square Fit, LLSF) 等。厲宇航等指出傳統(tǒng)特征提取的方法是基于詞形的 , 并不考察詞語的意義 , 忽 略了同一意義下詞形的多樣性、不確定性以及詞義間的關(guān)系 , 尤其是上下
16、位關(guān) 系。該文的方法在向量空間模型 ( VSM) 的基礎(chǔ)上 , 以“概念” 為基礎(chǔ) , 同時考慮 詞義的上位關(guān)系 , 使得訓(xùn)練過程中可以從詞語中提煉出更加概括性的信息 , 從而 達到提高分類精度的目的。(4) 文本聚類文本分類是將文檔歸入到己經(jīng)存在的類中 , 文本聚類的目標和文本分類是一 樣的 , 只是實現(xiàn)的方法不同。文本聚類是無教師的機器學(xué)習(xí) , 聚類沒有預(yù)先定義 好的主題類別 , 它的目標是將文檔集合分成若干個簇 , 要求同一簇內(nèi)文檔內(nèi)容的 相似度盡可能大 , 而不同簇間的相似度盡可能小。 Hearst 等人的研究已經(jīng)證明了 “聚類假設(shè)” , 即與用戶查詢相關(guān)的文檔通常會聚類得比較靠近 ,
17、 而遠離與用戶 查詢不相關(guān)的文檔。(5) 關(guān)聯(lián)分析關(guān)聯(lián)分析是指從文檔集合中找出不同詞語之間的關(guān)系。 Feldman 和 Hirsh 研 究了文本數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則的挖掘,提出了一種從大量文檔中發(fā)現(xiàn)一對詞語出現(xiàn)模式的算法 , 并用來在 Web 上尋找作者和書名的出現(xiàn)模式 , 從而發(fā)現(xiàn)了數(shù)千 本在Amazon網(wǎng)站上找不到的新書籍;Wang Ke等以Web上的電影介紹作為測試 文檔, 通過使用 OEM 模型從這些半結(jié)構(gòu)化的頁面中抽取詞語項 , 進而得到一些 關(guān)于電影名稱、導(dǎo)演、演員、編劇的出現(xiàn)模式。(6) 分布分析與趨勢預(yù)測分布分析與趨勢預(yù)測是指通過對文檔的分析 , 得到特定數(shù)據(jù)在某個歷史時刻 的情況
18、或?qū)淼娜≈第厔荨eldman R等使用多種分布模型對路透社的兩萬多篇 新聞進行了挖掘 , 得到主題、國家、組織、人、股票交易之間的相對分布 , 揭示 了一些有趣的趨勢。 Wuthrich B 等通過分析 Web 上出版的權(quán)威性經(jīng)濟文章對每 天的股票市場指數(shù)進行預(yù)測 , 取得了良好的效果。(7) 可視化技術(shù)數(shù)據(jù)可視化 ( Data Visualization) 技術(shù)指的是運用計算機圖形學(xué)和圖像處理技 術(shù) , 將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來 , 并進行交互處理的理論、方法 和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機輔助設(shè)計、計算機視覺及人 機交互技術(shù)等多個領(lǐng)域。國內(nèi)外學(xué)者已經(jīng)對信息
19、可視化技術(shù)進行了大量的研究 運用最小張力計算、多維標度法、語義分析、內(nèi)容圖譜分析、引文網(wǎng)絡(luò)分析及神 經(jīng)網(wǎng)絡(luò)技術(shù) , 進行了信息和數(shù)據(jù)的可視化表達 4 。2.4 文本挖掘熱點難點問題顯然,目標不同,文本挖掘的過程也不盡相同。但不論何種目標,都不可忽 視如下幾個方面的研究 :(1) . 文本建模 向量空間模型,也稱為“詞袋”法,是目前文本處理的標準模式。簡單講, 就是提取文本高頻詞構(gòu)成特征向量來表達文本特征的方法, 該方法有效描述了詞 一文檔間的頻率關(guān)系。 面對復(fù)雜繁瑣的自然語言文本, 向量空間模型是目前最為 簡便有效的文本表示方法。但向量空間模型建模方法最大的問題就是忽略了詞在文本中承擔(dān)的語法和
20、 語義上的作用,同時忽略了詞與詞之間的順序關(guān)系,丟失了大量有用信息, 從而 減弱了高頻詞向量表達文本特征的可信度。同時,向量空間模型在處理真實文本數(shù)據(jù)時形成的特征向量的高維性也嚴重 影響了后續(xù)文本挖掘的效率和結(jié)果的準確性。此外,建模前的文本預(yù)處理工作作為整個文本挖掘過程的基礎(chǔ)尤為重要。 而 不同的語言的處理又常常不同。 如何解決多語言混合如中英文混合情況下的文本 處理和建模工作日益重要。同時, 不同的語言有不同的切詞處理方式。 并且存在 著大量多詞同義、一詞多義的現(xiàn)象。(2) . 特征降維文本模型的高維特性制約了文本挖掘的效果。 不論何種語種, 由于語言本身 的非結(jié)構(gòu)特性以及建模后的高維特性,
21、 使得后續(xù)挖掘過程中都面臨嚴重的效率問 題。因此有效的降維是進行后續(xù)文本挖掘的重要一環(huán)。目前的文本降維方法主要采用基于奇異值分解的潛在語義分析技術(shù)。 該技術(shù) 通過分析特征詞之間的語義相關(guān)性來減少特征向量的維數(shù), 通過將詞一文檔的高 維表示投影在低維潛在語義空間中, 降低空間的維數(shù), 進而得到詞一文檔的不再 稀疏的低維表示。 并且,由詞袋模型在進行奇異值分解后得到的子空間不再是僅 僅反映出詞匯出現(xiàn)的頻率和分布關(guān)系, 而進一步揭示了詞匯或文檔之間的語義聯(lián) 系。然而,基于奇異值分解的潛在語義分析技術(shù)有兩大突出的問題 :一是得到的 分解矩陣具有正交的特性, 導(dǎo)致無法更好的描述文本數(shù)據(jù)空間的特點, 從而
22、使得 對降維后的子空間進行進一步的文本分析時結(jié)果并不準確。 這一問題在面對大規(guī) 模文本數(shù)據(jù)時顯得更加突出。 另一方面, 由于潛在語義分析得到的分解矩陣存在 負數(shù),而難以直觀地做出與實際情況一致的語義上的解釋。非負矩陣分解方法有效解決了上述問題。借鑒人類思維中“局部構(gòu)成整體” 的概念, 非負矩陣分解將由詞袋法構(gòu)造的向量空間模型分解成兩個非負、 非正交 的子矩陣,從而可以更有效的降維及進行進一步的聚類、分類分析。(3) .挖掘算法的選擇模型創(chuàng)建成功并且進行了有效的降維處理之后, 就可以進行具體的挖掘操作 了。從狹義的角度理解,也可以說這部分才是真正的挖掘。而廣義上來說,整個 過程才一構(gòu)成文本挖掘的
23、全部過程。文本挖掘算法并不是一個新的領(lǐng)域,通常就是數(shù)據(jù)挖掘方法在文本數(shù)據(jù)上的 應(yīng)用。因此多數(shù)挖掘方法來自機器學(xué)習(xí)、統(tǒng)計學(xué)習(xí)、自然語言處理、信息抽取、 信息檢索以及知識管理等領(lǐng)域,最終目標就是對建模后的文本數(shù)據(jù)進行分析和處 理,找到其中潛在的有用信息。根據(jù)不同的應(yīng)用目標,挖掘出的知識種類不盡不同,由此可以對文本挖掘的 技術(shù)和算法進行如下的分類:如根據(jù)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、聚類、趨勢、差異等知識的 不同,分別對應(yīng)不同領(lǐng)域的算法選擇。任何算法技術(shù)的研究和設(shè)計都離不開始實驗的仿真和具體實例的驗證。文本數(shù)據(jù)挖掘過程亦是如此。由于文本數(shù)據(jù)的復(fù)雜多樣性,導(dǎo)致文本數(shù)據(jù)的挖掘過程 相對其他結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜繁瑣的多,對數(shù)
24、據(jù)的敏感性更為嚴重,在很多情況下, 面臨對開放語料的實驗結(jié)果不理想的問題。因此選擇更好的評價方法,克服現(xiàn)有語料手工分類不準確帶來的誤差,以更好地對算法作出評價,同樣重要。本文也將在后續(xù)仿真的具體過程中對所研究的方法進行有意義的評價。(4) .模式的理解及可視化表達多數(shù)文本挖掘應(yīng)用實例的目標同數(shù)據(jù)挖掘類似,通常是要輔助用戶的決策和 判斷,因此從用戶的角度來看,文本挖掘所發(fā)現(xiàn)結(jié)果的可理解至關(guān)重要。而對于各種方法挖掘出的模式、規(guī)則等結(jié)果,提高其可理解性的解決方法通常有兩種 : 一種是以生成人類易于理解的自然語言的方式進行呈現(xiàn),如對文檔進行摘要的方法;另一種方式則是以圖形界面方式展示結(jié)果,通過提供相對
25、少量的規(guī)則,利用 計算機圖形學(xué)、圖像處理等可視化技術(shù)將結(jié)果更加直觀的呈現(xiàn)給用戶。近年來,可視化技術(shù)作為展示結(jié)果的關(guān)鍵一環(huán)逐漸成為文本挖掘過程中日益 重要的一個分支。大量的研究結(jié)合語義分析、內(nèi)容圖譜分析、最小張力計算、神 經(jīng)網(wǎng)絡(luò)技術(shù)、多維標度法等數(shù)據(jù)分析和處理方法進行了結(jié)果的可視化表達5。二、文本挖掘算法3.3.3樸素貝葉斯文本分類算法3.3.3.1貝葉斯公式設(shè)A、B是兩個事件,且P(A)>0,稱P(V|XJ-為在事件A發(fā)生的條件下事件B發(fā)生的條件概率 乘法公式:P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式:P(X)=P(X|Y1)+ P(X|Y2)+ , + P(X|Yn)
26、 貝葉斯公式:P(X比)尸).11 ;PX3.332貝葉斯定理在分類中的應(yīng)用在分類(classification)問題中,常常需要把一個事物分到某個類別12。一 一個事物具有很多屬性,把它的眾多屬性看做一個向量,即x=(x1,x2,x3, ,xn),用x這個向量來代表這個事物。類別也是有很多種,用集合Y=y1,y2, , ym表示。如果x屬于y1類別,就可以給x打上y1標簽,意思是說x屬于y1類別。 這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和丫的關(guān)系是不確定的,你只能在某 種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這 時
27、可以把 X和丫看做是隨機變量,P(Y|X)稱為丫的后驗概率(posteriorprobability),與之相對的,P(Y)稱為 丫 的先驗概率(prior probability )。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對 X和丫的每一種組 合學(xué)習(xí)后驗概率P(Y|X)。分類時,來了一個實例x,在剛才訓(xùn)練得到的一堆后驗 概率中找出所有的P(Y|x),其中最大的那個y,即為x所屬分類。根據(jù)貝葉斯 公式,后驗概率為:IF(X)在比較不同丫值的后驗概率時,分母 P(X)總是常數(shù),因此可以忽略。先驗 概率P(Y)可以通過計算訓(xùn)練集中屬于每一個類的訓(xùn)練樣本所占的比例容易地估 計。3.3.3.3
28、樸素貝葉斯分類器1、條件獨立性給定類標號y,樸素貝葉斯分類器在估計類條件概率時假設(shè)屬性之間條件獨 立。條件獨立假設(shè)可以形式化的表達如下:1-1其中每個訓(xùn)練樣本可用一個屬性向量 X=(x1,x2,x3, ,xn)表示,各個屬性之間 條件獨立。比如,對于一篇文章,Good good study,Day day up.可以用一個文本特征向量來表示,x=(Good, good, study, Day, day , up) 一般各個詞語之間肯定不是相互獨立的,有一定的上下文聯(lián)系。但在樸素貝葉斯文本 分類時,我們假設(shè)個單詞之間沒有聯(lián)系,可以用一個文本特征向量來表示這篇文 章,這就是“樸素”的來歷。2、樸素
29、貝葉斯如何工作有了條件獨立假設(shè),就不必計算 X和丫的每一種組合的類條件概率,只需 對給定的丫,計算每個xi的條件概率。后一種方法更實用,因為它不需要很大 的訓(xùn)練集就能獲得較好的概率估計。3、估計分類屬性的條件概率P(xi|Y=y)怎么計算呢?它一般根據(jù)類別y下包含屬性xi的實例的比例來估計。以文本分類為例,xi表示一個單詞,P(xi|Y=y)=包含該類別下包含單詞的xi 的文章總數(shù) / 該類別下的文章總數(shù)。4、條件概率的 m 估計假設(shè)有來了一個新樣本 x1= (Outlook = Cloudy,Temprature = Cool,Humidity = High,Wind = Strong) ,
30、要求對其分類。我們來開始計算,P(Outlook = Cloudy|Yes)=0/9=0 P(Outlook = Cloudy |No)=0/5=0 計算到這里,大家就會意識到,這里出現(xiàn)了一個新的屬性值,在訓(xùn)練樣本中 所沒有的。如果有一個屬性的類條件概率為0,則整個類的后驗概率就等于 0,我們可以直接得到后驗概率 P(Yes | x1)= P(No | x1)=0,這時二者相等,無法分類。當(dāng)訓(xùn)練樣本不能覆蓋那么多的屬性值時,都會出現(xiàn)上述的窘境。簡單的使用 樣本比例來估計類條件概率的方法太脆弱了, 尤其是當(dāng)訓(xùn)練樣本少而屬性數(shù)目又 很大時。解決方法是使用m估計(m-estimate)方法來估計條件
31、概率:n 是類 yj 中的樣本總數(shù), nc 是類 yj 中取值 xi 的樣本數(shù), m 是稱為等價樣本 大小的參數(shù),而p是用戶指定的參數(shù)。如果沒有訓(xùn)練集(即n=0),則P(xi|yj)=p,因此 p 可以看作是在類 yj 的樣本中觀察屬性值 xi 的先驗概率。等價樣本大小決 定先驗概率和觀測概率nc/n之間的平衡。3.3.3.4 樸素貝葉斯文本分類算法(1) 文本分類問題在文本分類中,假設(shè)我們有一個文檔d X , X是文檔向量空間(documentspace),和一個固定的類集合 C=c1,c2, ,cj,類別又稱為標簽。顯然,文檔向 量空間是一個高維度空間。我們把一堆打了標簽的文檔集合<
32、d,c>作為訓(xùn)練樣本, <d,c> X X C。例如:<d,c>=Beijing joins the World Trade Organization, China對于這個只有一句話的文檔,我們把它歸類到China,即打上china標簽。我們期望用某種訓(xùn)練算法,訓(xùn)練出一個函數(shù)丫,能夠?qū)⑽臋n映射到某一個類別:丫 :X f C 這種類型的學(xué)習(xí)方法叫做有監(jiān)督學(xué)習(xí),因為事先有一個監(jiān)督者(我們事先給 出了一堆打好標簽的文檔,像個老師一樣監(jiān)督著整個學(xué)習(xí)過程。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí),常見有兩種模型,多項式模型 (multinomial model) 和伯努利模型 (B
33、ernoulli model)。(2) 多項式模型在多項式模型中, 設(shè)某文檔 d=(t1,t2, ,tk), tk 是該文檔中出現(xiàn)過的單詞, 允許重復(fù),則先驗概率P(c)=類c下單詞總數(shù)/整個訓(xùn)練樣本的單詞總數(shù)類條件概率P(tk|c)=(類c下單詞tk在各個文檔中出現(xiàn)過的次數(shù)之和+1)/(類c 下單詞總數(shù) +|V|)V是訓(xùn)練樣本的單詞表(即抽取單詞,單詞出現(xiàn)多次,只算一個),|V|則表示訓(xùn)練樣本包含多少種單詞。在這里, m=|V|, p=1/|V|。P(tk|c)可以看作是單詞tk在證明d屬于類c上提供了多大的證據(jù),而 P(c)則 可以認為是類別c在整體上占多大比例(有多大可能性)。(3) 伯
34、努利模型P(c)= 類 c 下文件總數(shù) /整個訓(xùn)練樣本的文件總數(shù)P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)(4) 兩模型的區(qū)別二者的計算粒度不一樣,多項式模型以單詞為粒度,伯努利模型以文件為粒 度,因此二者的先驗概率和類條件概率的計算方法都不同。計算后驗概率時,對于一個文檔 d,多項式模型中,只有在d中出現(xiàn)過的單 詞,才會參與后驗概率計算,伯努利模型中,沒有在 d 中出現(xiàn),但是在全局單詞 表中出現(xiàn)的單詞,也會參與計算,不過是作為“反方”參與的。三、文本挖掘的應(yīng)用4.1 KNN文本分類算法介紹KNN法最初由Cover和Hart于1968年提出,是一個理論上比較成熟
35、的方 法。該算法的基本思想是:根據(jù)傳統(tǒng)的向量空間模型,文本內(nèi)容被形式化為特征 空間中的加權(quán)特征向量,即D=D( T1,W1; T2,W2; ? ; Tn,Wn)。對于一個測試文 本,計算它與訓(xùn)練樣本集中每個文本的相似度,找出K個最相似的文本,根據(jù)加 權(quán)距離和判斷測試文本所屬的類別9。具體算法步驟如下:(1) 對于一個測試文本,根據(jù)特征詞形成測試文本向量。(2) 計算該測試文本與訓(xùn)練集中每個文本的文本相似度,計算公式為:WtkXWjk_ 上三1岳叫廷式中:di為測試文本的特征向量,dj為第j類的中心向量;M為特征向量的維 數(shù);Wk為向量的第k維。K值的確定一般先采用一個初始值,然后根據(jù)實驗測 試
36、的結(jié)果調(diào)整K值,一般初值定為幾百到幾千。(3) 按照文本相似度,在訓(xùn)練文本集中選出與測試文本最相似的k個文本。(4) 在測試文本的k個近鄰中,依次計算每類的權(quán)重,計算公式如下:1 如果 工F(X,Cj)h恥 kNN0其它式中:x為測試文本的特征向量;Sim( x,di)為相似度計算公式;b為閾值, 有待于優(yōu)化選擇;而y(di,Cj)的取值為1或0,如果di屬于Cj,則函數(shù)值為1,否 則為0。(5) 比較類的權(quán)重,將文本分到權(quán)重最大的那個類別中。KNN方法基于類比學(xué)習(xí),是一種非參數(shù)的分類技術(shù),在基于統(tǒng)計的模式識別 中非常有效,對于未知和非正態(tài)分布可以取得較高的分類準確率,具有魯棒性、概念清晰等優(yōu)
37、點。但在文本分類中,KNN方法也存在不足,如KNN算法是懶散 的分類算法,其時空開銷大;計算相似度時,特征向量維數(shù)高,沒有考慮特征詞 間的關(guān)聯(lián)關(guān)系;樣本距離計算時,各維權(quán)值相同,使得特征向量之間的距離計算 不夠準確,影響分類精度。針對這些不足,分別提出了相應(yīng)的改進算法。下面將 詳細介紹。4.2基于統(tǒng)計的KNN文本分類算法研究1. 文檔相似度的定義在 VSM 中,每個文檔d被表示成矢量中的一點,V(d)=(t1,W1),(t2,W2),.,(tn,Wn),其中n為特征空間中所有特征數(shù)目,.是文檔d 中出現(xiàn)的特征項,wi是ti在d中的權(quán)重,常用tfidf權(quán)重函數(shù),目前存在多種tfidf 公式,本文
38、采用了一種比較普遍的計算公式:tfidf ti* log其中,tf(tj,d)是特征ti在文檔d中的詞頻,|D|是整個訓(xùn)練集D中的文檔數(shù),df(tj是D中包含特征ti的文檔數(shù)VSM模型中文檔以向量的形式定義到了實數(shù)域,使得文檔之間相似度的計 算變成了向量之間相似度的計算.向量相似度的度量方式有多種,普遍應(yīng)用的是 余弦相似度,它定義兩個文檔特征向量的相似度為向量之間夾角的余弦:cosa,6)由于文檔集合中特征數(shù)量很大,通常達到數(shù)萬或數(shù)十萬之多,即便經(jīng)過特征 選擇,特征空間維數(shù)相對于一篇文檔中的有效的特征數(shù)量而言仍然很大,使得文檔的特征向量具有稀疏性,即其中大部分的元素為 0 在大規(guī)模的文本訓(xùn)練測
39、試 中這對系統(tǒng)的空間分配能力是一個考驗。 為了解決特征矢量維數(shù)過大的問題, 本 文使用文檔中的tfidf最高的n'個詞匯,形成一個n'維特征向量V ( d) =1( ( , W2 ) ,£ t ,nW n),來代表一篇文檔,其中 w是ti在對應(yīng)的文檔d中的tfidf值,L是d中tfidf第i高的詞匯,這樣每篇文檔的特征向量就縮小為了n'維,這大大減少了 系統(tǒng)的空間復(fù)雜度,但是考察兩篇文檔之間的相似度時,由 于兩個向量中相應(yīng)位置的詞不一定相同,因而不能直接使用余弦相似度來計算15??紤]到有些特征雖然不同,但是它們在分類中的作用卻十分相似,不少特征 詞的CH1分布
40、曲線是相似的甚至重合的,而對文檔的 CHI曲線分布而言,相同 類別的文檔之間的CHI曲線分布較為相似,不同類別的文檔之間的CHI曲線分布則差異較大因此本文將文檔向量 a,b之間的相似度定義為向量a,b之間的 CHI向量之間夾角的余弦:Y二F(筑QV S Zitc/)2 * V y; (x2)22. 利用類別特征集進行初次類別判斷模式分類方法中,類中心向量法是最簡單直觀的,它使用類內(nèi)所有文檔的中 心向量作為類的代表向量,測試時計算待分類樣本與各類中心向量之間的距離, 并將其劃分為與之距離最小的類.中心向量通常取類內(nèi)所有文檔向量的幾何平均 值和kNN算法中每一個測試文檔要和所有訓(xùn)練文檔計算相似度比
41、起來,類中 心向量法分類時每一個測試文檔只需和 m個類別特征集計算相似度,計算量大 大降低,可以在很短的時間內(nèi)得到分類結(jié)果. 但對于一對一的分類而言,在這種 方式建立的中心向量含有的類別特征信息不夠豐富,分類器性能不夠理想.我們在實驗中發(fā)現(xiàn),若擴充分類器為多類分類,返回m個可能的類別,當(dāng)m取總類 別數(shù)的1/4時,絕大多數(shù)的測試文檔的人工分類結(jié)果就會在此結(jié)果集中在返回 的結(jié)果集中運用kNN算法,就能在比較短的時間內(nèi)找到測試樣本的最近鄰.受上述事實的啟發(fā),本文采取了兩次類別判定的方法,在kNN算法中引入了初次類別判斷機制,并修改類中心向量為類的類別持征集,以獲得更豐富的類別信息.如果在特征t的CH
42、I向量中,第i維的值明顯大于其他維的值,那么我 們認為t和第i個類別的相關(guān)性很強,t成為該類的一個特征.把該類所有的類似 特征集中起來,組成該類的類別特征集。從直觀上說,如果文檔屬于類別 C,它和Ci對應(yīng)的類別特征集中詞相同的 概率也應(yīng)該越大,和C,的距離就應(yīng)該越小.同時我們認為,在文檔和類別特征 集中共同出現(xiàn)的特征中,文檔中權(quán)值大的特征相比權(quán)值小的特征更能表征二者內(nèi) 容的相似性.因此,本文定義距離公式如下:設(shè)a = (%公2,.以皿)是類別特征集,b = (%, y2,.yn)是文檔特征向量,則a和b 之間的距離為:i ab | =1丄Tl其中、;(x, y) = w(y), w是特征分量的
43、權(quán)值,利用所有類的類別特征集,對測試 文檔進行類別的初次判斷,選出其最有可能的 m個類別,然后計算測試文檔和 訓(xùn)練集中類別在那m個類別范圍的文檔之間的相似度,找出與測試文檔相似度 最大的k個鄰居,并根據(jù)這k個鄰居判定測試文檔的類別.類別的初次判斷機制 能在小范圍的訓(xùn)練集中快速搜索測試文檔的最近鄰,避免了和所有訓(xùn)練集文檔計算相似度所帶來的巨大計算量,并避免了和大量的無關(guān)的類的訓(xùn)練文檔之間的相 似度計算給分類帶來的噪聲.類別初次判斷算法如下: 輸人:類別集C,測試集Te,類別特征數(shù)n,可能類別數(shù)m,所有特征的CHI 向量.輸出:各測試集文檔的可能類別集合1)求每個類的類別特征集 V :逐個掃描特征
44、集的 CHI向量,若該特征和某類別 ci明顯相關(guān),則將該特征加入 Ci的類別特征集V中;2)新測試文本到來后,將文本表示為特征向量;3)利用公式(6)計算新文本特征向量和每類類別特征集間的距離;4)比較每個類別特征集與新文本的距離,將文本分到距離最小的前m個類別中;5)若所有測試文檔均已分類,算法結(jié)束;否則轉(zhuǎn)2).3. 基于統(tǒng)計的KNN文本分類算法流程 輸人:類別集C,測試集Te,訓(xùn)練集Tr,最近鄰居數(shù)k,初次類別判斷的可能類 別數(shù)m 輸出:各測試集文檔的類別1)根據(jù)公式(1)計算訓(xùn)練集中各特征的CHI向量;2)根據(jù)特征的CHI向量進行特征選擇,得到有效的特征空間子集;3)根據(jù)公式(2)計算訓(xùn)
45、練集中各文檔的CHI向量;4)取新的測試文檔d,計算d的特征向量和CHI向量;5)運用初次類別判定算法,得到d的m個可能的類別集合;6)根據(jù)公式(5)計算d與訓(xùn)練集中類別在該 m個類別集中的訓(xùn)練文檔之間的相似 度;7)對相似度進行排序,找出d的k個最近鄰居,并判定d的類別;8) 若所有測試文檔均已分類,算法結(jié)束;否則轉(zhuǎn) 4)4.3基于LSA降維的KNN文本分類算法研究KNN方法基于類比學(xué)習(xí),是一種非參數(shù)的分類技術(shù),在基于統(tǒng)計的模式識 別中非常有效,對于未知和非正態(tài)分布可以取得較高的分類準確率,具有魯棒性、概念清晰等諸多優(yōu)點但同時在文本分類中,KNN也存在著一定的不足:首先是對于高維文本向量活樣
46、本級規(guī)模較大時,算法的時間和空間復(fù)雜度較高,其時間復(fù)雜度為0(m*n),為VSM空間特征維數(shù),m為樣本集大??;其次是對于文 本的高維向量,對于分類起主要作用的維數(shù)遠遠小于文本本身的維數(shù),相當(dāng)多的維數(shù)對于文本分類意義不大甚至成為噪聲數(shù)據(jù),對分類的準確性產(chǎn)生負面的影響 佝針對上述缺點,應(yīng)用潛在語義分析(Lantent Semantic Analysis LSA)可得到有 效解決.LSA通過將原來的文本和詞的向量矩陣進行奇異值分解,將文本的關(guān) 鍵詞空間用更小的語義空間進行表示.LSA生成的新語義空間中相關(guān)文檔更為接近,而且對解決降低分類精度的同義詞和多義詞問題更為有效.1. LSA的基本思想潛在語義
47、分析是一種用于知識獲取和戰(zhàn)士的計算理論和方法。其隱含的思想 是,通過語義處理給定詞的所有上下文,同時提供了決定詞含義的相似性的相互 限制。在LSA處理中,文檔首先被抽詞,表示成詞頻的集合,一個文檔庫可以 表示成一個m*n詞的文檔矩陣A,這里每個不同的詞對應(yīng)矩陣 A的每一行;而 每一個文檔則對應(yīng)與矩陣 A的一列。A表示為:A=aij ,其中a,為非負值,表示 第i個詞在第j個文檔中的權(quán)重。在實驗中,對于單個詞的權(quán)重主要考慮其對文 本的表征程度和所帶的文本的信息量,所以對權(quán)重的處理主要考慮了兩方面的貢 獻,即局部權(quán)值和全局權(quán)值,局部權(quán)值和全局權(quán)值有不同的取值方法,取值方法的不同會對最后分類的結(jié)果產(chǎn)
48、生一定的影響.我們選用了如下方法:W嚴嚴=訂汁bg心十N /nJ,其中Wi表示該詞條在矩陣中的權(quán)重,tfi表示該詞條在文本初夏你的頻率; idfi表示該詞條的反比文本頻率,N是整個文檔的文檔個數(shù),n是包含該詞條的 文檔的個數(shù)。大多數(shù)文本只含有一部分詞,所以經(jīng)過處理的矩陣還是典型的稀疏矩陣;同 時由于矩陣中的每個詞都在每個文章項中有所表示,造成矩陣中含有很多不能表征文本信息的項.通過對此矩陣的奇異值變換可以降低矩陣的緯度,將文檔在更 少、更能表示其特征的語義空間表示出來.通過奇異值分解,矩陣A可以表示為三個矩陣的乘積:其中U:Uk =VkTV Ik,Uk和Vk的列分別被稱為矩陣Ak的左右奇異向量
49、,' k是對角矩陣,對角元素被稱為矩陣 Ak的奇異值。Uk矩陣中的行向量對應(yīng)原矩陣 A的詞向量.Vk矩陣中的行向量則對應(yīng)原矩陣A的文檔向量這里Uk矩陣和Vk矩陣中的單個項不一定是非負數(shù),詞與詞以及文檔與文檔之間的關(guān)系是通過整行之間的相關(guān)關(guān)系來獲得的.S是奇異值按遞減排列的對角矩陣因此,我們可以將最中最大的k個奇異值提取出來,同時留下Uk和Vk中相應(yīng)的奇異向量,構(gòu)建 A的k-維近似矩 陣這里參數(shù)忌的選擇非常重要, 英文文檔實驗證明,相對較小的k值(100-300) 就可以取得有效的結(jié)果當(dāng)潛在語義分析用于分類時,分類文本也通過與產(chǎn)生的新矩陣的降維變換用 相同的K維表示,其具體數(shù)學(xué)變換方法如
50、下:其中,d為初始文檔向量,d*為降維變換后的文檔向量.一旦檢索項用k維表示出來后,檢索項與文檔項之間的空間距離就可以通過點積求出。通過點積的大小,我們就可以將相關(guān)文檔以相關(guān)度順序列出。2. 基于LSA降維的KNN文本分類算法在上述分析基礎(chǔ)上,可以對 KNN文本分類算法進行改進,達到降維目的, 提高分類效率和分類精確度算法可分為以下幾個步驟:(1) 采用VSM模型,根據(jù)文本特征詞形成測試文本特征向量矩陣;(2) 運用LSA理論對文本特征矩陣做降維處理;(3) 利用余弦定理計算測試文本與訓(xùn)練集中每個文本的文本相似度,根據(jù)相似 度,在訓(xùn)練文本集中選出與新文本最相似的忌個文本;(4) 在測試文本的忌
51、個鄰居中,依次計算每類的權(quán)重;(5) 比較類的權(quán)重,將文本分到權(quán)重最大的那個類別中.4.4其他改進的KNN文本分類算法(1) 提高分類效率的改進算法KNN算法的主要缺點是,當(dāng)訓(xùn)練樣本數(shù)量很大時將導(dǎo)致很高的計算開銷。KNN算法是懶散的分類算法,對于分類所需的計算都推遲到分類時才進行,在 其分類器中存儲有大量的樣本向量,在未知類別樣本需要分類時,再計算和所有 存儲樣本的距離,對于高維文本向量或樣本集規(guī)模較大的情況,其時間和空間復(fù) 雜度較高。針對這個缺點,提出了一些改進算法:如基于Fuzzy ART的K-最近 鄰分類改進算法,該算法用模糊自適應(yīng)共振理論(Fuzzy ART)對K-最近鄰的訓(xùn) 練樣本集
52、進行濃縮,以改善K-最近鄰的計算速度。該算法首先用Fuzzy ART將 訓(xùn)練樣本集中的每一類樣本進行聚類,減少了訓(xùn)練樣本集的數(shù)據(jù)量,提高了算法 的計算速度,保持了預(yù)測精度,從而使該算法適用于海量數(shù)據(jù)集的情況。試驗表 明,該算法適用于對復(fù)雜而數(shù)據(jù)量較大的數(shù)據(jù)庫進行分類。提出了一種基于K-近鄰方法的漸進式中文文本分類技術(shù),利用文本的標題、摘要、關(guān)鍵詞、重點段 落進行漸進式的分類處理。這樣,不用分析全文就能將部分待分類文本成功分類, 從而提高了文本分類的效率。試驗結(jié)果表明,該方法在保證分類準確率的基礎(chǔ)上 能夠有效地提高分類效率。對于減少KNN計算量的優(yōu)化而做的研究主要是如何從原始數(shù)據(jù)集中選取代表實例
53、集,大部分僅對低維的情況適用,而且在代表實例 集每增加或刪除一個代表實例時,都要對樣本進行一次測試,工作量大,為此, 根據(jù)測試文檔在各個樣本類中的分布情況,提出了基于KNN分類的兩個有助于 減少大量計算的重要算法:排類算法和歸類算法。從而構(gòu)建了一個基于KNN的快速文檔分類方法。理論與實驗證明,這種方法可以在不影響原有準確率的條件 下,提高文檔的分類速度。(2) 基于模式聚合和特征降維的改進算法在計算相似度時,不考慮特征詞間的關(guān)聯(lián)關(guān)系。針對這一不足進行的改進有: 主要考慮文檔間特征詞屬性關(guān)聯(lián)與共現(xiàn)對相似度的作用,用一個匹配系數(shù)調(diào)整兩文檔間的距離。它實質(zhì)上是強化了文本中語義鏈屬性因子的作用,修正了
54、次要因素的噪聲影響,使文本分類結(jié)果更加理想,已有的測試結(jié)果證明了這一點,尤 其在測試文本與訓(xùn)練文本集中的某些文本直觀上較相似時,結(jié)果更佳。通過分析特征詞對分類貢獻的大小,提出了一種應(yīng)用向量聚合技術(shù)的 KNN文本分類方法, 很好的解決了關(guān)聯(lián)特征詞的提取問題,該方法根據(jù)每個特征詞的 CHI分布曲線 來確定它們在分類中的貢獻,應(yīng)用向量聚合技術(shù)很好地解決了關(guān)聯(lián)特征詞的提 取問題。其特點在于:聚合文本向量中相關(guān)聯(lián)的特征詞作為特征項,從而取代傳 統(tǒng)方法中一個特征詞對應(yīng)向量一維的做法,這樣不但縮減了向量的維數(shù),而且加 強了特征項對文本分類的貢獻。試驗表明,該方法明顯提高了分類的準確率和召 回率。(3) 基于
55、特征加權(quán)的改進算法KNN方法是建立在VSM模型上的,其樣本距離的測度使用歐式距離或余弦 距離,各維權(quán)值相同,也就是以為各維對于分類的貢獻是相同的,這是不符合實 際情況的,同等的權(quán)重使得特征向量之間距離或夾角余弦的計算不夠準確,進而影響分類精度。針對這一不足,提出了基于神經(jīng)網(wǎng)絡(luò)和 CHI的改進KNN方法, 應(yīng)用SOM神經(jīng)網(wǎng)絡(luò)進行VSM模型各維權(quán)重的計算。該方法首先運用CHI概率 統(tǒng)計方法進行初步特征提取和模式聚合,其特征權(quán)重的計算原理為:如果某一維 在各個類別中取值基本相同,那么此維對于文本分類的貢獻率就相對較低,如果 在各個類別中取值有較大的差異,那么就具有較強的文本分類能力,而方差正好 是反
56、應(yīng)變量分布均勻狀態(tài)的主要指標。 該方法有效地提高了文本分類的精度。提出了利用SVM來確定特征的權(quán)重,即基于SVM特征加權(quán)算法(FWKNNfeature weighted KNN)。試驗表明,在一定的條件下,FWKNN能夠極大地提高分類準確 率。該方法利用SVM可以定量確定樣本的每個特征與分類的相關(guān)度由分類函數(shù)的權(quán)重向量給出:其中為每個樣本對應(yīng)的Lagrange乘子。特征權(quán)重確定后,就可以修改樣本之 間的距離函數(shù)以便更好地反映實際問題。(4) 其它改進算法此外,還提出了一些其它的改進算法,如改進的KNN與SVM相融合的文本 分類算法。該算法利用文本聚類描述KNN算法中文本類別的內(nèi)部結(jié)構(gòu) ,用si
57、gmoid函數(shù)對SVM輸出結(jié)果進行概率轉(zhuǎn)換,同時引入CLA(Classifier' s Local Accuracy)技術(shù)進行分類可信度分析以實現(xiàn)兩種算法的融合,試驗表明該算法綜合了 KNN與SVM在分類問題中的優(yōu)勢,既有效地降低了分類候選的數(shù)目,又 相應(yīng)地提高了文本分類的精度,具有較好的性能。提出了 LSI(隱含語義索引)和 KNN 相結(jié)合的文本分類模型研究。該方法既充分利用了向量空間模型在表示方 法上的巨大優(yōu)勢 , 又彌補了其忽略語義的不足 , 具備一定的理論和現(xiàn)實意義。四、文本挖掘問題5.1 數(shù)據(jù)挖掘應(yīng)用5.1.1 數(shù)據(jù)挖掘解決的典型商業(yè)問題需要強調(diào)的是, 數(shù)據(jù)挖掘技術(shù)從一開始就
58、是面向應(yīng)用的。 目前,在很多領(lǐng)域, 數(shù)據(jù)挖掘 (data mining) 都是一個很時髦的詞,尤其是在如銀行、電信、保險、交 通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括: 數(shù)據(jù)庫營銷( Database Marketing )、客戶群體劃分( Customer Segmentation & Classification )、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場 分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、 欺詐發(fā)現(xiàn)(Fraud Detection)等等。5.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國路由器市場十三五規(guī)劃及發(fā)展策略分析報告
- 2025-2030年中國藥用碘行業(yè)十三五規(guī)劃與發(fā)展前景分析報告
- 2025-2030年中國背投式投影電視機項目投資風(fēng)險分析報告
- 2025-2030年中國翻譯行業(yè)運行動態(tài)及投資發(fā)展前景預(yù)測報告
- 2025-2030年中國纜索起重機市場運行態(tài)勢及發(fā)展趨勢分析報告
- 2025-2030年中國硫鐵礦燒渣行業(yè)運行動態(tài)規(guī)劃研究報告
- 2025-2030年中國鹽酸美金剛行業(yè)競爭格局及發(fā)展規(guī)劃分析報告
- 2025-2030年中國白紙板市場發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025安徽省建筑安全員A證考試題庫附答案
- 出租共享菜園合同范例
- 【歷史】唐朝建立與“貞觀之治”課件-2024~2025學(xué)年統(tǒng)編版七年級歷史下冊
- 2024化工園區(qū)危險品運輸車輛停車場建設(shè)規(guī)范
- 第1課 精美絕倫的傳統(tǒng)工藝 課件 2023-2024學(xué)年贛美版初中美術(shù)八年級下冊
- 云南省地質(zhì)災(zāi)害群測群防手冊
- 五金沖壓件作業(yè)指導(dǎo)書
- 食品工業(yè)企業(yè)誠信管理體系建立及實施
- 汽車吊車吊裝施工方案
- 《植物保護學(xué)通論》PPT課件.ppt
- 倉內(nèi)運營方案
- 江蘇省電力條例(2020)
評論
0/150
提交評論