大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第1頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第2頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第3頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第4頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘 數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù)。 現(xiàn)實中大部分數(shù)據(jù)存儲在文本數(shù)據(jù)庫中,如新聞文章、研究論文、書籍、WEB頁面等。 存放在文本數(shù)據(jù)庫中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標題、作者、出版社、出版日期 等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。 文本挖掘旨在通過識別和檢索令人感興趣的模式,進而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。 預(yù)處理 文檔建模 相似性計算 信息檢索 文本分類 文本聚類 模型評價預(yù)處理預(yù)處理 把中文的漢字序

2、列切分成有意義的詞,就是中文分詞,也稱為切詞。 “我是一個學(xué)生”分詞的結(jié)果是:我是一個學(xué)生。 和平民主 和平、民主;和、平民、主 提高人民生活水平 提高、高人、人民、民生、生活、活水、水平 大學(xué)生活象白紙 大學(xué)、生活、象、白紙 大學(xué)生、活象、白紙最大匹配分詞法 S1=計算語言學(xué)課程是三個課時 設(shè)定最大詞長MaxLen= 5 S2= (1)S2=“”;S1不為空,從S1左邊取出候選子串 W=計算語言學(xué); (2)查詞表,“計算語言學(xué)”在詞表中,將W加入到S2中,S2=“計算語言學(xué)/ ”,并將W從S1中去掉,此時S1=課程是三個課時; (3)S1不為空,于是從S1左邊取出候選子串W=課程是三個; (

3、4)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=課程是三; (5)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=課程是; (11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=是三 (12)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是”,這時W是單字,將W加入到S2中,S2=“計算語言學(xué)/ 課程/ 是/ ”, 并將W從S1中去掉,此時S1=三個課時; (21)S2=“計算語言學(xué)/ 課程/ 是/ 三/ 個/ 課時/ ”,此時S1=。 (22)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。停用詞 指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。 英文中常用的停用詞

4、有the,a, it等 中文中常見的有“是”,“的”,“地”等。 停用詞消除可以減少term的個數(shù),降低存儲空間。停用詞的消除方法: (1)查表法:建立一個停用詞表,通過查表的方式去掉停用詞。 (2)基于DF的方法:統(tǒng)計每個詞的DF,如果超過總文檔數(shù)目的某個百分比(如80%),則作為停用詞去掉。文檔建模文檔建模 特征表示是指以一定的特征項如詞條或描述來代表文檔信息。 特征表示模型有多種,常用的有布爾邏輯型、向量空間型等 向量空間模型中,將每個文本文檔看成是一組詞條(T1,T2,T3,Tn)構(gòu)成,對于每一詞條Ti,根據(jù)其在文檔中的重要程度賦予一定的權(quán)值,可以將其看成一個n維坐標系,W1,W2,W

5、n為對應(yīng)的坐標值,因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點,對于所有待挖掘的文檔都用詞條特征矢量(T1,W1;T2,W2;T3,W3;Tn,Wn)表示。 向量空間模型將文檔表達為一個矢量,看作向量空間中的一個點。文檔的向量空間模型W權(quán)值計算方法TF-IDF 目前廣泛采用TF-IDF權(quán)值計算方法來計算權(quán)重, TF-IDF的主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。 TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。 IDF逆文檔頻率(Inver

6、se Document Frequency)是全體文檔數(shù)與包含詞條文檔數(shù)的比值。如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。 在完整的向量空間模型中,將TF和IDF組合在一起,形成TF-IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)TF度量 在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(term count)的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。)對于在某一特定文件里的詞語 來說,它的重要性可表示為: 以上

7、式子中 是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。IDF度量逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:|D|:語料庫中的文件總數(shù): 包含詞語的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會導(dǎo)致被除數(shù)為零,因此一般情況下使用關(guān)鍵詞與網(wǎng)頁的相關(guān)性計算 在某個一共有一千詞的網(wǎng)頁中“大數(shù)據(jù)”、“的”和“應(yīng)用”分別出現(xiàn)了 2 次、35 次 和 5 次,那么它們的詞頻就分別是 0.002、0.035 和 0.005。三個數(shù)相

8、加,其和 0.042 就是相應(yīng)網(wǎng)頁和查詢“大數(shù)據(jù)的應(yīng)用” 相關(guān)性的一個簡單的度量。 概括地講,如果一個查詢包含關(guān)鍵詞 w1,w2,.,wN, 它們在一篇特定網(wǎng)頁中的詞頻分別是: TF1, TF2, ., TFN。 (TF: term frequency)。 那么,這個查詢和該網(wǎng)頁的相關(guān)性就是:TF1 + TF2 + . + TFN。 詞“的”站了總詞頻的 80% 以上,它對確定網(wǎng)頁的主題幾乎沒有用。在度量相關(guān)性時不應(yīng)考慮它們的頻率。刪除后,上述網(wǎng)頁的相似度就變成了0.007,其中“大數(shù)據(jù)”貢獻了 0.002,“應(yīng)用”貢獻了 0.005。 “應(yīng)用”是個很通用的詞,而“大數(shù)據(jù)”是個很專業(yè)的詞,后者

9、在相關(guān)性排名中比前者重要。因此我們需要給漢語中的每一個詞給一個權(quán)重,這個權(quán)重的設(shè)定必須滿足下面兩個條件: 一個詞預(yù)測主題能力越強,權(quán)重就越大,反之,權(quán)重就越小。我們在網(wǎng)頁中看到“大數(shù)據(jù)”這個詞,或多或少地能了解網(wǎng)頁的主題。我們看到“應(yīng)用”一次,對主題基本上還是一無所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。 應(yīng)刪除詞的權(quán)重應(yīng)該是零。 如果一個關(guān)鍵詞只在很少的網(wǎng)頁中出現(xiàn),我們通過它就容易鎖定搜索目標,它的權(quán)重也就應(yīng)該大。反之如果一個詞在大量網(wǎng)頁中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。 概括地講,假定一個關(guān)鍵詞 在 個網(wǎng)頁中出現(xiàn)過,那么 越大,的權(quán)重越小,反之亦然。在信息檢索中,

10、使用最多的權(quán)重是“逆文本頻率指數(shù)” (Inverse document frequency 縮寫為),它的公式為()其中是全部網(wǎng)頁數(shù)。 假定中文網(wǎng)頁數(shù)是億,應(yīng)刪除詞“的”在所有的網(wǎng)頁中都出現(xiàn),即億,那么它的log(10億/10億)= log (1) = 。假如專用詞“大數(shù)據(jù)”在兩百萬個網(wǎng)頁中出現(xiàn),即萬,則它的權(quán)重log(500) =6.2。 又假定通用詞“應(yīng)用”,出現(xiàn)在五億個網(wǎng)頁中,它的權(quán)重 = log(2)則只有 0.7。也就只說,在網(wǎng)頁中找到一個“大數(shù)據(jù)”的比配相當于找到九個“應(yīng)用”的匹配。利用 IDF,上述相關(guān)性計算個公式就由詞頻的簡單求和變成了加權(quán)求和,即 TF1*IDF1 +TF2*

11、IDF2 . + TFN*IDFN。在上面的例子中,該網(wǎng)頁和“原子能的應(yīng)用”的相關(guān)性為 0.0159,其中“大數(shù)據(jù)”貢獻了 0.0124,而“應(yīng)用”只貢獻了0.0035。這個比例和我們的直覺比較一致算例1 詞頻 (TF) 是一詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)。假如一篇文件的總詞語數(shù)是100個,而詞語“大數(shù)據(jù)”出現(xiàn)了3次,那么“大數(shù)據(jù)”一詞在該文件中的詞頻就是3/100=0.03。 一個計算逆文件頻率 (IDF) 的方法是測定有多少份文件出現(xiàn)過“大數(shù)據(jù)”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“大數(shù)據(jù)”一詞在1,000份文件出現(xiàn)過,而文件總數(shù)是10,000,000份的話,其逆向文件頻率

12、就是 log(10,000,000 / 1,000)=4。 最后的TF-IDF的分數(shù)為0.03 * 4=0.12。算例2 關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF1 + TF2*IDF2 + TF3*IDF3來表示。 比如文檔1所包含詞匯總量為1000,k1,k2,k3在文檔1中出現(xiàn)的次數(shù)是100,200,50。包含了 k1, k2, k3的文檔總量分別是 1000, 10000,5000。文檔的總量為10000。 TF1 = 100/1000 = 0.1; TF2 = 200/1000 = 0.2; TF3 = 50/1000 = 0.05; IDF1 = log(10000/

13、1000) = log(10) = 2.3; IDF2 = log(10000/100000) = log(1) = 0; IDF3 = log(10000/5000) = log(2) = 0.69 這樣關(guān)鍵字k1,k2,k3與文檔1的相關(guān)性= 0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645 ,其中k1比k3的比重在文檔1要大,k2的比重是0.文檔相似性計算文檔相似性計算212121),(vvvvvvsimn 根據(jù)一個文檔集合d和一個項集合t,可以將每個文檔表示為在t維空間R中的一個文檔特征向量v。n 向量v中第j個數(shù)值就是相應(yīng)文檔中第j個項的量度。n 計算兩個文檔

14、相似性可以使用上面的公式n 余弦計算法(cosine measure) 計算步驟(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個關(guān)鍵詞,合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻;(3)生成兩篇文章各自的詞頻向量;(4)計算兩個向量的余弦相似度,值越大就表示越相似。文檔相似性計算示例 句子A:我喜歡看電視,不喜歡看電影。 句子B:我不喜歡看電視,也不喜歡看電影。第一步,分詞第一步,分詞句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞第二步,列出所有的詞我,喜歡,看,電視,電影,不,

15、也。第三步,計算詞頻第三步,計算詞頻句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。第四步,寫出詞頻向量第四步,寫出詞頻向量句子A:1, 2, 2, 1, 1, 1, 0句子B:1, 2, 2, 1, 1, 2, 1信息檢索信息檢索 信息檢索研究的是大量基于文本的文檔信息的組織和檢索,如聯(lián)機圖書館系統(tǒng)、聯(lián)機文檔管理系統(tǒng)和WEB搜索引擎。數(shù)據(jù)庫系統(tǒng)關(guān)注結(jié)構(gòu)化數(shù)據(jù)段查詢和事務(wù)處理。 信息檢索研究的典型問題是根據(jù)用戶查詢(描述所需信息的關(guān)鍵詞),在文檔中定位相關(guān)文檔。文本檢索的基本度量 查準率(Precisi

16、on)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準確性 查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性信息檢索的度量方式 relevant:與某查詢相關(guān)的文檔的集合。 retrieved:系統(tǒng)檢索到的文檔的集合。 relevant retrieved:既相關(guān)又被檢索到的實際文檔的集合。 查準率(precision):既相關(guān)又被檢索到的實際文檔與檢索到的文檔的百分比。 查全率(recall):既相關(guān)又被檢索到的實際文檔與查詢相關(guān)的文檔的百分比。模型質(zhì)量的評價實例nrelevant =A,B,C,D,E,F,

17、G,H,I,J = 10nretrieved = B, D, F,W,Y = 5nrelevant retrieved =B,D,F = 3n查準率:查準率:precision = 3/5 = 60%n查全率:查全率:recall = 3/10 = 30% B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H, I, J相關(guān)的文檔 W,Y被檢索到的文檔文本挖掘舉例文檔向量化查詢:相關(guān)度文檔間相似度(余弦定理)3.文本的維度規(guī)約 對于任何一個非平凡的文檔數(shù)據(jù)庫,詞的數(shù)目T和文檔數(shù)目D通常都很大,如此高的維度將導(dǎo)致低效的計算,因為結(jié)果頻度表大小為T*D。 高維還會導(dǎo)致非常稀疏的向量,增加監(jiān)測和

18、探查詞之間聯(lián)系的難度。 維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無損的。如果我們只能重新構(gòu)造原數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。文本挖掘方法 文本挖掘功能層次 關(guān)鍵詞關(guān)鍵詞相似檢索相似檢索詞語關(guān)聯(lián)分析詞語關(guān)聯(lián)分析自然語言處理自然語言處理文本聚類文本聚類文本分類文本分類文本挖掘功能層次文本挖掘功能層次(1)關(guān)鍵詞檢索 關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。(2)相似檢索 找到相似內(nèi)容的文本。(3)詞語關(guān)聯(lián)分析 聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本聚類和文本分類 實現(xiàn)文

19、本的聚類和分類。(5)自然語言處理 揭示自然語言處理技術(shù)的語義,進行文本語義挖掘。關(guān)聯(lián)分析挖掘 在文本數(shù)據(jù)庫中,每一文本被視為一個事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項。即文本數(shù)據(jù)庫可表示為:文本編號, 關(guān)鍵詞集 文本數(shù)據(jù)庫中關(guān)鍵詞關(guān)聯(lián)挖掘的問題就變成事務(wù)數(shù)據(jù)庫中事務(wù)項的關(guān)聯(lián)挖掘。 關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。 關(guān)聯(lián)分析挖掘 輸入語義信輸入語義信息,如事件、息,如事件、事實或信息事實或信息提取發(fā)現(xiàn)的提取發(fā)現(xiàn)的實體實體輸入是標記輸入是標記的集合的集合輸入是文檔輸入是文檔中關(guān)鍵詞或中關(guān)鍵詞或詞的集合詞的集合基于關(guān)鍵詞的方法基于關(guān)鍵詞的方法標記方法標記方法信息提取方法信息提取

20、方法關(guān)聯(lián)分析挖掘 關(guān)聯(lián)分析過程:關(guān)聯(lián)分析過程:對文本數(shù)據(jù)進行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語或短語關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語或短語關(guān)聯(lián)分析挖掘 基于關(guān)鍵字的關(guān)聯(lián)分析n 基于關(guān)鍵字關(guān)聯(lián)分析就是首先收集頻繁一起出現(xiàn)的項或者關(guān)鍵字的集合,然后發(fā)現(xiàn)其中所存在的關(guān)聯(lián)性n 關(guān)聯(lián)分析對文本數(shù)據(jù)庫進行預(yù)處理,生成關(guān)鍵字向量,根據(jù)關(guān)鍵字查詢向量與文檔向量之間的相關(guān)度比較結(jié)果輸出文本結(jié)果,然后調(diào)用關(guān)聯(lián)挖掘算法文檔分類分析文檔分

21、類分析 自動文檔分類是指利用計算機將一篇文章自動地分派到一個或多個預(yù)定義的類別中 文檔分類的關(guān)鍵問題是獲得一個分類模式,利用此分類模式也可以用于其他文檔的分類 有了一個模式之后,需要進行人工標記和訓(xùn)練,以確定這個模式的參數(shù),然后才能進行自動的文檔分類文檔分類分析 應(yīng)用領(lǐng)域 門戶網(wǎng)站(網(wǎng)頁) 圖書館(電子資料) 自動分類優(yōu)點: 減小人工分類的繁雜工作 提高信息處理的效率 減小人工分類的主觀性文檔分類分析u步驟定義分類體系將預(yù)先分類過的文檔作為訓(xùn)練集從訓(xùn)練集中得出分類模型(需要測試過程,不斷細化)用訓(xùn)練獲得出的分類模型對其它文檔加以分類文檔分類分析文本分類基本步驟文檔分類分析文本分類過程文檔分類分

22、析 特征選擇 方法貝葉斯分類最近鄰分類相似文檔具有相似文檔向量,將每個文檔關(guān)聯(lián)到相應(yīng)的類標號將文檔分類看做計算文檔在特定類中的統(tǒng)計分布文檔分類 支持向量機使用數(shù)表示類,構(gòu)建從詞空間到類變量的直接映射函數(shù)(在高維空間中運行良好,最小二乘線性回歸方法區(qū)分能力較強)基于關(guān)聯(lián)的、頻繁出現(xiàn)的文本模式集對文檔分類基于關(guān)聯(lián)的 分類刪除文檔中與與類標號統(tǒng)計不相關(guān)的非特征詞文檔聚類分析 文本聚類是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同數(shù)據(jù)類的過程 其目的是要使同一類別的文本間的距離盡可能小,而不同類別的文本間的距離盡可能的大文檔聚類分析 文檔自動聚類的步驟(1)獲取結(jié)構(gòu)化的文本集(2)執(zhí)行聚類算法,獲得聚類譜系圖。聚類算法的目的是獲取能夠反映特征空間樣本點之間的“抱團”性質(zhì)(3)選取合適的聚類IA值。在得到聚類譜系圖后,領(lǐng)域?qū)<覒{借經(jīng)驗,并結(jié)合具體的應(yīng)用場合確定閾值(4)執(zhí)行聚類算法,獲得聚類結(jié)果文檔聚類分析混合模型聚類使用潛在語義標引聚類(LSI)光譜聚類對原始數(shù)據(jù)進行維度歸約,運用傳統(tǒng)的聚類方法(如k均值,缺點是計算昂貴)對文本數(shù)據(jù)和先驗知識估計模型參數(shù),基于參數(shù)推斷聚類最小化全局重構(gòu)誤差下,找到原文檔空間的最佳子空間近似文檔聚類 分析使用保持局部性標引聚類(LPI)發(fā)現(xiàn)局部幾何結(jié)構(gòu),具有更強的區(qū)分能力文檔聚類分析 文檔自動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論