大三下所有課件商務智能chapter07-text mining_第1頁
大三下所有課件商務智能chapter07-text mining_第2頁
大三下所有課件商務智能chapter07-text mining_第3頁
大三下所有課件商務智能chapter07-text mining_第4頁
大三下所有課件商務智能chapter07-text mining_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2022/7/24傳統(tǒng)的自然語言理解是對文本進行較低層次的理解,主要進行基于詞、語法和語義信息的分析,并通過詞在句子中出現(xiàn)的次序發(fā)現(xiàn)有意義的信息。文本高層次理解的對象可以是僅包含簡單句子的單個文本也可以是多個文本組成的文本集,但是現(xiàn)有的技術手段雖然基本上解決了單個句子的分析問題,但是還很難覆蓋所有的語言現(xiàn)象,特別是對整個段落或篇章的理解還無從下手。將數(shù)據(jù)挖掘的成果用于分析以自然語言描述的文本,這種方法被稱為文本挖掘(Text Mining)或文本知識發(fā)現(xiàn)(Knowledge Discovery in Text).一、文本挖掘的定義 The Institute of Business Intel

2、ligence, HFUT2/862022/7/24文本挖掘:文檔本身是半結構化的或非結構化的,無確定形式并且缺乏機器可理解的語義;數(shù)據(jù)挖掘:其對象以數(shù)據(jù)庫中的結構化數(shù)據(jù)為主,并利用關系表等存儲結構來發(fā)現(xiàn)知識因此,數(shù)據(jù)挖掘的技術不適用于文本挖掘,或至少需要預處理。二、文本挖掘與數(shù)據(jù)挖掘的區(qū)別: The Institute of Business Intelligence, HFUT3/862022/7/24文本挖掘(text mining):是指抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。Text data mining 、knowled

3、ge discovery from textual databases一、文本挖掘的定義 The Institute of Business Intelligence, HFUT4/862022/7/24特征抽取特征選擇文本分類文本聚類模型評價文本挖掘的過程 The Institute of Business Intelligence, HFUT5/862022/7/24文本挖掘的過程 The Institute of Business Intelligence, HFUT6/86特征的建立特征集的縮減學習與知識模式的提取知識模式模式質量的評價文檔集文本挖掘的一般處理過程2022/7/24三、

4、文本挖掘的關鍵技術 The Institute of Business Intelligence, HFUT7/86文本預處理文本分類文本聚類文本自動摘要文本的向量空間表示文本特征提取文本相似度2022/7/24文本是以文字串形式表示的數(shù)據(jù)文件。文本分析過程即通過文本分析,從中找出一些特征以便將來使用。文本分析包括語種識別、特征提取、文本聚類和文本分類等。為什么要進行文本分析? The Institute of Business Intelligence, HFUT8/862022/7/24 從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別

5、處理的信息,即對文本進行科學的抽象,建立它的數(shù)學模型,用以描述和代替文本。 使計算機能夠通過對這種模型的計算和操作來實現(xiàn)對文本的識別。 The Institute of Business Intelligence, HFUT9/86為什么要進行文本分析?2022/7/24文本表示是指用文本的特征信息集合來代表原來的文本。目前,在信息處理領域,文本的表示方法主要是采用向量空間模型(Vector Space Model,VSM)。向量是既有大小又有方向的量。 The Institute of Business Intelligence, HFUT10/86三、文本挖掘的關鍵技術文本預處理文本的向量

6、空間表示2022/7/24向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中Wi 為第i個特征項的權重。特征項一般選用字、詞或詞組。因此要將文本表示為向量空間中的一個向量,就首先將文本分詞,用這些詞作為向量的維數(shù)來表示文本。最初的向量表示完全是0、1的形式。但這種形式無法體現(xiàn)詞在文本中的作用程度,故0、1逐漸被更精確的詞頻代替。 The Institute of Business Intelligence, HFUT11/86三、文本挖掘的關鍵技術文本預處理2022/7/24語種識別工具能自動發(fā)現(xiàn)文本使用的語種。這類工具應用文本內容的一些線索來識別語種。通常用機器領域里的

7、算法,利用相應語種的訓練文本進行訓練,最終實現(xiàn)識別的目的。 The Institute of Business Intelligence, HFUT12/86三、文本挖掘的關鍵技術語種識別2022/7/24用于表示文本的基本單位通常稱為文本的特征或特征項,或文本的元數(shù)據(jù)。在中文文本中可以采用字、詞或短語作為表示文本的特征項。特征提取主要是使用自動的提取過程,識別文本中詞項的意義。 The Institute of Business Intelligence, HFUT13/86三、文本挖掘的關鍵技術特征提取2022/7/24分類:描述性特征:文本的名稱、日期、大小、類型等。語義性特征:文本的作

8、者、標題、機構、內容等。 The Institute of Business Intelligence, HFUT14/86三、文本挖掘的關鍵技術特征提取2022/7/24特征提取對掌握該文本的內容很重要,是一種強有力的文本挖掘工具。在一篇文本中,標題是該文本的高度概括,文本中的特征,如人命、地名、組織名等是文本中的主體信息。 The Institute of Business Intelligence, HFUT15/86三、文本挖掘的關鍵技術特征提取2022/7/24特征是概念的外在表現(xiàn)形式,特征提取是識別潛在概念結構的重要基礎。利用自動標引技術可以對文本進行特征標引。對漢語文本進行特征抽

9、取時,需要先對文本進行分詞處理。 The Institute of Business Intelligence, HFUT16/86三、文本挖掘的關鍵技術特征提取2022/7/24 The Institute of Business Intelligence, HFUT17/86分詞實例和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平2022/7/24 The Institute of Business Intelligence, HFUT18/86文本表示詞頻矩陣行對應關鍵詞t,列對應文檔d向量將每一個文檔視為空間向量v向量值反映單詞t與文檔d的關聯(lián)度矩

10、陣元素可以是詞頻,也可以是布爾型。表示文檔詞頻的詞頻矩陣d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352022/7/24 The Institute of Business Intelligence, HFUT19/86中文特征詞(Term)的粒度Character,字:中Word,詞:中國Phrase,短語:中國人民銀行Concept,概念同義詞:開心 高興 興奮相關詞cluster,word cluster:蔡赟/傅海峰N-gram,N元組:中國 國人 人民 民銀 銀行某種規(guī)律性模式:

11、比如某個window中出現(xiàn)的固定模式2022/7/24 The Institute of Business Intelligence, HFUT20/86中文分詞方法最大匹配法(Maximum Matching method, MM法):選取包含6-8個漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個漢字繼續(xù)匹配,直到在詞典中找到相應的單詞為止。匹配的方向是從右向左。逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向與MM法相反,是從左向右。實驗表明:對于漢語來說,逆向最大匹配法比最大匹配法更有效。2022/7/24

12、The Institute of Business Intelligence, HFUT21/86中文分詞方法雙向匹配法(Bi-direction Matching method, BM法):比較MM法與RMM法的分詞結果,從而決定正確的分詞。最佳匹配法(Optimum Matching method, OM法):將詞典中的單詞按它們在文本中的出現(xiàn)頻度的大小排列,高頻度的單詞排在前,頻度低的單詞排在后,從而提高匹配的速度。聯(lián)想-回溯法(Association-Backtracking method, AB法):采用聯(lián)想和回溯的機制來進行匹配。2022/7/24首先,要建立一個以介詞、冠詞、連詞

13、等無實質意義的單詞組成的停用詞表( stop words ),然后,利用創(chuàng)建的停用詞表,從被標引的文本中篩去停用詞,抽取關鍵詞。 The Institute of Business Intelligence, HFUT22/86西文分詞方法2022/7/24一般采用keyword,無需分詞,單詞之間有空格分開。stop words:指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。例如在英文中常用的停用詞有the,a, it等;在中文中常見的有“是”,“的”,“地”等。索引詞(標引詞,關鍵祠):可以用于指代文檔內容的預選詞語,一般為名詞或名詞詞組。 The Institute of Busin

14、ess Intelligence, HFUT23/86西文分詞方法2022/7/24 The Institute of Business Intelligence, HFUT24/86A dog is chasing a boy on the playgroundDetNounAuxVerbDetNounPrepDetNounNoun PhraseComplex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).語

15、義分析詞匯分析(詞性標注)語法分析A person saying this maybe reminding another person toget the dog back 語用分析(語言行為)Scared(x) if Chasing(_,x,_).+Scared(b1)推理、推斷2022/7/24 The Institute of Business Intelligence, HFUT25/862022/7/24 The Institute of Business Intelligence, HFUT26/86標引源數(shù)據(jù)庫一條待標引的記錄英語單詞遇空分詞停用詞表存儲剔除去除重復關鍵詞詞頻統(tǒng)

16、計,保留高頻詞利用詞表確定標引詞或直接選擇關鍵詞標引西文文本標引流程圖2022/7/24利用計算機抽取西文關鍵詞,首先要建立一個以介詞、冠詞、連詞等無實質意義的單詞組成的停用詞表,然后利用創(chuàng)建的停用詞表,從被標引的文本中篩去停用詞,抽取關鍵詞。(1)從文本中取出一個單詞:西文中每兩個單詞間有空格間隔,可通過空格取詞。(2)確定候選關鍵詞:利用取出的詞去搜索停用詞表,如是停用詞則舍去;否則,則作為候選詞。 The Institute of Business Intelligence, HFUT27/86抽取關鍵詞的方法與過程以西文文本為例2022/7/24(3)分析候選關鍵詞:對于重復的候選關鍵

17、詞,刪除重復詞,同時累計詞頻。如果標引對象是全文,還可以根據(jù)位置給候選關鍵詞賦予權重,例如,權值最高的位置是標題,其次是文摘、首尾段、首尾句、其他位置,然后計算每個被取出詞的權值之和,并將它們按權值從大到小排序,根據(jù)排序結果決定所取出的詞是否作為標引詞。 The Institute of Business Intelligence, HFUT28/86抽取關鍵詞的方法與過程以西文文本為例2022/7/24(4)確定標引詞:如果標引對象是標題,只需判斷所取出的候選詞是否重復,去重后,這些詞可以全部作為標引詞。如果標引對象是文摘或全文,抽出的候選關鍵詞會很多,需要對它們進行進一步篩選,具體的方法:

18、根據(jù)詞頻統(tǒng)計的結果,去除低頻詞,將高頻詞作為標引備用詞,然后根據(jù)系統(tǒng)規(guī)定的標引詞的數(shù)量,最終確定標引詞。 The Institute of Business Intelligence, HFUT29/86抽取關鍵詞的方法與過程以西文文本為例2022/7/24文本聚類是把一個文本集合分成幾組的過程。對于文本標題中的關鍵詞的相似匹配是對文本進行聚類的一種簡單方法。 The Institute of Business Intelligence, HFUT30/86三、文本挖掘的過程文本聚類2022/7/24分類工具是把文本集合中的文本分配到已經(jīng)存在的類別中,即,已存的“主題”中。將文本分類到各文本類

19、中,一般需要一個算法。這些算法包括決策樹分類器、近郊算法和休眠專家算法等。文本分類通過自動組織,把文本分到相應的主題中,能夠使文本數(shù)據(jù)庫更易于瀏覽和查詢。 The Institute of Business Intelligence, HFUT31/86三、文本挖掘的過程文本分類2022/7/24 The Institute of Business Intelligence, HFUT32/86三、文本挖掘的過程文本分類定義:給定分類體系,將文本分到某個或者某幾個類別中。分類體系一般人工構造政治、體育、軍事中美關系、恐怖事件分類系統(tǒng)可以是層次結構,如yahoo!分類模式2類問題,屬于或不屬于(

20、binary)多類問題,多個類別(multi-class),可拆分成2類問題一個文本可以屬于多類(multi-label)這里講的分類主要基于內容很多分類體系: Reuters分類體系、中圖分類2022/7/24 The Institute of Business Intelligence, HFUT33/86三、文本挖掘的過程自動文本分類方法Rocchio方法Nave BayeskNN方法決策樹方法decision treeDecision Rule ClassifierThe Widrow-Hoff Classifier神經(jīng)網(wǎng)絡方法Neural Networks支持向量機SVM基于投票的方法(voting method)2022/7/24 The Institute of Business Intelligence, HFUT34/86三、文本挖掘的過程系統(tǒng)結構標注工具機器學習工具模型數(shù)據(jù)標注的樣本分類工具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論