文本聚類(lèi)算法研究_第1頁(yè)
文本聚類(lèi)算法研究_第2頁(yè)
文本聚類(lèi)算法研究_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文本聚類(lèi)算法研究    文本聚類(lèi)算法研究摘要本文對(duì)文本聚類(lèi)做了比較詳盡的分析,包括文本聚類(lèi)的概念和總體介紹,聚類(lèi)模型,聚類(lèi)算法以及相關(guān)技術(shù)等等。文本自動(dòng)聚類(lèi)系統(tǒng)是信息處理的重要研究方向,它是指在給定的聚類(lèi)體系下,根據(jù)文本的內(nèi)容自動(dòng)劃分文本類(lèi)別的過(guò)程。文中重點(diǎn)分析和比較了各種基于不同聚類(lèi)模型的聚類(lèi)算法的優(yōu)劣,對(duì)其中一部分算法通過(guò)程序加以實(shí)現(xiàn),得到了實(shí)驗(yàn)結(jié)果。通過(guò)實(shí)驗(yàn)結(jié)果可以直觀地看出算法的性能。其中重點(diǎn)實(shí)現(xiàn)的是基于向量空間模型的層次聚類(lèi)算法。該算法是當(dāng)今國(guó)內(nèi)外文本聚類(lèi)領(lǐng)域比較流行的算法之一,性能優(yōu)良,有很高的準(zhǔn)確率和召回率。在我對(duì)特定文檔集進(jìn)行的聚類(lèi)實(shí)驗(yàn)中

2、,這種方法得出的結(jié)果是最滿意的。本文共分七章:第一章是緒論,介紹文本聚類(lèi)的概念,用途,流程并簡(jiǎn)單介紹了一下文本分類(lèi)。第二章是分析了幾種現(xiàn)有的文本聚類(lèi)模型和算法,從多角度比較它們的優(yōu)缺點(diǎn)。第三章介紹了中文文本聚類(lèi)中的主要問(wèn)題和關(guān)鍵技術(shù)。第四章簡(jiǎn)述了Smart系統(tǒng)的功能和使用方法。第五章詳細(xì)說(shuō)明了文本聚類(lèi)程序的結(jié)構(gòu),主要算法的實(shí)現(xiàn),和編制文本聚類(lèi)器的步驟。第六章給出了對(duì)我的畢設(shè)程序進(jìn)行性能評(píng)估的數(shù)據(jù)。第七章是對(duì)全文的總結(jié)和對(duì)未來(lái)的展望。關(guān)鍵詞:文本聚類(lèi),文本分類(lèi),向量空間,相似度, 精確度,召回率,層次凝聚算法 Abstract The thesis analyzes text clusterin

3、g in detail, including the definition and general introduction of the text clustering,the model,algorithm and relevant technologies of text clustering,etc.Automatic text clustering is the main researching direction of the Information Procession,it is the process of automatically deviding many texts

4、into different classes with a given clustering method.In the thesis we analyzed and compared kinds of clustering models and algorithms,carried out part of them and got some experimental result.We can see the performance of the algorithms directly from the result.And in this thesis we mainly implemen

5、ted the level-agglomerative algorithm based on the vector space model.This algorithm is one of the most popular algorithms in the field of text clustering nowadays.It has good capability,high precision and recall.In my experiment on given document sets,this algorithm has the most satisfactory result

6、. The thesis is devided into 7 chapters: Chapter1 is the introduction. It introduces the definition,usage,and process of text clustering,and briefly introduced text classification. Chapter2 analyzes some existing models and algorithms of text clustering,compared them with each other from so many asp

7、ects. Chapter3 introduces the main problems and key technologies in text clustering. Chapter4 shows the function and usage of the Smart system. Chapter5 shows the structure of the text clustering program, the implementation of the main algorithms, and the steps to write a text clustering program. Ch

8、apter6 presents some experimental results, and evaluates several text clustering algorithms. Chapter7 is the conclusion and the future work. Key-words: text clustering, text classification, vector space, similarity, precision, recall, level-agglomerative clustering algorithm 目錄摘要1 Abstract.2 第一章 緒論.

9、5 11文本聚類(lèi)概述5 12文本聚類(lèi)工作流程6 13文本分類(lèi)概述7 第二章 現(xiàn)有的數(shù)據(jù)聚類(lèi)模型和算法10 21基于密度的聚類(lèi)算法.10 22基于向量空間的聚類(lèi)算法.13 23基于統(tǒng)計(jì)語(yǔ)言的聚類(lèi)模型.16 231信息熵16 232統(tǒng)計(jì)語(yǔ)言模型17 233條件聚類(lèi)模型18 本章小結(jié).20 第三章 中文文本聚類(lèi)中的基本問(wèn)題.21 31中文分詞概述.21 32特征詞抽取.22 33文本的表示.24 本章小結(jié).25 第四章 SMART系統(tǒng)概述26 41SMART系統(tǒng)簡(jiǎn)介.26 42 SMART系統(tǒng)中的信息檢索.28 43SMART系統(tǒng)的搭建步驟.30 44SMART系統(tǒng)的評(píng)價(jià).31 本章小結(jié).33 第五章 文本聚類(lèi)程序的實(shí)現(xiàn).34 51問(wèn)題定義34 52程序的基本功能和總體結(jié)構(gòu)34 53程序中數(shù)據(jù)結(jié)構(gòu)的定義35 54程序中主要算法的實(shí)現(xiàn)37 541相關(guān)文件操作.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論