![畢業(yè)設(shè)計(論文)基于貝葉斯的文本自動分類的研究和實現(xiàn)_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a1.gif)
![畢業(yè)設(shè)計(論文)基于貝葉斯的文本自動分類的研究和實現(xiàn)_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a2.gif)
![畢業(yè)設(shè)計(論文)基于貝葉斯的文本自動分類的研究和實現(xiàn)_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a3.gif)
![畢業(yè)設(shè)計(論文)基于貝葉斯的文本自動分類的研究和實現(xiàn)_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a4.gif)
![畢業(yè)設(shè)計(論文)基于貝葉斯的文本自動分類的研究和實現(xiàn)_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、畢業(yè)設(shè)計(論文)i畢業(yè)設(shè)計(論文)任務(wù)書 題目 基于貝葉斯的文本自動分類的研究和實現(xiàn) 專業(yè) 學(xué)號 姓名主要內(nèi)容、基本要求、主要參考資料等:近年來隨著 internet 的大規(guī)模普及和企業(yè)信息化程度的提高,有越來越多的信息積累,而需要信息的人還沒有特別方便的工具去從來自異構(gòu)數(shù)據(jù)源的大規(guī)模的文本信息資源中提取符合需要的簡潔、精煉、可理解的知識,文本挖掘正是解決這一問題的一個方法。本課題研究基于貝葉斯的文本分類系統(tǒng),可以用于以下領(lǐng)域和系統(tǒng)中:企業(yè)知識門戶、信息增值服務(wù)、智能搜索引擎 、數(shù)字圖書館 、情報分析 、信息安全和過濾、電子商務(wù)系統(tǒng)。文本自動分類不需人工干預(yù)的自動分類技術(shù),有效提高非結(jié)構(gòu)化信息
2、資源的加工效率。利用樸素貝葉斯分類文法的分類器,分析已經(jīng)手動分類的文本,根據(jù)文本內(nèi)容計算分類條件概率,再利用訓(xùn)練好的分類器分析未分類的文本,根據(jù)分類器算出的所屬領(lǐng)域概率最大的進行分類。本課題任務(wù)要求:1) 學(xué)習(xí)關(guān)于樸素貝葉斯分類文法,查找相關(guān)的資料以供參考;2) 實現(xiàn)樸素貝葉斯分類文法的分類器;3) 人工對樣本數(shù)據(jù)進行分類和標(biāo)注;4) 利用貝葉斯分類文法的分類器,利用樣本進行訓(xùn)練,然后對分類數(shù)據(jù)進行自動分類;5) 根據(jù)分類結(jié)果,調(diào)整分類閾值,彌補分類器的不足。6) 根據(jù)實驗數(shù)據(jù)和結(jié)果,按時完成畢業(yè)設(shè)計論文。主要參考資料:貝葉斯分類算法的論文和資料,未分類文本語料。完成期限: 指導(dǎo)教師簽章: 專
3、業(yè)負責(zé)人簽章:年 月 日畢業(yè)設(shè)計(論文)ii摘要隨著計算機技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時也需要投入更多的時間對信息進行組織和管理。為了減輕這種負擔(dān),人們開始研究使用計算機對文本進行自動分類。文本自動分類就是在給定的分類體系下,讓計算機根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。自動文本分類是人工智能技術(shù)和信息獲取技術(shù)相結(jié)合的研究領(lǐng)域。隨著網(wǎng)絡(luò)的發(fā)展,大量的文檔數(shù)據(jù)涌現(xiàn)在網(wǎng)上,用于處理海量數(shù)據(jù)的自動文本分類技術(shù)變得越來越重要,已逐漸成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。通過分析 knn(k nearest neighbor)、樸素貝葉斯(naive bayes)、sv
4、m(support vector machine)三種文本分類方法的優(yōu)點和缺點,發(fā)現(xiàn)樸素貝葉斯分類器速度極快,具有最小的出錯率,可在線化實現(xiàn)等優(yōu)點,并對該分類方法進行了理論分析和實驗對比,實驗結(jié)果表明這種文本分類模型是高效的可行的。本文首先介紹了基于貝葉斯的文本自動分類的研究和實現(xiàn)的背景,并且敘述了相關(guān)問題的概念知識,包括文本分類和中文分詞等;其次,對相關(guān)的理論知識做了講解,包括先驗概率、條件概率、貝葉斯理論、貝葉斯算法等;第三,對如何實現(xiàn)文本分類進行了概述以及整體講解,通過給出流程圖,可以更直觀的了解實現(xiàn)的過程;第四,詳細介紹了實現(xiàn)本課題所用到的重要工具,包括 jbuilder2007 開發(fā)
5、工具和全文檢索引擎 lucene 以及 java 平臺;第五,在前期工作基礎(chǔ)上,給出了詳細的實現(xiàn)過程,包括單文本分類和多文本分類以及相關(guān)具體操作;最后,通過多次大量重復(fù)試驗,得出了實驗數(shù)據(jù),在此通過表格的形式,直觀的給出了實驗結(jié)果。本課題研究基于貝葉斯的文本分類系統(tǒng),根據(jù)所討論的算法構(gòu)造了貝葉斯文本自動分離器,并做出詳盡的訓(xùn)練測試,從最終的試驗結(jié)果可以看出,貝葉斯算法簡單、性能優(yōu)越,即使在不考慮貝葉斯假設(shè)的前提下,仍然取得良好的分類性能。關(guān)鍵字:文本自動分類 ,貝葉斯分類 ,分類文本語料庫。畢業(yè)設(shè)計(論文)iiiabstractwith the computer technology and
6、the rapid development of communication technology, people can get more and more digital information, but it also needs to devote more time to organize and manage information. in order to alleviate that burden, people began to study the use of computers for automatic classification of text. automatic
7、 text categorization is the classification of a given system, the computer determined in accordance with the contents of the text associated with its category. automatic text classification is the artificial intelligence technology and access to information technology research field. with the develo
8、pment of network, data on the emergence of a large number of documents online, to deal with massive data technology of automatic text classification is becoming increasingly important, has become an increasingly large number of document processing and organization of the key technologies of data.by
9、analyzing the k nearest neighbor、naive bayes、support vector machine method of text classification in three strengths and weaknesses found in naive bayesian classifier speed, with the smallest error rate, can achieve the advantages of online technology, and the classification of the theoretical analy
10、sis and experimental comparison, experimental results show that the text categorization model is feasible and efficient. this paper first introduces the bayesian-based text categorization of the research and realization of the background and describes the issues related to the concept of knowledge,
11、including text classification and chinese word segmentation . second, the relevant theoretical knowledge to do the explaining, including a priori probability, conditional probability, bayesian theory, the bayesian algorithm . third, on how to achieve the outlined text classification as well as on th
12、e whole, through the given flow chart, you can achieve a more intuitive understanding of the process. fourth, in detail on achieving this important task by use of tools, including development tools and jbuilder2007 full-text search engine lucene and java platform.fifth, prior to the adoption of the
13、work detailed in this paper the realization of the process, including single-and multi-text classification text categorization and related specific operations; finally, a large number of repeat tests many times, the experimental data obtained in this 畢業(yè)設(shè)計(論文)ivform through the form, intuitive experi
14、mental results are given.the research based on bayesian text classification system, according to the algorithm discussed in the text automatically constructed bayesian separator and training to make a detailed test results from the final we can see that the bayesian algorithm is simple, superior per
15、formance, even without taking into account the assumption that the premise of bayesian still achieve good classification performance. keywords: automatic text categorization, bayesian classifier, classification of text corpora.畢業(yè)設(shè)計(論文)1目錄目錄1.緒論.21.1 研究背景.21.2 文本分類的研究現(xiàn)狀 .21.3 分類的含義.31.4 文本分類的含義.31.5
16、自動分類.31.6 中文分詞.31.7 中文分詞的意義和作用.41.8 中文分詞的應(yīng)用.41.9 本文的組織 .42.條件概率.62.1 條件概率定義 .62.2 全概率公式和貝葉斯公式 .62.3 貝葉斯學(xué)習(xí)理論 .62.4 樸素貝葉斯分類.72.5 貝葉斯文本分類算法.92.6 文本自動分類的特點.103.設(shè)計概述.113.1 流程圖.113.2 概要設(shè)計.144.系統(tǒng)開發(fā)環(huán)境.154.1 java .154.2 開放源代碼的全文檢索引擎 lucene簡介.165.貝葉斯的文本自動分類的分析與設(shè)計.195.1 引言 .195.2 詳細設(shè)計 .195.3 程序?qū)崿F(xiàn) .295.4 試驗數(shù)據(jù).3
17、56 結(jié)論.36全文總結(jié) .36未來展望 .36致謝.37參考文獻.38畢業(yè)設(shè)計(論文)21.緒論1.1 研究背景我們正處在一個信息急劇豐富的時代,據(jù) 1998 年的統(tǒng)計結(jié)果顯示,全世界每年出版大約 15600 種期刊,而且這一數(shù)字以每年 12000 種的速度遞增,同期,僅美國國內(nèi)就有近 140 萬種圖書在付印,這一數(shù)據(jù)還以平均每年 6 萬種的速度在增加。1998 年美國國會圖書館藏書約 1700 萬種,而平均每天接收到的新書就多達 7000 種。另一個增長驚人的信息渠道是 internet,1999 年的統(tǒng)計結(jié)果表明,internet 上約有 3.5 億個靜態(tài) html(hypertext
18、markup language 超文本標(biāo)記語言)頁面,每天增加將近100 萬。這些頁面大部分是以文本文檔的形式存在,而我們?nèi)粘K佑|的信息,也絕大部分是文本的形式,它們或以印刷品的方式存在,或以電子文檔的形式出現(xiàn)。尤其是近十年來,隨著網(wǎng)絡(luò)的飛速發(fā)展,數(shù)字圖書館的出現(xiàn),越來越多的文本信息以電子文檔的形式存在。面對如此龐大而又急劇膨脹的信息海洋,如何有效地組織和管理這些信息,并能快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)與技術(shù)領(lǐng)域所面臨的一大挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息的紛繁雜亂問題,方便用戶快度、準(zhǔn)確地定位所需要的信息。因此,自動文本
19、分類已作為一項具有較大實用價值的關(guān)鍵技術(shù),得到了廣泛關(guān)注,取得了很大進展。1.2 文本分類的研究現(xiàn)狀國外文本數(shù)據(jù)分類的研究始于 20 世紀(jì) 50 年代末,luhn 在這一領(lǐng)域進行了開創(chuàng)性的研究,其后許多學(xué)者在這一領(lǐng)域進行了卓有成效的研究。國外文本數(shù)據(jù)分類研究大體上可以分為三個階段:第一階段是 20 世紀(jì) 80 年代前。在這一時期,模式識別和信息檢索相繼發(fā)展成一門學(xué)科。這一階段主要是集中在對分類理論的研究,應(yīng)用方面則主要是用于信息檢索。第二階段是 20 世紀(jì) 80 年代到 90 年代。這一階段主要是采用傳統(tǒng)的知識工程技術(shù),在這一時期,信息檢索技術(shù)逐漸成熟應(yīng)用,為文本分類提供了許多技術(shù)支持。第三階
20、段是 20 世紀(jì) 90 年代以后?;ミB網(wǎng)技術(shù)的發(fā)展,文本數(shù)據(jù)量急劇增加,這種耗時、靈活性差、應(yīng)用難度大的知識工程方法越來越不能滿足實際應(yīng)用的需要,于是逐漸被機器學(xué)習(xí)的方法取而代之。基于機器學(xué)習(xí)的文本分類方法克服了以前手工建立分類器的缺點,使得文本分類具有了真正的實用價值。這一時期分類器的特點:一是分類知識來源于機器對訓(xùn)練集的自動學(xué)習(xí),不再依賴于專家;二是學(xué)習(xí)和分類過程不需要人工干預(yù),分類效率和準(zhǔn)確率都有很大提高。所謂機器學(xué)習(xí)是指由計算機代替人來學(xué)習(xí)關(guān)于認識世界、改造世界的知識。國內(nèi)文本數(shù)據(jù)分類研究起步較晚,始于 20 世紀(jì) 80 年代初期。我國文本分類的研究大體上經(jīng)歷了可行性探討、輔助分類、自
21、動分類系統(tǒng)三個發(fā)展階段。早期對中文文本的分類研究較少,采用的技術(shù)也主要是把英文文本分類的技術(shù)應(yīng)用到中文文本分類畢業(yè)設(shè)計(論文)3當(dāng)中。自上世紀(jì) 90 年代后期才開始著重于對中文文本分類的研究,結(jié)合中文文本的特點,形成中文文本數(shù)據(jù)分類研究體系。文本分類方面的文獻也非常豐富,常見于信息檢索、機器學(xué)習(xí)、知識挖掘與發(fā)現(xiàn)、模式識別、人工智能、計算機科學(xué)與應(yīng)用等各種國際會議及相關(guān)的期刊或雜志。1.3 分類的含義廣義的分類(classification 或者 categorization)有兩種含義:一種含義是有指導(dǎo)的學(xué)習(xí)(supervised learning)過程,另一種是無指導(dǎo)的學(xué)習(xí)(unsuperv
22、ised learning)過程。通常前者稱為分類,后者稱為聚類(clustering) ,后文中提到的分類是指有指導(dǎo)的學(xué)習(xí)過程。給定分類體系,將文本集中的每個文本分到某個或者某幾個類別中,這個過程稱為文本分類(text categorization) 。1.4 文本分類的含義文本分類過程可以分為手工分類和自動分類。前者最著名的實例是 yahoo 的網(wǎng)頁分類體系,是由專家定義了分類體系,然后人工將網(wǎng)頁分類。這種方法需要大量人力,現(xiàn)實中已經(jīng)采用的很少了。自動文本分類(automatic text categorization)算法大致可以分為兩類:知識工程(knowledge engineeri
23、ng)方法和機器學(xué)習(xí)(machine learning)方法。知識工程方法指的是由專家為每個類別定義一些規(guī)則,這些規(guī)則代表了這個類別的特征,自動把符合規(guī)則的文檔劃分到相應(yīng)的類別中。這方面最著名的系統(tǒng)是 construe。上個世紀(jì) 90 年代之后,機器學(xué)習(xí)方法成為主導(dǎo)。機器學(xué)習(xí)方法與知識工程方法相比,能夠達到相似的精確度,但是減少了大量的人工參與。下面主要介紹基于機器學(xué)習(xí)方法的文本分類。1.5 自動分類1.自動分類基于內(nèi)容、不需人工干預(yù)的文本自動分類技術(shù)。系統(tǒng)提供分類訓(xùn)練工具,允許用戶自行根據(jù)自己的分類需求和數(shù)據(jù)特點設(shè)定分類結(jié)構(gòu),自動生成特征模板,進行分類訓(xùn)練。trs 自動分類支持反饋學(xué)習(xí)機制,
24、可以根據(jù)用戶的反饋自動對分類模板進行完善,從而逐步增加分類的準(zhǔn)確率。2.自動分類是利用模式識別技術(shù)實現(xiàn)對遙感影像內(nèi)容的自動標(biāo)志識別和分類,即計算機輔助判讀。通常采用特征空間識別方法。是建立在概率論和數(shù)理統(tǒng)計基礎(chǔ)上,立足于尋找能反映影像特點的一些特征,經(jīng)過信息壓縮、特征抽取、特征選擇和決策規(guī)劃來識別地物的計算機自動分類方法。1.6 中文分詞什么是中文分詞?中文分詞與其他的分詞又有什么不同呢?分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英
25、文也同樣存在短語的劃分問題,但是在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。 畢業(yè)設(shè)計(論文)41.7 中文分詞的意義和作用要想說清楚中文分詞的意義和作用,就要提到智能計算技術(shù)。智能計算技術(shù)涉及的學(xué)科包括物理學(xué)、數(shù)學(xué)、計算機科學(xué)、電子機械、通訊、生理學(xué)、進化理論和心理學(xué)等等。簡單的說,智能計算就是讓機器“能看會想,能聽會講” 。要想實現(xiàn)這樣的一個目標(biāo),首先就要讓機器理解人類的語言,只有機器理解了人類的語言文字,才使得人與機器的交流成為可能。再反觀我們?nèi)祟惖恼Z言中, “詞是最小的能夠獨立活動的有意義的語言成分” ,所以對于中文來講,將詞確定下來是理解自然語言的第一步,只有跨越了這一步,中文才
26、能像英文那樣過渡到短語劃分、概念抽取以及主題分析,以至于自然語言理解,最終達到智能計算的最高境界,實現(xiàn)人類的夢想。從現(xiàn)階段的實際情況來看,英文已經(jīng)跨越了分詞這一步,也就是說在詞的利用上已經(jīng)先我們一步,并且已經(jīng)展現(xiàn)了良好的應(yīng)用前景,無論是信息檢索還是主題分析的研究都要強于中文,究其根本原因就是中文要通過分詞這道難關(guān),只有攻破了這道難關(guān),我們才有希望趕上并超過英文在信息領(lǐng)域的發(fā)展,所以中文分詞對我們來說意義重大,可以說直接影響到使用中文的每一個人的方方面面。1.8 中文分詞的應(yīng)用中文分詞主要應(yīng)用于信息檢索、漢字的智能輸入、中外文對譯、中文校對、自動摘要、自動分類等很多方面。下面就以信息檢索為例來說
27、明中文分詞的應(yīng)用。 通過近幾年的發(fā)展,互聯(lián)網(wǎng)已經(jīng)離我們不再遙遠?;ヂ?lián)網(wǎng)上的信息也在急劇膨脹,在這海量的信息中,各類信息混雜在一起,要想充分利用這些信息資源就要對它們進行整理,如果由人來做這項工作,已經(jīng)是不可能的,而如果面對中文信息不采用分詞技術(shù),那么整理的結(jié)果就過于粗糙,而導(dǎo)致資源的不可用,例如:“制造業(yè)和服務(wù)業(yè)是兩個不同的行業(yè)”和“我們出口日本的和服比去年有所增長”中都有“和服” ,而被當(dāng)作同一類來處理,結(jié)果是檢索“和服”的相關(guān)信息,會將他們都檢索到,在信息量少的情況下,似乎還能夠忍受,如果是海量信息,這樣的結(jié)果就會令人討厭了。通過引入分詞技術(shù),就可以使機器對海量信息的整理更準(zhǔn)確更合理,在“
28、制造業(yè)和服務(wù)業(yè)是兩個不同的行業(yè)”中“和服”不會被當(dāng)作一個詞來處理,那么檢索“和服”當(dāng)然不會將它檢索到,使得檢索結(jié)果更準(zhǔn)確,效率也會大幅度的提高。所以中文分詞的應(yīng)用會改善我們的生活,使人們真正體會到科技為我所用。畢業(yè)設(shè)計(論文)52.條件概率2.1 條件概率定義定義定義 設(shè) a, b 是兩個事件,且 p(a)0 稱 p(ba)=p(ab)/p(a)為在條件 a 下發(fā)生的條件事件 b 發(fā)生的條件概率。乘法公式乘法公式 設(shè) p(a)0 則有 p(ab)=p(ba)p(a) 2.2 全概率公式和貝葉斯公式定義定義 設(shè) s 為試驗 e 的樣本空間,b1, b2, bn為 e 的一組事件,若 bibj=,
29、 ij, (i, j=1, 2, ,n) ;b1b2bn=s 則稱 b1, b2, , bn為樣本空間的一個劃分。定理定理 設(shè)試驗 e 的樣本空間為 s,a 為 e 的事件,b1, b2, ,bn為的一個劃分,且 p(bi)0 (i=1, 2, n),則 p(a)=p(ab1)p(b1)+p(ab2)p(b2)+p(abn)p(bn)稱為全概率公式。定理定理 設(shè)試驗 e 的樣本空間為 s,a 為 e 的事件,b1, b2, ,bn為的一個劃分,則p(bia)=p(abi)p(bi)/p(baj)p(aj)=p(bai)p(ai)/p(b) 稱為貝葉斯公式。下面我再舉個簡單的例子來說明下??紤]一
30、個醫(yī)療診斷問題,有兩種可能的假設(shè):(1)病人有癌癥。畢業(yè)設(shè)計(論文)6(2)病人無癌癥。樣本數(shù)據(jù)來自某化驗測試,它也有兩種可能的結(jié)果:陽性和陰性。假設(shè)已經(jīng)有先驗知識:在所有人口中只有 0.008 的人患病。此外,化驗測試對有病的患者有 98%的可能返回陽性結(jié)果,對無病患者有 97%的可能返回陰性結(jié)果。上面的數(shù)據(jù)可以用以下概率式子表示:p(cancer)=0.008,p(無 cancer)=0.992p(陽性|cancer)=0.98,p(陰性|cancer)=0.02p(陽性|無 cancer)=0.03,p(陰性|無 cancer)=0.97假設(shè)現(xiàn)在有一個新病人,化驗測試返回陽性,是否將病人
31、斷定為有癌癥呢?可以計算極大后驗假設(shè):p(陽性|cancer)p(cancer)=0.98*0.008 = 0.0078p(陽性|無 cancer)*p(無 cancer)=0.03*0.992 = 0.0298因此,應(yīng)該判斷為無癌癥。2.3 貝葉斯學(xué)習(xí)理論貝葉斯是一種基于概率的學(xué)習(xí)算法,能夠用來計算顯式的假設(shè)概率,它基于假設(shè)的先驗概率,給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。本課題用 p(h)表示沒有訓(xùn)練樣本數(shù)據(jù)前假設(shè) h 擁有的初始概率,也就稱為 h 的先驗概率,它反映了我們所擁有的關(guān)于 h 是一個正確假設(shè)的機會的背景知識。當(dāng)然如果沒有這個先驗知識的話,在實際處理中,可以簡單地
32、將每一種假設(shè)都賦給一個相同的概率。類似,p(d)代表將要觀察的訓(xùn)練樣本數(shù)據(jù) d 的先驗概率(也就是說,在沒有確定某一個假設(shè)成立時 d 的概率) 。然后是 p(d/h),它表示假設(shè) h 成立時觀察到數(shù)據(jù) d 的概率。在機器學(xué)習(xí)中,所感興趣的是 p(h/d),也就是給定了一個訓(xùn)練樣本數(shù)據(jù) d,判斷假設(shè) h 成立的概率,這也稱之為后驗概率,它反映了在看到訓(xùn)練樣本數(shù)據(jù) d 后假設(shè) h成立的置信度。 (注:后驗概率 p(h/d)反映了訓(xùn)練數(shù)據(jù) d 的影響,而先驗概率 p(h)是獨立于 d 的) 。argmax( |)maph hhp h d (| ) ( )argmax()h hp d h p hp d
33、 (2.1)argmax(| ) ( )h hp d h p h注意,在最后一步去掉了 p(d) ,因為它是不依賴于 h 的常量。在某些情況下,可假定 h 中每個假設(shè)有相同的先驗概率(即對 h 中任意 hi和 hj,p(hi)=p(hj)) 。這時可把等式(2.1)進一步簡化,只需考慮 p(d|h)來尋找極大可能假設(shè)。p(d|h)常被稱為給定 h 時數(shù)據(jù) d 的似然度,而使 p(d|h)最大的假設(shè)被稱為極大似然(maximum likelihood,ml)假設(shè) hml畢業(yè)設(shè)計(論文)7p(h|d) = p(d|h)p(h)/p(d) (2.2)argmax(| )mlh hhp d h從貝葉斯
34、公式可以看出,后驗概率 p(h/d)取決于 p(d|h)p(h)這個乘積,這就是貝葉斯分類算法的核心思想。要做的就是要考慮候選假設(shè)集合 h,并在其中尋找當(dāng)給定訓(xùn)練數(shù)據(jù) d 時可能性最大的假設(shè) h(h 屬于 h) 。簡單點說,就是給定了一個訓(xùn)練樣本數(shù)據(jù)(樣本數(shù)據(jù)已經(jīng)人工分類好了) ,應(yīng)該如何從這個樣本數(shù)據(jù)集去學(xué)習(xí),從而當(dāng)碰到新的數(shù)據(jù)時,可以將新數(shù)據(jù)分類到某一個類別中去。那可以看到,上面的貝葉斯理論和這個任務(wù)是吻合的。2.4 樸素貝葉斯分類12argmax(|,.)jmapjnvvvp va aa可使用貝葉斯公式將此表達式重寫為:1212(,.|) ()argmax(,.)jnjjmapvvnp
35、a aav p vvp a aa (2.3)12argmax(,.|) ()jnjjvvp a aav p v現(xiàn)在要做的是基于訓(xùn)練數(shù)據(jù)估計式(2.3)中兩個數(shù)據(jù)項的值。估計每個 p(vj)很容易,只要計算每個目標(biāo)值 vj出現(xiàn)在訓(xùn)練數(shù)據(jù)中的頻率就可以。然而,除非有一個非常大的訓(xùn)練數(shù)據(jù)的集合。否則用這種方法估計不同的 p(a1,a2,an |vj)項不大可行。問題在于這些項的數(shù)量等于可能實例的數(shù)量乘以可能目標(biāo)值的數(shù)量。因此為獲得合理的估計,實例空間中每個實例必須出現(xiàn)多次。 樸素貝葉斯分類器基于一個簡單的假定:再給定目標(biāo)值時屬性值之間相互條件獨立。換言之,該假定說明在給定實例目標(biāo)值情況下,觀察到聯(lián)合
36、的 a1,a2,an的概率等于每個單獨屬性的概率乘積: 12(|,.)(|)jnijip va aap av(2.4) 將其帶入(2.3)中,可得樸素貝葉斯分類器所使用的方法: argmax()(|)jnbjijivvvp vp av(2.5)其中 vnb是樸素貝葉斯分類器輸出的目標(biāo)值。注意,在樸素貝葉斯分類器中,需從訓(xùn)練數(shù)據(jù)中估計的不同 p(ai|vj)項的數(shù)量只是不同的屬性值數(shù)量乘以不同目標(biāo)值數(shù)量這比要估計 p(a1,a2,an|vj)p(a1,a2,an|vj)所需要的量要小的多。舉個簡單的例子,讓大家對這個算法的原理有個快速的認識。假設(shè)給定了表 2.1 中訓(xùn)練樣本數(shù)據(jù),學(xué)習(xí)的目標(biāo)是根據(jù)
37、給定的天氣狀況判斷你對playtennis 這個請求的回答是 yes 還是 no。dayoutlooktemperaturehumiditywindplaytennis畢業(yè)設(shè)計(論文)8d1sunnyhothighweaknod2sunnyhothighstrongnod3overcasthothighweakyesd4rainmildhighweakyesd5raincoolnormalweakyesd6raincoolnormalstrongnod7overcastcoolnormalstrongyesd8sunnymildhighweaknod9sunnycoolnormalweakye
38、sd10rainmildnormalweakyesd11sunnymildnormalstrongyesd12overcastmildhighstrongyesd13overcasthotnormalweakyesd14rainmildhighstrongno表 2.1可以看到這里樣本數(shù)據(jù)集提供了 14 個訓(xùn)練樣本,本課題將使用此表的數(shù)據(jù),并結(jié)合樸素貝葉斯分類器來分類下面的新實例:(outlook = sunny,temprature = cool,humidity = high,wind = strong)本課題的任務(wù)就是對此新實例預(yù)測目標(biāo)概念 playtennis 的目標(biāo)值(yes 或 n
39、o).由上面的公式可以得到:|,|argmax()(|)jnbjijivyes novp vp av= |,|argmax()jjvyes nop v(|) (|)jjp outlooksunny v p temperaturecool v (|) (|)jjp humidityhigh v p windstrong v(2.6)可以得到:p(playtennis =yes) = 9/14 = 0.64p(playtennis=no)=5/14 = 0.36p(wind=stong| playtennis =yes)=3/9=0.33p(wind=stong| playtennis =no)=
40、3/5 = 0.6其他數(shù)據(jù)類似可得,代入后得到:p(yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) = 0.0053畢業(yè)設(shè)計(論文)9p(no)p(sunny|no)p(cool|no)p(high|no)p(strong|no)=0.0206因此應(yīng)該分類到 no 這一類中。2.5 貝葉斯文本分類算法根據(jù)聯(lián)合概率公式(全概率公式) ( ,)(|) ()(|) ( )p c xp c x p xp x c p c(2.7)即得到貝葉斯公式 (|) ( )(|)()p x c p cp c xp x(2.8)則貝葉斯文本分類的任務(wù)就是將表示成
41、為向量的待分類文本 x(x1,x2,xn)歸類到與其關(guān)聯(lián)最緊密的類別 c(c1,c2,cj)c(c1,c2,cj)中去。其中 x(x1,x2,xn)為待分類文本 xq 的特征向量,c(c1,c2,cj)為給定的類別體系。也就是說,求解向量x(x1,x2,xn)屬于給定類別 c1,c2,cj的概率值(p1,p2,pn ),其中,pj為x(x1,x2,xn)屬于 cj的概率,則maxmax(p1,p2,pn)所對應(yīng)的類別就是文本 x 所屬的類別,因此分類問題被描述為:求解方程(2.8)式的最大值。 121212( ,.|) ()(|,.)( ,. )njjjnnp x xxc p cp cx xxp c cc(2.9)其中,1)p(cj)訓(xùn)練文本集中,文本屬于類別 cj的概率;2)p(x1,x2,xn|cj)如果待分類文本屬于類別 cj,則類別 cj中包含向量(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級數(shù)學(xué)下冊蘇教版第一單元第10課《列方程解決實際問題練習(xí)(練習(xí)三)》聽評課記錄
- 中考道德與法治一輪復(fù)習(xí)八年級上第2單元遵守社會規(guī)則 聽課評課記錄 人教版
- 湘教版數(shù)學(xué)八年級上冊《小結(jié)練習(xí)》聽評課記錄6
- 公派出國留學(xué)協(xié)議書范本
- 電商平臺加盟合作協(xié)議書范本
- 軟件合作開發(fā)合同范本
- 二零二五年度資質(zhì)借用與金融服務(wù)合作協(xié)議:金融機構(gòu)資質(zhì)借用合同
- 天津市建設(shè)工程施工專業(yè)分包合同范本
- 2025年度餐廚廢棄物收購與冷鏈物流配送服務(wù)合同
- 洗車場場地租賃合同范本
- 2025高考數(shù)學(xué)專項復(fù)習(xí):概率與統(tǒng)計的綜合應(yīng)用(十八大題型)含答案
- 2024-2030年中國紫蘇市場深度局勢分析及未來5發(fā)展趨勢報告
- 銷售人員課件教學(xué)課件
- LED大屏技術(shù)方案(適用于簡單的項目)
- Lesson 6 What colour is it(教學(xué)設(shè)計)-2023-2024學(xué)年接力版英語三年級下冊
- 歷年國家二級(Python)機試真題匯編(含答案)
- GB/T 4706.10-2024家用和類似用途電器的安全第10部分:按摩器具的特殊要求
- NB/T 11446-2023煤礦連采連充技術(shù)要求
- 2024年江蘇省蘇州市中考英語試題卷(含標(biāo)準(zhǔn)答案及解析)
- 第五單元任務(wù)二《準(zhǔn)備與排練》教學(xué)設(shè)計 統(tǒng)編版語文九年級下冊
- 設(shè)計質(zhì)量、進度、服務(wù)保證措施
評論
0/150
提交評論