版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、畢業(yè)設計設計題目 基于數(shù)據(jù)挖掘的關鍵詞統(tǒng)計關聯(lián)分析 學生姓名 學 號 專業(yè)班級 指導教師 院系名稱 計算機與信息學院 2015 年 6 月 12 日目錄中文摘要1英文摘要2第一章 緒論31.1 課題研究的背景及意義31.2 國內(nèi)外研究現(xiàn)狀41.3本文主要研究內(nèi)容51.4本文組織結(jié)構(gòu)52.1數(shù)據(jù)挖掘的定義72.2數(shù)據(jù)挖掘中的有趣故事82.3數(shù)據(jù)挖掘的幾種表示方式和模式82.3.1廣義知識挖掘。82.3.2關聯(lián)數(shù)據(jù)挖掘。92.3.3類知識挖掘92.3.4預測型知識挖掘92.3.5特異型知識挖掘102.3.6粗糙集知識挖掘。102.4數(shù)據(jù)預處理。102.5數(shù)據(jù)挖掘的算法102.5.1分類算法102.
2、5.2預測算法122.5.3聚類算法122.5.4關聯(lián)算法13第三章 關鍵詞的關聯(lián)分析133.2apriori說明。143.3Apriori算法的描述143.4apriori算法在此次設計的應用163.5一種Apriori的改進算法19第四章 系統(tǒng)設計與實現(xiàn)194.1設計原理。204.2設計環(huán)境及主要模塊。204.2.1數(shù)據(jù)的關鍵詞統(tǒng)計分析204.2.2數(shù)據(jù)的頻繁關聯(lián)關系234.2.3數(shù)據(jù)的關聯(lián)分析24第五章 數(shù)據(jù)挖掘關聯(lián)規(guī)則的研究熱點及未來展望255.1數(shù)據(jù)挖掘的研究熱點265.2數(shù)據(jù)挖掘的未來展望。27結(jié)論28致謝30參考文獻3031附錄31基于數(shù)據(jù)挖掘的關鍵詞統(tǒng)計關聯(lián)分析摘要:本次設計主
3、要是在自然基金科學網(wǎng)上爬取數(shù)據(jù),用以作為實驗的數(shù)據(jù)庫,然后在網(wǎng)頁上做統(tǒng)計和關聯(lián)分析,來具體分析自然科學基金的研究熱點以及研究趨勢分析。首先對關鍵詞頻率做了充分的統(tǒng)計,然后對統(tǒng)計的數(shù)據(jù)做了具體的關聯(lián)分析,結(jié)果顯示最終的關聯(lián)度最高的關鍵詞,從而得出與這些關鍵詞相關的自然基金項目是有很大關系結(jié)論。在不偏離主題目標的情況下本文還研究了除去關聯(lián)規(guī)則算法的其他幾類數(shù)據(jù)挖掘算法,主要有聚類算法、分類算法、預測算法。用以和關聯(lián)規(guī)則算法做具體的對比從而使本文的內(nèi)容更加的豐富充實。 關鍵詞:數(shù)據(jù)挖掘;關聯(lián)分析;關鍵詞統(tǒng)計 Based on the keywords statistical correlation
4、analysis of data miningAbstract:This design mainly in the field of natural science fund crawl data online, to as experiment database, then do statistics and correlation analysis on the web page, to specific analysis of the natural science foundation research hot spot and trend analysis. First to ful
5、ly the key word frequency statistics, then the correlation analysis of the statistical data for the concrete, the results show the highest correlation keywords, which indicates that the natural fund project associated with these keywords are has a lot to do. In the case of not deviate from the topic
6、 goal this paper also studied the remove several other kinds of data mining algorithm of association rules algorithm, clustering algorithm, classification algorithm and prediction algorithm. Do to and association rules algorithm contrast to make the content of this article more abundantly Keywords:
7、data mining;association analysis;keyword statistics 第一章 緒論1.1 課題研究的背景及意義就目前而言,關聯(lián)規(guī)則挖掘技術已經(jīng)被廣泛應用在西方金融行業(yè)企業(yè)中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用
8、卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。同時,一些知名的電子商務站點也從強大的關聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關聯(lián)規(guī)則中規(guī)則進行挖掘,然后設置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告.世間萬物的事情發(fā)生多多少少會有一些關聯(lián)。一件事情的發(fā)生,很可能也會引起另外一件事情的發(fā)生?;蛘哒f,這兩件事情很多時候很大程度上會一起發(fā)生的。那么人們通過發(fā)現(xiàn)這個關聯(lián)的規(guī)則,可以由一件事情的發(fā)生來,來推測
9、另外一件事情的發(fā)生,從而更好地了解和掌握事物的發(fā)展,動向等等。這就是數(shù)據(jù)挖掘中,尋找關聯(lián)規(guī)則的基本意義。數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則挖掘是通過計算機自動從一大對真實數(shù)據(jù)中發(fā)現(xiàn)這樣的關聯(lián)規(guī)則出來。對于計算機而言,它需要知道所有的事情發(fā)生情況,并且把相應的事情合并成一個事務,通過對各個事務的掃描,來確定事情的關聯(lián)規(guī)則。 關聯(lián)規(guī)則反映了數(shù)據(jù)庫中數(shù)據(jù)項目之間有趣的關聯(lián)關系,而其中發(fā)現(xiàn)頻繁項目集是關聯(lián)規(guī)則挖掘應用中的關鍵技術和步驟。關于頻繁項目集的挖掘算法研究,人們對此進行了大量的工作,其中以R.Agrawal等人提出的Apriori、AprioriTid等算法最具有影響力和代表性。而這些算法的提出都是在挖
10、掘數(shù)據(jù)庫和最小支持度不變的條件下進行的。但實際中,遇到的情況可能是:隨著時間的推移,挖掘數(shù)據(jù)庫的規(guī)模可能不斷膨脹或需要刪除一部分記錄,或者需要對最小支持度進行調(diào)整從而逐步聚集到我們感興趣的頻繁項目集上。因而如何從數(shù)據(jù)發(fā)生變動后的數(shù)據(jù)庫中高效地對已經(jīng)推導出的關聯(lián)規(guī)則進行更新,具有非常重要的應用價值,這就是所謂的增量式挖掘關聯(lián)規(guī)則的問題。1.2 國內(nèi)外研究現(xiàn)狀目前國內(nèi)已經(jīng)有相當一部分人從事數(shù)據(jù)挖掘的研究,中國科技大學蔡慶生教授領導的針對關聯(lián)規(guī)則的研究小組,哈爾濱工業(yè)大學李建中教授的并行數(shù)據(jù)挖掘系統(tǒng),四川大學的唐長杰教授的在地震中的動態(tài)檢測數(shù)據(jù)的發(fā)現(xiàn),上海復旦大學施伯樂教授領導開發(fā)的AMINERP,
11、北京大學的基于數(shù)據(jù)挖掘的客戶分析系統(tǒng)的模型CASDM中國科學院計算技術研究所史忠值主持研發(fā)的多策略數(shù)據(jù)挖掘平臺MSMiner,清華大學的路玉昌教授領導開發(fā)的數(shù)據(jù)挖掘系統(tǒng),李德毅教授基于云模型的數(shù)據(jù)挖掘技術的創(chuàng)新性工作,這些專家或?qū)W者在國內(nèi)外的數(shù)據(jù)挖掘領域內(nèi)都作出了杰出的貢獻。與國外相比,國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚且不成熟,目前正處于發(fā)展階段。最新發(fā)展:分類技術研究中,試圖建立其集合理論體系,實現(xiàn)海量數(shù)據(jù)處理;將粗糙集和模糊集理論二者融合用于知識發(fā)現(xiàn);構(gòu)造模糊系統(tǒng)辨識方法與模糊系統(tǒng)知識模型;構(gòu)造智能專家系統(tǒng);研究中文文本挖掘的理論模型與實現(xiàn)技術;利用概念進行文本挖掘。我國也有不少新興的數(shù)據(jù)挖掘
12、軟件。(1)MSMiner:由中科院計算技術研究所智能信息處理重點實驗室開發(fā)的多策略通用數(shù)據(jù)挖掘平臺11。該平臺對數(shù)據(jù)和挖掘策略的組織有很好的靈活性。(2)DMiner:由上海復旦德門軟件公司開發(fā)的具有自主知識產(chǎn)權的數(shù)據(jù)挖掘系統(tǒng)。該系統(tǒng)提供了豐富的數(shù)據(jù)可視化控件來展示分析結(jié)果,實現(xiàn)了數(shù)據(jù)查詢結(jié)果可視化、數(shù)據(jù)層次結(jié)構(gòu)可視化、多維數(shù)據(jù)結(jié)構(gòu)可視化、復雜數(shù)據(jù)可視化。(3)ScopeMiner:由東北大學開發(fā)的面向先進制造業(yè)的綜合數(shù)據(jù)挖掘系統(tǒng)。(4)iDMiner:由海爾青大公司研發(fā)的具有自主知識產(chǎn)權的數(shù)據(jù)挖掘平臺。該平臺大膽采用了國際通用業(yè)界標準,對該軟件今后的發(fā)展有很大的促進作用,同時也為國內(nèi)同類軟
13、件的開發(fā)提供了一條新的思路。 除此之外,還有復旦德門公司開發(fā)的CIAS和ARMiner、東北大學軟件中心開發(fā)的基于AS的OpenMiner以及南京大學開發(fā)的一個原型系統(tǒng)Knight等。 目前,國內(nèi)數(shù)據(jù)挖掘軟件產(chǎn)業(yè)還不成熟,從事此方面研究的人員主要集中在高校,只有少部分分布在研究所或公司,且大多數(shù)研究項目都是由政府資助,主要的研究方向集中在數(shù)據(jù)挖掘的學習算法、理論方面以及實際應用。研究的產(chǎn)品尚未得到國際市場的認可,在國際上的使用更是為數(shù)甚少。 知識發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)是指從數(shù)據(jù)集中辨別出新穎的、有效的、潛在有用的且最終可以理解的模式的一
14、個非平凡過程。知識發(fā)現(xiàn)就是講信息變?yōu)橹R,從數(shù)據(jù)的海洋中找到蘊含知識的石油,他為知識的創(chuàng)新和知識經(jīng)濟的發(fā)現(xiàn)做出了偉大的貢獻。知識發(fā)現(xiàn)的術語是在1989年美國底特律召開的第一屆KDD國際會議上提出的,然后KDD得到了廣泛的發(fā)展。1995年第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學術會議在加拿大召開。1998年,在美國紐約召開的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學術會議,其中有30多家國際公司陳述了他們的研究產(chǎn)品,其中有一些產(chǎn)品已經(jīng)廣泛的在發(fā)達國家應用了,至此數(shù)據(jù)挖掘和知識發(fā)現(xiàn)成為當前數(shù)學界和計算機研究界一大研究的熱點。1.3本文主要研究內(nèi)容本文主要講述了數(shù)據(jù)挖掘的相關內(nèi)容同時圍繞數(shù)據(jù)挖掘算法展開對關聯(lián)分析算法的探索,研
15、究了國內(nèi)外對數(shù)據(jù)挖掘算法深究的進展,同時對數(shù)據(jù)處理的關聯(lián)分析設計與實現(xiàn)方法與成果,研究了數(shù)據(jù)挖掘關聯(lián)分析的經(jīng)典算法apriori算法的內(nèi)容與設計實現(xiàn),就數(shù)據(jù)的量度進行了進一步的研究討論,證明了數(shù)據(jù)挖掘的關聯(lián)分析在大數(shù)據(jù)時代的優(yōu)越性,本文再第二章講解數(shù)據(jù)挖掘的相關知識點和在關聯(lián)規(guī)則當中的應用點。在明確本文研究目標的同時下還研究了了以下的內(nèi)容。1.研究高效的Taper算法,在關系數(shù)據(jù)庫的數(shù)據(jù)挖掘中,為了進一步減少候選項目對測試的代價,我們基于關系數(shù)據(jù)庫第一范式在關聯(lián)規(guī)則挖掘中的特殊性質(zhì),對現(xiàn)有的Taper算法進行了改進,設計了新的TaperR算法,目的是要在挖掘過程中進一步減少候選項目對的個數(shù),從
16、而達到提高算法的效率,并使得新的算法在實際的關系數(shù)據(jù)庫系統(tǒng)中的應用。2.研究多維結(jié)構(gòu)化關聯(lián)模式對的挖掘問題,由于多維關聯(lián)挖掘模式對的查詢是自動的,被挖掘的關聯(lián)規(guī)則是用戶想要的。但對不熟練的用戶,要構(gòu)造一向有效的查詢是有困難的,尤其是在設定恰當?shù)拈撝瞪?。因此,在研究中我們首先借助用戶?yōu)先模型提出一種智能的解決最小優(yōu)先度的方法,其次,我們提出了一種新的數(shù)據(jù)挖掘模式,為了有效解決這些問題,開發(fā)出一系列具有強大功能的算法,還討論了新算法在一維和多維結(jié)構(gòu)化數(shù)據(jù)庫中挖掘模式對的實用性問題,并評估了新算法的效率。1.4本文組織結(jié)構(gòu)本文通過與研究目標工作環(huán)環(huán)相扣的展開,在第一章具體描述了數(shù)據(jù)挖掘研究的背景及研
17、究意義,探索了國內(nèi)外的研究成果,理論,站在巨人們的肩膀上才能看的更遠,通過比對國內(nèi)外的研究發(fā)展具體成果,體會做數(shù)據(jù)挖掘研究的的必要性和正確性,第二章主要講解了數(shù)據(jù)挖掘的相關理論,對數(shù)據(jù)挖掘進一步的研究與探索,對數(shù)據(jù)挖掘進一步的認識,同時領會數(shù)據(jù)挖掘在現(xiàn)代生活中的無線魅力,第三章主要圍繞著本文的重點算法apriori展開,討論了該算法的內(nèi)容及設計實現(xiàn),第四章對一些其他的數(shù)據(jù)挖掘的方向及算法的討論及比較,最后第五章做了最后的總結(jié)。第二章 相關知識介紹2.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘( Data Mining,簡稱DM),簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識,數(shù)據(jù)挖掘概念的定義描述有若干版本,以下給
18、出一個被普遍采用的定義描述: 數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。 整個知識挖掘(KDD)過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有: 數(shù)據(jù)清洗(data clearning ),其作用就是清除數(shù)據(jù)噪聲和與挖掘主題明顯無關的數(shù)據(jù); 數(shù)據(jù)集成(data integration ),其作用就是將來自多數(shù)據(jù)源中的相關數(shù)據(jù)組合到一起; 數(shù)據(jù)轉(zhuǎn)換(data transformation ),其作用就是將數(shù)據(jù)轉(zhuǎn)換
19、為易于進行數(shù)據(jù)才它掘的數(shù)據(jù)存儲形式; 數(shù)據(jù)挖掘(data mining ),它是知識挖掘的一個基本步驟,其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識; 模式評佑( pattern evaluation ),其作用就是根據(jù)一定評估標準interesting measures)從挖掘結(jié)果篩選出有意義的模式知識; 知識表示(knowledge presentation ),其作用就是利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)
20、可以是結(jié)構(gòu)化的,如關系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫技術、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數(shù)據(jù)挖掘這一新興的研究領域,形成新的技術熱點。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理
21、技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。 簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數(shù)據(jù)量進行分析的復雜數(shù)據(jù)分析方法受到很大限制?,F(xiàn)在,由于各行業(yè)業(yè)務自動化的實現(xiàn),商業(yè)領域產(chǎn)生了大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。但所有企業(yè)面
22、臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。2.2數(shù)據(jù)挖掘中的有趣故事數(shù)據(jù)挖掘的價值是隨時隨地都能夠體現(xiàn)的。也許在我們平時的一些小事上,我們通過數(shù)據(jù)挖掘就能夠獲取到事情背后隱藏的信息,然后通過這些信息,我們能夠?qū)@件事進行更好的處理。接下來我們看個簡單的例子,通過這個例子,我們可以更加形象的了解數(shù)據(jù)挖掘?qū)ξ覀兩畹闹匾浴?在一家超市里,有個奇怪的現(xiàn)象13:人們一進入就會發(fā)現(xiàn)啤酒和奶粉擺在同一個貨柜上販賣,出奇的是商家的這種行為卻雙雙增加了奶粉和啤酒的銷售量
23、。這不是虛構(gòu)的,這是美國一家家樂福真實的案例。家樂福擁有國際上最大的數(shù)據(jù)信息庫,商家們?yōu)榱肆私忸櫩徒?jīng)常購買的物品,對顧客的歷史購物信息進行分析。通過對原始交易數(shù)據(jù)進行數(shù)據(jù)挖掘,商家們發(fā)現(xiàn)了一個驚人的信息,那就是與啤酒一起購買的商品竟然是奶粉。經(jīng)過商家們大量分析與實際查證,得出了一個隱藏在“啤酒和奶粉”身后的人們的一種生活模式。對于許多年輕的美國人父親,他們一下班就會去超市購買奶粉,而買奶粉的同時,他們也不會忘了給自己買啤酒,因為他們的太太會叮囑他們下班需要買奶粉,而買奶粉時他們也會帶回自己喜歡的啤酒。 按照人們的正常思維,人們會認為啤酒和奶粉是面向兩種不同消費對象的產(chǎn)品,但是將它們拜訪一起販賣
24、卻起到了提高商品銷售量的現(xiàn)象,其實這都多虧了數(shù)據(jù)挖掘。因為家樂福借助了數(shù)據(jù)挖掘的技術,通過對大量的原始交易信息進行分析挖掘,他們得到了許多不能通過普通檢查而得到的寶貴信息,通過這個信息,我們可以尋找出一個有價值的規(guī)律。所以這個案例也告訴了我們一件事,數(shù)據(jù)挖掘?qū)τ谌缃竦纳鐣a(chǎn)和發(fā)展是多么緊密相連的,它的發(fā)展是社會進步的必然結(jié)果,那么接下來我們就要來討論下數(shù)據(jù)挖掘的方法。2.3數(shù)據(jù)挖掘的幾種表示方式和模式2.3.1廣義知識挖掘。廣義知識是指描述類別特征的概括性知識。我們知道在源數(shù)據(jù)中存放的一般是細節(jié)性數(shù)據(jù),而人們有時希望能從較高的層次的視圖上處理或觀察這些數(shù)據(jù),通過數(shù)據(jù)進行不同層次上的泛化來尋找
25、數(shù)據(jù)所蘊含的概念或邏輯,以適應數(shù)據(jù)分析的要求。數(shù)據(jù)挖掘的目的之一就是根據(jù)這些數(shù)據(jù)的微觀特性發(fā)現(xiàn)有普遍性的更高層次概念的中觀和宏觀的知識。因此這類數(shù)據(jù)挖掘系統(tǒng)是對數(shù)據(jù)所蘊含的概念特征信息,匯總信息和比較信息等的概括,精煉和抽象的過程。被挖掘出的廣義知識可以結(jié)合可視化技術以直觀的圖形式展示給用戶,也可以作為其他應用的基礎知識。2.3.2關聯(lián)數(shù)據(jù)挖掘。關聯(lián)知識,反映了一個事件和其他事件的依賴或關聯(lián)。數(shù)據(jù)庫中的數(shù)據(jù)關聯(lián)是現(xiàn)實世界中事物聯(lián)系的表現(xiàn)。數(shù)據(jù)庫作為一種結(jié)構(gòu)化得數(shù)據(jù)組織形式,利用其依附的數(shù)據(jù)模型可能刻畫了數(shù)據(jù)間的關聯(lián)。但是,數(shù)據(jù)之間的關聯(lián)式復雜的,不僅是上面所說的依附在數(shù)據(jù)模型中的關聯(lián),大部分是
26、蘊藏的。關聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關聯(lián)信息。關聯(lián)可以分為簡單關聯(lián),時序關聯(lián),因果關聯(lián),數(shù)量關聯(lián)等。這些關聯(lián)并不總是事先知道的,而是通過數(shù)據(jù)庫中關聯(lián)分析得到的,因而對商業(yè)決策具有新的價值。從廣義上講,關聯(lián)分析是數(shù)據(jù)、挖掘的本質(zhì)。既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識,那么這種知識一定是反映不同對象之間的關聯(lián)。關聯(lián)規(guī)則挖掘是關聯(lián)規(guī)則挖掘最常用的方法。最著名的是Agrawal踢出的Apriori及其改進算法。為了發(fā)現(xiàn)有意義的關聯(lián)規(guī)則,需要給定兩個閾值:最小支持度和最小可信度,他表示了一組項目關聯(lián)在一起需要滿足的最低聯(lián)系程度。在這個意義上,數(shù)據(jù)挖掘系統(tǒng)的目的就是從源數(shù)據(jù)庫匯總挖掘出
27、和比較深入的分支,許多關聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。2.3.3類知識挖掘知識挖掘源于全球范圍內(nèi)數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡單的查詢和維護,而是希望能夠?qū)@些數(shù)據(jù)進行較高層次的處理和分析以得到關于數(shù)據(jù)總體特征和對發(fā)展趨勢的預測。知識挖掘最新的描述性定義是由UsamaM.Fayyyad等給出的:知識挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。2.3.4預測型知識挖掘預測型知識挖掘16是指由歷史的和當前的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的只是。這類知識可以被認為是以時間為關鍵屬性的關聯(lián)知識。預測型知識挖掘也可以借助傳統(tǒng)的機器學習、神
28、經(jīng)網(wǎng)絡和統(tǒng)計方法等技術,但最近幾年,許多新的應用模式已經(jīng)發(fā)展了起來。如神經(jīng)網(wǎng)絡、序列模式、周期分析模式和趨勢分析模式。2.3.5特異型知識挖掘源數(shù)據(jù)中所蘊藏著的與其他數(shù)據(jù)存在明顯差異的知識描述或個性特例就稱為特異型知識16,它發(fā)現(xiàn)了那些不同于常規(guī)的異常規(guī)律。并不是數(shù)據(jù)庫中的所有數(shù)據(jù)都是正常的,從常規(guī)數(shù)據(jù)中檢測出其所含有的特異性信息是一件很有意義的事。我們可以通過孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn)來幫我們了解特異型知識挖掘的任務和方法2.3.6粗糙集知識挖掘。粗糙集是用于數(shù)據(jù)簡化(刪除與任務無關的記錄或字段),數(shù)據(jù)意義評估,對象相似或差異性分析,因果關系及范式采掘等。它的主要思想如下:可以把
29、對象的屬性分為條件和決策。按各屬性值相同進行等價分類。條件屬性上的等價類T與決策屬性上的等價類D之間的關系有三種情況:下近似:D包含與T;上近似:D和T的交集為非空;無關:D和T的交集為空。對下近似建立確定性的規(guī)則,對上近似建立不確定性的規(guī)則(包含可信度),對無關情況則不存在規(guī)則。2.4數(shù)據(jù)預處理。 首先來說為什么要進行數(shù)據(jù)的預處理,主要由于以下幾個方面,1. 數(shù)據(jù)的不完整性,2. 數(shù)據(jù)含有觀測噪聲,3. 數(shù)據(jù)的不一致性,4. 數(shù)據(jù)含有我們不希望有的內(nèi)容,在大數(shù)據(jù)的時代,海量的數(shù)據(jù)難以避免數(shù)據(jù)被污染的狀況出現(xiàn),數(shù)據(jù)污染主要由,濫用縮寫詞,數(shù)據(jù)輸入錯誤,數(shù)據(jù)中內(nèi)嵌控制信息,不同的慣用語,重復記錄
30、,丟失值,拼寫變化,不同的計量單位,過時的編碼,含有各種噪聲等多方面原因引起。污染數(shù)據(jù)的普遍存在,使得大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個極其困難的任務,因此此時需要我們有一個數(shù)據(jù)清理的概念,保證數(shù)據(jù)的清晰性,數(shù)據(jù)清理的主要任務有,數(shù)據(jù)的格式的標準化,異常數(shù)據(jù)的清除,錯誤糾正,重復數(shù)據(jù)的清除,等內(nèi)容。2.5數(shù)據(jù)挖掘的算法2.5.1分類算法分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘、機器學習和模式識別中一個重要的研究領域。分類算法通過對已知類別訓練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預測新數(shù)據(jù)的類別。分類算法的應用非常廣泛,銀行中風險評估、客戶類別分類、文本檢索和搜索引擎分類、安全領域中的入侵
31、檢測以及軟件項目中的應用等等。下面介紹幾種典型的分類算法。1貝葉斯網(wǎng)絡貝葉斯網(wǎng)絡是一個帶有概率注釋的有向無環(huán)圖,圖中的每一個結(jié)點均表示一個隨機變量 , 圖中兩結(jié)點間若存在著一條弧,則表示這兩結(jié)點相對應的隨機變量是概率相依的,反之則說明這兩個隨機變量是條件獨立的。網(wǎng)絡中任意一個結(jié)點 X 均有一個相應的條件概率表 Conditional Probability Table,CPT) ,用以表示結(jié)點 X 在其父結(jié)點取各可能值時的條件概率。若結(jié)點 X 無父結(jié)點 , 則 X 的 CPT 為其先驗概率分布。貝葉斯網(wǎng)絡的結(jié)構(gòu)及各結(jié)點的 CPT 定義了網(wǎng)絡中各變量的概率分布。應用貝葉斯網(wǎng)絡分類器進行分類主要分
32、成兩階段。第一階段是貝葉斯網(wǎng)絡分類器的學習,即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學習和 CPT 學習;第二階段是貝葉斯網(wǎng)絡分類器的推理,即計算類結(jié)點的條件概率,對分類數(shù)據(jù)進行分類。這兩個階段的時間復雜性均取決于特征值間的依賴程度,甚至可以是 NP 完全問題,因而在實際應用中,往往需要對貝葉斯網(wǎng)絡分類器進行簡化。根據(jù)對特征值間不同關聯(lián)程度的假設,可以得出各種貝葉斯分類器。2樸素貝葉斯樸素貝葉斯模型(NBC)發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。同時,NBC 模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。NBC 模型假設屬性之間相互獨立,這個假設在實際應用中往往是
33、不成立的,這給 NBC 模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關性較大時,NBC 模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC 模型的性能最為良好。3后向傳播分類后向傳播是一種神經(jīng)學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,每個連接都與一個權相連,在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡的權,使得輸入正確樣本的正確符號來學習。后向傳播的優(yōu)點預測精度總的來說較高,健壯性好,預測樣本中包含錯誤時也可以正常工作。輸出可能是離散值、連續(xù)值、或者是離散屬性的向量值,而且對目標分類較快。缺點有訓練學習時間較長,蘊含在學習中的權的符號含義很難理解,很難跟專業(yè)領域知識相結(jié)合。2.5
34、.2預測算法預測算法分為(1)短期預測 (2)中期預測 (3)長期預測 預測方法 分為(1)傳統(tǒng)預測方法的基礎是傳統(tǒng)數(shù)學工具,代表性的方法有回歸模型法、時間序列法、趨勢外推法等。 現(xiàn)代預測方法是隨著人工智能研究領域的興起而出現(xiàn)的,它結(jié)合了人工智能領域的神經(jīng)網(wǎng)絡、小 波分析、模糊數(shù)學等學科的最新研究成果 預測應用分為 外推法:找出時間序列觀測值中的變化規(guī)律與趨勢,然后通過對這些規(guī)律或趨勢的外推來確定未來的預測值,包括: 1、移動平均法(時間序列沒有趨勢和季節(jié)成分) (1)適用于圍繞一個穩(wěn)定水平上下波動的時間序列。 (2)利用平均使各個時間點上的觀測值中的隨機因素互相抵消掉,以獲得關于穩(wěn)定水平的預
35、測。 (3)將包括當前時刻在內(nèi)的N個時間點上的觀測值的平均值作為對于下一時刻的預測值(N應選擇得使MSE極小化)。 2、指數(shù)平滑法(時間序列沒有趨勢和季節(jié)成分) (1)改進移動平均預測模型,將計算平均值對于不同時期觀測值的權數(shù)設置得不同:近期的權數(shù)較大,遠期的權數(shù)較小。 (2)指數(shù)平滑的疊代算法。 3、趨勢預測法(時間序列含有趨勢成分) (1)依時間變化呈現(xiàn)某種上升或下降的趨勢,并且無明顯的季節(jié)波動,又能找到一條合適的函數(shù)曲線反映這種變化趨勢時, 就可以用時間t為自變量,時序數(shù)值y為因變量,建立趨勢模型yf(t)。賦予變量t所需要的值,可以得到相應時刻的 時間序列未來值。這就是趨勢外推法。 (
36、2)線性趨勢預測法、對數(shù)趨勢預測法、二次曲線趨勢預測法、指數(shù)曲線趨勢預測法。2.5.3聚類算法聚類是將一個對象集合分割為幾類,每個類的對象之間是相似的,但是與其他類之間是不相似的,評價聚類算法的標準主要有:能夠適用于大數(shù)據(jù)量,能應付不同的數(shù)據(jù)類型,能夠發(fā)現(xiàn)不同類型的聚類,使得對專業(yè)知識的要求降到最低,能應付臟數(shù)據(jù),對于數(shù)據(jù)順序不同的數(shù)據(jù)不敏感,能應付多類型的數(shù)據(jù),模式可解釋,可使用。聚類算法通常基于“數(shù)據(jù)矩陣”和“ Dissimilarity 矩陣”。怎么樣計算不同對象之間的距離呢。1 ,數(shù)值連續(xù)的變量(體重,身高等):度量單位的選取對于聚類的結(jié)果的很重要的。例如將身高的單位從米變?yōu)槌?,將體重
37、的單位從公斤變?yōu)榘鯇垲惖慕Y(jié)果產(chǎn)生很大的影響。為了避免出現(xiàn)這種情況,我們必須將數(shù)據(jù)標準化:將數(shù)據(jù)中的單位“去掉”。A, 計算絕對背離度。 B, 計算標準量度。2 ,二元數(shù)據(jù)變量:如果還是用上面的方法來計算的話,肯定會出現(xiàn)錯誤。這兒分 兩種情況,對稱的與非對稱的。3 , Nominal 變量: ( 例如紅,黃,綠,藍 .)4 , ordinal 變量(例如科長,處長,局長 . )5 , ratio-scaled 變量:6, 以上幾種混合的變量(多數(shù)情況是這樣的)2.5.4、關聯(lián)算法關聯(lián)規(guī)則最初提出的動機是針對購物籃分析(Market Basket Analysis)問題提出的。假設分店經(jīng)理想更
38、多的了解顧客的購物習慣。特別是,想知道哪些商品顧客可能會在一次購物時同時購買?為回答該問題,可以對商店的顧客事物零售數(shù)量進行購物籃分析。該過程通過發(fā)現(xiàn)顧客放入“購物籃”中的不同商品之間的關聯(lián),分析顧客的購物習慣。這種關聯(lián)的發(fā)現(xiàn)可以幫助零售商了解哪些商品頻繁的被顧客同時購買,從而幫助他們開發(fā)更好的營銷策略。 1993年,Agrawal等人在首先提出關聯(lián)規(guī)則概念,同時給出了相應的挖掘算法AIS,但是性能較差。1994年,他們建立了項目集格空間理論,并依據(jù)上述兩個定理,提出了著名的Apriori算法,至今Apriori仍然作為關聯(lián)規(guī)則挖掘的經(jīng)典算法被廣泛討論,以后諸多的研究人員對關聯(lián)規(guī)則的挖掘問題進
39、行了大量的研究。定義為假設 是項的集合。給定一個交易數(shù)據(jù)庫D,其中每個事務(Transaction)t是I的非空子集,即,每一個交易都與一個唯一的標識符TID(Transaction ID)對應。關聯(lián)規(guī)則在D中的支持度(support)是D中事務同時包含X、Y的百分比,即概率;置信度(confidence)是D中事務已經(jīng)包含X的情況下,包含Y的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值,則認為關聯(lián)規(guī)則是有趣的。這些閾值是根據(jù)挖掘需要人為設定。如果一個事務中含有X,則該事務中很可能含有Y。具體形式為XY,即通??梢悦枋鰹?當一個事務中顧客購買了一樣東西鋼筆(這里X=“鋼筆”)則很
40、可能他同時還購買了墨水(這里Y=墨水),這就是關聯(lián)規(guī)則。在美國,有一種說法是:“尿不濕”和“啤酒”經(jīng)常一起被購買。這種說法有其一定的現(xiàn)實意義:1)或許是該年齡段的經(jīng)常喝啤酒的人剛好家庭開始養(yǎng)育小孩;2)或許是因為啤酒喝多,需要用尿不濕。然而不管怎樣,如果沒有數(shù)據(jù)挖掘中的關聯(lián)規(guī)則在這里的應用,你是無論如何想象不出這樣有點驚人的“笑話”。第三章 關鍵詞的關聯(lián)分析3.1apriori算法背景介紹。關聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。市場分析員要從大量的數(shù)據(jù)中發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的關系。如果顧客買牛奶,他也購買面包的可能性有多大?什么商品組或集合顧客多半會在一次購物時同時購買?例如
41、,買牛奶的顧客有80%也同時買面包,或買鐵錘的顧客中有70%的人同時也買鐵釘,這就是從購物籃數(shù)據(jù)中提取的關聯(lián)規(guī)則。分析結(jié)果可以幫助經(jīng)理設計不同的商店布局。一種策略是:經(jīng)常一塊購買的商品可以放近一些,以便進一步刺激這些商品一起銷售,例如,如果顧客購買計算機又傾向于同時購買財務軟件,那么將硬件擺放離軟件陳列近一點,可能有助于增加兩者的銷售。另一種策略是:將硬件和軟件放在商店的兩端,可能誘發(fā)購買這些商品的顧客一路挑選其他商品。3.2、apriori說明。在apriori算法中,尋找最大項目集的基本思想是:算法需要對項目集進行多步處理,第一步,簡單統(tǒng)計所有含一個元素項目集出現(xiàn)的頻率,并找出那些不小于最
42、小支持度的項目集,即一維最大項目集.從第二步開始循環(huán)處理直到再沒有最大項目集生成.循環(huán)過程是:第k步中,根據(jù)第k-1步生成的(k-1)維最大項目集產(chǎn)生k維侯選項目集,然后對數(shù)據(jù)庫進行搜索,得到侯選項目集的項集支持度,與最小支持度比較,從而找到k維最大項目集。 3.3Apriori算法的描述Apriori算法的第一步是簡單統(tǒng)計所有含一個元素的項集出現(xiàn)的頻率,來決定最大的一維項目集.在第k步,分兩個階段,首先用一函數(shù)sc_candidate(候選),通過第(k-1)步中生成的最大項目集Lk-1來生成侯選項目集Ck.然后搜索數(shù)據(jù)庫計算侯選項目集Ck的支持度.為了更快速地計算Ck中項目的支持度,文中使
43、用函數(shù)count_support計算支持度.Apriori算法描述如下:(1) C1=candidate1-itemsets; (2)L1=cC1|c.countminsupport;(3)For(k=2,Lk-1,k+)/直到不能再生成最大項目集為止(4)Ck=sc_candidate(Lk-1);(5)foralltransactionstD/辦理處理(6) Ct=count_support(Ck,t);/包含在事務t中的侯選項目集 (7)forallcandidatescCt (8)c.count=c.count+1; (9)next(10) Lk=cCk|c.countminsuppo
44、rt; (11)next(12)resultset=resultsetLk其中,D表示數(shù)據(jù)庫;minsupport表示給定的最小支持度;resultset表示所有最大項目集.Sc_candidate函數(shù)該函數(shù)的參數(shù)為Lk-1,即:所有最大k-1維項目集,結(jié)果返回含有k個項目的侯選項目集Ck.事實上,Ck是k維最大項目集的超集,通過函數(shù)count_support計算項目的支持度,然后生成Lk.該函數(shù)是如何完成這些功能的,詳細說明如下:首先,通過對Lk-1自連接操作生成Ck,稱join(連接)步,該步可表述為:insertintoCkselectP.item1,P.item2,.P.itemk-1
45、,Q.itemk-1fromLk-1P,Lk-1QwhereP.item1=Q.item1,.P.itemk-2=Q.itemk-2,P.itemk-1=minsupport,若c的子集為c,則c.count必然大于等于minsupport.所以c也為最大項目集.(2)在prune步中,刪除Ck中那些所有k-1維子集不在Lk-1中的項目集,(其中k-1維子集為Ck的所有項目數(shù)為k-1的子集).這里用了(1)中的性質(zhì):最大項目集的子集必為最大項目集.即若某項目集的(k-1)維子集不是最大項目集(Lk-1中包含所有k-1維最大項目集),則該項目集不是最大項目集.所以將刪除Ck中所有不在Lk-1中的
46、k-1維子集.count_support函數(shù) count_support函數(shù)為是以t和Ck為條件.來求出t中所包含的侯選項目集的.同時計算出所包含的侯選項目集的數(shù)目3.4apriori算法在此次設計的應用假設有一個數(shù)據(jù)庫D,其中有四個項目T1,T2,T3,T4。有5個關鍵詞分別標記為DKey wordT1I1,I3,I4T2I2,I3,I5T3I1,I2,I3,I5T4I2,I5 表3.1在Apriori算法中每一步創(chuàng)建該步的侯選集.統(tǒng)計每個侯選項目集的支持度,并和預定義的最小支持度比較,來確定該步的最大項目集。支持度:事件A和事件B同時發(fā)生的概率。置信度:事件A發(fā)生的同時會發(fā)生事件B。首先統(tǒng)
47、計出一維項目集,即:C1.這里預定義最小支持度minsupport=2,侯選項目集中滿足最小支持度要求的項目集組合成最大的1-itemsets.為生成最大的2-itemsets,使用了sc_candidate函數(shù)中join步,即:L1joinL1,并通過prune步刪除那些C2的那些子集不在L1中的項目集.生成了侯選項目集C2.搜索D中4個事務,統(tǒng)計C2中每個侯選項目集的支持度.然后和最小支持度比較,生成L2.侯選項目集C3是由L2生成.要求自連接的兩個最大2-itemsets中,第一個項目相同,在L2中滿足該條件的有I2,I3,I2,I5.這兩個集合經(jīng)過join步后,產(chǎn)生集合I2,I3,I5
48、.在prune步中,測試I2,I3,I5的子集I3,I5,I2,I3,I2,I5是否在L2中,由L2可以知道I3,I5,I2,I3,I2,I5本身就是最大2-itemsets.即I2,I3,I5的子集都是最大項目集.那么I2,I3,I5為侯選3-itemset.然后搜索數(shù)據(jù)庫中所有事務記錄,生成最大的3-tiemsetsL3.此時,從L3中不能再生成侯選4-itemset.Apriori算法結(jié)束掃描D并計數(shù)產(chǎn)生的頻繁項集I如表3.2所示,表示了數(shù)據(jù)庫D一次迭代所產(chǎn)生的頻繁項集,候選項集c1支持度I150%I275%I375%T425%I575%表3.2比較產(chǎn)生L1:頻繁項集1-支持度I150%
49、I275%I375%I575%表3.3連接產(chǎn)生候選集c2:候選集c2支持度(I1,I2)25%(I1,I3)50%(I1,I5)25%(I2,I3)50%(I2,I5)75%(I3,I5)50%表3.4掃描比較產(chǎn)生L2:頻繁項集2-支持度(I1,I3)50%(I2,I3)50%(I2,I5)75%(I3,I5)50%表3.5連接減枝產(chǎn)生候選集c3:候選集c3支持度(I1,I3,I5)25%(I2,I3,I5)50%表3.6掃描比較產(chǎn)生L3頻繁集3-支持度(I2,I3,I5)50%表3.73.5一種Apriori的改進算法 在Apriori算法中,尋找最大項目集的基本思路是:第一步簡單統(tǒng)計所有含
50、一個元素的項目出現(xiàn)的頻率,并找出那些大于或等于最小支持度的項目集,產(chǎn)生一維頻繁項目集Lt。從第二步開始循環(huán)處理直到未能再產(chǎn)生維數(shù)更高的頻繁項目集。循環(huán)過程是:在第k步中,根據(jù)k-1步生成的k-1維頻繁項目集來產(chǎn)生k維候選項目集,由于在產(chǎn)生k-1維頻繁項目集時,我們可以實現(xiàn)對該集中出現(xiàn)元素的個數(shù)進行計數(shù)處理,因此對某元素而言,若它的計數(shù)個數(shù)不到k-1的話,可以事先刪除該元素,從而排除由該元素將引起的大規(guī)格所有組合。這是因為對某一個元素要成為K維項目集的一元素的話,該元素在k-1階頻繁項目集中的計數(shù)次數(shù)必須達到K-1個,否則不可能生成K維項目集(性質(zhì)3)。然后再按Apriori算法再檢驗新的K維頻
51、繁項目集的所有k-1維項目集是否已經(jīng)包含在已經(jīng)求出的K-1維頻繁項目集。若其中有一個沒有包含,則也可刪去該組合,這樣得到一個真正有用的K維頻繁項目集選項目集。得到了這個候選項目集后,可以對數(shù)據(jù)庫D的每一個事務tid進行掃描,若該事務中至少含有候選項目集CK中的一員,則保留該項事務,否則把該事物記錄與數(shù)據(jù)庫末端沒有作刪除標記的事務記錄對換,并對移到數(shù)據(jù)庫末端的事務記錄作刪除標一記,整個數(shù)據(jù)庫掃描完畢后為新的事務數(shù)據(jù)庫D中。因此隨著K的增大,D中事務記錄量大大地減少,對于下一次事務掃描可以大大節(jié)約I/0開銷。由于顧客一般可能一次只購買幾件商品,因此這種虛擬刪除的方法可以實現(xiàn)大量的交易記錄在以后的挖
52、掘中被踢除出來。第四章 系統(tǒng)設計與實現(xiàn)4.1設計原理。Apriori算法的第一步是簡單統(tǒng)計所有含一個元素的項集出現(xiàn)的頻率,來決定最大的一維項目集。在第k步,分兩個階段,首先用一函數(shù)sc_candidate(候選),通過第(k-1)步中生成的最大項目集Lk-1來生成侯選項目集Ck。然后搜索數(shù)據(jù)然后搜索數(shù)據(jù)庫計算侯選項目集Ck的支持度。為了更快速地計算Ck中項目的支持度,文中使用函數(shù)count_support計算支持度。4.2設計環(huán)境及主要模塊。 我的本次設計主要分為三個模塊:統(tǒng)計分析、數(shù)據(jù)頻繁集、數(shù)據(jù)關聯(lián)分析如圖4.1所示圖4.1設計環(huán)境: Python3.3 Windows操作系統(tǒng) Apach
53、e2.24.2.1數(shù)據(jù)的關鍵詞統(tǒng)計分析首先從NSFC官網(wǎng)上提取項目報告的數(shù)據(jù)關鍵詞作為本次設計的數(shù)據(jù)庫來源,并在網(wǎng)站上畫出關鍵詞的統(tǒng)計結(jié)果,包括最高關鍵詞出現(xiàn)次數(shù)和每個關鍵詞在不同年份的統(tǒng)計曲線圖,以及不同關鍵詞在同一年份的統(tǒng)計結(jié)果顯示如下圖所示。首先從官網(wǎng)上爬取數(shù)據(jù)如圖4.2所示:圖4.2 這里主要用到了網(wǎng)絡爬蟲技術,網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。 基于目標數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的
54、模式,或者可以轉(zhuǎn)化或映射為目標數(shù)據(jù)模式。我的關鍵詞提取主要是用符合關鍵詞要求的算法將中文摘要中的關鍵詞提取出來作為我本次設計的數(shù)據(jù)來源存到數(shù)據(jù)庫中。其中project.save()函數(shù)表示我將爬取的數(shù)據(jù)存入數(shù)據(jù)庫如圖4.3所示:圖4.3 根據(jù)代碼中定義將表格中的數(shù)據(jù)進行分段處理,然后用前端技術根據(jù)css、js、HTML將數(shù)據(jù)在網(wǎng)頁上進行直觀的顯示如圖4.4圖4.5所示:圖4.4圖4.54.2.2、數(shù)據(jù)的頻繁關聯(lián)關系 數(shù)據(jù)的頻繁關系主要是對數(shù)據(jù)進行簡單的關聯(lián)度的分析,假設有四個關鍵詞存在同一個項目中我就可以簡單的判定這四個關鍵詞之間是互相存在關聯(lián)的關系圖如圖4.6所示:圖6 通過對統(tǒng)計數(shù)據(jù)頻繁關聯(lián)集處理,并在網(wǎng)站上展示出來,同時對每一個關鍵詞的關聯(lián)詞的相關度進行畫圖顯示,顯得更加直觀如圖4.7所示圖7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧解決方案:智能城市管理
- 消防應急避險
- 3.2.3離子反應 課件 高一上學期化學蘇教版(2019)必修第一冊
- 糖尿病個人教育與護理
- 傳統(tǒng)毛筆課件教學課件
- 日常生活食品安全
- 生產(chǎn)安全事故案例培訓教材
- 布谷鳥節(jié)奏游戲教案反思
- 弧度制說課稿
- 海水的運動說課稿
- 2024分娩鎮(zhèn)痛ppt課件完整版
- 酒類企業(yè)的消防安全管理
- 國際業(yè)務基礎知識培訓
- 完整版小學低年級學生寫話能力培養(yǎng)的研究小課題研究報告
- 智能輸水管網(wǎng)優(yōu)化方案
- 三位數(shù)乘以兩位數(shù)-計算題大全
- 頂崗實習的安全教育
- 婚前孕前話優(yōu)生知識講座
- 關愛職工眼健康知識講座
- 玄武巖纖維項目可行性研究報告
- 兒童心理之研究
評論
0/150
提交評論