版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、頁腳頁腳.摘要數(shù)據(jù)挖掘技術(shù)可以在浩瀚的數(shù)據(jù)中進(jìn)行統(tǒng)計(jì)、分析、綜合、推理,發(fā)現(xiàn)數(shù)據(jù)部關(guān)聯(lián),并作出預(yù)測(cè),提供數(shù)據(jù)信息,為決策提供輔助支持。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用在商業(yè)領(lǐng)域,同樣,可以將數(shù)據(jù)挖掘技術(shù)與國家教育項(xiàng)目相結(jié)合,對(duì)項(xiàng)目中的各類數(shù)據(jù)信息進(jìn)行挖掘分析,提取隱藏的數(shù)據(jù)信息,為項(xiàng)目開發(fā)部門提供決策依據(jù),進(jìn)一步提高項(xiàng)目的科學(xué)性和高效性。本文結(jié)合自身參與教育部指定的關(guān)于城市集群競爭力項(xiàng)目的實(shí)踐經(jīng)驗(yàn),分析數(shù)據(jù)挖掘技術(shù)在國家教育項(xiàng)目中應(yīng)用的可行性,并以此為例,采用JAVA語言編寫實(shí)現(xiàn)KNN算法。在項(xiàng)目實(shí)施方案中,以城市集群的數(shù)據(jù)為基礎(chǔ),完成數(shù)據(jù)挖掘的全過程:確定數(shù)據(jù)挖掘的對(duì)象和目標(biāo)、數(shù)據(jù)清理和預(yù)處理
2、,對(duì)某個(gè)指標(biāo)缺失的數(shù)據(jù)引入神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè)填補(bǔ),對(duì)缺失較多的數(shù)據(jù)引入對(duì)比和類比的方法進(jìn)行預(yù)測(cè)填補(bǔ),采用KNN算法實(shí)現(xiàn)數(shù)據(jù)分類,形成指標(biāo)體系。利用數(shù)據(jù)挖掘的結(jié)果,通過對(duì)指標(biāo)數(shù)據(jù)的分析,預(yù)測(cè)決定城市集群競爭力的主要因素,從而為今后城市集群的發(fā)展方向和職能定位提供參考,為城鎮(zhèn)體系的總體發(fā)展指明方向,為提高我國城市集群整體經(jīng)濟(jì)實(shí)力和綜合競爭力提供一些有益的建議和對(duì)策,促進(jìn)成熟集群向一體化方向發(fā)展,同時(shí)也可以為國其他城市集群的發(fā)展提供給一些有益的參考?!娟P(guān)鍵詞】數(shù)據(jù)挖掘KNN算法數(shù)據(jù)分類JAVA城市集群競爭力目錄TOC o 1-5 h z HYPERLINK l bookmark0 o Curren
3、t Document 摘要1 HYPERLINK l bookmark2 o Current Document 目錄2 HYPERLINK l bookmark4 o Current Document 第一章緒論3 HYPERLINK l bookmark6 o Current Document 1.1研究背景和研究意義3 HYPERLINK l bookmark8 o Current Document 第二章數(shù)據(jù)挖掘技術(shù)的研究4 HYPERLINK l bookmark10 o Current Document 2.1數(shù)據(jù)挖掘的功能4 HYPERLINK l bookmark12 o Cur
4、rent Document 2.2數(shù)據(jù)挖掘的對(duì)象6 HYPERLINK l bookmark14 o Current Document 2.3數(shù)據(jù)挖掘的過程7 HYPERLINK l bookmark16 o Current Document 2.4數(shù)據(jù)挖掘算法9 HYPERLINK l bookmark18 o Current Document 第三章KNN算法介紹與實(shí)現(xiàn)10 HYPERLINK l bookmark20 o Current Document KNN算法介紹10 HYPERLINK l bookmark22 o Current Document KNN算法的JAVA實(shí)現(xiàn)12
5、HYPERLINK l bookmark24 o Current Document 第四章總結(jié)17第一章緒論研究背景和研究意義1、研究背景隨著信息社會(huì)的發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫管理系統(tǒng)的應(yīng)用,產(chǎn)生了大量的數(shù)據(jù)信息,數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)量也在日益增長。但對(duì)于此數(shù)據(jù)卻是“數(shù)據(jù)豐富,信息貧乏,人們迫切需要從此類數(shù)據(jù)中獲取信息,即將此類數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),并且被廣泛應(yīng)用于事物管理、信息檢索和數(shù)據(jù)分析中。這種需求導(dǎo)致了對(duì)數(shù)據(jù)分析工具的需求擴(kuò)大,數(shù)據(jù)挖掘技術(shù)就是在此信息技術(shù)發(fā)展下產(chǎn)生的。數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人
6、們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號(hào)處理和空間數(shù)據(jù)分析等。數(shù)據(jù)挖掘技術(shù)在商業(yè)等贏利性領(lǐng)域中已經(jīng)取得了廣泛的應(yīng)用。但在高校、政府等非贏利組織的應(yīng)用并不廣泛。結(jié)合自身參與項(xiàng)目的經(jīng)驗(yàn),利用數(shù)據(jù)挖掘技術(shù)快速而又準(zhǔn)確的從浩瀚的數(shù)據(jù)資源中提取出所需信息,從而在實(shí)際應(yīng)用中將管理信息轉(zhuǎn)化為可供決策使用的知識(shí),這不僅具有理論價(jià)值,更具有極大的現(xiàn)實(shí)意義。2、研究意義本文利用數(shù)據(jù)挖掘的結(jié)果,通過對(duì)指標(biāo)數(shù)據(jù)的分析,預(yù)測(cè)決定城市集群競爭力的主要因素,從而為今后城市集群的發(fā)展方向和
7、職能定位提供參考,為城鎮(zhèn)體系的總體發(fā)展指明方向,為提高我國城市集群整體經(jīng)濟(jì)實(shí)力和綜合競爭力提供一些有益的建議和對(duì)策,促進(jìn)成熟集群向一體化方向發(fā)展,同時(shí)也可以為國其他城市集群的發(fā)展提供給一些有益的參考。第二章數(shù)據(jù)挖掘技術(shù)的研究數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般分為兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)記錄數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷以及預(yù)測(cè)。數(shù)據(jù)挖掘功能以及他們可以發(fā)現(xiàn)的模式類型為:一、概念描述數(shù)據(jù)可以與類或概念相關(guān)聯(lián),用匯總的、簡潔的、精確的方式描述每個(gè)類或概念,概念描述就是產(chǎn)生數(shù)據(jù)特征化和比較的描述。數(shù)據(jù)特征化是目標(biāo)類數(shù)
8、據(jù)的一般特征或特性的匯總。通常,用戶指定類的數(shù)據(jù)通過數(shù)據(jù)庫查詢收集。數(shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在的多維表。結(jié)果描述也可以用概化關(guān)系或規(guī)則形式。數(shù)據(jù)區(qū)分是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。目標(biāo)類和對(duì)比類由用戶指定,而對(duì)應(yīng)的數(shù)據(jù)通過數(shù)據(jù)庫查詢檢索。輸出的形式類似于特征描述,但區(qū)分描述應(yīng)當(dāng)包括比較度量,幫助區(qū)分目標(biāo)類和對(duì)比類。用規(guī)則表示的區(qū)分描述成為區(qū)分規(guī)則。二、關(guān)聯(lián)分析關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。即兩個(gè)或兩個(gè)以上數(shù)據(jù)項(xiàng)的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián),可以建立起這些
9、數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析廣泛用于購物籃或事務(wù)數(shù)據(jù)分析。包含單個(gè)謂詞的關(guān)聯(lián)規(guī)則稱作單維關(guān)聯(lián)規(guī)則。在多個(gè)屬性或謂詞之間的關(guān)聯(lián),采用多維數(shù)據(jù)庫,每個(gè)屬性稱為一維,則此規(guī)則稱作多維關(guān)聯(lián)規(guī)則。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí),它反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)。如果兩項(xiàng)或多項(xiàng)屬性之問存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。在大型數(shù)據(jù)庫中,關(guān)聯(lián)規(guī)則可以產(chǎn)生很多,這就需要進(jìn)行篩選。一般用“支持度和“可信度兩個(gè)閾值來淘汰那些無用的關(guān)聯(lián)規(guī)則。三、分類和預(yù)測(cè)分類是指找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。分類是數(shù)據(jù)挖掘中應(yīng)用得
10、最多的任務(wù)。分類就是找出一個(gè)類別的概念描述,并用這種描述來構(gòu)造模型??刹捎枚喾N形式如分類規(guī)則、判定樹、數(shù)學(xué)公式或神經(jīng)網(wǎng)絡(luò)。等導(dǎo)出模型對(duì)訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對(duì)象)的分析。分類可以用來預(yù)測(cè)數(shù)據(jù)對(duì)象的類標(biāo)記。然而,在某些應(yīng)用中,人們可能希望預(yù)測(cè)某些空缺的或不知道的數(shù)據(jù)值,而不是類標(biāo)記。當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí),通常稱之為預(yù)測(cè)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。典型的預(yù)測(cè)方法是回歸分析,即利用大量的歷史數(shù)據(jù),以時(shí)間為變量建立線性或非線性回歸方程。預(yù)測(cè)時(shí),只要輸入任意的時(shí)間值,通過回歸方程就可求出該時(shí)間的狀態(tài)。盡管預(yù)測(cè)可以涉及數(shù)據(jù)值預(yù)測(cè)和類標(biāo)
11、記預(yù)測(cè),通常預(yù)測(cè)限于值預(yù)測(cè),并因此不同于分類。預(yù)測(cè)也包含基于可用數(shù)據(jù)的分布趨勢(shì)識(shí)別。在分類和預(yù)測(cè)之前可能需要進(jìn)行相關(guān)分析,它試圖識(shí)別對(duì)于分類和預(yù)測(cè)無用的屬性并排除。四、聚類分析與分類和預(yù)測(cè)不同,聚類(clustering)分析數(shù)據(jù)對(duì)象,而不考慮已知的類標(biāo)記。一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因?yàn)椴恢缽暮伍_始。聚類,可以用于產(chǎn)生這種標(biāo)記。對(duì)象根據(jù)最大化類的相似性、最小化類問的相似性的原則進(jìn)行聚類或分組。即對(duì)象的簇(聚類)這樣形成,使得在一個(gè)簇中的對(duì)象具有很高的相似性,而與其他簇中的對(duì)象很不相似。所形成的每個(gè)簇可以看作一個(gè)對(duì)象類,由它可以導(dǎo)出規(guī)則。聚類也便于分類編制,將觀察到的容組織成類分層結(jié)
12、構(gòu),把類似的事件組織在一起。五、異常分析數(shù)據(jù)中可能包含一些數(shù)據(jù)對(duì)象,他們與數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對(duì)象是異常的,大部分?jǐn)?shù)據(jù)挖掘方法將異常數(shù)據(jù)視為噪聲而丟棄,異常分析就是探測(cè)和分析那些不符合數(shù)據(jù)的一般模型的數(shù)據(jù)對(duì)象,并對(duì)其建模。然而,在一些應(yīng)用中(如欺騙檢測(cè)),罕見的事件可能比正常出現(xiàn)的那些更有趣,稱作孤立點(diǎn)挖掘。六、演變分析數(shù)據(jù)演變分析描述行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),并對(duì)其建模。盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類,這類分析的不同特點(diǎn)包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。數(shù)據(jù)挖掘的對(duì)象關(guān)系數(shù)據(jù)庫系統(tǒng)廣泛地用于商務(wù)應(yīng)用。隨著數(shù)據(jù)庫
13、技術(shù)的發(fā)展,出現(xiàn)了各種高級(jí)數(shù)據(jù)庫系統(tǒng),以適應(yīng)新的數(shù)據(jù)庫應(yīng)用需要。新的數(shù)據(jù)庫應(yīng)用包括處理空間數(shù)據(jù)(如地圖)、工程設(shè)計(jì)數(shù)據(jù)(如建筑設(shè)計(jì)、系統(tǒng)部件、集成電路)、超文本和多媒體數(shù)據(jù)(包括文本、影象、圖象和聲音數(shù)據(jù))、時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交易數(shù)據(jù))和WWW(通過Internet可以使巨大的、廣泛分布的信息存儲(chǔ))。依據(jù)不同的數(shù)據(jù)類型,數(shù)據(jù)挖掘的對(duì)象包括以下幾種:一、關(guān)系數(shù)據(jù)庫當(dāng)數(shù)據(jù)挖掘用于關(guān)系數(shù)據(jù)庫時(shí),可以進(jìn)一步搜索趨勢(shì)或數(shù)據(jù)模式。例如,數(shù)據(jù)挖掘系統(tǒng)可以分析顧客數(shù)據(jù),根據(jù)顧客的收人、年齡和以前的信用信息預(yù)測(cè)新顧客的信用風(fēng)險(xiǎn)。數(shù)據(jù)挖掘系統(tǒng)也可以檢測(cè)偏差,如與以前的年份相比,哪種商品的銷售出入預(yù)料
14、。這種偏差可以進(jìn)一步考察(例如,包裝是否有變化,或價(jià)格是否大幅度提高)。關(guān)系數(shù)據(jù)庫是數(shù)據(jù)挖掘最流行的、最豐富的數(shù)據(jù)源,因此它是我們數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式。二、數(shù)據(jù)倉庫一般,數(shù)據(jù)倉庫用多維數(shù)據(jù)庫結(jié)構(gòu)建模。數(shù)據(jù)倉庫的實(shí)際物理結(jié)構(gòu)可以是關(guān)系數(shù)據(jù)存儲(chǔ)或多維數(shù)據(jù)立方體。它提供數(shù)據(jù)的多維視圖,并允許預(yù)計(jì)算和快速訪問匯總的數(shù)據(jù)。通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預(yù)計(jì)算,數(shù)據(jù)倉庫非常適合聯(lián)機(jī)分析處理(OLAP)。OLAP允許在不同的抽象層提供數(shù)據(jù)。同時(shí)允許用戶在不同的匯總級(jí)別觀察數(shù)據(jù)。三、事務(wù)數(shù)據(jù)庫一般地說,事務(wù)數(shù)據(jù)庫由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。事物數(shù)據(jù)庫可有一些相關(guān)聯(lián)的附加表。事務(wù)可以存放在
15、表中,由于大部分關(guān)系數(shù)據(jù)庫系統(tǒng)不支持嵌套關(guān)系結(jié)構(gòu),而記錄數(shù)據(jù)為一個(gè)嵌套關(guān)系,使用事務(wù)數(shù)據(jù)庫通常存放在一表格式的展開文件中,或展開到類似的標(biāo)準(zhǔn)關(guān)系中。當(dāng)需要識(shí)別頻繁的事物之間的關(guān)聯(lián)時(shí)即可采用通過事務(wù)數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。四、文本數(shù)據(jù)庫文本數(shù)據(jù)庫是包含對(duì)象文字描述的數(shù)據(jù)庫。通常,這種詞描述不是簡單的關(guān)鍵詞,而是正片文檔。文本數(shù)據(jù)庫可能是高度非結(jié)構(gòu)化的(如www頁)、半結(jié)構(gòu)化的(如email)或結(jié)構(gòu)化的(如圖書館數(shù)據(jù)庫)。文本數(shù)據(jù)庫上的數(shù)據(jù)挖掘可以發(fā)現(xiàn)對(duì)象類的一般描述,以及關(guān)鍵字或容的關(guān)聯(lián)和文本對(duì)象的聚類行為。為做到這一點(diǎn),需要將標(biāo)準(zhǔn)的數(shù)據(jù)挖掘技術(shù)與信息檢索技術(shù)和文本數(shù)據(jù)特有的層次構(gòu)造(如字典和辭典)
16、,以及面向?qū)W科的(如化學(xué)、醫(yī)學(xué)、法律或經(jīng)濟(jì))術(shù)語分類系統(tǒng)集成在一起。五、多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫存放圖象、音頻和視頻數(shù)據(jù)。它們用于基于圖象容的檢索、聲音傳遞、視頻點(diǎn)播、www和識(shí)別口語命令的基于語音的用戶界面等方面。多媒體數(shù)據(jù)庫必須支持大對(duì)象,如視頻這樣的數(shù)據(jù)對(duì)象可能需要兆字節(jié)級(jí)的存儲(chǔ)。還需要特殊的存儲(chǔ)和搜索技術(shù)。因?yàn)橐曨l和音頻數(shù)據(jù)需要以穩(wěn)定的、預(yù)先確定的速率實(shí)時(shí)檢索,防止圖象或聲音間斷和系統(tǒng)緩沖區(qū)溢出,因此這種數(shù)據(jù)稱為連續(xù)媒體數(shù)據(jù)。對(duì)于多媒體數(shù)據(jù)庫挖掘,需要將存儲(chǔ)和搜索技術(shù)與標(biāo)準(zhǔn)的數(shù)據(jù)挖掘方法集成在一起。有前途的方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)的多特征提取和基于相似性的模式匹配。數(shù)據(jù)
17、挖掘的過程數(shù)據(jù)挖掘的過程實(shí)際是一個(gè)數(shù)據(jù)庫知識(shí)的發(fā)現(xiàn)過程。依據(jù)發(fā)現(xiàn)過程可以分為以下幾個(gè)步驟執(zhí)行:一、確定挖掘目標(biāo)清晰明確的定義出問題,認(rèn)清數(shù)據(jù)挖掘的最終業(yè)務(wù)目標(biāo)。一般來說,目標(biāo)可以是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、數(shù)據(jù)分類、回歸、聚類、數(shù)據(jù)匯總、概念描述、相關(guān)分析建?;蛘`差檢測(cè)及預(yù)測(cè)或綜合應(yīng)用等。二、數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)準(zhǔn)備階段又可以進(jìn)一步細(xì)分為三步:數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)處理、數(shù)據(jù)變換和壓縮。1數(shù)據(jù)集成。選擇一個(gè)數(shù)據(jù)集或針對(duì)一個(gè)變量或數(shù)據(jù)樣本的子集,在這個(gè)集合上進(jìn)行挖掘。此時(shí)應(yīng)考慮如何選取同類的數(shù)據(jù),考慮過程中的動(dòng)態(tài)情況和變化、采樣策略、樣本是否足夠、自由度和其他一些問題。2數(shù)據(jù)選擇和預(yù)處理??紤]如何正確去除噪聲模型
18、或解決噪聲問題,決定采取何種策略去解決丟失的數(shù)據(jù)或數(shù)據(jù)庫設(shè)計(jì)不完善帶來的問題,以及解決時(shí)間序列信息和正確標(biāo)準(zhǔn)化等問題。3數(shù)據(jù)變換和壓縮。根據(jù)任務(wù)的目標(biāo),查找有用的特性來表示數(shù)據(jù)。利用空間壓縮或變換的方法來減少要考慮的有效數(shù)目或找到數(shù)據(jù)的不變表示,一般方法把數(shù)據(jù)投影到某個(gè)空間上以利于問題解決。三、數(shù)據(jù)挖掘1選擇數(shù)據(jù)挖掘方法。根據(jù)數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)過程的目標(biāo),選擇相應(yīng)的數(shù)據(jù)挖掘方法。如統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、模式識(shí)別方法和人工神經(jīng)元方法等。2選擇數(shù)據(jù)挖掘算法。選擇用來查找模式或符合數(shù)據(jù)的模型的算法,確定合適的模型和參數(shù)。另外,數(shù)據(jù)挖掘方法必須和目標(biāo)相匹配。3數(shù)據(jù)挖掘。查找感興趣的模式。模式一般表示為一種特
19、殊的形式或一套表達(dá)式,如關(guān)聯(lián)規(guī)則、分類規(guī)則或分類樹,回歸結(jié)構(gòu)和聚類集等。四、評(píng)估與表示1結(jié)果表達(dá)。盡量直觀地表示挖掘結(jié)果,便于用戶理解和使用,可利用可視化方法表示為圖表等形式。2結(jié)果評(píng)價(jià)。篩選和評(píng)價(jià)挖掘結(jié)果中的有用部分,查找可接受的結(jié)果??啥x興趣度指標(biāo),考慮結(jié)果的正確度、新穎度、有用性和簡單性,把知識(shí)從輸出中過濾出來。利用可視化方法幫助用戶決定所提取知識(shí)的有效性和對(duì)基本的數(shù)據(jù)或現(xiàn)象做出結(jié)論。3知識(shí)鞏固。把挖掘出的知識(shí)結(jié)合到執(zhí)行系統(tǒng)中,了解這些知識(shí)的作用或證明這些知識(shí)。用預(yù)選知識(shí)且可信的知識(shí)來檢查和驗(yàn)證所挖掘的知識(shí),解決可能存在的矛盾,也可以只是簡單地記錄所挖掘出的知識(shí),并把它報(bào)告給用戶,由用
20、戶進(jìn)一步分析。數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘的核心部分就是數(shù)據(jù)挖掘算法,設(shè)計(jì)數(shù)據(jù)挖掘算法的方法很多,不同的方法服務(wù)于不同的目標(biāo),每種方法都有自己的優(yōu)缺點(diǎn)。因此,一個(gè)功能全面的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該綜合利用各種不同的方法。常用的數(shù)據(jù)挖掘算法主要包括:1、決策樹方法:利用信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支,在每個(gè)分支子集中重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程。2、神經(jīng)網(wǎng)絡(luò)方法:是一組連接的輸入、輸出單元,其中每個(gè)連接都與一個(gè)權(quán)相聯(lián)。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確類標(biāo)號(hào)來學(xué)習(xí)。由于單元之間的連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又稱連接者
21、學(xué)習(xí)。3、遺傳算法:是一種優(yōu)化技術(shù),試圖結(jié)合自然進(jìn)化的思想?;谶_(dá)爾文的進(jìn)化論中基因重組、突變和自然選擇等概念。利用生物進(jìn)化的一系列概念進(jìn)行問題的搜索,最終達(dá)到優(yōu)化的目的。4、KNN算法:是一種理論上比較成熟的分類和回歸算法,該方法定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。5、粗糙集方法:可以用于分類,發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)在的結(jié)構(gòu)聯(lián)系,它用于離散值屬性。粗糙集理論基于給定訓(xùn)練數(shù)據(jù)部的等價(jià)類的建立。形成等價(jià)類的所有數(shù)據(jù)樣本是不加區(qū)分的,即對(duì)于描述數(shù)據(jù)的屬性,這些樣本是等價(jià)的。6、模糊集方法:利用模糊集合理論,對(duì)實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別等。對(duì)于
22、數(shù)據(jù)挖掘系統(tǒng)進(jìn)行分類,模糊邏輯是有用的。它提供了在高抽象層處理的便利。第三章KNN算法介紹與實(shí)現(xiàn)3.1KNN算法介紹通過參與城市集群競爭力項(xiàng)目的實(shí)踐,結(jié)合自己所學(xué)的JAVA語言,為了更好的利用KNN算法實(shí)現(xiàn)項(xiàng)目數(shù)據(jù)的分類和預(yù)測(cè),采取了用JAVA語言編寫和改進(jìn)KNN算法的方式。1、KNN的優(yōu)缺點(diǎn)優(yōu)點(diǎn):原理簡單,實(shí)現(xiàn)起來比較方便。支持增量學(xué)習(xí)。能對(duì)超多邊形的復(fù)雜決策空間建模。缺點(diǎn):計(jì)算開銷大,需要有效的存儲(chǔ)技術(shù)和并行硬件的支撐。2、KNN算法原理基于類比學(xué)習(xí),通過比較訓(xùn)練元組和測(cè)試元組的相似度來學(xué)習(xí)。將訓(xùn)練元組和測(cè)試元組看作是n維(若元組有n的屬性)空間的點(diǎn),給定一條測(cè)試元組,搜索n維空間,找出與
23、測(cè)試元組最相近的k個(gè)點(diǎn)(即訓(xùn)練元組),最后取這k個(gè)點(diǎn)中的多數(shù)類作為測(cè)試元組的類別。相近的度量方法:用空間兩個(gè)點(diǎn)的距離來度量。距離越大,表示兩個(gè)點(diǎn)越不相似。距離的選擇:可采用歐幾里得距離、曼哈頓距離或其它距離度量。多采用歐幾里得距離。3、KNN算法中的細(xì)節(jié)處理數(shù)值屬性規(guī)化:將數(shù)值屬性規(guī)到0-1區(qū)間以便于計(jì)算,也可防止大數(shù)值型屬性對(duì)分類的主導(dǎo)作用。可選的方法有:v=(V-v)/(v-v),minmaxmin當(dāng)然也可以采用其它的規(guī)化方法。比較的屬性是分類類型而不是數(shù)值類型的:同則差為0,異則差為1。有時(shí)候可以作更為精確的處理,比如黑色與白色的差肯定要大于灰色與白色的差。缺失值的處理:取最大的可能差,
24、對(duì)于分類屬性,如果屬性A的一個(gè)或兩個(gè)對(duì)應(yīng)值丟失,則取差值為1;如果A是數(shù)值屬性,若兩個(gè)比較的元組A屬性值均缺失,則取差值為1,若只有一個(gè)缺失,另一個(gè)值為v,則取差值為丨1-v丨和丨0-v丨中的最大值。確定K的值:通過實(shí)驗(yàn)確定。進(jìn)行若干次實(shí)驗(yàn),取分類誤差率最小的k值。對(duì)噪聲數(shù)據(jù)或不相關(guān)屬性的處理:對(duì)屬性賦予相關(guān)性權(quán)重w,w越大說明屬性對(duì)分類的影響越相關(guān)。對(duì)噪聲數(shù)據(jù)可以將所在的元組直接cut掉。4、KNN算法流程準(zhǔn)備數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理選用合適的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)訓(xùn)練數(shù)據(jù)和測(cè)試元組設(shè)定參數(shù),如k維護(hù)一個(gè)大小為k的的按距離由大到小的優(yōu)先級(jí)隊(duì)列,用于存儲(chǔ)最近鄰訓(xùn)練元組隨機(jī)從訓(xùn)練元組中選取k個(gè)元組作為初始的
25、最近鄰元組,分別計(jì)算測(cè)試元組到這k個(gè)元組的距離,將訓(xùn)練元組標(biāo)號(hào)和距離存入優(yōu)先級(jí)隊(duì)列遍歷訓(xùn)練元組集,計(jì)算當(dāng)前訓(xùn)練元組與測(cè)試元組的距離,將所得距離L與優(yōu)先級(jí)隊(duì)列中的最大距離Lmax進(jìn)行比較。若L=Lmax,則舍棄該元組,遍歷下一個(gè)元組。若L=o2.getDistance()return1;elsereturn0;/*獲取K個(gè)不同的隨機(jī)數(shù)paramk隨機(jī)數(shù)的個(gè)數(shù)parammax隨機(jī)數(shù)最大的圍return生成的隨機(jī)數(shù)數(shù)組*/publicListIntegergetRandKNum(intk,intmax)ListIntegerrand=newArrayListInteger(k);for(inti二0
26、;ik;i+)inttemp=(int)(Math.random()*max);if(!rand.contains(temp)rand.add(temp);elsei-;returnrand頁腳頁腳./*計(jì)算測(cè)試元組與訓(xùn)練元組之前的距離paramdi測(cè)試元組paramd2訓(xùn)練元組return距離值*/publicdoublecalDistance(Listd1,Listd2)doubledistance=0.00;for(inti=0;id1.size();i+)distance+=(d1.get(i)-d2.get(i)*(d1.get(i)-d2.get(i);returndistance
27、;/*執(zhí)行KNN算法,獲取測(cè)試元組的類別paramdatas訓(xùn)練數(shù)據(jù)集paramtestData測(cè)試元組paramk設(shè)定的K值return測(cè)試元組的類別*/publicStringknn(ListListdatas,ListtestData,intk)PriorityQueuepq=newPriorityQueue(k,comparator);ListrandNum=getRandKNum(k,datas.size();for(inti=0;ik;i+)intindex=randNum.get(i);ListcurrData=datas.get(index);Stringc=currData.
28、get(currData.size()-1).toString();KNNNodenode=newKNNNode(index,calDistance(testData,currData),c);pq.add(node);for(inti=0;idatas.size();i+)Listt=datas.get(i);doubledistance=calDistance(testData,t);KNNNodetop=pq.peek();if(top.getDistance()distance)pq.remove();pq.add(newKNNNode(i,distance,t.get(t.size(
29、)-1).toString();returngetMostClass(pq);/*獲取所得到的k個(gè)最近鄰元組的多數(shù)類parampq存儲(chǔ)k個(gè)最近近鄰元組的優(yōu)先級(jí)隊(duì)列return多數(shù)類的名稱*/privateStringgetMostClass(PriorityQueueKNNNodepq)MapString,IntegerclassCount二newHashMapString,Integer();for(inti二0;ipq.size();i+)KNNNodenode=pq.remove();Stringc=node.getC();if(classCount.containsKey(c)clas
30、sCount.put(c,classCount.get(c)+1);elseclassCount.put(c,1);intmaxindex=T;intmaxCount二0;Objectclasses=classCount.keySet().toArray();for(inti二0;iclasses.length;i+)if(classCount.get(classesi)maxCount)maxindex=i;maxCount二classCount.get(classesi);returnclassesmaxIndex.toString();ListDoublel=null;while(dat
31、a!=null)Stringt二data.split();l=newArrayListDouble();for(inti二0;it.length;i+)l.add(Double.parseDouble(ti);datas.add(l);data=br.readLine();catch(Exceptione)e.printStackTrace();/*程序執(zhí)行入口*/publicstaticvoidmain(Stringargs)TestKNNt二newTestKNN();Stringdatafile=newFile().getAbsolutePath()+File.separator+datafile;Stringtestfile=newFile().getAbsolutePath()+File.separator+testfile;tryListListDoubledatas=newArrayListListDouble();ListListDoubletestDatas=n
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年國際spa原料供應(yīng)合同
- 2024年度版權(quán)質(zhì)押合同版權(quán)價(jià)值評(píng)估與質(zhì)押期限
- 風(fēng)控課件教學(xué)課件
- 2024年土地使用權(quán)抵押購房合同
- 2024年商標(biāo)許可使用合同:某知名品牌
- 合同履約成本的會(huì)計(jì)處理分錄-記賬實(shí)操
- 2024年度個(gè)人向公司提供的借款合同模板
- 2024天然氣企業(yè)信息安全保護(hù)合同
- 2024年度大數(shù)據(jù)可視化設(shè)計(jì)合同
- 2024年店面租賃與管理合同
- “學(xué)、練、賽、評(píng)一體化”教學(xué)模式下學(xué)生核心素養(yǎng)培育模式探究
- 彩色多普勒超聲診斷儀投標(biāo)方案(技術(shù)標(biāo))
- 集團(tuán)25周年慶典活動(dòng)創(chuàng)意思路案
- 營養(yǎng)與健康學(xué)校建設(shè)方案
- 被執(zhí)行人財(cái)產(chǎn)線索表
- (6.6)-第一章 領(lǐng)悟人生真諦 把握人生方向
- 初中物理第二章 聲現(xiàn)象作業(yè)設(shè)計(jì)初中物理第二章 聲現(xiàn)象作業(yè)設(shè)計(jì)
- 國網(wǎng)基建各專業(yè)考試題庫大全-技術(shù)專業(yè)(考題匯總)
- 基于社會(huì)效益與經(jīng)濟(jì)效益的大型醫(yī)療設(shè)備成本效益分析
- 國家開放大學(xué)《護(hù)理科研方法》形考任務(wù)1-4參考答案
- 體育社會(huì)學(xué) 第1章 體育社會(huì)學(xué)導(dǎo)論
評(píng)論
0/150
提交評(píng)論