版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
陸軍裝甲兵學院本科畢業(yè)論文基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究摘要現(xiàn)如今,全球諸多領(lǐng)域均致力于實現(xiàn)信息化,數(shù)據(jù)體量不斷增加,與之伴隨而來的是傳統(tǒng)數(shù)據(jù)處理方式的衰退,海量的數(shù)據(jù)不能再以以往的方式進行存儲和管理,在此背景下,學者們紛紛研究出更為優(yōu)良的大數(shù)據(jù)處理技術(shù)。在目前成熟的大數(shù)據(jù)平臺下,針對各種類型的數(shù)據(jù)進行深入挖掘,已經(jīng)成為當前大數(shù)據(jù)領(lǐng)域的主流研究課題。正是由于大數(shù)據(jù)表現(xiàn)出海量的規(guī)模,并且含有可伸縮的基本特性,才可為后期的數(shù)據(jù)挖掘提供極其有力的先決條件。因此,本文選擇基于海量數(shù)據(jù)對裝備維修保障決策分析算法進行研究。本文對于裝備維修保障決策分析數(shù)據(jù)挖掘算法進行了研究。首先,筆者針對此次設(shè)計的基本背景及其實際意義,進行較為深入的細致闡述,并確定本課題在當前時期的發(fā)展現(xiàn)狀;其次,筆者針對數(shù)據(jù)挖掘自始至終的發(fā)展進程,進行科學深入的依次闡述;之后在對數(shù)據(jù)挖掘中的算法進行簡要分析,最后,結(jié)合數(shù)據(jù)挖掘技術(shù)在裝備維修保障中的運用進行理性分析和研究。近年來,我軍裝備的絕大部分基本上實現(xiàn)機械化,并且伴隨信息化以及裝備維修保障的進步和創(chuàng)新,累積下了數(shù)據(jù)龐大的數(shù)據(jù)量。因此當前如何利用好這些數(shù)據(jù),為后期的裝備維護提供極其有力的數(shù)據(jù)支撐,是一個很是有意義和影響深遠的課題。在本篇論文中,著重于秉持數(shù)據(jù)挖掘的基本準則,并選擇恰當適宜的基本方法,針對其在裝備維護方面所能達到的應(yīng)用效果,進行科學合理的綜合探究。并介紹基于海量數(shù)據(jù)的裝備維修保障的數(shù)據(jù)挖掘的具體理論和方法,為具體的運用提供一些參考價值,也具有一定的指導作用。關(guān)鍵詞:數(shù)據(jù)挖掘;大數(shù)據(jù);裝備維修;保障AbstractWiththeadventofthebigdataage,thescaleandstyleofdataaregettinglargerandlargerandmorecumbersome.Alargenumberofdatahavedifferentqualitiesanddifferentdatacapacities,resultingindifferentvaluedensities.Therefore,itisverydifficultforuserstoobtainvaluableinformationfromtheperiodtomeetindividualneeds.Inordertoreasonablysolveindividualneeds,weshouldanalyzedatamining,Thedefinitionofbigdataandthecharacteristicsofbigdata.Inrecentyears,themainbusinessofvariousunitsinChinahasbasicallybeenmodernized,andwiththedevelopmentandinnovationofinformationtechnologyandbusiness,ahugeamountaccumulated.Therefore,howtomakebetteruseofthesedatatoprovideeffectivedecision-makingsupportinvariousfieldsisafar-reachingissue.Thispaperintroducestheprocessofdataminingbasedonequipmentmaintenanceandthemethodofspecifictheory.Keywords:Datamining;Bigdata;Equipmentmaintenance;Support
第一章緒論1.1課題研究的背景和意義本課題來源于裝備維修保障決策分析這一科研項目,屬于應(yīng)用學科的分支。由于以云計算和物聯(lián)網(wǎng)為例的多樣化信息技術(shù),正逐步充斥于人們生活中的方方面面,故而大數(shù)據(jù)時代已經(jīng)來臨;我國軍事能力大幅提升,裝備越來越精良,但同時也產(chǎn)生了裝備維修保障困難的問題。從本質(zhì)上來看,多樣化裝備所涉及的維修統(tǒng)計信息往往相對復雜,并且過于分散,難以實現(xiàn)信息共享,更遑論對其進行充分的實際利用,也無法達到科學有效的統(tǒng)籌管理效果。故而,以多樣化數(shù)據(jù)為基礎(chǔ)而構(gòu)建出科學完善的裝備維修保障信息分析系統(tǒng)勢在必行,通過針對多元化裝備所涉及的維修信息,進行較為深入的數(shù)據(jù)挖掘以及科學合理的統(tǒng)籌分析,將可據(jù)此圍繞一系列業(yè)務(wù)進行更深層次的細致研究。例如:全壽命周期的費用分析。不僅如此,還能據(jù)此針對裝備使用單位等,制定出合理健全的維修保障計劃,并可持續(xù)完善現(xiàn)有的資源配置。從大數(shù)據(jù)范疇來看,尤為關(guān)鍵的核心技術(shù)即為數(shù)據(jù)挖掘技術(shù),本課題著重利用數(shù)據(jù)挖掘技術(shù)解決困擾我軍已久的裝備維修保障困難的問題,并提出建設(shè)性意見和可行性方案。本課題基于建設(shè)裝備維修保障系統(tǒng),借助尤為典型的數(shù)據(jù)挖掘方法,針對多樣化裝備所涉及的損壞數(shù)據(jù),進行較為細致的深入研究,并通過樸素貝葉斯、關(guān)聯(lián)分類等算法對數(shù)據(jù)進行分析,目的在于根據(jù)已有的數(shù)據(jù),找出其中的規(guī)律,以此來制定出科學完善的裝備維修保障方案。在本篇論文中,主要基于現(xiàn)有裝備所涉及損壞數(shù)據(jù)的各項基本特征,運用如今已有的數(shù)據(jù)挖掘處理方法技術(shù),提出基于海量數(shù)據(jù)的裝備保障維修算法,并進行實例驗證??傮w來說,本文主要有以下幾點意義:(1)我軍所持有的裝備技術(shù),在近年來日益獲得相對穩(wěn)定的迅猛發(fā)展,信息化裝備逐步列裝,故而對于多樣化裝備所提出的一系列維修保障需求也與日俱增,在此背景下,如何高效地對裝備維修保障方案進行決策分析,是我軍目前裝備保障的重點。在我軍裝備更新日益加快的今天,裝備損壞數(shù)據(jù)就變得越規(guī)模更加龐大、價值更高,如能運用數(shù)據(jù)挖掘技術(shù)準確高效的分析這些數(shù)據(jù),不僅能直觀的看出裝備損壞的總體情況,還能找出一些隱藏其中的規(guī)律,這對于裝備保障、宏觀統(tǒng)籌裝備是一個非常重要的手段。(2)實際上,全球各國彼此間圍繞數(shù)據(jù)挖掘技術(shù)而獲得的研究成果相距甚遠,這種差距不僅存在于理論方面,也存在于應(yīng)用方面。相較于西方發(fā)達國家現(xiàn)有的研究成果而言,中國在此方面所開展的研究相對較遲,故而尚未研究出較為成熟的理論予以支撐。在當前時期,中國主要針對海量數(shù)據(jù)進行較為基礎(chǔ)的初級處理,其中尤為典型的即為模糊化處理。而在某些西方發(fā)達國家中,已經(jīng)在此方面研發(fā)相匹配的軟件。相比之下,中國在此方面尚未研發(fā)出優(yōu)良的軟件,究其根本,在于研發(fā)主力為國內(nèi)各大高校,研究經(jīng)費均由國家撥款,故而不具備競爭力,這極大制約中國在此方面的實際發(fā)展進程。海量數(shù)據(jù)挖掘技術(shù)在我軍軍隊裝備管理中運用較少,如本文提出的基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究有所成效,那對于數(shù)據(jù)挖掘技術(shù)的推廣和裝備數(shù)據(jù)的處理都可以起到積極的作用和效果。1.2課題研究的現(xiàn)狀1.2.1大數(shù)據(jù)的發(fā)展現(xiàn)狀現(xiàn)如今,全球?qū)W者針對大數(shù)據(jù)技術(shù)所開展的各項研究,通?;谒拇箨P(guān)鍵點著手,其中包含基礎(chǔ)理論以及應(yīng)用時間,與此同時,還涵蓋關(guān)鍵技術(shù)以及相應(yīng)的數(shù)據(jù)安全。以基礎(chǔ)理論為例,其在現(xiàn)今依然存在一系列理論問題亟待解決。例如:當今學者并未針對大數(shù)據(jù)技術(shù)進行統(tǒng)一的合理定義,并且尚未在結(jié)構(gòu)模型等方面設(shè)定規(guī)范化的判定標準。以關(guān)鍵技術(shù)為例,當前學者尚未找到可統(tǒng)一轉(zhuǎn)換大數(shù)據(jù)基本格式的有效方法,并尚未針對以數(shù)據(jù)轉(zhuǎn)移為例的一系列問題,進行科學有效的解決。然而,大數(shù)據(jù)卻表現(xiàn)出尤為顯著的異構(gòu)性,這意味著若能有效提高大數(shù)據(jù)格式轉(zhuǎn)化過程中的實際效率,則將能大幅提升其所含有的應(yīng)用價值;值得一提的是,若想有效提高大數(shù)據(jù)的計算能力,則必須首先提升各項數(shù)據(jù)表現(xiàn)出的轉(zhuǎn)移速率,這須有待于操作者針對各類數(shù)據(jù)進行科學有效的細致處理。在此過程中,數(shù)據(jù)重組以及針對不正確的數(shù)據(jù)進行二次利用等基本方式,均可切實提升大數(shù)據(jù)所含的應(yīng)用價值。以應(yīng)用實踐為例,現(xiàn)如今,大數(shù)據(jù)在各個領(lǐng)域中的應(yīng)用,大多集中于數(shù)據(jù)管理及其相應(yīng)的數(shù)據(jù)集成等方面。此外,以數(shù)據(jù)安全為例,如何切實保障數(shù)據(jù)安全,維護用戶的個人隱私,已經(jīng)成為該領(lǐng)域亟待解決的根本問題。這是由于,如果應(yīng)用大數(shù)據(jù)技術(shù),則將很容易暴露用戶隱私;不僅如此,因為大數(shù)據(jù)在精準度方面存在一定的偏差,故而將會不可避免的出現(xiàn)一系列數(shù)據(jù)質(zhì)量問題。1.2.2數(shù)據(jù)挖掘技術(shù)在軍隊中的應(yīng)用最新出現(xiàn)的科學技術(shù)往往都能在軍事中有所體現(xiàn),并為軍事技術(shù)的發(fā)展起到積極的推進作用。毋庸置疑的是,西方發(fā)達國家在數(shù)據(jù)挖掘技術(shù)方面開展的研究相對較早,并且技術(shù)也更加趨于成熟。美軍早在2010年就建成了完整的裝備數(shù)據(jù)庫和倉庫業(yè)務(wù)管理自動化系統(tǒng),能夠?qū)崿F(xiàn)裝備數(shù)據(jù)的電子化管理,每件裝備都有對應(yīng)的電子檔案。以美國為例的發(fā)達國家,已經(jīng)針對自身的裝備維修保障系統(tǒng)進行長達半個世紀的持續(xù)優(yōu)化,早期即已實現(xiàn)自動化,并日益獲得相對穩(wěn)定的蓬勃發(fā)展。不僅如此,這些國家還將極為優(yōu)良的數(shù)據(jù)挖掘技術(shù),均融于自身的裝備維修過程,此外還應(yīng)用前沿的自動檢測技術(shù),設(shè)定數(shù)字化的高端工具箱,成功構(gòu)建科學健全的遠程維修支援系統(tǒng),這將對多樣化裝備所涉及的后期維護工作,提供極其有力的技術(shù)保障。相比之下,我軍在裝備管理上一直處于較低水平,其中主要的問題在于裝備數(shù)據(jù)的不完整和不健全,沒有形成完整的裝備數(shù)據(jù)存儲體系,在我軍龐大的裝備量這一背景下。為了充分了解通用裝備現(xiàn)狀,2013年底,完成通用裝備的普查工作,成功構(gòu)建出大規(guī)模的裝備數(shù)據(jù)庫。在此背景下,應(yīng)當怎樣針對海量數(shù)據(jù)進行科學合理的綜合分析,并有效提高數(shù)據(jù)的實際利用率特別關(guān)鍵。在本篇論文中,旨在基于數(shù)據(jù)挖掘技術(shù)針對各種類型的數(shù)據(jù),進行較為深入的細致分析并深入挖掘,以求找到更為良好的應(yīng)用保障法。1.2.3數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢在大數(shù)據(jù)時代的背景下,若能將現(xiàn)今備受青睞的數(shù)據(jù)挖掘技術(shù)引入現(xiàn)有的裝備維修保障系統(tǒng)中,必將可獲得良好成效。這不僅是時代發(fā)展的必由途徑,而且還可有效提升軍隊現(xiàn)有的裝備維護能力。大數(shù)據(jù)作為一個強大的數(shù)據(jù)庫,其具有巨大的實用價值,對于裝備維修保障系統(tǒng)來說,其強大的信息資源供應(yīng)量已經(jīng)為軍隊信息化建設(shè)的重要支持力量,對于信息的獲取渠道也必將進一步拓展。我軍裝備的發(fā)展正朝著多樣化、智能化、信息化的方向發(fā)展,主要表現(xiàn)在裝備種類多、數(shù)量多、高科技程度高等方面,這將會給維修保障帶來了不小的困難,大數(shù)據(jù)、云計算、人工智能技術(shù)將對裝備維修保障系統(tǒng)輔助決策提供強有力支持,結(jié)合數(shù)據(jù)挖掘技術(shù),將可針對多樣化裝備所涉及的一系列維修保障信息,進行較為深入的細致處理,并由此獲得精準有效的分析結(jié)果。1.3本文研究內(nèi)容在本篇論文中,主要秉持我軍現(xiàn)有裝備涉及各項維護任務(wù)的基本特征,利用海量數(shù)據(jù)挖掘技術(shù),針對性提出可行性高的輔助決策。研究內(nèi)容主要有以下幾點;(1)深入掌握數(shù)據(jù)挖掘領(lǐng)域的基本知識。大數(shù)據(jù)作為新興產(chǎn)業(yè),在過去的一段時間內(nèi)展現(xiàn)了驚人的活力與生產(chǎn)力,數(shù)據(jù)挖掘技術(shù)知識繁多復雜,在研究本課題主要解決的問題之前,必須首先對數(shù)據(jù)挖掘技術(shù)有所了解和掌握。值得一提的是,對于數(shù)據(jù)挖掘技術(shù)而言,尤為關(guān)鍵的元素即為算法,故而需要據(jù)此進行更深層次的細致研究。(2)深入研究我軍現(xiàn)有裝備所涉及的各項維護數(shù)據(jù)本課題的算法主要應(yīng)用于裝備維修保障數(shù)據(jù)分析,所以我們首先需要研究我軍裝備維修保障現(xiàn)狀以及收集整理數(shù)據(jù),并進行全面細致的分析。本文介紹了基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究,并對其進行檢測。(3)深入研究以多樣化數(shù)據(jù)為基礎(chǔ)而成功構(gòu)建的數(shù)據(jù)挖掘算法現(xiàn)如今,全球?qū)W者圍繞數(shù)據(jù)挖掘技術(shù)而研究的各項算法已經(jīng)逐步趨于成熟。在多種多類的算法中我們需要找出適用于本課題的算法,并對其進行優(yōu)化處理。(4)數(shù)據(jù)處理和可視化處理大數(shù)據(jù)往往不會直觀的表現(xiàn)出其特點和規(guī)律,對于算法處理后的數(shù)據(jù),必須對其進行科學深入的可視化處理,以幫助使用者更加清晰的看出其規(guī)律,更好地輔助決策。1.4本文章節(jié)組織本文在章節(jié)組織上主要分為:第一章,緒論。在此章節(jié)中,旨在針對本文的基本背景及其實際意義,進行較為深入的細致闡述,以及通過對大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀和趨勢的介紹,簡要介紹了本課題所研究的方向。第二章大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)具體介紹了大數(shù)據(jù)技術(shù)的數(shù)據(jù)挖掘技術(shù)這兩個基本內(nèi)容,通過對兩大基本內(nèi)容體系結(jié)構(gòu)和技術(shù)原理的分析,為下文的具體數(shù)據(jù)分析應(yīng)用打下理論基礎(chǔ)。第三章數(shù)據(jù)挖掘方法研究主要介紹了常用的數(shù)據(jù)挖掘方法以及算法第四章數(shù)據(jù)挖掘技術(shù)在裝備維修保障中的運用介紹了全軍通用裝備維修保障數(shù)據(jù)的處理和計算,然后分析了全軍通用裝備維修保障數(shù)據(jù)的特點,然后對數(shù)據(jù)進行預處理和簡化以方便用算法對數(shù)據(jù)進行處理,設(shè)計出數(shù)據(jù)計算模型,并詳細介紹了全軍通用裝備維修保障數(shù)據(jù)的處理過程,最后,針對已經(jīng)獲得的處理結(jié)果進行科學合理的可視化分析。第二章大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)2.1大數(shù)據(jù)技術(shù)2.1.1大數(shù)據(jù)技術(shù)簡介大數(shù)據(jù)的基本定義最先起源于西方發(fā)達國家美國。大數(shù)據(jù)名稱來自未來學鉆研規(guī)模權(quán)勢巨子未來學家托夫勒的書《第三次海潮》。大數(shù)據(jù)的進步蓬勃伊始于2009年,“大數(shù)據(jù)”這一名詞在全球范圍內(nèi)廣泛傳播。然而,大數(shù)據(jù)是成熟進步經(jīng)歷中的一個自我進步經(jīng)歷和概念。當前的崛起和進步,是由于其規(guī)模的巨大變換和數(shù)據(jù)積累。在當今世界,大數(shù)據(jù)存在于各行各業(yè),衣食住行,充斥于人們生活中的方方面面,并且還將在未來一段時期,為人類社會帶來極其深遠的影響。2.1.2大數(shù)據(jù)技術(shù)的特點大數(shù)據(jù)具備以下4個特點:首先,其含有海量數(shù)據(jù)。以印刷材料為例,其至今為止的生產(chǎn)數(shù)據(jù)量累計高達200PB。然而,普通的硬盤容量已經(jīng)達到TB量級,甚至于某些企業(yè)級數(shù)據(jù)量將達到EB量級。中國具有世界上非常多的網(wǎng)絡(luò)名,每時每刻產(chǎn)生的數(shù)據(jù)量極大。比如眾所周知的淘寶網(wǎng)站每日產(chǎn)生的數(shù)據(jù)量大于5萬CB而存儲量大于4000萬GB。百度目前的總數(shù)據(jù)大于10億GB。每時每刻解決大于60億個數(shù)據(jù)請求和轉(zhuǎn)發(fā)。一臺8mbps的相機可以在兩小時內(nèi)產(chǎn)生8.0GB的數(shù)據(jù)請求。其次,數(shù)據(jù)的種類趨于多樣化。在當前時期,數(shù)據(jù)并不單單以文本形式呈現(xiàn)出來,而是以圖片以及視頻等各種類型的數(shù)據(jù)加以呈現(xiàn),愈加趨于個性化。其三,其表現(xiàn)出尤為迅猛的處理速度。甚至可在1s內(nèi),即在多樣化數(shù)據(jù)中獲得自身所需的各項信息。最后,表現(xiàn)出不太高的價值密度。例如:在1h的視頻中,由于持續(xù)測試,故而后期可獲得的高價值數(shù)據(jù),也許僅為1s左右。2.1.3大數(shù)據(jù)技術(shù)的未來大數(shù)據(jù)技術(shù)極富創(chuàng)新性,故而必將在未來得到快速地發(fā)展和廣泛的應(yīng)用,其原因有以下幾點:首先,大數(shù)據(jù)本身可以產(chǎn)生更多的利潤。簡而言之就是付出和回報是呈現(xiàn)正比例。重點是數(shù)據(jù)本身,數(shù)據(jù)本身也將為信息社會提供整體能量。其次,科技規(guī)模在大數(shù)據(jù)的推進下正在迅速進步。這些進步大都在推進科學技能的進步。大數(shù)據(jù)正在推進科學技能的快速進步,相輔相成構(gòu)成大數(shù)據(jù)特有的產(chǎn)業(yè)鏈。大數(shù)據(jù)經(jīng)過多年的進步,初步構(gòu)成為了自己獨特的產(chǎn)業(yè)文化和產(chǎn)業(yè)鏈,包括數(shù)據(jù)的采組合、整理、傳輸?shù)?。在大?shù)據(jù)的進步中,一些行業(yè)已經(jīng)構(gòu)成為了必然的規(guī)模。相信在未來伴隨的數(shù)據(jù)的持續(xù)長足的進步,和大數(shù)據(jù)有所聯(lián)系關(guān)系的產(chǎn)業(yè)也將迎來改變。第三,產(chǎn)業(yè)構(gòu)造的互聯(lián)網(wǎng)將促進大數(shù)據(jù)的登陸。互聯(lián)網(wǎng)目前正在產(chǎn)生巨大變換,這是一個歷史性轉(zhuǎn)折點和過渡期。2.2數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本含義為:在各種類型的數(shù)據(jù)中迅速挖掘自身所需的高價值信息,經(jīng)由科學合理的綜合分析,將可掌握多樣化數(shù)據(jù)彼此間的深入聯(lián)系。數(shù)據(jù)挖掘技術(shù)主要代表為實現(xiàn)一系列數(shù)據(jù)挖掘任務(wù),而必須采用的所有技術(shù)。現(xiàn)如今,以金融為例的多樣化領(lǐng)域,已經(jīng)針對各項數(shù)據(jù)挖掘技術(shù)進行較為廣泛的多方位應(yīng)用,并以此針對用戶更加傾向的購物需求,進行較為深入的細致分析。在此過程中,大部分企業(yè)均研究用戶的短期行為,亦或為針對某特定問題展開深入研究,暫時并不存在規(guī)范化的理論。但須注意的是,對于以往一直沿用的數(shù)據(jù)挖掘技術(shù)而言,若持續(xù)提高數(shù)據(jù)維度,則亟待挖掘的資源將迅速攀升。故而當作用于超過PB級的大數(shù)據(jù)時,應(yīng)該針對性研究出匹配的有效方法。2.2.1數(shù)據(jù)挖掘當前時期,互聯(lián)網(wǎng)領(lǐng)域掀起一陣研發(fā)數(shù)據(jù)庫系統(tǒng)的浪潮,在此背景下,數(shù)據(jù)挖掘應(yīng)運而生。其實則為交叉性學科,涉及到諸多領(lǐng)域,其中包含機器學習、人工智能以及相應(yīng)的模式識別等各個領(lǐng)域,詳見下圖。數(shù)據(jù)挖掘的基本概念為:基于各種類型的海量數(shù)據(jù),挖掘其中所隱含的關(guān)鍵信息的行為。數(shù)據(jù)挖掘重點涵蓋數(shù)據(jù)融合以及相應(yīng)的決策支持等一系列基本內(nèi)容。值得一提的是,數(shù)據(jù)源的數(shù)量必須足夠,并應(yīng)富含一定的噪聲,還得是絕大多數(shù)用戶均感興趣的各項數(shù)據(jù)。而成功挖掘的數(shù)據(jù)需要含有良好的實用性,并便于理解。知識實則起源于數(shù)據(jù),則主要包含是概念、模式以及約束等各項內(nèi)容。原始數(shù)據(jù)將能設(shè)定為結(jié)構(gòu)化數(shù)據(jù),例如:存在于某特定關(guān)系型數(shù)據(jù)庫當中的一系列數(shù)據(jù);與此同時,還能設(shè)定為也非結(jié)構(gòu)化數(shù)據(jù),例如:文本以及圖像等各項數(shù)據(jù)。除此之外,還能設(shè)定為半結(jié)構(gòu)化數(shù)據(jù),例如:網(wǎng)頁。不僅如此,挖掘知識過程中所應(yīng)用的方法,將能選擇為數(shù)學方法,但同時也能選擇為非數(shù)學方法;此外還能選定為演繹亦或為歸納的方法。而通過挖掘操作所獲得的知識需要含有一定的應(yīng)用價值,將能適用于查詢優(yōu)化以及過程控制等一系列環(huán)節(jié),還能維護多樣化數(shù)據(jù)。從本質(zhì)上而言,數(shù)據(jù)挖掘?qū)崉t屬于交叉學科,由于現(xiàn)今用戶提出的一系列需求與日俱增,故而全球?qū)W者紛紛將數(shù)據(jù)庫技術(shù)、數(shù)理統(tǒng)計以及并行計算等諸多領(lǐng)域涉及的專業(yè)知識融于其中,以求獲得相對良好的成效。在數(shù)據(jù)挖掘的過程中,需要首先成功采集自身所需的海量數(shù)據(jù),這些數(shù)據(jù)不僅需要數(shù)量足夠,而且應(yīng)該趨于多樣化,唯有如此,才可進行科學精準的判斷,并由此構(gòu)建相匹配的認知模型。據(jù)此而形成的經(jīng)驗若能經(jīng)過長期的積累,則將可有助于操作者進行科學的判斷。值得一提的是,認知模型表現(xiàn)出尤為顯著的漸進發(fā)展特征,一旦認識充分,則將衍生出一系列猜想,據(jù)此將可針對現(xiàn)有模型進行良好的擴展,以實現(xiàn)深度挖掘。2.2.2數(shù)據(jù)挖掘分類通常情況下,數(shù)據(jù)挖掘?qū)⒛芗毞譃閮纱箢悇e,其中包含直接數(shù)據(jù)挖掘,與此同時,還涵蓋間接數(shù)據(jù)挖掘。(1)直接數(shù)據(jù)挖掘前者主要借助當前數(shù)據(jù)構(gòu)建科學完善的特定模型,并據(jù)此針對某特定變量進行較為深入的細致描述以及預估等一系列操作。(2)間接數(shù)據(jù)挖掘后者主要基于全部變量構(gòu)建彼此間的深入關(guān)系模型,其中涉及到關(guān)聯(lián)規(guī)則、可視化等基本內(nèi)容。2.2.3數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)主要針對多樣化數(shù)據(jù)挖掘方法進行科學融合。事實上,現(xiàn)有的數(shù)據(jù)挖掘方法種類繁多。如果基于挖掘任務(wù)進行細分,則其將能細分為預測模型、分類回歸、序列模式、依賴模型以及相應(yīng)的離群點檢測等若干類別。如果基于挖掘?qū)ο筮M行細分,則其將能細分為關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)源、異質(zhì)數(shù)據(jù)庫及其相應(yīng)的環(huán)球網(wǎng)Web等基本類別。與此同時,如果基于挖掘方法進行細分,則其將能細分為機器學習以及相應(yīng)的神經(jīng)網(wǎng)絡(luò)方法等。如果基于機器學習法進行細分,則其將能細分為歸納學習及其相應(yīng)的遺傳算法等若干類別。除此之外,如果基于統(tǒng)計方法進行細分,則其將能細分為回歸分析、判別分析、聚類分析以及相應(yīng)的探索性分析等一系列方法。以神經(jīng)網(wǎng)絡(luò)法為例,其還能細分為自組織神經(jīng)網(wǎng)絡(luò)法等。而數(shù)據(jù)庫方法則重點涵蓋OLAP法等。事實上,數(shù)據(jù)挖掘還融于多樣化領(lǐng)域所涉及的各項算法,其中重點涵蓋:(1)統(tǒng)計學所涉及的抽樣算法以及檢驗算法等。(2)人工智能以及機器學習領(lǐng)域所涉及的搜索算法等。(3)進化計算、信號處理以及相應(yīng)的信息檢索算法等。不僅如此,其他諸多領(lǐng)域所含有的技術(shù)也尤為關(guān)鍵。例如:高性能計算技術(shù)以及優(yōu)良的分布式技術(shù),均可有助于數(shù)據(jù)庫系統(tǒng)針對多樣化數(shù)據(jù)進行科學有效的細致處理,這能實現(xiàn)融合處理。2.2.4數(shù)據(jù)挖掘的發(fā)展進步自20世紀末期,基于多樣化學科的前提下,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。近年來,由于數(shù)據(jù)庫所含技能的逐步提升,人工智能領(lǐng)域日益獲得相對穩(wěn)定的迅猛發(fā)展,并逐步實現(xiàn)機械化。在此背景下,人類將兩者彼此間良好銜接,借助數(shù)據(jù)庫管制系統(tǒng)的作用針對海量數(shù)據(jù)進行實時存儲,與此同時,借助計算機的作用針對海量數(shù)據(jù)進行科學合理的綜合分析,并致力于挖掘各項數(shù)據(jù)隱含的關(guān)鍵信息。正因如此,才衍生出常識發(fā)明學科。直至今日,KDD的傾向研究點已經(jīng)由此逐步過渡至應(yīng)用過程。自21世紀起,持續(xù)優(yōu)化的數(shù)據(jù)挖掘已經(jīng)逐步趨于成熟。而在當前時期,由于各種類型的信息技術(shù)日益獲得相對穩(wěn)定的蓬勃發(fā)展,故而挖掘技術(shù)所發(fā)揮出的作用愈加關(guān)鍵,并通常以法則、概念、法則和模式加以表示。置身于21世紀,數(shù)據(jù)挖掘已經(jīng)成為當前時期尤為典型的跨學科課題之一。隨著信息技能的進步,數(shù)據(jù)挖掘技能愈來愈成熟。自21世紀起,數(shù)據(jù)庫、統(tǒng)計學、模式識別、數(shù)據(jù)可視化及其相應(yīng)的空間數(shù)據(jù)分析等創(chuàng)新性技術(shù)日益興起,而數(shù)據(jù)挖掘恰恰涵蓋這些領(lǐng)域的理論知識,故而顯得至關(guān)重要。第三章數(shù)據(jù)挖掘方法研究3.1算法的概念數(shù)據(jù)挖掘算法的基本含義為:基于多樣化數(shù)據(jù)而成功創(chuàng)建的相匹配數(shù)據(jù)挖掘模型,以此進行較為深入的細致計算。當正式創(chuàng)建模型之前,需要首先針對亟待挖掘的數(shù)據(jù)進行科學合理的綜合分析,以確定查找類型。當獲得分析結(jié)果后,將可針對挖掘模型所涉及的最佳參數(shù)進行跟蹤確定。其次,將其融于某特定的數(shù)據(jù)集,將可獲得可行的各類模式等?;谕诰蚰P偷亩鄻踊?,將可跟蹤選擇相匹配的算法,其中涵蓋:(1)意味著數(shù)據(jù)集所含事例怎樣相互關(guān)聯(lián)的某特定分類。(2)可預測后期所得結(jié)果的決策樹。(3)預測數(shù)據(jù)的數(shù)學模型。伴隨著數(shù)據(jù)挖掘技術(shù)的誕生,產(chǎn)生了它獨特的理論和算法,在數(shù)據(jù)挖掘發(fā)展歷史中,無數(shù)的算法被推廣,為了更方便快捷的進行挖掘計算,所產(chǎn)生的算法也成了研究的重中之重。伴隨算法誕生以及其獨特的聯(lián)系關(guān)系法則。從本質(zhì)上而言,數(shù)據(jù)挖掘算法實則以多樣化數(shù)據(jù)為基礎(chǔ),以此來成功構(gòu)建相匹配的數(shù)據(jù)挖掘模型。但當正式創(chuàng)建模型之前,需要首先針對亟待挖掘的數(shù)據(jù)進行科學合理的綜合分析,以確定查找類型。3.2十大數(shù)據(jù)挖掘算法3.2.1C4.5(決策樹)對于各種類型的機器學習算法來說,尤為典型的即為C4.5算法,這項算法實則為決策樹算法,其中尤為關(guān)鍵的算法即為ID3算法,其不僅含有ID3算法所含的優(yōu)勢之處,而且還在下述基本方面,針對ID3算法進行針對性改進:1.首先,基于信息增益率選擇與之相對應(yīng)的屬性;2.其次,在樹構(gòu)造時剪枝;3.隨后,將可針對連續(xù)屬性進行必要的離散化處理;4.最后,將能針對不全面的數(shù)據(jù)進行科學有效的處理。對于C4.5算法而言,其所含有的基本優(yōu)勢詳細如下:由此而形成的分類規(guī)則將很容易進行理解,并可達到相對較高的精準率。然而,其依然存在某些不足之處,例如:在構(gòu)造樹時,必須針對某特定數(shù)據(jù)集進行頻繁掃描,故而算法無法將保持較為良好的高效性。分類器將可針對海量數(shù)據(jù)的所屬類別,進行恰當適宜的精準分類,而C4.5可將分類器通過決策樹的基本形式呈現(xiàn)出來。必要時收集組合以C4.5表示的內(nèi)容的分類數(shù)據(jù)。舉例說明,假設(shè)一個涵蓋大量信息的數(shù)據(jù)組合,比如年齡,愛好等。這些都被稱為數(shù)據(jù)屬性。現(xiàn)綜合上述基本特征,針對多樣化數(shù)據(jù)進行細致分類,C4.5根據(jù)數(shù)據(jù)屬性猜測類型構(gòu)建決策樹。3.2.2K-Means(k均值聚類)K-Meansalgorithm算法實為當前備受青睞的聚類算法,即K-Means算法,將n個對象基于彼此屬性將可細分為k個,并且k<n。此后,假定對象屬性均來源空間向量,并力求使得群組所含的均方誤差累加之和達到極小值。K-Means算法主要基于已知的某特定目標,成功創(chuàng)建若干個組,而這些組別所含的成分基本一致。對于聚類分析而言,類與組均代表一致。例如,若已知某相關(guān)步兵戰(zhàn)車的數(shù)據(jù)集。則當處于聚類分析的過程中,必須知道這些戰(zhàn)車所涉及的基本信息,如車輛尺寸、最大時速、油耗、最大速度和車輛全重等。這些信息即為匹配的特征向量。單個向量將可反應(yīng)出戰(zhàn)車的單列數(shù)據(jù)。也可看作為多維空間的對應(yīng)坐標。在此之中,車輛尺寸主要代表一維坐標,而油耗主要代表其余維度的所含坐標。確定這個戰(zhàn)車的向量集,K-Means算法可以把具有最大時速、最大速度和車輛全重等相似數(shù)據(jù)的戰(zhàn)車進行聚類。K-Means算法將能基于操作者自身所需的數(shù)據(jù)種類,對各種變量進行恰當?shù)纳钊胩幚恚钊氲亟鉀Q了這個問題。1.K-Means算法在多維空間中選取一些點來表示每個k類,它們叫做中心點。2.每輛戰(zhàn)車都能從中找到最近的中心點。每輛戰(zhàn)車最靠近的點不是相同的中心點,它們圍繞最近的中心點構(gòu)成一個類。3.現(xiàn)在有k個類,并且每輛戰(zhàn)車都是屬于同一個類。4.K-Means算法將可以類成員為基礎(chǔ),并基于戰(zhàn)車所涉及的信息向量,以此來獲得所有k聚類的中心位置。5此位置即為新的中心點。6因為中心點所處位置的差異性,故而戰(zhàn)車將會趨向于其他中心點。這意味著,戰(zhàn)車已經(jīng)針對自身所含的類成員身份進行跟蹤調(diào)整。循環(huán)2-6步驟,直至中心點已經(jīng)保持恒定,則此時類成員將基本穩(wěn)定。這也叫做收斂性。通常情況下,算法實則屬于非監(jiān)督學習的范疇。以K-Means算法為例,其將會自行學習怎樣進行聚類。K-Means算法之所以能夠廣泛運用是因為它的簡單性。這代表相較于其他各種算法而言,K-Means算法將能達到尤為迅猛的計算速度,并且極富有效性。特別在針對各類海量數(shù)據(jù)集進行科學有效的深入處理時,更能體現(xiàn)其優(yōu)點。不僅如此,K-Means算法還能完成下述優(yōu)化。首先,其可針對海量數(shù)據(jù)集進行較為深入的提前聚類處理;其次,還可針對某些成本較高的子類進行匹配的聚類分析。然而,K-Means算法依然存在某些不足之處,例如:其相對于異常值表現(xiàn)出尤為顯著的敏感特性,這種特性同樣存在于針對初始中心點進行恰當選擇的過程中。值得一提的是,K-Means算法旨在針對連續(xù)數(shù)據(jù)進行科學有效的處理。故而若作用對象為離散數(shù)據(jù),將有必要先通過其他方法進行妥善處理,才可運用K-Means算法。3.2.3SVM(支持向量機)支持向量機,英文簡稱SVM,其實則屬于監(jiān)督式學習的范疇,在統(tǒng)計分類以及相應(yīng)的回歸分析領(lǐng)域中,已經(jīng)獲得較為廣泛的實際應(yīng)用。事實上,支持向量機可將某特定向量徑直映射至對應(yīng)的高維空間,并據(jù)此成功構(gòu)建某特定的最大間隔超平面。與此同時,還會在其兩側(cè)均建立彼此平行的超平面,當對其進行分隔時,則將可使得兩者之間的實際距離達到極大值,若這項差距越大,則意味著分類器所能達到的總誤差將會越小。當支持向量機成功獲得某特定的超平面時,可將數(shù)據(jù)細分為兩大類別,并選擇高標準對其進行深入分析,此方法和C4.5算法的唯一差別,即并未應(yīng)用到?jīng)Q策樹,除此之外均完全一致。而超平面實為較為特殊的函數(shù)。基于實踐結(jié)果將可得知,SVM僅需借助某特定技巧即可將各項數(shù)據(jù)帶至高維度進行深入處理,此后還可將這些數(shù)據(jù)成功分離為兩大類別的超平面。例如:若桌上本來含有一些黑球以及白球,這些球的顏色并未充分混合,則在此情況下,無需對此盡數(shù)移動,僅需借助某根棍子即能將其成功分離。然而,若在桌面添加某特定的新球,則將必須基于棍子兩側(cè)的球體顏色,來辨別此球的實際顏色。而SVM算法即可針對此超平面計算得知相匹配的方程。如果情況比例子中還要復雜,兩種球充分混合在一起,那么一根棍子就不能簡單地把兩種球分開了。此時則應(yīng)借助其他方法對該問題進行有效解決。例如:將桌子向上大力掀起,使得所有的球均處于空中,此時再將某大型紙板基于空中劃分為兩大平面。值得一提的是,這并不違反規(guī)則,而將桌子向上大力掀起,則意味著將數(shù)據(jù)成功映射至對應(yīng)的高維空間。SVM算法主要基于核函數(shù)來實現(xiàn)高維空間的一系列操作。雖然大型紙板仍舊可看作為超平面,然而其所匹配的方程旨在描述某特定的平面,而非單獨的線。桌面上的任意球均處于自身獨有的位置,通過坐標即可對其進行直觀表示。例如:某特定球和左方邊緣相距20cm,而和底端相距50cm,此時即可通過坐標(20,50)對其進行表達。其中,20與50依次代表球所含的兩大維度。若已知全部戰(zhàn)車的基本信息,則可通過一系列向量對其加以描述,如車輛尺寸、最大時速、油耗、最大速度和車輛全重等,每個向量都代表一個維度。SVM通常會將相關(guān)數(shù)據(jù)徑直映射至對應(yīng)的高維空間,并由此獲得可進行細致分類的某特定超平面。在此過程中,往往會與類間間隔彼此間良好銜接,其中,類間間隔主要代表超平面與某些類中和其相距最小的數(shù)據(jù)點彼此間的實際距離。例如:和棍子相距最小的紅球,與藍球間彼此間的實際距離即為所謂的類間間隔。而SVM則致力于針對類間間隔進行科學合理的最大化處理,從而使得已經(jīng)分類后的超平面,盡可能和紅球以及藍球保持較遠的實際距離。此舉將能有效減少分類失誤現(xiàn)象的發(fā)生。需要注意的是,超平面和紅球的直線距離,與其到藍球的實際距離完全一致。故而這些球?qū)⒖煽醋鳛閿?shù)據(jù)點,這是由于,其均支持此特定的超平面,故而這些數(shù)據(jù)點也可被稱之為支持向量。從常理上來看,SVM應(yīng)當納入監(jiān)督式學習的范疇。這是由于,有必要借助某特定的數(shù)據(jù)集,使得SVM可針對若干數(shù)據(jù)類型進行深入學習。唯有如此,SVM才可針對新的數(shù)據(jù)進行較為合理的細致分類。實際上,SVM以及C4.5均屬于二類分類器,而對于SVM算法而言,其所含有的劣勢在于核函數(shù)存在一定的選擇性以及相應(yīng)的可解釋性。3.2.4Apriori關(guān)聯(lián)算法Apriori算法所秉持的核心思想即為兩階段頻集思想。而其遵循的關(guān)聯(lián)規(guī)則若從類別上進行考量,則將可細分為單維以及布爾等若干關(guān)聯(lián)規(guī)則。在本篇論文中,將全體支持度超過最小支持度的相關(guān)項集,統(tǒng)一看作為頻繁項集。對于Apriori算法而言,尤為突出的基本特征,即遵循學習數(shù)據(jù)的關(guān)聯(lián)規(guī)則,故而該算法適合蘊含大規(guī)模事務(wù)的數(shù)據(jù)庫。值得一提的是,學習關(guān)聯(lián)規(guī)則主要針對數(shù)據(jù)庫當中所含多樣化變量彼此間存在的內(nèi)在關(guān)系,進行較為深入的數(shù)據(jù)挖掘。例如:存在僅蘊含海量裝備維護數(shù)據(jù)的某特定數(shù)據(jù)庫,此時可將其看作為大型電子數(shù)據(jù)表,而表中的單行則代表某項裝備當前的維修保障情況,單列則代表閑置的裝備項。基于運行Apriori算法,即可獲得在同一時間維護的裝備項,此舉也可看作為關(guān)聯(lián)規(guī)則。它的優(yōu)點在于你能發(fā)現(xiàn)相比較其他裝備項來說有些裝備項維修保障次數(shù)更加頻繁,而頻繁維修的裝備項將可看作為項集。在下述內(nèi)容中,主要針對Apriori算法所表現(xiàn)出的工作方式,進行較為深入的細致研究,首先要明確以下三各方面:1.明確項集的大小,其類型是1-itemsets、2-itemsets還是3-itemsets。2.選擇可支持的一系列項集,而能夠有效滿足一定支持度的某些項集,則將可看作為頻繁項集。3.基于通過統(tǒng)計所得的項集中而含有的數(shù)據(jù)項,將可針對某特定數(shù)據(jù)項所含的條件概率等,進行科學精準的計算。例如:若在某特定項集中存在步戰(zhàn)車,則將存在67%的信心水準,此特定項集應(yīng)該會存在坦克。對于Apriori算法而言,其將可細分為下述基本步驟:1.參與。首先,針對數(shù)據(jù)庫進行全面系統(tǒng)的掃描,以獲得1-itemsets發(fā)生的頻率。2.剪枝。將有效滿足一定支持度的若干1-itemsets,徑直移動至下一流程,并找到2-itemsets。3.重復。針對處在同一水平的項集進行循環(huán)計算,直至滿足預先擬定的項集標準。與SVM算法不同,Apriori算法通常被看作為非監(jiān)督類型的學習方法,這是由于,其往往作用于針對特殊的關(guān)系進行深入挖掘。而若能對其進行持續(xù)完善,則將可針對已完成標記的各項數(shù)據(jù),進行科學合理的細致分類。此方法的優(yōu)勢之處在于很容易進行理解和使用,并存在一系列衍生算法;然而,其依然存在某些不足之處,例如:在生成項集的過程中,往往必須占據(jù)巨大的空間。3.2.5EM最大期望算法通常情況下,當處于統(tǒng)計計算過程中,最大期望算法(英文簡稱EM)主要基于概率模型,以獲得最大后驗估計算法。而在此之中,概率模型主要取決于不能進行觀測的相應(yīng)隱藏變量。值得一提的是,最大期望算法在當前已經(jīng)于機器學習等領(lǐng)域中,獲得較為廣泛的多方位應(yīng)用。當其作用于數(shù)據(jù)挖掘領(lǐng)域時,此方法通常又被人們稱之為聚類算法,并以此進行較為深入的知識挖掘。當處于統(tǒng)計學領(lǐng)域中,若針對不能看出隱藏變量的某特定統(tǒng)計模型所涉及的參數(shù),進行大致的估算時,EM算法將能通過持續(xù)迭代來獲得此參數(shù)所涉及的似然估計值。模型可以反映出觀測數(shù)據(jù)生成的規(guī)律。例如:在某隨機的射擊考核過程中,考生所得的考核成績或許呈現(xiàn)出正態(tài)分布曲線,此時可假定該曲線即為模型,而通過分布可以預測可測量結(jié)果。還是這個例子,正是因為考核成績完全遵從正態(tài)分布曲線,故而此曲線將可涵蓋考核分數(shù)的全部可能性。此外,模型所含的分布屬性需要通過各項參數(shù)進行描述?;谌舾煽蓽y定的結(jié)果,針對某特定參數(shù)進行相應(yīng)的估算,并據(jù)此獲得的實際結(jié)果概率,通常又可被稱之為似然性。此時概率主要代表確定結(jié)果的相應(yīng)假設(shè)概率。繼續(xù)使用上文的例子,若通過射擊考核所得的分數(shù)分布曲線,均值表現(xiàn)為85,方差表現(xiàn)為100。則針對該曲線進行描述的全體參數(shù),均為方差以及對應(yīng)的均值。若已經(jīng)掌握大量的分數(shù)數(shù)據(jù),并且這些數(shù)據(jù)均遵循此曲線,然而,卻并未獲得全部成績,僅獲得某特定的樣本。在此情況下,雖然無法獲得全部分數(shù)的實際方差亦或為均值,然而卻能基于樣本進行細致計算。通過EM算法進行聚類,需要首先針對一系列模型參數(shù)進行必要的猜測。然后會進行以下3步的循環(huán):1.首先,以模型參數(shù)為基礎(chǔ),針對全部數(shù)據(jù)點所含聚類的真實分配概率,進行較為精準的深入計算。2.其次,更新現(xiàn)有的模型參數(shù)。3.最后,循環(huán)上述基本流程,直至模型參數(shù)收斂。對于EM算法而言,其實則表現(xiàn)出顯著的非監(jiān)督特性。優(yōu)勢之處在于簡潔易懂,不僅能針對現(xiàn)有的模型參數(shù)進行持續(xù)完善,而且還可針對已經(jīng)丟失的數(shù)據(jù),進行循環(huán)猜測和深入分析。同樣,EM算法有以下兩個缺點:1.其在早期迭代過程中,表現(xiàn)出尤為迅猛的運行速度,然而后期卻逐步降低。2.其無法持續(xù)獲得最優(yōu)參數(shù),故而僅能得到局部最優(yōu)解。3.2.6PageRank算法對于Google算法而言,尤為關(guān)鍵的算法即為PageRank。2001年,全球著名學者拉里?佩奇成功研究出PageRank算法。對于此算法而言,其主要基于網(wǎng)站所含的內(nèi)部以及外部鏈接數(shù)量等,來評判該網(wǎng)站所含的實際價值。此外,鏈接流行度的基本概念為:針對愿意和某特定的網(wǎng)站彼此連接的其他網(wǎng)站的實際數(shù)量,進行較為精準的衡量。PageRank主要以某特定的網(wǎng)絡(luò)為基準,針對若干對象與其中所含其余對象彼此間的重要性,進行較為精準的衡量,該算法實則為當前尤為典型的連接分析算法,旨在針對多樣化對象彼此間存在的內(nèi)在關(guān)系進行深入挖掘。而存在于萬維網(wǎng)中的網(wǎng)頁則彼此鏈接,若已經(jīng)成功鏈接至CNN當中的某特定網(wǎng)頁,則CNN網(wǎng)頁將會提高1個投票,這意味著R與CNN網(wǎng)頁彼此關(guān)聯(lián)。當然,這項投票的關(guān)鍵性將決定于本身的重要性。可這樣認為,所有給投票的網(wǎng)頁也能提升網(wǎng)頁的關(guān)聯(lián)性。在下述內(nèi)容中,將重點闡述PageRank所涉及的若干創(chuàng)新應(yīng)用:1.學者DrStefanoAllesina曾經(jīng)將PageRank成功融于生態(tài)學領(lǐng)域當中,從而針對多樣化物種相對于生態(tài)系統(tǒng)而表現(xiàn)出的關(guān)鍵性,進行較為深入的細致研究。2.學者Twitter曾經(jīng)成功研發(fā)WTF算法,其將可向用戶推薦匹配的關(guān)注人。3.學者BinJiang曾經(jīng)借助于已優(yōu)化的PageRank,針對倫敦行人表現(xiàn)出的移動速率,進行較為精準的預測。PageRank算法實則為尤為典型的非監(jiān)督學習算法。若想針對圖表所含一系列元素的優(yōu)先性等進行深入分析,則將能運用此類算法。3.2.7AdaBoost迭代算法AdaBoost屬于迭代算法的范疇,其主要以某特定訓練集為基礎(chǔ),針對多樣化分類器進行必要的訓練,隨后,再將其彼此集合,以構(gòu)建出性能更為優(yōu)良的最終分類器。對于此算法而言,其主要基于訓練集所含全部樣本的分類精準性進行判定,并通過上次操作所得的精準性,針對全部樣本的實際權(quán)值進行及時確定。其次,將已經(jīng)完成修改的權(quán)值所屬的數(shù)據(jù)集,移送至下層分類器依次訓練,隨后,將經(jīng)由全部訓練所獲得的分類器進行良好銜接,以此構(gòu)建出性能更為優(yōu)良的決策分類器。因為弱分類器僅含有單層決策樹,故而尤其所獲得的結(jié)果,在精準性方面僅略微高于預測值。相比之下,強分類器將能表現(xiàn)出尤為顯著的精準率,其中SVM的代表性較高。若存在3個弱分類器,則需要基于蘊含海量裝備維護數(shù)據(jù)的某特定數(shù)據(jù)訓練集中,對其進行高達10輪的依次訓練。接下來對某件裝備是否需要進行維修進行預測:AdaBoost將會提取一系列訓練數(shù)據(jù),并依次針對所有分類器能夠達到的精準率,進行較為深入的細致測試,以此來找出最優(yōu)分類器。不僅如此,最優(yōu)分類器也需基于自身的精準率來賦予匹配的權(quán)重,并將其融于現(xiàn)有的聯(lián)合分類器當中。隨后,AdaBoost將會致力于找到最優(yōu)分類器。事實上,分類者僅能確保某些裝備在分類過程中的精準性,故而若能針對誤分類裝備進行科學有效的深入處理,必將可獲得較為良好的效果。當最佳分類器二次賦予匹配權(quán)重,并融于聯(lián)合分類器之中,則經(jīng)過誤分類的相關(guān)裝備也將含有自身的權(quán)重,從而更容易在后期選中,并循環(huán)利用。周而復始,最終僅會留存已結(jié)束相應(yīng)訓練的性能優(yōu)良的聯(lián)合學習分類器。從本質(zhì)上而言,AdaBoost實則屬于監(jiān)督學習方法。其不僅相對簡單,而且很容易進行編程,并能達到尤為迅猛的運行速度。算法含有較強的靈活性和通用性,當處于AdaBoost之中,將能融于多樣化學習算法,還可針對各種類型的數(shù)據(jù),進行科學有效的及時處理。相較于強學習器而言,弱分類器不僅相對簡單,而且可達到尤為迅猛的運行速度。這是由于,單輪不間斷的Adaboost回合將可持續(xù)更新最優(yōu)學習器的實際權(quán)重,故而分類者僅需確定運行過程的回合數(shù)即可。3.2.8K最近鄰分類算法K最近鄰分類算法(英文簡稱KNN),屬于當前尤為典型的一類機器學習算法。其所秉持的基本思路詳細如下:若某特定樣本基于指定特征空間所含的k個最相似的樣本中,表現(xiàn)出完全一致的類別,則此樣本也在其列。KNN算法屬于懶散學習算法的范疇,其在訓練時無需進行深入的細致處理。僅在輸入全新并且沒有進行分類的數(shù)據(jù)時,KNN算法才會對其進行必要的分類處理。相比之下,積極學習算法則將會在訓練過程中,構(gòu)建出科學完善的分類模型,一旦輸入全新并且沒有進行分類的數(shù)據(jù)時,則分類器會將其會轉(zhuǎn)移至此分類模型中進行深入處理。值得一提的是,C4.5以及SVM算法等均為積極學習算法。分析如下:1.C4.5在訓練中建立了一個決策分類樹模型。2.SVM在訓練中建立了一個超平面分類模型。3.AdaBoost在訓練中建立了一個聯(lián)合分類模型。然而,KNN算法卻并未構(gòu)建出此種分類模型,而是對已經(jīng)實現(xiàn)分類的一系列數(shù)據(jù)進行及時存儲。在此情況下,一旦輸入全新數(shù)據(jù),則KNN將會遵循下述兩項步驟:1.觀察最近的已分類的訓練數(shù)據(jù)點——k最臨近點(k-nearestneighbors)2.使用新數(shù)據(jù)最近鄰近點的分類。若作用對象為連續(xù)數(shù)據(jù),則KNN將會運用相匹配的距離測度,該測度的恰當選擇主要由數(shù)據(jù)類型所決定;而若作用對象為離散數(shù)據(jù),則一般會將其轉(zhuǎn)換成相對應(yīng)的連續(xù)數(shù)據(jù),下面列舉兩種方法:1.使用漢明距離(HammingDistance)作為兩個字符串緊密程度的測度。2把離散數(shù)據(jù)轉(zhuǎn)化為二進制表征。KNN算法的本質(zhì)為監(jiān)督學習算法,非常便于理解和實現(xiàn),若運用以距離測度為基礎(chǔ)而構(gòu)建的算法,則此類算法將表現(xiàn)出尤為良好的精確度。下面是需要注意的5點:1.當試圖在一個大數(shù)據(jù)集上計算最臨近點時,KNN算法可能會耗費高昂的計算成本。2噪聲數(shù)據(jù)(NoisyData)可能會影響到KNN的分類。3通常情況下,若選擇大規(guī)模的屬性篩選將能獲得顯著的的效果,這一點尤為關(guān)鍵。4由于數(shù)據(jù)處理會出現(xiàn)延遲,KNN相比積極分類器,一般需要更強大的存儲需求。5選擇一個合適的距離測度對KNN的準確性來說至關(guān)重要。3.2.9樸素貝葉斯算法在一系列分類模型中,尤為典型的分類模型主要分為兩種,其中包含決策樹模型,與此同時,還涵蓋樸素貝葉斯模型(英文簡稱NBC)。后者源自古典數(shù)學理論,表現(xiàn)出相對穩(wěn)定的分類效率。不僅如此,其所需的估計參數(shù)相對較少,算法也較為簡單?;诶碚摲矫鎭砜?,NBC模型的誤差率較低。然而實際卻不然,這是由于,NBC模型首先假定多樣化屬性彼此獨立,但這種理想狀態(tài)并存在。若出現(xiàn)屬性實際數(shù)量較多的情況下,則NBC模型所能達到的分類效率將遠遠不及。當屬性相關(guān)性不大的情況下,NBC模型將可達到尤為良好的性能?;谏鲜鰞?nèi)容將可得知,樸素貝葉斯實為針對分類算法而構(gòu)建的模型,多樣化屬性彼此間的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代辦公家具的環(huán)保理念與可持續(xù)發(fā)展
- 現(xiàn)代生活節(jié)奏下的胃腸疾病預防教育
- 生產(chǎn)制造中的綠色技術(shù)升級路徑與策略
- 基坑施工安全專項方案
- 現(xiàn)代服務(wù)業(yè)的發(fā)展趨勢及投資策略研究
- 生產(chǎn)安全監(jiān)督與危機管理一體化建設(shè)
- 生態(tài)農(nóng)業(yè)發(fā)展對商業(yè)模式的創(chuàng)新影響
- 現(xiàn)代農(nóng)業(yè)機械設(shè)備智能化國際對比研究
- 2024-2025學年高中生物 專題5 課題1 DNA的粗提取與鑒定說課稿 新人教版選修1
- 9 生活離不開他們 第一課時 說課稿-2023-2024學年道德與法治四年級下冊統(tǒng)編版001
- 2025年湖南高速鐵路職業(yè)技術(shù)學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 醫(yī)保政策與健康管理培訓計劃
- 策略與博弈杜塔中文版
- 售后服務(wù)經(jīng)理的競聘演講
- 新概念英語第2冊課文(完整版)
- 慢加急性肝衰竭護理查房課件
- 文件丟失應(yīng)急預案
- 全球職等系統(tǒng)GGS職位評估手冊
- 專項法律意見書(私募基金管理人重大事項變更)-詳細版
- 深圳市社會保險參保證明
- 2023年國家護理質(zhì)量數(shù)據(jù)平臺
評論
0/150
提交評論