大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究_第1頁
大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究_第2頁
大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究_第3頁
大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究_第4頁
大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究摘要:大數(shù)據(jù)背景下對數(shù)據(jù)的智能分析技術(shù)提出了新的挑戰(zhàn),本文對傳統(tǒng)的智能數(shù)據(jù)分析技術(shù)做了比較,分析其各自的優(yōu)缺點。同時對新的大數(shù)據(jù)分析方案Hadoop進(jìn)行了梳理,提出了未來大數(shù)據(jù)智能分析技術(shù)的發(fā)展方向的展望。關(guān)鍵詞:大數(shù)據(jù)數(shù)據(jù)智能分析Hadoop大數(shù)據(jù)時代業(yè)已到來,當(dāng)今世界正處在一個數(shù)據(jù)爆炸的時代。伴隨著多媒體、云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,以及天文觀測、空間地理、金融分析等各領(lǐng)域每天都在產(chǎn)生巨量的數(shù)據(jù),這些數(shù)據(jù)如此龐大,其規(guī)模、其涌現(xiàn)速度和其處理難點超出目前常規(guī)技術(shù)能管理、處理和分析的能力[1]。一般來說,大數(shù)據(jù)具有量大(Volume)、流動性大(Velocity),種類多(Variety),分布式(distributed)、非一致(nonuniformity)等特性,這些特點決定了在大數(shù)據(jù)時代,我們傳統(tǒng)的數(shù)據(jù)處理技術(shù)必須有革命性的變化,包括數(shù)據(jù)的存儲與組織方式、計算方法、數(shù)據(jù)分析,而對大數(shù)據(jù)的智能分析技術(shù)將尤為重要。1幾種傳統(tǒng)智能數(shù)據(jù)分析方法的比較大數(shù)據(jù)智能分析需要有新的理論和技術(shù)的突破,但它與傳統(tǒng)的智能數(shù)據(jù)分析方法必定還有延續(xù)。傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,如知識庫系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等已經(jīng)積累了很多優(yōu)秀的理論和技術(shù),下面對其中的一些典型理論和技術(shù)的梳理。1.1決策樹決策樹(DecisionTree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法,它是建立在信息論基礎(chǔ)之上對數(shù)據(jù)進(jìn)行分類的一種方法。首先通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹,然后采用建好的決策樹對數(shù)據(jù)進(jìn)行預(yù)測。決策樹的建立過程是數(shù)據(jù)規(guī)則的生成過程,因此,這種方法實現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果容易理解,精確度較好,效率較高,缺點是難于處理關(guān)系復(fù)雜的數(shù)據(jù)。常用的方法有分類及回歸樹法、雙方自動交互探測法等。其中分類樹主要用于數(shù)據(jù)記錄的標(biāo)記和歸類,回歸樹主要用于估計目標(biāo)變量的數(shù)值[2]。1.2關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有價值的關(guān)聯(lián)或相關(guān)聯(lián)系,就是要建立形如X→Y的蘊(yùn)涵式,其中X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent)和后繼(consequent)。關(guān)聯(lián)規(guī)則一般應(yīng)用在事物數(shù)據(jù)庫中,其中每個事物都由一個記錄集合組成。這種事物數(shù)據(jù)庫通常都包括極為龐大的數(shù)據(jù),因此,當(dāng)前的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技巧正努力根據(jù)基于一定考慮的記錄支持度來削減搜索空間。關(guān)聯(lián)規(guī)則的常見算法有Apriori算法、基于劃分的算法、FP-樹頻集算法等。1.3粗糙集(RoughSets)粗糙集智能數(shù)據(jù)分析是粗糙集理論中的主要應(yīng)用技術(shù)之一,是一種基于規(guī)則的數(shù)據(jù)分析的方法。其思想主要來自統(tǒng)計學(xué)和機(jī)器學(xué)習(xí),但并不是這兩種工具隨意的應(yīng)用,它以粗糙集理論為基礎(chǔ),以數(shù)據(jù)表所表示的信息系統(tǒng)為載體,通過分析給定數(shù)據(jù)集的性質(zhì)、粗糙分類、決策規(guī)則的確定性以及覆蓋度因子等過程,從中獲取隱含的、潛在有用的知識。用粗糙集理論進(jìn)行數(shù)據(jù)分析主要有以下優(yōu)勢:它無需提供對知識或數(shù)據(jù)的主觀評價,僅根據(jù)觀測數(shù)據(jù)就能達(dá)到刪除冗余信息;非常適合并行計算、提供結(jié)果的直接解釋。1.4模糊數(shù)學(xué)分析用模糊(Fuzzysets)數(shù)學(xué)理論來進(jìn)行智能數(shù)據(jù)分析?,F(xiàn)實世界中客觀事物之間通常具有某種不確定性。越復(fù)雜的系統(tǒng)其精確性越低,也就意味著模糊性越強(qiáng)。在數(shù)據(jù)分析過程中,利用模糊集方法對實際問題進(jìn)行模糊評判、模糊決策、模糊預(yù)測、模糊模式識別和模糊聚類分析,這樣能夠取得更好更客觀的效果。模糊分析方法不足主要表現(xiàn)在:用戶驅(qū)動,用戶參與過多;處理變量單一,不能處理定性變量和復(fù)雜數(shù)據(jù),如非線性數(shù)據(jù)和多媒體數(shù)據(jù);發(fā)現(xiàn)的事實或規(guī)則是以查詢?yōu)橹饕康?對預(yù)測和決策影響不大,而且過分依賴主觀的經(jīng)驗。1.5人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。該模型由大量的節(jié)點(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activationfunction)。每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。典型的神經(jīng)網(wǎng)絡(luò)模型主要分三大類,即前饋式神經(jīng)網(wǎng)絡(luò)模型,反饋式神經(jīng)網(wǎng)絡(luò)模型,自組織映射方法模型。人工神經(jīng)網(wǎng)絡(luò)具有非線性、非局限性、非常定性、非凸性等特點,它的優(yōu)點有三個方面:第一,具有自學(xué)習(xí)功能。第二,具有聯(lián)想存儲功能。第三,具有高速尋找優(yōu)化解的能力。1.6混沌和分形理論混沌(Chaos)和分形(Fractal)理論是非線性科學(xué)中的兩個重要概念,研究非線性系統(tǒng)內(nèi)部的確定性與隨機(jī)性之間的關(guān)系。混沌描述的是非線性動力系統(tǒng)具有的一種不穩(wěn)定且軌跡局限于有限區(qū)域但永不重復(fù)的運動,分形解釋的是那些表面看上去雜亂無章、變幻莫測而實質(zhì)上潛在有某種內(nèi)在規(guī)律性的對象,因此,二者可以用來解釋自然界以及社會科學(xué)中存在的許多普遍現(xiàn)象。其理論方法可以作為智能認(rèn)知研究、圖形圖像處理、自動控制以及經(jīng)濟(jì)管理等諸多領(lǐng)域應(yīng)用的基礎(chǔ)。1.7自然計算分析方法自然計算是指受自然界中生物體的啟發(fā),模擬或仿真實現(xiàn)發(fā)生在自然界中、易作為計算過程解釋的動態(tài)過程[4]。針對不同生物層面的模擬與仿真,有群體智能算法、免疫算法、DNA算法等。群體智能(SwarmIntelligence,SI)是一種模仿自然界動物昆蟲覓食筑巢行為的新興演化計算技術(shù),研究的是由若干簡單個體組成的分散系統(tǒng)的集體行為,每個個體與其他個體以及環(huán)境都有相互作用。目前主要的SI算法有粒子群優(yōu)化算法(ParticleSwarmOptimization,PSO),蟻群算法(AntColonyOptimization,ACO),文化算法(CultureAlgorithm),人工魚群算法(ArtificialFishSwarmOptimization,AFSO)以及覓食算法(ForagingAlgorithm),其中PSO和ACO受到了人們廣泛的關(guān)注。人工免疫系統(tǒng)(ArtificialImmuneSystem,AIS)是從脊椎動物免疫系統(tǒng)中獲取靈感構(gòu)建的計算系統(tǒng)。人工免疫(亦稱計算機(jī)免疫)學(xué)借鑒生物免疫的思想,以典型的多樣性、適應(yīng)性、自治性、動態(tài)覆蓋性、動態(tài)平衡性等特性,求解某些特定復(fù)雜問題具有較好的效果。經(jīng)典免疫算法有反向選擇、克隆選擇、免疫網(wǎng)絡(luò)、危險理論等。遺傳算法(GeneticAlgorithm)是一類借鑒生物界的進(jìn)化規(guī)律(適者生存,優(yōu)勝劣汰遺傳機(jī)制)演化而來的隨機(jī)化搜索方法。它是由美國的J.Holland教授1975年首先提出,其主要特點是直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。遺傳算法的這些性質(zhì),已被人們廣泛地應(yīng)用于組合優(yōu)化、機(jī)器學(xué)習(xí)、信號處理、自適應(yīng)控制和人工生命等領(lǐng)域。2大數(shù)據(jù)下數(shù)據(jù)智能分析技術(shù)大數(shù)據(jù)由于其獨特的特性決定了對其進(jìn)行智能分析的技術(shù)必須有新的發(fā)展的進(jìn)步,才能勝任在如此龐大的數(shù)據(jù)中進(jìn)行智能分析。有學(xué)者指出大數(shù)據(jù)的智能分析技術(shù)有望成為人工智能的解決之道,目前有很多企業(yè)和科研人員提出了很多新的智能分析技術(shù)方案。如惠普推出基于HAVEn大數(shù)據(jù)分析平臺、Teradata天睿公司推出的TeradataAster大數(shù)據(jù)探索平臺(TeradataAsterDiscoveryPlatform)以及IBM公司和Intel公司都推出了他們各自的大數(shù)據(jù)分析方案。這些方案都涉及Hadoop這個大數(shù)據(jù)分析平臺。Hadoop是Appach基金會支持的一個開源系統(tǒng),包括兩部分,一是分布文件系統(tǒng)、二是分布計算系統(tǒng)。前者稱為HDFS(HadoopDistributedFileSystem),后者稱為MapReduce。HDFS是一個分布文件管理系統(tǒng),呈主/從(Master/Slaver)結(jié)構(gòu),一個主節(jié)點稱為名字節(jié)點(Namenode),其余的計算機(jī)是從節(jié)點,稱為數(shù)據(jù)節(jié)點(Datanode)。主節(jié)點管理元數(shù)據(jù),從節(jié)點存放和管理應(yīng)用數(shù)據(jù)。一個HDFS系統(tǒng)可以支持巨大的分布文件系統(tǒng),如上萬個計算節(jié)點、一億個文件、10PB數(shù)量級的數(shù)據(jù),等等。因而它對大數(shù)據(jù)的支持是強(qiáng)大的。為了進(jìn)一步支持大數(shù)據(jù),在HDFS上構(gòu)建了一個NoSQL數(shù)據(jù)庫系統(tǒng),稱為Hbase。HBase是一個列存儲的數(shù)據(jù)庫系統(tǒng),其接口語言是Pig。除此以外,Hadoop在HBase上還提供了一個數(shù)據(jù)倉庫/數(shù)據(jù)挖掘軟件Hivi。面向機(jī)器學(xué)習(xí),還提供了一個機(jī)器學(xué)習(xí)軟件包Mahout,從而滿足大數(shù)據(jù)管理和分析的要求,如圖1所示。另一方面,大數(shù)據(jù)分析相比傳統(tǒng)的數(shù)據(jù)分析,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點,因而需要有新的大數(shù)據(jù)分析方法和理論的出現(xiàn)。一方面人們發(fā)現(xiàn)現(xiàn)有的單一智能數(shù)據(jù)分析方法已經(jīng)不能全面、高效地勝任數(shù)據(jù)分析的工作,由此一種趨勢是交叉融合多種智能數(shù)據(jù)分析技術(shù)的方法和技術(shù)應(yīng)運而生。如模糊數(shù)學(xué)和其他理論融合形成了模糊人工神經(jīng)網(wǎng)絡(luò)、模糊遺傳算法、模糊進(jìn)化算法、模糊計算學(xué)習(xí)理論;演化計算和其他理論融合滲透形成了模糊演化算法、演化人工神經(jīng)網(wǎng)絡(luò)等。另一方面大數(shù)據(jù)的智能分析技術(shù)的發(fā)展還有賴于新型的數(shù)據(jù)存儲和組織技術(shù)以及新的高效率的計算方法的支持。數(shù)據(jù)存儲和組織技術(shù)應(yīng)該采用的更好的分布式的數(shù)據(jù)存儲策略,并盡量提高數(shù)據(jù)的吞吐效率、降低故障率。如谷歌公司的GFS和Hadoop項目的HDFS是兩個最知名的分布式文件系統(tǒng),他們都采用比較新穎的策略。高效率的計算方法有分布式運算、數(shù)據(jù)流技術(shù)、新硬件技術(shù)等[3]。3結(jié)論總之,以上介紹的各種數(shù)據(jù)智能分析技術(shù)方法各有其特點和優(yōu)勢、潛力與局限。如人工神經(jīng)網(wǎng)絡(luò)善長于直接從數(shù)據(jù)中進(jìn)行學(xué)習(xí),但其推理能力不如模糊系統(tǒng);演化計算很適合于求解全局最優(yōu)問題,它也具有學(xué)習(xí)能力,但其學(xué)習(xí)的精度不如神經(jīng)網(wǎng)絡(luò),推理能力不如模糊系統(tǒng);而模糊系統(tǒng)的學(xué)習(xí)能力也明顯不如其它方法。要得到一種通用的智能分析技術(shù)方法是非常困難的事情。因此,將多種方法進(jìn)行融合,發(fā)揮各自的優(yōu)勢而彌補(bǔ)彼此的缺點是一個重要的研究方向。同時數(shù)據(jù)庫平臺將也會是傳統(tǒng)和新型平臺的結(jié)合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論