云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析_第1頁(yè)
云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析_第2頁(yè)
云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析_第3頁(yè)
云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Word參考資料,下載后可編輯云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析 摘要:隨著移動(dòng)互聯(lián)網(wǎng)、移動(dòng)智能終端技術(shù)的快速開(kāi)展,各種業(yè)務(wù)數(shù)據(jù)有了井噴式的增加,尤其是物聯(lián)網(wǎng)的快速開(kāi)展,產(chǎn)生了海量的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)。隨著數(shù)據(jù)量的增大和數(shù)據(jù)類(lèi)型的豐富,產(chǎn)生了大數(shù)據(jù)挖掘和云計(jì)算技術(shù),本文從大數(shù)據(jù)挖掘步驟為切入點(diǎn),分析了大數(shù)據(jù)挖掘存在的問(wèn)題以及利用云計(jì)算技術(shù)解決問(wèn)題的過(guò)程。 關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)挖掘 1引言 隨著互聯(lián)網(wǎng)技術(shù)的飛速開(kāi)展以及各行業(yè)信息化的深入,業(yè)務(wù)數(shù)據(jù)從數(shù)量上還有類(lèi)型上都發(fā)生了井噴式增長(zhǎng),特別是近幾年物聯(lián)網(wǎng)技術(shù)的普及,大量時(shí)序數(shù)據(jù)的產(chǎn)生標(biāo)識(shí)著人類(lèi)已經(jīng)邁進(jìn)了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)不僅是數(shù)據(jù)量大,數(shù)據(jù)類(lèi)型也極大的豐富。

2、有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也有文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)帶來(lái)的潛在價(jià)值隨著大數(shù)據(jù)挖掘技術(shù)的開(kāi)展?jié)u漸凸顯出來(lái)。同時(shí),基于云計(jì)算自身具備的計(jì)算存儲(chǔ)資源松耦合集成和彈性資源分配等特點(diǎn),能夠在很大程度上支撐建立大數(shù)據(jù)挖掘體系所需的算力和存儲(chǔ)資源需求,降低運(yùn)行本錢(qián),安全可靠。 2大數(shù)據(jù)挖掘技術(shù)介紹 隨著信息系統(tǒng)數(shù)字化和智能化的不斷推進(jìn),數(shù)據(jù)規(guī)模也將呈指數(shù)級(jí)趨勢(shì)增長(zhǎng)。大數(shù)據(jù)挖掘?qū)⒊蔀橥苿?dòng)整個(gè)產(chǎn)業(yè)數(shù)字化升級(jí)的重要抓手和舉措。大數(shù)據(jù)顧名思義是指數(shù)量極大的數(shù)據(jù)匯集而成,大數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),電商交易數(shù)據(jù),物聯(lián)網(wǎng)技術(shù)產(chǎn)生的時(shí)序數(shù)據(jù),工業(yè)制造數(shù)據(jù)等等。這些數(shù)據(jù)中包含了極大的潛在價(jià)值有待開(kāi)發(fā),大數(shù)據(jù)

3、挖掘技術(shù)指的是從海量數(shù)據(jù)中利用適合的模型挖掘出有用的信息反應(yīng)給原來(lái)的系統(tǒng),帶來(lái)更多的業(yè)務(wù)價(jià)值。大數(shù)據(jù)挖掘分成六個(gè)步驟:(1)定義問(wèn)題:在進(jìn)行數(shù)據(jù)挖掘之前,首先需要定義本次挖掘需要解決的問(wèn)題是什么,也就是說(shuō)要給本次數(shù)據(jù)挖掘定義明確的目標(biāo)。依據(jù)大數(shù)據(jù)定義的問(wèn)題選擇適合的模型,模型是否適合關(guān)系著本次挖掘是否成功。(2)建立大數(shù)據(jù)挖掘庫(kù):大數(shù)據(jù)挖掘的根本就是用存在的歷史數(shù)據(jù)訓(xùn)練選擇的模型,調(diào)整模型中可以改變的參數(shù)到達(dá)本次挖掘最好的效果,所以建立大數(shù)據(jù)挖掘庫(kù)至關(guān)重要。建立大數(shù)據(jù)挖掘庫(kù)首先要收集數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行描述,通過(guò)ETL技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化和加載。保證數(shù)據(jù)庫(kù)中的數(shù)據(jù)是有效數(shù)據(jù)。(3)分析數(shù)據(jù):對(duì)

4、預(yù)備好的數(shù)據(jù)進(jìn)行分析,由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,用人工分析幾乎不可能。一般借助R語(yǔ)言或者Scala語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)覺(jué)數(shù)據(jù)中對(duì)挖掘預(yù)測(cè)有影響的字段,為接下來(lái)的工作做好預(yù)備。(4)預(yù)備數(shù)據(jù):通過(guò)數(shù)據(jù)分析后,可以鎖定對(duì)挖掘預(yù)測(cè)結(jié)果有明顯影響的字段,選擇這些數(shù)據(jù)并進(jìn)行記錄,假如有進(jìn)一步的需要,可以對(duì)這些數(shù)據(jù)進(jìn)行函數(shù)轉(zhuǎn)化后創(chuàng)造新的變量,并對(duì)這些新的變量進(jìn)行記錄,為后續(xù)的數(shù)據(jù)挖掘工作夯實(shí)數(shù)據(jù)根底。(5)建立并訓(xùn)練模型:依據(jù)過(guò)程開(kāi)始定義的問(wèn)題建立挖掘模型,建立挖掘模型是一個(gè)迭代的過(guò)程,首先考察不同的模型以推斷是否對(duì)定義的問(wèn)題有用。先用一局部預(yù)備的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,調(diào)整模型中的變量,然后在選擇另一局

5、部數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,如有需要,可以再選取一個(gè)數(shù)據(jù)集,對(duì)建立的模型進(jìn)行驗(yàn)證。(6)評(píng)價(jià)模型并進(jìn)行實(shí)施:訓(xùn)練好的模型要在實(shí)際的應(yīng)用中進(jìn)行推廣,這對(duì)模型是一次考驗(yàn)。訓(xùn)練模型中會(huì)存在某些假如的條件,假如這些條件與實(shí)現(xiàn)的應(yīng)用中條件一致,模型的評(píng)價(jià)度將會(huì)更高。評(píng)價(jià)模型首先要在小規(guī)榜樣圍內(nèi)進(jìn)行實(shí)施然后分析預(yù)測(cè)的結(jié)果是否與實(shí)際情況相符。假如模型的評(píng)價(jià)度較高,則可以在大范圍內(nèi)進(jìn)行推廣。模型的實(shí)施一般有兩種使用方法,一種是給數(shù)據(jù)分析人員或者是業(yè)務(wù)系統(tǒng)作為工具,依據(jù)實(shí)際的數(shù)據(jù)對(duì)業(yè)務(wù)趨勢(shì)進(jìn)行預(yù)測(cè);二是把評(píng)價(jià)過(guò)的模型應(yīng)用到不同的數(shù)據(jù)集合上。隨著近幾年互聯(lián)網(wǎng)的高速開(kāi)展,業(yè)務(wù)數(shù)據(jù)量的急速增長(zhǎng),業(yè)務(wù)場(chǎng)景也變得越來(lái)越復(fù)雜,大

6、數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)的計(jì)算對(duì)計(jì)算機(jī)的要求變得越來(lái)越高,大數(shù)據(jù)挖掘需要的根底資源的本錢(qián)也隨之迅速上升。 3云計(jì)算助力大數(shù)據(jù)挖掘 云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘提供低本錢(qián)的算力和存儲(chǔ)環(huán)境。云計(jì)算主要是通過(guò)虛擬化技術(shù)將CPU計(jì)算資源、硬件存儲(chǔ)和網(wǎng)絡(luò)資源虛擬成多個(gè)環(huán)境,依據(jù)計(jì)算和存儲(chǔ)資源的需求情況進(jìn)行動(dòng)態(tài)彈性管理,從而最大限度提升物理資源的復(fù)用價(jià)值,有效降低大數(shù)據(jù)挖掘的運(yùn)行本錢(qián)。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘建立一個(gè)高可用的算力及存儲(chǔ)運(yùn)行環(huán)境。為此利用云計(jì)算技術(shù)能夠完成大數(shù)據(jù)挖掘所需要的規(guī)模級(jí)數(shù)據(jù)存儲(chǔ)和計(jì)算功能。同時(shí),云計(jì)算提供了一個(gè)高度安全可靠的運(yùn)行環(huán)境,通??梢詫?shí)現(xiàn)99.9%的高可用計(jì)算性能,能夠?yàn)榇髷?shù)據(jù)挖掘提供實(shí)時(shí)計(jì)算和安全保障,最大限度防止因電路故障或其它故障導(dǎo)致大數(shù)據(jù)挖掘服務(wù)停止運(yùn)行等問(wèn)題。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘建立一個(gè)高擴(kuò)展的算力及存儲(chǔ)運(yùn)行環(huán)境?;谠朴?jì)算自身的高度開(kāi)放集成和擴(kuò)展性等特點(diǎn),能夠隨著大數(shù)據(jù)挖掘規(guī)模的變化來(lái)動(dòng)態(tài)增減算力和存儲(chǔ)資源,從而使得整個(gè)應(yīng)用集成系統(tǒng)建立具有較高靈活性,從而有效降低算力資源和存儲(chǔ)資源的白費(fèi),極大提升大數(shù)據(jù)挖掘系統(tǒng)的經(jīng)濟(jì)和環(huán)境效益。 4結(jié)束語(yǔ) 云計(jì)算技術(shù)的落地為大數(shù)據(jù)的存

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論