下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Word參考資料,下載后可編輯云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析 摘要:隨著移動(dòng)互聯(lián)網(wǎng)、移動(dòng)智能終端技術(shù)的快速開(kāi)展,各種業(yè)務(wù)數(shù)據(jù)有了井噴式的增加,尤其是物聯(lián)網(wǎng)的快速開(kāi)展,產(chǎn)生了海量的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)。隨著數(shù)據(jù)量的增大和數(shù)據(jù)類(lèi)型的豐富,產(chǎn)生了大數(shù)據(jù)挖掘和云計(jì)算技術(shù),本文從大數(shù)據(jù)挖掘步驟為切入點(diǎn),分析了大數(shù)據(jù)挖掘存在的問(wèn)題以及利用云計(jì)算技術(shù)解決問(wèn)題的過(guò)程。 關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)挖掘 1引言 隨著互聯(lián)網(wǎng)技術(shù)的飛速開(kāi)展以及各行業(yè)信息化的深入,業(yè)務(wù)數(shù)據(jù)從數(shù)量上還有類(lèi)型上都發(fā)生了井噴式增長(zhǎng),特別是近幾年物聯(lián)網(wǎng)技術(shù)的普及,大量時(shí)序數(shù)據(jù)的產(chǎn)生標(biāo)識(shí)著人類(lèi)已經(jīng)邁進(jìn)了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)不僅是數(shù)據(jù)量大,數(shù)據(jù)類(lèi)型也極大的豐富。
2、有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也有文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)帶來(lái)的潛在價(jià)值隨著大數(shù)據(jù)挖掘技術(shù)的開(kāi)展?jié)u漸凸顯出來(lái)。同時(shí),基于云計(jì)算自身具備的計(jì)算存儲(chǔ)資源松耦合集成和彈性資源分配等特點(diǎn),能夠在很大程度上支撐建立大數(shù)據(jù)挖掘體系所需的算力和存儲(chǔ)資源需求,降低運(yùn)行本錢(qián),安全可靠。 2大數(shù)據(jù)挖掘技術(shù)介紹 隨著信息系統(tǒng)數(shù)字化和智能化的不斷推進(jìn),數(shù)據(jù)規(guī)模也將呈指數(shù)級(jí)趨勢(shì)增長(zhǎng)。大數(shù)據(jù)挖掘?qū)⒊蔀橥苿?dòng)整個(gè)產(chǎn)業(yè)數(shù)字化升級(jí)的重要抓手和舉措。大數(shù)據(jù)顧名思義是指數(shù)量極大的數(shù)據(jù)匯集而成,大數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),電商交易數(shù)據(jù),物聯(lián)網(wǎng)技術(shù)產(chǎn)生的時(shí)序數(shù)據(jù),工業(yè)制造數(shù)據(jù)等等。這些數(shù)據(jù)中包含了極大的潛在價(jià)值有待開(kāi)發(fā),大數(shù)據(jù)
3、挖掘技術(shù)指的是從海量數(shù)據(jù)中利用適合的模型挖掘出有用的信息反應(yīng)給原來(lái)的系統(tǒng),帶來(lái)更多的業(yè)務(wù)價(jià)值。大數(shù)據(jù)挖掘分成六個(gè)步驟:(1)定義問(wèn)題:在進(jìn)行數(shù)據(jù)挖掘之前,首先需要定義本次挖掘需要解決的問(wèn)題是什么,也就是說(shuō)要給本次數(shù)據(jù)挖掘定義明確的目標(biāo)。依據(jù)大數(shù)據(jù)定義的問(wèn)題選擇適合的模型,模型是否適合關(guān)系著本次挖掘是否成功。(2)建立大數(shù)據(jù)挖掘庫(kù):大數(shù)據(jù)挖掘的根本就是用存在的歷史數(shù)據(jù)訓(xùn)練選擇的模型,調(diào)整模型中可以改變的參數(shù)到達(dá)本次挖掘最好的效果,所以建立大數(shù)據(jù)挖掘庫(kù)至關(guān)重要。建立大數(shù)據(jù)挖掘庫(kù)首先要收集數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行描述,通過(guò)ETL技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化和加載。保證數(shù)據(jù)庫(kù)中的數(shù)據(jù)是有效數(shù)據(jù)。(3)分析數(shù)據(jù):對(duì)
4、預(yù)備好的數(shù)據(jù)進(jìn)行分析,由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,用人工分析幾乎不可能。一般借助R語(yǔ)言或者Scala語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)覺(jué)數(shù)據(jù)中對(duì)挖掘預(yù)測(cè)有影響的字段,為接下來(lái)的工作做好預(yù)備。(4)預(yù)備數(shù)據(jù):通過(guò)數(shù)據(jù)分析后,可以鎖定對(duì)挖掘預(yù)測(cè)結(jié)果有明顯影響的字段,選擇這些數(shù)據(jù)并進(jìn)行記錄,假如有進(jìn)一步的需要,可以對(duì)這些數(shù)據(jù)進(jìn)行函數(shù)轉(zhuǎn)化后創(chuàng)造新的變量,并對(duì)這些新的變量進(jìn)行記錄,為后續(xù)的數(shù)據(jù)挖掘工作夯實(shí)數(shù)據(jù)根底。(5)建立并訓(xùn)練模型:依據(jù)過(guò)程開(kāi)始定義的問(wèn)題建立挖掘模型,建立挖掘模型是一個(gè)迭代的過(guò)程,首先考察不同的模型以推斷是否對(duì)定義的問(wèn)題有用。先用一局部預(yù)備的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,調(diào)整模型中的變量,然后在選擇另一局
5、部數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,如有需要,可以再選取一個(gè)數(shù)據(jù)集,對(duì)建立的模型進(jìn)行驗(yàn)證。(6)評(píng)價(jià)模型并進(jìn)行實(shí)施:訓(xùn)練好的模型要在實(shí)際的應(yīng)用中進(jìn)行推廣,這對(duì)模型是一次考驗(yàn)。訓(xùn)練模型中會(huì)存在某些假如的條件,假如這些條件與實(shí)現(xiàn)的應(yīng)用中條件一致,模型的評(píng)價(jià)度將會(huì)更高。評(píng)價(jià)模型首先要在小規(guī)榜樣圍內(nèi)進(jìn)行實(shí)施然后分析預(yù)測(cè)的結(jié)果是否與實(shí)際情況相符。假如模型的評(píng)價(jià)度較高,則可以在大范圍內(nèi)進(jìn)行推廣。模型的實(shí)施一般有兩種使用方法,一種是給數(shù)據(jù)分析人員或者是業(yè)務(wù)系統(tǒng)作為工具,依據(jù)實(shí)際的數(shù)據(jù)對(duì)業(yè)務(wù)趨勢(shì)進(jìn)行預(yù)測(cè);二是把評(píng)價(jià)過(guò)的模型應(yīng)用到不同的數(shù)據(jù)集合上。隨著近幾年互聯(lián)網(wǎng)的高速開(kāi)展,業(yè)務(wù)數(shù)據(jù)量的急速增長(zhǎng),業(yè)務(wù)場(chǎng)景也變得越來(lái)越復(fù)雜,大
6、數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)的計(jì)算對(duì)計(jì)算機(jī)的要求變得越來(lái)越高,大數(shù)據(jù)挖掘需要的根底資源的本錢(qián)也隨之迅速上升。 3云計(jì)算助力大數(shù)據(jù)挖掘 云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘提供低本錢(qián)的算力和存儲(chǔ)環(huán)境。云計(jì)算主要是通過(guò)虛擬化技術(shù)將CPU計(jì)算資源、硬件存儲(chǔ)和網(wǎng)絡(luò)資源虛擬成多個(gè)環(huán)境,依據(jù)計(jì)算和存儲(chǔ)資源的需求情況進(jìn)行動(dòng)態(tài)彈性管理,從而最大限度提升物理資源的復(fù)用價(jià)值,有效降低大數(shù)據(jù)挖掘的運(yùn)行本錢(qián)。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘建立一個(gè)高可用的算力及存儲(chǔ)運(yùn)行環(huán)境。為此利用云計(jì)算技術(shù)能夠完成大數(shù)據(jù)挖掘所需要的規(guī)模級(jí)數(shù)據(jù)存儲(chǔ)和計(jì)算功能。同時(shí),云計(jì)算提供了一個(gè)高度安全可靠的運(yùn)行環(huán)境,通??梢詫?shí)現(xiàn)99.9%的高可用計(jì)算性能,能夠?yàn)榇髷?shù)據(jù)挖掘提供實(shí)時(shí)計(jì)算和安全保障,最大限度防止因電路故障或其它故障導(dǎo)致大數(shù)據(jù)挖掘服務(wù)停止運(yùn)行等問(wèn)題。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘建立一個(gè)高擴(kuò)展的算力及存儲(chǔ)運(yùn)行環(huán)境?;谠朴?jì)算自身的高度開(kāi)放集成和擴(kuò)展性等特點(diǎn),能夠隨著大數(shù)據(jù)挖掘規(guī)模的變化來(lái)動(dòng)態(tài)增減算力和存儲(chǔ)資源,從而使得整個(gè)應(yīng)用集成系統(tǒng)建立具有較高靈活性,從而有效降低算力資源和存儲(chǔ)資源的白費(fèi),極大提升大數(shù)據(jù)挖掘系統(tǒng)的經(jīng)濟(jì)和環(huán)境效益。 4結(jié)束語(yǔ) 云計(jì)算技術(shù)的落地為大數(shù)據(jù)的存
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021年超市促銷(xiāo)方案5篇范文模板
- 石河子大學(xué)《食品物性學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《結(jié)構(gòu)力學(xué)二》2023-2024學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《簡(jiǎn)明新疆地方史教程》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《風(fēng)景畫(huà)表現(xiàn)》2021-2022學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《自動(dòng)武器原理與構(gòu)造》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《交互設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2018年四川內(nèi)江中考滿分作文《我心中的英雄》12
- 沈陽(yáng)理工大學(xué)《電力電子技術(shù)》2023-2024學(xué)年期末試卷
- 廣州 存量房交易合同 范例
- 2023年珠海城市職業(yè)技術(shù)學(xué)院?jiǎn)握忻嬖嚹M試題及答案解析
- 《陽(yáng)光心理健康人生》心理健康主題班會(huì)PPT
- 初三家長(zhǎng)會(huì)數(shù)學(xué)課件
- CSBMK-2022年中國(guó)軟件行業(yè)基準(zhǔn)數(shù)據(jù)
- (完整)全國(guó)事業(yè)單位招聘考試題題庫(kù)及答案(通用版)
- 三年級(jí)上冊(cè)數(shù)學(xué)課件-8.1 分?jǐn)?shù)的初步認(rèn)識(shí) ︳西師大版
- GB/T 25071-2010珠寶玉石及貴金屬產(chǎn)品分類(lèi)與代碼
- GB/T 15441-1995水質(zhì)急性毒性的測(cè)定發(fā)光細(xì)菌法
- GB/T 15249.2-2009合質(zhì)金化學(xué)分析方法第2部分:銀量的測(cè)定火試金重量法和EDTA滴定法
- GA 1800.4-2021電力系統(tǒng)治安反恐防范要求第4部分:風(fēng)力發(fā)電企業(yè)
- 識(shí)別危險(xiǎn)源-遠(yuǎn)離危險(xiǎn)-公開(kāi)課課件
評(píng)論
0/150
提交評(píng)論