下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)研究摘要:云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)的快速發(fā)展, 使得數(shù)據(jù)量以極快的速度增長(zhǎng),大數(shù)據(jù)成為研究熱點(diǎn)。 大數(shù)據(jù)的價(jià)值產(chǎn)生于分析過程,所以大數(shù)據(jù)挖掘與分 析是整個(gè)大數(shù)據(jù)處理流程的核心。本文介紹了大數(shù)據(jù) 數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、處理速 度快的4V特征、以及基于這些特征的大數(shù)據(jù)挖掘與分 析需要解決的關(guān)鍵技術(shù)。關(guān)鍵詞:大數(shù)據(jù)大數(shù)據(jù)分析大數(shù)據(jù)挖掘可視分 析中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào): 1007-9416 (2015) 11-0000-00隨著云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展, 各種移動(dòng)設(shè)備、傳感網(wǎng)絡(luò)、電商、社交網(wǎng)絡(luò)時(shí)時(shí)刻刻 都在生成各種各樣類型的
2、數(shù)據(jù),大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。 大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多樣、數(shù)據(jù)的質(zhì)量 低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大 量數(shù)據(jù)中獲取有價(jià)值的容,更準(zhǔn)確、更深層次的知識(shí), 而不是對(duì)數(shù)據(jù)簡(jiǎn)單的統(tǒng)計(jì)和分析。1大數(shù)據(jù)的定義與特征貞腳大數(shù)據(jù)已經(jīng)進(jìn)入了我們每個(gè)人的生活,各行各業(yè) 都在討論如何發(fā)展和運(yùn)用大數(shù)據(jù),那么什么是大數(shù)據(jù), 大數(shù)據(jù)的特征是什么?大數(shù)據(jù)是指所涉及的數(shù)據(jù)規(guī)模巨大到無(wú)法通過目 前主流的軟件工具在合理時(shí)間擷取、管理、處理、挖 掘這些數(shù)據(jù),并整理成為企業(yè)經(jīng)營(yíng)決策有用的信息。IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn) 可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別 躍升到PB級(jí)別;
3、第二,多樣性(Variety),即數(shù)據(jù)類 型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包含來(lái)自互 聯(lián)網(wǎng)的大量視頻、圖片、位置和日志等;第三,速度 (Velocity),即處理速度快;第四,價(jià)值性 (Veracity),即追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)具有4V 特征,給人們帶來(lái)了新的機(jī)遇與挑戰(zhàn)。2大數(shù)據(jù)挖掘與分析的意義在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因?yàn)?大數(shù)據(jù)的價(jià)值全部在數(shù)據(jù)分析過程中產(chǎn)生?;ヂ?lián)網(wǎng)、 硬件等技術(shù)迅猛發(fā)展,加深了人們對(duì)數(shù)據(jù)分析的需求。 如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢的重點(diǎn)在于如何提高數(shù) 據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價(jià)值。 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析是數(shù)據(jù)價(jià)值發(fā)現(xiàn)的最重要環(huán) 節(jié),也是
4、決策的決定性元素。貞腳傳統(tǒng)的數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),且已經(jīng)形 成一整套非常有效果的分析體系。但是在大數(shù)據(jù)時(shí)代, 半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的快速增長(zhǎng),給傳統(tǒng)的分 析技術(shù)帶來(lái)了巨大的挑戰(zhàn)和沖擊。大數(shù)據(jù)分析于傳統(tǒng) 數(shù)據(jù)分析有哪些區(qū)別呢?3大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù) 采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)實(shí) 時(shí)處理、大數(shù)據(jù)可視化和應(yīng)用等。3. 1大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支 撐層。智能感知層重點(diǎn)攻克針對(duì)大數(shù)據(jù)源的智能識(shí) 別、感知、適配、傳輸、接入等技術(shù)?;A(chǔ)支撐層重 點(diǎn)攻克提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器、數(shù)據(jù) 庫(kù)及物聯(lián)
5、網(wǎng)絡(luò)資源等處理技術(shù)。3.2大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期對(duì)大數(shù)據(jù)進(jìn) 行的一些提前處理。預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、 數(shù)據(jù)變換和數(shù)據(jù)歸約等幾種方法(表1)。大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大,但并沒有增加數(shù)據(jù)價(jià) 值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲(chǔ)器里 就沒再用過。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任貞腳 意碎片化。在應(yīng)對(duì)處理大數(shù)據(jù)的技術(shù)挑戰(zhàn)中,大數(shù)據(jù) 的降噪與清洗技術(shù)值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫(kù)中發(fā) 現(xiàn)時(shí)序知識(shí)、關(guān)聯(lián)知識(shí)和分類知識(shí)等。在大數(shù)據(jù)時(shí)代, 數(shù)據(jù)庫(kù)已經(jīng)不能滿足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類 型繁多,我們進(jìn)入了一個(gè)非結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。因 此,非結(jié)構(gòu)化數(shù)據(jù)模
6、型是大數(shù)據(jù)預(yù)處理的重要研究方 向。表1:傳統(tǒng)數(shù)據(jù)分析與大數(shù)據(jù)分析比較傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析對(duì)已知的數(shù)據(jù)圍中好理解的數(shù)據(jù)進(jìn)行分析。不能保證輸入的數(shù)據(jù)是完整、清洗過或沒有錯(cuò)誤。建立在關(guān)系數(shù)據(jù)模型之上,分析在關(guān)系已經(jīng)被創(chuàng) 立的基礎(chǔ)上進(jìn)行。需要考慮以RFID、圖片、視頻等形式存在的非結(jié) 構(gòu)化數(shù)據(jù)。定向的批數(shù)據(jù)處理對(duì)數(shù)據(jù)的實(shí)時(shí)處理。通過昂貴的硬件來(lái)實(shí)現(xiàn)。通過通用的硬件和新一代的分析軟件來(lái)實(shí)現(xiàn)。3. 3大數(shù)據(jù)管理貞腳大數(shù)據(jù)不斷地從復(fù)雜的應(yīng)用系統(tǒng)中產(chǎn)生,并且將 會(huì)以更多、更復(fù)雜、更多樣化的方式持續(xù)增長(zhǎng)。多樣 化的物聯(lián)網(wǎng)傳感設(shè)備不斷地感知著海量的具有不同格 式的數(shù)據(jù)。物聯(lián)網(wǎng)系統(tǒng)數(shù)據(jù)的復(fù)雜化和格式多樣化, 決定
7、了物聯(lián)網(wǎng)系統(tǒng)中針對(duì)大數(shù)據(jù)的應(yīng)用場(chǎng)景和服務(wù)類 型的多樣化,從而要求物聯(lián)網(wǎng)大數(shù)據(jù)管理系統(tǒng)必須釆 用特定技術(shù)來(lái)處理各種格式的大數(shù)據(jù),而現(xiàn)在針對(duì)特 定數(shù)據(jù)類型和業(yè)務(wù)的系統(tǒng)已經(jīng)無(wú)法滿足多樣化需求, 因此,設(shè)計(jì)新的具有可擴(kuò)展性的系統(tǒng)架構(gòu)已經(jīng)成為大 數(shù)據(jù)管理的研究熱點(diǎn)。3. 4大數(shù)據(jù)實(shí)時(shí)處理根據(jù)大數(shù)據(jù)速度快的特點(diǎn),時(shí)間越長(zhǎng),數(shù)據(jù)的價(jià) 值也在不斷衰減,因此很多領(lǐng)域需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí) 處理。大數(shù)據(jù)時(shí)代,伴隨著各種應(yīng)用場(chǎng)景的數(shù)據(jù)分析 從離線轉(zhuǎn)向了在線,實(shí)時(shí)處理的需求不斷提高。大數(shù) 據(jù)的實(shí)時(shí)處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù) 處理模式和算法的選擇及改進(jìn)。3. 5大數(shù)據(jù)可視分析大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)挖掘的
8、同時(shí), 融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,利用人機(jī)交 互技術(shù)和可視化界面,獲得大規(guī)模復(fù)雜數(shù)據(jù)集的分析 能力。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化是必須盡快解決貞腳 的關(guān)鍵問題,為大數(shù)據(jù)服務(wù)的研究指明了方向。4結(jié)語(yǔ)傳統(tǒng)數(shù)據(jù)處理方法已經(jīng)不能滿足大數(shù)據(jù)挖掘與分 析的需求。近年來(lái),大數(shù)據(jù)挖掘與分析領(lǐng)域已經(jīng)出現(xiàn) 了很多新技術(shù),并成為大數(shù)據(jù)釆集、存儲(chǔ)、處理和呈 現(xiàn)的堅(jiān)實(shí)基礎(chǔ)。但是對(duì)大數(shù)據(jù)分析的價(jià)值尚缺少深入 的理解,大數(shù)據(jù)分析中的很多重要技術(shù)還不成熟,還 有很多其他關(guān)鍵技術(shù)難題需要去繼續(xù)研究。參考文獻(xiàn)1 晶大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究D郵電 大學(xué)博士學(xué)位論文,2013.2 程學(xué)旗,靳小龍,王元卓等大數(shù)據(jù)系統(tǒng)和分 析技術(shù)綜述J軟件學(xué)報(bào),2014, 25(09): 1889-1908.3 任磊,杜一,馬帥等大數(shù)據(jù)可視分析綜述J. 軟件學(xué)報(bào),2014, 25 (09): 1909-1936.4 McKinsey Global Instituteo Big data
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人貸款協(xié)議樣本(2024年度版)版
- 2025年度電商客服外包服務(wù)滿意度調(diào)查合同4篇
- 二零二五年度充值卡充值業(yè)務(wù)合作伙伴協(xié)議4篇
- 2025年度船舶船員聘用及船舶動(dòng)力系統(tǒng)維護(hù)合同4篇
- 二零二五年度工業(yè)地產(chǎn)承包招商合作協(xié)議書3篇
- 2023年-2024年新員工入職前安全教育培訓(xùn)試題附完整答案(奪冠)
- 二零二五年度電力設(shè)備安裝工程師勞動(dòng)合同范本3篇
- 二零二五年度畜牧機(jī)械租賃及售后服務(wù)合同4篇
- 2025年度個(gè)人貸款合同擔(dān)保服務(wù)流程優(yōu)化4篇
- 2020-2025年中國(guó)旅游船行業(yè)市場(chǎng)運(yùn)營(yíng)現(xiàn)狀及投資規(guī)劃研究建議報(bào)告
- 中國(guó)高血壓防治指南(2024年修訂版)要點(diǎn)解讀
- 2024-2030年中國(guó)光電干擾一體設(shè)備行業(yè)發(fā)展現(xiàn)狀與前景預(yù)測(cè)分析研究報(bào)告
- 湖南省岳陽(yáng)市岳陽(yáng)樓區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期期末數(shù)學(xué)試題(解析版)
- 農(nóng)村自建房安全合同協(xié)議書
- 杜仲葉藥理作用及臨床應(yīng)用研究進(jìn)展
- 4S店售后服務(wù)6S管理新規(guī)制度
- 高性能建筑鋼材的研發(fā)與應(yīng)用
- 無(wú)線廣播行業(yè)現(xiàn)狀分析
- 漢語(yǔ)言溝通發(fā)展量表(長(zhǎng)表)-詞匯及手勢(shì)(8-16月齡)
- 高速公路相關(guān)知識(shí)講座
- 兒科關(guān)于抗生素使用的PDCA
評(píng)論
0/150
提交評(píng)論