大數(shù)據(jù)時(shí)代下的數(shù)據(jù)學(xué)習(xí)技術(shù)_第1頁
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)學(xué)習(xí)技術(shù)_第2頁
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)學(xué)習(xí)技術(shù)_第3頁
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)學(xué)習(xí)技術(shù)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)學(xué)習(xí)技術(shù) 當(dāng)今社會(huì), 數(shù)據(jù)量正在以爆炸方式迅猛增長(zhǎng), 數(shù)據(jù)表示形式 千變?nèi)f化,標(biāo)志著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。云計(jì)算、三網(wǎng)融 合、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的出現(xiàn), 更加催生了大數(shù)據(jù)時(shí)代的產(chǎn)生。 在大數(shù)據(jù)時(shí)代下,其所需存儲(chǔ)、處理的數(shù)據(jù)量驚人,為大數(shù)據(jù)的 分析和應(yīng)用帶來很多挑戰(zhàn)。 若想充分發(fā)揮大數(shù)據(jù)所賦予的機(jī)遇和 優(yōu)勢(shì), 必須采取有效的數(shù)據(jù)學(xué)習(xí)與處理方法, 從高質(zhì)量的大規(guī)模 數(shù)據(jù)中提取隱含的、有用的信息,才能做出更加精準(zhǔn)、更加符合 市場(chǎng)和客戶需求的決策。 本文就當(dāng)前大數(shù)據(jù)分析技術(shù)面臨的挑戰(zhàn) 和機(jī)遇, 介紹大數(shù)據(jù)學(xué)習(xí)系統(tǒng)的關(guān)鍵技術(shù), 最后對(duì)大數(shù)據(jù)分析技 術(shù)的未來發(fā)展進(jìn)行討論。 1 大數(shù)

2、據(jù)帶來的機(jī)遇和挑戰(zhàn) 大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后 IT 產(chǎn)業(yè)又一次顛覆性的技 術(shù)革命。 大數(shù)據(jù)挖掘和應(yīng)用可創(chuàng)造出超萬億美元的價(jià)值, 使人們 可以利用以前不能有效利用的多種數(shù)據(jù)潛在信息, 抓住被忽略的 機(jī)遇。隨著數(shù)據(jù)存儲(chǔ)技術(shù)的成熟, 大數(shù)據(jù)的重心將從存儲(chǔ)和傳輸, 過渡到如何選擇高效的數(shù)據(jù)學(xué)習(xí)形式對(duì)數(shù)據(jù)進(jìn)行處理和利用, 這 需要根據(jù)大數(shù)據(jù)特點(diǎn)對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革。此 外,大數(shù)據(jù)的海量數(shù)據(jù), 通常采用云端存儲(chǔ), 數(shù)據(jù)管理比較分散, 如何保證大數(shù)據(jù)的安全以及學(xué)習(xí)結(jié)果的可靠性對(duì)大數(shù)據(jù)學(xué)習(xí)技 術(shù)提出了更高的要求。 2 大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù) 伴隨著需要處理的數(shù)據(jù)量多且增長(zhǎng)速度迅速的特點(diǎn), 對(duì)數(shù)據(jù)

3、學(xué)習(xí)的實(shí)時(shí)性、 有效性提出了更高要求。 大數(shù)據(jù)學(xué)習(xí)核心即為挖 掘,從技術(shù)角度看, 就是從大量的、 復(fù)雜的、不規(guī)則的、 隨機(jī)的、 模糊的數(shù)據(jù)中獲取隱含的、 人們事先未發(fā)覺的、 有潛在價(jià)值的信 息和知識(shí)的過程。 有關(guān)智能計(jì)算中的大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù)常見的 有神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘和回歸分析等。 (1)神經(jīng)網(wǎng)絡(luò)。受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)作的啟發(fā),模擬 動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征, 進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模 型。應(yīng)用實(shí)例包括識(shí)別高價(jià)值客戶離開特定公司的風(fēng)險(xiǎn), 以及識(shí) 別欺詐性的保險(xiǎn)理賠行為等。 (2)數(shù)據(jù)挖掘。結(jié)合統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)、使用數(shù)據(jù)庫管 理技術(shù)從大型數(shù)據(jù)集中提取有用信息和知識(shí)的技術(shù)。 根據(jù)其它屬

4、 性的值預(yù)測(cè)特定 (目標(biāo))屬性的值, 如回歸、分類、異常檢測(cè)等, 或?qū)ふ腋爬〝?shù)據(jù)中潛在聯(lián)系的模式,如關(guān)聯(lián)分析、演化分析、聚 類分析、序列模式挖掘等。 (3)回歸分析。確定當(dāng)一個(gè)或多個(gè)獨(dú)立變量值被修改時(shí)相 關(guān)變量如何變化的統(tǒng)計(jì)方法。 通常用于預(yù)測(cè)或預(yù)報(bào)。 應(yīng)用實(shí)例如 基于不同的市場(chǎng)和經(jīng)濟(jì)變量, 或通過確定何種制造業(yè)參數(shù)對(duì)客戶 滿意度影響最大來預(yù)測(cè)銷售量等。 (4)分類分析。在訓(xùn)練集包含的數(shù)據(jù)點(diǎn)已經(jīng)被歸類的基礎(chǔ) 上,確定新的數(shù)據(jù)點(diǎn)所屬類別的方法。 典型應(yīng)用是在明確假設(shè)或 客觀結(jié)果前提下,預(yù)測(cè)部分特定客戶行為(例如,購買決策、流 失率、消費(fèi)率等)。因?yàn)槭褂糜?xùn)練集,屬于監(jiān)督學(xué)習(xí),是無監(jiān)督 學(xué)習(xí)類型聚類

5、分析的反面。 (5)聚類分析。一種多元化群體的分類統(tǒng)計(jì)方法。在事先 不知道的前提下, 將一個(gè)集合分成較小的對(duì)象組, 組內(nèi)對(duì)象具有 相似特點(diǎn)。聚類分析的典型例子是將消費(fèi)者分割成具有自相似性 的群體做針對(duì)性營銷。 因?yàn)椴皇褂糜?xùn)練數(shù)據(jù), 屬于無監(jiān)督學(xué)習(xí)類 型,是監(jiān)督學(xué)習(xí)類型分類分析的反面。 ( 6)關(guān)聯(lián)規(guī)則學(xué)習(xí)。 在大數(shù)據(jù)集變量中發(fā)現(xiàn)感興趣關(guān)系 (即 “關(guān)聯(lián)規(guī)則”)的方法,包括多種生成和測(cè)試可能規(guī)則的算法。 典型應(yīng)用是市場(chǎng)購物籃分析, 其中零售商可以決定哪些產(chǎn)品經(jīng)常 一起購買和如何使用這種營銷信息。 (7)數(shù)據(jù)融合與集成。集成和分析來自多個(gè)源的數(shù)據(jù)的方 法。典型應(yīng)用如, 使用來自互聯(lián)網(wǎng)的傳感器數(shù)據(jù)綜

6、合分析如煉油 廠這樣的復(fù)雜分布式系統(tǒng)的性能。 使用社會(huì)媒體數(shù)據(jù), 經(jīng)過自然 語言處理分析, 并結(jié)合實(shí)時(shí)銷售數(shù)據(jù), 確定營銷活動(dòng)如何影響顧 客的情緒和購買行為等。 (8)機(jī)器學(xué)習(xí)。研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行 為,獲取新的知識(shí)或技能, 重新組織已有的知識(shí)結(jié)構(gòu)并不斷改善 自身的性能, 是人工智能的核心, 是使計(jì)算機(jī)具有智能的根本途 徑。自然語言處理是機(jī)器學(xué)習(xí)的一個(gè)例子。 3 大數(shù)據(jù)分析未來趨勢(shì) 當(dāng)前的數(shù)據(jù)分析技術(shù)的研究可以分為 6 個(gè)重要方向: 結(jié)構(gòu)化 數(shù)據(jù)分析、文本數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析、網(wǎng) 絡(luò)數(shù)據(jù)分析和移動(dòng)數(shù)據(jù)分析。 在今后大數(shù)據(jù)技術(shù)面臨的主要發(fā)展 趨勢(shì):大數(shù)據(jù)與人工智能的融合; 跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)分析應(yīng) 用;數(shù)據(jù)科學(xué)帶動(dòng)多學(xué)科融合。今后,深度學(xué)習(xí)成為大數(shù)據(jù)智能 分析的核心技術(shù), 利用大數(shù)據(jù)學(xué)習(xí)技術(shù)構(gòu)建大規(guī)模、 有序化開放 式的知識(shí)體系成為大數(shù)據(jù)處理的關(guān)鍵。 大數(shù)據(jù)與云計(jì)算、 移動(dòng)互 聯(lián)網(wǎng)等的綜合應(yīng)用, 大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)快速發(fā) 展都將成為未來趨勢(shì)。 4 總結(jié) 保證大數(shù)據(jù)的質(zhì)量, 如何建模、 提取并利用隱藏在大數(shù)據(jù)中 的信息成為擺在業(yè)界和學(xué)術(shù)界面前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論