大數(shù)據(jù)技術(shù)特點(diǎn)-文檔資料_第1頁
大數(shù)據(jù)技術(shù)特點(diǎn)-文檔資料_第2頁
大數(shù)據(jù)技術(shù)特點(diǎn)-文檔資料_第3頁
大數(shù)據(jù)技術(shù)特點(diǎn)-文檔資料_第4頁
大數(shù)據(jù)技術(shù)特點(diǎn)-文檔資料_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效2Value 價(jià)值挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價(jià)值密度低價(jià)值密度低,是大數(shù)據(jù)的一個(gè)典型特征是

2、大數(shù)據(jù)的一個(gè)典型特征.3Variety 多樣性企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來源. 能夠在不同的數(shù)據(jù)類型中能夠在不同的數(shù)據(jù)類型中,進(jìn)行交叉分析的技術(shù)進(jìn)行交叉分析的技術(shù),是大數(shù)據(jù)的核心技術(shù)之一是大數(shù)據(jù)的核心技術(shù)之一.語義分析技術(shù),圖文轉(zhuǎn)換技術(shù),模式識(shí)別技術(shù),地理信息技術(shù)等,都會(huì)在大數(shù)據(jù)分析時(shí)獲得應(yīng)用.4Velocity 速度1s 是臨界點(diǎn).對(duì)于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時(shí)和無效的.實(shí)時(shí)處理的要求實(shí)時(shí)處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù),BI技術(shù)的

3、關(guān)鍵差別技術(shù)的關(guān)鍵差別之一之一.5Volume 數(shù)據(jù)量PB是大數(shù)據(jù)層次的臨界點(diǎn)是大數(shù)據(jù)層次的臨界點(diǎn). KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB6Hadoop:大數(shù)據(jù)分析的利器:大數(shù)據(jù)分析的利器 Apache Hadoop 是一個(gè)用java語言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。 設(shè)計(jì)理念:可靠、高效、擴(kuò)展 可靠可靠:假設(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。 高效高效:因?yàn)樗圆⑿械姆绞焦ぷ?,通過并行處理加快處 理速度。 擴(kuò)展擴(kuò)展:容易擴(kuò)展,能夠處理

4、 PB 級(jí)數(shù)據(jù)。nHadoopHadoop的核心子項(xiàng)目,提供了一個(gè)分布式文件系統(tǒng)(HDFS)和支持MapReduce的分布式計(jì)算。nHBase建立在Hadoop內(nèi)核之上,提供可靠的,可擴(kuò)展的分布式數(shù)據(jù)庫(kù)。 nZooKeeper一 個(gè) 分 布 式 的 、 高 可 用 的 協(xié) 調(diào) 服 務(wù) 。Zookeeper提供分布式鎖之類的基本服務(wù)用于構(gòu)建分布式應(yīng)用。nHive分布式數(shù)據(jù)倉(cāng)庫(kù)。Hive管理HDFS中存儲(chǔ)的數(shù)據(jù),并提供基于SQL的查詢語言用以查詢數(shù)據(jù)。Hadoop核心核心7大數(shù)據(jù)涉及的關(guān)鍵技術(shù)需求需求技術(shù)描述技術(shù)描述關(guān)鍵技術(shù)關(guān)鍵技術(shù)海量數(shù)據(jù)分布式處理海量數(shù)據(jù)分布式處理Hadoop 生態(tài)系統(tǒng)生態(tài)系統(tǒng)

5、針對(duì)大量數(shù)據(jù)進(jìn)行分布式處理的系統(tǒng)框架實(shí)時(shí)數(shù)據(jù)處理實(shí)時(shí)數(shù)據(jù)處理Streaming Data流計(jì)算引擎非結(jié)構(gòu)化數(shù)據(jù)處理非結(jié)構(gòu)化數(shù)據(jù)處理文本處理技術(shù);自然文本處理技術(shù);自然語言理解;語言理解; 多媒體處多媒體處理技術(shù)理技術(shù)文本內(nèi)容分詞與分析;圖像、音視頻分析可視化交互界面可視化交互界面通過交互式可視化界面輔助用戶進(jìn)行分析交互式可視化探交互式可視化探索分析技術(shù)索分析技術(shù)智能數(shù)據(jù)分析智能數(shù)據(jù)分析大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)技術(shù)技術(shù)計(jì)算機(jī)模擬人類學(xué)習(xí)行為,包括特征提取、圖形生成等保護(hù)隱私數(shù)據(jù)與信息個(gè)體的對(duì)應(yīng)關(guān)系等安全技術(shù)高效存儲(chǔ)和管理大規(guī)高效存儲(chǔ)和管理大規(guī)模數(shù)據(jù)模數(shù)據(jù)數(shù)據(jù)存儲(chǔ)備份技術(shù)、數(shù)據(jù)存儲(chǔ)備份技術(shù)、數(shù)

6、據(jù)放置和調(diào)度技術(shù)、數(shù)據(jù)放置和調(diào)度技術(shù)、數(shù)據(jù)溯源數(shù)據(jù)溯源存儲(chǔ)、放置、調(diào)度大規(guī)模的數(shù)據(jù)數(shù)據(jù)隱私保護(hù)數(shù)據(jù)隱私保護(hù)數(shù)據(jù)隱私防范保數(shù)據(jù)隱私防范保護(hù)措施與數(shù)據(jù)安護(hù)措施與數(shù)據(jù)安全技術(shù)全技術(shù)大數(shù)據(jù)采集處理大數(shù)據(jù)分析存儲(chǔ)、組織、管理8從各種媒體表示的信息中,根據(jù)不同的需求獲得知識(shí)。知識(shí)發(fā)現(xiàn)過程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。也有的說法是,知識(shí)發(fā)現(xiàn)是數(shù)據(jù)挖掘的別名。知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的描述有很多,個(gè)人傾向于這個(gè)版本:一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。機(jī)器學(xué)習(xí)(Machine

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論