版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第8章
大數(shù)據(jù)和云計算技術簡介8.1大數(shù)據(jù)的概念8.2云計算的基本概念8.3大數(shù)據(jù)和云計算融合的必然趨勢小結
大數(shù)據(jù)(BigData),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策的資訊。大數(shù)據(jù)需要特殊的技術來有效地處理大量的規(guī)定時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
8.1大數(shù)據(jù)的概念
大數(shù)據(jù)是所涉及的資料量規(guī)模巨大,無法在規(guī)定時間內(nèi)通過常規(guī)軟件工具對其內(nèi)容進行擷取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)需要滿足“4V”特征,即數(shù)據(jù)量大(Volume)、數(shù)據(jù)的種類多(Variety)、數(shù)據(jù)的增長及處理速度快(Velocity)、數(shù)據(jù)蘊藏價值大(Value),而能滿足這4個根本特征的才能稱為大數(shù)據(jù)。
數(shù)據(jù)量大(Volume)指的是數(shù)據(jù)的采集、存儲和計算的量都非常大,大數(shù)據(jù)通常指10TB以上規(guī)模的數(shù)據(jù)量。造成數(shù)據(jù)量增大的原因很多,例如,監(jiān)控和傳感設備的使用,使我們感知到更多的事務,這些事務的數(shù)據(jù)將被部分或者完全存儲;(移動)通信設備的使用,使得交流的數(shù)據(jù)量成倍增長;基于互聯(lián)網(wǎng)和社會化網(wǎng)絡的應用的發(fā)展,數(shù)以億計的用戶每天都會產(chǎn)生大量的數(shù)據(jù)。
數(shù)據(jù)種類多(Variety)是指數(shù)據(jù)的種類和來源較多,例如多種傳感器、智能設備、社交網(wǎng)絡等,包括結構化、半結構化和非結構化,以及圖片、音頻、視頻、地理位置等多類型的數(shù)據(jù),實際上就是具有多個時段(歷史的、現(xiàn)在的)、多種媒體、多個來源、異構(結構化、半結構化、非結構化)的數(shù)據(jù)。
數(shù)據(jù)的增長及處理速度快(Velocity)是指數(shù)據(jù)每分每秒都在爆炸性地增長,而對數(shù)據(jù)的處理速度要求也很高,數(shù)據(jù)的快速動態(tài)的變化使得流式數(shù)據(jù)成為大數(shù)據(jù)的重要特征,對大數(shù)據(jù)的處理要求具有較強的時效性,能夠實時地查詢、分析、推薦等。
數(shù)據(jù)蘊藏價值大(Value)是指在海量的數(shù)據(jù)中,存在著巨大的被挖掘的商業(yè)價值,然而由于數(shù)據(jù)總量的不斷增加,數(shù)據(jù)的單位價值密度卻相對較低,如何通過強大的數(shù)據(jù)挖掘算法,結合企業(yè)的業(yè)務邏輯來從海量數(shù)據(jù)中獲取有用的價值,是大數(shù)據(jù)要解決的重要問題。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。
除了上述的4個根本特征外,大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)處理技術最明顯的一個區(qū)別是,大數(shù)據(jù)要求在線處理。
大數(shù)據(jù)的總體架構包括三層:
(1)數(shù)據(jù)存儲層。數(shù)據(jù)有很多種分類方法,有結構化、半結構化、非結構化,也有元數(shù)據(jù)、主數(shù)據(jù)、業(yè)務數(shù)據(jù),還可以分為GIS、視頻、文件、語音、業(yè)務交易類各種數(shù)據(jù)。
(2)數(shù)據(jù)處理層。數(shù)據(jù)處理層解決的核心問題在于出現(xiàn)分布式存儲后,存儲方式的改變所帶來的數(shù)據(jù)處理上的復雜度,海量數(shù)據(jù)存儲則帶來了數(shù)據(jù)處理上的時效性要求。
(3)數(shù)據(jù)分析層。數(shù)據(jù)分析層的重點是挖掘大數(shù)據(jù)的真正價值所在,而價值的挖掘核心又在于數(shù)據(jù)分析和挖掘。
數(shù)據(jù)分析只關注兩個內(nèi)容:
一個是傳統(tǒng)數(shù)據(jù)倉庫下的數(shù)據(jù)建模,在該數(shù)據(jù)模型下需要支持上面各種分析方法和分析策略;
另一個是根據(jù)業(yè)務目標和業(yè)務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決了這兩個問題,就基本解決了數(shù)據(jù)分析的問題。
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和/或虛擬化技術。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
大數(shù)據(jù)最核心的價值在于對海量數(shù)據(jù)的存儲和分析。相比現(xiàn)有的其他技術,大數(shù)據(jù)具有廉價、迅速、優(yōu)化三大特點。
8.1.1大數(shù)據(jù)處理的六大工具
1.?Hadoop
Hadoop是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架,它是以一種可靠、高效、可伸縮的方式進行處理的。
它主要有以下幾個優(yōu)點:
(1)高可靠性。
(2)高擴展性。
(3)高效性。
(4)容錯性。
2.?HPCC
高性能計算與通信(HighPerformanceComputingandCommunications,HPCC)是1993年由美國科學、工程、技術聯(lián)邦協(xié)調理事會向國會提交的“重大挑戰(zhàn)項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學與技術挑戰(zhàn)問題。
該項目主要由五部分組成:
(1)高性能計算機系統(tǒng)(HPCS),內(nèi)容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等。
(2)先進軟件技術與算法(ASTA),內(nèi)容包括巨大挑戰(zhàn)問題的軟件支撐、新算法設計、軟件分支與工具、計算及高性能計算研究中心等。
(3)國家科研與教育網(wǎng)絡(NREN),內(nèi)容包括中接站及10億位級傳輸?shù)难芯颗c開發(fā)。
(4)基本研究與人類資源(BRHR),內(nèi)容包括基礎研究、培訓和課程教材,通過長期的調查,在可升級的高性能計算中來增加被調查人員的創(chuàng)新意識流;通過高性能的計算訓練和通信,增加人員之間的聯(lián)絡,以此來支持調查和研究活動。
(5)信息基礎結構技術和應用(IITA),目的在于保證美國在先進信息技術開發(fā)方面的領先地位。
3.?Storm
Storm是自由的開源軟件,是一個分布式的、容錯的實時計算系統(tǒng),用于處理Hadoop的批量數(shù)據(jù)且非??煽?。Storm支持許多種編程語言,且易于配置及使用。Storm由Twitter開源而來,其他知名的應用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
4.?ApacheDrill
為了幫助企業(yè)用戶尋找更為有效以及加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會發(fā)起了一項名為Drill的開源項目。ApacheDrill實現(xiàn)了Google’sDremel。
該項目將會創(chuàng)建出開源版本的谷歌DremelHadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應用提速)。而Drill將有助于Hadoop用戶更快地查詢海量數(shù)據(jù)集。
Drill項目其實也是從谷歌的Dremel項目中獲得的靈感:該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構建系統(tǒng)上的測試結果等等。
通過開發(fā)DrillApache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而有助于支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。
5.?RapidMiner
RapidMiner是世界領先的數(shù)據(jù)挖掘解決方案,其特點包括:
(1)拖拽建模,自帶1500多個函數(shù),無須編程,簡單易用;同時也支持各種常見語言代碼的編寫,以符合程序員個人習慣和實現(xiàn)更多功能。
(2)?RapidMinerStudio社區(qū)版和基礎版免費開源,能連接開源數(shù)據(jù)庫,商業(yè)版能連接幾乎所有數(shù)據(jù)源,功能更強大。
(3)豐富的擴展程序,如文本處理、網(wǎng)絡挖掘、Weka擴展、R語言等。
(4)數(shù)據(jù)提取、轉換和加載(ETL)功能。
(5)生成和導出數(shù)據(jù)、報告和可視化。
(6)為技術性和非技術性用戶設計的交互式界面。
(7)通過WebServices應用將分析流程整合到現(xiàn)有工作流程中。
6.?PentahoBI
PentahoBI平臺不同于傳統(tǒng)的BI產(chǎn)品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等組件集成起來,方便商務智能應用的開發(fā)。它的出現(xiàn),使得一系列面向商務智能的獨立產(chǎn)品(如Jfree、Quartz等等)能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
PentahoSDK共包含五個部分:Pentaho平臺、Pentaho示例數(shù)據(jù)庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配制好的Pentaho網(wǎng)絡服務器。其中Pentaho平臺是Pentaho最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數(shù)據(jù)庫為Pentaho平臺的正常運行提供數(shù)據(jù)服務,包括配置信息、Solution相關的信息等,對于Pentaho平臺來說,它不是必需的,通過配置是可以用其他數(shù)據(jù)庫取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示了如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發(fā)相關的商業(yè)智能解決方案。
8.1.2大數(shù)據(jù)在我國的未來之路
1.大數(shù)據(jù)的基本特點
大數(shù)據(jù)的基本特點如下:
(1)數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。
(2)數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。
(3)價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
(4)處理速度快,遵循1秒定律。這一點也和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。
2.我國大數(shù)據(jù)的變革之路
國務院發(fā)布的《促進大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱“綱要”)將大數(shù)據(jù)發(fā)展確立為國家戰(zhàn)略。黨的十八屆五中全會明確提出,實施“互聯(lián)網(wǎng)+”行動計劃,發(fā)展分享經(jīng)濟,實施國家大數(shù)據(jù)戰(zhàn)略。大力發(fā)展工業(yè)大數(shù)據(jù)和新興產(chǎn)業(yè)大數(shù)據(jù),利用大數(shù)據(jù)推動信息化和工業(yè)化深度融合,從而推動制造業(yè)網(wǎng)絡化和智能化,正成為工業(yè)領域的發(fā)展熱點。明確工業(yè)是大數(shù)據(jù)的主體,工業(yè)大數(shù)據(jù)的價值正是在于它為產(chǎn)業(yè)鏈提供了有價值的服務,提升了工業(yè)生產(chǎn)的附加值。工業(yè)大數(shù)據(jù)的最終作用是為工業(yè)的發(fā)展、工業(yè)企業(yè)的轉型升級提供有價值的服務。
8.2云計算的基本概念
云計算(CloudComputing)是基于互聯(lián)網(wǎng)的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎設施的抽象。
狹義云計算指IT基礎設施的交付和使用模式,指通過網(wǎng)絡以按需、易擴展的方式獲得所需資源;
廣義云計算指服務的交付和使用模式,指通過網(wǎng)絡以按需、易擴展的方式獲得所需服務,這種服務可以是IT和軟件、互聯(lián)網(wǎng)相關,也可是其他服務。它意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進行流通??梢愿爬ǖ卣f:云計算是通過網(wǎng)絡提供可伸縮的廉價的分布式計算能力。
8.2.1廣義的云計算和狹義的云計算
狹義的云計算是指IT基礎設施的交付和使用模式,指通過網(wǎng)絡以按需、易擴展的方式獲得所需的資源(硬件、平臺、軟件)。提供資源的網(wǎng)絡被稱為“云”?!霸啤敝械馁Y源在使用者看來是可以無限擴展的,并且可以隨時獲取、按需使用、隨時擴展、按使用付費。這種特性經(jīng)常被稱為像水電一樣使用IT基礎設施。廣義的云計算是指服務的交付和使用模式,指通過網(wǎng)絡以按需、易擴展的方式獲得所需的服務。這種服務可以是IT和軟件、互聯(lián)網(wǎng)相關的,也可以是任意其他的服務
易拓云指出云計算是技術驅動的核心,是商業(yè)模式變革的基礎。云計算的IT架構變革使得“互聯(lián)網(wǎng)+”、大數(shù)據(jù)戰(zhàn)略蓬勃發(fā)展,龐大的計算能力使得深度學習、人工智能商業(yè)化進程加速。云計算是板塊技術驅動的核心,其基礎設施建設在未來3~5年內(nèi)將維持高景氣度;同時云計算所實現(xiàn)的應用線上化、數(shù)據(jù)資產(chǎn)化、服務生態(tài)化,也將成為商業(yè)模式變革的基礎。
云計算的好處是:
(1)安全。云計算提供了最可靠、最安全的數(shù)據(jù)存儲中心,用戶不用再擔心數(shù)據(jù)丟失、病毒入侵等麻煩。
(2)方便。它對用戶端的設備要求低,使用起來很方便。
(3)數(shù)據(jù)共享。它可以輕松實現(xiàn)不同設備間的數(shù)據(jù)與應用共享。
(4)無限可能。它為人們使用網(wǎng)絡提供了無限多的可能。
8.2.2云計算的工具與服務
1.云計算的十大工具
(1)?Cloudability。工具類型為云成本分析。
(2)?S3生命周期追蹤器、EC2預留探測器、RDS預留探測器。工具類型為云優(yōu)化。
(3)?AtomSphere。工具類型為云集成。
(4)?Enstratius。工具類型為云基礎設施管理。
(5)?InformaticaCloud2013春季版。工具類型為云數(shù)據(jù)集成。
(6)?CloudHub。工具類型為云集成服務。
(7)?Chef。工具類型為云配置管理。
(8)?Puppet。工具類型為云配置管理。
(9)?RightScaleCloudManagement。工具類型為云管理。
(10)?AgilityPlatform。工具類型為企業(yè)云管理。
2.云計算的幾種服務
1)?IaaS
IaaS(InfrastructureasaService):基礎設施即服務。消費者通過Internet可以從完善的計算機基礎設施中獲得服務。
2)?PaaS
PaaS(PlatformasaService):平臺即服務。PaaS實際上是指將軟件研發(fā)的平臺作為一種服務,以SaaS的模式提交給用戶。
3)?SaaS
SaaS(SoftwareasaService):軟件即服務。它是一種通過Internet提供軟件的模式,用戶無須購買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動。
8.2.3云計算的發(fā)展前景
1.云建站
云建站是隨著云計算技術成熟而興起的一種新型整合式技術平臺,面向有初級建站經(jīng)驗基礎的人員或美工,通常采用知名的IaaS提供商服務作為基礎設施提供網(wǎng)絡設備;同時提供云端開發(fā)平臺,開發(fā)者在平臺中編寫網(wǎng)站模板代碼,運行在瀏覽器中的開發(fā)器提供代碼高亮、代碼智能感知、數(shù)據(jù)接口等本地開發(fā)中也經(jīng)常用到的輔助開發(fā)功能。
云建站平臺是集開發(fā)環(huán)境、分布式文件存取、服務器部署等于一體的云端Web開發(fā)平臺。平臺通過非常簡單易學的模板語言允許開發(fā)者對網(wǎng)站進行100%的前端樣式定制設計,底層架構和基礎設施提供防火墻、緩存、負載均衡、故障轉移、CDN文件I/O等來保障網(wǎng)站安全性、高性能和高可用性。
開發(fā)者可以通過開發(fā)平臺對網(wǎng)站的所有頁面,模板源代碼,圖片添加、編輯和刪除等開發(fā)定制操作。開發(fā)平臺中提供完善的代碼高亮支持,常用前端類庫等大大降低了開發(fā)者對平臺和模板語言的學習成本。隨著語法智能提示、可拖拽設計的控件庫、在線圖片處理等輔助開發(fā)工具的推出,Web的快速開發(fā)得到實現(xiàn),進一步降低了Web的開發(fā)成本。
2.云物聯(lián)
“物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)”。這有兩層意思:
第一,物聯(lián)網(wǎng)的核心和基礎仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎上延伸和擴展的網(wǎng)絡;
第二,其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。
物聯(lián)網(wǎng)的兩種業(yè)務模式:
(1)?MAI(M2MApplicationIntegration),內(nèi)部MaaS;
(2)?MaaS(M2MasaService),MMO,Multi-Tenants(多租戶模型)。
隨著物聯(lián)網(wǎng)業(yè)務量的增加,對數(shù)據(jù)存儲和計算量的需求將帶來對“云計算”能力的要求:
(1)云計算:仍處在從計算中心到數(shù)據(jù)中心的物聯(lián)網(wǎng)初級階段,PoP即可滿足需求;
(2)在物聯(lián)網(wǎng)高級階段,可能出現(xiàn)MVNO/MMO營運商(國外已存在多年),需要虛擬化云計算技術、SOA等技術的結合實現(xiàn)互聯(lián)網(wǎng)的泛在服務:TaaS(everyThingasaService)。
3.云安全
云安全(CloudSecurity)是一個從“云計算”演變而來的新名詞。云安全的策略構想是:使用者越多,每個使用者就越安全,因為如此龐大的用戶群足以覆蓋互聯(lián)網(wǎng)的每個角落,只要某個網(wǎng)站被掛或某個新木馬病毒出現(xiàn),就會立刻被截獲。
4.云存儲
云存儲是在云計算(CloudComputing)概念上延伸和發(fā)展出來的一個新的概念,是指通過集群應用、網(wǎng)格技術或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量的各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么云計算系統(tǒng)就轉變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。目前提供云存儲業(yè)務的國內(nèi)企業(yè)有聯(lián)想網(wǎng)盤和燕麥企業(yè)云盤(OATOS企業(yè)網(wǎng)盤)。
5.云通信
云通信(CloudCommunication)是云計算技術在通信領域的一種受到推廣應用的解決方案。云通信技術主要是在對IaaS、PaaS、SaaS等云計算技術應用層進行分析提取的基礎上,將智能云、云存儲、云交互、云數(shù)據(jù)、彈性云計算、云分享等云計算技術應用到傳統(tǒng)的通信行業(yè),實現(xiàn)對傳統(tǒng)通信技術的革命性改造,讓通信技術進入云應用及大數(shù)據(jù)管理時代。
6.云游戲
云游戲是以云計算為基礎的游戲方式,在云游戲的運行模式下,所有游戲都在服務器端運行,并將渲染完畢后的游戲畫面壓縮后通過網(wǎng)絡傳送給用戶。在客戶端,用戶的游戲設備不需要任何高端處理器和顯卡,只需要基本的視頻解壓能力就可以了。
7.云教育
視頻云計算應用于教育行業(yè),流媒體平臺采用分布式架構部署,分為Web服務器、數(shù)據(jù)庫服務器、直播服務器和流服務器,如有必要,可在信息中心架設采集工作站,搭建網(wǎng)絡電視或實況直播應用。在各學校已經(jīng)部署錄播系統(tǒng)或直播系統(tǒng)的教室配置流媒體功能組件,這樣錄播實況可以實時傳送到流媒體平臺管理中心的全局直播服務器上,與此同時錄播的學校特色課件也可以上傳存儲到教育局信息中心的流存儲服務器上,方便今后的檢索、點播、評估等各種應用。
8.云會議
云會議是基于云計算技術的一種高效、便捷、低成本的會議形式。使用者只需要通過互聯(lián)網(wǎng)界面,進行簡單的操作,便可快速、高效地與全球各地團隊及客戶同步分享語音、數(shù)據(jù)文件及視頻,而會議中數(shù)據(jù)的傳輸、處理等復雜技術由云會議服務商幫助使用者進行操作。
8.3大數(shù)據(jù)和云計算融合的必然趨勢
8.3.1大數(shù)據(jù)發(fā)展現(xiàn)狀大數(shù)據(jù)行業(yè)是以數(shù)據(jù)及數(shù)據(jù)所蘊含的信息價值為核心生產(chǎn)要素,通過數(shù)據(jù)技術、數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務等形式,使數(shù)據(jù)與信息價值在各行業(yè)經(jīng)濟活動中得到充分釋放的賦能型產(chǎn)業(yè)。近年來,伴隨各國家和地區(qū)大數(shù)據(jù)產(chǎn)業(yè)政策鼓勵以及數(shù)字經(jīng)濟的深入發(fā)展,全球范圍內(nèi)大數(shù)據(jù)市場呈快速發(fā)展態(tài)勢。
大數(shù)據(jù)的特征體現(xiàn)在多個方面:在容量上,數(shù)據(jù)的大小決定了所考慮的數(shù)據(jù)的價值和潛在的信息;在種類上,體現(xiàn)為數(shù)據(jù)類型的多樣性;在速度上,主要是指獲得數(shù)據(jù)的速度高;在可變性上,體現(xiàn)為數(shù)據(jù)的變化導致質量的廣泛變化;在真實性上,體現(xiàn)為可獲得真實可靠的數(shù)據(jù)質量;在復雜性上,體現(xiàn)為數(shù)據(jù)量巨大、來源渠道多;在價值上,體現(xiàn)為合理運用大數(shù)據(jù),以低成本獲得高價值。
1.行業(yè)概述
(1)大數(shù)據(jù)硬件:主要包括支撐大數(shù)據(jù)軟件和大數(shù)據(jù)服務運行的相關網(wǎng)絡、存儲和計算等IT硬件,大數(shù)據(jù)專屬硬件包括超融合一體機、智能終端、高性能計算機、高性能服務器、超大存儲設備等。
(2)大數(shù)據(jù)軟件:主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析挖掘、數(shù)據(jù)應用、數(shù)據(jù)治理、數(shù)據(jù)交易和數(shù)據(jù)安全等大數(shù)據(jù)生命周期業(yè)務流程中的相關工具、中間件、平臺、應用等軟件產(chǎn)品。
(3)大數(shù)據(jù)服務:主要包括為金融、政府、電信、互聯(lián)網(wǎng)等行業(yè)客戶提供的基于其具體業(yè)務場景而開發(fā)的各類大數(shù)據(jù)解決方案,涉及業(yè)務咨詢、設計開發(fā)、軟硬件產(chǎn)品部署、系統(tǒng)運維等一系列服務;服務類型主要包括數(shù)據(jù)采集和預處理服務、數(shù)據(jù)分析挖掘服務、數(shù)據(jù)治理服務、數(shù)據(jù)交易服務等。
2.全球現(xiàn)狀
1)數(shù)據(jù)量
據(jù)統(tǒng)計,2021年全球大數(shù)據(jù)儲量達到53.7?ZB,同比增長22%。
從區(qū)域分布來看,我國國內(nèi)的數(shù)據(jù)產(chǎn)生量約占全球數(shù)據(jù)產(chǎn)生量的23%,美國的數(shù)據(jù)產(chǎn)生量占比約為21%,EMEA(歐洲、中東、非洲)的數(shù)據(jù)產(chǎn)生量占比約為30%,APJxC(日本和亞太)數(shù)據(jù)產(chǎn)生量占比約為18%。
2)市場規(guī)模
當前,數(shù)據(jù)正在成為重組全球要素資源、重塑全球經(jīng)濟結構、改變?nèi)蚋偁幐窬值年P鍵力量。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、5G等信息通信技術及產(chǎn)業(yè)的不斷發(fā)展,全球數(shù)據(jù)量呈爆發(fā)式增長態(tài)勢。受益于數(shù)據(jù)量及數(shù)據(jù)應用的快速增加,全球大數(shù)據(jù)市場規(guī)??焖僭鲩L。據(jù)資料顯示,2021年全球大數(shù)據(jù)行業(yè)市場規(guī)模為649億美元,同比增長13.5%。
3.中國現(xiàn)狀
1)市場規(guī)模
我國是數(shù)據(jù)資源大國,大力發(fā)展大數(shù)據(jù)技術,有利于將我國數(shù)據(jù)資源優(yōu)勢轉化為國家競爭優(yōu)勢,實現(xiàn)數(shù)據(jù)規(guī)模、質量和應用水平的同步提升。
2)企業(yè)情況
隨著近年來我國大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展,行業(yè)相關企業(yè)數(shù)量也隨之迅速增長。
3)投融資情況
隨著我國大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展以及價值的逐漸顯現(xiàn),吸引了大批投資者的目光,行業(yè)投資市場十分火熱。
4.發(fā)展背景
1)政策
近年來隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、5G等信息通信技術及產(chǎn)業(yè)的不斷發(fā)展,全球數(shù)據(jù)量呈爆發(fā)式增長態(tài)勢。數(shù)據(jù)作為和土地、資本、勞動力、技術同等重要的生產(chǎn)要素,在數(shù)字經(jīng)濟不斷深入發(fā)展的過程中,地位愈發(fā)凸顯。
2)經(jīng)濟
伴隨著新一輪科技革命和產(chǎn)業(yè)變革的持續(xù)推進,數(shù)字經(jīng)濟已成為當前最具活力、最具創(chuàng)新力、輻射最廣泛的經(jīng)濟形態(tài),是國民經(jīng)濟的核心增長極之一。
5.發(fā)展趨勢
1)分析方法創(chuàng)新
數(shù)據(jù)分析方法受算法、理論的限制和影響,隨著相關技術和領域的發(fā)展,數(shù)據(jù)分析方法也將面臨革命性的改變。
2)數(shù)據(jù)共享程度提高
數(shù)據(jù)收集是大數(shù)據(jù)技術應用的基礎環(huán)節(jié),隨著社會信息的爆發(fā)式增長,數(shù)據(jù)收集工作壓力劇增。
3)大數(shù)據(jù)產(chǎn)業(yè)化應用
大數(shù)據(jù)與商業(yè)價值開發(fā)相掛鉤,其自身也表現(xiàn)出資源化發(fā)展的趨勢,即大數(shù)據(jù)已成為一種新的社會生產(chǎn)力。
8.3.2大數(shù)據(jù)形成條件與運作模式
1.大數(shù)據(jù)形成的條件
大數(shù)據(jù)需要龐大的數(shù)據(jù)積累,以及深度的數(shù)據(jù)挖掘和分析。大數(shù)據(jù)的形成有兩個條件:
一是豐富的數(shù)據(jù)源;
二是強大的數(shù)據(jù)挖掘分析能力。
從大數(shù)據(jù)中挖掘更多的價值,需要運用靈活的、多學科的方法。
2.大數(shù)據(jù)運作模式
云計算技術是目前解決大數(shù)據(jù)問題最重要且有效的手段。云計算提供了基礎架構平臺,大數(shù)據(jù)應用在這個平臺上得以運行。大數(shù)據(jù)是未來的行業(yè)發(fā)展趨勢,其發(fā)展已勢不可擋,而Hadoop作為更大規(guī)模分布式計算和存儲離線處理集群的代表。廣大開發(fā)者應抓住大數(shù)據(jù)機遇,選擇更適合的平臺技術,借助最優(yōu)的解決方案,利用大數(shù)據(jù)開發(fā)出更智能、更個性化的新一代應用,最終實現(xiàn)應用經(jīng)濟的轉型升級。
8.3.3大數(shù)據(jù)安全
1.大數(shù)據(jù)遭遇“安全門”
大數(shù)據(jù)像一枚硬幣,有其兩面性:
一方面它將催生新型科技公司,吸納科技人才就業(yè),并為企業(yè)發(fā)展轉型提供新機遇;
另一方面它為個人、企業(yè)甚至國家?guī)韨€人隱私危機,以及重構信息安全、競爭力差距拉大、數(shù)據(jù)產(chǎn)權爭端等諸多挑戰(zhàn)。
2.大數(shù)據(jù)安全靠管理
關于大數(shù)據(jù)的安全,坦率地講,任何一種安全,其關鍵的保障因素還是管理手段,特別是對密鑰的管理,這將影響整個加密過程。大數(shù)據(jù)的應用訴求將促使商業(yè)模式變革,并對技術架構形成沖擊,營運模式也將產(chǎn)生變化。
所以,為適應大數(shù)據(jù)時代的到來,要盡快制定信息公開法以加強網(wǎng)絡信息的保護,界定數(shù)據(jù)挖掘、利用的權限和范圍,使得大數(shù)據(jù)的挖掘和利用依法推進。應當既鼓勵面向群體、服務社會的數(shù)據(jù)挖掘,又要防止侵犯個體隱私;既提倡數(shù)據(jù)共享,又要防止數(shù)據(jù)被濫用。
8.3.4大數(shù)據(jù)時代的機遇與挑戰(zhàn)
1.大數(shù)據(jù)帶來大變革
“大數(shù)據(jù)”正給很多不同的行業(yè)帶來深刻的變革,這些變革表現(xiàn)在創(chuàng)造透明度,通過一些可控的實驗發(fā)現(xiàn)新的需求,對用戶進行細分,以及為客戶定制服務等。更重要的是,大數(shù)據(jù)孕育了新的商業(yè)模式。數(shù)據(jù)會成為企業(yè)資產(chǎn)負債表上非常重要的一項。
大數(shù)據(jù)分析技術不僅是促進基礎科學發(fā)展的強大杠桿,也是許多行業(yè)技術進步和企業(yè)發(fā)展的推動力。大數(shù)據(jù)的真正意義并不在于大帶寬和大存儲,而在于對容量大且種類繁多的數(shù)據(jù)進行分析并從中獲取信息和價值。
2.大數(shù)據(jù)時代的國家戰(zhàn)略
在大數(shù)據(jù)中心建設上,應將大數(shù)據(jù)管理上升到國家戰(zhàn)略層面,從國家戰(zhàn)略層面予以重視,因此特別要強調以下幾點:
(1)政府要由責任部門牽頭進行專項研究,從國家層面通盤考慮國家大數(shù)據(jù)發(fā)展的戰(zhàn)略。
(2)大數(shù)據(jù)從數(shù)據(jù)生成、信息收集到數(shù)據(jù)的發(fā)布、分析和應用,涉及各個層面。
(3)重視人才培養(yǎng)在大數(shù)據(jù)處理環(huán)節(jié)中的重要性,數(shù)據(jù)人才是點燃大數(shù)據(jù)價值的關鍵。
3.大數(shù)據(jù)時代的挑戰(zhàn)
鑒于數(shù)據(jù)的復雜性,大數(shù)據(jù)處理面臨著一系列的挑戰(zhàn):
(1)在類似文本或視頻的非結構化數(shù)據(jù)上,如何理解及使用數(shù)據(jù)?
(2)該如何在數(shù)據(jù)產(chǎn)生時捕獲最重要的部分,并實時地將它交付給正確的人?
(3)鑒于當下的數(shù)據(jù)體積和計算能力,該如何儲存、分析及理解這些數(shù)據(jù)?
(4)人才匱乏。
(5)其他一些固有的挑戰(zhàn),如隱私、訪問安全以及部署。
以下是Intel發(fā)布的大數(shù)據(jù)處理在中國的短板:
(1)數(shù)據(jù)的海量性。
(2)數(shù)據(jù)處理技術。
(3)信息公開。
(4)數(shù)據(jù)的真實性。
(5)非結構數(shù)據(jù)的不足。
4.云計算在大數(shù)據(jù)中的作用
大數(shù)據(jù)的爆發(fā)是產(chǎn)業(yè)和經(jīng)濟信息化發(fā)展中遇到的棘手問題。由于數(shù)據(jù)流量和體量增長迅速,數(shù)據(jù)格式存在多源異構的特點,而我們對數(shù)據(jù)處理又要求準確、實時,以幫助我們發(fā)掘出大數(shù)據(jù)中潛在的價值,促進經(jīng)濟發(fā)展和社會進步。物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動通信網(wǎng)絡技術在近些年來的迅猛發(fā)展,致使數(shù)據(jù)產(chǎn)生和傳輸?shù)念l度和速度都大大加快,催生了大數(shù)據(jù)問題,而數(shù)據(jù)的二次開發(fā)、深度循環(huán)利用則讓大數(shù)據(jù)問題日益突出。
大數(shù)據(jù)問題的解決,首先要從大數(shù)據(jù)的源頭開始梳理。既然大數(shù)據(jù)源于云計算等新興IT技術,就必然有新興IT技術的基因繼承下來。按需分配、彈性擴展、安全、開源、泛在化等特點是云計算的基因,這些基因也需要體現(xiàn)在大數(shù)據(jù)上?!霸啤钡睦砟?、原則和手段,也是理解大數(shù)據(jù)、克服大數(shù)據(jù)、應用大數(shù)據(jù)的制勝法寶和核心關鍵。大數(shù)據(jù)在系統(tǒng)及網(wǎng)絡結構、資源調度管理、數(shù)據(jù)存儲、計算框架等領域都是源自于云計算也依托于云計算的。云計算為大數(shù)據(jù)提供了堅實的基礎設施支撐及保障。
5.云計算與大數(shù)據(jù)的融合發(fā)展
從技術角度來說,云計算和大數(shù)據(jù)在很大程度上已經(jīng)形成融合發(fā)展的態(tài)勢。當前的很多云計算服務,由于其規(guī)模的擴展,后臺都集成了大數(shù)據(jù)的存儲和處理。
從產(chǎn)業(yè)角度來看,云計算及大數(shù)據(jù)都已上升為中國的國家戰(zhàn)略,相關的技術和應用已經(jīng)滲透到各個傳統(tǒng)行業(yè)及新興產(chǎn)業(yè),國家的政策、資金引導力度不斷加大。
大數(shù)據(jù)上云其實有多種含義和選擇。由于大數(shù)據(jù)的特征,企業(yè)要自己搭建大數(shù)據(jù)的存儲及處理平臺,其投入和挑戰(zhàn)都是巨大的。
6.云計算與大數(shù)據(jù)的應用場景
1)在互聯(lián)網(wǎng)金融證券業(yè)的應用
大數(shù)據(jù)帶來的變化,首先是風險管理的理念和工具的調整。風險定價和客戶評價理念將會以真實、高效、自動、準確為基礎,形成客戶的精準畫像?;跀?shù)據(jù)挖掘的客戶識別和分類將成為風險管理的主要手段,動態(tài)、實時的監(jiān)測而非事后的回顧式評價將成為風險管理的主要手段。
其次,大數(shù)據(jù)能大大降低金融產(chǎn)品和服務的消費者與提供者之間的信息不對稱現(xiàn)象。消費者可實時獲知對某項金融產(chǎn)品或服務的支持和評價?;诖耍梢灾鸩綄崿F(xiàn)業(yè)務流程的自主信息化,結合時間、人、產(chǎn)品路徑精準推送給精準人群;數(shù)據(jù)挖掘能力可將金融業(yè)務做到高效率、低成本。
第三,大數(shù)據(jù)使得產(chǎn)品更加安全可控和令人滿意。精準數(shù)據(jù)定位模式,對消費者而言,是安全可控、可受的??煽兀侵鸽p方的風險可控;可受,是指雙方的收益(或成本)和流動性是可接受的。同時,高效貼心的服務還能提升用戶的滿意度。
最后,大數(shù)據(jù)將促進行業(yè)的泛在化。金融供給將不再是傳統(tǒng)金融業(yè)者的專屬領地,許多具備大數(shù)據(jù)技術應用能力的企業(yè)都會涉足、介入金融行業(yè)。有趨勢表明,銀行與非銀行間、證券公司與非證券公司間、保險公司與非保險公司間的界限將會非常模糊,金融企業(yè)與非金融企業(yè)間的跨界
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度玻璃深加工技術研發(fā)與轉化合同3篇
- 2024西安商務活動車輛租賃協(xié)議版B版
- 2024期房房屋買賣合同樣書
- 二零二四年前期物業(yè)服務委托合同范本:含社區(qū)環(huán)境美化條款3篇
- 2024景區(qū)廣告位租賃合同
- 2025年度旅游目的地VI視覺導視系統(tǒng)設計合同3篇
- 二零二四墓地用地使用權轉讓與陵園墓地運營管理合同范本3篇
- 2024版教育實習全面規(guī)定協(xié)議范本
- 2024款新能源汽車租賃市場推廣合同
- 2024版學校食堂廚師聘用合同:廚師工作內(nèi)容與要求
- 全自動化學發(fā)光分析儀操作規(guī)程
- 北侖區(qū)建筑工程質量監(jiān)督站監(jiān)督告知書
- 深藍的故事(全3冊)
- GB/T 42461-2023信息安全技術網(wǎng)絡安全服務成本度量指南
- 職校開學第一課班會PPT
- 法考客觀題歷年真題及答案解析卷一(第1套)
- 央國企信創(chuàng)白皮書 -基于信創(chuàng)體系的數(shù)字化轉型
- GB/T 36964-2018軟件工程軟件開發(fā)成本度量規(guī)范
- 6第六章 社會契約論.電子教案教學課件
- 機加車間各崗位績效考核方案
- 小學數(shù)學專題講座:小學數(shù)學計算能力的培養(yǎng)課件
評論
0/150
提交評論