數(shù)字化系統(tǒng)方案(知識研究或個人學習)_第1頁
數(shù)字化系統(tǒng)方案(知識研究或個人學習)_第2頁
數(shù)字化系統(tǒng)方案(知識研究或個人學習)_第3頁
數(shù)字化系統(tǒng)方案(知識研究或個人學習)_第4頁
數(shù)字化系統(tǒng)方案(知識研究或個人學習)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

知識研究HadoopHadoop概述Hadoop是目前應(yīng)用最廣泛的開源分布式存儲和計算臺之一。它是根據(jù)Google的GFS分布式文件系統(tǒng)和MapReduce分布式計算技術(shù)而開發(fā)的開源臺,其設(shè)計目標是在普通的硬件臺上構(gòu)建大容量、高性能、高可靠的分布式存儲和分布式計算架構(gòu)。Hadoop目前已在Yahoo、Facebook、亞馬遜、百度等公司取得了廣泛應(yīng)用。Hadoop的分布式文件系統(tǒng)HDFS主要負責各個節(jié)點的數(shù)據(jù)存儲,實現(xiàn)高效的數(shù)據(jù)讀寫過程。Hadoop的MapReduce編程模型及框架,能夠把應(yīng)用程序分割成許多小的工作單元,并把這些單元分配到集群節(jié)點執(zhí)行,在MapReduce架構(gòu)下,一個準備提交的應(yīng)用程序稱為作業(yè)(Job),從一個作業(yè)劃分出的、運行于各個計算節(jié)點的工作單元稱為任務(wù)(Task)。Hadoop最初是受到Google公司的GFS和MapReduce的啟發(fā);Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等構(gòu)件組成;Hadoop是一個實現(xiàn)了MapReduce計算模型的開源分布式并行編程框架。Hadoop主要有以下幾個優(yōu)點:可伸縮(Scalable):能可靠地(Reliably)存儲和處理千兆字節(jié)(PB)數(shù)據(jù)。成本低(Economical):可以通過普通機器組成的服務(wù)器集群來存儲以及處理數(shù)據(jù)。高效率(Efficient):通過分發(fā)數(shù)據(jù),Hadoop可以在數(shù)據(jù)所在的節(jié)點上并行地(Parallel)處理它們,通過同時、多節(jié)點的并行處理方式,使處理速度非?????煽啃?Reliable):Hadoop以計算元素和存儲會失敗為假設(shè),因此維護多個工作數(shù)據(jù)副本,以確保針對失敗的節(jié)點重新分布處理。Hadoop能自動地維護數(shù)據(jù)的多份復本,并且在任務(wù)失敗后能自動地重新部署(Redeploy)計算任務(wù)。Hadoop的基本架構(gòu)Hadoop是一個基于Java的分布式數(shù)據(jù)存儲和數(shù)據(jù)計算分析的開源框架,Hadoop可處理分布在數(shù)以千計的低成本x服務(wù)器計算節(jié)點中的大型數(shù)據(jù)。Hadoop架構(gòu)包括HDFS、MapReduce、HBase、Hive和ZooKeeper等成員,Hadoop最重要的成員是Hadoop分布式文件系統(tǒng)HDFS以及MapReduce計算模型。如圖所示。Core:一系列分布式文件系統(tǒng)和通用I/O的組件和接口(RPC、串行化庫)。Avro:一個數(shù)據(jù)序列化系統(tǒng),用于支持大批量數(shù)據(jù)交換的應(yīng)用。MapReduce:用于超大型數(shù)據(jù)集的并行運算,分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境。HDFS:可以支持千萬級的大型分布式文件系統(tǒng)。ZooKeeper:一個分布式的、高可用性的協(xié)調(diào)服務(wù),提供分布式應(yīng)用程序的協(xié)調(diào)服務(wù)。支持的功能包括配置維護、名字服務(wù)、分布式同步、組服務(wù)等。Pig:一種數(shù)據(jù)流語言和運行環(huán)境,運行在MapReduce和HDFS集群上,可加載數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)格式以及存儲最終結(jié)果等一系列過程,從而優(yōu)化MapReduce運算。Chukwa:一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集和分析系統(tǒng),包含了一個強大而靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。Sqoop:是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具。Mahout:提供一些可擴展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序,包括聚類、分類、推薦過濾等。Hive:分布式數(shù)據(jù)倉庫,管理HDFS中存儲的數(shù)據(jù),并提供基于SQL的查詢語言用以查詢數(shù)據(jù),可向HDFS添加數(shù)據(jù),并允許使用類似SQL的語言進行數(shù)據(jù)查詢。Hbase:一個分布式的、列存儲數(shù)據(jù)庫,用于在Hadoop中支持大型稀疏表的列存儲數(shù)據(jù)環(huán)境,HBase使用HDFS作為底層存儲,同時支持MapReduce計算和查詢。HadoopCommon:在00及以前的版本中,包含HDFS、MapReduce和其他項目公共內(nèi)容,從0開始,HDFS和MapReduce被分離為獨立子項目,其余內(nèi)容為HadoopCommon。圖Hadoop的基本組成(Hadoop000以前)Hadoop與Google技術(shù)對應(yīng)如表所示。表Hadoop與Google技術(shù)對應(yīng)表Google技術(shù)Hadoop對應(yīng)技術(shù)MapReduceHadoopMapReduceGFSHDFSSawzallHive,PigBigtableHBaseChubbyZooKeeperHDFSHDFS全稱為HadoopDistributedFileSystem,它是Hadoop的一個子項目,基本是按照Google的GFS架構(gòu)來實現(xiàn)的。HDFS可以部署在普通的、廉價的硬件設(shè)備之上,具有高容錯性,適合大數(shù)據(jù)集的應(yīng)用,提供了對數(shù)據(jù)讀寫的高吞吐率。HDFS的結(jié)構(gòu)是一個主從式(Master/Slave)結(jié)構(gòu),由一個名稱節(jié)點(NameNode)和若干個數(shù)據(jù)節(jié)點(DataNode)組成。典型的部署場景是一臺機器跑一個單獨的NameNode節(jié)點,集群中的其他機器各跑一個DataNode實例。如圖所示。圖HDFS拓撲結(jié)構(gòu)示意圖Hadoop的名稱節(jié)點保存了文件系統(tǒng)的元數(shù)據(jù)(Metadata),用以管理文件系統(tǒng)的命名空間和響應(yīng)客戶端對文件的訪問操作(如打開、關(guān)閉、重命名文件和目錄)請求,同時決定數(shù)據(jù)塊到DataNode節(jié)點的映射,名稱節(jié)點并不存放實際的數(shù)據(jù)文件,數(shù)據(jù)節(jié)點進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制等,數(shù)據(jù)文件根據(jù)設(shè)置的規(guī)則被分成若干個文件塊(通常為M或者M大小),默認保存?zhèn)€副本,分別存放在同一機架或者不同機架的數(shù)據(jù)節(jié)點上。HDFS系統(tǒng)特點分布式文件系統(tǒng)是Hadoop云計算的基礎(chǔ)。HDFS參照GFS(GoogleFileSystem)實現(xiàn),擁有多機備份、擴展性強且經(jīng)濟廉價等特點,適合視頻和音頻之類非結(jié)構(gòu)數(shù)據(jù)存儲。HDFS對用戶透明,在HDFS內(nèi)部,一個文件被分割為一個或多個數(shù)據(jù)塊(Block),這些數(shù)據(jù)塊被存儲在一組DataNodes上。HDFS尤其適合存儲海量(PB級)的大文件(通常超過M,因為HDFS中最小存儲粒度為M),能夠提供高吞吐量的數(shù)據(jù)訪問。HDFS具有快速錯誤監(jiān)測及自動恢復功能,得益于其基于“硬件故障是常態(tài)”理念;HDFS適合存儲并管理GB、TB、PB級數(shù)據(jù),可擴展上千節(jié)點,支持千萬計的文件;HDFS適合處理非結(jié)構(gòu)化數(shù)據(jù),注重數(shù)據(jù)處理的吞吐量(latency不敏感)應(yīng)用;HDFS不適合存儲小文件及大量的隨機讀操作應(yīng)用;HDFS的計算理念是將計算程序分布在存儲目標數(shù)據(jù)的地方,而不是將數(shù)據(jù)傳輸?shù)接嬎愠绦驁?zhí)行的地方,這樣“就近計算”的好處是效率高、節(jié)省傳輸帶寬。HDFS工作原理HDFS以流式數(shù)據(jù)訪問模式來存儲超大文件,運行于商用硬件集群上。HDFS的構(gòu)建思路是這樣的:一次寫入、多次讀取是最高效的訪問模式。數(shù)據(jù)集通常由數(shù)據(jù)源生成或從數(shù)據(jù)源復制而來,接著長時間在此數(shù)據(jù)集上進行各類分析。每次分析會涉及該數(shù)據(jù)集的大部分數(shù)據(jù)甚至全部,因此讀取整個數(shù)據(jù)集的時間延遲比讀取第一條記錄的時間延遲更重要。如圖所示,NameNode節(jié)點作為主控節(jié)點,維護集群內(nèi)的元數(shù)據(jù),對外提供創(chuàng)建、打開、刪除以及重命名文件或目錄的功能。NameNode是唯一的(即整個集群僅僅具有單一的命名空間),應(yīng)用程序與之通信,然后往DataNode上存儲文件或者從DataNode上讀取文件。這些操作是透明的,與常規(guī)的普通文件系統(tǒng)API沒有區(qū)別。對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng),實際的I/O事務(wù)并不經(jīng)過NameNode,當外部客戶機發(fā)送請求要求創(chuàng)建文件時,NameNode會以塊標識和該塊的第一個副本的DataNodeIP地址作為響應(yīng),這個NameNode還會通知其他將要接收該塊的副本的DataNode。圖HDFS工作原理示意圖HDFS的NameNode和DataNodeHDFS集群有兩類節(jié)點,分別以管理者(NameNode)、工作者(Datanode)模式運行。NameNode管理文件系統(tǒng)的命名空間,它維護著文件系統(tǒng)樹及整棵樹內(nèi)所有的文件和目錄。這些信息以兩個文件(命名空間鏡像文件和編輯日志文件)的形式永久保存在本地磁盤上。NameNode也記錄著每個文件中各個塊所在的DataNode信息,但它并不永久保存塊的位置信息,因為這些信息會在系統(tǒng)啟動時由DataNode重建。同時NameNode也負責控制外部Client的訪問。DataNode是文件系統(tǒng)的工作節(jié)點,它們根據(jù)需要存儲并檢索數(shù)據(jù)塊(受客戶端或NameNode調(diào)度),響應(yīng)創(chuàng)建、刪除和復制數(shù)據(jù)塊的命令,并且定期向NameNode發(fā)送所存儲數(shù)據(jù)塊列表的“心跳”信息。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。NameNode獲取每個DataNode的心跳信息,NameNode據(jù)此驗證塊映射和文件系統(tǒng)元數(shù)據(jù)。如表所示。表NameNode與DataNodeNameNodeDataNode存儲元數(shù)據(jù)存儲文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存中文件數(shù)據(jù)保存在磁盤保存文件、Block、DataNode之間的映射關(guān)系維護了BlockID到DataNode本地文件的映射關(guān)系HDFS的文件讀寫過程HDFS架構(gòu)下文件寫入時的步驟如圖所示。圖文件寫入HDFS的步驟()Client向Namenode發(fā)起文件寫入的請求;()Namenode根據(jù)文件大小和文件塊配置情況將它管理的DataNode節(jié)點的信息返回Client;()Client將文件劃分為多個塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。HDFS架構(gòu)下文件讀取時的步驟如圖所示。圖文件從HDFS讀出的步驟()Client向NameNode發(fā)起文件讀取的請求。()NameNode返回存儲文件的DataNode的信息。()Client讀取文件信息。作為文件系統(tǒng)的管理員,沒有NameNode,文件系統(tǒng)將無法使用。如果運行NameNode服務(wù)的機器毀壞,文件系統(tǒng)上的所有文件將會丟失,且不知道如何根據(jù)DataNode的數(shù)據(jù)塊來重建文件。Hadoop為此提供了兩種機制對NameNode實現(xiàn)冗余備份:一種機制是備份保存文件系統(tǒng)元數(shù)據(jù)的文件;另一種機制是運行一個輔助的NameNode,但它不能被用作NameNode,輔助的NameNode通過編輯日志定期合并命名空間鏡像。MapReduceHadoop實現(xiàn)了Google的MapReduce模型,Google的MapReduce是最初用于搜索引擎的并行計算流程模型,有兩個核心流程:Map(映射)和Reduce(化簡),將兩個詞合并成為它的名字,可以說它是一個分布式計算框架。MapReduce將復雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了這兩個函數(shù),Map和Reduce。適合用MapReduce來處理的數(shù)據(jù)集(或任務(wù))有一個基本要求:待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個小數(shù)據(jù)集都可以完全并行地進行處理。MapReduce工作方法是將任務(wù)分解為多個小任務(wù)然后發(fā)送到集群節(jié)點中,每臺計算機節(jié)點再處理自己的那部分信息,MapReduce則迅速整合這些反饋并形成答案,簡單說就是任務(wù)的分解和結(jié)果的合成。MapReduce思想MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。概念“Map(映射)”和“Reduce(化簡)”和其主要思想,都是從函數(shù)式編程語言里借來的。MapReduce極大地方便了編程人員在不熟悉分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組“鍵值對”映射成一組新的“鍵值對”,指定并發(fā)的Reduce(化簡)函數(shù)。MapReduce適合進行數(shù)據(jù)分析、日志分析、商業(yè)智能分析、客戶營銷、大規(guī)模索引、排序、搜索、廣告計算、廣告優(yōu)化與分析、搜索關(guān)鍵字進行內(nèi)容分類、搜索引擎、垃圾數(shù)據(jù)分析、數(shù)據(jù)分析、機器學習、數(shù)據(jù)挖掘、大規(guī)模圖像轉(zhuǎn)換等應(yīng)用。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對比如表所示。表傳統(tǒng)關(guān)系型數(shù)據(jù)庫與MapReduce對比傳統(tǒng)關(guān)系型數(shù)據(jù)庫MapReduce數(shù)據(jù)大小GBPB訪問交互型和批處理批處理更新多次讀寫一次寫入多次讀寫結(jié)構(gòu)靜態(tài)模式動態(tài)模式集成度高低伸縮性非線性線性MapReduce原理及模型MapReduce的工作原理:本質(zhì)是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成了若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結(jié)果進行匯總操作以得到最終結(jié)果。Map/Reduce模型:Map/Reduce是一種新的分布式程序設(shè)計模型,用于在集群上對海量數(shù)據(jù)進行并行處理。執(zhí)行流程如圖9所示。圖9MapReduce計算模型示意圖首先對輸入的海量數(shù)據(jù)進行分割,分布存儲到對應(yīng)的節(jié)點上,在對應(yīng)節(jié)點的主機上調(diào)用Map函數(shù)對數(shù)據(jù)進行處理,把分配到的數(shù)據(jù)(一般為一組<Key,Value>對)映射為另外的一組<Key,Vaule>型中間數(shù)據(jù);Reduce函數(shù)再對Map輸出的<Key,Vaule>型中間數(shù)據(jù)進行歸約并輸出最終結(jié)果。通常,MapReduce框架和HDFS運行在一組相同的節(jié)點上,即計算節(jié)點和存儲節(jié)點通常在一起。這種配置允許MapReduce框架在那些已經(jīng)存儲好數(shù)據(jù)的節(jié)點上高效地調(diào)度任務(wù),充分利用整個集群中的網(wǎng)絡(luò)帶寬,即所謂的“就近計算”原則。MapReduce架構(gòu)類似HDFS,HadoopMapReduce的實現(xiàn)也采用了Master/Slave結(jié)構(gòu)。Master叫做JobTracker,而Slave叫TaskTracker。JobTracker負責Job和Tasks的調(diào)度,而TaskTracker負責執(zhí)行Tasks。JobTracker是Hadoop集群中唯一負責控制MapReduce應(yīng)用程序的系統(tǒng)。用戶提交的計算叫做Job,每一個Job會被劃分成若干個Tasks,每個TaskTracker將狀態(tài)和完成信息報告JobTracker。MapReduce有一個重要特點,它并沒有將存儲移動到某個位置以供處理,而是將處理移動到存儲端。通過調(diào)集集群中的不同節(jié)點進行并行處理。在Hadoop中,Client任務(wù)的提交者是一組API,用戶需要自定義需要的內(nèi)容,由Client將作業(yè)及其配置提交到JobTracker并監(jiān)控執(zhí)行狀況。與HDFS的通信機制相同,MapReduce也使用協(xié)議接口來實現(xiàn)服務(wù)器間的通信。Client與TaskTracker及TaskTracker之間沒有直接通信。由于集群各主機的通信比較復雜,點對點直接通信難以維持狀態(tài)信息,所以由JobTracker收集整理并統(tǒng)一轉(zhuǎn)發(fā)。如圖0所示。圖0MapReduce架構(gòu)原理示意圖MapReduce的工作機制整個過程如圖所示,具體包含如下個獨立的過程:()客戶端提交MapReduce作業(yè);()JobTracker協(xié)調(diào)作業(yè)的運行;()TaskTracker運行作業(yè)劃分后的任務(wù);()分布式文件系統(tǒng)(一般為HDFS)用來共享作業(yè)文件。圖MapReduce的作業(yè)流程示意圖同HDFS分布式存儲一樣,分布式計算也是由主從模式構(gòu)建而成。工作流程如上圖所示,Hadoop中有一個作為主控的JobTracker,負責作業(yè)調(diào)度TaskTracker執(zhí)行計算任務(wù),TaskTracker負責執(zhí)行任務(wù)。JobTracker將Map任務(wù)和Reduce任務(wù)分發(fā)給空閑的TaskTracker,讓這些任務(wù)并行運行,并負責監(jiān)控任務(wù)的運行情況。如果某一個TaskTracker故障了,JobTracker會將其負責的任務(wù)轉(zhuǎn)交給另一個空閑的TaskTracker重新運行。一個具體提交的任務(wù)流程為:()在客戶端節(jié)點運行JobClient;()客戶端節(jié)點從JobTracker中獲得Job的ID;()客戶端節(jié)點將設(shè)置文件和數(shù)據(jù)文件復制到HDFS集群中;()根據(jù)JobClient的設(shè)置提交任務(wù);()任務(wù)在JobTracker中進行初始化處理;()檢索InputSplit,獲得已分解的數(shù)據(jù)列表,對應(yīng)列表創(chuàng)建Map;()檢測TaskTracker的心跳,將任務(wù)發(fā)送到空閑并且運行完好的TaskTracker節(jié)點上;()TaskTracker從HDFS中查找文件數(shù)據(jù),用來處理;(9)TaskTracker啟動JAVA虛擬機;(0)TaskTracker運行設(shè)置的Map/Reduce程序??梢姡蛻舳颂峤蛔鳂I(yè)后,主要由兩類進程控制作業(yè)的運行:JobTracker:整個集群只有一個JobTracker,為TaskTracker分配任務(wù),監(jiān)測任務(wù)的運行情況,調(diào)度任務(wù)(小集群通常運行在NameNode節(jié)點上,大集群JobTracker單獨一個節(jié)點)。TaskTracker:運行在DataNode節(jié)點上,每個節(jié)點一個TaskTracker進程,每個TaskTracker可運行數(shù)個MapReduce進程。Hadoop運行WordCount應(yīng)用舉例單詞計數(shù)是最簡單也是最能體現(xiàn)MapReduce思想的程序之一,可以稱為MapReduce版“HelloWorld”,該程序的完整代碼可以在Hadoop安裝包的src/examples目錄下找到。單詞計數(shù)主要完成功能是:統(tǒng)計一系列文本文件中每個單詞出現(xiàn)的次數(shù),過程如圖所示。圖MapReduce進行“字數(shù)統(tǒng)計”過程示意圖MapReduce進行“字數(shù)統(tǒng)計”過程如下:()文件分割,拆分成Splits;()分割好的Splits交給Map進行處理,生成(Key,Value)對,如(Deer,……);()Map生成的(Key,Value)對,按照Key值排序,執(zhí)行Shuffing過程;()Reducer對從Mapper接收的數(shù)據(jù)排序,交用戶定義的Reduce進行處理,形成新的(Key,Value)對,如(Bear,……),作為結(jié)果輸出。HBaseHBase即HadoopDatabase,是GoogleBigTable的開源實現(xiàn),HBase是Apache的Hadoop項目的子項目,構(gòu)造在HDFS之上,提供一個高可靠性、高性能、面向列、可伸縮、可擴展、分布式的數(shù)據(jù)庫系統(tǒng),利用HBase技術(shù)可在廉價機器上搭建起大規(guī)模存儲集群。Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù);GoogleBigtable利用Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對應(yīng)。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫,另一個區(qū)別是HBase基于列而不是基于行的模式。HadoopMapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和Failover機制。如表所示。表傳統(tǒng)關(guān)系型數(shù)據(jù)庫與HBase對比對比元素SQL實現(xiàn)HBase實現(xiàn)軟件架構(gòu)層架構(gòu)層架構(gòu)硬件少,昂多,廉價數(shù)據(jù)結(jié)構(gòu)關(guān)系表類似Bigtable的結(jié)構(gòu)數(shù)據(jù)操作對象關(guān)系映射(ORM)HBase客戶端API,MapReduce擴展方式代價大代價小解決方案定制解決HBase及HadoopZookeeperZooKeeper是Hadoop的正式子項目,它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標就是封裝好復雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。HiveHive是Facebook公司的開源項目,它實現(xiàn)在Hadoop之上,提供一種類似于SQL的查詢語言(HQL),可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進行運行,使不熟悉MapReduce的用戶很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)。并且,MapReduce開發(fā)人員可以把自己寫的Mapper和Reducer作為插件來支持Hive,以便做更復雜的數(shù)據(jù)分析。大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的價值美國麥肯錫全球研究院0年月發(fā)布題為《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的研究報告,指出“大數(shù)據(jù)時代已經(jīng)到來”,數(shù)據(jù)正成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,大數(shù)據(jù)的使用將成為未來提高競爭力的關(guān)鍵要素。美國于0年月宣布“大數(shù)據(jù)的研究和發(fā)展計劃”,以提高對大數(shù)據(jù)的收集與分析能力,增強國家競爭力。不僅是美國,其他一些國家也都把大數(shù)據(jù)提升到國家戰(zhàn)略層面,認為未來國家層面的競爭力將部分體現(xiàn)為一國擁有數(shù)據(jù)的規(guī)模及運用數(shù)據(jù)的能力。信息技術(shù)領(lǐng)域原先已經(jīng)有“海量數(shù)據(jù)”、“大規(guī)模數(shù)據(jù)”等概念,但這些概念只著眼于數(shù)據(jù)規(guī)模本身,未能充分反映數(shù)據(jù)爆發(fā)背景下的數(shù)據(jù)處理與應(yīng)用需求,而“大數(shù)據(jù)”這一新概念不僅指規(guī)模龐大的數(shù)據(jù)對象,也包含對這些數(shù)據(jù)對象的處理和應(yīng)用,是數(shù)據(jù)對象、技術(shù)與應(yīng)用三者的統(tǒng)一。大數(shù)據(jù)應(yīng)用是對特定的大數(shù)據(jù)集合,采用大數(shù)據(jù)技術(shù),獲得有價值信息的過程。對于不同領(lǐng)域、不同企業(yè)、不同業(yè)務(wù),數(shù)據(jù)采集和分析挖掘過程存在差異,所運用的大數(shù)據(jù)技術(shù)及系統(tǒng)也可能有著很大的不同。但是,總體目標基本都是為達到幫助企業(yè)內(nèi)部數(shù)據(jù)挖掘、趨勢分析、優(yōu)化流程、精準找到用戶、降低成本、提高效益等目的。大數(shù)據(jù)的應(yīng)用大致分以下幾個步驟:()數(shù)據(jù)采集、核實與過濾;()在數(shù)據(jù)倉庫內(nèi)的分類和存儲;()數(shù)據(jù)挖掘以找到數(shù)據(jù)所隱含的規(guī)律和數(shù)據(jù)間的關(guān)聯(lián);()數(shù)據(jù)模型建立和參數(shù)調(diào)整;()基于數(shù)據(jù)的應(yīng)用開發(fā)和決策支持。拿我們身邊最常見的互聯(lián)網(wǎng)及電子商務(wù)應(yīng)用舉例說明:在電子商務(wù)網(wǎng)站上,用戶的每次瀏覽、登錄、點擊或者評論、網(wǎng)頁駐留時間等,都將被采集并且成為網(wǎng)站大數(shù)據(jù)的來源,互聯(lián)網(wǎng)企業(yè)通過采集大數(shù)據(jù),進行存儲、分類、分析及挖掘,形成“用戶行為跟蹤”,掌握用戶身份背景、習慣及喜好,從而洞悉用戶潛在及真正的購買興趣及需求,進而判斷趨勢,還可以針對產(chǎn)品和服務(wù)進行調(diào)整和優(yōu)化。搜索公司如Google、網(wǎng)購公司如淘寶,均通過搜集、整理用戶行為數(shù)據(jù)并進行分析挖掘,進而獲取價值信息并調(diào)整商業(yè)模式。Google的Adsense對顧客的搜索過程和其對各網(wǎng)站的關(guān)注度進行數(shù)據(jù)挖掘,并在其聯(lián)盟內(nèi)的網(wǎng)站追蹤顧客的去向,在聯(lián)盟網(wǎng)站上推出和顧客潛在興趣相匹配的廣告,精準化營銷提高轉(zhuǎn)化率。此類應(yīng)用我們經(jīng)常能感覺到,屬于“精準營銷”。淘寶在0年推出了“淘寶時光機”?該應(yīng)用通過分析顧客自注冊以來的行為,用幽默生動的語言告知顧客淘寶的成長,和該用戶相類似喜好的其他用戶的行為統(tǒng)計,對該顧客經(jīng)過分析后加強對其喜好的了解和對其行為的預測。其他行業(yè)的各種應(yīng)用的例子數(shù)不勝數(shù),趨勢十分清楚:大數(shù)據(jù)的應(yīng)用價值和潛力不再被人低估,但并不是所有企業(yè)都能在大數(shù)據(jù)這個金礦里真正挖到金子。只有那些有遠見、有視野、重視研發(fā)、持續(xù)投入,吸引了優(yōu)秀相關(guān)人才的企業(yè)才會有所收獲。大數(shù)據(jù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論