大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第1頁(yè)
大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第2頁(yè)
大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第3頁(yè)
大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第4頁(yè)
大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第5頁(yè)
已閱讀5頁(yè),還剩650頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章

大數(shù)據(jù)概述

1.1大數(shù)據(jù)的產(chǎn)生背景與概念

1.1.1大數(shù)據(jù)的產(chǎn)生背景大數(shù)據(jù)的產(chǎn)生可以分為三個(gè)階段:萌芽階段(20世紀(jì)90年代至21世紀(jì)初):1997年,NASA阿姆斯科研中心的大衛(wèi)?埃爾斯沃斯和邁克爾?考克斯在研究數(shù)據(jù)的可視化問(wèn)題時(shí)首次使用“大數(shù)據(jù)”概念;1998年,美國(guó)《自然》雜志上發(fā)表的一篇名為《大數(shù)據(jù)科學(xué)的可視化》的文章,使大數(shù)據(jù)正式作為一個(gè)專(zhuān)有名詞出現(xiàn)在公共刊物之中。1.1.1大數(shù)據(jù)的產(chǎn)生背景發(fā)展階段(階段從21世紀(jì)初至2010年):數(shù)據(jù)分析的主要技術(shù)——Hadoop技術(shù)的誕生,使2005年成為大數(shù)據(jù)發(fā)展的重要里程碑。大數(shù)據(jù)技術(shù)先是在美國(guó)鋪開(kāi),2010年美國(guó)信息技術(shù)顧問(wèn)委員會(huì)(PITAC)發(fā)布的一篇名為《規(guī)劃數(shù)字化未來(lái)》的報(bào)告,足以體現(xiàn)美國(guó)對(duì)發(fā)展大數(shù)據(jù)技術(shù)的重視。在這個(gè)階段,大數(shù)據(jù)技術(shù)作為一種新興技術(shù)初步出現(xiàn)在人們的視野中,但還并未在全球普及。1.1.1大數(shù)據(jù)的產(chǎn)生背景興盛階段(從2011年至今):2011年,擁有每秒掃描并分析4TB的數(shù)據(jù)量能力的IBM公司研制出的沃森超級(jí)計(jì)算機(jī)橫空出世,直接打破了世界紀(jì)錄,將大數(shù)據(jù)分析提升到新高度;不久后,麥肯錫發(fā)布了《海量數(shù)據(jù),創(chuàng)新、競(jìng)爭(zhēng)和提高生成率的下一個(gè)新領(lǐng)域》,詳細(xì)描述了大數(shù)據(jù)的技術(shù)架構(gòu),并且交代了大數(shù)據(jù)在各個(gè)領(lǐng)域中的應(yīng)用情況;2012年在瑞士達(dá)沃斯召開(kāi)的世界經(jīng)濟(jì)論壇討論了與大數(shù)據(jù)相關(guān)的一系列問(wèn)題,并發(fā)表了《大數(shù)據(jù),大影響》,至此,大數(shù)據(jù)的全球普及時(shí)代來(lái)臨。1.1.1大數(shù)據(jù)的產(chǎn)生背景

199719982005201020112012“大數(shù)據(jù)”概念的首次使用《大數(shù)據(jù)科學(xué)的可視化》文章的發(fā)表Hadoop技術(shù)誕生PITAC發(fā)布《規(guī)劃數(shù)字化未來(lái)》報(bào)告沃森超級(jí)計(jì)算機(jī)橫空出世瑞士達(dá)沃斯召開(kāi)的世界經(jīng)濟(jì)論壇上發(fā)表《大數(shù)據(jù),大影響》大數(shù)據(jù)產(chǎn)生大事件年代表1.1.2大數(shù)據(jù)的概念大數(shù)據(jù)的概念從產(chǎn)生至今仍沒(méi)有一個(gè)公認(rèn)的解釋。以下是兩種被大眾普遍接受的對(duì)大數(shù)據(jù)的定義:麥肯錫的《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》:所謂大數(shù)據(jù),主要是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行獲取、存儲(chǔ)、管理和分析的數(shù)據(jù)集。研究機(jī)構(gòu)Gartner:大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,高增長(zhǎng)率和多樣化的信息資產(chǎn)。1.1.3數(shù)據(jù)的單位數(shù)據(jù)的單位有:bit,B,KB,MB,GB,TB等。其中,最小的存儲(chǔ)單位是bit。單位換算:1B=8bit

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB1.1.4大數(shù)據(jù)的分類(lèi)按字段類(lèi)型分類(lèi):文本類(lèi)、數(shù)值類(lèi)、時(shí)間類(lèi)按數(shù)據(jù)結(jié)構(gòu)分類(lèi):結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)按事物描述分類(lèi):狀態(tài)類(lèi)數(shù)據(jù)、事件類(lèi)數(shù)據(jù)、混合類(lèi)數(shù)據(jù)按數(shù)據(jù)處理分類(lèi):原始數(shù)據(jù)、衍生數(shù)據(jù)按數(shù)據(jù)粒度分類(lèi):明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)按更新方式分類(lèi):批量數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)1.2大數(shù)據(jù)的特點(diǎn)和技術(shù)概述

1.2.1大數(shù)據(jù)的特點(diǎn)volume(海量)過(guò)去,MB的存儲(chǔ)容量就已經(jīng)能滿(mǎn)足很多人數(shù)據(jù)存儲(chǔ)的需求了,但隨著信息技術(shù)的不斷發(fā)展以及數(shù)據(jù)來(lái)源的不斷增多,數(shù)據(jù)呈現(xiàn)幾何指數(shù)爆發(fā)式的增長(zhǎng),人們?nèi)找嬖黾拥拇鎯?chǔ)需求促使存儲(chǔ)單位從過(guò)去的GB到TB,乃至現(xiàn)在的PB、EB級(jí)別,并不可避免的會(huì)增加到ZB級(jí)別。截至2020年,全球數(shù)據(jù)量達(dá)到了60ZB。variety(多樣)廣泛的數(shù)據(jù)來(lái)源決定了大數(shù)據(jù)的多樣性1.2.1大數(shù)據(jù)的特點(diǎn)velocity(高速)高速是區(qū)別大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最顯著的特征。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。大數(shù)據(jù)采用實(shí)時(shí)分析而非批量分析,而數(shù)據(jù)輸入、處理與丟棄立刻見(jiàn)效,幾乎不存在延遲。例:截至2019年,F(xiàn)acebook的日均上傳照片約有3億張;曾經(jīng)需要?dú)v經(jīng)10年破譯的人體基因30億對(duì)堿基數(shù)據(jù),現(xiàn)在僅需15分鐘即可完成;1.2.1大數(shù)據(jù)的特點(diǎn)value(價(jià)值)價(jià)值是大數(shù)據(jù)的核心特征;大數(shù)據(jù)作為重要的基礎(chǔ)型戰(zhàn)略資源,其核心價(jià)值在于應(yīng)用;數(shù)據(jù)雖然海量,但某一對(duì)象或者模塊數(shù)據(jù)的價(jià)值密度很低,有價(jià)值的數(shù)據(jù)所占比例很?。幌啾扔趥鹘y(tǒng)數(shù)據(jù),大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類(lèi)型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過(guò)機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識(shí),并運(yùn)用于各個(gè)領(lǐng)域。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)采集采集來(lái)源:智能硬件端、多種傳感器端、網(wǎng)頁(yè)端、移動(dòng)APP應(yīng)用端等;大數(shù)據(jù)采集的過(guò)程:將各種采集來(lái)源匯集到數(shù)據(jù)庫(kù)中,并使用數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的處理工作;采集的數(shù)據(jù):RFID數(shù)據(jù)、傳感器數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)采集采集的主要方式數(shù)據(jù)抓?。鹤ト?duì)象通常為網(wǎng)絡(luò)數(shù)據(jù),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上抓取數(shù)據(jù)信息。數(shù)據(jù)導(dǎo)入:導(dǎo)入對(duì)象通常為數(shù)據(jù)庫(kù)數(shù)據(jù)和系統(tǒng)日志數(shù)據(jù),企業(yè)通過(guò)在采集端部署大量數(shù)據(jù)庫(kù)(一般使用Redis、MongoDB和HBase等NoSQL數(shù)據(jù)庫(kù)),并在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片,來(lái)完成數(shù)據(jù)采集。物聯(lián)網(wǎng)傳感設(shè)備自動(dòng)信息采集:指通過(guò)物聯(lián)網(wǎng)傳感器將測(cè)量到的物理變量(如聲音、溫度、濕度、電流、距離等)的測(cè)量值轉(zhuǎn)化為數(shù)字信號(hào)并傳送到數(shù)據(jù)采集點(diǎn)的過(guò)程。,常見(jiàn)的物聯(lián)網(wǎng)傳感器包括:接近傳感器、溫度傳感器、化學(xué)傳感器、圖像傳感器和氣體傳感器等。1.2.2大數(shù)據(jù)技術(shù)概述數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行挖掘以前,需要對(duì)原始數(shù)據(jù)進(jìn)行清理、集成與變換等一系列處理工作,以達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)模和標(biāo)準(zhǔn)。隨著數(shù)據(jù)量的爆發(fā)增長(zhǎng),很多數(shù)據(jù)都存在殘缺、混亂、冗余等問(wèn)題,而數(shù)據(jù)預(yù)處理可以有效地規(guī)避這些問(wèn)題,它能糾正錯(cuò)誤的數(shù)據(jù)、將殘缺的數(shù)據(jù)補(bǔ)充完整、將冗余的數(shù)據(jù)清除,挑出需要的數(shù)據(jù),再將這些數(shù)據(jù)集成。1.2.2大數(shù)據(jù)技術(shù)概述數(shù)據(jù)預(yù)處理預(yù)處理常見(jiàn)方法數(shù)據(jù)清洗:通過(guò)光滑噪聲、填充缺失值、識(shí)別或刪除離群點(diǎn)、糾正數(shù)據(jù)不一致的方法,以達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、數(shù)據(jù)錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除的目的。數(shù)據(jù)集成:合并來(lái)自多個(gè)來(lái)自不同或者相同數(shù)據(jù)源的數(shù)據(jù),然后統(tǒng)一存儲(chǔ)在同一數(shù)據(jù)儲(chǔ)存(如數(shù)據(jù)倉(cāng)庫(kù))中。數(shù)據(jù)變換:數(shù)據(jù)變換的目的是將不同的數(shù)據(jù)變換成合適挖掘的形式,常用的方法有規(guī)范化、屬性構(gòu)造、概念分層。數(shù)據(jù)規(guī)約:通過(guò)尋找目標(biāo)數(shù)據(jù)的有用特征,在不損壞數(shù)據(jù)原貌的基礎(chǔ)上減小數(shù)據(jù)規(guī)模,從而達(dá)到精簡(jiǎn)數(shù)據(jù)量的目標(biāo)。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理大數(shù)據(jù)處理是在進(jìn)行了預(yù)處理的基礎(chǔ)上對(duì)數(shù)據(jù)的進(jìn)一步處理,是將數(shù)據(jù)儲(chǔ)存到分布式環(huán)境后的深度處理。常用軟件:Hadoop分布式大數(shù)據(jù)處理系統(tǒng)Hadoop組成部分:用于分布式存儲(chǔ)大容量文件的HDFS(HadoopDistributedFileSystem)、用于對(duì)海量數(shù)據(jù)集(TB級(jí)別)進(jìn)行分布式計(jì)算的MapReduce、超大型數(shù)據(jù)表HBase1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理MapReduce定義:大數(shù)據(jù)處理最重要的一種分布式計(jì)算模型模型本質(zhì):實(shí)現(xiàn)Map(映射)函數(shù)、Reduce(歸約)函數(shù)計(jì)算邏輯:“分治”1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理MapReduce計(jì)算邏輯以計(jì)算1+2+3+4+5+6+7+8+9的結(jié)果為例子:1+2+34+5+67+8+96152445Map(映射)Reduce(歸約)1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析大數(shù)據(jù)分析是通過(guò)對(duì)數(shù)據(jù)的分析,創(chuàng)建模型。步驟:先從問(wèn)題的定義入手,明確數(shù)據(jù)分析的目的;緊接著進(jìn)行數(shù)據(jù)準(zhǔn)備工作,包括在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)提取目標(biāo)數(shù)據(jù)集,并對(duì)提取到的目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)完整性以及一致性的檢查、去除噪音、填補(bǔ)丟失域、刪除無(wú)效數(shù)據(jù)等的一系列數(shù)據(jù)再加工過(guò)程;接著根據(jù)數(shù)據(jù)的類(lèi)型以及數(shù)據(jù)的特點(diǎn)選擇算法,對(duì)進(jìn)行上一步加工后的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析;最終將數(shù)據(jù)分析的結(jié)果解釋成能被用戶(hù)理解的知識(shí),傳遞給用戶(hù)。常用方法:分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、預(yù)測(cè)模型等。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法分類(lèi):是根據(jù)重要數(shù)據(jù)類(lèi)的特征向量值及約束條件,構(gòu)造分類(lèi)函數(shù)或者分類(lèi)模型的一種數(shù)據(jù)分析的形式。典型算法有:樸素貝葉斯算法、KNN、SVM等。聚類(lèi):是指將具有相似特征屬性的數(shù)據(jù)聚集在一起,從而使得不同的數(shù)據(jù)群有著分明的特征區(qū)別。通過(guò)聚類(lèi)分析,我們能從中發(fā)現(xiàn)各種數(shù)據(jù)屬性之間存在的相互干系,以及相似數(shù)據(jù)屬性之間存在的分布模式。典型算法有:BIRCH算法、K-means算法、EM算法等。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法關(guān)聯(lián)規(guī)則:是指通過(guò)索引系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來(lái)的規(guī)則,以獲得預(yù)先未知的和被隱藏的,不能通過(guò)數(shù)據(jù)庫(kù)的邏輯操作或統(tǒng)計(jì)的方法得出的信息。關(guān)聯(lián)分析一般用支持度(Support)和置信度(Confidence)兩個(gè)閾值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性,并不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘到的關(guān)聯(lián)規(guī)則更符合需求,關(guān)聯(lián)規(guī)則挖掘算法是關(guān)聯(lián)規(guī)則挖掘研究的主要內(nèi)容,Apriori算法和FP-Growth(頻繁模式增長(zhǎng))算法都是比較著名的關(guān)聯(lián)規(guī)則算法。以Apriori算法為例:Apriori算法主要包括三個(gè)步驟:①用戶(hù)先指定一個(gè)最小支持度;②找到事務(wù)數(shù)據(jù)庫(kù)中所有大于還有等于最小支持度的數(shù)據(jù)項(xiàng)集;③利用頻繁項(xiàng)集生成我們所需要的關(guān)聯(lián)規(guī)則,并使用第一步已經(jīng)指定的最小支持度來(lái)進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則;1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法預(yù)測(cè)模型:是從歷史數(shù)據(jù)中找出變化規(guī)律,建立模型,并由這個(gè)模型預(yù)測(cè)未來(lái)數(shù)據(jù)的種類(lèi)和特征的方法。包括可以在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來(lái)結(jié)果的算法和技術(shù),可為預(yù)測(cè)、優(yōu)化、預(yù)報(bào)和模擬等許多業(yè)務(wù)系統(tǒng)所使用。而預(yù)測(cè)模型的建立著重關(guān)注于數(shù)據(jù)的精度和不確定性,因此通常會(huì)使用預(yù)測(cè)方差進(jìn)行度量。1.3大數(shù)據(jù)的應(yīng)用與價(jià)值體現(xiàn)

1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域電商行業(yè):利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),是大數(shù)據(jù)技術(shù)最早應(yīng)用的行業(yè)。電商平臺(tái)會(huì)借助大數(shù)據(jù)技術(shù)對(duì)區(qū)域消費(fèi)特征、客戶(hù)消費(fèi)習(xí)慣、消費(fèi)熱點(diǎn)等進(jìn)行預(yù)測(cè)。例:淘寶、京東金融行業(yè):隨著信息技術(shù)在金融業(yè)的廣泛應(yīng)用,海量數(shù)據(jù)都存儲(chǔ)在金融機(jī)構(gòu)中,數(shù)據(jù)創(chuàng)造的利潤(rùn)抵不上其管理成本迫使金融業(yè)不得不去尋找可以將這些數(shù)據(jù)轉(zhuǎn)換成可以創(chuàng)造實(shí)際價(jià)值的內(nèi)容的方法,而大數(shù)據(jù)的深度挖掘技術(shù)為其提供了有效的解決方案。大數(shù)據(jù)在金融業(yè)的應(yīng)用主要分布在三個(gè)領(lǐng)域:銀行:繪制客戶(hù)畫(huà)像、精準(zhǔn)營(yíng)銷(xiāo)、風(fēng)險(xiǎn)管理與風(fēng)險(xiǎn)控制、運(yùn)營(yíng)優(yōu)化保險(xiǎn):客戶(hù)細(xì)分和精準(zhǔn)營(yíng)銷(xiāo)、產(chǎn)品設(shè)計(jì)、運(yùn)營(yíng)優(yōu)化、欺詐行為分析證券:股價(jià)預(yù)測(cè)、客戶(hù)關(guān)系管理、智能投資顧問(wèn)、投資景氣指數(shù)

1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域

醫(yī)療行業(yè):大量的病例、藥物報(bào)告、病情報(bào)告、治療方案,使得大數(shù)據(jù)的處理和分析技術(shù)在醫(yī)療保健領(lǐng)域的使用中非常有效。例:新冠疫情期間的健康寶和通行卡、遠(yuǎn)程診療系統(tǒng)智慧城市:城市的規(guī)模不斷擴(kuò)大,城市的人口不斷增長(zhǎng)、城市的結(jié)構(gòu)越來(lái)越復(fù)雜、精細(xì)化的城市治理勢(shì)在必行。大數(shù)據(jù)對(duì)于提高公共管理和工共服務(wù)水平十分有效。在實(shí)現(xiàn)信息透明和信息共享、評(píng)估政府部門(mén)績(jī)效、政策制定與決策、智慧城市建設(shè)方面的應(yīng)用都是一次重大的突破。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域教育行業(yè):大數(shù)據(jù)為用戶(hù)提供的個(gè)性化服務(wù)的功能也已經(jīng)在教育領(lǐng)域中實(shí)現(xiàn),從校長(zhǎng)到老師,老師到家長(zhǎng),家長(zhǎng)到學(xué)生,大數(shù)據(jù)都能根據(jù)不同角色所需,為他們提供個(gè)性化分析報(bào)告,不斷優(yōu)化教育機(jī)制、整合教育資源、明確教學(xué)方向、改進(jìn)教學(xué)方式等,而也正是這種應(yīng)用,讓鄉(xiāng)村的孩子也能通過(guò)網(wǎng)絡(luò)接受大城市更加優(yōu)秀的教育。大數(shù)據(jù)還可以幫助老師和家長(zhǎng)找到不同孩子之間學(xué)習(xí)上存在的差距從而有針對(duì)性地為學(xué)生制定出適合他們的一套有效的學(xué)習(xí)方案;依賴(lài)大數(shù)據(jù)技術(shù),教育部門(mén)能做出更加合理、更加科學(xué)的決策,從而跟隨時(shí)代不斷地優(yōu)化教育機(jī)制,推動(dòng)教育改革。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域農(nóng)業(yè)領(lǐng)域:農(nóng)業(yè)與大數(shù)據(jù)的結(jié)合應(yīng)用可以節(jié)約農(nóng)產(chǎn)品資源、增加農(nóng)產(chǎn)品流通率,促進(jìn)農(nóng)業(yè)生產(chǎn)力發(fā)展,有利于實(shí)現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展。農(nóng)業(yè)生產(chǎn)過(guò)程會(huì)產(chǎn)生大量的數(shù)據(jù),包括種植物的生長(zhǎng)狀況信息的數(shù)據(jù)、植物生長(zhǎng)所需要素(例如,土壤、溫度等)信息的數(shù)據(jù)、環(huán)境氣象信息的數(shù)據(jù)、農(nóng)藥化肥信息的數(shù)據(jù)等,這些數(shù)據(jù)通常通過(guò)遙感圖像以及傳感器獲取農(nóng)作物生長(zhǎng)環(huán)境中的各項(xiàng)指數(shù)數(shù)據(jù),再把這些采集的數(shù)據(jù)傳送到本地或云端的數(shù)據(jù)中心,從而對(duì)農(nóng)業(yè)生產(chǎn)的歷史數(shù)據(jù)和實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)進(jìn)行分析,提高對(duì)農(nóng)作物各項(xiàng)相關(guān)數(shù)據(jù)的關(guān)聯(lián)監(jiān)測(cè)能力。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域環(huán)境領(lǐng)域:大數(shù)據(jù)技術(shù)在環(huán)境保護(hù)領(lǐng)域的應(yīng)用有兩個(gè)亮點(diǎn)。第一個(gè)是實(shí)時(shí)且不間斷地檢測(cè)環(huán)境的變化,應(yīng)用大數(shù)據(jù)工具收集到大量關(guān)于各項(xiàng)環(huán)境質(zhì)量指標(biāo)的數(shù)據(jù)信息,并將這些數(shù)據(jù)信息傳輸?shù)街行臄?shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的處理以及分析,用于環(huán)境治理方案的制定;第二個(gè)是實(shí)時(shí)檢測(cè)環(huán)境治理效果,動(dòng)態(tài)更新治理方案。技術(shù)人員采用可視化方法將環(huán)境數(shù)據(jù)分析結(jié)果和治理模型立體化展現(xiàn),為了檢測(cè)制定的環(huán)境保護(hù)方案是否是有效的,技術(shù)人員通過(guò)用于測(cè)試的模擬環(huán)境數(shù)據(jù),建立模型來(lái)模擬真實(shí)環(huán)境。社會(huì)安全領(lǐng)域:國(guó)家可以通過(guò)大數(shù)據(jù)技術(shù)監(jiān)控違法亂紀(jì)行為并且應(yīng)用大數(shù)據(jù)貢酒抓捕在逃罪犯,企業(yè)也可以利用大數(shù)據(jù)技術(shù)防御黑客惡意的網(wǎng)絡(luò)攻擊等。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域交通領(lǐng)域:大數(shù)據(jù)技術(shù)在交通領(lǐng)域的應(yīng)用主要集中在兩方面。一方面我們可以利用大數(shù)據(jù)傳感器實(shí)時(shí)收集到各個(gè)路段車(chē)輛數(shù)量的數(shù)據(jù),從而了解到不同路段在不同時(shí)段的車(chē)輛通行密度情況,合理地根據(jù)這些信息對(duì)道路規(guī)劃(例如某個(gè)路段是否在某個(gè)時(shí)間段只能單行、某個(gè)路段是否在某個(gè)時(shí)段只能允許單號(hào)車(chē)輛同行等)進(jìn)行及時(shí)的調(diào)整;另一個(gè)方面,我們可以利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)信號(hào)燈的合理安排,提高已有線(xiàn)路的運(yùn)行能力??挂哳I(lǐng)域:大數(shù)據(jù)在抗疫領(lǐng)域的應(yīng)用主要集中在兩方面。一方面是利用大數(shù)據(jù)進(jìn)行疫情的輿情分析,大數(shù)據(jù)技術(shù)已經(jīng)成為疫情背景下分析民情民意必不可少的一部分,它能精準(zhǔn)地分析出民眾的需求和問(wèn)題;另一方面,大數(shù)據(jù)技術(shù)還可以通過(guò)收集用戶(hù)實(shí)時(shí)的位置信息或者在各種app鐘留存的地址信息實(shí)時(shí)追蹤感染者的移動(dòng)軌跡并記錄感染者的人群接觸史,通過(guò)建立知識(shí)圖譜,精準(zhǔn)定位疫情的傳播途徑,防止疫情的擴(kuò)散。1.4大數(shù)據(jù)時(shí)代的思維變革

1.4大數(shù)據(jù)時(shí)代的思維變革維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中提出:“大數(shù)據(jù),一場(chǎng)生活、工作與思維的大變革。”大數(shù)據(jù)帶來(lái)信息風(fēng)暴正在變革我們的生活、工作以及思維方式。大數(shù)據(jù)時(shí)代的到來(lái)將會(huì)給我們帶來(lái)三個(gè)思維轉(zhuǎn)變,即從樣本思維轉(zhuǎn)變?yōu)榭傮w思維,從精確思維轉(zhuǎn)變?yōu)槿蒎e(cuò)思維,從因果思維轉(zhuǎn)變?yōu)橄嚓P(guān)思維,從自然思維轉(zhuǎn)變?yōu)橹悄芩季S。1.4大數(shù)據(jù)時(shí)代的思維變革更多不是隨機(jī)樣本,而是全體數(shù)據(jù)由于采集與分析大量的數(shù)據(jù)在以前是十分復(fù)雜與困難的,故我們常用隨機(jī)取樣是采集與分析大量數(shù)據(jù),但這個(gè)方法只能以將從小部分?jǐn)?shù)據(jù)中得來(lái)的規(guī)律推廣到總體,若是存在偏見(jiàn),則結(jié)果也會(huì)存在偏差;并且也只能回答我們?cè)谠O(shè)計(jì)取樣之初提出的問(wèn)題,無(wú)法解答我們?cè)诜治鰯?shù)據(jù)過(guò)程中產(chǎn)生的新問(wèn)題,缺乏調(diào)查延展性。相比于小數(shù)據(jù),大數(shù)據(jù)更加強(qiáng)調(diào)數(shù)據(jù)的多樣性和整體性。大數(shù)據(jù)時(shí)代,采取全數(shù)據(jù)模式,即采用所有數(shù)據(jù),可以理解為“樣本=總體”,只有將思維方式從樣本思維轉(zhuǎn)變?yōu)榭傮w思維,才能更加全面并且系統(tǒng)地把握數(shù)據(jù)反映出來(lái)規(guī)律或者現(xiàn)實(shí);此外,基于大數(shù)據(jù)時(shí)代的全數(shù)據(jù)模式,我們收集到的數(shù)據(jù)從少量轉(zhuǎn)變?yōu)楹A?,并且我們收集的?shù)據(jù)也已經(jīng)不再僅僅局限于某一段特定的時(shí)間,而是擴(kuò)大到那些實(shí)時(shí)更新的數(shù)據(jù),得益于收集到的實(shí)時(shí)更新的海量數(shù)據(jù),大數(shù)據(jù)分析還具有即時(shí)性。1.4大數(shù)據(jù)時(shí)代的思維變革更雜不是精確性,而是混雜性混雜性:隨著數(shù)據(jù)量的增加,數(shù)據(jù)的錯(cuò)誤率也在增加;接受不同格式的數(shù)據(jù),只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能使用傳統(tǒng)數(shù)據(jù)庫(kù),如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無(wú)法被利用。伴隨著數(shù)據(jù)的混雜性的不斷增長(zhǎng),數(shù)據(jù)的多樣性也同時(shí)在增長(zhǎng)。小數(shù)據(jù)時(shí)代,我們追求數(shù)據(jù)的精確性;大數(shù)據(jù)時(shí)代,得益于大數(shù)據(jù)技術(shù)的不斷突破和發(fā)展,大量非結(jié)構(gòu)化的數(shù)據(jù)的分析和處理能力日趨增強(qiáng),數(shù)據(jù)量的爆發(fā)式增長(zhǎng)及數(shù)據(jù)采集頻率的增加必然會(huì)造成結(jié)果的不準(zhǔn)確,一些錯(cuò)誤數(shù)據(jù)也會(huì)混入數(shù)據(jù)庫(kù),但因?yàn)榇髷?shù)據(jù)的海量性,我們不需要擔(dān)心某個(gè)或某些數(shù)據(jù)點(diǎn)對(duì)結(jié)果的不利影響,仍可以利用這些數(shù)據(jù)預(yù)測(cè)趨。錯(cuò)誤數(shù)據(jù)的固有特性,是由測(cè)量、記錄和交流數(shù)據(jù)使用的工具所產(chǎn)生的問(wèn)題。1.4大數(shù)據(jù)時(shí)代的思維變革更好不是因果關(guān)系,而是相關(guān)關(guān)系確定相關(guān)關(guān)系只是通過(guò)識(shí)別良好的關(guān)聯(lián)來(lái)幫助我們分析某一個(gè)現(xiàn)象,而不是用來(lái)揭示其內(nèi)部的運(yùn)作機(jī)制。找準(zhǔn)相關(guān)關(guān)系,我們必須聚焦于“是什么”而非“為什么”。相關(guān)關(guān)系分析法通過(guò)研究和分析數(shù)據(jù)之間存在的線(xiàn)性相關(guān)關(guān)系以及復(fù)雜的非線(xiàn)性相關(guān)關(guān)系,不僅能幫助人們很有效地解決了偏見(jiàn)可能會(huì)造成的偏差,還能幫助人們挖掘出更多隱藏在數(shù)據(jù)之中不容易被注意到的關(guān)聯(lián)性,這對(duì)于我們捕捉當(dāng)下情況和預(yù)測(cè)未來(lái)趨勢(shì)是非常有幫助的。相關(guān)關(guān)系的核心在于量化兩個(gè)數(shù)據(jù)值之間的數(shù)據(jù)關(guān)系,要明確相關(guān)關(guān)系,找到良好的關(guān)聯(lián)物便是關(guān)鍵所在。1.5國(guó)家大數(shù)據(jù)戰(zhàn)略

1.5.1國(guó)家大數(shù)據(jù)戰(zhàn)略的歷史沿革2012年11月,廣東省率先啟動(dòng)大數(shù)據(jù)戰(zhàn)略,根據(jù)《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》,廣東省將建立省大數(shù)據(jù)戰(zhàn)略工作領(lǐng)導(dǎo)小組等,為保證大數(shù)據(jù)戰(zhàn)略有效實(shí)施,廣東省還將建設(shè)政務(wù)數(shù)據(jù)中心,并未高等院校和企業(yè)等成立大數(shù)據(jù)研究機(jī)構(gòu)提供支持。廣東省還將在政府各部門(mén)開(kāi)展數(shù)據(jù)開(kāi)放試點(diǎn),并通過(guò)部門(mén)網(wǎng)站向社會(huì)開(kāi)放可供下載和分析使用的數(shù)據(jù),進(jìn)一步推進(jìn)政務(wù)公開(kāi)。2014年3月,大數(shù)據(jù)首次寫(xiě)入政府工作報(bào)告。2015年10月,黨的十八屆五中全會(huì)正式提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó),推動(dòng)數(shù)據(jù)資源開(kāi)放共享,釋放技術(shù)紅利、制度紅利和創(chuàng)新紅利,促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型升級(jí)”。這表明我國(guó)已將大數(shù)據(jù)視作戰(zhàn)略資源并上升為國(guó)家戰(zhàn)略,期望運(yùn)用大數(shù)據(jù)推動(dòng)經(jīng)濟(jì)發(fā)展、完善社會(huì)治理、提升政府服務(wù)和監(jiān)管能力。2016年12月,為貫徹落實(shí)《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,加快實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)健康快速發(fā)展,工信部編制了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》。1.5.1國(guó)家大數(shù)據(jù)戰(zhàn)略的歷史沿革2017年12月,習(xí)近平主席主持中央政治局就實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略第二次集體學(xué)習(xí)。習(xí)近平總書(shū)記在主持學(xué)習(xí)時(shí)強(qiáng)調(diào),大數(shù)據(jù)發(fā)展日新月異,我們應(yīng)該審時(shí)度勢(shì)、精心謀劃、超前布局、力爭(zhēng)主動(dòng),深入了解大數(shù)據(jù)發(fā)展現(xiàn)狀和趨勢(shì)及其對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的影響,分析我國(guó)大數(shù)據(jù)發(fā)展取得的成績(jī)和存在的問(wèn)題,推動(dòng)實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,加快完善數(shù)字基礎(chǔ)設(shè)施,推進(jìn)數(shù)據(jù)資源整合和開(kāi)放共享,保障數(shù)據(jù)安全,加快建設(shè)數(shù)字中國(guó),更好服務(wù)我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展和人民生活改善;

1.5.1國(guó)家大數(shù)據(jù)戰(zhàn)略的歷史沿革習(xí)近平總書(shū)記還強(qiáng)調(diào),要推動(dòng)大數(shù)據(jù)技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展。我國(guó)網(wǎng)絡(luò)購(gòu)物、移動(dòng)支付、共享經(jīng)濟(jì)等數(shù)字經(jīng)濟(jì)新業(yè)態(tài)新模式蓬勃發(fā)展,走在了世界前列。我們要瞄準(zhǔn)世界科技前沿,集中優(yōu)勢(shì)資源突破大數(shù)據(jù)核心技術(shù),加快構(gòu)建自主可控的大數(shù)據(jù)產(chǎn)業(yè)鏈、價(jià)值鏈和生態(tài)系統(tǒng)。要加快構(gòu)建高速、移動(dòng)、安全、泛在的新一代信息基礎(chǔ)設(shè)施,統(tǒng)籌規(guī)劃政務(wù)數(shù)據(jù)資源和社會(huì)數(shù)據(jù)資源,完善基礎(chǔ)信息資源和重要領(lǐng)域信息資源建設(shè),形成萬(wàn)物互聯(lián)、人機(jī)交互、天地一體的網(wǎng)絡(luò)空間。要發(fā)揮我國(guó)制度優(yōu)勢(shì)和市場(chǎng)優(yōu)勢(shì),面向國(guó)家重大需求,面向國(guó)民經(jīng)濟(jì)發(fā)展主戰(zhàn)場(chǎng),全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),完善大數(shù)據(jù)發(fā)展政策環(huán)境。要堅(jiān)持?jǐn)?shù)據(jù)開(kāi)發(fā)、市場(chǎng)主導(dǎo),以數(shù)據(jù)為紐帶促進(jìn)產(chǎn)學(xué)研深度融合,形成數(shù)據(jù)驅(qū)動(dòng)型創(chuàng)新體系和發(fā)展模式,培育造就一批大數(shù)據(jù)領(lǐng)軍企業(yè),打造多層次、多類(lèi)型的大數(shù)據(jù)人才隊(duì)伍;1.5.1國(guó)家大數(shù)據(jù)戰(zhàn)略的歷史沿革

另外,習(xí)近平總書(shū)記也指出了,要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字

經(jīng)濟(jì)

。建設(shè)現(xiàn)代化經(jīng)濟(jì)體系離不開(kāi)大數(shù)據(jù)發(fā)展和應(yīng)用。我們要堅(jiān)

持以供給側(cè)結(jié)構(gòu)性改革為主線(xiàn),加快發(fā)展數(shù)字經(jīng)濟(jì),推動(dòng)實(shí)體經(jīng)濟(jì)

和數(shù)字經(jīng)濟(jì)融合發(fā)展,推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能同實(shí)體經(jīng)濟(jì)

深度融合,繼續(xù)做好信息化和工業(yè)化深度融合這篇大文章,推動(dòng)制

造業(yè)加速向數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展。要深入實(shí)施工業(yè)互聯(lián)網(wǎng)

創(chuàng)新發(fā)展戰(zhàn)略,系統(tǒng)推進(jìn)工業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施和數(shù)據(jù)資源管理體系

建設(shè),發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用,加快形成以創(chuàng)新

為主要引領(lǐng)和支撐的數(shù)字經(jīng)濟(jì)。2018年5月,習(xí)近平在向中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)的致辭中指出,我們秉持創(chuàng)新、協(xié)調(diào)、綠色、開(kāi)放、共享的發(fā)展理念,圍繞建設(shè)網(wǎng)

絡(luò)強(qiáng)國(guó)、數(shù)字中國(guó)、智慧社會(huì),全面實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,助力中

國(guó)經(jīng)濟(jì)從高速增長(zhǎng)轉(zhuǎn)向高質(zhì)量發(fā)展。1.5.1國(guó)家大數(shù)據(jù)戰(zhàn)略的歷史沿革2019年11月,黨的第十九屆四中全會(huì)召開(kāi)為推進(jìn)國(guó)家治理體系和治理能力現(xiàn)代化進(jìn)行戰(zhàn)略布局。政府?dāng)?shù)字化轉(zhuǎn)型的成效,直接關(guān)乎國(guó)家治理現(xiàn)代化的成就。十九屆四中全會(huì)明確提出,“建立健全運(yùn)用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)手段進(jìn)行行政管理的制度規(guī)則,推進(jìn)數(shù)字政府建設(shè),加強(qiáng)數(shù)據(jù)有序共享,依法保護(hù)個(gè)人信息”,為政府?dāng)?shù)字化轉(zhuǎn)型規(guī)定了方向。2020年《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》的發(fā)表,大數(shù)據(jù)被正式列為新型生產(chǎn)要素。2021年11月30日,工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》。《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》提出“十四五”時(shí)期的總體目標(biāo),到2025年我國(guó)大數(shù)據(jù)產(chǎn)業(yè)測(cè)算規(guī)模突破3萬(wàn)億元,年均復(fù)合增長(zhǎng)率保持25%左右,創(chuàng)新力強(qiáng)、附加值高、自主可控的現(xiàn)代化大數(shù)據(jù)產(chǎn)業(yè)體系基本形成。1.5.2國(guó)家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景“全球化”的世界背景以及“一帶一路”總體戰(zhàn)略的提出在全球化的大背景下,世界各國(guó)之間相互聯(lián)系、相互依賴(lài),相互滲透,關(guān)系越來(lái)越密切,已經(jīng)成為一個(gè)不可分割的有機(jī)整體,為了順應(yīng)時(shí)代潮流,我國(guó)提出“人類(lèi)命運(yùn)共同體”理念,并據(jù)此提出“一帶一路”總體戰(zhàn)略。大數(shù)據(jù)時(shí)代的到來(lái),更加拉近了國(guó)與國(guó)之間的距離,國(guó)家大數(shù)據(jù)戰(zhàn)略,需要立足于“人類(lèi)命運(yùn)共同體”理念。因此,國(guó)家大數(shù)據(jù)戰(zhàn)略必須服務(wù)于“一帶一路”,實(shí)現(xiàn)以數(shù)字驅(qū)動(dòng)“一帶一路”,通過(guò)大數(shù)據(jù)技術(shù)的利用,來(lái)解決“一帶一路”建設(shè)中存在的風(fēng)險(xiǎn)。由于“一帶一路”涉及沿線(xiàn)國(guó)家的經(jīng)濟(jì)、政治、金融等多個(gè)領(lǐng)域,不僅涵蓋的領(lǐng)域眾多,涵蓋的國(guó)家、地區(qū)、企業(yè)、團(tuán)體甚至個(gè)人也很多,這導(dǎo)致了非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)混雜在一起,為了降低數(shù)據(jù)結(jié)構(gòu)復(fù)雜性來(lái)帶的風(fēng)險(xiǎn),我們必須應(yīng)用大數(shù)據(jù)技術(shù)對(duì)各個(gè)領(lǐng)域、各個(gè)對(duì)象涵蓋的海量數(shù)據(jù)進(jìn)行收集、清洗、處理和分析,構(gòu)建大數(shù)據(jù)指標(biāo)體系,為“一帶一路”提供智能決策支持,從而不斷推進(jìn)數(shù)字化的“一帶一路”的建設(shè)。1.5.2國(guó)家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景國(guó)家安全面臨錯(cuò)綜復(fù)雜的形勢(shì)習(xí)總書(shū)記指出:“當(dāng)前我國(guó)國(guó)家安全內(nèi)涵和外延比歷史上任何時(shí)候都要豐富,時(shí)空領(lǐng)域比歷史上任何時(shí)候都要寬廣,內(nèi)外因素比歷史上任何時(shí)候都要復(fù)雜,必須堅(jiān)持總體國(guó)家安全觀,以人民安全為宗旨,以政治安全為根本,以經(jīng)濟(jì)安全為基礎(chǔ),以軍事、文化、社會(huì)安全為保障,以促進(jìn)國(guó)際安全為依托,走出一條中國(guó)特色國(guó)家安全道路。貫徹落實(shí)總體國(guó)家安全觀,必須既重視外部安全,又重視內(nèi)部安全,對(duì)內(nèi)求發(fā)展、求變革、求穩(wěn)定、建設(shè)平安中國(guó),對(duì)外求和平、求合作、求共贏、建設(shè)和諧世界;既重視國(guó)土安全,又重視國(guó)民安全,堅(jiān)持以民為本、以人為本,堅(jiān)持國(guó)家安全一切為了人民、一切依靠人民,真正夯實(shí)國(guó)家安全的群眾基礎(chǔ);既重視傳統(tǒng)安全,又重視非傳統(tǒng)安全,構(gòu)建集政治安全、國(guó)土安全、軍事安全、經(jīng)濟(jì)安全、文化安全、社會(huì)安全、科技安全、信息安全、生態(tài)安全、資源安全、核安全等于一體的國(guó)家安全體系;既重視發(fā)展問(wèn)題,又重視安全問(wèn)題,發(fā)展是安全的基礎(chǔ),安全是發(fā)展的條件,富國(guó)才能強(qiáng)兵,強(qiáng)兵才能衛(wèi)國(guó);既重視自身安全,又重視共同安全,打造命運(yùn)共同體,推動(dòng)各方朝著互利互惠、共同安全的目標(biāo)相向而行。1.5.2國(guó)家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景國(guó)家安全面臨錯(cuò)綜復(fù)雜的形勢(shì)在當(dāng)下大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全直接關(guān)乎于國(guó)家安全和公共利益,故而國(guó)家安全的重點(diǎn)將聚焦于數(shù)據(jù)安全。2021年6月11日,十三屆全國(guó)人大常委會(huì)第二十九次會(huì)議通過(guò)了我國(guó)第一部有關(guān)數(shù)據(jù)安全的專(zhuān)門(mén)法律——《數(shù)據(jù)安全法》,并且于2021年9月1日起開(kāi)始施行?!稊?shù)據(jù)安全法》的通過(guò),是我國(guó)首次將數(shù)據(jù)安全提升至國(guó)家安全層面。1.5.2國(guó)家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景我國(guó)經(jīng)濟(jì)發(fā)展的不平衡不充分我國(guó)經(jīng)濟(jì)發(fā)展的不平衡不充分主要體現(xiàn)在兩方面:第一,我國(guó)供給和需求仍然存在不平衡的問(wèn)題,隨著人們生活水平的不斷提高,其需求結(jié)構(gòu)正在轉(zhuǎn)向中高端產(chǎn)品,供給結(jié)構(gòu)仍然還停留在主要供給低端產(chǎn)品,導(dǎo)致低端供給過(guò)剩、中高端供給不足,因此供給結(jié)構(gòu)無(wú)法很好地適應(yīng)需求結(jié)構(gòu)的變化;第二,傳統(tǒng)產(chǎn)業(yè)利用大數(shù)據(jù)技術(shù)進(jìn)行產(chǎn)業(yè)重塑或者轉(zhuǎn)型的成效并不理想,數(shù)字經(jīng)濟(jì)與傳統(tǒng)產(chǎn)業(yè)的融合并不徹底,許多產(chǎn)業(yè)的創(chuàng)新能力依然無(wú)法適應(yīng)經(jīng)濟(jì)高質(zhì)量發(fā)展的要求,創(chuàng)新驅(qū)動(dòng)經(jīng)濟(jì)增長(zhǎng)的新格局還未形成。因此,我國(guó)一方面需要利用大數(shù)據(jù)技術(shù)助力傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級(jí);另一方面需要大數(shù)據(jù)技術(shù)與實(shí)體經(jīng)濟(jì)進(jìn)行深度融合,開(kāi)發(fā)出新產(chǎn)業(yè)、新業(yè)態(tài)、新模式;并且,我國(guó)還需要借助大數(shù)據(jù)技術(shù),不斷提升產(chǎn)業(yè)技術(shù)創(chuàng)新能力,從而不斷提高企業(yè)的生產(chǎn)效率和運(yùn)營(yíng)效率,實(shí)現(xiàn)新舊產(chǎn)業(yè)的可持續(xù)發(fā)展。1.5.2國(guó)家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景社會(huì)治理的迫切需求以前,我國(guó)的社會(huì)治理存在著一個(gè)不容忽視的問(wèn)題——“數(shù)據(jù)孤島”問(wèn)題?!皵?shù)據(jù)孤島”指的是政府與社會(huì)各個(gè)部分之間的數(shù)據(jù)無(wú)法連接互動(dòng),從而影響政府治理的效率。而大數(shù)據(jù)技術(shù)在社會(huì)治理中的應(yīng)用,很好地解決了這個(gè)問(wèn)題。借助大數(shù)據(jù)體系,將現(xiàn)有數(shù)據(jù)通公布在一個(gè)開(kāi)放的網(wǎng)絡(luò)平臺(tái)并允許社會(huì)各界無(wú)償使用。這些數(shù)據(jù)不僅可以直接給百姓提供服務(wù),還可以用于企業(yè)、科研機(jī)構(gòu)以及公益組織等的進(jìn)一步處理和分析;政府也可以通過(guò)平臺(tái)上的反饋信息,評(píng)估政策的施行效果,并對(duì)政策進(jìn)行及時(shí)的調(diào)整。至此,“數(shù)據(jù)孤島”問(wèn)題迎刃而解的同時(shí),政府也提高了其基礎(chǔ)服務(wù)能力。除了數(shù)據(jù)的共享,政府還可以借助大數(shù)據(jù)技術(shù)將原始大數(shù)據(jù)進(jìn)行加工和分析,最終將這些分析好的數(shù)據(jù)用于預(yù)測(cè)未來(lái)可能發(fā)生的事件或者是找到一些潛藏的關(guān)聯(lián)關(guān)系,從而增強(qiáng)政府決策的科學(xué)性。1.5.3國(guó)家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持以創(chuàng)新作為發(fā)展的驅(qū)動(dòng)力我國(guó)既是世界上擁有網(wǎng)民數(shù)量最多的國(guó)家,也是重要的大數(shù)據(jù)資源集散地,構(gòu)筑在網(wǎng)絡(luò)技術(shù)與數(shù)據(jù)開(kāi)發(fā)利用基礎(chǔ)上的新技術(shù)、新產(chǎn)品、新服務(wù)以及新產(chǎn)業(yè)、新業(yè)態(tài),為吸引企業(yè)、社會(huì)組織以及公眾的參與提供了巨大的數(shù)據(jù)空間和大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新的發(fā)展平臺(tái)。堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展的大數(shù)據(jù)戰(zhàn)略不僅能夠成功激發(fā)企業(yè)和全社會(huì)運(yùn)用大數(shù)據(jù)的創(chuàng)新活力,為經(jīng)濟(jì)社會(huì)發(fā)展釋放潛能和創(chuàng)造力,而且有助于借用民智,營(yíng)造跨地域、跨領(lǐng)域、跨行業(yè)集成融合的大數(shù)據(jù)應(yīng)用生態(tài),進(jìn)而實(shí)現(xiàn)大數(shù)據(jù)驅(qū)動(dòng)全社會(huì)創(chuàng)新發(fā)展的良好局面,增強(qiáng)大數(shù)據(jù)集成創(chuàng)新能力與國(guó)家大數(shù)據(jù)競(jìng)爭(zhēng)力。1.5.3國(guó)家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持政府?dāng)?shù)字治理體系變革與經(jīng)濟(jì)社會(huì)發(fā)展方式整體改革相協(xié)調(diào)大數(shù)據(jù)是數(shù)字時(shí)代的新型戰(zhàn)略資源,其開(kāi)發(fā)利用水平取決于大數(shù)據(jù)與政府公共管理、企業(yè)生產(chǎn)經(jīng)營(yíng)與社會(huì)自我培育的深度融合。換句話(huà)說(shuō),既要高度重視大數(shù)據(jù)技術(shù)與政府?dāng)?shù)據(jù)治理雙重遞進(jìn)、疊加作用而帶來(lái)的國(guó)家治理體系與政府治理能力的現(xiàn)代化,充分運(yùn)用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等手段擴(kuò)大數(shù)據(jù)開(kāi)放、優(yōu)化政府流程、改進(jìn)行政方式、提高決策科學(xué)化精準(zhǔn)化;也要統(tǒng)籌推進(jìn)大數(shù)據(jù)戰(zhàn)略與經(jīng)濟(jì)發(fā)展、社會(huì)治理的無(wú)縫對(duì)接。只有堅(jiān)持政府、企業(yè)和社會(huì)大數(shù)據(jù)戰(zhàn)略的整體化推進(jìn)和數(shù)據(jù)治理的國(guó)家統(tǒng)籌,才能形成完整的大數(shù)據(jù)開(kāi)發(fā)利用合力。單獨(dú)強(qiáng)調(diào)某一方面,都會(huì)帶來(lái)數(shù)據(jù)治理的碎片化與數(shù)據(jù)綜合效用的衰減。1.5.3國(guó)家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持速度、結(jié)構(gòu)與質(zhì)量效益相統(tǒng)一大數(shù)據(jù)是信息時(shí)代的新型戰(zhàn)略資源,其開(kāi)發(fā)利用必須將速度、結(jié)構(gòu)與質(zhì)量效益相統(tǒng)一。大數(shù)據(jù)技術(shù)的應(yīng)用,通過(guò)對(duì)海量數(shù)據(jù)的挖掘和分析,及時(shí)反饋這些數(shù)據(jù)背后潛藏的信息,將這些分析出的信息與政府、各個(gè)行業(yè)以及百姓生活的深度融合,以此提高政府治理能力、促進(jìn)各個(gè)行業(yè)的產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化以及可持續(xù)發(fā)展、不斷改善人民的生活水平,從而形成完整的大數(shù)據(jù)開(kāi)發(fā)利用鏈條。在這個(gè)過(guò)程中,大數(shù)據(jù)的速度、結(jié)構(gòu)與質(zhì)量效益缺一不可,否則可能會(huì)導(dǎo)致數(shù)據(jù)綜合效用的衰減。1.5.3國(guó)家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須保證安全性與開(kāi)放性的兼顧國(guó)家在進(jìn)行數(shù)據(jù)公開(kāi)和共享的同時(shí)其實(shí)存在著極大的安全隱患(例如,數(shù)據(jù)遭受異常流量攻擊、數(shù)據(jù)泄露等),此時(shí)保障數(shù)據(jù)的安全性就極為重要了,沒(méi)有數(shù)據(jù)安全就不存在可持續(xù)的大數(shù)據(jù)開(kāi)發(fā)利用。國(guó)家大數(shù)據(jù)戰(zhàn)略的有效實(shí)施,依賴(lài)于國(guó)家抵御數(shù)據(jù)風(fēng)險(xiǎn)的能力的不斷增強(qiáng),實(shí)現(xiàn)數(shù)據(jù)開(kāi)放與數(shù)據(jù)安全之間的平衡,是建設(shè)數(shù)字中國(guó)的必由之路。1.5.4國(guó)家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵要素大數(shù)據(jù)正在引領(lǐng)我國(guó)的經(jīng)濟(jì)發(fā)展進(jìn)入數(shù)字經(jīng)濟(jì)時(shí)代。中國(guó)工程院院長(zhǎng)周濟(jì)在“第二屆IT2020高端論壇”上提出,“云計(jì)算和大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),而且以及深切改變了人們的工作和生活方式,這勢(shì)必重塑全球科技和經(jīng)濟(jì)競(jìng)爭(zhēng)格局,為中國(guó)經(jīng)濟(jì)引擎升級(jí)帶來(lái)新的挑戰(zhàn)和機(jī)遇”[]。隨著大數(shù)據(jù)技術(shù)在經(jīng)濟(jì)活動(dòng)以及生產(chǎn)活動(dòng)中的廣泛應(yīng)用,將實(shí)現(xiàn)我國(guó)傳統(tǒng)產(chǎn)業(yè)結(jié)構(gòu)和形態(tài)向數(shù)字化和智能化方向轉(zhuǎn)型升級(jí),并促進(jìn)我國(guó)產(chǎn)業(yè)類(lèi)型以及產(chǎn)業(yè)模式的推陳出新,加速我國(guó)經(jīng)濟(jì)結(jié)構(gòu)的轉(zhuǎn)變,從而推動(dòng)我國(guó)經(jīng)濟(jì)的高質(zhì)量發(fā)展。大數(shù)據(jù)還推動(dòng)了不同產(chǎn)業(yè)之間的深度融合,“互聯(lián)網(wǎng)+產(chǎn)業(yè)”便是一個(gè)很好的例子,通過(guò)大數(shù)據(jù)技術(shù),使得各行各業(yè)(例如電商、金融、教育、交通、醫(yī)療等)能更精準(zhǔn)地為客戶(hù)提供個(gè)性化產(chǎn)品以及服務(wù)。1.5.4國(guó)家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是增強(qiáng)國(guó)家競(jìng)爭(zhēng)力的重大機(jī)遇大數(shù)據(jù)已經(jīng)成為塑造國(guó)家競(jìng)爭(zhēng)力的戰(zhàn)略制高點(diǎn)之一,世界各國(guó)紛紛把推進(jìn)大數(shù)據(jù)的技術(shù)創(chuàng)新作為國(guó)家的重要發(fā)展戰(zhàn)略。中國(guó)緊跟世界發(fā)展潮流,將國(guó)家大數(shù)據(jù)戰(zhàn)略落到實(shí)處,當(dāng)前,我國(guó)正在為從“數(shù)據(jù)大國(guó)”轉(zhuǎn)型成“數(shù)據(jù)強(qiáng)國(guó)”而不斷努力。隨著中國(guó)大數(shù)據(jù)技術(shù)的不斷創(chuàng)新和突破,到2025年,其產(chǎn)生的數(shù)據(jù)將超過(guò)美國(guó)。數(shù)據(jù)的快速產(chǎn)生和各項(xiàng)配套政策的落實(shí)推動(dòng)我國(guó)大數(shù)據(jù)行業(yè)高速發(fā)展,預(yù)計(jì)未來(lái)我國(guó)行業(yè)大數(shù)據(jù)市場(chǎng)規(guī)模增速將維持在15%-25%之間,到2025年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)19508億元的高點(diǎn)。大力發(fā)展大數(shù)據(jù)有利于將我國(guó)數(shù)據(jù)資源優(yōu)勢(shì)轉(zhuǎn)化為國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì),實(shí)現(xiàn)數(shù)據(jù)規(guī)模、質(zhì)量和應(yīng)用水平同步提升,發(fā)掘和釋放數(shù)據(jù)資源的潛在價(jià)值,有效提升國(guó)家競(jìng)爭(zhēng)力。1.5.4國(guó)家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是提高治理能力的有效驅(qū)動(dòng)力在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)成為了政府治理的平臺(tái)。我國(guó)建立電子政務(wù)系統(tǒng),更多地依賴(lài)數(shù)據(jù)進(jìn)行決策,從而提高政府民意搜集能力以及及時(shí)應(yīng)對(duì)各類(lèi)問(wèn)題的變通能力,達(dá)到高效且精準(zhǔn)施政的目的。大數(shù)據(jù)技術(shù)的應(yīng)用,將政府的決策依據(jù)轉(zhuǎn)向數(shù)據(jù),這使得政府的決策更加科學(xué),推動(dòng)了政府治理理念的革新,將治理模式轉(zhuǎn)向現(xiàn)代化治理。1.5.4國(guó)家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)加速數(shù)字中國(guó)的建設(shè)從2015年12月16日在第二屆世界互聯(lián)網(wǎng)大會(huì)開(kāi)幕式上強(qiáng)調(diào)“中國(guó)正在實(shí)施‘互聯(lián)網(wǎng)+’行動(dòng)計(jì)劃,推進(jìn)‘?dāng)?shù)字中國(guó)’建設(shè)”,到2017年致第四屆世界互聯(lián)網(wǎng)大會(huì)的賀信中指出:“中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展將進(jìn)入快車(chē)道”;從黨的十九大報(bào)告提出加強(qiáng)應(yīng)用基礎(chǔ)研究,“為建設(shè)科技強(qiáng)國(guó)、質(zhì)量強(qiáng)國(guó)、航天強(qiáng)國(guó)、網(wǎng)絡(luò)強(qiáng)國(guó)、交通強(qiáng)國(guó)、數(shù)字中國(guó)、智慧社會(huì)提供有力支撐”,再到2017年12月8日下午中共中央政治局集體學(xué)習(xí)時(shí)強(qiáng)調(diào)“推進(jìn)數(shù)據(jù)資源整合和開(kāi)放共享,保障數(shù)據(jù)安全,加快建設(shè)數(shù)字中國(guó)”……習(xí)近平總書(shū)記為“數(shù)字中國(guó)”建設(shè)把舵定向,不僅標(biāo)定了前進(jìn)路徑,更擘畫(huà)了清晰未來(lái)[]。數(shù)字中國(guó)的建設(shè)時(shí)國(guó)家大數(shù)據(jù)戰(zhàn)略實(shí)施過(guò)程中的極為重要的一環(huán)。數(shù)字中國(guó)的建設(shè)保證了信息化技術(shù)在我國(guó)各項(xiàng)事業(yè)發(fā)展進(jìn)程中的有效應(yīng)用,通過(guò)對(duì)海量數(shù)據(jù)的挖掘和分析,向各行各業(yè)提供精準(zhǔn)的信息資源,推動(dòng)社會(huì)主義現(xiàn)代化強(qiáng)國(guó)的建設(shè)。1.6

本章小結(jié)

本章小結(jié)本章從大數(shù)據(jù)的產(chǎn)生背景與概念、大數(shù)據(jù)的特點(diǎn)和技術(shù)概述、大數(shù)據(jù)的應(yīng)用與價(jià)值體現(xiàn)、大數(shù)據(jù)時(shí)代的思維變革以及國(guó)家大數(shù)據(jù)戰(zhàn)略五個(gè)方面帶領(lǐng)我們初步了解大數(shù)據(jù)。大數(shù)據(jù)產(chǎn)生的三個(gè)重要階段,大數(shù)據(jù)的“4V”特點(diǎn)以及五大類(lèi)技術(shù),大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用及展現(xiàn)其價(jià)值的“三重門(mén)”理論,還有大數(shù)據(jù)給我們帶來(lái)的思維變革,以及國(guó)家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵和意義都是需要我們了解并掌握的。本章學(xué)習(xí)目的在于對(duì)大數(shù)據(jù)有基礎(chǔ)的了解。感謝觀看

第2章開(kāi)源大數(shù)據(jù)平臺(tái)開(kāi)源大數(shù)據(jù)平臺(tái)學(xué)習(xí)目標(biāo)了解兩種常用開(kāi)源大數(shù)據(jù)分析平臺(tái)——Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀理解兩種平臺(tái)各自的體系結(jié)構(gòu)、基本運(yùn)行機(jī)制及適用范圍掌握其安裝部署過(guò)程及基本使用方法,為大數(shù)據(jù)分析的應(yīng)用打下基礎(chǔ)學(xué)習(xí)要點(diǎn)Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀Hadoop和Spark的生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop和Spark的安裝和使用方法目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Hadoop的起源Apache軟件基金會(huì)旗下開(kāi)源分布式計(jì)算平臺(tái)由DougCutting創(chuàng)始開(kāi)發(fā)的文本搜索庫(kù)源自Google實(shí)驗(yàn)室發(fā)表的兩篇學(xué)術(shù)論文:SanjayG,HowardG,Shun-TakL.TheGoogleFileSystem.Proc.ofSOSP.2003:29-43.DeanJ,GhemawatS.MapReduce.Simplifieddataprocessingonlargeclusters.CommunicationsoftheACM.2008,51(1):107-113.(DeanJ,GhemawatS.MapReduce:Simplifieddataprocessingonlargeclusters.OSDI2004.)最先應(yīng)用于Yahoo!廣告系統(tǒng)的數(shù)據(jù)挖掘2008年4月,打破世界紀(jì)錄成為排序1TB數(shù)據(jù)最快的系統(tǒng)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算排序時(shí)間只用了209秒同年5月再次將紀(jì)錄刷新至62秒DougCuttingHadoop的核心技術(shù)Hadoop是一套大數(shù)據(jù)存儲(chǔ)和處理的解決方案Hadoop核心技術(shù):HDFS:HadoopDistributedFileSystem,被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。MapReduce:一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。綜合衡量一套大數(shù)據(jù)處理系統(tǒng)是否可用標(biāo)準(zhǔn):容錯(cuò)性能編程模式的可用性性能或成本比Hadoop的特性高可靠性高效性可擴(kuò)展性低成本良好的跨平臺(tái)性用戶(hù)友好性Hadoop的應(yīng)用現(xiàn)狀互聯(lián)網(wǎng)領(lǐng)域:國(guó)外:Google和Yahoo!等網(wǎng)站、Facebook、Microsoft、Cisco等國(guó)外公司或平臺(tái)國(guó)內(nèi):百度、阿里巴巴、網(wǎng)易、華為、騰訊、中國(guó)移動(dòng)等

舉例:淘寶、華為學(xué)術(shù)界:國(guó)外:卡耐基梅隆大學(xué)、加州大學(xué)伯克利分析、康奈爾大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)、普渡大學(xué)等國(guó)內(nèi):清華大學(xué)、中國(guó)人民大學(xué)、中國(guó)科學(xué)院大學(xué)等目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Hadoop的版本發(fā)展/releases.htmlHadoop的體系結(jié)構(gòu)Hadoop1.0Hadoop的體系結(jié)構(gòu)Hadoop1.0在實(shí)際應(yīng)用中仍然存在著許多問(wèn)題。HDFS:可用性:?jiǎn)吸c(diǎn)故障問(wèn)題擴(kuò)展性:不支持水平擴(kuò)展系統(tǒng)性能:會(huì)受限于單個(gè)名稱(chēng)節(jié)點(diǎn)的吞吐量隔離性:?jiǎn)蝹€(gè)名稱(chēng)節(jié)點(diǎn)也難以提供不同程序之間的隔離性MapReduce:可用性:?jiǎn)吸c(diǎn)故障問(wèn)題資源受限資源化分不合理Hadoop的體系結(jié)構(gòu)Hadoop2.0在1.0的基礎(chǔ)上進(jìn)行了豐富和完善。Hadoop的生態(tài)系統(tǒng)目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用部署準(zhǔn)備硬件準(zhǔn)備:分布式模式:至少需要2臺(tái)計(jì)算機(jī)或1臺(tái)計(jì)算機(jī)上的2臺(tái)虛擬機(jī)單機(jī)或偽分布式模式:可使用1臺(tái)計(jì)算機(jī)。操作系統(tǒng)準(zhǔn)備:Linux系統(tǒng)(如Ubuntu操作系統(tǒng))Linux系統(tǒng)的安裝主要有兩種方式:虛擬機(jī)安裝:計(jì)算機(jī)比較新或者配置內(nèi)存4G以上雙系統(tǒng)安裝:計(jì)算機(jī)較舊或配置內(nèi)存小于等于4G本書(shū)介紹的是虛擬機(jī)安裝方法下載安裝-Ubuntu虛擬機(jī)安裝Ubuntu虛擬機(jī)安裝軟件下載新建虛擬機(jī)安裝Ubuntu用戶(hù)及環(huán)境設(shè)置下載安裝-Ubuntu虛擬機(jī)安裝軟件下載:下載并安裝VirtualBox虛擬機(jī)軟件官網(wǎng)或鏡像網(wǎng)站下載好所需要的Ubuntu的鏡像文件(ISO文件)本書(shū)使用的版本為Ubuntu16.04,使用的鏡像網(wǎng)站為阿里開(kāi)源鏡像站下載安裝-Ubuntu虛擬機(jī)安裝新建虛擬機(jī):打開(kāi)VirtualBox,單擊“新建”按鈕給虛擬機(jī)命名為“Ubuntu”,選擇操作系統(tǒng)類(lèi)型與版本選擇內(nèi)存大小選擇“現(xiàn)在創(chuàng)建虛擬硬盤(pán)”選項(xiàng)選擇虛擬硬盤(pán)文件類(lèi)型為“VDI(VirtualBox磁盤(pán)鏡像)”將虛擬硬盤(pán)的存儲(chǔ)分配方式選擇為“動(dòng)態(tài)分配”選擇文件存儲(chǔ)的位置和容量大小單擊“創(chuàng)建”按鈕,完成虛擬機(jī)的創(chuàng)建完成上述步驟后,可以在VirtualBox中看到新建好的虛擬機(jī),代表虛擬機(jī)已經(jīng)創(chuàng)建成功了。下載安裝-Ubuntu虛擬機(jī)安裝安裝Ubuntu:設(shè)置“存儲(chǔ)”單擊“啟動(dòng)”按鈕啟動(dòng)虛擬機(jī),若彈出提示,在下拉列表中選擇ISO文件啟動(dòng)后,選擇語(yǔ)言為“中文(簡(jiǎn)體)”,單擊“安裝Ubuntu”按鈕檢查是否連接網(wǎng)絡(luò)及是否安裝第三方軟件,單擊“繼續(xù)”按鈕。確認(rèn)安裝類(lèi)型,選擇“其他選項(xiàng)”,單擊“繼續(xù)”按鈕單擊“新建分區(qū)表”按鈕創(chuàng)建分區(qū),添加交換空間和根目錄全部設(shè)置完成后,單擊“現(xiàn)在安裝”按鈕,確認(rèn)將改動(dòng)寫(xiě)入磁盤(pán)選擇時(shí)區(qū),在鍵盤(pán)布局中將兩列均設(shè)置為漢語(yǔ)設(shè)置用戶(hù)名和密碼單擊“繼續(xù)”按鈕,開(kāi)始安裝安裝完畢后,單擊“現(xiàn)在重啟”按鈕重啟虛擬機(jī)下載安裝-Ubuntu虛擬機(jī)安裝用戶(hù)及環(huán)境設(shè)置:創(chuàng)建Hadoop用戶(hù)SSH登錄權(quán)限設(shè)置安裝和配置Java下載安裝-Ubuntu虛擬機(jī)安裝創(chuàng)建Hadoop用戶(hù):第一步,按快捷鍵Ctrl+Alt+T,或者在搜索欄中搜索終端,打開(kāi)終端窗口(命令行界面),輸入如下命令創(chuàng)建新用戶(hù)。

$sudouseradd-mhadoop-s/bin/bash由此創(chuàng)建了名為“hadoop”的用戶(hù),同時(shí)指定使用bash作為shell解析相關(guān)命令。第二步,輸入如下命令將登錄密碼設(shè)置為“hadoop”(也可設(shè)置其他密碼,密碼將需按照提示輸入兩次)。

$sudopasswdhadoop第三步,輸入如下命令如下:“hadoop”用戶(hù)增加管理員權(quán)限以方便后續(xù)部署。

$sudoadduserhadoopsudo此后的操作請(qǐng)登錄“hadoop”用戶(hù)來(lái)進(jìn)行。下載安裝-Ubuntu虛擬機(jī)安裝SSH登錄權(quán)限設(shè)置:SSH協(xié)議是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議,可以提供安全的網(wǎng)絡(luò)傳輸環(huán)境。Hadoop名稱(chēng)節(jié)點(diǎn)(NameNode)啟動(dòng)集群中的數(shù)據(jù)節(jié)點(diǎn)(DataNode)時(shí),需要通過(guò)SSH登錄來(lái)實(shí)現(xiàn)。SSH包括客戶(hù)端client(無(wú)須安裝,Ubuntu操作系統(tǒng)已自動(dòng)安裝)和服務(wù)器端server(需要安裝)??刹捎孟旅娴拿畎惭bSSHserver:

$sudoapt-getinstallopenssh-server如果本步安裝失敗,可以先嘗試執(zhí)行$sudoapt-getupdate命令進(jìn)行更新。安裝以后,使用如下命令:

$sshlocalhost然后輸入yes和密碼后即可登錄本機(jī)。下載安裝-Ubuntu虛擬機(jī)安裝SSH登錄權(quán)限設(shè)置:為了使名稱(chēng)節(jié)點(diǎn)能夠順利登錄集群中的任何一個(gè)節(jié)點(diǎn),我們可以用下面的命令將所有機(jī)器配置為無(wú)密碼登錄方式。

$exit

$cd~/.ssh/

$ssh-keygen-trsa此時(shí)系統(tǒng)會(huì)要求你指定一個(gè)文件來(lái)保存密鑰,可以按回車(chē)鍵使用默認(rèn)的文件。接著輸入下面的代碼繼續(xù)完成所有機(jī)器的無(wú)密碼登錄配置。

$cat./id_rsa.pub>>./authorized_keys此時(shí)再次執(zhí)行$sshlocalhost命令即可不需要密碼登錄了,SSH配置結(jié)束。下載安裝-Ubuntu虛擬機(jī)安裝安裝和配置Java:在Ubuntu中直接通過(guò)下面的命令安裝jdk1.8:

$sudoapt-getinstallopenjdk-8-jreopenjdk-8-jdk除此之外,還需配置JAVA_HOME環(huán)境變量以避免訪問(wèn)時(shí)反復(fù)寫(xiě)絕對(duì)路徑第一步,進(jìn)入文件~/.bashrc編輯模式):

$vim~/.bashrc

如果報(bào)錯(cuò)“程序Vim已包含在以下軟件包中”,可以先以下命令:

$sudoapt-getinstallvim第二步,單擊i按鍵開(kāi)啟編輯模式,添加如下語(yǔ)句:

exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

exportJRE_HOME=${JAVA_HOME}/jre

exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

exportPATH=${JAVA_HOME}/bin:$PATH

輸入完畢后,單擊Esc按鍵退出編輯模式,輸入“:wq”(w保存,q退出)命令,按回車(chē)鍵后回到命令行界面。下載安裝-Ubuntu虛擬機(jī)安裝安裝和配置Java:第三步,執(zhí)行下列命令使修改生效:

$source~/.bashrc第四步,執(zhí)行下列命令查看Java是否安裝成功:

$java-version

若返回下圖所示內(nèi)容,則Java安裝成功。下載安裝-Hadoop的下載安裝Hadoop的下載安裝Hadoop官方網(wǎng)站:/本書(shū)選擇的是Hadoop3.1.3版本單機(jī)安裝配置偽分布式安裝配置分布式安裝配置下載安裝-Hadoop的下載安裝單機(jī)安裝配置:將hadoop-3.1.3.tar.gz安裝至虛擬機(jī)的/usr/local/目錄中,命令如下:

$sudotar-zvxf~/下載/hadoop-3.1.3.tar.gz-C/usr/local可以重命名并修改訪問(wèn)權(quán)限,以方便后續(xù)調(diào)用,命令如下:

$cd/usr/local/

$sudomv./hadoop-3.1.3/./hadoop#將文件夾名改為hadoop

$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限檢查Hadoop是否可用,命令如下:

$cd/usr/local/hadoop

$./bin/hadoopversion如果可用,則會(huì)顯示Hadoop版本信息,表示單機(jī)安裝Hadoop成功。下載安裝-Hadoop的下載安裝偽分布式安裝配置:Hadoop的運(yùn)行方式是由配置文件決定的,默認(rèn)情況下為單機(jī)模式。如果需要配置為偽分布式模式,則需要修改相應(yīng)配置文件。第一步,修改配置文件第二步,初始化文件系統(tǒng)第三步,啟動(dòng)所有進(jìn)程,執(zhí)行以下命令第四步,訪問(wèn)web,查看Hadoop集群信息下載安裝-Hadoop的下載安裝第一步,修改配置文件:core-site.xml和hdfs-site.xml在目錄/usr/local/hadoop/etc/hadoop/中打開(kāi)hdfs-site.xml,將內(nèi)容修改為:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property></configuration>

dfs.replication表示副本的數(shù)量,偽分布式要設(shè)置為1。

.dir表示存儲(chǔ)fsimage文件的本地磁盤(pán)目錄。

dfs.datanode.data.dir表示HDFS數(shù)據(jù)存放的本地磁盤(pán)目錄。下載安裝-Hadoop的下載安裝第二步,初始化文件系統(tǒng)執(zhí)行下列語(yǔ)句:

$hadoopnamenode–format

如果報(bào)錯(cuò)“找不到hadoop”,則可以使用以下命令行打開(kāi)環(huán)境變量配置的界面:

$vim~/.bashrc

打開(kāi)設(shè)置環(huán)境變量的界面后,添加語(yǔ)句:

exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin同樣輸入“:wq”(w保存,q退出)命令,退出編輯模式。使配置立即生效:

$source~/.bashrc檢查是否配置成功

$hadoop-version

如果報(bào)錯(cuò)“mkdir:無(wú)法創(chuàng)建目錄/usr/local/hadoop/logs:權(quán)限不夠”,可通過(guò)以下命令行解決:

$sudochown-Rhadoop/usr/local/hadoop#此處前一個(gè)hadoop為用戶(hù)名下載安裝-Hadoop的下載安裝第三步,啟動(dòng)所有進(jìn)程,執(zhí)行以下命令:

$start-all.sh第四步,使用瀏覽器訪問(wèn)http://localhost:9870查看Hadoop集群中NameNode和Datanode的信息。下載安裝-Hadoop的下載安裝分布式安裝配置:為了降低分布式模式部署難度,本書(shū)簡(jiǎn)單使用兩個(gè)節(jié)點(diǎn)(兩臺(tái)虛擬機(jī):Master節(jié)點(diǎn)和Slave節(jié)點(diǎn))來(lái)搭建集群環(huán)境與單機(jī)安裝過(guò)程類(lèi)似,我們要在Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)上完成創(chuàng)建“hadoop”用戶(hù)、安裝SSH服務(wù)端、安裝Java環(huán)境的步驟,并且在Master節(jié)點(diǎn)上安裝Hadoop,并完成配置完成上述步驟后,進(jìn)行下述步驟:第一步,網(wǎng)絡(luò)配置。第二步,設(shè)置SSH無(wú)密碼登錄。第三步,配置PATH變量。下載安裝-Hadoop的下載安裝第一步,網(wǎng)絡(luò)配置在虛擬機(jī)的網(wǎng)絡(luò)設(shè)置中將兩臺(tái)虛擬機(jī)的網(wǎng)絡(luò)連接方式改為“橋接網(wǎng)卡”模式因?yàn)椴捎脤?dǎo)入虛擬機(jī)鏡像文件的方式安裝Linux系統(tǒng),有可能出現(xiàn)兩臺(tái)機(jī)器的MAC地址是相同的,因此,在虛擬機(jī)的網(wǎng)絡(luò)設(shè)置中還需要使用“刷新”按鈕隨機(jī)改變機(jī)器的MAC地址網(wǎng)絡(luò)配置完成以后,可以在終端使用ifconfig命令查看機(jī)器的IP地址:

$ifconfig

其中inet地址即為我們需要查看的IP地址,本書(shū)的兩臺(tái)機(jī)器IP地址分別為07和09下載安裝-Hadoop的下載安裝第一步,網(wǎng)絡(luò)配置修改各個(gè)節(jié)點(diǎn)的主機(jī)名,在Master節(jié)點(diǎn)上執(zhí)行如下命令修改主機(jī)名:

$sudovim/etc/hostname

將主機(jī)名內(nèi)容直接刪除,并修改為“Master”,保存退出v(需要重啟Linux系統(tǒng)才能看到主機(jī)名的變化)在Master節(jié)點(diǎn)中執(zhí)行如下命令打開(kāi)并修改Master節(jié)點(diǎn)中的“/etc/hosts”文件:

$sudovim/etc/hosts在hosts文件中增加如下兩條IP和主機(jī)名映射關(guān)系:

07Master

09Slave1下載安裝-Hadoop的下載安裝第一步,網(wǎng)絡(luò)配置完成了Master節(jié)點(diǎn)的配置后,參照上面的方法,把Slave節(jié)點(diǎn)上的“/etc/hostname”文件中的主機(jī)名修改為“Slave1”,同時(shí),修改“/etc/hosts”的內(nèi)容,在hosts文件中增加相同的IP和主機(jī)名映射關(guān)系重新啟動(dòng)Slave節(jié)點(diǎn)的Linux系統(tǒng)在各個(gè)節(jié)點(diǎn)上都執(zhí)行如下命令測(cè)試是否可以互相連通:

$pingMaster-c3

$pingSlave1-c3如果可以連通,輸出如圖所示下載安裝-Hadoop的下載安裝第二步,設(shè)置SSH無(wú)密碼登錄讓Master節(jié)點(diǎn)可以SSH無(wú)密碼登錄到各個(gè)Slave節(jié)點(diǎn)上,生成Master節(jié)點(diǎn)的公匙。

$cd~/.ssh

如果本步執(zhí)行后顯示沒(méi)有該目錄,可以先執(zhí)行一次$sshlocalhost命令

$rm./id_rsa*

$ssh-keygen-trsa讓Master節(jié)點(diǎn)能夠SSH無(wú)密碼登錄本機(jī),在Master節(jié)點(diǎn)上執(zhí)行如下命令:

$cat./id_rsa.pub>>./authorized_keys完成后可以執(zhí)行如下命令來(lái)進(jìn)行驗(yàn)證:

$sshMaster執(zhí)行成功后如圖所示。下載安裝-Hadoop的下載安裝第二步,設(shè)置SSH無(wú)密碼登錄執(zhí)行如下命令返回原來(lái)的終端:

$exit在Master節(jié)點(diǎn)上,將上公匙傳輸給Slave1節(jié)點(diǎn):

$scp~/.ssh/id_rsa.pubhadoop@Slave1:/home/hadoop/切換到Slave1節(jié)點(diǎn)上,執(zhí)行如下命令將SSH公匙加入授權(quán):

$mkdir~/.ssh

$cat~/id_rsa.pub>>~/.ssh/authorized_keys

$rm~/id_rsa.pub

這樣,在Master節(jié)點(diǎn)上就可以SSH無(wú)密碼登錄到各個(gè)Slave節(jié)點(diǎn)了切換到Master節(jié)點(diǎn)上執(zhí)行如下命令進(jìn)行檢驗(yàn):

$sshSlave1運(yùn)行成功的結(jié)果如圖所示,這意味著此時(shí)Master已經(jīng)可以登錄到各個(gè)Slave節(jié)點(diǎn)了。下載安裝-Hadoop的下載安裝第三步,配置PATH變量在Master節(jié)點(diǎn)上執(zhí)行以下命令:

$vim~/.bashrc在文件中添加以下內(nèi)容:

exportPATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin保存后執(zhí)行:

$source~/.bashrc下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境在配置集群/分布式模式時(shí),需要修改“/usr/local/hadoop/etc/hadoop”目錄下的配置文件,在此不再贅述。我們僅設(shè)置正常啟動(dòng)所必須的設(shè)置項(xiàng),包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共五個(gè)文件,更多設(shè)置項(xiàng)可查看官方說(shuō)明。文件workers:將workers文件中原來(lái)的localhost刪除,只添加“Slave1”。下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境文件core-site.xml:修改為以下內(nèi)容<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境文件hdfs-site.xml:修改為以下內(nèi)容<configuration><property><name>node.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境文件mapred-site.xml:修改為以下內(nèi)容<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境文件yarn-site.xml:修改為以下內(nèi)容。<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境配置完成后,把Master節(jié)點(diǎn)上的“/usr/local/hadoop”文件夾復(fù)制到各個(gè)節(jié)點(diǎn)上,命令如下:

$cd/usr/local

$tar-zcf~/hadoop.master.tar.gz./hadoop

$cd~

$scp./hadoop.master.tar.gzSlave1:/home/hadoop切換到Slave1節(jié)點(diǎn)上執(zhí)行如下命令:

$sudotar-zxf~/hadoop.master.tar.gz-C/usr/local

$sudochown-Rhadoop/usr/local/hadoop下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境在Master節(jié)點(diǎn)執(zhí)行名稱(chēng)節(jié)點(diǎn)的格式化:

$hdfsnamenode-format

在Master節(jié)點(diǎn)上啟動(dòng)Hadoop:

$start-dfs.sh

$start-yarn.sh

$mr-jobhistory-daemon.shstarthistoryserver

通過(guò)命令jps可以查看各個(gè)節(jié)點(diǎn)所啟動(dòng)的進(jìn)程。如果已經(jīng)正確啟動(dòng),則在Master節(jié)點(diǎn)上可以看到NameNode、ResourceManager、SecondrryNameNode和JobHistoryServer進(jìn)程,如圖所示。下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環(huán)境在Slave節(jié)點(diǎn)可以看到DataNode和NodeManager進(jìn)程,如圖所示在Master節(jié)點(diǎn)上執(zhí)行命令:

$hdfsdfsadmin–report如果屏幕信息中的“Livedatanodes”不為0,則說(shuō)明數(shù)據(jù)節(jié)點(diǎn)啟動(dòng)成功結(jié)果如圖所示目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用Hadoop的流程和缺陷企業(yè)對(duì)于大數(shù)據(jù)處理往往會(huì)產(chǎn)生不同的需求復(fù)雜的批量數(shù)據(jù)處理需要分鐘到小時(shí)級(jí)響應(yīng)基于歷史數(shù)據(jù)的交互式查詢(xún)需要秒級(jí)到分鐘級(jí)響應(yīng)基于實(shí)時(shí)數(shù)據(jù)流的處需要毫秒到秒級(jí)響應(yīng)……Hadoop的流程和缺陷一個(gè)Hadoop應(yīng)用的多個(gè)MapReduce操作之間都是相互獨(dú)立的每個(gè)操作的結(jié)果一般都會(huì)存入磁盤(pán)(如HDFS)后續(xù)操作需要再次從磁盤(pán)讀取數(shù)據(jù)導(dǎo)致了多次磁盤(pán)讀/寫(xiě),會(huì)對(duì)Hadoop計(jì)算造成巨大的時(shí)間開(kāi)銷(xiāo)。Hadoop的執(zhí)行流程Hadoop的流程和缺陷缺陷:磁盤(pán)I/O開(kāi)銷(xiāo)大,無(wú)法滿(mǎn)足多階段和交互式計(jì)算需求系統(tǒng)的表達(dá)能力有限,很多操作無(wú)法轉(zhuǎn)化為MapReduce操作面對(duì)上述企業(yè)對(duì)于大數(shù)據(jù)處理的諸多需求:僅僅能滿(mǎn)足復(fù)雜的批量數(shù)據(jù)處理需求不能滿(mǎn)足基于歷史數(shù)據(jù)的交互式查詢(xún)要求不能滿(mǎn)足基于實(shí)時(shí)數(shù)據(jù)流的處理要求……一種高效、低延遲的大數(shù)據(jù)處理架構(gòu)——Spark產(chǎn)生了Spark的發(fā)展及應(yīng)用官網(wǎng):/2009年由美國(guó)加州伯克利大學(xué)的AMPLab最早進(jìn)行開(kāi)發(fā)2010年開(kāi)源發(fā)布2013年加入Apache軟件基金會(huì)2014年打破Hadoop保持的排序紀(jì)錄Spark:206個(gè)節(jié)點(diǎn)

23分鐘Hadoop:2000個(gè)節(jié)點(diǎn)

72分鐘在超1000家國(guó)內(nèi)外企業(yè)和科研機(jī)構(gòu)均有應(yīng)用,如淘寶、百度、騰訊、亞馬遜、eBay、日立、NASAJPL等。Spark執(zhí)行流程Spark將數(shù)據(jù)從磁盤(pán)載入內(nèi)存后,迭代計(jì)算等的中間結(jié)果會(huì)保留在內(nèi)存中,從而避免了反復(fù)從磁盤(pán)中讀取數(shù)據(jù)的時(shí)間開(kāi)銷(xiāo)。相較于MapReduce優(yōu)點(diǎn):基于內(nèi)存計(jì)算框架使得計(jì)算效率得以明顯提升適合實(shí)時(shí)數(shù)據(jù)流的處理但MapReduce更適合執(zhí)行數(shù)據(jù)量巨大的批處理操作目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用Spark的生態(tài)系統(tǒng)Spark的設(shè)計(jì)理念:Onestacktorulethemall已成為伯克利數(shù)據(jù)分析軟件棧BDAS的重要組成部分下圖為BDAS的體系結(jié)構(gòu)Spark的體系結(jié)構(gòu)每個(gè)應(yīng)用會(huì)被分解成若干相關(guān)的計(jì)算任務(wù)(Task),分布在不同的工作節(jié)點(diǎn)中執(zhí)行。(1)集群資源管理器(ClusterManager):負(fù)責(zé)管理調(diào)度所有Spark應(yīng)用的計(jì)算資源;除了自帶的資源管理器,也支持ApacheMesos或HadoopYARN。(2)工作節(jié)點(diǎn)(WorkerNode):負(fù)責(zé)運(yùn)行具體的任務(wù)(Task)。工作節(jié)點(diǎn)上,對(duì)每個(gè)應(yīng)用都對(duì)應(yīng)有一個(gè)執(zhí)行進(jìn)程(Executor)負(fù)責(zé)該應(yīng)用在該節(jié)點(diǎn)上所有任務(wù)的執(zhí)行和數(shù)據(jù)的存儲(chǔ)。(3)任務(wù)控制節(jié)點(diǎn)(Driver):為每個(gè)應(yīng)用申請(qǐng)計(jì)算資源,并對(duì)各節(jié)點(diǎn)上的執(zhí)行進(jìn)程進(jìn)行分配和監(jiān)控。Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用由一個(gè)任務(wù)控制節(jié)點(diǎn)(Driver)和若干個(gè)作業(yè)(Job)構(gòu)成一個(gè)作業(yè)(Job)由多個(gè)階段(Stage)構(gòu)成一個(gè)階段(Stage)由多個(gè)彼此沒(méi)有Shuffle依賴(lài)關(guān)系的任務(wù)(Task)組成Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下:(1)由任務(wù)控制節(jié)點(diǎn)創(chuàng)建一個(gè)SparkContext作為通向Spark集群的入口,為應(yīng)用構(gòu)建基本的運(yùn)行環(huán)境,并向資源管理器申請(qǐng)計(jì)算資源Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下:(2)資源管理器為應(yīng)用分配相應(yīng)的資源,并啟動(dòng)計(jì)算節(jié)點(diǎn)上的進(jìn)程(Executor);Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下:(3)進(jìn)程啟動(dòng)后,主動(dòng)向SparkContext申請(qǐng)計(jì)算任務(wù);SparkContext則會(huì)將計(jì)算任務(wù)分解成若干個(gè)RDD,并按照這些RDD彼此之間的關(guān)聯(lián)關(guān)系(DAG圖)將他們分為不同的任務(wù)集合(TaskSet,也稱(chēng)Stage);最后由任務(wù)調(diào)度器(TaskScheduler)將Task發(fā)放給具體的進(jìn)程Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下:(4)計(jì)算節(jié)點(diǎn)上的任務(wù)執(zhí)行完成后,會(huì)通過(guò)任務(wù)調(diào)度器逐層反饋給SparkContext,當(dāng)所有任務(wù)都執(zhí)行完成后,SparkContext會(huì)向資源管理器注銷(xiāo)以釋放計(jì)算資源。目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用RDD的特點(diǎn)Spark的核心概念:RDD:ResillientDistributedDataset彈性分布式數(shù)據(jù)集合提供了一種高度受

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論