大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-01-03 格式：PPTX 頁數(shù)：655 大?。?0.33MB 積分：60 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第2頁

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第3頁

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第4頁

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例_第5頁

已閱讀5頁，還剩650頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章

大數(shù)據(jù)概述

1.1大數(shù)據(jù)的產(chǎn)生背景與概念

1.1.1大數(shù)據(jù)的產(chǎn)生背景大數(shù)據(jù)的產(chǎn)生可以分為三個(gè)階段：萌芽階段（20世紀(jì)90年代至21世紀(jì)初）：1997年，NASA阿姆斯科研中心的大衛(wèi)?埃爾斯沃斯和邁克爾?考克斯在研究數(shù)據(jù)的可視化問題時(shí)首次使用“大數(shù)據(jù)”概念；1998年，美國《自然》雜志上發(fā)表的一篇名為《大數(shù)據(jù)科學(xué)的可視化》的文章，使大數(shù)據(jù)正式作為一個(gè)專有名詞出現(xiàn)在公共刊物之中。1.1.1大數(shù)據(jù)的產(chǎn)生背景發(fā)展階段（階段從21世紀(jì)初至2010年）：數(shù)據(jù)分析的主要技術(shù)——Hadoop技術(shù)的誕生，使2005年成為大數(shù)據(jù)發(fā)展的重要里程碑。大數(shù)據(jù)技術(shù)先是在美國鋪開，2010年美國信息技術(shù)顧問委員會(huì)（PITAC）發(fā)布的一篇名為《規(guī)劃數(shù)字化未來》的報(bào)告，足以體現(xiàn)美國對(duì)發(fā)展大數(shù)據(jù)技術(shù)的重視。在這個(gè)階段，大數(shù)據(jù)技術(shù)作為一種新興技術(shù)初步出現(xiàn)在人們的視野中，但還并未在全球普及。1.1.1大數(shù)據(jù)的產(chǎn)生背景興盛階段（從2011年至今）：2011年，擁有每秒掃描并分析4TB的數(shù)據(jù)量能力的IBM公司研制出的沃森超級(jí)計(jì)算機(jī)橫空出世，直接打破了世界紀(jì)錄，將大數(shù)據(jù)分析提升到新高度；不久后，麥肯錫發(fā)布了《海量數(shù)據(jù)，創(chuàng)新、競爭和提高生成率的下一個(gè)新領(lǐng)域》，詳細(xì)描述了大數(shù)據(jù)的技術(shù)架構(gòu)，并且交代了大數(shù)據(jù)在各個(gè)領(lǐng)域中的應(yīng)用情況；2012年在瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇討論了與大數(shù)據(jù)相關(guān)的一系列問題，并發(fā)表了《大數(shù)據(jù)，大影響》，至此，大數(shù)據(jù)的全球普及時(shí)代來臨。1.1.1大數(shù)據(jù)的產(chǎn)生背景

199719982005201020112012“大數(shù)據(jù)”概念的首次使用《大數(shù)據(jù)科學(xué)的可視化》文章的發(fā)表Hadoop技術(shù)誕生PITAC發(fā)布《規(guī)劃數(shù)字化未來》報(bào)告沃森超級(jí)計(jì)算機(jī)橫空出世瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上發(fā)表《大數(shù)據(jù)，大影響》大數(shù)據(jù)產(chǎn)生大事件年代表1.1.2大數(shù)據(jù)的概念大數(shù)據(jù)的概念從產(chǎn)生至今仍沒有一個(gè)公認(rèn)的解釋。以下是兩種被大眾普遍接受的對(duì)大數(shù)據(jù)的定義：麥肯錫的《大數(shù)據(jù)：下一個(gè)創(chuàng)新、競爭和生產(chǎn)率的前沿》：所謂大數(shù)據(jù)，主要是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行獲取、存儲(chǔ)、管理和分析的數(shù)據(jù)集。研究機(jī)構(gòu)Gartner：大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力，洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量，高增長率和多樣化的信息資產(chǎn)。1.1.3數(shù)據(jù)的單位數(shù)據(jù)的單位有：bit，B,KB,MB,GB,TB等。其中，最小的存儲(chǔ)單位是bit。單位換算：1B=8bit

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB1.1.4大數(shù)據(jù)的分類按字段類型分類：文本類、數(shù)值類、時(shí)間類按數(shù)據(jù)結(jié)構(gòu)分類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)按事物描述分類：狀態(tài)類數(shù)據(jù)、事件類數(shù)據(jù)、混合類數(shù)據(jù)按數(shù)據(jù)處理分類：原始數(shù)據(jù)、衍生數(shù)據(jù)按數(shù)據(jù)粒度分類：明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)按更新方式分類：批量數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)1.2大數(shù)據(jù)的特點(diǎn)和技術(shù)概述

1.2.1大數(shù)據(jù)的特點(diǎn)volume（海量）過去，MB的存儲(chǔ)容量就已經(jīng)能滿足很多人數(shù)據(jù)存儲(chǔ)的需求了，但隨著信息技術(shù)的不斷發(fā)展以及數(shù)據(jù)來源的不斷增多，數(shù)據(jù)呈現(xiàn)幾何指數(shù)爆發(fā)式的增長，人們?nèi)找嬖黾拥拇鎯?chǔ)需求促使存儲(chǔ)單位從過去的GB到TB，乃至現(xiàn)在的PB、EB級(jí)別，并不可避免的會(huì)增加到ZB級(jí)別。截至2020年，全球數(shù)據(jù)量達(dá)到了60ZB。variety（多樣）廣泛的數(shù)據(jù)來源決定了大數(shù)據(jù)的多樣性1.2.1大數(shù)據(jù)的特點(diǎn)velocity（高速）高速是區(qū)別大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最顯著的特征。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。大數(shù)據(jù)采用實(shí)時(shí)分析而非批量分析，而數(shù)據(jù)輸入、處理與丟棄立刻見效，幾乎不存在延遲。例：截至2019年，F(xiàn)acebook的日均上傳照片約有3億張；曾經(jīng)需要?dú)v經(jīng)10年破譯的人體基因30億對(duì)堿基數(shù)據(jù)，現(xiàn)在僅需15分鐘即可完成；1.2.1大數(shù)據(jù)的特點(diǎn)value（價(jià)值）價(jià)值是大數(shù)據(jù)的核心特征；大數(shù)據(jù)作為重要的基礎(chǔ)型戰(zhàn)略資源，其核心價(jià)值在于應(yīng)用；數(shù)據(jù)雖然海量，但某一對(duì)象或者模塊數(shù)據(jù)的價(jià)值密度很低，有價(jià)值的數(shù)據(jù)所占比例很?。幌啾扔趥鹘y(tǒng)數(shù)據(jù)，大數(shù)據(jù)最大的價(jià)值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中，挖掘出對(duì)未來趨勢與模式預(yù)測分析有價(jià)值的數(shù)據(jù)，并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析，發(fā)現(xiàn)新規(guī)律和新知識(shí)，并運(yùn)用于各個(gè)領(lǐng)域。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)采集采集來源：智能硬件端、多種傳感器端、網(wǎng)頁端、移動(dòng)APP應(yīng)用端等；大數(shù)據(jù)采集的過程：將各種采集來源匯集到數(shù)據(jù)庫中，并使用數(shù)據(jù)庫進(jìn)行簡單的處理工作；采集的數(shù)據(jù)：RFID數(shù)據(jù)、傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)采集采集的主要方式數(shù)據(jù)抓?。鹤ト?duì)象通常為網(wǎng)絡(luò)數(shù)據(jù)，通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上抓取數(shù)據(jù)信息。數(shù)據(jù)導(dǎo)入：導(dǎo)入對(duì)象通常為數(shù)據(jù)庫數(shù)據(jù)和系統(tǒng)日志數(shù)據(jù)，企業(yè)通過在采集端部署大量數(shù)據(jù)庫（一般使用Redis、MongoDB和HBase等NoSQL數(shù)據(jù)庫），并在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片，來完成數(shù)據(jù)采集。物聯(lián)網(wǎng)傳感設(shè)備自動(dòng)信息采集：指通過物聯(lián)網(wǎng)傳感器將測量到的物理變量（如聲音、溫度、濕度、電流、距離等）的測量值轉(zhuǎn)化為數(shù)字信號(hào)并傳送到數(shù)據(jù)采集點(diǎn)的過程。，常見的物聯(lián)網(wǎng)傳感器包括：接近傳感器、溫度傳感器、化學(xué)傳感器、圖像傳感器和氣體傳感器等。1.2.2大數(shù)據(jù)技術(shù)概述數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行挖掘以前，需要對(duì)原始數(shù)據(jù)進(jìn)行清理、集成與變換等一系列處理工作，以達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)模和標(biāo)準(zhǔn)。隨著數(shù)據(jù)量的爆發(fā)增長，很多數(shù)據(jù)都存在殘缺、混亂、冗余等問題，而數(shù)據(jù)預(yù)處理可以有效地規(guī)避這些問題，它能糾正錯(cuò)誤的數(shù)據(jù)、將殘缺的數(shù)據(jù)補(bǔ)充完整、將冗余的數(shù)據(jù)清除，挑出需要的數(shù)據(jù)，再將這些數(shù)據(jù)集成。1.2.2大數(shù)據(jù)技術(shù)概述數(shù)據(jù)預(yù)處理預(yù)處理常見方法數(shù)據(jù)清洗：通過光滑噪聲、填充缺失值、識(shí)別或刪除離群點(diǎn)、糾正數(shù)據(jù)不一致的方法，以達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、數(shù)據(jù)錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除的目的。數(shù)據(jù)集成：合并來自多個(gè)來自不同或者相同數(shù)據(jù)源的數(shù)據(jù)，然后統(tǒng)一存儲(chǔ)在同一數(shù)據(jù)儲(chǔ)存（如數(shù)據(jù)倉庫）中。數(shù)據(jù)變換：數(shù)據(jù)變換的目的是將不同的數(shù)據(jù)變換成合適挖掘的形式，常用的方法有規(guī)范化、屬性構(gòu)造、概念分層。數(shù)據(jù)規(guī)約：通過尋找目標(biāo)數(shù)據(jù)的有用特征，在不損壞數(shù)據(jù)原貌的基礎(chǔ)上減小數(shù)據(jù)規(guī)模，從而達(dá)到精簡數(shù)據(jù)量的目標(biāo)。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理大數(shù)據(jù)處理是在進(jìn)行了預(yù)處理的基礎(chǔ)上對(duì)數(shù)據(jù)的進(jìn)一步處理，是將數(shù)據(jù)儲(chǔ)存到分布式環(huán)境后的深度處理。常用軟件：Hadoop分布式大數(shù)據(jù)處理系統(tǒng)Hadoop組成部分：用于分布式存儲(chǔ)大容量文件的HDFS（HadoopDistributedFileSystem）、用于對(duì)海量數(shù)據(jù)集（TB級(jí)別）進(jìn)行分布式計(jì)算的MapReduce、超大型數(shù)據(jù)表HBase1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理MapReduce定義：大數(shù)據(jù)處理最重要的一種分布式計(jì)算模型模型本質(zhì)：實(shí)現(xiàn)Map（映射）函數(shù)、Reduce（歸約）函數(shù)計(jì)算邏輯：“分治”1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)處理MapReduce計(jì)算邏輯以計(jì)算1+2+3+4+5+6+7+8+9的結(jié)果為例子：1+2+34+5+67+8+96152445Map（映射）Reduce（歸約）1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析大數(shù)據(jù)分析是通過對(duì)數(shù)據(jù)的分析，創(chuàng)建模型。步驟：先從問題的定義入手，明確數(shù)據(jù)分析的目的；緊接著進(jìn)行數(shù)據(jù)準(zhǔn)備工作，包括在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫提取目標(biāo)數(shù)據(jù)集，并對(duì)提取到的目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)完整性以及一致性的檢查、去除噪音、填補(bǔ)丟失域、刪除無效數(shù)據(jù)等的一系列數(shù)據(jù)再加工過程；接著根據(jù)數(shù)據(jù)的類型以及數(shù)據(jù)的特點(diǎn)選擇算法，對(duì)進(jìn)行上一步加工后的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析；最終將數(shù)據(jù)分析的結(jié)果解釋成能被用戶理解的知識(shí)，傳遞給用戶。常用方法：分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測模型等。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法分類：是根據(jù)重要數(shù)據(jù)類的特征向量值及約束條件，構(gòu)造分類函數(shù)或者分類模型的一種數(shù)據(jù)分析的形式。典型算法有：樸素貝葉斯算法、KNN、SVM等。聚類：是指將具有相似特征屬性的數(shù)據(jù)聚集在一起，從而使得不同的數(shù)據(jù)群有著分明的特征區(qū)別。通過聚類分析，我們能從中發(fā)現(xiàn)各種數(shù)據(jù)屬性之間存在的相互干系，以及相似數(shù)據(jù)屬性之間存在的分布模式。典型算法有：BIRCH算法、K-means算法、EM算法等。1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法關(guān)聯(lián)規(guī)則：是指通過索引系統(tǒng)中的所有數(shù)據(jù)，找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來的規(guī)則，以獲得預(yù)先未知的和被隱藏的，不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計(jì)的方法得出的信息。關(guān)聯(lián)分析一般用支持度（Support）和置信度（Confidence）兩個(gè)閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性，并不斷引入興趣度、相關(guān)性等參數(shù)，使得所挖掘到的關(guān)聯(lián)規(guī)則更符合需求，關(guān)聯(lián)規(guī)則挖掘算法是關(guān)聯(lián)規(guī)則挖掘研究的主要內(nèi)容，Apriori算法和FP-Growth（頻繁模式增長）算法都是比較著名的關(guān)聯(lián)規(guī)則算法。以Apriori算法為例：Apriori算法主要包括三個(gè)步驟：①用戶先指定一個(gè)最小支持度；②找到事務(wù)數(shù)據(jù)庫中所有大于還有等于最小支持度的數(shù)據(jù)項(xiàng)集；③利用頻繁項(xiàng)集生成我們所需要的關(guān)聯(lián)規(guī)則，并使用第一步已經(jīng)指定的最小支持度來進(jìn)行取舍，最后得到強(qiáng)關(guān)聯(lián)規(guī)則；1.2.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)分析常用方法預(yù)測模型：是從歷史數(shù)據(jù)中找出變化規(guī)律，建立模型，并由這個(gè)模型預(yù)測未來數(shù)據(jù)的種類和特征的方法。包括可以在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù)，可為預(yù)測、優(yōu)化、預(yù)報(bào)和模擬等許多業(yè)務(wù)系統(tǒng)所使用。而預(yù)測模型的建立著重關(guān)注于數(shù)據(jù)的精度和不確定性，因此通常會(huì)使用預(yù)測方差進(jìn)行度量。1.3大數(shù)據(jù)的應(yīng)用與價(jià)值體現(xiàn)

1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域電商行業(yè)：利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營銷，是大數(shù)據(jù)技術(shù)最早應(yīng)用的行業(yè)。電商平臺(tái)會(huì)借助大數(shù)據(jù)技術(shù)對(duì)區(qū)域消費(fèi)特征、客戶消費(fèi)習(xí)慣、消費(fèi)熱點(diǎn)等進(jìn)行預(yù)測。例：淘寶、京東金融行業(yè)：隨著信息技術(shù)在金融業(yè)的廣泛應(yīng)用，海量數(shù)據(jù)都存儲(chǔ)在金融機(jī)構(gòu)中，數(shù)據(jù)創(chuàng)造的利潤抵不上其管理成本迫使金融業(yè)不得不去尋找可以將這些數(shù)據(jù)轉(zhuǎn)換成可以創(chuàng)造實(shí)際價(jià)值的內(nèi)容的方法，而大數(shù)據(jù)的深度挖掘技術(shù)為其提供了有效的解決方案。大數(shù)據(jù)在金融業(yè)的應(yīng)用主要分布在三個(gè)領(lǐng)域：銀行：繪制客戶畫像、精準(zhǔn)營銷、風(fēng)險(xiǎn)管理與風(fēng)險(xiǎn)控制、運(yùn)營優(yōu)化保險(xiǎn)：客戶細(xì)分和精準(zhǔn)營銷、產(chǎn)品設(shè)計(jì)、運(yùn)營優(yōu)化、欺詐行為分析證券：股價(jià)預(yù)測、客戶關(guān)系管理、智能投資顧問、投資景氣指數(shù)

1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域

醫(yī)療行業(yè)：大量的病例、藥物報(bào)告、病情報(bào)告、治療方案，使得大數(shù)據(jù)的處理和分析技術(shù)在醫(yī)療保健領(lǐng)域的使用中非常有效。例：新冠疫情期間的健康寶和通行卡、遠(yuǎn)程診療系統(tǒng)智慧城市：城市的規(guī)模不斷擴(kuò)大，城市的人口不斷增長、城市的結(jié)構(gòu)越來越復(fù)雜、精細(xì)化的城市治理勢在必行。大數(shù)據(jù)對(duì)于提高公共管理和工共服務(wù)水平十分有效。在實(shí)現(xiàn)信息透明和信息共享、評(píng)估政府部門績效、政策制定與決策、智慧城市建設(shè)方面的應(yīng)用都是一次重大的突破。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域教育行業(yè)：大數(shù)據(jù)為用戶提供的個(gè)性化服務(wù)的功能也已經(jīng)在教育領(lǐng)域中實(shí)現(xiàn)，從校長到老師，老師到家長，家長到學(xué)生，大數(shù)據(jù)都能根據(jù)不同角色所需，為他們提供個(gè)性化分析報(bào)告，不斷優(yōu)化教育機(jī)制、整合教育資源、明確教學(xué)方向、改進(jìn)教學(xué)方式等，而也正是這種應(yīng)用，讓鄉(xiāng)村的孩子也能通過網(wǎng)絡(luò)接受大城市更加優(yōu)秀的教育。大數(shù)據(jù)還可以幫助老師和家長找到不同孩子之間學(xué)習(xí)上存在的差距從而有針對(duì)性地為學(xué)生制定出適合他們的一套有效的學(xué)習(xí)方案；依賴大數(shù)據(jù)技術(shù)，教育部門能做出更加合理、更加科學(xué)的決策，從而跟隨時(shí)代不斷地優(yōu)化教育機(jī)制，推動(dòng)教育改革。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域農(nóng)業(yè)領(lǐng)域：農(nóng)業(yè)與大數(shù)據(jù)的結(jié)合應(yīng)用可以節(jié)約農(nóng)產(chǎn)品資源、增加農(nóng)產(chǎn)品流通率，促進(jìn)農(nóng)業(yè)生產(chǎn)力發(fā)展，有利于實(shí)現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展。農(nóng)業(yè)生產(chǎn)過程會(huì)產(chǎn)生大量的數(shù)據(jù)，包括種植物的生長狀況信息的數(shù)據(jù)、植物生長所需要素（例如，土壤、溫度等）信息的數(shù)據(jù)、環(huán)境氣象信息的數(shù)據(jù)、農(nóng)藥化肥信息的數(shù)據(jù)等，這些數(shù)據(jù)通常通過遙感圖像以及傳感器獲取農(nóng)作物生長環(huán)境中的各項(xiàng)指數(shù)數(shù)據(jù)，再把這些采集的數(shù)據(jù)傳送到本地或云端的數(shù)據(jù)中心，從而對(duì)農(nóng)業(yè)生產(chǎn)的歷史數(shù)據(jù)和實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)進(jìn)行分析，提高對(duì)農(nóng)作物各項(xiàng)相關(guān)數(shù)據(jù)的關(guān)聯(lián)監(jiān)測能力。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域環(huán)境領(lǐng)域：大數(shù)據(jù)技術(shù)在環(huán)境保護(hù)領(lǐng)域的應(yīng)用有兩個(gè)亮點(diǎn)。第一個(gè)是實(shí)時(shí)且不間斷地檢測環(huán)境的變化，應(yīng)用大數(shù)據(jù)工具收集到大量關(guān)于各項(xiàng)環(huán)境質(zhì)量指標(biāo)的數(shù)據(jù)信息，并將這些數(shù)據(jù)信息傳輸?shù)街行臄?shù)據(jù)庫進(jìn)行數(shù)據(jù)的處理以及分析,用于環(huán)境治理方案的制定；第二個(gè)是實(shí)時(shí)檢測環(huán)境治理效果，動(dòng)態(tài)更新治理方案。技術(shù)人員采用可視化方法將環(huán)境數(shù)據(jù)分析結(jié)果和治理模型立體化展現(xiàn)，為了檢測制定的環(huán)境保護(hù)方案是否是有效的，技術(shù)人員通過用于測試的模擬環(huán)境數(shù)據(jù)，建立模型來模擬真實(shí)環(huán)境。社會(huì)安全領(lǐng)域：國家可以通過大數(shù)據(jù)技術(shù)監(jiān)控違法亂紀(jì)行為并且應(yīng)用大數(shù)據(jù)貢酒抓捕在逃罪犯，企業(yè)也可以利用大數(shù)據(jù)技術(shù)防御黑客惡意的網(wǎng)絡(luò)攻擊等。1.3.1大數(shù)據(jù)的應(yīng)用概述大數(shù)據(jù)的應(yīng)用領(lǐng)域交通領(lǐng)域：大數(shù)據(jù)技術(shù)在交通領(lǐng)域的應(yīng)用主要集中在兩方面。一方面我們可以利用大數(shù)據(jù)傳感器實(shí)時(shí)收集到各個(gè)路段車輛數(shù)量的數(shù)據(jù)，從而了解到不同路段在不同時(shí)段的車輛通行密度情況，合理地根據(jù)這些信息對(duì)道路規(guī)劃（例如某個(gè)路段是否在某個(gè)時(shí)間段只能單行、某個(gè)路段是否在某個(gè)時(shí)段只能允許單號(hào)車輛同行等）進(jìn)行及時(shí)的調(diào)整；另一個(gè)方面，我們可以利用大數(shù)據(jù)來實(shí)現(xiàn)信號(hào)燈的合理安排，提高已有線路的運(yùn)行能力?？挂哳I(lǐng)域：大數(shù)據(jù)在抗疫領(lǐng)域的應(yīng)用主要集中在兩方面。一方面是利用大數(shù)據(jù)進(jìn)行疫情的輿情分析，大數(shù)據(jù)技術(shù)已經(jīng)成為疫情背景下分析民情民意必不可少的一部分，它能精準(zhǔn)地分析出民眾的需求和問題；另一方面，大數(shù)據(jù)技術(shù)還可以通過收集用戶實(shí)時(shí)的位置信息或者在各種app鐘留存的地址信息實(shí)時(shí)追蹤感染者的移動(dòng)軌跡并記錄感染者的人群接觸史，通過建立知識(shí)圖譜，精準(zhǔn)定位疫情的傳播途徑，防止疫情的擴(kuò)散。1.4大數(shù)據(jù)時(shí)代的思維變革

1.4大數(shù)據(jù)時(shí)代的思維變革維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中提出:“大數(shù)據(jù)，一場生活、工作與思維的大變革?！贝髷?shù)據(jù)帶來信息風(fēng)暴正在變革我們的生活、工作以及思維方式。大數(shù)據(jù)時(shí)代的到來將會(huì)給我們帶來三個(gè)思維轉(zhuǎn)變，即從樣本思維轉(zhuǎn)變?yōu)榭傮w思維，從精確思維轉(zhuǎn)變?yōu)槿蒎e(cuò)思維，從因果思維轉(zhuǎn)變?yōu)橄嚓P(guān)思維，從自然思維轉(zhuǎn)變?yōu)橹悄芩季S。1.4大數(shù)據(jù)時(shí)代的思維變革更多不是隨機(jī)樣本，而是全體數(shù)據(jù)由于采集與分析大量的數(shù)據(jù)在以前是十分復(fù)雜與困難的，故我們常用隨機(jī)取樣是采集與分析大量數(shù)據(jù)，但這個(gè)方法只能以將從小部分?jǐn)?shù)據(jù)中得來的規(guī)律推廣到總體，若是存在偏見，則結(jié)果也會(huì)存在偏差；并且也只能回答我們在設(shè)計(jì)取樣之初提出的問題，無法解答我們在分析數(shù)據(jù)過程中產(chǎn)生的新問題，缺乏調(diào)查延展性。相比于小數(shù)據(jù)，大數(shù)據(jù)更加強(qiáng)調(diào)數(shù)據(jù)的多樣性和整體性。大數(shù)據(jù)時(shí)代，采取全數(shù)據(jù)模式，即采用所有數(shù)據(jù)，可以理解為“樣本=總體”，只有將思維方式從樣本思維轉(zhuǎn)變?yōu)榭傮w思維，才能更加全面并且系統(tǒng)地把握數(shù)據(jù)反映出來規(guī)律或者現(xiàn)實(shí)；此外，基于大數(shù)據(jù)時(shí)代的全數(shù)據(jù)模式，我們收集到的數(shù)據(jù)從少量轉(zhuǎn)變?yōu)楹Ａ?，并且我們收集的?shù)據(jù)也已經(jīng)不再僅僅局限于某一段特定的時(shí)間，而是擴(kuò)大到那些實(shí)時(shí)更新的數(shù)據(jù)，得益于收集到的實(shí)時(shí)更新的海量數(shù)據(jù)，大數(shù)據(jù)分析還具有即時(shí)性。1.4大數(shù)據(jù)時(shí)代的思維變革更雜不是精確性，而是混雜性混雜性：隨著數(shù)據(jù)量的增加，數(shù)據(jù)的錯(cuò)誤率也在增加；接受不同格式的數(shù)據(jù)，只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能使用傳統(tǒng)數(shù)據(jù)庫，如果不接受混亂，剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用。伴隨著數(shù)據(jù)的混雜性的不斷增長，數(shù)據(jù)的多樣性也同時(shí)在增長。小數(shù)據(jù)時(shí)代，我們追求數(shù)據(jù)的精確性；大數(shù)據(jù)時(shí)代，得益于大數(shù)據(jù)技術(shù)的不斷突破和發(fā)展，大量非結(jié)構(gòu)化的數(shù)據(jù)的分析和處理能力日趨增強(qiáng)，數(shù)據(jù)量的爆發(fā)式增長及數(shù)據(jù)采集頻率的增加必然會(huì)造成結(jié)果的不準(zhǔn)確，一些錯(cuò)誤數(shù)據(jù)也會(huì)混入數(shù)據(jù)庫，但因?yàn)榇髷?shù)據(jù)的海量性，我們不需要擔(dān)心某個(gè)或某些數(shù)據(jù)點(diǎn)對(duì)結(jié)果的不利影響，仍可以利用這些數(shù)據(jù)預(yù)測趨。錯(cuò)誤數(shù)據(jù)的固有特性，是由測量、記錄和交流數(shù)據(jù)使用的工具所產(chǎn)生的問題。1.4大數(shù)據(jù)時(shí)代的思維變革更好不是因果關(guān)系，而是相關(guān)關(guān)系確定相關(guān)關(guān)系只是通過識(shí)別良好的關(guān)聯(lián)來幫助我們分析某一個(gè)現(xiàn)象，而不是用來揭示其內(nèi)部的運(yùn)作機(jī)制。找準(zhǔn)相關(guān)關(guān)系，我們必須聚焦于“是什么”而非“為什么”。相關(guān)關(guān)系分析法通過研究和分析數(shù)據(jù)之間存在的線性相關(guān)關(guān)系以及復(fù)雜的非線性相關(guān)關(guān)系，不僅能幫助人們很有效地解決了偏見可能會(huì)造成的偏差，還能幫助人們挖掘出更多隱藏在數(shù)據(jù)之中不容易被注意到的關(guān)聯(lián)性，這對(duì)于我們捕捉當(dāng)下情況和預(yù)測未來趨勢是非常有幫助的。相關(guān)關(guān)系的核心在于量化兩個(gè)數(shù)據(jù)值之間的數(shù)據(jù)關(guān)系，要明確相關(guān)關(guān)系，找到良好的關(guān)聯(lián)物便是關(guān)鍵所在。1.5國家大數(shù)據(jù)戰(zhàn)略

1.5.1國家大數(shù)據(jù)戰(zhàn)略的歷史沿革2012年11月，廣東省率先啟動(dòng)大數(shù)據(jù)戰(zhàn)略，根據(jù)《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》，廣東省將建立省大數(shù)據(jù)戰(zhàn)略工作領(lǐng)導(dǎo)小組等，為保證大數(shù)據(jù)戰(zhàn)略有效實(shí)施，廣東省還將建設(shè)政務(wù)數(shù)據(jù)中心，并未高等院校和企業(yè)等成立大數(shù)據(jù)研究機(jī)構(gòu)提供支持。廣東省還將在政府各部門開展數(shù)據(jù)開放試點(diǎn)，并通過部門網(wǎng)站向社會(huì)開放可供下載和分析使用的數(shù)據(jù)，進(jìn)一步推進(jìn)政務(wù)公開。2014年3月，大數(shù)據(jù)首次寫入政府工作報(bào)告。2015年10月，黨的十八屆五中全會(huì)正式提出“實(shí)施國家大數(shù)據(jù)戰(zhàn)略，全面推進(jìn)我國大數(shù)據(jù)發(fā)展和應(yīng)用，加快建設(shè)數(shù)據(jù)強(qiáng)國，推動(dòng)數(shù)據(jù)資源開放共享，釋放技術(shù)紅利、制度紅利和創(chuàng)新紅利，促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型升級(jí)”。這表明我國已將大數(shù)據(jù)視作戰(zhàn)略資源并上升為國家戰(zhàn)略，期望運(yùn)用大數(shù)據(jù)推動(dòng)經(jīng)濟(jì)發(fā)展、完善社會(huì)治理、提升政府服務(wù)和監(jiān)管能力。2016年12月，為貫徹落實(shí)《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》，加快實(shí)施國家大數(shù)據(jù)戰(zhàn)略，推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)健康快速發(fā)展，工信部編制了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》。1.5.1國家大數(shù)據(jù)戰(zhàn)略的歷史沿革2017年12月，習(xí)近平主席主持中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略第二次集體學(xué)習(xí)。習(xí)近平總書記在主持學(xué)習(xí)時(shí)強(qiáng)調(diào)，大數(shù)據(jù)發(fā)展日新月異，我們應(yīng)該審時(shí)度勢、精心謀劃、超前布局、力爭主動(dòng)，深入了解大數(shù)據(jù)發(fā)展現(xiàn)狀和趨勢及其對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的影響，分析我國大數(shù)據(jù)發(fā)展取得的成績和存在的問題，推動(dòng)實(shí)施國家大數(shù)據(jù)戰(zhàn)略，加快完善數(shù)字基礎(chǔ)設(shè)施，推進(jìn)數(shù)據(jù)資源整合和開放共享，保障數(shù)據(jù)安全，加快建設(shè)數(shù)字中國，更好服務(wù)我國經(jīng)濟(jì)社會(huì)發(fā)展和人民生活改善；

1.5.1國家大數(shù)據(jù)戰(zhàn)略的歷史沿革習(xí)近平總書記還強(qiáng)調(diào)，要推動(dòng)大數(shù)據(jù)技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展。我國網(wǎng)絡(luò)購物、移動(dòng)支付、共享經(jīng)濟(jì)等數(shù)字經(jīng)濟(jì)新業(yè)態(tài)新模式蓬勃發(fā)展，走在了世界前列。我們要瞄準(zhǔn)世界科技前沿，集中優(yōu)勢資源突破大數(shù)據(jù)核心技術(shù)，加快構(gòu)建自主可控的大數(shù)據(jù)產(chǎn)業(yè)鏈、價(jià)值鏈和生態(tài)系統(tǒng)。要加快構(gòu)建高速、移動(dòng)、安全、泛在的新一代信息基礎(chǔ)設(shè)施，統(tǒng)籌規(guī)劃政務(wù)數(shù)據(jù)資源和社會(huì)數(shù)據(jù)資源，完善基礎(chǔ)信息資源和重要領(lǐng)域信息資源建設(shè)，形成萬物互聯(lián)、人機(jī)交互、天地一體的網(wǎng)絡(luò)空間。要發(fā)揮我國制度優(yōu)勢和市場優(yōu)勢，面向國家重大需求，面向國民經(jīng)濟(jì)發(fā)展主戰(zhàn)場，全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)，完善大數(shù)據(jù)發(fā)展政策環(huán)境。要堅(jiān)持?jǐn)?shù)據(jù)開發(fā)、市場主導(dǎo)，以數(shù)據(jù)為紐帶促進(jìn)產(chǎn)學(xué)研深度融合，形成數(shù)據(jù)驅(qū)動(dòng)型創(chuàng)新體系和發(fā)展模式，培育造就一批大數(shù)據(jù)領(lǐng)軍企業(yè)，打造多層次、多類型的大數(shù)據(jù)人才隊(duì)伍；1.5.1國家大數(shù)據(jù)戰(zhàn)略的歷史沿革

另外，習(xí)近平總書記也指出了，要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字

經(jīng)濟(jì)

。建設(shè)現(xiàn)代化經(jīng)濟(jì)體系離不開大數(shù)據(jù)發(fā)展和應(yīng)用。我們要堅(jiān)

持以供給側(cè)結(jié)構(gòu)性改革為主線，加快發(fā)展數(shù)字經(jīng)濟(jì)，推動(dòng)實(shí)體經(jīng)濟(jì)

和數(shù)字經(jīng)濟(jì)融合發(fā)展，推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能同實(shí)體經(jīng)濟(jì)

深度融合，繼續(xù)做好信息化和工業(yè)化深度融合這篇大文章，推動(dòng)制

造業(yè)加速向數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展。要深入實(shí)施工業(yè)互聯(lián)網(wǎng)

創(chuàng)新發(fā)展戰(zhàn)略，系統(tǒng)推進(jìn)工業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施和數(shù)據(jù)資源管理體系

建設(shè)，發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用，加快形成以創(chuàng)新

為主要引領(lǐng)和支撐的數(shù)字經(jīng)濟(jì)。2018年5月，習(xí)近平在向中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)的致辭中指出，我們秉持創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的發(fā)展理念，圍繞建設(shè)網(wǎng)

絡(luò)強(qiáng)國、數(shù)字中國、智慧社會(huì)，全面實(shí)施國家大數(shù)據(jù)戰(zhàn)略，助力中

國經(jīng)濟(jì)從高速增長轉(zhuǎn)向高質(zhì)量發(fā)展。1.5.1國家大數(shù)據(jù)戰(zhàn)略的歷史沿革2019年11月，黨的第十九屆四中全會(huì)召開為推進(jìn)國家治理體系和治理能力現(xiàn)代化進(jìn)行戰(zhàn)略布局。政府?dāng)?shù)字化轉(zhuǎn)型的成效，直接關(guān)乎國家治理現(xiàn)代化的成就。十九屆四中全會(huì)明確提出，“建立健全運(yùn)用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)手段進(jìn)行行政管理的制度規(guī)則，推進(jìn)數(shù)字政府建設(shè)，加強(qiáng)數(shù)據(jù)有序共享，依法保護(hù)個(gè)人信息”，為政府?dāng)?shù)字化轉(zhuǎn)型規(guī)定了方向。2020年《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》的發(fā)表，大數(shù)據(jù)被正式列為新型生產(chǎn)要素。2021年11月30日，工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》。《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》提出“十四五”時(shí)期的總體目標(biāo)，到2025年我國大數(shù)據(jù)產(chǎn)業(yè)測算規(guī)模突破3萬億元，年均復(fù)合增長率保持25%左右，創(chuàng)新力強(qiáng)、附加值高、自主可控的現(xiàn)代化大數(shù)據(jù)產(chǎn)業(yè)體系基本形成。1.5.2國家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景“全球化”的世界背景以及“一帶一路”總體戰(zhàn)略的提出在全球化的大背景下，世界各國之間相互聯(lián)系、相互依賴,相互滲透,關(guān)系越來越密切，已經(jīng)成為一個(gè)不可分割的有機(jī)整體，為了順應(yīng)時(shí)代潮流，我國提出“人類命運(yùn)共同體”理念，并據(jù)此提出“一帶一路”總體戰(zhàn)略。大數(shù)據(jù)時(shí)代的到來，更加拉近了國與國之間的距離，國家大數(shù)據(jù)戰(zhàn)略，需要立足于“人類命運(yùn)共同體”理念。因此，國家大數(shù)據(jù)戰(zhàn)略必須服務(wù)于“一帶一路”，實(shí)現(xiàn)以數(shù)字驅(qū)動(dòng)“一帶一路”，通過大數(shù)據(jù)技術(shù)的利用，來解決“一帶一路”建設(shè)中存在的風(fēng)險(xiǎn)。由于“一帶一路”涉及沿線國家的經(jīng)濟(jì)、政治、金融等多個(gè)領(lǐng)域，不僅涵蓋的領(lǐng)域眾多，涵蓋的國家、地區(qū)、企業(yè)、團(tuán)體甚至個(gè)人也很多，這導(dǎo)致了非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)混雜在一起，為了降低數(shù)據(jù)結(jié)構(gòu)復(fù)雜性來帶的風(fēng)險(xiǎn)，我們必須應(yīng)用大數(shù)據(jù)技術(shù)對(duì)各個(gè)領(lǐng)域、各個(gè)對(duì)象涵蓋的海量數(shù)據(jù)進(jìn)行收集、清洗、處理和分析，構(gòu)建大數(shù)據(jù)指標(biāo)體系，為“一帶一路”提供智能決策支持，從而不斷推進(jìn)數(shù)字化的“一帶一路”的建設(shè)。1.5.2國家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景國家安全面臨錯(cuò)綜復(fù)雜的形勢習(xí)總書記指出：“當(dāng)前我國國家安全內(nèi)涵和外延比歷史上任何時(shí)候都要豐富，時(shí)空領(lǐng)域比歷史上任何時(shí)候都要寬廣，內(nèi)外因素比歷史上任何時(shí)候都要復(fù)雜，必須堅(jiān)持總體國家安全觀，以人民安全為宗旨，以政治安全為根本，以經(jīng)濟(jì)安全為基礎(chǔ)，以軍事、文化、社會(huì)安全為保障，以促進(jìn)國際安全為依托，走出一條中國特色國家安全道路。貫徹落實(shí)總體國家安全觀，必須既重視外部安全，又重視內(nèi)部安全，對(duì)內(nèi)求發(fā)展、求變革、求穩(wěn)定、建設(shè)平安中國，對(duì)外求和平、求合作、求共贏、建設(shè)和諧世界；既重視國土安全，又重視國民安全，堅(jiān)持以民為本、以人為本，堅(jiān)持國家安全一切為了人民、一切依靠人民，真正夯實(shí)國家安全的群眾基礎(chǔ)；既重視傳統(tǒng)安全，又重視非傳統(tǒng)安全，構(gòu)建集政治安全、國土安全、軍事安全、經(jīng)濟(jì)安全、文化安全、社會(huì)安全、科技安全、信息安全、生態(tài)安全、資源安全、核安全等于一體的國家安全體系；既重視發(fā)展問題，又重視安全問題，發(fā)展是安全的基礎(chǔ)，安全是發(fā)展的條件，富國才能強(qiáng)兵，強(qiáng)兵才能衛(wèi)國；既重視自身安全，又重視共同安全，打造命運(yùn)共同體，推動(dòng)各方朝著互利互惠、共同安全的目標(biāo)相向而行。1.5.2國家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景國家安全面臨錯(cuò)綜復(fù)雜的形勢在當(dāng)下大數(shù)據(jù)時(shí)代，數(shù)據(jù)安全直接關(guān)乎于國家安全和公共利益，故而國家安全的重點(diǎn)將聚焦于數(shù)據(jù)安全。2021年6月11日，十三屆全國人大常委會(huì)第二十九次會(huì)議通過了我國第一部有關(guān)數(shù)據(jù)安全的專門法律——《數(shù)據(jù)安全法》，并且于2021年9月1日起開始施行。《數(shù)據(jù)安全法》的通過，是我國首次將數(shù)據(jù)安全提升至國家安全層面。1.5.2國家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景我國經(jīng)濟(jì)發(fā)展的不平衡不充分我國經(jīng)濟(jì)發(fā)展的不平衡不充分主要體現(xiàn)在兩方面：第一，我國供給和需求仍然存在不平衡的問題，隨著人們生活水平的不斷提高，其需求結(jié)構(gòu)正在轉(zhuǎn)向中高端產(chǎn)品，供給結(jié)構(gòu)仍然還停留在主要供給低端產(chǎn)品，導(dǎo)致低端供給過剩、中高端供給不足，因此供給結(jié)構(gòu)無法很好地適應(yīng)需求結(jié)構(gòu)的變化；第二，傳統(tǒng)產(chǎn)業(yè)利用大數(shù)據(jù)技術(shù)進(jìn)行產(chǎn)業(yè)重塑或者轉(zhuǎn)型的成效并不理想，數(shù)字經(jīng)濟(jì)與傳統(tǒng)產(chǎn)業(yè)的融合并不徹底，許多產(chǎn)業(yè)的創(chuàng)新能力依然無法適應(yīng)經(jīng)濟(jì)高質(zhì)量發(fā)展的要求，創(chuàng)新驅(qū)動(dòng)經(jīng)濟(jì)增長的新格局還未形成。因此，我國一方面需要利用大數(shù)據(jù)技術(shù)助力傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級(jí)；另一方面需要大數(shù)據(jù)技術(shù)與實(shí)體經(jīng)濟(jì)進(jìn)行深度融合，開發(fā)出新產(chǎn)業(yè)、新業(yè)態(tài)、新模式；并且，我國還需要借助大數(shù)據(jù)技術(shù)，不斷提升產(chǎn)業(yè)技術(shù)創(chuàng)新能力，從而不斷提高企業(yè)的生產(chǎn)效率和運(yùn)營效率，實(shí)現(xiàn)新舊產(chǎn)業(yè)的可持續(xù)發(fā)展。1.5.2國家大數(shù)據(jù)戰(zhàn)略的時(shí)代背景社會(huì)治理的迫切需求以前，我國的社會(huì)治理存在著一個(gè)不容忽視的問題——“數(shù)據(jù)孤島”問題?！皵?shù)據(jù)孤島”指的是政府與社會(huì)各個(gè)部分之間的數(shù)據(jù)無法連接互動(dòng)，從而影響政府治理的效率。而大數(shù)據(jù)技術(shù)在社會(huì)治理中的應(yīng)用，很好地解決了這個(gè)問題。借助大數(shù)據(jù)體系，將現(xiàn)有數(shù)據(jù)通公布在一個(gè)開放的網(wǎng)絡(luò)平臺(tái)并允許社會(huì)各界無償使用。這些數(shù)據(jù)不僅可以直接給百姓提供服務(wù)，還可以用于企業(yè)、科研機(jī)構(gòu)以及公益組織等的進(jìn)一步處理和分析；政府也可以通過平臺(tái)上的反饋信息，評(píng)估政策的施行效果，并對(duì)政策進(jìn)行及時(shí)的調(diào)整。至此，“數(shù)據(jù)孤島”問題迎刃而解的同時(shí)，政府也提高了其基礎(chǔ)服務(wù)能力。除了數(shù)據(jù)的共享，政府還可以借助大數(shù)據(jù)技術(shù)將原始大數(shù)據(jù)進(jìn)行加工和分析，最終將這些分析好的數(shù)據(jù)用于預(yù)測未來可能發(fā)生的事件或者是找到一些潛藏的關(guān)聯(lián)關(guān)系，從而增強(qiáng)政府決策的科學(xué)性。1.5.3國家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持以創(chuàng)新作為發(fā)展的驅(qū)動(dòng)力我國既是世界上擁有網(wǎng)民數(shù)量最多的國家，也是重要的大數(shù)據(jù)資源集散地，構(gòu)筑在網(wǎng)絡(luò)技術(shù)與數(shù)據(jù)開發(fā)利用基礎(chǔ)上的新技術(shù)、新產(chǎn)品、新服務(wù)以及新產(chǎn)業(yè)、新業(yè)態(tài)，為吸引企業(yè)、社會(huì)組織以及公眾的參與提供了巨大的數(shù)據(jù)空間和大眾創(chuàng)業(yè)、萬眾創(chuàng)新的發(fā)展平臺(tái)。堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展的大數(shù)據(jù)戰(zhàn)略不僅能夠成功激發(fā)企業(yè)和全社會(huì)運(yùn)用大數(shù)據(jù)的創(chuàng)新活力，為經(jīng)濟(jì)社會(huì)發(fā)展釋放潛能和創(chuàng)造力，而且有助于借用民智，營造跨地域、跨領(lǐng)域、跨行業(yè)集成融合的大數(shù)據(jù)應(yīng)用生態(tài)，進(jìn)而實(shí)現(xiàn)大數(shù)據(jù)驅(qū)動(dòng)全社會(huì)創(chuàng)新發(fā)展的良好局面，增強(qiáng)大數(shù)據(jù)集成創(chuàng)新能力與國家大數(shù)據(jù)競爭力。1.5.3國家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持政府?dāng)?shù)字治理體系變革與經(jīng)濟(jì)社會(huì)發(fā)展方式整體改革相協(xié)調(diào)大數(shù)據(jù)是數(shù)字時(shí)代的新型戰(zhàn)略資源，其開發(fā)利用水平取決于大數(shù)據(jù)與政府公共管理、企業(yè)生產(chǎn)經(jīng)營與社會(huì)自我培育的深度融合。換句話說，既要高度重視大數(shù)據(jù)技術(shù)與政府?dāng)?shù)據(jù)治理雙重遞進(jìn)、疊加作用而帶來的國家治理體系與政府治理能力的現(xiàn)代化，充分運(yùn)用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等手段擴(kuò)大數(shù)據(jù)開放、優(yōu)化政府流程、改進(jìn)行政方式、提高決策科學(xué)化精準(zhǔn)化；也要統(tǒng)籌推進(jìn)大數(shù)據(jù)戰(zhàn)略與經(jīng)濟(jì)發(fā)展、社會(huì)治理的無縫對(duì)接。只有堅(jiān)持政府、企業(yè)和社會(huì)大數(shù)據(jù)戰(zhàn)略的整體化推進(jìn)和數(shù)據(jù)治理的國家統(tǒng)籌，才能形成完整的大數(shù)據(jù)開發(fā)利用合力。單獨(dú)強(qiáng)調(diào)某一方面，都會(huì)帶來數(shù)據(jù)治理的碎片化與數(shù)據(jù)綜合效用的衰減。1.5.3國家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須堅(jiān)持速度、結(jié)構(gòu)與質(zhì)量效益相統(tǒng)一大數(shù)據(jù)是信息時(shí)代的新型戰(zhàn)略資源，其開發(fā)利用必須將速度、結(jié)構(gòu)與質(zhì)量效益相統(tǒng)一。大數(shù)據(jù)技術(shù)的應(yīng)用，通過對(duì)海量數(shù)據(jù)的挖掘和分析，及時(shí)反饋這些數(shù)據(jù)背后潛藏的信息，將這些分析出的信息與政府、各個(gè)行業(yè)以及百姓生活的深度融合，以此提高政府治理能力、促進(jìn)各個(gè)行業(yè)的產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化以及可持續(xù)發(fā)展、不斷改善人民的生活水平，從而形成完整的大數(shù)據(jù)開發(fā)利用鏈條。在這個(gè)過程中，大數(shù)據(jù)的速度、結(jié)構(gòu)與質(zhì)量效益缺一不可，否則可能會(huì)導(dǎo)致數(shù)據(jù)綜合效用的衰減。1.5.3國家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵必須保證安全性與開放性的兼顧國家在進(jìn)行數(shù)據(jù)公開和共享的同時(shí)其實(shí)存在著極大的安全隱患（例如，數(shù)據(jù)遭受異常流量攻擊、數(shù)據(jù)泄露等），此時(shí)保障數(shù)據(jù)的安全性就極為重要了，沒有數(shù)據(jù)安全就不存在可持續(xù)的大數(shù)據(jù)開發(fā)利用。國家大數(shù)據(jù)戰(zhàn)略的有效實(shí)施，依賴于國家抵御數(shù)據(jù)風(fēng)險(xiǎn)的能力的不斷增強(qiáng)，實(shí)現(xiàn)數(shù)據(jù)開放與數(shù)據(jù)安全之間的平衡，是建設(shè)數(shù)字中國的必由之路。1.5.4國家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵要素大數(shù)據(jù)正在引領(lǐng)我國的經(jīng)濟(jì)發(fā)展進(jìn)入數(shù)字經(jīng)濟(jì)時(shí)代。中國工程院院長周濟(jì)在“第二屆IT2020高端論壇”上提出，“云計(jì)算和大數(shù)據(jù)時(shí)代已經(jīng)到來，而且以及深切改變了人們的工作和生活方式，這勢必重塑全球科技和經(jīng)濟(jì)競爭格局，為中國經(jīng)濟(jì)引擎升級(jí)帶來新的挑戰(zhàn)和機(jī)遇”[]。隨著大數(shù)據(jù)技術(shù)在經(jīng)濟(jì)活動(dòng)以及生產(chǎn)活動(dòng)中的廣泛應(yīng)用，將實(shí)現(xiàn)我國傳統(tǒng)產(chǎn)業(yè)結(jié)構(gòu)和形態(tài)向數(shù)字化和智能化方向轉(zhuǎn)型升級(jí)，并促進(jìn)我國產(chǎn)業(yè)類型以及產(chǎn)業(yè)模式的推陳出新，加速我國經(jīng)濟(jì)結(jié)構(gòu)的轉(zhuǎn)變，從而推動(dòng)我國經(jīng)濟(jì)的高質(zhì)量發(fā)展。大數(shù)據(jù)還推動(dòng)了不同產(chǎn)業(yè)之間的深度融合，“互聯(lián)網(wǎng)+產(chǎn)業(yè)”便是一個(gè)很好的例子，通過大數(shù)據(jù)技術(shù)，使得各行各業(yè)（例如電商、金融、教育、交通、醫(yī)療等）能更精準(zhǔn)地為客戶提供個(gè)性化產(chǎn)品以及服務(wù)。1.5.4國家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是增強(qiáng)國家競爭力的重大機(jī)遇大數(shù)據(jù)已經(jīng)成為塑造國家競爭力的戰(zhàn)略制高點(diǎn)之一,世界各國紛紛把推進(jìn)大數(shù)據(jù)的技術(shù)創(chuàng)新作為國家的重要發(fā)展戰(zhàn)略。中國緊跟世界發(fā)展潮流，將國家大數(shù)據(jù)戰(zhàn)略落到實(shí)處，當(dāng)前，我國正在為從“數(shù)據(jù)大國”轉(zhuǎn)型成“數(shù)據(jù)強(qiáng)國”而不斷努力。隨著中國大數(shù)據(jù)技術(shù)的不斷創(chuàng)新和突破，到2025年，其產(chǎn)生的數(shù)據(jù)將超過美國。數(shù)據(jù)的快速產(chǎn)生和各項(xiàng)配套政策的落實(shí)推動(dòng)我國大數(shù)據(jù)行業(yè)高速發(fā)展，預(yù)計(jì)未來我國行業(yè)大數(shù)據(jù)市場規(guī)模增速將維持在15%-25%之間，到2025年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)19508億元的高點(diǎn)。大力發(fā)展大數(shù)據(jù)有利于將我國數(shù)據(jù)資源優(yōu)勢轉(zhuǎn)化為國家競爭優(yōu)勢，實(shí)現(xiàn)數(shù)據(jù)規(guī)模、質(zhì)量和應(yīng)用水平同步提升，發(fā)掘和釋放數(shù)據(jù)資源的潛在價(jià)值，有效提升國家競爭力。1.5.4國家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)是提高治理能力的有效驅(qū)動(dòng)力在大數(shù)據(jù)時(shí)代，互聯(lián)網(wǎng)成為了政府治理的平臺(tái)。我國建立電子政務(wù)系統(tǒng)，更多地依賴數(shù)據(jù)進(jìn)行決策，從而提高政府民意搜集能力以及及時(shí)應(yīng)對(duì)各類問題的變通能力，達(dá)到高效且精準(zhǔn)施政的目的。大數(shù)據(jù)技術(shù)的應(yīng)用，將政府的決策依據(jù)轉(zhuǎn)向數(shù)據(jù)，這使得政府的決策更加科學(xué)，推動(dòng)了政府治理理念的革新，將治理模式轉(zhuǎn)向現(xiàn)代化治理。1.5.4國家大數(shù)據(jù)戰(zhàn)略的意義大數(shù)據(jù)加速數(shù)字中國的建設(shè)從2015年12月16日在第二屆世界互聯(lián)網(wǎng)大會(huì)開幕式上強(qiáng)調(diào)“中國正在實(shí)施‘互聯(lián)網(wǎng)+’行動(dòng)計(jì)劃，推進(jìn)‘?dāng)?shù)字中國’建設(shè)”，到2017年致第四屆世界互聯(lián)網(wǎng)大會(huì)的賀信中指出：“中國數(shù)字經(jīng)濟(jì)發(fā)展將進(jìn)入快車道”；從黨的十九大報(bào)告提出加強(qiáng)應(yīng)用基礎(chǔ)研究，“為建設(shè)科技強(qiáng)國、質(zhì)量強(qiáng)國、航天強(qiáng)國、網(wǎng)絡(luò)強(qiáng)國、交通強(qiáng)國、數(shù)字中國、智慧社會(huì)提供有力支撐”，再到2017年12月8日下午中共中央政治局集體學(xué)習(xí)時(shí)強(qiáng)調(diào)“推進(jìn)數(shù)據(jù)資源整合和開放共享，保障數(shù)據(jù)安全，加快建設(shè)數(shù)字中國”……習(xí)近平總書記為“數(shù)字中國”建設(shè)把舵定向，不僅標(biāo)定了前進(jìn)路徑，更擘畫了清晰未來[]。數(shù)字中國的建設(shè)時(shí)國家大數(shù)據(jù)戰(zhàn)略實(shí)施過程中的極為重要的一環(huán)。數(shù)字中國的建設(shè)保證了信息化技術(shù)在我國各項(xiàng)事業(yè)發(fā)展進(jìn)程中的有效應(yīng)用，通過對(duì)海量數(shù)據(jù)的挖掘和分析，向各行各業(yè)提供精準(zhǔn)的信息資源，推動(dòng)社會(huì)主義現(xiàn)代化強(qiáng)國的建設(shè)。1.6

本章小結(jié)

本章小結(jié)本章從大數(shù)據(jù)的產(chǎn)生背景與概念、大數(shù)據(jù)的特點(diǎn)和技術(shù)概述、大數(shù)據(jù)的應(yīng)用與價(jià)值體現(xiàn)、大數(shù)據(jù)時(shí)代的思維變革以及國家大數(shù)據(jù)戰(zhàn)略五個(gè)方面帶領(lǐng)我們初步了解大數(shù)據(jù)。大數(shù)據(jù)產(chǎn)生的三個(gè)重要階段，大數(shù)據(jù)的“4V”特點(diǎn)以及五大類技術(shù)，大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用及展現(xiàn)其價(jià)值的“三重門”理論，還有大數(shù)據(jù)給我們帶來的思維變革，以及國家大數(shù)據(jù)戰(zhàn)略的內(nèi)涵和意義都是需要我們了解并掌握的。本章學(xué)習(xí)目的在于對(duì)大數(shù)據(jù)有基礎(chǔ)的了解。感謝觀看

第2章開源大數(shù)據(jù)平臺(tái)開源大數(shù)據(jù)平臺(tái)學(xué)習(xí)目標(biāo)了解兩種常用開源大數(shù)據(jù)分析平臺(tái)——Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀理解兩種平臺(tái)各自的體系結(jié)構(gòu)、基本運(yùn)行機(jī)制及適用范圍掌握其安裝部署過程及基本使用方法，為大數(shù)據(jù)分析的應(yīng)用打下基礎(chǔ)學(xué)習(xí)要點(diǎn)Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀Hadoop和Spark的生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop和Spark的安裝和使用方法目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Hadoop的起源Apache軟件基金會(huì)旗下開源分布式計(jì)算平臺(tái)由DougCutting創(chuàng)始開發(fā)的文本搜索庫源自Google實(shí)驗(yàn)室發(fā)表的兩篇學(xué)術(shù)論文：SanjayG,HowardG,Shun-TakL.TheGoogleFileSystem.Proc.ofSOSP.2003:29-43.DeanJ,GhemawatS.MapReduce.Simplifieddataprocessingonlargeclusters.CommunicationsoftheACM.2008,51(1):107-113.(DeanJ,GhemawatS.MapReduce:Simplifieddataprocessingonlargeclusters.OSDI2004.)最先應(yīng)用于Yahoo！廣告系統(tǒng)的數(shù)據(jù)挖掘2008年4月，打破世界紀(jì)錄成為排序1TB數(shù)據(jù)最快的系統(tǒng)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算排序時(shí)間只用了209秒同年5月再次將紀(jì)錄刷新至62秒DougCuttingHadoop的核心技術(shù)Hadoop是一套大數(shù)據(jù)存儲(chǔ)和處理的解決方案Hadoop核心技術(shù)：HDFS：HadoopDistributedFileSystem，被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。MapReduce：一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。綜合衡量一套大數(shù)據(jù)處理系統(tǒng)是否可用標(biāo)準(zhǔn)：容錯(cuò)性能編程模式的可用性性能或成本比Hadoop的特性高可靠性高效性可擴(kuò)展性低成本良好的跨平臺(tái)性用戶友好性Hadoop的應(yīng)用現(xiàn)狀互聯(lián)網(wǎng)領(lǐng)域：國外：Google和Yahoo！等網(wǎng)站、Facebook、Microsoft、Cisco等國外公司或平臺(tái)國內(nèi)：百度、阿里巴巴、網(wǎng)易、華為、騰訊、中國移動(dòng)等

舉例：淘寶、華為學(xué)術(shù)界：國外：卡耐基梅隆大學(xué)、加州大學(xué)伯克利分析、康奈爾大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)、普渡大學(xué)等國內(nèi)：清華大學(xué)、中國人民大學(xué)、中國科學(xué)院大學(xué)等目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用Hadoop的版本發(fā)展/releases.htmlHadoop的體系結(jié)構(gòu)Hadoop1.0Hadoop的體系結(jié)構(gòu)Hadoop1.0在實(shí)際應(yīng)用中仍然存在著許多問題。HDFS：可用性：單點(diǎn)故障問題擴(kuò)展性：不支持水平擴(kuò)展系統(tǒng)性能：會(huì)受限于單個(gè)名稱節(jié)點(diǎn)的吞吐量隔離性：單個(gè)名稱節(jié)點(diǎn)也難以提供不同程序之間的隔離性MapReduce：可用性：單點(diǎn)故障問題資源受限資源化分不合理Hadoop的體系結(jié)構(gòu)Hadoop2.0在1.0的基礎(chǔ)上進(jìn)行了豐富和完善。Hadoop的生態(tài)系統(tǒng)目錄Hadoop平臺(tái)Hadoop概述Hadoop生態(tài)系統(tǒng)和體系結(jié)構(gòu)Hadoop的安裝和使用部署準(zhǔn)備硬件準(zhǔn)備：分布式模式：至少需要2臺(tái)計(jì)算機(jī)或1臺(tái)計(jì)算機(jī)上的2臺(tái)虛擬機(jī)單機(jī)或偽分布式模式：可使用1臺(tái)計(jì)算機(jī)。操作系統(tǒng)準(zhǔn)備：Linux系統(tǒng)（如Ubuntu操作系統(tǒng)）Linux系統(tǒng)的安裝主要有兩種方式：虛擬機(jī)安裝：計(jì)算機(jī)比較新或者配置內(nèi)存4G以上雙系統(tǒng)安裝：計(jì)算機(jī)較舊或配置內(nèi)存小于等于4G本書介紹的是虛擬機(jī)安裝方法下載安裝-Ubuntu虛擬機(jī)安裝Ubuntu虛擬機(jī)安裝軟件下載新建虛擬機(jī)安裝Ubuntu用戶及環(huán)境設(shè)置下載安裝-Ubuntu虛擬機(jī)安裝軟件下載：下載并安裝VirtualBox虛擬機(jī)軟件官網(wǎng)或鏡像網(wǎng)站下載好所需要的Ubuntu的鏡像文件（ISO文件）本書使用的版本為Ubuntu16.04，使用的鏡像網(wǎng)站為阿里開源鏡像站下載安裝-Ubuntu虛擬機(jī)安裝新建虛擬機(jī)：打開VirtualBox，單擊“新建”按鈕給虛擬機(jī)命名為“Ubuntu”，選擇操作系統(tǒng)類型與版本選擇內(nèi)存大小選擇“現(xiàn)在創(chuàng)建虛擬硬盤”選項(xiàng)選擇虛擬硬盤文件類型為“VDI（VirtualBox磁盤鏡像）”將虛擬硬盤的存儲(chǔ)分配方式選擇為“動(dòng)態(tài)分配”選擇文件存儲(chǔ)的位置和容量大小單擊“創(chuàng)建”按鈕，完成虛擬機(jī)的創(chuàng)建完成上述步驟后，可以在VirtualBox中看到新建好的虛擬機(jī)，代表虛擬機(jī)已經(jīng)創(chuàng)建成功了。下載安裝-Ubuntu虛擬機(jī)安裝安裝Ubuntu：設(shè)置“存儲(chǔ)”單擊“啟動(dòng)”按鈕啟動(dòng)虛擬機(jī)，若彈出提示，在下拉列表中選擇ISO文件啟動(dòng)后，選擇語言為“中文（簡體）”，單擊“安裝Ubuntu”按鈕檢查是否連接網(wǎng)絡(luò)及是否安裝第三方軟件，單擊“繼續(xù)”按鈕。確認(rèn)安裝類型，選擇“其他選項(xiàng)”，單擊“繼續(xù)”按鈕單擊“新建分區(qū)表”按鈕創(chuàng)建分區(qū)，添加交換空間和根目錄全部設(shè)置完成后，單擊“現(xiàn)在安裝”按鈕，確認(rèn)將改動(dòng)寫入磁盤選擇時(shí)區(qū)，在鍵盤布局中將兩列均設(shè)置為漢語設(shè)置用戶名和密碼單擊“繼續(xù)”按鈕，開始安裝安裝完畢后，單擊“現(xiàn)在重啟”按鈕重啟虛擬機(jī)下載安裝-Ubuntu虛擬機(jī)安裝用戶及環(huán)境設(shè)置：創(chuàng)建Hadoop用戶SSH登錄權(quán)限設(shè)置安裝和配置Java下載安裝-Ubuntu虛擬機(jī)安裝創(chuàng)建Hadoop用戶：第一步，按快捷鍵Ctrl+Alt+T，或者在搜索欄中搜索終端，打開終端窗口（命令行界面），輸入如下命令創(chuàng)建新用戶。

$sudouseradd-mhadoop-s/bin/bash由此創(chuàng)建了名為“hadoop”的用戶，同時(shí)指定使用bash作為shell解析相關(guān)命令。第二步，輸入如下命令將登錄密碼設(shè)置為“hadoop”（也可設(shè)置其他密碼，密碼將需按照提示輸入兩次）。

$sudopasswdhadoop第三步，輸入如下命令如下：“hadoop”用戶增加管理員權(quán)限以方便后續(xù)部署。

$sudoadduserhadoopsudo此后的操作請登錄“hadoop”用戶來進(jìn)行。下載安裝-Ubuntu虛擬機(jī)安裝SSH登錄權(quán)限設(shè)置:SSH協(xié)議是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議，可以提供安全的網(wǎng)絡(luò)傳輸環(huán)境。Hadoop名稱節(jié)點(diǎn)（NameNode）啟動(dòng)集群中的數(shù)據(jù)節(jié)點(diǎn)（DataNode）時(shí)，需要通過SSH登錄來實(shí)現(xiàn)。SSH包括客戶端client（無須安裝，Ubuntu操作系統(tǒng)已自動(dòng)安裝）和服務(wù)器端server（需要安裝）?？刹捎孟旅娴拿畎惭bSSHserver:

$sudoapt-getinstallopenssh-server如果本步安裝失敗，可以先嘗試執(zhí)行$sudoapt-getupdate命令進(jìn)行更新。安裝以后，使用如下命令：

$sshlocalhost然后輸入yes和密碼后即可登錄本機(jī)。下載安裝-Ubuntu虛擬機(jī)安裝SSH登錄權(quán)限設(shè)置:為了使名稱節(jié)點(diǎn)能夠順利登錄集群中的任何一個(gè)節(jié)點(diǎn)，我們可以用下面的命令將所有機(jī)器配置為無密碼登錄方式。

$exit

$cd~/.ssh/

$ssh-keygen-trsa此時(shí)系統(tǒng)會(huì)要求你指定一個(gè)文件來保存密鑰，可以按回車鍵使用默認(rèn)的文件。接著輸入下面的代碼繼續(xù)完成所有機(jī)器的無密碼登錄配置。

$cat./id_rsa.pub>>./authorized_keys此時(shí)再次執(zhí)行$sshlocalhost命令即可不需要密碼登錄了，SSH配置結(jié)束。下載安裝-Ubuntu虛擬機(jī)安裝安裝和配置Java:在Ubuntu中直接通過下面的命令安裝jdk1.8：

$sudoapt-getinstallopenjdk-8-jreopenjdk-8-jdk除此之外，還需配置JAVA_HOME環(huán)境變量以避免訪問時(shí)反復(fù)寫絕對(duì)路徑第一步，進(jìn)入文件~/.bashrc編輯模式）：

$vim~/.bashrc

如果報(bào)錯(cuò)“程序Vim已包含在以下軟件包中”，可以先以下命令:

$sudoapt-getinstallvim第二步，單擊i按鍵開啟編輯模式，添加如下語句：

exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

exportJRE_HOME=${JAVA_HOME}/jre

exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

exportPATH=${JAVA_HOME}/bin:$PATH

輸入完畢后，單擊Esc按鍵退出編輯模式，輸入“:wq”（w保存，q退出）命令，按回車鍵后回到命令行界面。下載安裝-Ubuntu虛擬機(jī)安裝安裝和配置Java:第三步，執(zhí)行下列命令使修改生效：

$source~/.bashrc第四步，執(zhí)行下列命令查看Java是否安裝成功：

$java-version

若返回下圖所示內(nèi)容，則Java安裝成功。下載安裝-Hadoop的下載安裝Hadoop的下載安裝Hadoop官方網(wǎng)站：/本書選擇的是Hadoop3.1.3版本單機(jī)安裝配置偽分布式安裝配置分布式安裝配置下載安裝-Hadoop的下載安裝單機(jī)安裝配置：將hadoop-3.1.3.tar.gz安裝至虛擬機(jī)的/usr/local/目錄中，命令如下：

$sudotar-zvxf~/下載/hadoop-3.1.3.tar.gz-C/usr/local可以重命名并修改訪問權(quán)限，以方便后續(xù)調(diào)用，命令如下：

$cd/usr/local/

$sudomv./hadoop-3.1.3/./hadoop#將文件夾名改為hadoop

$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限檢查Hadoop是否可用，命令如下：

$cd/usr/local/hadoop

$./bin/hadoopversion如果可用，則會(huì)顯示Hadoop版本信息，表示單機(jī)安裝Hadoop成功。下載安裝-Hadoop的下載安裝偽分布式安裝配置：Hadoop的運(yùn)行方式是由配置文件決定的，默認(rèn)情況下為單機(jī)模式。如果需要配置為偽分布式模式，則需要修改相應(yīng)配置文件。第一步，修改配置文件第二步，初始化文件系統(tǒng)第三步，啟動(dòng)所有進(jìn)程，執(zhí)行以下命令第四步，訪問web，查看Hadoop集群信息下載安裝-Hadoop的下載安裝第一步，修改配置文件：core-site.xml和hdfs-site.xml在目錄/usr/local/hadoop/etc/hadoop/中打開hdfs-site.xml，將內(nèi)容修改為：<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property></configuration>

dfs.replication表示副本的數(shù)量，偽分布式要設(shè)置為1。

.dir表示存儲(chǔ)fsimage文件的本地磁盤目錄。

dfs.datanode.data.dir表示HDFS數(shù)據(jù)存放的本地磁盤目錄。下載安裝-Hadoop的下載安裝第二步，初始化文件系統(tǒng)執(zhí)行下列語句：

$hadoopnamenode–format

如果報(bào)錯(cuò)“找不到hadoop”，則可以使用以下命令行打開環(huán)境變量配置的界面：

$vim~/.bashrc

打開設(shè)置環(huán)境變量的界面后，添加語句：

exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin同樣輸入“:wq”（w保存，q退出）命令，退出編輯模式。使配置立即生效：

$source~/.bashrc檢查是否配置成功

$hadoop-version

如果報(bào)錯(cuò)“mkdir:無法創(chuàng)建目錄/usr/local/hadoop/logs:權(quán)限不夠”，可通過以下命令行解決：

$sudochown-Rhadoop/usr/local/hadoop#此處前一個(gè)hadoop為用戶名下載安裝-Hadoop的下載安裝第三步，啟動(dòng)所有進(jìn)程，執(zhí)行以下命令：

$start-all.sh第四步，使用瀏覽器訪問http://localhost:9870查看Hadoop集群中NameNode和Datanode的信息。下載安裝-Hadoop的下載安裝分布式安裝配置：為了降低分布式模式部署難度，本書簡單使用兩個(gè)節(jié)點(diǎn)（兩臺(tái)虛擬機(jī):Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)）來搭建集群環(huán)境與單機(jī)安裝過程類似，我們要在Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)上完成創(chuàng)建“hadoop”用戶、安裝SSH服務(wù)端、安裝Java環(huán)境的步驟，并且在Master節(jié)點(diǎn)上安裝Hadoop，并完成配置完成上述步驟后，進(jìn)行下述步驟：第一步，網(wǎng)絡(luò)配置。第二步，設(shè)置SSH無密碼登錄。第三步，配置PATH變量。下載安裝-Hadoop的下載安裝第一步，網(wǎng)絡(luò)配置在虛擬機(jī)的網(wǎng)絡(luò)設(shè)置中將兩臺(tái)虛擬機(jī)的網(wǎng)絡(luò)連接方式改為“橋接網(wǎng)卡”模式因?yàn)椴捎脤?dǎo)入虛擬機(jī)鏡像文件的方式安裝Linux系統(tǒng)，有可能出現(xiàn)兩臺(tái)機(jī)器的MAC地址是相同的，因此，在虛擬機(jī)的網(wǎng)絡(luò)設(shè)置中還需要使用“刷新”按鈕隨機(jī)改變機(jī)器的MAC地址網(wǎng)絡(luò)配置完成以后，可以在終端使用ifconfig命令查看機(jī)器的IP地址：

$ifconfig

其中inet地址即為我們需要查看的IP地址，本書的兩臺(tái)機(jī)器IP地址分別為07和09下載安裝-Hadoop的下載安裝第一步，網(wǎng)絡(luò)配置修改各個(gè)節(jié)點(diǎn)的主機(jī)名，在Master節(jié)點(diǎn)上執(zhí)行如下命令修改主機(jī)名：

$sudovim/etc/hostname

將主機(jī)名內(nèi)容直接刪除，并修改為“Master”，保存退出v（需要重啟Linux系統(tǒng)才能看到主機(jī)名的變化）在Master節(jié)點(diǎn)中執(zhí)行如下命令打開并修改Master節(jié)點(diǎn)中的“/etc/hosts”文件：

$sudovim/etc/hosts在hosts文件中增加如下兩條IP和主機(jī)名映射關(guān)系：

07Master

09Slave1下載安裝-Hadoop的下載安裝第一步，網(wǎng)絡(luò)配置完成了Master節(jié)點(diǎn)的配置后，參照上面的方法，把Slave節(jié)點(diǎn)上的“/etc/hostname”文件中的主機(jī)名修改為“Slave1”，同時(shí)，修改“/etc/hosts”的內(nèi)容，在hosts文件中增加相同的IP和主機(jī)名映射關(guān)系重新啟動(dòng)Slave節(jié)點(diǎn)的Linux系統(tǒng)在各個(gè)節(jié)點(diǎn)上都執(zhí)行如下命令測試是否可以互相連通：

$pingMaster-c3

$pingSlave1-c3如果可以連通，輸出如圖所示下載安裝-Hadoop的下載安裝第二步，設(shè)置SSH無密碼登錄讓Master節(jié)點(diǎn)可以SSH無密碼登錄到各個(gè)Slave節(jié)點(diǎn)上，生成Master節(jié)點(diǎn)的公匙。

$cd~/.ssh

如果本步執(zhí)行后顯示沒有該目錄，可以先執(zhí)行一次$sshlocalhost命令

$rm./id_rsa*

$ssh-keygen-trsa讓Master節(jié)點(diǎn)能夠SSH無密碼登錄本機(jī)，在Master節(jié)點(diǎn)上執(zhí)行如下命令：

$cat./id_rsa.pub>>./authorized_keys完成后可以執(zhí)行如下命令來進(jìn)行驗(yàn)證：

$sshMaster執(zhí)行成功后如圖所示。下載安裝-Hadoop的下載安裝第二步，設(shè)置SSH無密碼登錄執(zhí)行如下命令返回原來的終端：

$exit在Master節(jié)點(diǎn)上，將上公匙傳輸給Slave1節(jié)點(diǎn)：

$scp~/.ssh/id_rsa.pubhadoop@Slave1:/home/hadoop/切換到Slave1節(jié)點(diǎn)上，執(zhí)行如下命令將SSH公匙加入授權(quán)：

$mkdir~/.ssh

$cat~/id_rsa.pub>>~/.ssh/authorized_keys

$rm~/id_rsa.pub

這樣，在Master節(jié)點(diǎn)上就可以SSH無密碼登錄到各個(gè)Slave節(jié)點(diǎn)了切換到Master節(jié)點(diǎn)上執(zhí)行如下命令進(jìn)行檢驗(yàn)：

$sshSlave1運(yùn)行成功的結(jié)果如圖所示，這意味著此時(shí)Master已經(jīng)可以登錄到各個(gè)Slave節(jié)點(diǎn)了。下載安裝-Hadoop的下載安裝第三步，配置PATH變量在Master節(jié)點(diǎn)上執(zhí)行以下命令：

$vim~/.bashrc在文件中添加以下內(nèi)容：

exportPATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin保存后執(zhí)行：

$source~/.bashrc下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境在配置集群/分布式模式時(shí)，需要修改“/usr/local/hadoop/etc/hadoop”目錄下的配置文件，在此不再贅述。我們僅設(shè)置正常啟動(dòng)所必須的設(shè)置項(xiàng)，包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共五個(gè)文件，更多設(shè)置項(xiàng)可查看官方說明。文件workers：將workers文件中原來的localhost刪除，只添加“Slave1”。下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境文件core-site.xml：修改為以下內(nèi)容<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property></configuration>下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境文件hdfs-site.xml：修改為以下內(nèi)容<configuration><property><name>node.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境文件mapred-site.xml：修改為以下內(nèi)容<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property></configuration>下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境文件yarn-site.xml：修改為以下內(nèi)容。<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境配置完成后，把Master節(jié)點(diǎn)上的“/usr/local/hadoop”文件夾復(fù)制到各個(gè)節(jié)點(diǎn)上，命令如下：

$cd/usr/local

$tar-zcf~/hadoop.master.tar.gz./hadoop

$cd~

$scp./hadoop.master.tar.gzSlave1:/home/hadoop切換到Slave1節(jié)點(diǎn)上執(zhí)行如下命令：

$sudotar-zxf~/hadoop.master.tar.gz-C/usr/local

$sudochown-Rhadoop/usr/local/hadoop下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境在Master節(jié)點(diǎn)執(zhí)行名稱節(jié)點(diǎn)的格式化：

$hdfsnamenode-format

在Master節(jié)點(diǎn)上啟動(dòng)Hadoop：

$start-dfs.sh

$start-yarn.sh

$mr-jobhistory-daemon.shstarthistoryserver

通過命令jps可以查看各個(gè)節(jié)點(diǎn)所啟動(dòng)的進(jìn)程。如果已經(jīng)正確啟動(dòng)，則在Master節(jié)點(diǎn)上可以看到NameNode、ResourceManager、SecondrryNameNode和JobHistoryServer進(jìn)程，如圖所示。下載安裝-Hadoop的下載安裝第四步，配置集群/分布式環(huán)境在Slave節(jié)點(diǎn)可以看到DataNode和NodeManager進(jìn)程，如圖所示在Master節(jié)點(diǎn)上執(zhí)行命令：

$hdfsdfsadmin–report如果屏幕信息中的“Livedatanodes”不為0，則說明數(shù)據(jù)節(jié)點(diǎn)啟動(dòng)成功結(jié)果如圖所示目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用Hadoop的流程和缺陷企業(yè)對(duì)于大數(shù)據(jù)處理往往會(huì)產(chǎn)生不同的需求復(fù)雜的批量數(shù)據(jù)處理需要分鐘到小時(shí)級(jí)響應(yīng)基于歷史數(shù)據(jù)的交互式查詢需要秒級(jí)到分鐘級(jí)響應(yīng)基于實(shí)時(shí)數(shù)據(jù)流的處需要毫秒到秒級(jí)響應(yīng)……Hadoop的流程和缺陷一個(gè)Hadoop應(yīng)用的多個(gè)MapReduce操作之間都是相互獨(dú)立的每個(gè)操作的結(jié)果一般都會(huì)存入磁盤（如HDFS）后續(xù)操作需要再次從磁盤讀取數(shù)據(jù)導(dǎo)致了多次磁盤讀/寫，會(huì)對(duì)Hadoop計(jì)算造成巨大的時(shí)間開銷。Hadoop的執(zhí)行流程Hadoop的流程和缺陷缺陷：磁盤I/O開銷大，無法滿足多階段和交互式計(jì)算需求系統(tǒng)的表達(dá)能力有限，很多操作無法轉(zhuǎn)化為MapReduce操作面對(duì)上述企業(yè)對(duì)于大數(shù)據(jù)處理的諸多需求：僅僅能滿足復(fù)雜的批量數(shù)據(jù)處理需求不能滿足基于歷史數(shù)據(jù)的交互式查詢要求不能滿足基于實(shí)時(shí)數(shù)據(jù)流的處理要求……一種高效、低延遲的大數(shù)據(jù)處理架構(gòu)——Spark產(chǎn)生了Spark的發(fā)展及應(yīng)用官網(wǎng)：/2009年由美國加州伯克利大學(xué)的AMPLab最早進(jìn)行開發(fā)2010年開源發(fā)布2013年加入Apache軟件基金會(huì)2014年打破Hadoop保持的排序紀(jì)錄Spark：206個(gè)節(jié)點(diǎn)

23分鐘Hadoop：2000個(gè)節(jié)點(diǎn)

72分鐘在超1000家國內(nèi)外企業(yè)和科研機(jī)構(gòu)均有應(yīng)用，如淘寶、百度、騰訊、亞馬遜、eBay、日立、NASAJPL等。Spark執(zhí)行流程Spark將數(shù)據(jù)從磁盤載入內(nèi)存后，迭代計(jì)算等的中間結(jié)果會(huì)保留在內(nèi)存中，從而避免了反復(fù)從磁盤中讀取數(shù)據(jù)的時(shí)間開銷。相較于MapReduce優(yōu)點(diǎn)：基于內(nèi)存計(jì)算框架使得計(jì)算效率得以明顯提升適合實(shí)時(shí)數(shù)據(jù)流的處理但MapReduce更適合執(zhí)行數(shù)據(jù)量巨大的批處理操作目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用Spark的生態(tài)系統(tǒng)Spark的設(shè)計(jì)理念：Onestacktorulethemall已成為伯克利數(shù)據(jù)分析軟件棧BDAS的重要組成部分下圖為BDAS的體系結(jié)構(gòu)Spark的體系結(jié)構(gòu)每個(gè)應(yīng)用會(huì)被分解成若干相關(guān)的計(jì)算任務(wù)（Task），分布在不同的工作節(jié)點(diǎn)中執(zhí)行。（1）集群資源管理器（ClusterManager）：負(fù)責(zé)管理調(diào)度所有Spark應(yīng)用的計(jì)算資源；除了自帶的資源管理器，也支持ApacheMesos或HadoopYARN。（2）工作節(jié)點(diǎn)（WorkerNode）：負(fù)責(zé)運(yùn)行具體的任務(wù)（Task）。工作節(jié)點(diǎn)上，對(duì)每個(gè)應(yīng)用都對(duì)應(yīng)有一個(gè)執(zhí)行進(jìn)程（Executor）負(fù)責(zé)該應(yīng)用在該節(jié)點(diǎn)上所有任務(wù)的執(zhí)行和數(shù)據(jù)的存儲(chǔ)。（3）任務(wù)控制節(jié)點(diǎn)（Driver）：為每個(gè)應(yīng)用申請計(jì)算資源，并對(duì)各節(jié)點(diǎn)上的執(zhí)行進(jìn)程進(jìn)行分配和監(jiān)控。Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用由一個(gè)任務(wù)控制節(jié)點(diǎn)（Driver）和若干個(gè)作業(yè)（Job）構(gòu)成一個(gè)作業(yè)（Job）由多個(gè)階段（Stage）構(gòu)成一個(gè)階段（Stage）由多個(gè)彼此沒有Shuffle依賴關(guān)系的任務(wù)（Task）組成Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下：（1）由任務(wù)控制節(jié)點(diǎn)創(chuàng)建一個(gè)SparkContext作為通向Spark集群的入口，為應(yīng)用構(gòu)建基本的運(yùn)行環(huán)境，并向資源管理器申請計(jì)算資源Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下：（2）資源管理器為應(yīng)用分配相應(yīng)的資源，并啟動(dòng)計(jì)算節(jié)點(diǎn)上的進(jìn)程（Executor）；Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下：（3）進(jìn)程啟動(dòng)后，主動(dòng)向SparkContext申請計(jì)算任務(wù)；SparkContext則會(huì)將計(jì)算任務(wù)分解成若干個(gè)RDD，并按照這些RDD彼此之間的關(guān)聯(lián)關(guān)系（DAG圖）將他們分為不同的任務(wù)集合（TaskSet，也稱Stage）；最后由任務(wù)調(diào)度器（TaskScheduler）將Task發(fā)放給具體的進(jìn)程Spark的體系結(jié)構(gòu)一個(gè)Spark應(yīng)用的運(yùn)行流程如下：（4）計(jì)算節(jié)點(diǎn)上的任務(wù)執(zhí)行完成后，會(huì)通過任務(wù)調(diào)度器逐層反饋給SparkContext，當(dāng)所有任務(wù)都執(zhí)行完成后，SparkContext會(huì)向資源管理器注銷以釋放計(jì)算資源。目錄Spark平臺(tái)Spark概述Spark生態(tài)系統(tǒng)和體系結(jié)構(gòu)RDD的運(yùn)行原理Spark的安裝和使用RDD的特點(diǎn)Spark的核心概念：RDD：ResillientDistributedDataset彈性分布式數(shù)據(jù)集合提供了一種高度受

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例

文檔簡介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)分析原理和應(yīng)用 課件全套 海沫 第1-8章 大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)分析原理和應(yīng)用課件全套海沫第1-8章大數(shù)據(jù)概述 -大數(shù)據(jù)分析的應(yīng)用案例