




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章大數(shù)據(jù)概述大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)全套可編輯PPT課件第1章大數(shù)據(jù)概述.pptx第2章大數(shù)據(jù)處理平臺Hadoop.pptx第3章數(shù)據(jù)采集與預(yù)處理.pptx第4章數(shù)據(jù)存儲與管理.pptx第5章數(shù)據(jù)處理與分析.pptx第6章數(shù)據(jù)可視化.pptx第7章大數(shù)據(jù)思維與安全.pptx第8章城市空氣質(zhì)量大數(shù)據(jù)分析實戰(zhàn).pptxPREFACE本章導(dǎo)讀人類已進入大數(shù)據(jù)時代,全球數(shù)據(jù)未來數(shù)年將繼續(xù)呈現(xiàn)爆炸式增長。大數(shù)據(jù)是無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新的處理模式才能產(chǎn)生更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。如果將大數(shù)據(jù)比作一個產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。01大數(shù)據(jù)的概念和特征02大數(shù)據(jù)的處理流程03大數(shù)據(jù)平臺架構(gòu)和集群04大數(shù)據(jù)的行業(yè)應(yīng)用CATALOG05大數(shù)據(jù)與其他新興技術(shù)的關(guān)系06實戰(zhàn)演練——使用PowerBI分析產(chǎn)品銷售情況知識目標(biāo)04了解大數(shù)據(jù)的典型行業(yè)應(yīng)用,以及大數(shù)據(jù)與其他新興技術(shù)的關(guān)系。03了解大數(shù)據(jù)平臺架構(gòu)的組成和大數(shù)據(jù)集群。02了解我國的大數(shù)據(jù)發(fā)展戰(zhàn)略,理解大數(shù)據(jù)的處理流程和關(guān)鍵技術(shù)。01理解大數(shù)據(jù)的概念和主要特征,了解大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢。能夠分析一些典型的大數(shù)據(jù)應(yīng)用場景,簡單闡釋其背后的原理。能夠初步建立起大數(shù)據(jù)領(lǐng)域的知識體系,完成一些初級技術(shù)實踐。010203能力目標(biāo)能夠結(jié)合實例說明大數(shù)據(jù)給我們的日常生活所帶來的革命性影響。思政目標(biāo)01.感受我國在抗擊疫情的嚴峻斗爭中所表現(xiàn)出的制度優(yōu)勢、大國擔(dān)當(dāng),以及大數(shù)據(jù)在疫情監(jiān)測分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面發(fā)揮的巨大作用,厚植家國情懷,鑄牢中華民族共同體意識。02.深刻理解大數(shù)據(jù)作為國家基礎(chǔ)性戰(zhàn)略資源的重要意義,如推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力等,進一步加強對信息化新階段和數(shù)字經(jīng)濟的認識,不斷提升自身的信息素養(yǎng)。6.讓城市更聰明更智慧4.助力消費體驗再升級3.讓新時代教育更有獲得感7.重塑健康醫(yī)療新生態(tài)1.托舉戰(zhàn)疫大考獲佳績
作為一種新型生產(chǎn)要素,數(shù)據(jù)正在促進我國經(jīng)濟社會發(fā)展中發(fā)揮著越來越重要的作用,構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟,需要把握好作為其重要應(yīng)用場景的大數(shù)據(jù),對于未來發(fā)展要做到心中有“數(shù)”。2.助推政務(wù)服務(wù)跑出加速度9.助力文娛產(chǎn)業(yè)大發(fā)展8.讓社區(qū)生活更“聰明”5.為更高水平的平安中國“保駕護航”興國利民大數(shù)據(jù)概述01大數(shù)據(jù)的概念和特征1.1大數(shù)據(jù)的概念和特征是用來記錄客觀事物或事件的符號,具體來說,是對客觀事物或事件的性質(zhì)、狀態(tài)及相互關(guān)系等信息進行記錄的物理符號。(bigdata)也稱海量數(shù)據(jù)或巨量數(shù)據(jù),是指數(shù)據(jù)量大到無法利用傳統(tǒng)數(shù)據(jù)處理技術(shù)在合理的時間內(nèi)獲取、存儲、管理和分析的數(shù)據(jù)集合。“大數(shù)據(jù)”一詞除用來描述信息時代產(chǎn)生的海量數(shù)據(jù)外,也被用來命名與之相關(guān)的技術(shù)、創(chuàng)新與應(yīng)用。數(shù)據(jù)1.1.1什么是大數(shù)據(jù)大數(shù)據(jù)1.1大數(shù)據(jù)的概念和特征作為人類一種新型的、功能強大的好工具,大數(shù)據(jù)使我們能夠迅速地把握事物的整體、相互關(guān)系和發(fā)展趨勢,從而做出更加準(zhǔn)確的預(yù)判、更加科學(xué)的決策、更加精準(zhǔn)的行動。1.1.1什么是大數(shù)據(jù)大數(shù)據(jù)的作用1.1大數(shù)據(jù)的概念和特征2004年,全球數(shù)據(jù)總量為30EB,2005年達到50EB,2015年達到7900EB。根據(jù)國際信息技術(shù)咨詢企業(yè)——國際數(shù)據(jù)公司(IDC)監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,預(yù)計到2030年,全球?qū)碛?500ZB的數(shù)據(jù)。海量的數(shù)據(jù)規(guī)模該特征是指數(shù)據(jù)產(chǎn)生、流轉(zhuǎn)速度快,而且越新的數(shù)據(jù)價值越大。這就要求對數(shù)據(jù)的處理速度也要快,以便能夠及時從數(shù)據(jù)中發(fā)現(xiàn)、提取有價值的信息。快速的數(shù)據(jù)流轉(zhuǎn)1.1.2大數(shù)據(jù)的特征1.1大數(shù)據(jù)的概念和特征該特征是指數(shù)據(jù)的來源及類型多樣。大數(shù)據(jù)的數(shù)據(jù)類型除包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還包括大量的非結(jié)構(gòu)化數(shù)據(jù)等。多樣的數(shù)據(jù)類型該特征是指數(shù)據(jù)量大但價值密度相對較低,挖掘數(shù)據(jù)中蘊藏的價值猶如沙里淘金。數(shù)據(jù)價值密度低1.1.2大數(shù)據(jù)的特征010203有數(shù)據(jù)但無法使用可以分析但沒有數(shù)據(jù)有數(shù)據(jù)且可分析1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展1大數(shù)據(jù)底層技術(shù)逐步成熟近年來,大數(shù)據(jù)底層技術(shù)發(fā)展呈現(xiàn)出逐步成熟的態(tài)勢,除了最基礎(chǔ)的分布式批處理架構(gòu)Hadoop,傳統(tǒng)大規(guī)模并行處理(MPP)數(shù)據(jù)庫在擴展性方面有了很大突破,在海量數(shù)據(jù)處理領(lǐng)域重新獲得了一席之地。2大數(shù)據(jù)產(chǎn)業(yè)規(guī)模平穩(wěn)增長權(quán)威機構(gòu)研究表明,隨著市場整體的日漸成熟和新興技術(shù)的不斷融合發(fā)展,未來大數(shù)據(jù)市場將呈現(xiàn)穩(wěn)步發(fā)展的態(tài)勢,增速維持在14%左右。大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展3數(shù)據(jù)合規(guī)要求日益嚴格近些年,各國在數(shù)據(jù)合規(guī)性方面的重視程度越來越高,但數(shù)據(jù)合規(guī)的進程仍任重道遠。4大數(shù)據(jù)戰(zhàn)略持續(xù)拓展大數(shù)據(jù)幾乎囊括了一個國家所有領(lǐng)域內(nèi)的信息,蘊含著與一個民族歷史、現(xiàn)實和未來發(fā)展相關(guān)聯(lián)的內(nèi)在規(guī)律,其分析和處理能力已經(jīng)成為國家治理、社會治理、企業(yè)管理都日益倚重的技術(shù)手段。1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢“大數(shù)據(jù)”一詞首次寫入政府工作報告,為中國大數(shù)據(jù)發(fā)展的政策環(huán)境搭建開始預(yù)熱。20143月國務(wù)院正式印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》20158月31日“十三五”規(guī)劃綱要的公布標(biāo)志著國家大數(shù)據(jù)戰(zhàn)略的正式提出,彰顯了中央對于大數(shù)據(jù)戰(zhàn)略的重視。20163月17日工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》,為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展奠定了重要的基礎(chǔ)。201612月18日1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展我國的大數(shù)據(jù)發(fā)展戰(zhàn)略黨的十九大報告中提出推動大數(shù)據(jù)與實體經(jīng)濟深度融合,為大數(shù)據(jù)產(chǎn)業(yè)的未來發(fā)展指明了方向。201710月中央政治局就實施國家大數(shù)據(jù)戰(zhàn)略進行了集體學(xué)習(xí)。201712月政府工作報告第六次提到“大數(shù)據(jù)”,并且有多項任務(wù)與大數(shù)據(jù)密切相關(guān)。20193月1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展我國的大數(shù)據(jù)發(fā)展戰(zhàn)略02大數(shù)據(jù)的處理流程數(shù)據(jù)采集網(wǎng)絡(luò)上各種來源的數(shù)據(jù),包括社交網(wǎng)絡(luò)數(shù)據(jù)、電子商務(wù)交易數(shù)據(jù)、網(wǎng)上銀行交易數(shù)據(jù)、搜索引擎點擊數(shù)據(jù)、物聯(lián)網(wǎng)傳感器數(shù)據(jù)等,在被采集前都是零散的,沒有任何意義。數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入存儲系統(tǒng)(如數(shù)據(jù)倉庫),整合在一起,以便對數(shù)據(jù)進行綜合分析。采集形式主要有網(wǎng)絡(luò)數(shù)據(jù)采集(如提取網(wǎng)頁中的圖片、文本等)、系統(tǒng)日志采集(業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志數(shù)據(jù))、數(shù)據(jù)庫數(shù)據(jù)采集(如關(guān)系型數(shù)據(jù)庫的接入)等,常用的工具有網(wǎng)絡(luò)爬蟲工具、Flume、Kafka、Sqoop等。1.2大數(shù)據(jù)的處理流程1.2.1數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)預(yù)處理是指將雜亂無章的數(shù)據(jù)轉(zhuǎn)化為相對單一且便于處理的結(jié)構(gòu),或者去除沒有價值甚至可能對分析造成干擾的數(shù)據(jù),從而為后期的數(shù)據(jù)分析奠定基礎(chǔ)。
數(shù)據(jù)預(yù)處理是對采集到的原始數(shù)據(jù)進行清洗、填補、平滑、合并、規(guī)格化,以及檢查一致性等操作的過程,其目的是將數(shù)據(jù)轉(zhuǎn)化為一個可用的狀態(tài)。1.2大數(shù)據(jù)的處理流程1.2.1數(shù)據(jù)采集與預(yù)處理1.2大數(shù)據(jù)的處理流程數(shù)據(jù)存儲與管理是指用存儲器把采集到的數(shù)據(jù)存儲起來,并建立相應(yīng)的數(shù)據(jù)庫,以便對數(shù)據(jù)進行管理和調(diào)用。主要采用HDFS分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫(非關(guān)系型數(shù)據(jù)庫)、數(shù)據(jù)倉庫、云數(shù)據(jù)庫等來存儲和管理大數(shù)據(jù)。常用的NoSQL數(shù)據(jù)庫包括HBase、Redis、Cassandra、MongoDB、Neo4j等。1.2.2數(shù)據(jù)儲存與管理SparkStormMapReduce1.2大數(shù)據(jù)的處理流程數(shù)據(jù)處理與分析是指通過各種算法從大量的數(shù)據(jù)中找出潛在的有用信息,并研究數(shù)據(jù)的內(nèi)在規(guī)律和相互間的關(guān)系。數(shù)據(jù)處理與分析大多需要在大數(shù)據(jù)處理平臺上進行,借助分布式并行框架,通過結(jié)合一系列算法完成。常用工具技術(shù)HivePigFlinkImpalaMahout1.2.3數(shù)據(jù)處理與分析數(shù)據(jù)處理與分析1.2大數(shù)據(jù)的處理流程數(shù)據(jù)可視化是指利用可視化手段對數(shù)據(jù)進行分析,并將分析結(jié)果用圖表或文字等形式展現(xiàn)出來,從而使讀者對數(shù)據(jù)的分布、發(fā)展趨勢、相關(guān)性和統(tǒng)計信息等一目了然常用的數(shù)據(jù)可視化工具Tableau、D3.js、GoogleChartAPI、ApacheECharts1.2.4數(shù)據(jù)可視化數(shù)據(jù)可視化1對各種來源和各種類型的海量數(shù)據(jù)的采集能力提供不同的存儲模型以滿足不同場景和需求的能力靈活的數(shù)據(jù)處理和計算的能力數(shù)據(jù)分析和挖掘的能力數(shù)據(jù)可視化并能進行實際應(yīng)用的能力1.2大數(shù)據(jù)的處理流程23451.2.4數(shù)據(jù)可視化大數(shù)據(jù)平臺具備的能力03大數(shù)據(jù)平臺架構(gòu)和集群1.3大數(shù)據(jù)平臺架構(gòu)和集群大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)是一系列技術(shù)的總稱,它集合了數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù),是一個龐大而復(fù)雜的技術(shù)體系。1.3大數(shù)據(jù)平臺架構(gòu)和集群數(shù)據(jù)應(yīng)用層數(shù)據(jù)分析層批處理計算流計算離線計算實時計算數(shù)據(jù)處理層數(shù)據(jù)存儲層數(shù)據(jù)采集層數(shù)據(jù)源層1.3.1大數(shù)據(jù)平臺架構(gòu)1.3大數(shù)據(jù)平臺架構(gòu)和集群日常交易數(shù)據(jù)日常交易數(shù)據(jù)主要包括電子商務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)點擊數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、ERP系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù),以及企業(yè)的生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、訂單數(shù)據(jù)等。0102移動通信數(shù)據(jù)隨著移動互聯(lián)網(wǎng)和智能手機等設(shè)備的普及,移動通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度往往優(yōu)于互聯(lián)網(wǎng)公司所掌握的數(shù)據(jù)。03人為生成數(shù)據(jù)單擊此人為生成數(shù)據(jù)大多為非結(jié)構(gòu)化數(shù)據(jù),包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、微博、知乎等社交媒體產(chǎn)生的數(shù)據(jù)流等。處添加文本具體內(nèi)容。1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)源層1.3大數(shù)據(jù)平臺架構(gòu)和集群04傳感器數(shù)據(jù)傳感器數(shù)據(jù)包括來自感應(yīng)器、量表和其他設(shè)備的數(shù)據(jù),以及定位系統(tǒng)(GPS)數(shù)據(jù)等,如智能電表、溫度控制器、工廠機器、聯(lián)網(wǎng)家用電器的數(shù)據(jù)等。05開放共享數(shù)據(jù)開放共享數(shù)據(jù)是指互聯(lián)網(wǎng)上的“公開數(shù)據(jù)”包括政府機構(gòu)、非營利組織和企業(yè)免費提供的數(shù)據(jù)等。1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)源層數(shù)據(jù)采集層利用一系列數(shù)據(jù)采集技術(shù),主要實現(xiàn)對數(shù)據(jù)的ETL(抽取、轉(zhuǎn)換和加載)操作。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到存儲系統(tǒng)(如數(shù)據(jù)倉庫)中去,再對存儲系統(tǒng)中的數(shù)據(jù)進行處理與分析。1.3大數(shù)據(jù)平臺架構(gòu)和集群1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)采集層2.日志采集系統(tǒng)。企業(yè)的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志數(shù)據(jù),對這些日志數(shù)據(jù)進行采集,然后進行數(shù)據(jù)分析,可以挖掘日志數(shù)據(jù)中的潛在價值,從而為企業(yè)決策和平臺性能評估等提供可靠的數(shù)據(jù)保證。1.3大數(shù)據(jù)平臺架構(gòu)和集群1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)采集層1.ETL采集方法。這是數(shù)據(jù)采集中較為常用的一種形式,通過ETL工具對數(shù)據(jù)進行采集及預(yù)處理,最終將處理完成的數(shù)據(jù)送往數(shù)據(jù)倉庫或其他數(shù)據(jù)存儲系統(tǒng)。采集方案01021.3大數(shù)據(jù)平臺架構(gòu)和集群持久化存儲指把數(shù)據(jù)存儲在磁盤中,關(guān)機或斷電后數(shù)據(jù)不會丟失。非持久化存儲指把數(shù)據(jù)存儲在內(nèi)存中,讀寫速度快,但是關(guān)機或斷電后數(shù)據(jù)會丟失。1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)存儲層1.3大數(shù)據(jù)平臺架構(gòu)和集群使用R、Python等進行數(shù)據(jù)分析,
也可以使用Mahout、SparkML根據(jù)算法模型、業(yè)務(wù)模型進行融合建模,挖掘有價值的信息,從而更好地為業(yè)務(wù)應(yīng)用提供優(yōu)質(zhì)結(jié)果。1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)分析層1
以營利為目的的商業(yè)大數(shù)據(jù)應(yīng)用
淘寶網(wǎng)、京東、美團、攜程等平臺的大數(shù)據(jù)應(yīng)用,它們以自身擁有的海量用戶信息、行為、位置等數(shù)據(jù)為基礎(chǔ),提供個性化廣告推薦、精準(zhǔn)化營銷、經(jīng)營分析報告等。
2不以營利為目的
重于為社會公眾提供服務(wù)的大數(shù)據(jù)應(yīng)用,如搜索引擎公司提供的諸如春運客流分析、流感趨勢預(yù)測、災(zāi)害天氣預(yù)測、緊急情況響應(yīng)、城市規(guī)劃、路政建設(shè)等應(yīng)用。1.3大數(shù)據(jù)平臺架構(gòu)和集群1.3.1大數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)應(yīng)用層由于數(shù)據(jù)量太大,即使是最好的計算機也無法單獨完成大數(shù)據(jù)的采集與預(yù)處理、存儲與管理、處理與分析等工作,因此需要聚合眾多計算機的力量來完成大數(shù)據(jù)的處理。大數(shù)據(jù)集群是由網(wǎng)絡(luò)互相連接的多個獨立服務(wù)器的集合。這些服務(wù)器由分布式并行結(jié)構(gòu)組成并一起協(xié)同工作,運行共同的應(yīng)用程序,從而實現(xiàn)高性能的計算等服務(wù)。1.3大數(shù)據(jù)平臺架構(gòu)和集群什么是大數(shù)據(jù)集群1.3.2大數(shù)據(jù)集群高可用性高可用性是指防止系統(tǒng)故障或自動從故障中恢復(fù)而無須操作人員介入的能力。高可擴展性服務(wù)器集群具有高度可擴展性。隨著需求和負載的增長,可以將更多的服務(wù)器添加到集群系統(tǒng)中。高可管理性高度可管理的集群是指系統(tǒng)管理員無須花費大量的時間和人力到現(xiàn)場管理集群,他們只需要便捷地進行遠程管理,這樣的管理就像管理單機系統(tǒng)一樣。高安全性集群可以定時定期對整個集群系統(tǒng)進行備份,以保證數(shù)據(jù)的安全和可追溯性。同時,如果集群崩潰或出現(xiàn)重大故障,可通過容災(zāi)機制快速恢復(fù)整個系統(tǒng)。大數(shù)據(jù)集群的優(yōu)點1.3大數(shù)據(jù)平臺架構(gòu)和集群1.3.2大數(shù)據(jù)集群負載均衡模式負載均衡模式是指將集中的訪問請求負載壓力盡可能平均地分攤到集群中處理,即每個節(jié)點都可以承擔(dān)一定的訪問請求負載壓力,并且可以實現(xiàn)訪問請求在各節(jié)點之間的動態(tài)分配,以實現(xiàn)負載均衡。冗余模式冗余模式是指當(dāng)集群中的任意一個節(jié)點失效時,該節(jié)點上的所有任務(wù)會自動轉(zhuǎn)移到其他正常的節(jié)點上,并且此過程不影響整個集群的運行,不影響業(yè)務(wù)的提供。1.3大數(shù)據(jù)平臺架構(gòu)和集群大數(shù)據(jù)集群的模式121.3.2大數(shù)據(jù)集群04大數(shù)據(jù)的行業(yè)應(yīng)用0102031.4大數(shù)據(jù)的行業(yè)應(yīng)用如何在海量數(shù)據(jù)中找到需要的信息,是搜索引擎的目標(biāo)。通過大數(shù)據(jù)理論和技術(shù),可進一步改進搜索引擎技術(shù),幫助用戶快速準(zhǔn)確地檢索信息。搜索引擎推薦系統(tǒng)信息過載已成為大數(shù)據(jù)環(huán)境下最嚴重的問題之一,推薦系統(tǒng)則是緩解該問題的有效方法。廣告系統(tǒng)互聯(lián)網(wǎng)廣告是網(wǎng)絡(luò)營銷的主要手段之一,也是典型的大數(shù)據(jù)應(yīng)用?;ヂ?lián)網(wǎng)行業(yè)1.4.1互聯(lián)網(wǎng)與電商行業(yè)01電商企業(yè)收集大量用戶在電商網(wǎng)站或網(wǎng)絡(luò)媒體上的注冊信息、行為數(shù)據(jù)(用戶在網(wǎng)站和移動App中的瀏覽/點擊/發(fā)帖等行為)、交易數(shù)據(jù)、網(wǎng)絡(luò)日志數(shù)據(jù)等。02對收集的數(shù)據(jù)進行分析和挖掘,得出不同用戶的購買能力、行為特征、心理特征、興趣愛好、家庭情況、喜歡的社交網(wǎng)絡(luò)等數(shù)據(jù)。03根據(jù)分析結(jié)果做精準(zhǔn)營銷、精準(zhǔn)推薦或提高用戶的購物體驗等。電商行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.1互聯(lián)網(wǎng)與電商行業(yè)81.4大數(shù)據(jù)的行業(yè)應(yīng)用電信行業(yè)電信運營商擁有豐富的數(shù)據(jù)資源。數(shù)據(jù)來源涉及移動通話和固定電話、無線上網(wǎng)、有線寬帶接入等所有業(yè)務(wù),也涵蓋線上線下渠道在內(nèi)的渠道經(jīng)營相關(guān)信息,所服務(wù)的客戶涉及個人客戶、家庭客戶和政企客戶。電信行業(yè)在發(fā)展大數(shù)據(jù)上有明顯的優(yōu)勢,主要體現(xiàn)在數(shù)據(jù)規(guī)模大、數(shù)據(jù)應(yīng)用價值持續(xù)凸顯、數(shù)據(jù)安全性普遍較高。如今,三大運營商均已完成全集團大數(shù)據(jù)平臺的建設(shè),設(shè)立了專業(yè)的大數(shù)據(jù)運營部門或公司,開始了數(shù)據(jù)價值釋放的新舉措,在大數(shù)據(jù)應(yīng)用方面都走向了更加專業(yè)化的階段。1.4.2電信與交通行業(yè)1通過車載終端提供的數(shù)據(jù)使得公司總部能夠有效跟蹤定位車輛位置,進而能夠有效實現(xiàn)對車輛的監(jiān)督管理和行車線路優(yōu)化,更好地實現(xiàn)交通安全、暢通等目的。車輛定位
基于實時交通報告可以實測和預(yù)測擁堵。當(dāng)交通管理人員發(fā)現(xiàn)某地即將發(fā)生交通擁堵時,可以及時調(diào)整信號燈讓車流以最高效率運行。運輸公司通過部署一系列的運輸大數(shù)據(jù)應(yīng)用,能夠采集到包括油耗、胎壓等在內(nèi)的多種數(shù)據(jù),并通過分析這些數(shù)據(jù)來優(yōu)化車隊管理、降低能耗,節(jié)省大量的運營成本。1.4大數(shù)據(jù)的行業(yè)應(yīng)用交通行業(yè)23信息收集交通調(diào)控1.4.2電信與交通行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用金融機構(gòu)具有龐大的客戶群體,企業(yè)級數(shù)據(jù)倉庫存儲了覆蓋客戶、賬戶、產(chǎn)品、交易等的大量結(jié)構(gòu)化數(shù)據(jù),以及海量的語音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)背后都蘊藏了諸如客戶偏好、社會關(guān)系、消費習(xí)慣等豐富全面的信息資源,成為金融行業(yè)數(shù)據(jù)應(yīng)用的重要基礎(chǔ)。1.4.3金融與教育行業(yè)金融行業(yè)應(yīng)用范圍金融大數(shù)據(jù)已在交易欺詐識別、精準(zhǔn)營銷、黑產(chǎn)防范、信貸風(fēng)險評估、供應(yīng)鏈金融、股市行情預(yù)測等多領(lǐng)域的具體業(yè)務(wù)中得到廣泛應(yīng)用。國內(nèi)不少銀行、保險公司都已建立大數(shù)據(jù)平臺,并通過大數(shù)據(jù)來驅(qū)動業(yè)務(wù)運營。1.4大數(shù)據(jù)的行業(yè)應(yīng)用大數(shù)據(jù)在教育行業(yè)的應(yīng)用包括優(yōu)化教學(xué)管理、學(xué)生管理、教學(xué)內(nèi)容、教學(xué)手段、教學(xué)評價等。1.4.3金融與教育行業(yè)教育行業(yè)例如,基于網(wǎng)絡(luò)的學(xué)習(xí)平臺能記錄學(xué)生的作業(yè)完成情況、課堂言行、師生互動等數(shù)據(jù),如果將這些數(shù)據(jù)匯集起來,就可以分析出學(xué)生的學(xué)習(xí)特點和習(xí)慣,從而對不同學(xué)生的學(xué)習(xí)提出有針對性的建議。同時,這些數(shù)據(jù)也可促使教師進行教學(xué)反思,從而優(yōu)化教學(xué)。1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.3金融與教育行業(yè)教育行業(yè)電子科技大學(xué)曾經(jīng)做過一個課題——尋找校園最孤獨的人。他們通過校園一卡通的使用情況,從3萬名學(xué)生中采集到了2億多條行為數(shù)據(jù),包括選課、進出圖書館、食堂用餐、超市購物等數(shù)據(jù)。通過對校園一卡通“一前一后刷卡”的記錄分析,可以發(fā)現(xiàn)一個學(xué)生在學(xué)校有多少知心朋友。他們通過此方式找到了800多個校園中最孤獨的人,這些人中有17%可能產(chǎn)生心理疾病,需要學(xué)校和家長予以重點關(guān)愛。隨著醫(yī)療信息化的普及和快速發(fā)展,健康醫(yī)療數(shù)據(jù)已經(jīng)具備大數(shù)據(jù)的基本特征。通過對健康醫(yī)療數(shù)據(jù)的處理和分析,不僅能夠幫助醫(yī)生進行疾病診斷和經(jīng)營決策,幫助患者享受更加便利的服務(wù),還能夠預(yù)測流行疾病的暴發(fā)趨勢、降低醫(yī)療成本等。1.4大數(shù)據(jù)的行業(yè)應(yīng)用健康醫(yī)療行業(yè)1.4.4健康醫(yī)療行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用健康醫(yī)療行業(yè)大數(shù)據(jù)在健康醫(yī)療行業(yè)的應(yīng)用,包括疾病預(yù)防、臨床應(yīng)用、遠程醫(yī)療、醫(yī)學(xué)研究、醫(yī)院管理等。1.4.4健康醫(yī)療行業(yè)應(yīng)用范圍例如,利用大數(shù)據(jù)平臺收集不同的病例、治療方案和治療效果,建立針對疾病特點的數(shù)據(jù)庫。醫(yī)生診斷病人時可以利用疾病數(shù)據(jù)庫和相關(guān)工具分析病人的疾病特征、化驗報告和檢測報告,從而快速為病人確診,并制定適合病人的治療方案。在我國,政府部門掌握著全社會最大量、最核心的數(shù)據(jù)。有效地利用這些數(shù)據(jù),可以讓政府治理與決策更加精細化、科學(xué)化,可以幫助政府將與民眾的溝通建立在科學(xué)的數(shù)據(jù)分析之上,優(yōu)化公共服務(wù)流程,簡化公共服務(wù)步驟,提升公共服務(wù)質(zhì)量。1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.5政務(wù)管理行業(yè)政務(wù)管理行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用在城市規(guī)劃方面,通過對城市地理、氣象等自然信息,和經(jīng)濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規(guī)劃提供強大的決策支持,強化城市管理服務(wù)的科學(xué)性和前瞻性。1.4.5政務(wù)管理行業(yè)政務(wù)管理行業(yè)應(yīng)用范圍利用大數(shù)據(jù)技術(shù)可以抓取氣象局、地震局的氣象歷史數(shù)據(jù)、星云圖變化歷史數(shù)據(jù),以及城建局、規(guī)劃局的城市規(guī)劃、房屋結(jié)構(gòu)數(shù)據(jù)等,然后構(gòu)建大氣運動規(guī)律評估模型、氣象變化關(guān)聯(lián)性分析模型等,從而精準(zhǔn)地預(yù)測氣象變化,尋找最佳的救災(zāi)解決方案。05大數(shù)據(jù)與其他新興技術(shù)的關(guān)系
近些年,以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)和人工智能等技術(shù)為核心的新一代信息技術(shù)高速發(fā)展,在助力解決各行業(yè)現(xiàn)實需求、培育新業(yè)態(tài)、形成經(jīng)濟發(fā)展新動能方面發(fā)揮了重要作用。大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)和人工智能,代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,它們彼此滲透、相互融合,既有區(qū)別又有聯(lián)系。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系云計算實現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時獲得所需的各種IT資源。它代表了以虛擬化技術(shù)為核心、以低成本為目標(biāo)的動態(tài)可擴展的網(wǎng)絡(luò)應(yīng)用基礎(chǔ)設(shè)施,是如今最有代表性的網(wǎng)絡(luò)計算技術(shù)與模式。云計算1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系物聯(lián)網(wǎng)物聯(lián)網(wǎng)(IoT)是指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。它是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴展的網(wǎng)絡(luò),即萬物相連的互聯(lián)網(wǎng)。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系人工智能人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)。具體來說,人工智能就是讓機器像人類一樣具有感知能力、學(xué)習(xí)能力、思考能力、溝通能力、判斷能力等,從而更好地為人類服務(wù)。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)和云計算的關(guān)系1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)和云計算的關(guān)系從技術(shù)上來看,就像一枚硬幣的正反面一樣密不可分。由于大數(shù)據(jù)需要使用大量的計算機進行處理,如果由企業(yè)自己部署這些硬件設(shè)備和軟件,不僅投入成本高、技術(shù)難度大,而且會造成資源浪費,因此最好的措施是依托云計算進行處理;反過來,如果沒有大數(shù)據(jù),云計算的用武之地也會大大減少。06實戰(zhàn)演練使用PowerBI分析產(chǎn)品銷售情況1.6實戰(zhàn)演練——使用PowerBI分析產(chǎn)品銷售情況PowerBI是微軟推出的商業(yè)智能分析工具,它融合了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)可視化到報告協(xié)作分享的整個數(shù)據(jù)處理流程,可以幫助用戶快速上手數(shù)據(jù)分析。我們通過將圖書銷售表以餅圖和簇狀柱形圖報表形式顯示,體驗使用PowerBI進行大數(shù)據(jù)分析與可視化展現(xiàn)的一般過程。Thanks第2章大數(shù)據(jù)處理平臺Hadoop大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)PREFACE本章導(dǎo)讀海量數(shù)據(jù)的存儲、處理和分析是大多數(shù)企業(yè)普遍遇到的問題,Hadoop的出現(xiàn)有效地解決了數(shù)據(jù)存儲規(guī)模大、存儲管理復(fù)雜、數(shù)據(jù)傳輸效率低和計算速度慢等難題。Hadoop是一個開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),它可以使用戶在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲。01Hadoop及其生態(tài)系統(tǒng)02Hadoop的運行模式03安裝部署Hadoop集群04實戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境CATALOG知識目標(biāo)04熟悉Hadoop的集群環(huán)境準(zhǔn)備工作。03了解Hadoop的三種運行模式。02熟悉Hadoop生態(tài)系統(tǒng)。01了解Hadoop的概念、特性和發(fā)展歷程。010203能力目標(biāo)04能夠完成Hadoop的偽分布式安裝。能夠?qū)汗?jié)點進行基本環(huán)境配置。能夠在Eclipse中搭建Hadoop開發(fā)環(huán)境。能夠在Eclipse開發(fā)環(huán)境中對已有Hadoop集群進行HDFS文件管理。思政目標(biāo)01.增強憂患意識、風(fēng)險意識和責(zé)任意識,充分認識新形勢下科技自立自強的;緊迫性、必要性和重要意義,心懷“國之大者”,爭做“國之大才”。02.腳踏實地,勇于創(chuàng)新,與時俱進,在實踐中練就過硬本領(lǐng)、錘煉品德修為,立志為國家科技自立自強、加快解決“卡脖子”難題等做出貢獻。01Hadoop及其生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)Hadoop使用的開發(fā)語言是Java,主要運行于Linux平臺。它是一個允許使用簡單編程模型跨計算機集群分布式處理大型數(shù)據(jù)集的系統(tǒng),通過它可以方便地管理分布式集群,將海量數(shù)據(jù)分布式地存儲在集群中,并使用分布式并行程序來處理這些數(shù)據(jù)。2.1.1Hadoop簡介什么是Hadoop2.1Hadoop及其生態(tài)系統(tǒng)Hadoop是對Google的文件系統(tǒng)GFS(Googlefilesystem)和分布式計算框架MapReduce等核心技術(shù)的開源實現(xiàn)。Hadoop架構(gòu)的核心是HDFS(Hadoopdistributedfilesystem)和HadoopMapReduce,它們分別用于支持海量數(shù)據(jù)的存儲和并行計算。2.1.1Hadoop簡介什么是HadoopHadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)010203Hadoop采用冗余數(shù)據(jù)存儲方式,當(dāng)其中一個副本發(fā)生故障時,其他副本也可以保證集群正常對外提供服務(wù)。高可靠性。Hadoop實現(xiàn)了線性擴展,可以從單個服務(wù)器擴展到數(shù)千臺計算機,并且每臺計算機都提供了數(shù)據(jù)存儲和計算。高擴展性。Hadoop具有HDFS、MapReduce和YARN等核心組件,能夠高效地并行處理PB級數(shù)據(jù)。高效性。2.1.1Hadoop簡介2.1Hadoop及其生態(tài)系統(tǒng)0506Hadoop的NameNode包括active和standby兩種狀態(tài),通過故障轉(zhuǎn)移機制(即當(dāng)activeNameNode意外終止時,快速啟用standbyNameNode)可保證HDFS的高可用性。高可用性。Hadoop可以使用廉價計算機搭建集群,從而大大降低了硬件成本,普通用戶也可以使用自己的個人計算機搭建和運行Hadoop。低成本。2.1.1Hadoop簡介04Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。高容錯性。Hadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)070809Hadoop能夠較好地運行在Linux平臺,也可以在Windows和macOS等平臺下搭建Hadoop環(huán)境。多平臺運行。Hadoop主要使用Java語言開發(fā),不過,用戶也可以使用其他編程語言(如C++、Python)開發(fā)基于Hadoop的應(yīng)用程序。支持多種編程語言。Hadoop盡可能在計算節(jié)點上存儲數(shù)據(jù),以實現(xiàn)數(shù)據(jù)本地化和快速訪問數(shù)據(jù)的目的。數(shù)據(jù)本地化。2.1.1Hadoop簡介Hadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)Hadoop的發(fā)展歷程STEP01STEP03STEP02STEP042002年DougCutting等人創(chuàng)建了開源網(wǎng)絡(luò)搜索引擎Nutch,該引擎包括了網(wǎng)頁抓取、索引、查詢等功能。2005年Nutch將所有主要算法移植到了由NDFSMapReduce構(gòu)建的新框架中,在20個節(jié)點上可以穩(wěn)定運行。2004年提出MapReduce模式能夠解決大型分布式并行計算問題,可用于處理海量網(wǎng)頁的索引問題。2003年Google搜索引擎網(wǎng)頁相關(guān)數(shù)據(jù)的存儲架構(gòu),該架構(gòu)可解決Nutch遇到的網(wǎng)頁抓取和索引過程中產(chǎn)生的超大文件存儲需求的問題。2.1.1Hadoop簡介2.1Hadoop及其生態(tài)系統(tǒng)Hadoop的發(fā)展歷程STEP05STEP06STEP072006年NDFS和MapReduce被移出Nutch,并成為Lucene的一個子項目,命名為Hadoop。2.1.1Hadoop簡介2007年《紐約時報》將存檔的報紙掃描成4TB的圖片文件,并通過運行在亞馬遜EC2云服務(wù)上的Hadoop應(yīng)用程序,將圖片文件轉(zhuǎn)換為用于網(wǎng)上共享的PDF文檔。2008年1月Hadoop成為Apache的頂級項目,迎來了快速發(fā)展期。2.1Hadoop及其生態(tài)系統(tǒng)STEP08STEP10STEP092009年4月Yahoo!再次對1TB數(shù)據(jù)進行排序,此次耗時縮短至62s。2008年8月Facebook公司在Hadoop架構(gòu)的基礎(chǔ)上創(chuàng)建了數(shù)據(jù)倉庫工具Hive。2008年6月Facebook、Google和Yahoo!的前工程師JeffHammerbacher、ChristopheBisciglia、AmrAwadallah,以及Oracle前高管MikeOlson共同創(chuàng)建了Hadoop數(shù)據(jù)管理軟件與服務(wù)公司Cloudera。2.1.1Hadoop簡介Hadoop的發(fā)展歷程2.1Hadoop及其生態(tài)系統(tǒng)STEP12STEP11STEP132018年10月大數(shù)據(jù)領(lǐng)域的兩大巨頭公司Cloudera和Hortonworks宣布平等合并,表示要創(chuàng)建世界領(lǐng)先的數(shù)據(jù)平臺。2008年-2011年MapReduce、HDFS、Avro、HBase、Hive、Pig、ZooKeeper先后脫離Hadoop,成為Apache的頂級項目。2011年6月Yahoo!BenchmarkCapital公司聯(lián)合成立了Hortonworks公司。2.1.1Hadoop簡介Hadoop的發(fā)展歷程2.1Hadoop及其生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)2.1.2Hadoop生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)01HDFSHDFS是Hadoop的核心組成框架,在大數(shù)據(jù)開發(fā)中通過分布式計算對海量數(shù)據(jù)進行存儲和管理。02MapReduceMapReduce是Hadoop的另一個核心組成框架,它是一種容錯的、可靠的、分布式并行計算模型,用來解決海量數(shù)據(jù)的計算問題。03YARNYARN是一個通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。2.1.2Hadoop生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)04ZooKeeperZooKeeper是一種適用于大型分布式應(yīng)用的高性能協(xié)調(diào)服務(wù),源自Google的論文“TheChubbylockserviceforloosely-coupleddistributedsystems”,是對GoogleChubby的開源實現(xiàn)。05HiveHive最初由Facebook開發(fā),是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具,它可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表。2.1.2Hadoop生態(tài)系統(tǒng)06HbaseHBase是一個基于HDFS的面向列的分布式數(shù)據(jù)庫,可以實現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集的實時隨機讀寫。2.1Hadoop及其生態(tài)系統(tǒng)07SqoopSqoop(SQL-to-Hadoop)是數(shù)據(jù)ETL(extract-transform-load,抽取、轉(zhuǎn)換和加載)工具。08FlumeFlume由Cloudera公司開發(fā),是Apache軟件基金會的一個頂級項目。09KafkaKafka是一個高吞吐量的分布式發(fā)布與訂閱消息系統(tǒng),由LinkedIn開源實現(xiàn),它可以處理消費者規(guī)模網(wǎng)站中的所有動作數(shù)據(jù),包括網(wǎng)頁瀏覽、搜索等。10SparkSpark是基于內(nèi)存的分布式計算框架,最初由加州大學(xué)伯克利分校的AMPLab研發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。2.1.2Hadoop生態(tài)系統(tǒng)02Hadoop的運行模式2.2Hadoop的運行模式2.2.1單機模式單機模式又叫本地模式,即只在一臺機器上安裝Hadoop,其屬于默認安裝模式,無須進行其他配置就可以運行Hadoop。該模式主要用于MapReduce應(yīng)用程序的調(diào)試,沒有使用分布式文件系統(tǒng)HDFS,也不會加載進程。2.2Hadoop的運行模式2.2.2偽分布式模式偽分布式模式同樣是運行在一臺機器上,其增加了代碼調(diào)試功能,包括5個進程(NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager),即在一臺機器上模擬分布式,主要用于測試,這種模式對開發(fā)非常有用。2.2Hadoop的運行模式2.2.2偽分布式模式
偽分布式模式存儲采用分布式文件系統(tǒng)HDFS,同一節(jié)點既作為元數(shù)據(jù)節(jié)點NameNode,又作為數(shù)據(jù)節(jié)點DataNode。Hadoop啟動上述5個進程,這些守護進程全部在同一臺機器上運行,是相互獨立的Java進程。2.2Hadoop的運行模式2.2.3完全分布式模式完全分布式模式又叫集群模式,它由兩臺及兩臺以上的機器組成,是真正的分布式。2.2Hadoop的運行模式2.2.3完全分布式模式Hadoop的守護進程運行在由多臺主機搭建的集群上,是真正的生產(chǎn)環(huán)境。其存儲采用分布式文件系統(tǒng)HDFS。集群中的節(jié)點可以分成兩大類角色:master和slave,由一個NameNode和若干DataNode組成。其中,NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對文件系統(tǒng)的訪問;集群中的DataNode管理存儲的數(shù)據(jù)。03安裝部署Hadoop集群2.3安裝部署Hadoop集群Hadoop偽分布式安裝是指在一臺機器上模擬一個小的集群,但是集群中只有一個節(jié)點。它通過多個線程模擬多臺真實機器,即模擬真實的分布式環(huán)境。也就是說,Hadoop可以在單節(jié)點上以偽分布的方式運行,Hadoop進程以分離的Java進程來運行,節(jié)點既是NameNode又是DataNode,并且讀取的是HDFS中的文件。2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境5配置SSH免密碼登錄本地節(jié)點(hadoop0)。4配置主機IP映射(修改hosts文件,添加“00hadoop0”。3安裝和配置JDK。2關(guān)閉防火墻和新建安裝目錄。1修改主機名和設(shè)置固定IP(主機名:hadoop0;固定IP:00)。在VMwareWorkstation軟件中創(chuàng)建一個虛擬機并安裝好CentOS7用root用戶進行登錄對虛擬機系統(tǒng)進行基本環(huán)境配置2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境修改主機名在CentOS系統(tǒng)下打開命令行終端,執(zhí)行以下命令,查看當(dāng)前的主機名:#hostname步驟執(zhí)行以下命令,修改hostname文件,將其內(nèi)容改為要使用的主機名:#vim/etc/hostname步驟執(zhí)行以下命令,修改hostname文件,將其內(nèi)容改為要使用的主機名:#vim/etc/hostname步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境設(shè)置固定IP打開命令行終端,執(zhí)行以下命令,可以查看本機的網(wǎng)卡配置與網(wǎng)絡(luò)狀態(tài)等信息:#ifconfig步驟執(zhí)行以下命令,修改網(wǎng)卡配置文件ifcfg-ens33:#vim/etc/sysconfig/network-scripts/ifcfg-ens33步驟修改完成后,需執(zhí)行以下命令重啟網(wǎng)絡(luò)服務(wù),使修改生效:#servicenetworkrestart步驟在命令行終端用ping命令測試本機與宿主主機是否可以連通。注意,要終止ping操作,需要按“Ctrl+C”組合鍵。步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境關(guān)閉防火墻打開命令行終端,執(zhí)行以下命令,查看防火墻當(dāng)前的運行狀態(tài)(默認為running):#firewall-cmd--state或#systemctlstatusfirewalld.service步驟執(zhí)行以下命令,關(guān)閉防火墻(運行狀態(tài)變?yōu)閚otrunning):#systemctlstopfirewalld.service步驟執(zhí)行以下命令,禁止防火墻開機啟動:#systemctldisablefirewalld.service步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK通過頁面https:///java/technologies/javase/javase8u211-later-archive-downloads.html下載JDK安裝包jdk-8u211-linux-x64.tar.gz(下載時需要登錄Oracle賬戶)步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDKCentOS7系統(tǒng)預(yù)裝了OpenJDK(可執(zhí)行“rpm-qa|grepopenjdk”命令,查詢系統(tǒng)已安裝的OpenJDK),如圖所示,但該版本的JDK功能通常有所精簡。為避免系統(tǒng)默認使用OpenJDK,需要先將其卸載,然后再安裝要使用的標(biāo)準(zhǔn)版JDK8u211。步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK將下載得到的JDK安裝包jdk-8u211-linux-x64.tar.gz上傳到虛擬機的“/opt/packages”目錄下,然后執(zhí)行以下命令進入該目錄(此時可通過“l(fā)s”命令查看安裝包是否存在):#cd/opt/packages步驟步驟執(zhí)行以下命令,將jdk-8u211-linux-x64.tar.gz解壓到目錄“/opt/programs”下:#tar-zxvfjdk-8u211-linux-x64.tar.gz-C/opt/programs步驟執(zhí)行以下命令修改文件“/etc/profile”,配置JDK系統(tǒng)環(huán)境變量:#vim/etc/profile52.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK步驟執(zhí)行以下命令,刷新profile文件,使修改生效:#source/etc/profile6步驟執(zhí)行“java-version”命令,若能輸出以下JDK版本信息,則說明安裝成功:javaversion"1.8.0_211"Java(TM)SERuntimeEnvironment(build1.8.0_211-b12)JavaHotSpot(TM)64-BitServerVM(build25.211-b12,mixedmode)72.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境配置主機IP映射啟動虛擬機(節(jié)點)hadoop0。步驟執(zhí)行以下命令,修改hosts文件:#vim/etc/hosts步驟使用ping命令測試是否配置成功:#pinghadoop0步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境配置SSH免密碼登錄本地節(jié)點在節(jié)點hadoop0中執(zhí)行以下命令,生成密鑰文件:#ssh-keygen步驟在節(jié)點hadoop0中執(zhí)行一遍以下命令,將自身的公鑰信息復(fù)制并追加到本節(jié)點的授權(quán)文件authorized_keys中(在命令執(zhí)行過程中需要確認連接及輸入用戶密碼):#ssh-copy-idhadoop0步驟在節(jié)點hadoop0中用以下命令測試SSH免密碼登錄:#sshhadoop0步驟2.3安裝部署Hadoop集群2.3.2安裝Hadoop0201
通過頁https:///dist/hadoop/core/hadoop-2.7.6/下載Hadoop安裝包hadoop2.7.6.tar.gz。使用WinSCP軟件將下載的Hadoop安裝包hadoop-2.7.6.tar.gz上傳到hadoop0節(jié)點的“/opt/packages”目錄下,然后執(zhí)行以下命令進入該目錄:#cd/opt/packages2.3安裝部署Hadoop集群2.3.2安裝Hadoop0403執(zhí)行以下命令,將hadoop-2.7.6.tar.gz解壓到目錄“/opt/programs”下:#tar-zxvfhadoop-2.7.6.tar.gz-C/opt/programs進入“/opt/programs/hadoop-2.7.6/etc/hadoop”目錄,依次修改配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves、hadoop-env.sh。2.3安裝部署Hadoop集群2.3.2安裝Hadoop0605修改文件“/etc/profile”,配置Hadoop環(huán)境變量:#vim/etc/profile
執(zhí)行以下命令,格式化HDFS:#hdfsnamenode-format2.3安裝部署Hadoop集群2.3.2安裝Hadoop0807
依次執(zhí)行以下命令,啟動HDFS和YARN:#start-dfs.sh#start-yarn.sh執(zhí)行“jps”命令,查看啟動的Hadoop相關(guān)進程:#jps9649Jps9042NameNode9139DataNode9605NodeManager9338SecondaryNameNode9503ResourceManager2.3安裝部署Hadoop集群2.3.2安裝Hadoop09在宿主主機的瀏覽器中訪問“00:50070/”,頁面會顯示“'hadoop0:9000'(active)”.04實戰(zhàn)演練在Eclipse中搭建Hadoop開發(fā)環(huán)境2.4實戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境盡管開發(fā)Hadoop程序可以采用不同的開發(fā)工具和開發(fā)語言,但Eclipse和Java是當(dāng)前的主流。之所以采用Eclipse作為開發(fā)工具,是因為它實現(xiàn)了開發(fā)環(huán)境的圖形化,降低了編程難度。Eclipse支持多種平臺,除了Windows平臺外,用戶也可以選擇在Linux平臺搭建Eclipse開發(fā)環(huán)境。由于Hadoop開發(fā)是基于Java語言的,因此需要先安裝和配置JDK,然后再在Eclipse開發(fā)工具中配置Hadoop開發(fā)環(huán)境。2.4.1在Windows中安裝和配置JDK2.4實戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境我們先在Windows中下載和啟動Eclipse開發(fā)工具,然后為其安裝和配置Maven插件及Hadoop插件,并在Eclipse開發(fā)環(huán)境中新建一個Hadoop集群連接,最后在搭建好的Hadoop開發(fā)環(huán)境中演示一個簡單的單詞統(tǒng)計程序。2.4.2在Windows中安裝和配置EclipseThanks第3章數(shù)據(jù)采集與預(yù)處理大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)PREFACE本章導(dǎo)讀大數(shù)據(jù)蘊藏著巨大價值,在海量數(shù)據(jù)面前,采集與預(yù)處理是首先需要做的事情,它直接決定了后續(xù)環(huán)節(jié)分析結(jié)果的質(zhì)量。通過數(shù)據(jù)采集,可以獲取Web數(shù)據(jù)、日志數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、傳感器數(shù)據(jù)等,這為數(shù)據(jù)的進一步處理提供了基礎(chǔ)和前提條件。通常,采集得到的數(shù)據(jù)還需要進行預(yù)處理(如數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等),這樣有助于通過后續(xù)分析得出可靠的結(jié)論。01數(shù)據(jù)采集02網(wǎng)絡(luò)爬蟲技術(shù)03數(shù)據(jù)預(yù)處理04實戰(zhàn)演練——用八爪魚工具采集并預(yù)處理房源數(shù)據(jù)CATALOG知識目標(biāo)04了解網(wǎng)絡(luò)爬蟲的概念、原理、分類及應(yīng)用。03了解分布式發(fā)布與訂閱消息系統(tǒng)Kafka。02了解常用的日志采集系統(tǒng)和ETL工具。01了解數(shù)據(jù)的主要來源和常用的數(shù)據(jù)采集方法。知識目標(biāo)08了解數(shù)據(jù)脫敏的概念、原則和方法。07了解數(shù)據(jù)預(yù)處理的概念和基本過程。06理解網(wǎng)絡(luò)爬蟲工具的工作流程。05熟悉國內(nèi)比較常用的網(wǎng)絡(luò)爬蟲工具。0102能力目標(biāo)能夠根據(jù)實際情況對采集到的數(shù)據(jù)進行簡單的預(yù)處理。能夠根據(jù)需要使用網(wǎng)絡(luò)爬蟲工具對網(wǎng)絡(luò)數(shù)據(jù)進行采集。思政目標(biāo)感受我國在運用大數(shù)據(jù)保障和改善民生方面的改革創(chuàng)新舉措,如重要產(chǎn)品追溯體系建設(shè)、農(nóng)業(yè)農(nóng)村數(shù)據(jù)采集體系建設(shè)等,不斷拓寬知識視野,提升專業(yè)能力和社會責(zé)任感,立志讓大數(shù)據(jù)在強化民生服務(wù)、彌補民生短板上發(fā)揮更大作用。01數(shù)據(jù)采集3.1數(shù)據(jù)采集對數(shù)據(jù)進行采集是大數(shù)據(jù)應(yīng)用生命周期中的第一個環(huán)節(jié),通常是使用ETL(抽取、轉(zhuǎn)換和加載)工具將分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)(如傳感器、社交網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)等平臺上各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù))抽取到臨時中間層,然后對數(shù)據(jù)進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中的過程。3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集內(nèi)部數(shù)據(jù)內(nèi)部數(shù)據(jù)來源于企業(yè)(或機構(gòu))的內(nèi)部,由內(nèi)部運作經(jīng)營而產(chǎn)生外部數(shù)據(jù)外部數(shù)據(jù)則來源于企業(yè)(或機構(gòu))的外部,如通過交換、購買等方式獲取的數(shù)據(jù)等。數(shù)據(jù)源的分類010203指己方單位自己和消費者、用戶、目標(biāo)客戶群交互產(chǎn)生的數(shù)據(jù),具有高質(zhì)量、高價值等特性,但易局限于既有顧客數(shù)據(jù)。第一方數(shù)據(jù)指取自第一方的數(shù)據(jù),第二方通常與第一方具有合作、聯(lián)盟或契約關(guān)系,因此可共享或采購第一方數(shù)據(jù)。第二方數(shù)據(jù)若提供數(shù)據(jù)的來源單位并非產(chǎn)出該數(shù)據(jù)的原始者,該數(shù)據(jù)即第三方數(shù)據(jù)。第三方數(shù)據(jù)3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集1.Web數(shù)據(jù)Web數(shù)據(jù)的采集通常借助于網(wǎng)絡(luò)爬蟲來完成。網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則自動地抓取Web數(shù)據(jù)的程序或腳本。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)時,首先抓取互聯(lián)網(wǎng)的網(wǎng)頁,然后從抓取的網(wǎng)頁中解析有用的結(jié)構(gòu)化信息。網(wǎng)絡(luò)爬蟲支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集2.日志文件企業(yè)的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志文件。日志文件日志文件一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源執(zhí)行的各種操作活動,如網(wǎng)絡(luò)監(jiān)控的流量管理、Web服務(wù)器記錄的用戶訪問行為等。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集3.數(shù)據(jù)庫數(shù)據(jù)很多企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫如MySQL和Oracle等存儲業(yè)務(wù)系統(tǒng)數(shù)據(jù),此外Redis和MongoDB等NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的存儲。業(yè)務(wù)數(shù)據(jù)企業(yè)每時每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫行記錄的形式被直接寫入數(shù)據(jù)庫。企業(yè)可以借助于ETL工具,把分散在不同位置的業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換和加載到數(shù)據(jù)倉庫,供后續(xù)的商務(wù)智能分析使用。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集4.傳感器數(shù)據(jù)傳感器是一種檢測裝置,作為物聯(lián)網(wǎng)等攝取信息的關(guān)鍵器件,它能感受到被測量的信息,并能將感受到的信息按一定規(guī)律變換成為電信號或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。傳感器傳感器具有較強的環(huán)境適應(yīng)能力,可以在高溫、高濕、水下、密閉等惡劣環(huán)境使用。其類型也有很多,如壓力傳感器、溫度傳感器、流量傳感器、稱重傳感器、速度傳感器、生物傳感器等。平時,我們用手機拍照、錄制視頻等就屬于傳感器數(shù)據(jù)采集。1.網(wǎng)絡(luò)數(shù)據(jù)采集3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或調(diào)用網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)的過程。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,以結(jié)構(gòu)化的方式統(tǒng)一存儲為本地數(shù)據(jù)文件,支持圖片、音頻、視頻等文件的采集,文件與正文可以自動關(guān)聯(lián)。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集廣泛應(yīng)用于搜索引擎和垂直搜索(即針對某一特定行業(yè)的搜索)平臺的搭建與運營,綜合門戶、行業(yè)門戶、地方門戶、專業(yè)門戶網(wǎng)站的數(shù)據(jù)支撐與流量運營,電子政務(wù)與電子商務(wù)平臺的運營,以及知識管理與知識共享等領(lǐng)域。1.網(wǎng)絡(luò)數(shù)據(jù)采集3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集2.系統(tǒng)日志采集開源日志采集系統(tǒng)01FlumeFlume是一種高可用、高可靠、分布式的海量日志采集、聚合和傳輸系統(tǒng),用于將大量日志數(shù)據(jù)從許多不同的源進行收集、聚合,最終移動到一個集中的數(shù)據(jù)中心進行存儲。03Scribe02ChukwaChukwa是一個用于監(jiān)控大型分布式系統(tǒng)的開源數(shù)據(jù)收集系統(tǒng)。它構(gòu)建于HDFS和MapReduce框架之上,并繼承了Hadoop的可擴展性和可靠性。Scribe是Facebook開源的日志采集系統(tǒng),它能夠從各種日志源上收集日志并存儲到一個中央存儲系統(tǒng)上,以便于進行集中統(tǒng)計分析處理。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集3.ETL工具采集ETL(抽取、轉(zhuǎn)換和加載)用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出需要的數(shù)據(jù),經(jīng)過預(yù)處理,最終按照預(yù)先定義好的數(shù)據(jù)模型將數(shù)據(jù)加載。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集3.ETL工具采集Sqoop是一種用于在Hadoop和關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle)之間傳輸數(shù)據(jù)的工具。SqoopKettle是一款開源的ETL工具,使用Java編寫,可以在Windows、Linux、UNIX上運行,數(shù)據(jù)抽取高效、穩(wěn)定。Kettle常用的ETL工具3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集4.分布式消息訂閱分發(fā)分布式消息訂閱分發(fā)是一種常見的數(shù)據(jù)采集方式。其中,Kafka就是一種高吞吐量、低延遲的分布式發(fā)布與訂閱消息系統(tǒng),它可以同時滿足在線實時處理和批量離線處理的要求。用戶通過Kafka系統(tǒng)可以發(fā)布大量的消息,同時也能實時訂閱消費消息。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集4.分布式消息訂閱分發(fā)Kafka組建話題(topic)生產(chǎn)者(producer)服務(wù)代理(broker)消費者(consumer)處理流程工作時,生產(chǎn)者將數(shù)據(jù)發(fā)送到服務(wù)代理,服務(wù)代理有多個話題,消費者從服務(wù)代理獲取數(shù)據(jù)。Kafka基于ZooKeeper實現(xiàn),常與Hadoop、Spark等數(shù)據(jù)處理框架相結(jié)合,是當(dāng)下流行的分布式發(fā)布與訂閱消息系統(tǒng),其應(yīng)用場景有日志收集、用戶活動跟蹤、運營指標(biāo)監(jiān)控、流式處理等。02網(wǎng)絡(luò)爬蟲技術(shù)3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲(又稱網(wǎng)絡(luò)蜘蛛)是指用來實現(xiàn)自動采集網(wǎng)絡(luò)數(shù)據(jù)的程序。如果將互聯(lián)網(wǎng)比作一張蜘蛛網(wǎng),將互聯(lián)網(wǎng)上的一個個網(wǎng)頁比作蜘蛛網(wǎng)上的一個個節(jié)點,那么網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系可以比作節(jié)點間的連線,而網(wǎng)絡(luò)爬蟲就可以比作在網(wǎng)上爬來爬去的蜘蛛。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲1預(yù)先設(shè)定一個或若干初始網(wǎng)頁的URL,將初始URL加入待爬取的URL列表。2從待爬取的URL列表中逐個讀取URL,并將URL加入已爬取的URL列表中,然后下載網(wǎng)頁。3解析已下載的網(wǎng)頁,提取所需的數(shù)據(jù)和新的URL,并存儲提取的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲4將新的URL與已提取的URL列表進行比對,檢查該網(wǎng)頁是否已爬取,如果網(wǎng)頁沒有被爬取,則將新的URL放入待爬取URL列表的末尾,等待讀取。5如此往復(fù),直到待爬取URL列表為空或者滿足設(shè)定的停止條件,最后達到遍歷網(wǎng)頁的目的。網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用1.
網(wǎng)絡(luò)爬蟲的分類01通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,是根據(jù)網(wǎng)絡(luò)爬蟲的基本原理實現(xiàn)的,它所爬取的目標(biāo)會從初始設(shè)定的URL擴充到全網(wǎng)。通用網(wǎng)絡(luò)爬蟲主要應(yīng)用于門戶網(wǎng)站、搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商的數(shù)據(jù)采集。通用網(wǎng)絡(luò)爬蟲02聚焦網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是與預(yù)先定義好的主題相關(guān)的網(wǎng)頁。與通用網(wǎng)絡(luò)爬蟲相比,聚焦網(wǎng)絡(luò)爬蟲只選擇爬取與主題相關(guān)的網(wǎng)頁,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,它主要應(yīng)用于對特定領(lǐng)域信息有需求的場景。聚焦網(wǎng)絡(luò)爬蟲3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用1.
網(wǎng)絡(luò)爬蟲的分類03增量式網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是有更新的已下載網(wǎng)頁和新產(chǎn)生的網(wǎng)頁。爬蟲程序監(jiān)測網(wǎng)站數(shù)據(jù)更新的情況,然后在需要的時候只爬取發(fā)生更新或新產(chǎn)生的網(wǎng)頁。增量式網(wǎng)絡(luò)爬蟲04深層網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的、只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁,如用戶注冊后才可顯示內(nèi)容的網(wǎng)頁等。深層網(wǎng)絡(luò)爬蟲3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用2
網(wǎng)絡(luò)爬蟲的應(yīng)用每個獨立的搜索引擎都有自己的爬蟲程序,爬蟲程序每天連續(xù)地爬取相關(guān)網(wǎng)站,提取信息保存到搜索引擎中。例谷歌爬蟲Googlebot百度爬蟲Baiduspider必應(yīng)爬蟲Bingbot3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用2
網(wǎng)絡(luò)爬蟲的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時也時常會借助網(wǎng)絡(luò)爬蟲。例如,爬取產(chǎn)品的用戶信息進行分析,以確定目標(biāo)客戶群體;爬取同類產(chǎn)品的銷售信息進行分析,以制定營銷策略等。普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù),把瀏覽網(wǎng)站或App時所見到的數(shù)據(jù)都通過爬蟲程序保存下來,實現(xiàn)可見即可得。例如,爬取網(wǎng)站上的圖片、學(xué)術(shù)網(wǎng)站的論文、團購網(wǎng)站的價格及點評、各種電商平臺的商品信息、招聘網(wǎng)站的招聘信息等數(shù)據(jù)。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具1八爪魚采集器八爪魚采集器主界面八爪魚采集器是由深圳視界信息技術(shù)有限公司自主研發(fā)的一款集網(wǎng)頁數(shù)據(jù)采集、移動互聯(lián)網(wǎng)數(shù)據(jù)及API服務(wù)(包括數(shù)據(jù)爬蟲、數(shù)據(jù)優(yōu)化、數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)備份)等于一體的數(shù)據(jù)服務(wù)平臺,連續(xù)5年蟬聯(lián)互聯(lián)網(wǎng)數(shù)據(jù)采集軟件榜單第一名。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具八爪魚采集器的功能01模板采集02智能采集模板采集功能內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點評等熱門采集網(wǎng)站,只需參照模板簡單設(shè)置參數(shù),就可以快速獲取網(wǎng)站公開數(shù)據(jù)。八爪魚采集器可根據(jù)不同網(wǎng)站,提供多種網(wǎng)頁采集策略與配套資源,可自定義配置,組合運用,自動化處理,以幫助整個采集過程實現(xiàn)數(shù)據(jù)的完整性與穩(wěn)定性。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具03云采集04API服務(wù)由5000多臺云服務(wù)器支撐的云采集,7×24小時不間斷運行,可實現(xiàn)定時采集,無須人員值守,靈活契合業(yè)務(wù)場景,幫用戶提升采集效率,保障數(shù)據(jù)時效性。通過八爪魚API,可以輕松獲取八爪魚任務(wù)信息和采集到的數(shù)據(jù),靈活調(diào)度任務(wù),如遠程控制任務(wù)啟動與停止,高效實現(xiàn)數(shù)據(jù)采集與歸檔。基于強大的API體系,還可以無縫對接公司內(nèi)部各類管理平臺,實現(xiàn)各類業(yè)務(wù)自動化。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具05自定義采集06便捷定時功能針對不同用戶的采集需求,八爪魚可提供自動生成爬蟲的自定義模式,可準(zhǔn)確批量識別各種網(wǎng)頁元素,還有翻頁、下拉、Ajax、頁面滾動、條件判斷等多種功能,支持不同網(wǎng)頁結(jié)構(gòu)的復(fù)雜網(wǎng)站采集,滿足多種采集應(yīng)用場景。通過幾步簡單設(shè)置,即可實現(xiàn)采集任務(wù)的定時控制,不論是單次采集的定時設(shè)置,還是預(yù)設(shè)某一天或是每周每月的定時采集,都可以同時對多個任務(wù)自由進行設(shè)置,根據(jù)需要對選擇時間進行多重組合,靈活調(diào)配自己的采集任務(wù)。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具07全自動數(shù)據(jù)格式化08多層級采集八爪魚內(nèi)置了強大的數(shù)據(jù)格式化引擎,支持字符串替換、正則表達式替換或匹配、去除空格、添加前綴或后綴、日期時間格式化、HTML轉(zhuǎn)碼等多項功能,采集過程中全自動處理,無須人工干預(yù),即可得到所需格式數(shù)據(jù)。很多主流電商類(或新聞類)的網(wǎng)站,里面包含一級商品列表頁,也包含二級商品詳情頁,還有三級評論詳情頁面。不論網(wǎng)站有多少層級,八爪魚都可以不限制層級地采集數(shù)據(jù),滿足各類業(yè)務(wù)采集需求。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具09支持網(wǎng)站登錄后采集八爪魚內(nèi)置了采集登錄模塊,只需配置目標(biāo)網(wǎng)站的賬號及密碼,即可用該模塊采集到登錄后的數(shù)據(jù);
同時八爪魚還具備采集Cookie自定義功能,首次登錄以后,可以自動記住Cookie,免去多次輸入密碼的煩瑣,支持更多網(wǎng)站的采集。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具2火車采集器火車采集器主界面火車采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析與挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能123多線程高速并行采集系統(tǒng)任務(wù)分配至多個客戶端,同時運行采集,效率倍增。多識別系統(tǒng)配備正文識別、中文分詞識別、任意編碼識別等多種識別系統(tǒng),智能識別操作更輕松。可選驗證方式可以選擇是否使用加密狗,隨時保障數(shù)據(jù)安全。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能567替換功能同義詞、近義詞替換,參數(shù)替換,整合偽原創(chuàng)必備技能。任意格式文件下載圖片、壓縮文件、視頻等任意格式的文件都能輕松下載。系統(tǒng)運行監(jiān)控監(jiān)控數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)準(zhǔn)確性。全自動運行無須人工值守操作,任務(wù)完成后自動關(guān)機。43.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能8支持多數(shù)據(jù)庫支持Access、MySQL、SQLServer、SQLite、Oracle多種類型的數(shù)據(jù)庫保存及發(fā)布。9無限級多頁采集支持包含Ajax請求數(shù)據(jù)在內(nèi)的多個頁面信息的無限級采集。10支持擴展支持接口和插件擴展,滿足各種采集與發(fā)布需求。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具3
后羿采集器后羿采集器主界面后羿采集器是由前谷歌搜索技術(shù)團隊基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件,該軟件功能強大,操作簡單,是為廣大無編程基礎(chǔ)的產(chǎn)品、運營、銷售、金融、新聞、電商和數(shù)據(jù)分析從業(yè)者,以及政府機關(guān)和學(xué)術(shù)研究等用戶量身打造的一款產(chǎn)品。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具
后羿采集器的功能智能識別數(shù)據(jù)可視化點擊簡單上手基于人工智能算法,只需輸入網(wǎng)址就能智能識別列表數(shù)據(jù)、表格數(shù)據(jù)和分頁按鈕,不需要配置任何采集規(guī)則,一鍵采集。此外,還能自動識別鏈接、圖片、價格等。只需根據(jù)軟件提示在頁面中進行點擊操作,完全符合人為瀏覽網(wǎng)頁的思維方式,簡單幾步即可生成復(fù)雜的采集規(guī)則,結(jié)合智能識別算法,任何網(wǎng)頁的數(shù)據(jù)都能輕松采集。1223.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具
后羿采集器的功能功能強大提供企業(yè)級服務(wù)支持多種數(shù)據(jù)導(dǎo)出方式后羿采集器提供豐富的采集功能,無論是采集穩(wěn)定性或是采集效率,都能夠滿足個人、團隊和企業(yè)級采集需求。其功能豐富,涵蓋定時采集,自動導(dǎo)出,文件下載,加速引擎,按組啟動和導(dǎo)出,Webhook,RESTfulAPI,智能識別SKU和大圖等。采集結(jié)果可以導(dǎo)出到本地,支持TXT、Excel、CSV和HTML文件格式,也可以直接發(fā)布到數(shù)據(jù)庫(如MySQL、MongoDB、SQLServer、PostgreSQL)供用戶使用。433
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 防癌護理科普
- 三下鄉(xiāng)暑期實踐活動個人總結(jié)模版
- 護士行業(yè)實習(xí)心得體會模版
- 新疆吐魯番市2024-2025學(xué)年高一下學(xué)期期中考試 生物 含解析
- 學(xué)生旅游活動方案
- 18 文言文二則《囊螢夜讀》課件
- 2025屆山東省招遠市八下數(shù)學(xué)期末質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 調(diào)經(jīng)止痛護理方案
- 仁愛英語七年級上知識點短語總結(jié)模版
- 特應(yīng)性角結(jié)膜炎的臨床護理
- HYT 075-2005 海洋信息分類與代碼(正式版)
- 建筑用砂石料采購 投標(biāo)方案(技術(shù)方案)
- 融于教學(xué)的形成性評價讀書分享
- 廣東省廣州市八區(qū)聯(lián)考2024年高一數(shù)學(xué)第二學(xué)期期末考試模擬試題含解析
- 體質(zhì)外貌鑒定
- 起重機維護保養(yǎng)記錄表
- 《煤礦重大危險源評估報告》
- 大鎖孫天宇小品《時間都去哪了》臺詞劇本完整版-一年一度喜劇大賽
- 《中國鐵路總公司鐵路建設(shè)項目檔案管理辦法》(鐵總檔史〔2018〕29號)
- 監(jiān)控工程驗收單-范本模板
- 浙江開放大學(xué)2024年《法律文化》形考作業(yè)1-4答案
評論
0/150
提交評論