《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)_第1頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)_第2頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)_第3頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)_第4頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論》完整版課件(全)_第5頁
已閱讀5頁,還剩372頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的概念1.3大數(shù)據(jù)思維1.5大數(shù)據(jù)處理流程數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of3811.6 大數(shù)據(jù)應(yīng)用1.4數(shù)據(jù)科學(xué)的內(nèi)涵1.1 從數(shù)據(jù)到大數(shù)據(jù)第一章 數(shù)據(jù)和大數(shù)據(jù)時代of3821數(shù)據(jù)及數(shù)據(jù)的作用知識金字塔DIKW數(shù)據(jù):原始素材,客觀事物性質(zhì)或狀態(tài)的描述,文字、圖形、圖像、視頻等類型信息:排序,篩選,公式等加工處理后有邏輯的數(shù)據(jù)知識:提煉信息之間的聯(lián)系、行動的能力,完成任務(wù)智慧:關(guān)心未來,具有預(yù)測的能力1.1 從數(shù)據(jù)到大數(shù)據(jù)第一章 數(shù)據(jù)和大數(shù)據(jù)時代of3831數(shù)據(jù)及數(shù)據(jù)的作用數(shù)據(jù)的作用:志愿填報歷年、各省、文理科、各專業(yè)分?jǐn)?shù)線歷年高校各專業(yè)分?jǐn)?shù)線、

2、線上、線下、位次、最高、最低、平均等;歷年、各高校、各專業(yè)在各省的招生人數(shù)三年或五年高校招生趨勢:位次變化、均值變化、最值變化、招生人數(shù)變化等。志愿填報規(guī)則從知識中,發(fā)現(xiàn)規(guī)律,做出決策,填報志愿:可能出現(xiàn)2種情況:如愿或失意,體現(xiàn)智慧1.1 從數(shù)據(jù)到大數(shù)據(jù)of384來自大量傳感器的機器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)2. 海量的數(shù)據(jù)的產(chǎn)生隨著人類活動的進(jìn)一步擴展,數(shù)據(jù)規(guī)模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復(fù)雜,已經(jīng)超越了

3、傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”時代到來。第一章 數(shù)據(jù)和大數(shù)據(jù)時代of38512008年9 月,美國自然(Nature)雜志??疶he next google,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,科學(xué)(Science)雜志??疍ealing with data,通過社會調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對人們生活造成的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,麥肯錫研究院發(fā)布報告Big data: The next frontier for innovation, competition, and productivity,第一次給大數(shù)據(jù)做出

4、相對清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集。”“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大的時代轉(zhuǎn)型”。 “大數(shù)據(jù)”這一概念的形成,有三個標(biāo)志性事件3大數(shù)據(jù)的到來第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.1 從數(shù)據(jù)到大數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)源整合進(jìn)行存儲、清洗、挖掘、分析后得出結(jié)果直到優(yōu)化企業(yè)管理提高效率云計算、硬件性價比的提高以及軟件技術(shù)的進(jìn)步智能設(shè)備、傳感器的普及,推動物聯(lián)網(wǎng)、人工智能的發(fā)展計算力 運行、計算速度越來越快存儲 存儲成本下降 存儲容量增加 智能分析實現(xiàn)信息對等解放腦力,機器擁有人的智慧of386(1)大數(shù)據(jù)的技術(shù)支撐1.1 從數(shù)據(jù)到大數(shù)據(jù)第一章 數(shù)據(jù)和大數(shù)

5、據(jù)時代of387存儲:存儲成本的下降云計算出現(xiàn)之前云計算出現(xiàn)之后云計算出現(xiàn)前,數(shù)據(jù)存儲成本是非常高的。例如,公司要建設(shè)網(wǎng)站,需要購置和部署服務(wù)器,安排技術(shù)人員維護(hù)服務(wù)器,保證數(shù)據(jù)存儲的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ?,還會定期清理數(shù)據(jù),騰出空間以便存儲新的數(shù)據(jù),機房整體的人力和管理成本都很高。云計算出現(xiàn)后,數(shù)據(jù)存儲服務(wù)衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計算和存儲成本。例如,公司現(xiàn)在要建設(shè)網(wǎng)站,不需要去購買服務(wù)器,不需要去雇用技術(shù)人員維護(hù)服務(wù)器,可以通過租用硬件設(shè)備的方式解決問題。存儲成本的下降,也改變了大家對數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠(yuǎn)的歷史數(shù)據(jù)保存下來,有了歷史數(shù)據(jù)的沉淀

6、,才可以通過對比,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價值。正是由于存儲成本的下降,才能為大數(shù)據(jù)搭建最好的基礎(chǔ)設(shè)施。1.1 從數(shù)據(jù)到大數(shù)據(jù)第一章 數(shù)據(jù)和大數(shù)據(jù)時代of388計算力:運算速度越來越快集中式處理:AI芯片:CPU(Intel)、GPU(NVIDIA)、美國Cerebras的WSE(Wafer Scale Engine,世界最大的芯片)分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光;HDFS為海量的數(shù)據(jù)提供了存儲;MapReduce則為海量的數(shù)據(jù)提供了并行計算,從而大大提高了計算效率;Spark、Storm、Impala等各種各樣的技術(shù)進(jìn)入人們的視野。 海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價值,

7、期間會經(jīng)過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,很多事情是無法實現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過程中,計算速度是非常關(guān)鍵的因素。第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.1 從數(shù)據(jù)到大數(shù)據(jù)of389智能:機器擁有理解數(shù)據(jù)的能力 大數(shù)據(jù)帶來的最大價值就是“智慧”,大數(shù)據(jù)讓機器變得有智慧,同時人工智能進(jìn)一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預(yù)測出我是歌手的總決賽歌王12iPhone上智能化語音機器人Siri微信上與大家聊天的微軟小冰34第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.1 從數(shù)據(jù)到大數(shù)據(jù)of3810美國著名管理學(xué)家愛德華戴明所言:“我們信靠上帝。除了

8、上帝,任何人都必須用數(shù)據(jù)來說話。”(1)有數(shù)據(jù)可說 在大數(shù)據(jù)時代,“萬物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。 數(shù)據(jù)無處不在、無時不有、無人不用,數(shù)據(jù)就像陽光、空氣、水分一樣常見。 (2)說數(shù)據(jù)可靠大數(shù)據(jù)中的“數(shù)據(jù)”真實可靠。一切事物都存在著時空一致性的同構(gòu)關(guān)系。這意味著任何事物的屬性和規(guī)律,只要通過適當(dāng)編碼,均可以通過統(tǒng)一的數(shù)字信號表達(dá)出來。(2)大數(shù)據(jù)的意義 “用數(shù)據(jù)說話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認(rèn)知世界的一種全新方法。1.1 從數(shù)據(jù)到大數(shù)據(jù)第一章 數(shù)據(jù)和大數(shù)據(jù)時代第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的概念1.3大數(shù)據(jù)思維數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of38111.

9、5 大數(shù)據(jù)處理流程1.6 大數(shù)據(jù)應(yīng)用1.4數(shù)據(jù)科學(xué)的內(nèi)涵of38121.大數(shù)據(jù)的定義第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.2 大數(shù)據(jù)的概念 麥肯錫(全球管理咨詢公司):大小超出典型數(shù)據(jù)庫軟件工具收集、存儲、管理和分析能力的數(shù)據(jù)集。 百度百科:指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。of38132. 大數(shù)據(jù)的結(jié)構(gòu)第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.2 大數(shù)據(jù)的概念國家糧食總產(chǎn)量(億噸)耕地面積(億畝)占世界耕地比例(%)中國5.0118.158.06美國3.6329.5513.15印度2.

10、1625.511.32巴西1.3312.95.76加拿大0.5110.24.52澳大利亞0.317.653.45(1)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),也稱作行數(shù)據(jù),是以先有結(jié)構(gòu)、后有數(shù)據(jù)的方式生成的數(shù)據(jù)。特點:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體信息,每一行數(shù)據(jù)的屬性相同,下表給出了主要農(nóng)業(yè)國糧食產(chǎn)量與耕地情況,它們是結(jié)構(gòu)化數(shù)據(jù)。(2)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整、沒有預(yù)先定義的數(shù)據(jù)模型,很難用關(guān)系數(shù)據(jù)庫的二維邏輯表來表現(xiàn)的數(shù)據(jù),比如辦公文檔、文本、圖片、圖像和音頻/視頻信息等等都是非結(jié)構(gòu)化數(shù)據(jù)。of38142. 大數(shù)據(jù)的結(jié)構(gòu)第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.2 大數(shù)據(jù)的概念(3)半結(jié)構(gòu)

11、化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。因此,也被稱為自描述結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)中,同一類實體可以有不同屬性,而且這些屬性的順序也可不同。XML格式數(shù)據(jù)JSON格式數(shù)據(jù) 18.7 75.2 58.8 1703.9 1387.2 1156.2 8104.3 部分地區(qū)主要作物產(chǎn)量(萬噸): 北京: 小麥:18.7, 玉米:75.2 , 河北: 稻谷:58.8, 玉米:1703.9, 小麥:1387.2 , 廣西: 稻谷:1156.2, 甘蔗:8104.3 5 V特征種類多(Variety)速度快(Velocity

12、)價值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種機器儀表在自動產(chǎn)生數(shù)據(jù)的同時,人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。隨著現(xiàn)代感測、互聯(lián)網(wǎng)、計算機技術(shù)的發(fā)展,數(shù)據(jù)生成、儲存、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對象或模塊數(shù)據(jù)的價值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。of3815從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴大50倍,每年產(chǎn)生的數(shù)據(jù)量從TB轉(zhuǎn)向PB、從PB增長到ZB

13、級別,且每18個月翻一番。真實性(Veracity)3. 大數(shù)據(jù)的5V特征第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.2 大數(shù)據(jù)的概念數(shù)據(jù)的有效性、真實性以及數(shù)據(jù)提供者信譽值得研究第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)思維數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of38161.5 大數(shù)據(jù)處理流程1.6 大數(shù)據(jù)應(yīng)用1.4數(shù)據(jù)科學(xué)的內(nèi)涵1.3 大數(shù)據(jù)思維of3817第一章 數(shù)據(jù)和大數(shù)據(jù)時代 科學(xué)界一般認(rèn)為,科學(xué)方法分為實驗、理論和計算三大類,與三大科學(xué)方法相對的是三大科學(xué)思維。實驗科學(xué)-實證思維:以實驗為基礎(chǔ),以物理學(xué)科為代表。理論科學(xué)-理論思維:以推理和演繹為特征,以數(shù)學(xué)學(xué)科為代表。計算科學(xué)-

14、計算思維:以設(shè)計和構(gòu)造為特征,以計算機學(xué)科為代表。(1)科學(xué)研究的三種方法及思維 計算機科學(xué)家吉姆格雷認(rèn)為,鑒于數(shù)據(jù)的爆炸性增長,數(shù)據(jù)密集范式理應(yīng)并且已經(jīng)從第三范式即計算范式中分離出來,成為一個獨特的科學(xué)研究范式,即“第四范式”。 數(shù)據(jù)密集型:數(shù)據(jù)科學(xué)數(shù)據(jù)思維(2)科學(xué)發(fā)現(xiàn)的第四范式1. 數(shù)據(jù)思維的由來 社會科學(xué)研究將面臨對傳統(tǒng)方法的顛覆性挑戰(zhàn), 新的研究范式將會建立,一個社會科學(xué)研究的全新時代到來。 1.3 大數(shù)據(jù)思維of3818第一章 數(shù)據(jù)和大數(shù)據(jù)時代2. 大數(shù)據(jù)時代下的數(shù)據(jù)思維全樣本而非抽樣:數(shù)據(jù)不抽樣,而是全部數(shù)據(jù)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)數(shù)字化程度大大提高,類型豐富案例:喬布斯與癌癥

15、治療1.3 大數(shù)據(jù)思維of3819第一章 數(shù)據(jù)和大數(shù)據(jù)時代重視數(shù)據(jù)的復(fù)雜性,弱化精確性數(shù)據(jù)結(jié)構(gòu)多樣、海量,允許不精確;可用簡單方法實現(xiàn)較好的智能。案例:谷歌翻譯,數(shù)據(jù)混雜是關(guān)鍵2. 大數(shù)據(jù)時代下的數(shù)據(jù)思維1.3 大數(shù)據(jù)思維of3820第一章 數(shù)據(jù)和大數(shù)據(jù)時代關(guān)注數(shù)據(jù)的相關(guān)性,而非因果關(guān)系:是相關(guān)關(guān)系,不是因果關(guān)系。案例 大數(shù)據(jù)背景下,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關(guān)聯(lián),使人們能夠更簡捷、更清晰地認(rèn)知事物和把握局勢,真正的價值所在。(1)啤酒與尿布(2)谷歌與流感2. 大數(shù)據(jù)時代下的數(shù)據(jù)思維第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)思維數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)

16、論of38211.5 大數(shù)據(jù)處理流程1.6 大數(shù)據(jù)應(yīng)用1.4數(shù)據(jù)科學(xué)的內(nèi)涵1.4 數(shù)據(jù)科學(xué)的內(nèi)涵of3822第一章 數(shù)據(jù)和大數(shù)據(jù)時代1. 數(shù)據(jù)科學(xué)的內(nèi)涵 2010年,Drew Conway首次明確探討了數(shù)據(jù)科學(xué)的學(xué)科定位問題,是交叉型學(xué)科。數(shù)據(jù)科學(xué)家需要掌握三大方面的能力:數(shù)學(xué)與統(tǒng)計知識、領(lǐng)域?qū)崙?zhàn)經(jīng)驗和黑客精神,三個要素知識、實戰(zhàn)和精神(黑客精神是“熱衷挑戰(zhàn)+主張分享+追求創(chuàng)新)1.4 數(shù)據(jù)科學(xué)的內(nèi)涵of3823第一章 數(shù)據(jù)和大數(shù)據(jù)時代2. 數(shù)據(jù)科學(xué)新解 2016年,Gartner在他的博客上用韋恩圖重做了數(shù)據(jù)解決方案,并使其更漂亮和更加基于數(shù)據(jù)科學(xué)。圖中“危險區(qū)”被替換為“數(shù)據(jù)工程師”(這種

17、表達(dá)被許多科學(xué)家認(rèn)同)第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)思維1.5大數(shù)據(jù)處理流程數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of38241.6 大數(shù)據(jù)應(yīng)用1.4數(shù)據(jù)科學(xué)的內(nèi)涵1.5 大數(shù)據(jù)處理流程of3825采 集利用多個數(shù)據(jù)庫來接受傳感、社交、互聯(lián)網(wǎng)等客戶端數(shù)據(jù)導(dǎo)入/預(yù)處理數(shù)據(jù)清洗和預(yù)處理存儲/管理利用分布式文件系統(tǒng)和非關(guān)系型數(shù)據(jù)庫管理復(fù)雜結(jié)構(gòu)的大數(shù)據(jù)統(tǒng)計/分析對存儲的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等數(shù)據(jù)挖掘與可視化基于各種算法進(jìn)行計算,實現(xiàn)高級數(shù)據(jù)分析,并將結(jié)果可視化第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.5 大數(shù)據(jù)處理流程of3826大數(shù)據(jù)采集1 大數(shù)據(jù)的采集通常采用多個數(shù)據(jù)庫來

18、接收終端數(shù)據(jù),包括智能硬件端、多種傳感器端、網(wǎng)頁端、移動APP應(yīng)用端等,并且可以使用數(shù)據(jù)庫進(jìn)行簡單的處理工作。 常用的數(shù)據(jù)采集的方式主要包括以下幾種:網(wǎng)頁數(shù)據(jù)抓取01日志采集02APP、物聯(lián)網(wǎng)傳感設(shè)備等自動信息采集03第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.5 大數(shù)據(jù)處理流程of3827導(dǎo)入/預(yù)處理2 雖然采集端本身有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群中。同時,在導(dǎo)入的基礎(chǔ)上完成數(shù)據(jù)清洗和預(yù)處理工作。現(xiàn)實世界中數(shù)據(jù)大體上都是不完整、不一致的“臟”數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意,為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生

19、了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約主要是達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、數(shù)據(jù)錯誤糾正、重復(fù)數(shù)據(jù)的清除等目標(biāo)。是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡數(shù)據(jù)量。第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.5 大數(shù)據(jù)處理流程of3828存儲與管理3 針對大數(shù)據(jù)時代的復(fù)雜結(jié)構(gòu)化數(shù)據(jù),特別是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的海量存儲和分布式存儲需求,大數(shù)據(jù)存儲主要采用分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫以及云存儲等技術(shù)。第一章 數(shù)據(jù)和大數(shù)據(jù)時代分布式文件系統(tǒng):利用集

20、群的存儲和運算,實現(xiàn)可靠、可擴展、低成本的存儲計算需求。非關(guān)系型數(shù)據(jù)庫NoSQL:具備優(yōu)良的查詢性能、靈活性和可用性云存儲技術(shù):被優(yōu)化或部署到一個虛擬計算環(huán)境中的數(shù)據(jù)庫,可按需付費、按需擴展等優(yōu)勢。1.5 大數(shù)據(jù)處理流程of3829 統(tǒng)計與分析4統(tǒng)計與分析主要是利用分布式數(shù)據(jù)庫,或分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總,以滿足大多數(shù)常見的分析需求,在這些方面可以使用R語言。R語言是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。R語言在國際和國內(nèi)的發(fā)展差異非常大,國際上R語言已然是專業(yè)數(shù)據(jù)分

21、析領(lǐng)域的標(biāo)準(zhǔn),但在國內(nèi)依舊任重而道遠(yuǎn),這固然有數(shù)據(jù)學(xué)科地位的原因,國內(nèi)很多人版權(quán)概念薄弱,以及學(xué)術(shù)領(lǐng)域相對閉塞也是原因。R語言是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。R語言的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.5 大數(shù)據(jù)處理流程of3830大數(shù)據(jù)挖掘5數(shù)據(jù)挖掘是創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算方法,通過對提供的數(shù)據(jù)進(jìn)行分析,查找特定類型的模式和趨勢,最終形成創(chuàng)建模型。分類樸素貝葉斯算法一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其

22、他約束條件,構(gòu)造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點把未知類別的樣本映射到給定類別中。支持向量機SVM算法AdaBoost算法決策樹算法聚類BIRCH算法目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,同一個數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。K-Means算法期望最大化算法(EM算法)K近鄰算法關(guān)聯(lián)規(guī)則Apriori算法搜索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得預(yù)先未知的和被隱藏的,不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計的方法得出的信息。FP-Growth算法預(yù)測模型序貫?zāi)J酵诰騍PMGC算法一種統(tǒng)計或數(shù)

23、據(jù)挖掘的方法,包括可以在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),可為預(yù)測、優(yōu)化、預(yù)報和模擬等許多業(yè)務(wù)系統(tǒng)所使用。回歸模型第一章 數(shù)據(jù)和大數(shù)據(jù)時代1.5 大數(shù)據(jù)處理流程of3831 大數(shù)據(jù)可視化6第一章 數(shù)據(jù)和大數(shù)據(jù)時代 幫助人們探索和理解可視化的數(shù)據(jù),可視化之美。用各種方式展現(xiàn)不同的數(shù)據(jù)。 (1)標(biāo)簽云:文本可視化1.5 大數(shù)據(jù)處理流程of3832 大數(shù)據(jù)可視化6第一章 數(shù)據(jù)和大數(shù)據(jù)時代 (2)熱圖:空間數(shù)據(jù)可視化 用顏色標(biāo)識密度 航線分布1.5 大數(shù)據(jù)處理流程of3833 大數(shù)據(jù)可視化6第一章 數(shù)據(jù)和大數(shù)據(jù)時代 (3)圖表:數(shù)據(jù)可視化1.5 大數(shù)據(jù)處理流程of3834 大數(shù)據(jù)可

24、視化6 (4)儀表盤:綜合數(shù)據(jù)可視化第一章 數(shù)據(jù)和大數(shù)據(jù)時代第一章數(shù)據(jù)與大數(shù)據(jù)時代1.1從數(shù)據(jù)到大數(shù)據(jù)1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)思維數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of38351.6 大數(shù)據(jù)應(yīng)用1.5 大數(shù)據(jù)處理流程1.4數(shù)據(jù)科學(xué)的內(nèi)涵1.6 大數(shù)據(jù)應(yīng)用of3836 1. 大數(shù)據(jù)行業(yè)應(yīng)用第一章 數(shù)據(jù)和大數(shù)據(jù)時代大數(shù)據(jù)應(yīng)用農(nóng)業(yè)教育行業(yè)社交金融行業(yè)交通行業(yè)旅游行業(yè)1.6 大數(shù)據(jù)應(yīng)用of3837 2. 大數(shù)據(jù)應(yīng)用途徑第一章 數(shù)據(jù)和大數(shù)據(jù)時代數(shù)據(jù)化收集數(shù)據(jù):采集、購買、爬取等方式數(shù)據(jù)互通互聯(lián):確定數(shù)據(jù)標(biāo)準(zhǔn),建立統(tǒng)一平臺,消除信息孤島算法化封裝算法,迭代優(yōu)化算法,完成機器學(xué)習(xí),實現(xiàn)人工智能產(chǎn)品化數(shù)據(jù)產(chǎn)品:封

25、裝用戶、數(shù)據(jù)和算法市場決策分析、精準(zhǔn)營銷推送、用戶行為特征分析、提升用戶體驗生態(tài)化數(shù)據(jù)交換/交易平臺:數(shù)據(jù)流動、交易、整合關(guān)聯(lián),才有價值算法經(jīng)濟/生態(tài):算法交易,智能助理。1試分析數(shù)據(jù)、信息、知識和智慧的特點和關(guān)聯(lián)關(guān)系。2請舉例說明結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別。3什么是大數(shù)據(jù)的4V或5V特征?這一特征對大數(shù)據(jù)計算過程帶來什么樣的挑戰(zhàn)?4如何認(rèn)識大數(shù)據(jù)思維,請舉例說明。5如何理解數(shù)據(jù)科學(xué)?6大數(shù)據(jù)關(guān)鍵技術(shù)有哪些?7結(jié)合一個具體例子,說明大數(shù)據(jù)處理的一般過程。8什么是數(shù)據(jù)挖掘,大數(shù)據(jù)分析挖掘方法有哪幾類?9簡述大數(shù)據(jù)的應(yīng)用場景。習(xí)題第二章大數(shù)據(jù)獲取和預(yù)處理2.1 大數(shù)據(jù)獲取和預(yù)處理

26、概述2.2 大數(shù)據(jù)獲取方法2.3 數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of10939of109402.1 大數(shù)據(jù)獲取和預(yù)處理概述第二章 大數(shù)據(jù)獲取和預(yù)處理2.1.1 數(shù)據(jù)的來源2.1.2 數(shù)據(jù)質(zhì)量概述2.1.3 數(shù)據(jù)預(yù)處理概述of109412.1.1 數(shù)據(jù)的來源第二章 大數(shù)據(jù)獲取和預(yù)處理系統(tǒng)日志數(shù)據(jù)來自于WEB服務(wù)器日志、企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付等業(yè)務(wù)系統(tǒng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)用戶通過網(wǎng)絡(luò)所留下的痕跡(如瀏覽網(wǎng)頁、發(fā)送郵件等)互聯(lián)網(wǎng)運營商在日常運營中生成和累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)如來自傳感器、量表和其他設(shè)施的數(shù)據(jù)、定位系統(tǒng)數(shù)據(jù)等各種信息系統(tǒng)數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫或非關(guān)系型數(shù)據(jù)

27、庫中的數(shù)據(jù)of109422.1.1 數(shù)據(jù)的來源第二章 大數(shù)據(jù)獲取和預(yù)處理互聯(lián)網(wǎng)每天產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費234億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到Y(jié)ouTube,足夠一個人晝夜不停地觀看3年Twitter上每天發(fā)布5000萬條消息,假設(shè)10秒就瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年互聯(lián)網(wǎng)數(shù)據(jù)of109432.1.2 數(shù)據(jù)質(zhì)量概述第二章 大數(shù)據(jù)獲取和預(yù)處理數(shù)據(jù)質(zhì)量的評估標(biāo)

28、準(zhǔn)完整性準(zhǔn)確性一致性及時性數(shù)據(jù)記錄和信息是否完整,是否存在缺失的狀況數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異?;蝈e誤存儲在不同系統(tǒng)中的同一個數(shù)據(jù),是否存在差異或相互矛盾保障數(shù)據(jù)能夠及時產(chǎn)出,這樣才能體現(xiàn)數(shù)據(jù)的價值of109442.1.3 數(shù)據(jù)預(yù)處理第二章 大數(shù)據(jù)獲取和預(yù)處理數(shù)據(jù)清洗對數(shù)據(jù)進(jìn)行重新審查和校驗的過程數(shù)據(jù)集成將來自多個數(shù)據(jù)源數(shù)據(jù)整合歸納在一起形成一個統(tǒng)一的數(shù)據(jù)集合數(shù)據(jù)規(guī)約降低數(shù)據(jù)規(guī)模,但仍大致保持原數(shù)據(jù)的完整性數(shù)據(jù)變換對數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并,從而構(gòu)成一個適合數(shù)據(jù)處理的形式數(shù)據(jù)預(yù)處理的主要流程第二章大數(shù)據(jù)獲取和預(yù)處理2.2 大數(shù)據(jù)獲取方法2.1 大數(shù)據(jù)獲取和預(yù)處理概述2.3 數(shù)據(jù)預(yù)處理

29、技術(shù)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of10945of109462.2 大數(shù)據(jù)獲取方法第二章 大數(shù)據(jù)獲取和預(yù)處理1分布式日志采集網(wǎng)絡(luò)系統(tǒng)中,各式各樣的服務(wù)產(chǎn)生的各種日志文件的采集2 網(wǎng)絡(luò)爬蟲自動在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理3 其他獲取方法APP應(yīng)用獲取傳感器設(shè)備獲取應(yīng)用系統(tǒng)獲取of109472.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理1. 分布式采集流程(1)分布式日志采集與分析的主要流程日志采集組件將日志以消息的方式通過數(shù)據(jù)管道發(fā)送到日志分析組件,并最終生成存儲文件。of109482.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理這一流程可以想象為教師評判作業(yè)的過程of109492.

30、2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(2)分布式日志采集流程中的主要部分及功能采集組件離線采集和在線采集數(shù)據(jù)管道連接采集組件及日志分析組件的數(shù)據(jù)通道日志處理將非結(jié)構(gòu)化的日志記錄轉(zhuǎn)化為結(jié)構(gòu)化的易于存儲和檢索的日志信息存儲與檢索日志收集后進(jìn)行存儲并提供檢索與分析功能of109502.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理2. 日志采集關(guān)鍵技術(shù)(1)日志采集模式一般的日志采集可以分為兩種模式:推模式和拉模式推模式由Agent主動的向目的端發(fā)送日志,目的端在接收到日志之后將數(shù)據(jù)存儲起來拉模式由Master主動發(fā)起日志獲取動作,然后在各個Agent上將日志拉到Master節(jié)點of1

31、09512.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理2. 日志采集關(guān)鍵技術(shù)(2)消息隊列傳遞模式采用異步通信降低應(yīng)用耦合,保證消息的順序性、可靠性。主要有兩種消息傳遞模式:點對點傳遞模式、發(fā)布-訂閱模式。of109522.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理點對點消息傳遞模式(一對一)消息生產(chǎn)者將消息發(fā)送到一個隊列中,此時,將有一個或多個消費者消費隊列中的消息。但是一個消息只能被消費一次。當(dāng)一個消費者消費了隊列中的某個消息之后,該消息將從消息隊列中刪除。Consumes 1Consumes 2Consumes mProducer 1Producer 2Producer nM

32、SGMSGQueueof109532.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理發(fā)布-訂閱消息傳遞模式在發(fā)布-訂閱模式中,消息生產(chǎn)者將消息發(fā)布到一個Topic中,消費者可以訂閱一個或多個Topic,同一個消息也可以被多個消費者消費,消息被消費后不會立即刪除。Subscriber 1Subscriber 2Subscriber mPublisher 1Publisher 2Publisher nMSGMSGMSGMSGMSGTopicof109542.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理3. 常見的日志采集平臺(1)Chukwa一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),構(gòu)

33、建在Hadoop的 HDFS和MapReduce框架之上,可用于監(jiān)控大規(guī)模Hadoop集群的整體運行情況并對它們的日志進(jìn)行分析。包含了一個強大而靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。of109552.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(1)ChukwaChukwa架構(gòu)of109562.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(1)ChukwaChukwa架構(gòu)Adaptor直接采集數(shù)據(jù)的接口和工具Agent負(fù)責(zé)給Adaptor提供各種服務(wù)CollectorAgent采集到的數(shù)據(jù),通過Collector存儲到HDFS上Demux和ArchiveDemux負(fù)責(zé)對數(shù)據(jù)

34、的分類、排序和去重Archive負(fù)責(zé)把同類型的數(shù)據(jù)文件合并HICCHICC是Chukwa數(shù)據(jù)展示端的名稱of109572.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(2)Flume是一個分布式、可靠、高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng),其支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理的能力。Flume可看作是一個管道式的日志數(shù)據(jù)處理系統(tǒng)。Flume 運行的核心是 Agent。of109582.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(2)FlumeFlume核心結(jié)構(gòu)SourceSinkChannelWeb ServerHDFSAgen

35、tof109592.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(2)FlumeFlume核心結(jié)構(gòu)Source:數(shù)據(jù)的收集端,主要負(fù)責(zé)獲取數(shù)據(jù)并進(jìn)行格式化,進(jìn)一步將數(shù)據(jù)封裝到事件(Event)里,最后將事件推入Channel中。Avro SourceExce SourceHTTP SourceSourceEventEventEventSource工作流程圖of109602.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(2)FlumeFlume核心結(jié)構(gòu)Channel:連接Source和Sink的組件,它可以將事件暫存到內(nèi)存中,也可以持久化到本地磁盤上,直到Sink處理完該事件。主要提供M

36、emory Channel、JDBC Chanel、File Channel等類型。Sink:存儲組件,負(fù)責(zé)取出Channel中的數(shù)據(jù),并保存在文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等存儲系統(tǒng)中,或者提交到遠(yuǎn)程服務(wù)器。SinkEventEventEvent存儲系統(tǒng)of109612.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(3)KafkaLinkedin公司開發(fā)的一個分布式、支持分區(qū)的、多副本的、基于ZooKeeper協(xié)調(diào)的分布式日志系統(tǒng),可以用于Web/Nginx日志、訪問日志、消息服務(wù)等等。Kafka主要應(yīng)用場景是:日志收集系統(tǒng)和消息系統(tǒng)。of109622.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)

37、處理(3)KafkaKafka的系統(tǒng)架構(gòu)of109632.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(3)Kafka在kafka中,消息是按Topic組織的。Topic是一個消息的集合。每個Topic可以有多個生產(chǎn)者向它發(fā)送消息,也可以有一個或多個消費者來消費該Topic中的消息。而每個Topic又會分為多個Partition,這樣便于管理數(shù)據(jù)和進(jìn)行負(fù)載均衡。Topic分區(qū)of109642.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(3)KafkaKafka中三個主要角色:Broker,Producer和Consumer。Broker(代理)Kafka單個節(jié)點稱為Broker,一個

38、Kafka服務(wù)就是一個Broker,多個Broker可以組成一個Kafka集群。Producer(生產(chǎn)者)Producer是數(shù)據(jù)的發(fā)布者,負(fù)責(zé)將消息發(fā)布到Kafka的Topic中。Consumer(消費者)Consumer從Broker處讀取數(shù)據(jù)。消費者訂閱一個或多個主題,并通過從代理中提取數(shù)據(jù)來使用已發(fā)布的消息。of109652.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(4)ScribeScribe是Facebook開源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量應(yīng)用。Scribe從各種數(shù)據(jù)源上收集數(shù)據(jù),放到一個共享隊列上,然后將消息推送到后端的中央存儲系統(tǒng)上。Scribe最重

39、要的特點是容錯性好。Scribe通常與Hadoop結(jié)合使用,Scribe用于向HDFS中推送日志消息,而Hadoop通過MapReduce作業(yè)進(jìn)行定期處理。of109662.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(4)ScribeScribe的架構(gòu)Scribe數(shù)據(jù)日志Scribe AgentScribe AgentScribe AgentScribe數(shù)據(jù)庫HDFS中央存儲系統(tǒng)of109672.2.1 分布式日志采集第二章 大數(shù)據(jù)獲取和預(yù)處理(4)ScribeScribe的架構(gòu)Scribe AgentScribe Agent實際上是一個Thrift Client,也是向Scribe發(fā)送

40、數(shù)據(jù)的唯一方法。ScribeScribe提供了各種各樣的存儲系統(tǒng),如 File,HDFS等,Scribe可將數(shù)據(jù)加載到這些存儲系統(tǒng)中。 存儲系統(tǒng)用于持久化數(shù)據(jù)of109682.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲概念網(wǎng)絡(luò)爬蟲也被稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機器人等。是一種按照一定的規(guī)則、自動請求萬維網(wǎng)網(wǎng)站并提取網(wǎng)絡(luò)數(shù)據(jù)的程序或腳本。of109692.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲分類 網(wǎng)絡(luò)爬蟲可分為四種類型網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲of109702.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲分類(1)通

41、用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲(又稱全網(wǎng)爬蟲):將爬取對象從一些種子URL擴充到整個網(wǎng)絡(luò),一般用于搜索引擎。常見通用網(wǎng)絡(luò)爬蟲有:百度爬蟲Baiduspider,谷歌爬蟲Googlebot,soso爬蟲sosospider,360爬蟲:360spider主要特點:爬取目標(biāo)數(shù)量巨大對爬取性能和存儲空間要求較高對于爬取頁面的順序要求相對較低爬行的結(jié)果中會包含大量用戶不需要的網(wǎng)頁of109712.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲分類(2)聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲又稱為主題網(wǎng)絡(luò)爬蟲:選擇性地爬取那些與預(yù)先定義好的主題相關(guān)頁面。主要特點:可過濾掉海量網(wǎng)頁中與主題不相關(guān)的或者相關(guān)度較低的網(wǎng)頁

42、,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源保存的頁面也由于數(shù)量少而更新快of109722.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲分類(3)增量式網(wǎng)絡(luò)爬蟲對已下載網(wǎng)頁采取增量式更新和只爬取新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,能夠在一定程度上保證所爬取的頁面是盡可能新的頁面。主要特點:只會在需要的時候爬取新產(chǎn)生或發(fā)生更新的頁面 ,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,減小時間和空間上的耗費要具有能夠辨別網(wǎng)頁頁面是否有更新數(shù)據(jù)或者是否有新的相關(guān)網(wǎng)頁出現(xiàn)的能力,因此增加了爬行算法的復(fù)雜度和實現(xiàn)難度of109732.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理1. 網(wǎng)絡(luò)爬蟲分類(4)深

43、層網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲:通過提交表單的方式訪問并爬取深層頁面信息爬蟲爬取過程中最重要部分就是表單的填寫,包含兩種類型基于領(lǐng)域知識的表單填寫基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫of109742.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理2. 網(wǎng)絡(luò)爬蟲方法(1)網(wǎng)絡(luò)爬蟲工作原理根據(jù)預(yù)先設(shè)定的一個或若干個初始網(wǎng)頁的URL開始,獲取初始網(wǎng)頁上的URL列表,然后按照一定的規(guī)則抓取網(wǎng)頁。每當(dāng)抓取一個網(wǎng)頁時,爬蟲會提取該網(wǎng)頁上新的URL并放入未抓取的URL隊列中,接著再從未抓取的隊列中取出一個URL再次進(jìn)行新一輪的抓取。不斷重復(fù)上述過程,直到隊列中的URL抓取完畢或者滿足系統(tǒng)其它的停止條件,爬蟲才會結(jié)束。of1097

44、52.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理2. 網(wǎng)絡(luò)爬蟲方法(1)網(wǎng)絡(luò)爬蟲工作原理將已下載URL放進(jìn)已抓取URL隊列種子URL待抓取URL已下載網(wǎng)頁庫已抓取URL讀取URL、DNS解析、網(wǎng)頁下載抽取出新的URL放入待抓取URL隊列網(wǎng)絡(luò)爬蟲工作流程圖of109762.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理2. 網(wǎng)絡(luò)爬蟲方法(2)網(wǎng)絡(luò)爬蟲抓取策略深度優(yōu)先搜索從初始網(wǎng)頁開始,選擇一個URL進(jìn)入,在下載網(wǎng)頁中獲取到新的URL,接著選擇一個再進(jìn)入,如此不斷深入,直到返回的網(wǎng)頁中沒有URL為止廣度優(yōu)先搜索先抓取初始網(wǎng)頁中的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁,

45、當(dāng)同一層次的頁面全部搜索完畢后,再深入下一層繼續(xù)搜索,直到底層為止最佳優(yōu)先搜索按照一定的網(wǎng)頁分析算法,根據(jù)“最好最優(yōu)原則”進(jìn)行訪問,選取評價最好的一個或幾個URL進(jìn)行抓取。of109772.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理2. 網(wǎng)絡(luò)爬蟲方法(3)爬蟲的合法性 大多數(shù)網(wǎng)站允許將所爬取的數(shù)據(jù)用于個人使用或科研領(lǐng)域, 但如果將爬取的數(shù)據(jù)用于商業(yè)用途,則有可能會觸犯法律。使用爬蟲爬取網(wǎng)站數(shù)據(jù)時,需要遵守網(wǎng)站所有者針對爬蟲行為所制定的爬蟲協(xié)議,也稱為Robots協(xié)議。網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。盜亦有道of109782.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)

46、獲取和預(yù)處理2. 網(wǎng)絡(luò)爬蟲方法(3)爬蟲的合法性例 查看京東的Robots協(xié)議,看看該網(wǎng)站對爬蟲有哪些限制。訪問/robots.txt可查看robots.txt文件內(nèi)容。of109792.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理3. 常用的網(wǎng)絡(luò)爬蟲工具(1)Nutch一個開源的Java實現(xiàn)的分布式網(wǎng)絡(luò)爬蟲?;贖adoop的分布式處理模型,可以實現(xiàn)多機分布抓取、存儲和索引。提供了一種插件框架,使得其對各種網(wǎng)頁內(nèi)容的解析以及各種數(shù)據(jù)的采集、查詢、集群、過濾等功能能夠方便的進(jìn)行擴展。不足之處:Nutch是一個大型的搜索引擎框架,主要用于通用數(shù)據(jù)的爬取,對精確爬取沒有特別的考慮。of109802.

47、2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理3. 常用的網(wǎng)絡(luò)爬蟲工具(2)Scrapy基于Python開發(fā)的開源爬蟲框架。使用Twisted異步網(wǎng)絡(luò)框架來處理網(wǎng)絡(luò)通訊,可以加快下載速度,并且包含了各種中間件接口,可以靈活的完成各種需求。通過各種管道(Pipeline)和中間件(Middleware)能夠非常方便的對其功能進(jìn)行擴展開發(fā)。不足之處:Scrapy框架可實現(xiàn)單機多線程爬取,但不支持分布式部署;默認(rèn)不提供頁面JS渲染服務(wù),需要用戶自己實現(xiàn),才能得到動態(tài)加載的數(shù)據(jù)。of109812.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理3. 常用的網(wǎng)絡(luò)爬蟲工具(3)Heritrix是一個由Java開發(fā)的

48、開源網(wǎng)絡(luò)爬蟲,對網(wǎng)站內(nèi)容全部下載,不會修改頁面中的任何內(nèi)容??色@取完整的、精確的站點內(nèi)容的深度復(fù)制,包括視頻、音頻、圖像以及其它非文本內(nèi)容,抓取并把這些內(nèi)容存儲在磁盤中。具有強大的可擴展性,用戶可任意選擇或擴展各個組件,實現(xiàn)特定的抓取邏輯。不足之處:由于Heritrix中每個爬蟲是單獨進(jìn)行工作的,無法合作完成爬取任務(wù),因此很難實現(xiàn)分布式爬取。of109822.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理3. 常用的網(wǎng)絡(luò)爬蟲工具(4)爬蟲軟件對不具備開發(fā)能力或開發(fā)能力較弱的用戶,還可以直接使用一些網(wǎng)絡(luò)爬蟲軟件來獲取數(shù)據(jù)。這些軟件一般不需要編寫代碼,只需進(jìn)行一些必要參數(shù)的設(shè)置,即可在網(wǎng)絡(luò)中快速爬取所

49、需數(shù)據(jù)資源,還可將數(shù)據(jù)以Excel、數(shù)據(jù)庫等形式導(dǎo)出。各種網(wǎng)絡(luò)爬蟲軟件逐漸涌現(xiàn),如:八爪魚采集器、火車頭采集器、后羿采集器、神箭手云爬蟲等。of109832.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理【例2-1】使用八爪魚采集器爬取貓眼電影TOP100榜單信息,包括排名、電影名稱、主演、上映時間及評分。網(wǎng)址:/board/4of109842.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(1)新建自定義任務(wù)。啟動八爪魚登錄,在八爪魚操作界面中,單擊“新建”按鈕,選擇“自定義任務(wù)”選項,進(jìn)入新建任務(wù)窗口,將要爬取的目標(biāo)網(wǎng)頁地址輸入或復(fù)制粘貼到編輯區(qū)域,單擊“保存設(shè)置”按鈕。八爪魚操作窗口中

50、自動加載該網(wǎng)頁內(nèi)容,同時對頁面數(shù)據(jù)進(jìn)行自動識別和采集。of109852.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(1)新建自定義任務(wù)。由于自動采集的數(shù)據(jù)不是想要的結(jié)果,點擊“操作提示”窗口中的“取消”按鈕,進(jìn)入采集配置頁面。of109862.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(2)設(shè)置循環(huán)翻頁。拖動采集配置頁面右側(cè)滾動條至頁面底部,然后單擊貓眼頁面中的“下一頁”按鈕,在“操作提示”窗口中,選擇“循環(huán)點擊下一頁”選項,此時在操作流程圖中會自動建立一個翻頁循環(huán)。在流程圖中選中“循環(huán)翻頁”框,可進(jìn)一步對循環(huán)結(jié)束條件進(jìn)行設(shè)置,不設(shè)置會默認(rèn)爬取所有頁面。of109872.2

51、.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(3)設(shè)置提取字段。單擊頁面中某一部影片的排名信息,在“操作提示”窗口中選擇“選中全部”選項,進(jìn)一步選擇“采集以下元素文本”,在頁面下方會自動生成所要爬取的字段,單擊字段名右側(cè)的編輯按鈕,將字段名修改為“排名”。按照此方法,在頁面中依次單擊某一部影片的電影名稱、主演、上映時間及評分內(nèi)容,生成所要爬取的其他字段。of109882.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(4)啟動采集。單擊界面上方的“采集”按鈕,并在彈出的窗口中單擊“啟動本地采集”,即可開始采集。采集任務(wù)開始后,會彈出一個新窗口顯示該任務(wù)的爬取進(jìn)度和爬取結(jié)果。of10

52、9892.2.2 網(wǎng)絡(luò)爬蟲第二章 大數(shù)據(jù)獲取和預(yù)處理操作步驟:(5)導(dǎo)出數(shù)據(jù)。采集完成后,單擊“導(dǎo)出數(shù)據(jù)”按鈕,可選擇合適的格式將結(jié)果導(dǎo)出。這里選擇導(dǎo)出為Excel文件。of109902.2.3 其他獲取方法第二章 大數(shù)據(jù)獲取和預(yù)處理1. APP應(yīng)用獲取APP數(shù)據(jù)的獲取也可采用網(wǎng)絡(luò)爬蟲來自動實現(xiàn),針對普通網(wǎng)站的網(wǎng)絡(luò)爬蟲工具基本都支持APP的爬取。具體思路: PC端運行抓包工具,如Fiddler、Charles、WireShare等,然后通過設(shè)置代理的方式使手機處于抓包軟件的監(jiān)聽之下,從而獲得手機APP的各個網(wǎng)絡(luò)請求和相應(yīng)過程,接著就可以使用爬取網(wǎng)頁的方法來爬取App數(shù)據(jù)了。2. 傳感器設(shè)備獲取

53、通過傳感器、攝像頭和其它智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。傳感器采集數(shù)據(jù)一般是采取采樣方式,即隔一定時間(稱采樣周期)對同一點數(shù)據(jù)重復(fù)采集,采集的數(shù)據(jù)大多是瞬時值,也可是某段時間內(nèi)的一個特征值。of109912.2.3 其他獲取方法第二章 大數(shù)據(jù)獲取和預(yù)處理3. 應(yīng)用系統(tǒng)獲取對于數(shù)據(jù)庫中存儲的海量數(shù)據(jù),可采用以下方法來進(jìn)行數(shù)據(jù)的同步和復(fù)制。直接連接源數(shù)據(jù)庫通過數(shù)據(jù)文件進(jìn)行同步通過數(shù)據(jù)庫日志進(jìn)行同步對于科研院所、企業(yè)、政府等擁有的保密性很高的數(shù)據(jù),可以通過與企業(yè)或研究機構(gòu)合作,采用系統(tǒng)特定接口,進(jìn)行數(shù)據(jù)采集,從而減少數(shù)據(jù)被泄露的風(fēng)險。智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了( )的數(shù)據(jù)采集技術(shù)的

54、應(yīng)用統(tǒng)計報表網(wǎng)絡(luò)爬蟲API接口傳感器ABCD提交可為此題添加文本、圖片、公式等解析,且需將內(nèi)容全部放在本區(qū)域內(nèi)。正常使用需3.0以上版本手環(huán)內(nèi)置傳感器采集健康數(shù)據(jù)單選題2分答案解析第二章大數(shù)據(jù)獲取和預(yù)處理2.3 數(shù)據(jù)預(yù)處理技術(shù)2.2 大數(shù)據(jù)獲取方法2.1 大數(shù)據(jù)獲取和預(yù)處理概述數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論of10993of109942.3 數(shù)據(jù)預(yù)處理技術(shù)第二章 大數(shù)據(jù)獲取和預(yù)處理2.3.1 數(shù)據(jù)清洗2.3.2 數(shù)據(jù)集成2.3.3 數(shù)據(jù)規(guī)約2.3.4 數(shù)據(jù)變換of109952.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理缺失值處理(1)刪除具有缺失數(shù)據(jù)的數(shù)據(jù)元組(2)直接分析有缺失的據(jù)集(3)填充缺失

55、值人工填寫缺失值。使用一個全局常量填充缺失值。使用屬性的中心度量(如均值、中位數(shù)或眾數(shù),可查閱資料補充理解)填充缺失值。使用同類樣本的屬性均值或者中位數(shù)填充缺失值。使用最可能的值填充缺失值。of109962.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(1) 分箱“分箱”是將屬性的值域劃分成若干連續(xù)子區(qū)間。如果一個屬性值在某個子區(qū)間范圍內(nèi),就把該值放進(jìn)這個子區(qū)間所代表的“箱子”內(nèi)。把所有待處理的數(shù)據(jù)(某列屬性值)都放進(jìn)箱子后,對每個箱子中的數(shù)據(jù)采用某種方法進(jìn)行處理。對數(shù)據(jù)進(jìn)行分箱主要有以下四種方法。等深分箱法等寬分箱法最小熵法用戶自定義區(qū)間法of109972.3.1 數(shù)據(jù)清洗第二章

56、大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(1)分箱數(shù)據(jù)分箱后,再對每個分箱中的數(shù)據(jù)進(jìn)行局部平滑,常用的方法有以下三種。平均值平滑邊界值平滑中值平滑of109982.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(1)分箱of109992.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(1)分箱圖2-25 數(shù)據(jù)平滑前后對比of1091002.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(2) 回歸 回歸是一種統(tǒng)計學(xué)上分析數(shù)據(jù)的方法,其目的在于發(fā)現(xiàn)兩個變量或者多個變量之間是否相關(guān),即建立函數(shù)關(guān)系。數(shù)據(jù)平滑也可以用函數(shù)擬合方法來光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個屬性(或變量)的“最佳

57、”直線,使一個屬性能夠預(yù)測另一個。多元線性回歸是線性回歸的擴展,它涉及多個屬性,并且數(shù)據(jù)擬合到一個多維面。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程,也能夠幫助消除噪聲。of1091012.3.1 數(shù)據(jù)清洗第二章 大數(shù)據(jù)獲取和預(yù)處理噪聲數(shù)據(jù)處理(3)離群點分析聚類可用來檢測噪聲數(shù)據(jù),即所謂的離群點。聚類將類似的值組織成群或“簇”。直觀地,落在簇集合之外的值被視為離群點。圖2-26 顧客在城市中的位置圖of1091022.3.2 數(shù)據(jù)集成第二章 大數(shù)據(jù)獲取和預(yù)處理數(shù)據(jù)集成指將不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一融合在一個數(shù)據(jù)集中,并提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)整合方式。數(shù)據(jù)集成的常用方式有以下兩種。物化式虛擬式of109103

58、2.3.2 數(shù)據(jù)集成第二章 大數(shù)據(jù)獲取和預(yù)處理1 冗余處理一個屬性(如年收入)如果能由另一個或另一組屬性“導(dǎo)出”,則這個屬性可能是冗余的。屬性名稱的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。有些冗余可以被相關(guān)分析檢測到。例如,給定兩個屬性,根據(jù)可用數(shù)據(jù)分析,可以度量一個屬性能在多大程度上蘊涵另一個。對標(biāo)稱數(shù)據(jù),可以使用卡方檢驗;對數(shù)值屬性,可以使用相關(guān)系數(shù)和協(xié)方差,它們都評估一個屬性的值如何隨著另一個變化。數(shù)據(jù)集成面臨的主要問題:冗余處理、重復(fù)記錄處理of1091042.3.2 數(shù)據(jù)集成第二章 大數(shù)據(jù)獲取和預(yù)處理of1091052.3.2 數(shù)據(jù)集成第二章 大數(shù)據(jù)獲取和預(yù)處理of1091062.3.2 數(shù)

59、據(jù)集成第二章 大數(shù)據(jù)獲取和預(yù)處理2 重復(fù)記錄處理如何判斷兩條記錄是否重復(fù):比較記錄的相關(guān)屬性,根據(jù)每個屬性的相似度和屬性的權(quán)重,加權(quán)平均后得到記錄的相似度。如果兩條記錄的相似度超過了某一閾值,則認(rèn)為這兩條記錄是指向同一實體的記錄,反之,認(rèn)為是指向不同實體的兩條記錄。重復(fù)記錄檢測常用的方法是基本近鄰排序算法,該算法的基本思想是:將數(shù)據(jù)集中的記錄按指定關(guān)鍵字(Key)排序,在排序后的數(shù)據(jù)集上移動一個固定大小的窗口,通過檢測窗口里的記錄判定它們是否匹配,以此減少比較記錄的次數(shù)。下列關(guān)于數(shù)據(jù)重組的說法中,錯誤的是( )數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒數(shù)據(jù)重組實現(xiàn)的關(guān)鍵在

60、于多源數(shù)據(jù)融合和數(shù)據(jù)集成數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新ABCD提交單選題2分of1091082.3.3 數(shù)據(jù)規(guī)約第二章 大數(shù)據(jù)獲取和預(yù)處理概念數(shù)據(jù)歸約指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。優(yōu)點數(shù)據(jù)歸約得到的數(shù)據(jù)集比原數(shù)據(jù)集小得多。數(shù)據(jù)歸約導(dǎo)致的較小數(shù)據(jù)集需要較少的內(nèi)存和處理時間,因此可以使用占用計算資源更大的挖掘算法,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果。組成數(shù)據(jù)歸約策略包括維歸約和數(shù)量歸約等。of1091092.3.3 數(shù)據(jù)規(guī)約第二章 大數(shù)據(jù)獲取和預(yù)處理1 維規(guī)約(1)主成分分析假定待歸約的數(shù)據(jù)由n 個屬性或維描述的元組或數(shù)據(jù)向量組成。主成分分析(Principal

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論