《大數(shù)據(jù)基礎》 課件 項目1、2 走進大數(shù)據(jù)、大數(shù)據(jù)采集與預處理_第1頁
《大數(shù)據(jù)基礎》 課件 項目1、2 走進大數(shù)據(jù)、大數(shù)據(jù)采集與預處理_第2頁
《大數(shù)據(jù)基礎》 課件 項目1、2 走進大數(shù)據(jù)、大數(shù)據(jù)采集與預處理_第3頁
《大數(shù)據(jù)基礎》 課件 項目1、2 走進大數(shù)據(jù)、大數(shù)據(jù)采集與預處理_第4頁
《大數(shù)據(jù)基礎》 課件 項目1、2 走進大數(shù)據(jù)、大數(shù)據(jù)采集與預處理_第5頁
已閱讀5頁,還剩163頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

項目一走進大數(shù)據(jù)項目簡介大數(shù)據(jù)時代的悄然來臨,帶來了信息技術發(fā)展的巨大變革,并深刻影響著社會生產(chǎn)和人們生活的方方面面。世界各國政府高度重視大數(shù)據(jù)技術的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國家戰(zhàn)略并重點推進。大數(shù)據(jù)已經(jīng)不是“鏡中花、水中月”,它的影響力和作用力正迅速觸及社會的每個角落。什么是大數(shù)據(jù)呢?本項目將帶領你走進大數(shù)據(jù),認識大數(shù)據(jù)及其基本特征,了解大數(shù)據(jù)與當前新一代信息技術關系,洞悉大數(shù)據(jù)的思維方式和工作流程,探究大數(shù)據(jù)給我們會帶來哪些影響。學習目標知識目標1.理解數(shù)據(jù)、大數(shù)據(jù)的基本概念,掌握數(shù)據(jù)類型、大數(shù)據(jù)的特征;2.了解云計算、物聯(lián)網(wǎng)、人工智能基本概念,以及它們與大數(shù)據(jù)關系;3.掌握大數(shù)據(jù)的思維模式和工作流程;4.理解大數(shù)據(jù)對社會生產(chǎn)和人們生活帶來的影響。能力目標1.能夠運用大數(shù)據(jù)相關基礎知識,做好數(shù)據(jù)分析的全面準備工作;2.能夠?qū)Υ髷?shù)據(jù)的思維模式和工作方式有基本的認知;3.能夠?qū)π乱淮畔⒓夹g、數(shù)字經(jīng)濟等概念有較為準確認知。素質(zhì)目標1.養(yǎng)成用數(shù)據(jù)思維去看待問題的初步習慣;2.養(yǎng)成對事物分析客觀、敏感的職業(yè)思維方式。思政目標認知大數(shù)據(jù)基本概念,透過現(xiàn)象看本質(zhì),樹立正確價值觀;認知我國新一代信息技術發(fā)展情況和發(fā)展戰(zhàn)略,樹立愛國和民族自豪感;洞悉大數(shù)據(jù)思維方式,警惕大數(shù)據(jù)思維陷阱,培養(yǎng)創(chuàng)新意識,做新思維智者;探究大數(shù)據(jù)的影響,知道國家需要什么樣的人才,樹立正確的職業(yè)觀。思維導圖任務一認識大數(shù)據(jù)任務清單工作任務認識大數(shù)據(jù)教學模式任務驅(qū)動建議學時2課時教學地點多媒體教室任務描述隨著信息技術的日趨發(fā)達,“大數(shù)據(jù)”已經(jīng)成為互聯(lián)網(wǎng)信息技術行業(yè)的流行詞匯,“大數(shù)據(jù)推薦”、“大數(shù)據(jù)驅(qū)動”、“大數(shù)據(jù)殺熟”等等。那么什么是大數(shù)據(jù),它與傳統(tǒng)的數(shù)據(jù)有何區(qū)別,這個大數(shù)據(jù)的“大”具體體現(xiàn)在哪些方面呢?對于初學者小王來說,一頭霧水。要想深入了解大數(shù)據(jù),就必須從熟悉數(shù)據(jù)、認識大數(shù)據(jù)的基本概念和特征開始,于是小王開始了認識大數(shù)據(jù)之旅。任務目標了解數(shù)據(jù)概念內(nèi)涵的發(fā)展;理解傳統(tǒng)數(shù)據(jù)、信息、知識的區(qū)別;掌握數(shù)據(jù)分類中的結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)基本定義;掌握大數(shù)據(jù)基本概念;掌握大數(shù)據(jù)的4V特征;能進行結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)的識別;能對大數(shù)據(jù)規(guī)模進行基本判斷;能通過大數(shù)據(jù)基本特征分析,透過現(xiàn)象看本質(zhì),看到大數(shù)據(jù)價值;初步養(yǎng)成大數(shù)據(jù)意識。關鍵詞數(shù)據(jù)、結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)、大數(shù)據(jù)、大數(shù)據(jù)4V特征知識必備一、什么是數(shù)據(jù)珠穆朗瑪峰有多高?“很高”、“非常高”、“最高”海拔8848.86米?準確定量抽象、模糊定性傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”,數(shù)字之所以產(chǎn)生,是因為人類在實踐中發(fā)現(xiàn),僅僅用語言、文字和圖形來描述這個世界是不精確的,也是遠遠不夠的測量計算有根據(jù)的數(shù)字知識必備一、什么是數(shù)據(jù)數(shù)據(jù)36是個數(shù)據(jù)賦予背景信息知識提煉規(guī)律今天的氣溫是36℃今年7月,長沙的平均氣溫為36℃?zhèn)鹘y(tǒng)意義上數(shù)據(jù)、信息和知識的關系數(shù)據(jù)是信息的載體,信息是有背景的數(shù)據(jù),而知識是經(jīng)過人類的歸納和整理,最終呈現(xiàn)規(guī)律的信息。進入信息時代數(shù)據(jù)內(nèi)涵不斷擴大,數(shù)字、文字、圖片、視頻、記錄、郵件等等知識必備二、數(shù)據(jù)類型結構化數(shù)據(jù)半結構化數(shù)據(jù)非結構化數(shù)據(jù)指關系型數(shù)據(jù)表,如:Excel、Access、SQLServer、Oracle指關系結構與內(nèi)容混合在一起的數(shù)據(jù)類型,如:關系表與超鏈接、圖像的數(shù)字化文檔、視頻、音頻、圖片,如:Word文檔、PDF文檔、電影,監(jiān)控視頻、音樂90%左右非結構化10%結構化(50%-70%源于人與人的互動)數(shù)據(jù)不僅指狹義上的數(shù)字,也可以指具有一定意義的文字、字母、數(shù)字符號的組合、圖形、圖像、視頻、音頻等,還可以是客觀事物的屬性、數(shù)量、位置及其相互關系的抽象表示。例如,“0,1,2,…”“陰、雨、下降、氣溫”“學生的檔案記錄、貨物的運輸情況”,以及“微信語音聊天、微信視頻聊天產(chǎn)生的音頻或視頻、微信朋友圈的照片”等都是數(shù)據(jù)。按照數(shù)據(jù)結構屬性不同,數(shù)據(jù)可以劃分為結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)三大類。知識必備二、數(shù)據(jù)類型結構化數(shù)據(jù)可以使用關系型數(shù)據(jù)表來表示和存儲,如Excel表、MySQL、Oracle、SQLServer等數(shù)據(jù)庫表。結構化數(shù)據(jù)均表現(xiàn)為二維形式的數(shù)據(jù)。一般特點是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的。結構化數(shù)據(jù)的存儲和排列是很有規(guī)律的,這對查詢和修改等操作很有幫助,人們更容易使用它;同時,結構化數(shù)據(jù)也被稱為定量數(shù)據(jù),是能夠用數(shù)據(jù)或統(tǒng)一的結構加以表示的信息,如數(shù)字、符號等。1、結構化數(shù)據(jù)知識必備二、數(shù)據(jù)類型非結構化數(shù)據(jù),數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。它不符合任何預定義的模型,因此它存儲在非關系數(shù)據(jù)庫中,并使用NoSQL進行查詢。非結構化數(shù)據(jù)已構成了網(wǎng)絡上絕大多數(shù)可用數(shù)據(jù),如網(wǎng)絡上的文本、音頻、視頻、網(wǎng)頁等都是非結構化數(shù)據(jù)。2、非結構化數(shù)據(jù)我國綜合國力顯著增強國際影響力穩(wěn)步提升。知識必備二、數(shù)據(jù)類型半結構化數(shù)據(jù)是介于完全結構化數(shù)據(jù)和完全非結構化數(shù)據(jù)之間的數(shù)據(jù),它并不符合關系數(shù)據(jù)表或其他數(shù)據(jù)表的形式關聯(lián)起來的數(shù)據(jù)模型結構,但包含相關標記,用來分隔語義元素,以及對記錄、字段進行分層。因此,它也被稱為自描述的結構數(shù)據(jù),數(shù)據(jù)的結構和內(nèi)容混雜在一起,沒有明顯的區(qū)分。屬于同一類實體的非結構化數(shù)據(jù)可以有不同的屬性,即使它們被組合在一起,這些屬性的順序也并不重要。例如,XML、JSON、HTML文檔、Email都屬于半結構化數(shù)據(jù)。3、半結構化數(shù)據(jù)知識必備三、什么是大數(shù)據(jù)?知識必備三、什么是大數(shù)據(jù)?信息社會,數(shù)據(jù)的內(nèi)涵在擴大,數(shù)據(jù)的總量也在不斷增加,而且增加的速度不斷加快,數(shù)據(jù)的重要性也在大幅提升。20世紀80年代,就有人提出“大數(shù)據(jù)”的概念。這時候的“大”,如“大人物”和“大轉折”之“大”,主要指價值上的重要性。到了21世紀,數(shù)據(jù)開始爆炸,大數(shù)據(jù)的提法又重新進入大眾的視野并獲得了更大的關注。這個時候的“大”,含義也更加豐富了:一是指容量大,二是指價值大。這個時候大數(shù)據(jù)可以首先理解為傳統(tǒng)的小數(shù)據(jù)加上現(xiàn)代的“大記錄”。大數(shù)據(jù)=傳統(tǒng)的小數(shù)據(jù)+現(xiàn)代的大記錄知識必備三、什么是大數(shù)據(jù)?定義二:指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。

[Gartner美國高德納咨詢公司]定義一:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。

[全球領先的管理咨詢公司麥肯錫]定義三:大數(shù)據(jù)處理技術代表了新一代的技術架構,這種架構通過高速獲取數(shù)據(jù)并對其進行分析和挖掘,從海量且形式各異的數(shù)據(jù)源中更有效地抽取出富含價值的信息。

[全球最大的互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)]關于大數(shù)據(jù)的確切定義,不同組織從不同角度給出了不同的定義。知識必備三、什么是大數(shù)據(jù)?綜合來說:大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)是原有存儲模式和計算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模這一現(xiàn)狀而產(chǎn)生的相對概念。大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從技術角度看,大數(shù)據(jù)代表了新一代的信息技術架構,指從海量數(shù)據(jù)中快速獲得有價值信息的技術。知識必備四、大數(shù)據(jù)特征大數(shù)據(jù)4V特征數(shù)據(jù)規(guī)模大(Volume)類型多樣性(Variety)處理速度快(Velocity)價值密度低(Value)知識必備四、大數(shù)據(jù)特征大數(shù)據(jù)從TB已經(jīng)發(fā)展到現(xiàn)在的PB、EB等級別了。根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量1.數(shù)據(jù)量大運營式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段感知式系統(tǒng)階段GBTBPBEBZB知識必備四、大數(shù)據(jù)特征2.數(shù)據(jù)類型多大數(shù)據(jù)是由結構化和非結構化數(shù)據(jù)組成的10%的結構化數(shù)據(jù),存儲在數(shù)據(jù)庫中90%的非結構化數(shù)據(jù),它們與人類信息密切相關知識必備四、大數(shù)據(jù)特征3.處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少1秒定律:這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同知識必備四、大數(shù)據(jù)特征4.價值密度低

價值密度低,商業(yè)價值高

以公安視頻監(jiān)控系統(tǒng)為例,常年24小時不間斷視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有幾秒鐘,可是為了這短短的幾秒鐘,我們不得不投入大量資金購買監(jiān)控設備、網(wǎng)絡設備、存儲設備,來保存攝像頭連續(xù)不斷傳來的監(jiān)控數(shù)據(jù)。學習感悟大數(shù)據(jù)的“大”首先體現(xiàn)在規(guī)模大、發(fā)展快、類型多,但大體量、大容量只是表象,價值才是本質(zhì),而且大容量并不一定代表大價值,大數(shù)據(jù)的真正意義還在于大價值,數(shù)據(jù)的價值含量、挖掘成本比數(shù)量的大更為重要。價值主要是通過數(shù)據(jù)的整合、分析和開放而獲得,并且這種整合和分析必須能夠達到快速處理,實時分析,才能凸顯其價值。因此,“走進大數(shù)據(jù)”一定是讓大數(shù)據(jù)創(chuàng)造大價值,以價值為目標,這樣才不會被表象的“大”弄迷茫,才能透過表象看到本質(zhì),才有方向感。任務實訓1.掃教材上二維碼針對必備知識進行在線測試。2.假設你在運營一微博賬號,那么微博賬號里面的數(shù)據(jù)有哪些是結構化數(shù)據(jù)?哪些是半結構化數(shù)據(jù)?哪些是非結構化數(shù)據(jù)?3.總結分析大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的不同點。任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答傳統(tǒng)數(shù)據(jù)、信息、知識的區(qū)別,理解數(shù)據(jù)內(nèi)涵變化過程;(5分)能夠按數(shù)據(jù)結構屬性區(qū)分結構化、非結構化、半結構化數(shù)據(jù);(5分)能夠回答大數(shù)據(jù)的基本特征。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對工作場所中數(shù)據(jù)類型判斷的考評;(20分)描述大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的不同點的考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

任務二認知大數(shù)據(jù)與新一代信息技術關系任務清單工作任務認識大數(shù)據(jù)與新一代信息技術關系教學模式任務驅(qū)動建議學時2課時教學地點多媒體教室任務描述大數(shù)據(jù)定義中提到,從技術角度看,大數(shù)據(jù)代表了新一代的信息技術架構。而且我們也看到,伴隨著大數(shù)據(jù)經(jīng)常在一起的,還有人工智能、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等,它們一起統(tǒng)稱為新一代信息技術。這些新一代信息技術有什么區(qū)別,它們與大數(shù)據(jù)到底是一種什么樣關系呢?小王繼續(xù)開展他的探索之旅。任務目標理解云計算、物聯(lián)網(wǎng)、人工智能基本概念;熟悉云計算基本類型;了解物聯(lián)網(wǎng)和人工智能關鍵技術;了解云計算、物聯(lián)網(wǎng)、人工智能的應用場景;掌握大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、人工智能的相互關系;能區(qū)分云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能各自工作特點;學會思考大數(shù)據(jù)技術在各個領域的應用潛能和發(fā)展前景;養(yǎng)成對新事物、新技術敏感和探索的職業(yè)習慣;具備迅速適應大數(shù)據(jù)下新一代信息技術的創(chuàng)新能力;了解我國大數(shù)據(jù)等新一代技術的應用發(fā)展情況、發(fā)展戰(zhàn)略,樹立愛國和民族自豪感,以及為國勤奮學習、拼搏精神。關鍵詞新一代信息技術、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能、移動互聯(lián)網(wǎng)知識必備一、云計算狹義上的云計算,就是一種提供資源的網(wǎng)絡,使用者可以隨時獲取“云”上的資源,按需求量使用,并且可以看成是無限擴展的,只要按使用量付費就可以。廣義上的云計算是與信息技術、軟件、互聯(lián)網(wǎng)相關的一種服務,這種計算資源共享池叫做“云”,云計算把許多計算資源集合起來,通過軟件實現(xiàn)自動化管理,只需要很少的人參與,就能讓資源被快速提供。云計算的概念(一)知識必備一、云計算私有云公共云社區(qū)云混合云云計算單獨為一個用戶客戶使用而構建的云基礎設施,可以對數(shù)據(jù)的安全和服務質(zhì)量進行最有效地控制由一個云計算服務的銷售組織或公司所有的基礎設施,由組織或公司銷售給普通消費者使用基礎設施是由2種或2種以上的云組成,各類云相對保持獨立,用專有的技術將它們組合起來被一些組織共享,提供某一方面的社區(qū)服務的基礎設施,社區(qū)服務包括針對安全要求等1、按運營模式分類云計算的類型(二)知識必備一、云計算類型

特點私有云利用企業(yè)內(nèi)網(wǎng)和專網(wǎng),面向單一企業(yè)或組織公共云利用互聯(lián)網(wǎng),面向公眾混合云兩種或三種其他云組合社區(qū)云利用內(nèi)網(wǎng)、專網(wǎng)和VPN,面向多家關聯(lián)部門每一種云都有自己特點知識必備一、云計算基礎設施即服務(IaaS)平臺即服務(PaaS)軟件即服務(SaaS)云服務提供商把IT系統(tǒng)的應用軟件層作為服務出租出去,而消費者可以使用任何云終端設備接入計算機網(wǎng)絡,使用云端的軟件,相當于用戶直接擁有一臺安裝了自己需要的應用程序的計算機。云服務提供商把基礎設施層和平臺軟件層都搭建好,然后在平臺軟件層上劃分“小塊”,并對外出租,相當于在上面裸機基礎上再加上操作系統(tǒng)和數(shù)據(jù)庫軟件。云服務提供商把IT系統(tǒng)的基礎設施建設好,主要包括CPU(計算資源)、硬盤(存儲資源)、網(wǎng)卡(網(wǎng)絡資源)等,然后直接對外出租硬件服務器、虛擬主機、存儲或網(wǎng)絡設施等,相當于裸機出租。2、按服務模式分類知識必備一、云計算云計算應用(三)是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng),用戶可以將本地的資源上傳至云端上,可以在任何地方連入互聯(lián)網(wǎng)來獲取云上的資源;百度云、微云使用“云計算”來創(chuàng)建醫(yī)療健康服務云平臺,實現(xiàn)了醫(yī)療資源的共享和醫(yī)療范圍的擴大;舉例:預約掛號、電子病歷、醫(yī)保等。旨在為銀行、保險和基金等金融機構提供互聯(lián)網(wǎng)處理和運行服務,同時共享互聯(lián)網(wǎng)資源,從而解決現(xiàn)有問題并且達到高效、低成本的目標。舉例:快捷支付可以將所需要的任何教育硬件資源虛擬化,然后將其傳入互聯(lián)網(wǎng)中,以向教育機構和學生老師提供一個方便快捷的平臺。舉例:慕課知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)概念(一)物聯(lián)網(wǎng)(IoT,Internetofthings)即“萬物相連的互聯(lián)網(wǎng)”,是互聯(lián)網(wǎng)基礎上的延伸和擴展的網(wǎng)絡,將各種信息傳感設備與網(wǎng)絡結合起來而形成的一個巨大網(wǎng)絡,實現(xiàn)任何時間、任何地點,人、機、物的互聯(lián)互通。知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關鍵技術(二)射頻識別是一種通信技術,可通過無線電訊號識別特定目標并讀寫相關數(shù)據(jù),而無需在識別系統(tǒng)與特定目標之間建立機械或光學接觸。它相當于物聯(lián)網(wǎng)的“嘴巴”,負責讓物體“說話”。射頻識別技術主要的表現(xiàn)形式就是“RFID”標簽,它具有抗干擾性強、識別速度快、安全性高、數(shù)據(jù)容量大等優(yōu)點。射頻識別技術目前在許多方面都有應用,例如倉庫物資、物流信息追蹤、醫(yī)療信息追蹤,固定資產(chǎn)追蹤。1、射頻識別(RFID)技術知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關鍵技術(二)傳感器能感受規(guī)定的被測量值,例如溫度、濕度、電壓和電流,并按照一定的規(guī)律轉換成可用輸出信號。它相當于物聯(lián)網(wǎng)的“耳朵”,負責接收物體“說話”的內(nèi)容。傳感器技術可應用于生活中空調(diào)制冷劑液位的精確控制、數(shù)字醫(yī)療捕捉電壓信號等。2、傳感器技術知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關鍵技術(二)當物體與物體“交流”的時候,就需要高速、可進行大批量數(shù)據(jù)傳輸?shù)臒o線網(wǎng)絡,無線網(wǎng)絡的速度決定了設備連接的速度和穩(wěn)定性。若無線網(wǎng)絡的速率太低,就會出現(xiàn)設備反應滯后或者連接失敗等問題。目前通訊市場已經(jīng)逐漸從4G網(wǎng)絡轉向5G網(wǎng)絡,物聯(lián)網(wǎng)的發(fā)展也會因其而得到更大的突破。3、無線網(wǎng)絡技術知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關鍵技術(二)物聯(lián)網(wǎng)中存在大量數(shù)據(jù)來源、各種異構網(wǎng)絡和不同類型的系統(tǒng),大量不同類型數(shù)據(jù)如何實現(xiàn)有效整合、處理和挖掘,是物理網(wǎng)處理層需要解決的關鍵技術問題。云計算和大數(shù)據(jù)技術的出現(xiàn)為物聯(lián)網(wǎng)存儲、處理和分析數(shù)據(jù)提供了強大的技術支撐。海量物聯(lián)網(wǎng)數(shù)據(jù)可以借助龐大的云計算基礎設施實現(xiàn)廉價存儲,利用大數(shù)據(jù)技術實現(xiàn)快速處理和分析,滿足各種實際應用需求。4、數(shù)據(jù)挖掘和融合技術知識必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)用途廣泛,遍及智能交通、環(huán)境保護、政府工作、公共安全、平安家居、智能消防、工業(yè)監(jiān)測、環(huán)境監(jiān)測、路燈照明管控、景觀照明管控、樓宇照明管控、廣場照明管控、老人護理、個人健康、花卉栽培、水系監(jiān)測、食品溯源、敵情偵查和情報搜集等多個領域。物聯(lián)網(wǎng)的發(fā)展為建設國家智慧城市奠定了基礎。物聯(lián)網(wǎng)應用(三)知識必備二、物聯(lián)網(wǎng)你身邊有哪些物聯(lián)網(wǎng)應用案例?物聯(lián)網(wǎng)應用(三)想一想知識必備三、人工智能人工智能概念(一)人工智能(AI,ArtificialIntelligence),是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是一個很寬泛的概念,概括而言是對人的意識和思維過程的模擬,利用機器學習和數(shù)據(jù)分析方法賦予機器人類的能力。知識必備三、人工智能人工智能關鍵技術(二)機器學習知識圖譜自然語言處理人機交互計算機視覺生物特征識別VR/AR知識必備三、人工智能人工智能關鍵技術(二)2.知識圖譜是一門涉及統(tǒng)計學、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡、優(yōu)化理論、計算機科學、腦科學等諸多領域的交叉學科本質(zhì)上是結構化的語義知識庫,是一種由節(jié)點和邊組成的圖數(shù)據(jù)結構,以符號形式描述物理世界中的概念及其相互關系研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法主要研究人和計算機之間的信息交換,主要包括人到計算機和計算機到人的兩部分信息交換1.機器學習3.自然語言處理4.人機交互知識必備三、人工智能人工智能關鍵技術(二)6.生物特征識別使用計算機模仿人類視覺系統(tǒng)的科學,讓計算機擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。通過個體生理特征或行為特征對個體身份進行識別認證的技術。以計算機為核心的新型視聽技術。結合相關科學技術,在一定范圍內(nèi)生成與真實環(huán)境在視覺、聽覺、觸感等方面高度近似的數(shù)字化環(huán)境。5.計算機視覺7.VR、AR知識必備三、人工智能人工智能應用(三)知識必備三、人工智能人工智能應用(三)知識必備四、大數(shù)據(jù)與新一代信息技術關系物聯(lián)網(wǎng)、傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)著眼于數(shù)據(jù)采集,在源源不斷地匯聚數(shù)據(jù)和接收數(shù)據(jù),為大數(shù)據(jù)提供數(shù)據(jù)來源。大數(shù)據(jù)著眼于“數(shù)據(jù)”,關注實際業(yè)務,對這些數(shù)據(jù)進行分析處理,提取有價值的信息。云計算著眼于“計算”,看重數(shù)據(jù)處理能力。知識必備四、大數(shù)據(jù)與新一代信息技術關系大數(shù)據(jù)是人工智能“思考”和“決策”的基礎。人工智能需要依賴大數(shù)據(jù)完成模型的訓練和學習,大數(shù)據(jù)也需要人工智能技術對其進行價值分析。人工智能貴在“智能”,即通過智能地對數(shù)據(jù)進行分析和處理,按照人的意識和思維過程進行模擬,賦予機器人類的能力,指導下一步的操作;而大數(shù)據(jù)分析僅考慮從海量數(shù)據(jù)中獲取想要的結果。知識必備四、大數(shù)據(jù)與新一代信息技術關系你知道什么叫東數(shù)西算嗎?想一想學習感悟云計算、物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等新一代信息技術,代表了人類IT技術的最新發(fā)展趨勢,深刻改變著人們的生產(chǎn)和生活。物聯(lián)網(wǎng)、互聯(lián)網(wǎng)著眼于數(shù)據(jù)采集,為大數(shù)據(jù)提供數(shù)據(jù)來源。大數(shù)據(jù)著眼于“數(shù)據(jù)”,對這些數(shù)據(jù)進行分析處理,提取有價值的信息。云計算著眼于“計算”,看重數(shù)據(jù)處理能力。人工智能貴在“智能”,即通過智能地對數(shù)據(jù)進行分析和處理,按照人的意識和思維過程進行模擬,賦予機器人類的能力。相信這些技術的融合發(fā)展、相互助力,一定會給人類社會的未來發(fā)展帶來更多的新變化。作為學習者,需要及時擁抱新技術,需要迅速適應大數(shù)據(jù)下新一代信息技術的創(chuàng)新能力。當前,我國在全球新一代信息技術領域已經(jīng)占據(jù)一席之地,產(chǎn)業(yè)規(guī)模體量全球領先,利用信息技術改造傳統(tǒng)經(jīng)濟、培育壯大數(shù)字經(jīng)濟新動能的空間仍然很大;隨著“東數(shù)西算”工程,“十四五”新一代信息技術戰(zhàn)略規(guī)劃等的實施,將繼續(xù)推動我國新一代信息技術不斷突破、蓬勃發(fā)展。任務實訓1.掃教材上對應二維碼針對必備知識進行在線測試。2.圍繞云計算、物聯(lián)網(wǎng)、人工智能在其它領域的應用,舉例分析并展望大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、人工智能幾種技術綜合應用前景。3利用百度地圖查看實時公交,請回答這個過程用到了哪些新一代信息技術?任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答云計算學習過程中相關基本問題;(5分)能夠回答物聯(lián)網(wǎng)學習過程中相關基本問題(5分)能夠回答人工智能學習過程中相關基本問題。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對新一代信息技術應用場景進行分析的考評;(20分)新一代信息技術的體驗和分析的考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

任務三洞悉大數(shù)據(jù)的思維方式和工作流程任務清單工作任務洞悉大數(shù)據(jù)的思維方式和工作流程教學模式任務驅(qū)動建議學時2課時教學地點多媒體教室任務描述在大數(shù)據(jù)時代,數(shù)據(jù)就是一座“金礦”,而思維就是打開礦山大門的鑰匙,只有建立符合大數(shù)據(jù)時代發(fā)展的思維方式和工作方式,才能最大程度地挖掘大數(shù)據(jù)的潛在價值。那么,大數(shù)據(jù)的思維方式有哪些?相對于傳統(tǒng)的思維方式有什么不同呢?大數(shù)據(jù)的工作流程又是怎樣的呢?于是小王開始尋找這把礦山大門的鑰匙。任務目標了解傳統(tǒng)的思維方式;掌握大數(shù)據(jù)的思維方式特點;理解大數(shù)據(jù)思維方式的啟示;掌握大數(shù)據(jù)工作的基本流程;能區(qū)分大數(shù)據(jù)思維和傳統(tǒng)思維方式;能運用大數(shù)據(jù)的思維方式看待和分析問題;能認識大數(shù)據(jù)工作的基本流程和工作方式;能樹立大數(shù)據(jù)思維正確意識,警惕大數(shù)據(jù)思維陷阱,做新思維智者。關鍵詞機械思維、因果思維、總體思維、容錯思維、相關思維、大數(shù)據(jù)工作流程知識必備一、傳統(tǒng)的思維方式傳統(tǒng)的思維方式中用的最多的就是機械思維,即思辨的思想和邏輯推理的能力,通過這些從實踐中總結出基本的定理,然后通過邏輯繼續(xù)延申。機械思維的核心思想可以概括成確定性(或者可預測性)和因果關系。牛頓可以把所有天體運動的規(guī)律用幾個定律講清楚,并且應用到任何場合都是正確的,這就是確定性。加速度的大小取決于外力和物體本身的質(zhì)量,這是一種因果關系平常我們所說的“打破砂鍋問到底”是哪種思維方式?想一想知識必備一、傳統(tǒng)的思維方式1、并非所有的規(guī)律都可以用簡單的原理來描述;2、簡單的因果關系規(guī)律性都已經(jīng)被發(fā)現(xiàn),再像過去那樣找到因果關系已經(jīng)變得非常艱難;3、隨著人類對世界認識得越來越清楚,人們發(fā)現(xiàn)世界本身存在著很大的不確定性,并非過去想象的那樣一切都是可以確定的。機械思維的局限性也越來越明顯通過更多的信息來消除不確定性。例:人臉識別知識必備二、大數(shù)據(jù)思維方式大數(shù)據(jù),不僅是一次技術革命,同時也是一次思維革命。知識必備在大數(shù)據(jù)時代,隨著數(shù)據(jù)收集、處理、存儲、分析技術的突破性發(fā)展,我們可以更加方便、快捷、動態(tài)地獲得研究對象有關的所有數(shù)據(jù),而不再因諸多限制不得不采用樣本研究方法,相應地,思維方式也應該從之前的樣本思維轉向總體性思維,從而能夠更加直觀、全面、立體、系統(tǒng)地認識總體狀況。1、全樣而非抽樣二、大數(shù)據(jù)思維方式案例:互聯(lián)網(wǎng)的比價網(wǎng)站知識必備在大數(shù)據(jù)時代,得益于大數(shù)據(jù)技術的突破,大量的結構化、非結構化、異構化的數(shù)據(jù)能夠得到儲存、處理、計算和分析,這極大提升了我們從海量數(shù)據(jù)中獲取知識和洞見的能力。大數(shù)據(jù)時代采用全樣分析,全樣分析結果就不存在誤差被放大的問題。因此追求精確性已經(jīng)不是其首要目標。相反,大數(shù)據(jù)時代的“秒級響應”的特征,要求在幾秒鐘內(nèi)迅速給出海量數(shù)據(jù)的分析結果,否則就會喪失數(shù)據(jù)的價值,因此,數(shù)據(jù)分析的效率成為關注的核心。在大數(shù)據(jù)時代,思維方式要從精確思維轉向容錯性思維。2、效率而非精確二、大數(shù)據(jù)思維方式案例:谷歌翻譯知識必備在大數(shù)據(jù)時代,人們可以通過大數(shù)據(jù)挖掘技術,挖掘與分析出事物之間隱蔽的關聯(lián)關系,獲得更多的認知與洞見,運用這些認知與洞見就可以幫助我們捕捉現(xiàn)在和預測未來,而建立在關聯(lián)關系分析基礎上的預測分析正是大數(shù)據(jù)的核心議題之一。思維方式要從因果思維轉向相關思維,努力顛覆千百年來人類形成的傳統(tǒng)思維模式和固有偏見,才能更好地分享大數(shù)據(jù)帶來的深刻洞見。3、相關而非因果二、大數(shù)據(jù)思維方式案例:“啤酒與尿布”的故事知識必備“以數(shù)據(jù)為中心”是一種思維方式,也是一種技術架構。其核心思想在于:承認數(shù)據(jù)的價值,正視它在大型企業(yè)和行業(yè)生態(tài)中的多功能角色,并將信息視為企業(yè)架構的核心資產(chǎn)。與傳統(tǒng)“以應用為中心”的技術相反,在以數(shù)據(jù)為中心的架構中,數(shù)據(jù)是獨立于單一應用程序而存在的,可以為廣泛的利益相關者提供支持。4、以數(shù)據(jù)為中心二、大數(shù)據(jù)思維方式案例:搜索引擎的關鍵詞廣告知識必備三、大數(shù)據(jù)思維方式的啟示1.建立以大數(shù)據(jù)整體性為支撐的總體思維2.建立以大數(shù)據(jù)多樣性為支撐的容錯思維3.建立以大數(shù)據(jù)關聯(lián)性為支撐的相關思維4.建立以大數(shù)據(jù)開放性為支撐的智能思維知識必備四、警惕大數(shù)據(jù)思維的陷阱2、數(shù)據(jù)有效性偏差易帶來數(shù)據(jù)誤導在大數(shù)據(jù)時代,人們盲目樂觀地獲得由大數(shù)據(jù)分析所得出的結果,忽視了“沉默的證據(jù)”,也就是說“有數(shù)不一定要據(jù)”。數(shù)據(jù)并不天然意味著真實,數(shù)據(jù)源影響數(shù)據(jù)質(zhì)量,互聯(lián)網(wǎng)的開放性、匿名性使得數(shù)據(jù)源模糊,數(shù)據(jù)真假難辯。另外,有些大數(shù)據(jù)應用收集的數(shù)據(jù)非常多,但對其傾向性卻不清楚,也就是說我們收集到的數(shù)據(jù)可能是“大而不全”。大數(shù)據(jù)更關注相關關系而忽略因果關系,甚至人們認為相關關系可以取代因果關系。大數(shù)據(jù)告訴人們的只是“是什么”而不是“為什么”,這往往使得人們陷入“知其然而不知其所以然”的窘境。1.主觀認知偏差易帶來數(shù)據(jù)偏見3、數(shù)據(jù)相關與因果相關的模糊帶來結論偏差知識必備五、大數(shù)據(jù)工作流程大數(shù)據(jù)的處理過程,其實就是利用合適的工具采集數(shù)據(jù)源,按照一定的標準對其存儲,再利用相關的數(shù)據(jù)分析技術進行分析,從而提取出有價值的數(shù)據(jù)展示給客戶。大數(shù)據(jù)的工作流程主要包括大數(shù)據(jù)采集與預處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)分析和挖掘、大數(shù)據(jù)可視化、數(shù)據(jù)安全和隱私保護等幾個層面的內(nèi)容。大數(shù)據(jù)時代來臨,那么怎樣開展大數(shù)據(jù)工作呢?知識必備五、大數(shù)據(jù)工作流程數(shù)據(jù)無處不在,網(wǎng)站、政務系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、企業(yè)業(yè)務系統(tǒng)、監(jiān)控攝像頭、傳感器等,每時每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù)需要采用相應的設備或軟件進行采集。采集到的數(shù)據(jù)通常無法直接用于后續(xù)的數(shù)據(jù)分析,因為對于來源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語義模糊等問題是不可避免的,所以必須采取相應措施解決這些問題,這就需要一個被稱為“數(shù)據(jù)預處理”的過程,把數(shù)據(jù)變成一個可用的狀態(tài)。數(shù)據(jù)經(jīng)過預處理后,會被存放到文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中進行存儲與管理,然后采用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行分析處理,最后采用可視化工具為用戶呈現(xiàn)結果。在整個數(shù)據(jù)處理過程中,貫穿始終的還必須注意隱私保護和數(shù)據(jù)安全問題。學習感悟大數(shù)據(jù),不僅是一次技術革命,也是一次思維革命。只有思維升級了,才可能在這個時代透過數(shù)據(jù)看世界,比別人看得更加清晰,從而在大數(shù)據(jù)時代有所成就。大數(shù)據(jù)成為各行各業(yè)發(fā)展的方向,無論是在新興的人工智能,還是傳統(tǒng)的制造業(yè),以及中間的電子商務等。通過大數(shù)據(jù)的分析與使用,市場越來越清晰,產(chǎn)品越來越準確,服務越來越人性化。大數(shù)據(jù)時代,主動擁抱和融入大數(shù)據(jù)熱潮,具備大數(shù)據(jù)思維,推崇大數(shù)據(jù)的應用,才能不斷煥發(fā)生機和活力,為我們帶來了相當?shù)谋憷?。但是凡事都有兩面性,我們在享受大?shù)據(jù)優(yōu)點的同時,也要警惕大數(shù)據(jù)思維的陷阱。網(wǎng)絡發(fā)展帶來了言論的自由,也帶來了個性的釋放。網(wǎng)絡上大多數(shù)人傳播、推崇的并不一定是對的,這種足不出戶獲得的海量信息里面還是蘊藏了巨大的不確定性。警惕大數(shù)據(jù)思維的陷阱,做個新時代思維的智者。任務實訓1.掃教材上對應二維碼針對必備知識進行在線測試。2.請根據(jù)自己的生活實踐舉出一個大數(shù)據(jù)思維的典型案例。3.描述大數(shù)據(jù)工作的基本流程步驟和各步驟主要功能作用。任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答和區(qū)分各種思維方式;(5分)能夠總結大數(shù)據(jù)思維方式的啟示;(5分)能夠回答大數(shù)據(jù)工作的基本流程。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

生活中大數(shù)據(jù)思維案例分析的考評;(20分)大數(shù)據(jù)工作流程的考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

任務四探究大數(shù)據(jù)的影響任務清單工作任務探究大數(shù)據(jù)的影響教學模式任務驅(qū)動建議學時2課時教學地點多媒體教室任務描述當前,數(shù)字經(jīng)濟已經(jīng)成為世界經(jīng)濟發(fā)展的主角之一,并進入高速增長的快車道。大數(shù)據(jù)作為數(shù)字經(jīng)濟的核心生產(chǎn)要素,對社會生產(chǎn)和人們生活的方方面面產(chǎn)生影響,特別是對科學研究方法,社會發(fā)展的決策方式、治理途徑以及行業(yè)之間融合創(chuàng)新,人才的培養(yǎng)和就業(yè)市場都帶來巨大的影響。為了更好地走進大數(shù)據(jù),深入學習大數(shù)據(jù),小王擬分析和探究大數(shù)據(jù)具體的影響。任務目標了解大數(shù)據(jù)對科學研究的影響;熟悉科學研究的四種范式;理解大數(shù)據(jù)對社會發(fā)展的影響;了解大數(shù)據(jù)在社會發(fā)展中的一些應用案例;掌握大數(shù)據(jù)對就業(yè)市場的影響;掌握大數(shù)據(jù)對人才培養(yǎng)的影響;能從一些大數(shù)據(jù)應用案例中分析大數(shù)據(jù)對社會的影響;能正確看待大數(shù)據(jù)對就業(yè)和人才培養(yǎng)的影響,主動調(diào)整和適應這種變化;具備對大數(shù)據(jù)應用的探索意識,擁抱大數(shù)據(jù)的意識;能通過探究大數(shù)據(jù)的影響,知道國家需要什么樣的人才,樹立正確的職業(yè)觀。關鍵詞科學研究、大數(shù)據(jù)決策、大數(shù)據(jù)應用、大數(shù)據(jù)+、就業(yè)、人才培養(yǎng)知識必備一、大數(shù)據(jù)對科學研究的影響大數(shù)據(jù)在科學研究上的影響,最根本的價值在于為人類提供了認識復雜系統(tǒng)的新思維和新手段。圖靈獎獲得者,著名數(shù)據(jù)庫專家JimGray博士認為,人類自古以來在科學研究上先后經(jīng)歷了實驗、理論、計算和數(shù)據(jù)4種范式。實驗在最初的科學研究階段,人類采用實驗來解決一些科學問題,如伽利略在比薩斜塔上做了“兩個鐵球同時落地”的實驗,得出了著名“伽利略落體定律”。知識必備一、大數(shù)據(jù)對科學研究的影響大數(shù)據(jù)在科學研究上的影響,最根本的價值在于為人類提供了認識復雜系統(tǒng)的新思維和新手段。圖靈獎獲得者,著名數(shù)據(jù)庫專家JimGray博士認為,人類自古以來在科學研究上先后經(jīng)歷了實驗、理論、計算和數(shù)據(jù)4種范式。實驗科學的研究會受到實驗條件的限制,于是,隨著科學的進步,人類開始采用各種數(shù)學、幾何、物理等理論,構建問題模型和解決方案,如牛頓定律的形成就是理論科學的成果。理論知識必備一、大數(shù)據(jù)對科學研究的影響大數(shù)據(jù)在科學研究上的影響,最根本的價值在于為人類提供了認識復雜系統(tǒng)的新思維和新手段。圖靈獎獲得者,著名數(shù)據(jù)庫專家JimGray博士認為,人類自古以來在科學研究上先后經(jīng)歷了實驗、理論、計算和數(shù)據(jù)4種范式。隨著1946年人類歷史上第一臺計算機ENIAC的誕生,人類社會開始步入以“計算”為中心的全新時期,人們提出問題,再進行計算機模擬,然后收集數(shù)據(jù),通過計算來驗證。計算知識必備一、大數(shù)據(jù)對科學研究的影響大數(shù)據(jù)在科學研究上的影響,最根本的價值在于為人類提供了認識復雜系統(tǒng)的新思維和新手段。圖靈獎獲得者,著名數(shù)據(jù)庫專家JimGray博士認為,人類自古以來在科學研究上先后經(jīng)歷了實驗、理論、計算和數(shù)據(jù)4種范式。數(shù)據(jù)隨著互聯(lián)網(wǎng)發(fā)展,再加上物聯(lián)網(wǎng)和云計算的出現(xiàn),數(shù)據(jù)的不斷積累,數(shù)據(jù)的寶貴價值日益得到體現(xiàn)。在大數(shù)據(jù)環(huán)境下,一切將以數(shù)據(jù)為中心,從數(shù)據(jù)中發(fā)現(xiàn)問題,解決問題,大數(shù)據(jù)將成為科學工作者的保藏,推動科技創(chuàng)新。知識必備一、大數(shù)據(jù)對科學研究的影響針對實驗、理論、計算和數(shù)據(jù)4種科學范式各有哪些案例?想一想知識必備二、大數(shù)據(jù)對社會發(fā)展的影響數(shù)據(jù)經(jīng)濟時代,根據(jù)數(shù)據(jù)制定決策,已經(jīng)是大勢所趨。從20世紀90年代開始,數(shù)據(jù)倉庫和商務智能工具就開始大量用于企業(yè)決策,只是數(shù)據(jù)倉庫以關系數(shù)據(jù)庫為基礎,數(shù)據(jù)類型和數(shù)據(jù)量還存在比較大的限制?,F(xiàn)今,大數(shù)據(jù)決策可以面向類型繁多的、非結構化的海量數(shù)據(jù)進行決策分析,已經(jīng)成為流行的全新決策方式。1、大數(shù)據(jù)決策成為一種新的決策方式案例:“雙減”之下輿情分析知識必備二、大數(shù)據(jù)對社會發(fā)展的影響大數(shù)據(jù)是提升國家治理能力的新途徑,政府可以通過大數(shù)據(jù)弄清政治、經(jīng)濟、社會事務中傳統(tǒng)技術難以展現(xiàn)的關聯(lián)關系,并對事物的發(fā)展趨勢做出準確預測,從而在復雜情況下做出合理,優(yōu)化的決策;大數(shù)據(jù)是促進經(jīng)濟轉型增長的新引擎,大數(shù)據(jù)與實體經(jīng)濟深度融合,將大幅度推動傳統(tǒng)產(chǎn)業(yè)提質(zhì)增效,促進經(jīng)濟轉型,催生新業(yè)態(tài),同時,對大數(shù)據(jù)的采集、管理、交易、分析等業(yè)務也正在成長為巨大的新興市場;大數(shù)據(jù)是提升社會公共服務能力的新手段,通過打通政府、公共服務部門的數(shù)據(jù),促進數(shù)據(jù)流轉共享,將有效促進行政審批事物的簡化,提高公共服務的效率,更好地服務民生,提升人民群眾的獲得感和幸福感。2、大數(shù)據(jù)成為提升國家治理能力的新途徑案例:面對新冠肺炎疫情防控,大數(shù)據(jù)提升國家治理能力的作用知識必備二、大數(shù)據(jù)對社會發(fā)展的影響有專家指出,大數(shù)據(jù)將會在未來10年改變幾乎每一個行業(yè)的業(yè)務功能?;ヂ?lián)網(wǎng)、銀行、保險、交通、材料、能源、服務等行業(yè)領域,不斷積累的大數(shù)據(jù)將加速推進行業(yè)與信息技術的深度融合,開拓行業(yè)發(fā)展的新方向。3、大數(shù)據(jù)應用促進信息技術與各行業(yè)的深度融合知識必備二、大數(shù)據(jù)對社會發(fā)展的影響大數(shù)據(jù)的應用開發(fā),是大數(shù)據(jù)新技術開發(fā)的源泉。在各種應用需求的強烈驅(qū)動下,各種突破性的大數(shù)據(jù)技術將被不斷提出并得到廣泛應用,數(shù)據(jù)的量能也將不斷得到釋放。在不遠的將來,原來那些依靠人類自身判斷力的應用,將逐漸被各種基于大數(shù)據(jù)的應用所取代。4、大數(shù)據(jù)開發(fā)推動新技術和新應用的不斷涌現(xiàn)知識必備三、大數(shù)據(jù)對就業(yè)市場的影響在就業(yè)市場上,一方面大數(shù)據(jù)的興起使得數(shù)據(jù)分析師、數(shù)字管理師、數(shù)字營銷師等成為熱門職業(yè)?;ヂ?lián)網(wǎng)企業(yè)和零售、金融類企業(yè)都在積極爭奪大數(shù)據(jù)人才。隨機抽取招聘網(wǎng)站[[招聘網(wǎng)站指:智聯(lián)招聘、獵聘網(wǎng)、前程無憂、Boss直聘、拉勾網(wǎng)]2019年至今的招聘數(shù)據(jù),分析發(fā)現(xiàn)目前市場上和數(shù)據(jù)相關的崗位主要劃分為兩類:純數(shù)據(jù)崗位和數(shù)據(jù)賦能崗位知識必備三、大數(shù)據(jù)對就業(yè)市場的影響另一方面,大數(shù)據(jù)技術應用為大學生精準就業(yè)帶來了新機遇,指明了大學生的就業(yè)方向,為就業(yè)指導提供了科學依據(jù)。通過對大數(shù)據(jù)的應用,構建大學生精準就業(yè)機制,對大學生就業(yè)進行精準定位、分析、培訓、匹配、對接、幫扶、跟蹤等,能實現(xiàn)大學生的高質(zhì)量就業(yè)。政府也可通過大數(shù)據(jù)實現(xiàn)人才政策發(fā)布的個性化、精準化服務;企業(yè)也可通過就業(yè)市場大數(shù)據(jù)的應用招聘到合適人員。知識必備四、大數(shù)據(jù)對人才培養(yǎng)的影響1、大數(shù)據(jù)將改變高校信息技術相關專業(yè)的現(xiàn)有教學和科研體制一方面,數(shù)據(jù)科學家是一個需要掌握統(tǒng)計、數(shù)學、機器學習、可視化、編程等多方面知識的復合型人才,在中國高?,F(xiàn)有的學科和專業(yè)設置中,上述專業(yè)知識分布在數(shù)學、統(tǒng)計和計算機等多個學科中,任何一個學科都只能培養(yǎng)某個方向的專業(yè)人才,無法培養(yǎng)全面掌握數(shù)據(jù)科學相關知識的復合型人才。另一方面,數(shù)據(jù)科學家需要大數(shù)據(jù)應用實戰(zhàn)環(huán)境,在真正的大數(shù)據(jù)環(huán)境中不斷學習、實踐并融會貫通,將自身技術背景與所在行業(yè)業(yè)務需求進行深度融合,從數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,但是,目前大多高校還不具備這種培養(yǎng)環(huán)境,不僅缺乏大規(guī)?;A數(shù)據(jù),也缺乏對領域業(yè)務需求的理解。知識必備四、大數(shù)據(jù)對人才培養(yǎng)的影響2、大數(shù)據(jù)對傳統(tǒng)的工科類、商科類、文科類等專業(yè)人才培養(yǎng)帶來大的沖擊目前社會上提的“新工科”、“新商科”、“新文科”實際上就是傳統(tǒng)工科、商科、文科與大數(shù)據(jù)等信息技術的結合。傳統(tǒng)的工科、商科、文科類專業(yè)是按照工具型人才培養(yǎng)標準的教育理念來設置,基于勞動分工理論,強調(diào)各個科目由單一、獨特的內(nèi)容組成,各學科相對獨立、封閉、自成體系。隨著時代的進步,僅僅關注財務知識或物流管理知識本身已經(jīng)解決不了問題,還需要進一步了解行業(yè)發(fā)展現(xiàn)狀甚至國際、國內(nèi)市場的競爭態(tài)勢,還需要會使用大數(shù)據(jù)等新一代信息技術。學習感悟大數(shù)據(jù)能推動科技創(chuàng)新,能帶來巨大經(jīng)濟效益,能夠增強社會管理水平,大數(shù)據(jù)作為一種新的資源,給我們的社會生活帶來深遠影響。隨著數(shù)字化轉型不斷提速,大數(shù)據(jù)給我們帶來的實惠將會越來越多。然而,在數(shù)字化轉型過程中,數(shù)字化人才缺口成為了困擾企業(yè)轉型與發(fā)展的大問題,大數(shù)據(jù)的專門人才以及其它專業(yè)人才數(shù)字能力和數(shù)字素養(yǎng)的剛需已經(jīng)成為社會共識。年輕人必須看清社會發(fā)展變化的趨勢,抓住社會變革的契機,在數(shù)字化大變革中搶抓先機,提升數(shù)字素養(yǎng)、學習數(shù)字技術,為自己贏得更好的發(fā)展機遇。任務實訓1.掃教材上對應二維碼針對必備知識進行在線測試。2.選擇一個自己喜歡或熟悉行業(yè),分析大數(shù)據(jù)對它帶來的影響。3.聯(lián)系自身專業(yè)進行分析回答為什么應該加強數(shù)字能力、數(shù)字素養(yǎng)的培養(yǎng)?任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答大數(shù)據(jù)對科學研究的影響;(5分)能夠按大數(shù)據(jù)對社會發(fā)展帶來的影響;(5分)能夠回答大數(shù)據(jù)對就業(yè)和人才培養(yǎng)的影響。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

舉例說明大數(shù)據(jù)對社會帶來的影響的考評;(20分)描述專業(yè)應如何加強數(shù)字能力和數(shù)字素養(yǎng)的培養(yǎng)考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

項目小結通過本項目,讀者應該掌握的理論知識如下:數(shù)據(jù)、大數(shù)據(jù)概念,數(shù)據(jù)的類型,大數(shù)據(jù)特征。云計算機、物聯(lián)網(wǎng)、人工智能內(nèi)涵以及它們與大數(shù)據(jù)的關系。傳統(tǒng)思維方式、大數(shù)據(jù)思維方式各有哪些,大數(shù)據(jù)的基本工作流程。大數(shù)據(jù)的基本工作流程。通過本項目,讀者應該掌握的技能如下:能夠運用大數(shù)據(jù)相關基礎知識,做好數(shù)據(jù)分析的全面準備工作;能夠使用大數(shù)據(jù)的思維模式去思考問題、分析問題。能針對大數(shù)據(jù)對科技、社會發(fā)展、就業(yè)、人才培養(yǎng)的影響進行分析。復習與鞏固1.簡單描述大數(shù)據(jù)的主要特征。2.分析大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、人工智能的關系3.有哪些傳統(tǒng)思維方式和大數(shù)據(jù)思維方式?請針對每種思維方式各舉一案例。4.簡單描述大數(shù)據(jù)的基本工作流程5.簡要回答大數(shù)據(jù)是怎樣催生“新經(jīng)濟”的?6.結合實際生活,談一談大數(shù)據(jù)的社會價值主要體現(xiàn)在哪些方面。謝謝聆聽THANKYOUFORYOURATTENTION大數(shù)據(jù)基礎項目二

數(shù)據(jù)采集與預處理項目簡介大隨著網(wǎng)絡和信息技術的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)增長,差不多每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。面對如此巨大的數(shù)據(jù),如何收集這些數(shù)據(jù),并且進行清洗、轉換為有效的數(shù)據(jù)呢?這是每一個大數(shù)據(jù)應用者首先要遇到的。本項目將帶領你認識數(shù)據(jù)采集的數(shù)據(jù)來源、數(shù)據(jù)采集方法,評估數(shù)據(jù)質(zhì)量,識別臟數(shù)據(jù),掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。學習目標知識目標1.理解數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約的基本概念;2.熟悉數(shù)據(jù)采集來源和常用的數(shù)據(jù)采集方法;3.熟悉數(shù)據(jù)質(zhì)量的影響因素和數(shù)據(jù)質(zhì)量的評估標準3.熟悉常見“臟數(shù)據(jù)”類型;4.掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。能力目標1.能根據(jù)數(shù)據(jù)采集需求選定數(shù)據(jù)來源和采集方法;2.能夠使用網(wǎng)絡爬蟲等數(shù)據(jù)采集工具采集數(shù)據(jù);3.能夠分析數(shù)據(jù)質(zhì)量影響因素,評估數(shù)據(jù)質(zhì)量;4.能對數(shù)據(jù)進行一般的數(shù)據(jù)清洗、集成、變換和歸約處理。。素質(zhì)目標1.養(yǎng)成做事條理清晰、對數(shù)據(jù)保持懷疑、善于發(fā)現(xiàn)的工作作風;2.養(yǎng)成對數(shù)據(jù)采集、預處理過程的細心、客觀職業(yè)方式。。思政目標培養(yǎng)大數(shù)據(jù)采集與預處理中的數(shù)據(jù)采集人員職業(yè)倫理操守,以及對數(shù)據(jù)采集、數(shù)據(jù)預處理過程中的遵紀守法。思維導圖任務一數(shù)據(jù)采集任務清單工作任務數(shù)據(jù)采集教學模式任務驅(qū)動建議學時2課時教學地點一體化教室任務描述小王還有一年大學畢業(yè),為了使自己畢業(yè)找工作更有競爭力,聽人說,數(shù)字經(jīng)濟時代,數(shù)據(jù)分析類崗位應該會有前景。于是他想考一個“數(shù)據(jù)分析員”技能等級證書,但小王對這個崗位的市場前景、熱度、競爭力都還只是道聽途說,他想通過網(wǎng)絡采集數(shù)據(jù)來進行分析,那么小王應該采集什么數(shù)據(jù)?在哪里采集數(shù)據(jù)?用什么工具來采集呢?任務目標理解數(shù)據(jù)采集概念;掌握數(shù)據(jù)采取流程;熟悉數(shù)據(jù)采集來源渠道;掌握數(shù)據(jù)采集常用方法;能根據(jù)數(shù)據(jù)采集的需求識別,選取數(shù)據(jù)獲取渠道;能根據(jù)不同的數(shù)據(jù)渠道和數(shù)據(jù)類型選用合適的采取方法;能熟練使用八爪魚等網(wǎng)絡爬蟲工具采集數(shù)據(jù);養(yǎng)成條理清晰、細心的工作作風;養(yǎng)成合規(guī)合法的數(shù)據(jù)采集的職業(yè)操守。關鍵詞數(shù)據(jù)采集、數(shù)據(jù)來源、采集方法、網(wǎng)絡爬蟲知識必備一、什么是數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是大數(shù)據(jù)工作的入口,也是數(shù)據(jù)分析過程中相當重要的一個環(huán)節(jié),它通過各種技術手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實時或非實時地采集并加以利用。相比傳統(tǒng)數(shù)據(jù)采集,大數(shù)據(jù)采集在數(shù)據(jù)源上,大數(shù)據(jù)采集的來源更廣泛,數(shù)據(jù)量巨大;在數(shù)據(jù)類型上,大數(shù)據(jù)采集的數(shù)據(jù)類型更豐富。知識必備二、數(shù)據(jù)采集需求識別針對不同的需求,我們需要組合不同的數(shù)據(jù)進行分析。從多角度考慮設計。如分析宏觀背景,可以從年代變化、地區(qū)差異、政策方面搜集數(shù)據(jù);分析微觀事件,可以從媒體關注、網(wǎng)民討論、時間節(jié)點、擴散路徑等方面搜集數(shù)據(jù);評價品牌營銷效果,可以從目標達成率、最終銷售額、用戶增長情況、用戶評價等方面搜集數(shù)據(jù);了解平臺運營質(zhì)量,可以從網(wǎng)站訪問情況、登錄用戶數(shù)、內(nèi)容閱讀、互動評價等方面搜集數(shù)據(jù)。確定分析方向明確數(shù)據(jù)需求多渠道獲取數(shù)據(jù)如何接受數(shù)據(jù)混雜的現(xiàn)實,在海量的數(shù)據(jù)中找到我們需要的數(shù)據(jù)?知識必備二、數(shù)據(jù)采集需求識別全面性多維性高效性全面性是指的采集的數(shù)據(jù)量足夠大具有分析價值,數(shù)據(jù)面足夠全支撐分析需求。數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標。高效性包含技術執(zhí)行的高效性、團隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標實現(xiàn)的高效性。也就是說采集數(shù)據(jù)一定要明確采集目的,帶著問題、帶著需求搜集信息,使采集更高效、更有針對性。在進行具體數(shù)據(jù)采集時,需要考慮以下3個要點知識必備三、數(shù)據(jù)采集來源1、互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指用戶參與和使用社交平臺、系統(tǒng)、軟件產(chǎn)生的數(shù)據(jù),以及互聯(lián)網(wǎng)平臺發(fā)布的數(shù)據(jù)。目前被用戶使用的主流的互聯(lián)網(wǎng)平臺數(shù)量眾多,比如微信、微博、抖音、QQ、百度貼吧;各個門戶新聞網(wǎng)站,如今日頭條、新浪,等等。在用戶訪問網(wǎng)站期間,其行為會產(chǎn)生大量的數(shù)據(jù),比如利用電子郵件發(fā)送消息,上傳文字文檔來表述自己的想法與思考,上傳圖片記錄自己喜愛的瞬間,上傳音頻或是視頻來記錄身邊生活,這些通過不同的社交平臺或是門戶網(wǎng)站所產(chǎn)生的不同格式的數(shù)據(jù)。知識必備三、數(shù)據(jù)采集來源2、日志數(shù)據(jù)許多公司的業(yè)務平臺每天都會產(chǎn)生大量的日志文件數(shù)據(jù)。日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動,比如網(wǎng)絡監(jiān)控的流量管理、金融應用的支付記賬和Web服務器記錄的用戶訪問行為。通過對這些日志信息進行采集,然后進行數(shù)據(jù)分析,就可以從公司業(yè)務平臺日志數(shù)據(jù)中挖掘得到具有潛在價值的信息,為公司決策和公司后臺服務器平臺性能評估提供可靠的數(shù)據(jù)保證。知識必備三、數(shù)據(jù)采集來源3、企業(yè)業(yè)務系統(tǒng)數(shù)據(jù)許多公司使用的業(yè)務處理系統(tǒng)也會產(chǎn)生大量的業(yè)務系統(tǒng)數(shù)據(jù)。如,企業(yè)資源計劃、客戶關系管理、供應鏈管理、人力資源管理、財務系統(tǒng)、等等。這些數(shù)據(jù)一般會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲,除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的存儲。企業(yè)每天產(chǎn)生的業(yè)務數(shù)據(jù),會以數(shù)據(jù)庫記錄形式被直接寫入到數(shù)據(jù)庫中。這些業(yè)務系統(tǒng)中的數(shù)據(jù)可以滿足企業(yè)的各種商務決策分析需求。知識必備三、數(shù)據(jù)采集來源4、傳感器數(shù)據(jù)傳感器數(shù)據(jù)是指利用物聯(lián)網(wǎng)采集原始數(shù)據(jù)。利用物聯(lián)網(wǎng),數(shù)據(jù)可以來自醫(yī)療設備、監(jiān)控設備、辦公設備、車輛、視頻游戲、儀表數(shù)據(jù)、照相機以及各種家用電器。如常見的監(jiān)控設備采集圖像、視頻信息,話筒獲取聲音信息,掃描器讀取物體尺寸信息,還有各式傳感器采集氣壓、溫度、濕度等信息。物聯(lián)網(wǎng)的目標是將眾多的實體整合進互聯(lián)網(wǎng)內(nèi),從而分享數(shù)據(jù)、分析數(shù)據(jù),提供更好的用戶體驗。知識必備四、數(shù)據(jù)采集方法1、網(wǎng)絡爬蟲對于互聯(lián)網(wǎng)web數(shù)據(jù)的采集,主要通過網(wǎng)絡爬蟲來進行采集。爬蟲是指為搜索引擎下載并存儲網(wǎng)頁的程序,是搜索引擎和Web緩存等的主要數(shù)據(jù)采集方式。網(wǎng)絡爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。當前使用較多的網(wǎng)絡爬蟲工具主要有Python、八爪魚采集器、火車采集器等工具。網(wǎng)絡爬蟲技術作為一種重要的數(shù)據(jù)采集手段,已經(jīng)廣泛應用于互聯(lián)網(wǎng)的諸多領域,但是爬蟲技術的應用具有違法性邊界。知識鏈接:涉網(wǎng)絡爬蟲的刑法案件及刑事法律規(guī)制知識必備四、數(shù)據(jù)采集方法1、網(wǎng)絡爬蟲使用網(wǎng)絡爬蟲工具—八爪魚采集器八爪魚采集教程/tutorialIndex8知識必備四、數(shù)據(jù)采集方法2、日志采集系統(tǒng)日志數(shù)據(jù)的采集通常通過日志采集系統(tǒng)自動完成,很多互聯(lián)網(wǎng)企業(yè)都有自己的日志采集系統(tǒng),如Facebook的Scribe、Clouders的Flume、Hadoop的Chukwa等。日志數(shù)據(jù)采集也可以通過第三方平臺來獲取,如CNZZ數(shù)據(jù)專家網(wǎng)站。日志采集系統(tǒng)要做的事情就是實時采集業(yè)務日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。高可用性、高可靠性、和可擴展性是日志采集系統(tǒng)所具有的基本特征。知識必備四、數(shù)據(jù)采集方法3、數(shù)據(jù)庫采集互聯(lián)網(wǎng)產(chǎn)品后端、企業(yè)的內(nèi)部業(yè)務系統(tǒng)都有業(yè)務數(shù)據(jù)庫,其中存儲了銷售量、訂單量、購買用戶數(shù)、粉絲數(shù)、閱讀數(shù)等指標數(shù)據(jù)。例如,淘寶網(wǎng)店、微信公眾號、微博平臺等的后臺。數(shù)據(jù)庫采集系統(tǒng)通過直接與企業(yè)后臺服務器結合,可以直接采集業(yè)務后臺產(chǎn)生的大量業(yè)務記錄,并交由特定的處理系統(tǒng)進行系統(tǒng)分析。目前比較常見的數(shù)據(jù)庫采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。在從各類專業(yè)數(shù)據(jù)庫中采集數(shù)據(jù)時,隨著業(yè)務的不斷實施,數(shù)據(jù)庫中的數(shù)據(jù)一直在不斷變化,此時從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有全量數(shù)據(jù)抽取和增量數(shù)據(jù)抽取兩種方式。全量數(shù)據(jù)抽取是指將數(shù)據(jù)庫中的全部數(shù)據(jù)抽取出來,而增量數(shù)據(jù)抽取是指僅抽取最近一次抽取后數(shù)據(jù)庫中有變化的部分。知識必備四、數(shù)據(jù)采集方法4、傳感器采集傳感器是一種能將感受到的聲音、溫度、壓力、電流、振動和距離等類型的信息,按一定規(guī)律轉換為電信號或其他形式的信息輸出的裝置,常用于獲取各種信息,特點是數(shù)字化、多功能化、系統(tǒng)化、智能化和網(wǎng)絡化。傳感器采集方式一般是通過選擇設備、設定參數(shù)可實時自動采集到目標數(shù)據(jù)。通過智能感知、識別技術與普適計算等通信感知技術,將測量所得的物理變量的測量值轉化為數(shù)字信號、傳送到數(shù)據(jù)采集點。知識必備四、數(shù)據(jù)采集方法5、第三方統(tǒng)計平臺數(shù)據(jù)采集隨著大數(shù)據(jù)應用的推進,在一些專業(yè)二手平臺上,網(wǎng)售大數(shù)據(jù)采集和定制業(yè)務頗為盛行。有些從事信息販賣的“商家”,正大肆兜售著覆蓋諸多行業(yè)的用戶信息,內(nèi)容頗為龐雜,可謂五花八門,無所不包。有的還明碼標價,成行成市。這些人打著“專業(yè)定制”的旗號,無論需要哪類信息,只要客戶提出要求,其都能從網(wǎng)上為你采集到。這些數(shù)據(jù)商的背后隱藏著一條非法獲取用戶數(shù)據(jù)的產(chǎn)業(yè)鏈。他們通過專業(yè)的“爬蟲軟件”非法爬取,或者通過私設監(jiān)控、不正規(guī)渠道買賣數(shù)據(jù)等,采集各類個人信息及實時數(shù)據(jù),經(jīng)過匯總、整理然后生成所謂大數(shù)據(jù)產(chǎn)品出售。這些行為是否合法?如果任由此類行業(yè)繼續(xù)發(fā)展,將會帶來怎樣的后果?想一想知識鏈接:警惕非法數(shù)據(jù)采集和數(shù)據(jù)交易行為課堂思政學習感悟數(shù)據(jù)采集是大數(shù)據(jù)產(chǎn)業(yè)的基石,只有全面、多維、高效地進行數(shù)據(jù)采集,大數(shù)據(jù)才具有它應有的商業(yè)價值。因此一方面要廣開數(shù)據(jù)采集的來源渠道,另一方面選擇合適的采集方法。同時,在進行數(shù)據(jù)采集過程中,要做到合法合規(guī)采集。站在數(shù)據(jù)場景的角度,與數(shù)據(jù)有關的主體可以分為數(shù)據(jù)主體、數(shù)據(jù)控制者和數(shù)據(jù)處理者。在具體的商業(yè)場景中,由于數(shù)據(jù)采集者、處理者、運營者、交易者等多個主體混雜在各個交易流程中,背后隱藏著多種商業(yè)訴求,很容易發(fā)生爭議。因此,從嚴管控非必要采集數(shù)據(jù)行為,依法依規(guī)打擊黑市數(shù)據(jù)交易行為是非常必要的。任務實訓1.掃教材上對應二維碼針對必備知識進行在線測試。2.針對任務描述中小王的需求,聯(lián)系所學的數(shù)據(jù)采集知識,回答以下問題:①小王數(shù)據(jù)采集的需求是什么?②小王需采集什么樣數(shù)據(jù)?③小王采集數(shù)據(jù)的來源渠道有哪些?④小王采集數(shù)據(jù)可使用的工具有哪些?3.使用網(wǎng)絡爬蟲工具—八爪魚采集器來采集BOSS直聘網(wǎng)站中“數(shù)據(jù)分析師”相關的招聘信息,需要采集到公司名稱、成立時間、法人代表、招聘職位、月薪等數(shù)據(jù),可以通過公司詳情頁內(nèi)容來采集。任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答數(shù)據(jù)采集流程;(5分)能夠回答數(shù)據(jù)來源的各種渠道;(5分)能夠理解和回答各種類型數(shù)據(jù)的采取方法。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對任務描述中小王數(shù)據(jù)采集思路判斷的考評;(20分)使用八爪魚采集數(shù)據(jù)實際操作的考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

任務二數(shù)據(jù)質(zhì)量評估任務清單工作任務數(shù)據(jù)質(zhì)量評估教學模式任務驅(qū)動建議學時2課時教學地點一體化教室任務描述人們在采集數(shù)據(jù)的同時會由于各種各樣的原因,也會附帶各種數(shù)據(jù)的質(zhì)量問題,而數(shù)據(jù)質(zhì)量的高低對工業(yè)、經(jīng)濟、生活等社會的方方面面會產(chǎn)生重大影響,數(shù)據(jù)質(zhì)量問題很有可能導致最終決策錯誤,造成惡劣的后果,嚴重困擾著信息社會。那么數(shù)據(jù)質(zhì)量的影響因素有哪些?具體的評估標準是什么?遇到數(shù)據(jù)質(zhì)量問題我們應該怎么做?小王急需解決以上問題。任務目標了解影響數(shù)據(jù)質(zhì)量的因素;掌握數(shù)據(jù)存在的常見問題;掌握評估數(shù)據(jù)質(zhì)量的標準;掌握針對數(shù)據(jù)質(zhì)量問題進行的數(shù)據(jù)預處理方法;能檢測和判斷數(shù)據(jù)質(zhì)量問題;能根據(jù)數(shù)據(jù)存在質(zhì)量問題選用對應預處理方法;具備對數(shù)據(jù)質(zhì)量檢測判斷的嚴謹和細致的素養(yǎng)。關鍵詞影響因素、缺失數(shù)據(jù)、錯誤數(shù)據(jù)、重復數(shù)據(jù)、冗余數(shù)據(jù)、評估標準知識必備一、影響數(shù)據(jù)質(zhì)量的因素數(shù)據(jù)質(zhì)量反映的是數(shù)據(jù)的“適用性(fitnessforuse)”,即數(shù)據(jù)滿足使用需要的合適程度。數(shù)據(jù)質(zhì)量管理的目的是為企業(yè)提供潔凈、結構清晰的數(shù)據(jù),是企業(yè)開發(fā)業(yè)務系統(tǒng)、提供數(shù)據(jù)服務、發(fā)揮數(shù)據(jù)價值的必要前提,是企業(yè)數(shù)據(jù)資產(chǎn)管理的前提。影響數(shù)據(jù)質(zhì)量的因素有很多,數(shù)據(jù)質(zhì)量問題按照問題的來源和具體原因,可以分為信息、技術、流程、管理四個問題域。2.技術類問題信息類問題是由于對數(shù)據(jù)本身的描述理解及其度量標準的偏差而造成的數(shù)據(jù)質(zhì)量問題。產(chǎn)生這部分數(shù)據(jù)質(zhì)量問題的原因主要有:元數(shù)據(jù)描述及理解錯誤、數(shù)據(jù)度量的各種性質(zhì)得不到保證和變化頻度不恰當?shù)取<夹g類問題是指由于具體數(shù)據(jù)處理的各技術環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問題,它產(chǎn)生的直接原因是技術實現(xiàn)上的某種缺陷。1.信息類問題知識必備一、影響數(shù)據(jù)質(zhì)量的因素流程類問題是指由于系統(tǒng)作業(yè)流程和人工操作流程設置不當造成的數(shù)據(jù)質(zhì)量問題,主要來源于主題分析數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環(huán)節(jié)。管理類問題是指由于人員素質(zhì)及管理機制方面的原因造成的數(shù)據(jù)質(zhì)量問題,如人員管理、培訓和獎勵等方面的措施不當導致的管理缺失。3.流程類問題4.管理類問題上述數(shù)據(jù)質(zhì)量問題的影響因素分析,從側面展示了企業(yè)數(shù)據(jù)一次性達標的困難程度;也反映出關注數(shù)據(jù)質(zhì)量的重要性、以及數(shù)據(jù)質(zhì)量工作的零散和瑣碎的特點。信息、流程和技術三個方面的數(shù)據(jù)質(zhì)量問題相對來說,比較容易控制,有可能通過引入數(shù)據(jù)質(zhì)量管理體系和數(shù)據(jù)質(zhì)量管理系統(tǒng)得到改善;對于管理類的數(shù)據(jù)質(zhì)量問題,往往與企業(yè)對數(shù)據(jù)的理解和支持程度緊密相關,需要從數(shù)據(jù)規(guī)劃、數(shù)據(jù)治理的組織與職責、數(shù)據(jù)規(guī)范的制度和流程方面下功夫。知識必備二、數(shù)據(jù)存在的常見問題數(shù)據(jù)采集階段引起數(shù)據(jù)質(zhì)量問題的因素主要有兩點:數(shù)據(jù)來源和采集方法。數(shù)據(jù)來源一般分為直接來源和間接來源,直接來源主要指的是直接調(diào)查收集、科學實驗、業(yè)務系統(tǒng)直接生成、傳感器直接采集等方式直接獲取的數(shù)據(jù),由于是一手數(shù)據(jù),可信度相對來說比較高。間接來源主要是指他人通過調(diào)查或?qū)嶒灚@得的數(shù)據(jù),如從統(tǒng)計部門、第三方數(shù)據(jù)統(tǒng)計機構獲取的數(shù)據(jù),這種二手數(shù)據(jù)的質(zhì)量相對來說更難把握。在采集方法上,通過自動采集、減少中間環(huán)節(jié)和人為操作所獲得數(shù)據(jù)質(zhì)量相對來說質(zhì)量更高些。但不管怎樣,還是會出現(xiàn)數(shù)據(jù)采集設備異常、錄入數(shù)據(jù)錯誤、數(shù)據(jù)傳輸異常等問題所帶來的數(shù)據(jù)質(zhì)量問題。具體來說,采集過來的原始數(shù)據(jù)主要會存在以下幾個問題。知識必備二、數(shù)據(jù)存在的常見問題(一)重復數(shù)據(jù)重復數(shù)據(jù)一般可以分為兩類,一種是實體重復,就是指數(shù)據(jù)記錄的所有字段都重復;另一種是指某一個或多個不該重復的字段重復。例如,某快遞信息表中,快遞單號是可以唯一標識每條記錄的指標,結果發(fā)現(xiàn)某一個快遞單號出現(xiàn)了兩次,這就表示為重復數(shù)據(jù)。知識必備二、數(shù)據(jù)存在的常見問題(二)缺失數(shù)據(jù)缺失數(shù)據(jù)主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。缺失數(shù)據(jù)可能是由于數(shù)據(jù)錄入、存儲過程中的人為失誤和系統(tǒng)軟硬件問題,也有可能是由于數(shù)據(jù)采集中傳感器等采集設備出現(xiàn)故障沒有獲取到數(shù)據(jù)。缺失數(shù)據(jù)會影響分析結果的可信度,甚至使分析結果出現(xiàn)嚴重偏差。知識必備二、數(shù)據(jù)存在的常見問題(三)錯誤數(shù)據(jù)數(shù)據(jù)產(chǎn)生錯誤的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷而是直接寫入后臺數(shù)據(jù)庫造成的。錯誤數(shù)據(jù)分為兩種,一種是格式的錯誤,例如數(shù)值數(shù)據(jù)輸入成全角數(shù)字字符、字符串數(shù)據(jù)后面有回車操作、日期格式不正確、日期越界等。另一類是數(shù)值錯誤,通常也稱為異常值,是指所獲得數(shù)據(jù)與平均值的偏差超過兩倍的數(shù)據(jù),異常值產(chǎn)生的原因很多,例如錄入數(shù)據(jù)時誤將“80”錄入為“800”,那么當數(shù)據(jù)都為100左右的數(shù)據(jù),“800”就會被識別為異常值。知識必備二、數(shù)據(jù)存在的常見問題(四)冗余數(shù)據(jù)數(shù)據(jù)冗余一方面指多個數(shù)據(jù)集合并時同一條數(shù)據(jù)命名或者編碼方式不同,例如某數(shù)據(jù)集的變量名稱為“用戶編碼”而在另一個數(shù)據(jù)集中為“ID”;另一方面指數(shù)據(jù)集中的兩個或多個變量之間存在相關或推導關系,例如數(shù)據(jù)集中同時存在投入產(chǎn)出比、總投入、總收益的數(shù)據(jù),而其中投入產(chǎn)出比=總收益/總投入。冗余數(shù)據(jù)會造成數(shù)據(jù)重復或分析結果產(chǎn)生偏差。知識必備二、數(shù)據(jù)存在的常見問題(五)不一致數(shù)據(jù)不一致數(shù)據(jù)一般表現(xiàn)為以下三個方面。一是人工/機械原因?qū)е碌匿浫脲e誤或者數(shù)據(jù)規(guī)范不同。例如將數(shù)據(jù)集中的“客單價”錄入為“-180”,又如變量名“用戶編碼”下,某數(shù)據(jù)集的規(guī)范是“3位”,而另一個數(shù)據(jù)集中的要求位“5位”。二是變量單位或者量綱不匹配。例如,某數(shù)據(jù)集中的商品價格以“元”為單位,另一個數(shù)據(jù)集中卻為“萬元”。三是數(shù)據(jù)特征不適應特定數(shù)據(jù)分析模型的需求或變量過多,分析難度較大。例如,客戶系統(tǒng)分為男和女兩種客戶,但回歸分析模型中要求數(shù)據(jù)是數(shù)值型的,這樣就必須將其轉變?yōu)?與1再進行處理。知識必備三、評估數(shù)據(jù)質(zhì)量的標準(一)完整性完整性指的是數(shù)據(jù)信息是否存在缺失情況。數(shù)據(jù)缺失情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。在傳統(tǒng)關系型數(shù)據(jù)庫中,完整性通常與空值(NULL)有關??罩凳侨笔Щ虿恢谰唧w值的值。另外,完整性還可通過數(shù)據(jù)統(tǒng)計中的記錄值和唯一值進行評估;例如,網(wǎng)站日志訪問就是一個記錄值,平時的日訪問量在1000左右,突然某一天降到100了,那就需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計地域分布情況的每一個地區(qū)名就是一個唯一值,我國包括34個省級行政單位,如果統(tǒng)計得到的唯一值小于34,則可以判斷數(shù)據(jù)有可能存在缺失。知識必備三、評估數(shù)據(jù)質(zhì)量的標準(二)一致性一致性是指數(shù)據(jù)是否合乎規(guī)范,數(shù)據(jù)集內(nèi)的數(shù)據(jù)是否保持統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。數(shù)據(jù)記錄的規(guī)范主要體現(xiàn)在數(shù)據(jù)編碼和格式。一項數(shù)據(jù)有它特定的格式,例如,手機號碼一定是11位的數(shù)字,IP地址是由4個0~255的數(shù)字加上“.”組成的;或者有一些預先定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等。邏輯則是指多項數(shù)據(jù)間存在著固定的邏輯關系以及一些預先定義的數(shù)據(jù)約束。例如,頁面瀏覽(PageViewPV)量一定是大于等于獨立訪客(UniqueVisito,UV)量的,跳出率一定為0~1。數(shù)據(jù)的一致性檢驗是數(shù)據(jù)質(zhì)量檢驗中比較重要也是比較復雜的一項。知識必備三、評估數(shù)據(jù)質(zhì)量的標準(三)準確性準確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤。和一致性不一樣,導致一致性問題的原因可能是數(shù)據(jù)記錄規(guī)則不同,但它不一定是錯誤的。而存在準確性問題的數(shù)據(jù)不僅僅是規(guī)則上的不一致。準確性關注數(shù)據(jù)中的錯誤,最為常見的數(shù)據(jù)準確性問題就是亂碼。它還包括異?;蛘咝〉臄?shù)據(jù)以及不符合有效性規(guī)則的數(shù)據(jù),如訪問量一定是整數(shù)、年齡一般為1~100、轉化率一定是0~1的值等。知識必備三、評估數(shù)據(jù)質(zhì)量的標準(四)及時性及時性是指數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。及時性對于數(shù)據(jù)分析本身的要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。所以我們需要對數(shù)據(jù)的延時時長進行關注。例如,每周的數(shù)據(jù)分析報告要兩周后才能出來,那么分析的結論可能已經(jīng)失去及時性,分析師的工作只是徒勞。同時,某些實時分析和決策需要用到小時或者分鐘級的數(shù)據(jù),它們對數(shù)據(jù)的及時性要求極高。所以及時性也是數(shù)據(jù)質(zhì)量的組成要素之一。知識必備三、評估數(shù)據(jù)質(zhì)量的標準數(shù)據(jù)分析人員在檢查評估數(shù)據(jù)質(zhì)量時,發(fā)現(xiàn)某條記錄數(shù)據(jù)中的郵箱字段的值記錄為179864378@126,這違反了數(shù)據(jù)質(zhì)量評估中的哪一條?想一想知識鏈接:我國信息技術數(shù)據(jù)質(zhì)量評價指標知識必備四、數(shù)據(jù)預處理的方法通過各種渠道收集來的數(shù)據(jù),常出現(xiàn)缺失、異常、冗余、不一致等現(xiàn)象,并不能直接為數(shù)據(jù)分析所用。此外,一些成熟的數(shù)據(jù)分析模型對處理的數(shù)據(jù)有特定的要求,比如一定的數(shù)據(jù)類型、統(tǒng)一的數(shù)據(jù)量綱,以及數(shù)據(jù)的冗余性要求、屬性的相關性要求等。因此對原始數(shù)據(jù)必須評估數(shù)據(jù)質(zhì)量,進行數(shù)據(jù)預處理,才能進行分析。數(shù)據(jù)的預處理總體目標是為進行后續(xù)的數(shù)據(jù)挖掘工作提供可靠和高質(zhì)量的數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度和數(shù)據(jù)挖掘效率。為了得到高質(zhì)量的數(shù)據(jù),數(shù)據(jù)預處理之前需要制定和明確統(tǒng)一的數(shù)據(jù)質(zhì)量標準,在數(shù)據(jù)預處理的過程需要做到以下4個基本要求:(1)檢測并除去數(shù)據(jù)中所有明顯的錯誤和噪聲;(2)盡可能地減小人工干預和用戶的編程工作量,并且容易擴展到其它數(shù)據(jù)源;(3)與數(shù)據(jù)轉化相結合;(4)要有相應的描述語言來指定數(shù)據(jù)清洗和數(shù)據(jù)轉化操作,所有這些操作應該在一個統(tǒng)一的框架下完成。知識必備四、數(shù)據(jù)預處理的方法數(shù)據(jù)預處理是大數(shù)據(jù)處理流程中必不可少的關鍵步驟,更是進行數(shù)據(jù)分析和挖掘前的準備工作。我們要一方面保證挖掘數(shù)據(jù)的正確性和有效性;另一方面要通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。數(shù)據(jù)預處理的主要任務包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。具體數(shù)據(jù)預處理的流程如圖所示。學習感悟如今,大數(shù)據(jù)在社會中扮演著越來越重要和有用的角色,許多活動和流程對大數(shù)據(jù)的依賴正在增加。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要。質(zhì)量差的數(shù)據(jù)會帶來重大的法律或者聲譽風險;例如,數(shù)據(jù)缺失導致信用風險不準確,信用記錄不完整致使風險評估錯誤,等等。數(shù)據(jù)分析的質(zhì)量高不高,一些沒有必要的錯誤會不會犯,確保數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析的關鍵。要避免最終決策錯誤,關鍵是要解決數(shù)據(jù)質(zhì)量問題,而要解決數(shù)據(jù)質(zhì)量問題在于能對數(shù)據(jù)進行嚴謹、及時質(zhì)量評估,并針對評估結果選擇數(shù)據(jù)預處理操作。任務實訓1.掃教材上對應二維碼針對必備知識進行在線測試。2.某數(shù)據(jù)分析員收集到企業(yè)“商城會員消費數(shù)據(jù).xls”,請幫他檢測數(shù)據(jù)存在的問題,并給出相應的數(shù)據(jù)預處理方法,填入表2-2中。任務評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學習過程

能說出本任務的學習目標,上課積極發(fā)言,積極回答問題(5分);20

能夠回答數(shù)據(jù)質(zhì)量影響因素;(5分)能夠回答數(shù)據(jù)常見問題;(5分)能夠回答評估數(shù)據(jù)質(zhì)量標準。(5分)學習結果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對數(shù)據(jù)進行質(zhì)量評估并提出預處理方法的考評。(40分)合

計100

所占比例100%30%30%40%綜合評分

任務三數(shù)據(jù)清洗任務清單工作任務數(shù)據(jù)清洗教學模式任務驅(qū)動建議學時2課時教學地點一體化教室任務描述來自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不一定完美,可能會存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整有缺失、存在錯誤和重復的數(shù)據(jù)。數(shù)據(jù)清洗是數(shù)據(jù)預處理中非常重要的一步,是一種對數(shù)據(jù)進行重新審查和校驗的過程;它的目的在于洗掉數(shù)據(jù)中的“臟、亂、差”的內(nèi)容,保障數(shù)據(jù)質(zhì)量。小王面對采取到的數(shù)據(jù)如何清洗“臟數(shù)據(jù)”呢?在清洗過程有什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論