《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目1、2 走進(jìn)大數(shù)據(jù)、大數(shù)據(jù)采集與預(yù)處理_第1頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目1、2 走進(jìn)大數(shù)據(jù)、大數(shù)據(jù)采集與預(yù)處理_第2頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目1、2 走進(jìn)大數(shù)據(jù)、大數(shù)據(jù)采集與預(yù)處理_第3頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目1、2 走進(jìn)大數(shù)據(jù)、大數(shù)據(jù)采集與預(yù)處理_第4頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目1、2 走進(jìn)大數(shù)據(jù)、大數(shù)據(jù)采集與預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩163頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目一走進(jìn)大數(shù)據(jù)項(xiàng)目簡(jiǎn)介大數(shù)據(jù)時(shí)代的悄然來(lái)臨,帶來(lái)了信息技術(shù)發(fā)展的巨大變革,并深刻影響著社會(huì)生產(chǎn)和人們生活的方方面面。世界各國(guó)政府高度重視大數(shù)據(jù)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國(guó)家戰(zhàn)略并重點(diǎn)推進(jìn)。大數(shù)據(jù)已經(jīng)不是“鏡中花、水中月”,它的影響力和作用力正迅速觸及社會(huì)的每個(gè)角落。什么是大數(shù)據(jù)呢?本項(xiàng)目將帶領(lǐng)你走進(jìn)大數(shù)據(jù),認(rèn)識(shí)大數(shù)據(jù)及其基本特征,了解大數(shù)據(jù)與當(dāng)前新一代信息技術(shù)關(guān)系,洞悉大數(shù)據(jù)的思維方式和工作流程,探究大數(shù)據(jù)給我們會(huì)帶來(lái)哪些影響。學(xué)習(xí)目標(biāo)知識(shí)目標(biāo)1.理解數(shù)據(jù)、大數(shù)據(jù)的基本概念,掌握數(shù)據(jù)類型、大數(shù)據(jù)的特征;2.了解云計(jì)算、物聯(lián)網(wǎng)、人工智能基本概念,以及它們與大數(shù)據(jù)關(guān)系;3.掌握大數(shù)據(jù)的思維模式和工作流程;4.理解大數(shù)據(jù)對(duì)社會(huì)生產(chǎn)和人們生活帶來(lái)的影響。能力目標(biāo)1.能夠運(yùn)用大數(shù)據(jù)相關(guān)基礎(chǔ)知識(shí),做好數(shù)據(jù)分析的全面準(zhǔn)備工作;2.能夠?qū)Υ髷?shù)據(jù)的思維模式和工作方式有基本的認(rèn)知;3.能夠?qū)π乱淮畔⒓夹g(shù)、數(shù)字經(jīng)濟(jì)等概念有較為準(zhǔn)確認(rèn)知。素質(zhì)目標(biāo)1.養(yǎng)成用數(shù)據(jù)思維去看待問(wèn)題的初步習(xí)慣;2.養(yǎng)成對(duì)事物分析客觀、敏感的職業(yè)思維方式。思政目標(biāo)認(rèn)知大數(shù)據(jù)基本概念,透過(guò)現(xiàn)象看本質(zhì),樹(shù)立正確價(jià)值觀;認(rèn)知我國(guó)新一代信息技術(shù)發(fā)展情況和發(fā)展戰(zhàn)略,樹(shù)立愛(ài)國(guó)和民族自豪感;洞悉大數(shù)據(jù)思維方式,警惕大數(shù)據(jù)思維陷阱,培養(yǎng)創(chuàng)新意識(shí),做新思維智者;探究大數(shù)據(jù)的影響,知道國(guó)家需要什么樣的人才,樹(shù)立正確的職業(yè)觀。思維導(dǎo)圖任務(wù)一認(rèn)識(shí)大數(shù)據(jù)任務(wù)清單工作任務(wù)認(rèn)識(shí)大數(shù)據(jù)教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)多媒體教室任務(wù)描述隨著信息技術(shù)的日趨發(fā)達(dá),“大數(shù)據(jù)”已經(jīng)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,“大數(shù)據(jù)推薦”、“大數(shù)據(jù)驅(qū)動(dòng)”、“大數(shù)據(jù)殺熟”等等。那么什么是大數(shù)據(jù),它與傳統(tǒng)的數(shù)據(jù)有何區(qū)別,這個(gè)大數(shù)據(jù)的“大”具體體現(xiàn)在哪些方面呢?對(duì)于初學(xué)者小王來(lái)說(shuō),一頭霧水。要想深入了解大數(shù)據(jù),就必須從熟悉數(shù)據(jù)、認(rèn)識(shí)大數(shù)據(jù)的基本概念和特征開(kāi)始,于是小王開(kāi)始了認(rèn)識(shí)大數(shù)據(jù)之旅。任務(wù)目標(biāo)了解數(shù)據(jù)概念內(nèi)涵的發(fā)展;理解傳統(tǒng)數(shù)據(jù)、信息、知識(shí)的區(qū)別;掌握數(shù)據(jù)分類中的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)基本定義;掌握大數(shù)據(jù)基本概念;掌握大數(shù)據(jù)的4V特征;能進(jìn)行結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的識(shí)別;能對(duì)大數(shù)據(jù)規(guī)模進(jìn)行基本判斷;能通過(guò)大數(shù)據(jù)基本特征分析,透過(guò)現(xiàn)象看本質(zhì),看到大數(shù)據(jù)價(jià)值;初步養(yǎng)成大數(shù)據(jù)意識(shí)。關(guān)鍵詞數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、大數(shù)據(jù)、大數(shù)據(jù)4V特征知識(shí)必備一、什么是數(shù)據(jù)珠穆朗瑪峰有多高?“很高”、“非常高”、“最高”海拔8848.86米?準(zhǔn)確定量抽象、模糊定性傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”,數(shù)字之所以產(chǎn)生,是因?yàn)槿祟愒趯?shí)踐中發(fā)現(xiàn),僅僅用語(yǔ)言、文字和圖形來(lái)描述這個(gè)世界是不精確的,也是遠(yuǎn)遠(yuǎn)不夠的測(cè)量計(jì)算有根據(jù)的數(shù)字知識(shí)必備一、什么是數(shù)據(jù)數(shù)據(jù)36是個(gè)數(shù)據(jù)賦予背景信息知識(shí)提煉規(guī)律今天的氣溫是36℃今年7月,長(zhǎng)沙的平均氣溫為36℃?zhèn)鹘y(tǒng)意義上數(shù)據(jù)、信息和知識(shí)的關(guān)系數(shù)據(jù)是信息的載體,信息是有背景的數(shù)據(jù),而知識(shí)是經(jīng)過(guò)人類的歸納和整理,最終呈現(xiàn)規(guī)律的信息。進(jìn)入信息時(shí)代數(shù)據(jù)內(nèi)涵不斷擴(kuò)大,數(shù)字、文字、圖片、視頻、記錄、郵件等等知識(shí)必備二、數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel、Access、SQLServer、Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起的數(shù)據(jù)類型,如:關(guān)系表與超鏈接、圖像的數(shù)字化文檔、視頻、音頻、圖片,如:Word文檔、PDF文檔、電影,監(jiān)控視頻、音樂(lè)90%左右非結(jié)構(gòu)化10%結(jié)構(gòu)化(50%-70%源于人與人的互動(dòng))數(shù)據(jù)不僅指狹義上的數(shù)字,也可以指具有一定意義的文字、字母、數(shù)字符號(hào)的組合、圖形、圖像、視頻、音頻等,還可以是客觀事物的屬性、數(shù)量、位置及其相互關(guān)系的抽象表示。例如,“0,1,2,…”“陰、雨、下降、氣溫”“學(xué)生的檔案記錄、貨物的運(yùn)輸情況”,以及“微信語(yǔ)音聊天、微信視頻聊天產(chǎn)生的音頻或視頻、微信朋友圈的照片”等都是數(shù)據(jù)。按照數(shù)據(jù)結(jié)構(gòu)屬性不同,數(shù)據(jù)可以劃分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三大類。知識(shí)必備二、數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)可以使用關(guān)系型數(shù)據(jù)表來(lái)表示和存儲(chǔ),如Excel表、MySQL、Oracle、SQLServer等數(shù)據(jù)庫(kù)表。結(jié)構(gòu)化數(shù)據(jù)均表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和排列是很有規(guī)律的,這對(duì)查詢和修改等操作很有幫助,人們更容易使用它;同時(shí),結(jié)構(gòu)化數(shù)據(jù)也被稱為定量數(shù)據(jù),是能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的信息,如數(shù)字、符號(hào)等。1、結(jié)構(gòu)化數(shù)據(jù)知識(shí)必備二、數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。它不符合任何預(yù)定義的模型,因此它存儲(chǔ)在非關(guān)系數(shù)據(jù)庫(kù)中,并使用NoSQL進(jìn)行查詢。非結(jié)構(gòu)化數(shù)據(jù)已構(gòu)成了網(wǎng)絡(luò)上絕大多數(shù)可用數(shù)據(jù),如網(wǎng)絡(luò)上的文本、音頻、視頻、網(wǎng)頁(yè)等都是非結(jié)構(gòu)化數(shù)據(jù)。2、非結(jié)構(gòu)化數(shù)據(jù)我國(guó)綜合國(guó)力顯著增強(qiáng)國(guó)際影響力穩(wěn)步提升。知識(shí)必備二、數(shù)據(jù)類型半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),它并不符合關(guān)系數(shù)據(jù)表或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素,以及對(duì)記錄、字段進(jìn)行分層。因此,它也被稱為自描述的結(jié)構(gòu)數(shù)據(jù),數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混雜在一起,沒(méi)有明顯的區(qū)分。屬于同一類實(shí)體的非結(jié)構(gòu)化數(shù)據(jù)可以有不同的屬性,即使它們被組合在一起,這些屬性的順序也并不重要。例如,XML、JSON、HTML文檔、Email都屬于半結(jié)構(gòu)化數(shù)據(jù)。3、半結(jié)構(gòu)化數(shù)據(jù)知識(shí)必備三、什么是大數(shù)據(jù)?知識(shí)必備三、什么是大數(shù)據(jù)?信息社會(huì),數(shù)據(jù)的內(nèi)涵在擴(kuò)大,數(shù)據(jù)的總量也在不斷增加,而且增加的速度不斷加快,數(shù)據(jù)的重要性也在大幅提升。20世紀(jì)80年代,就有人提出“大數(shù)據(jù)”的概念。這時(shí)候的“大”,如“大人物”和“大轉(zhuǎn)折”之“大”,主要指價(jià)值上的重要性。到了21世紀(jì),數(shù)據(jù)開(kāi)始爆炸,大數(shù)據(jù)的提法又重新進(jìn)入大眾的視野并獲得了更大的關(guān)注。這個(gè)時(shí)候的“大”,含義也更加豐富了:一是指容量大,二是指價(jià)值大。這個(gè)時(shí)候大數(shù)據(jù)可以首先理解為傳統(tǒng)的小數(shù)據(jù)加上現(xiàn)代的“大記錄”。大數(shù)據(jù)=傳統(tǒng)的小數(shù)據(jù)+現(xiàn)代的大記錄知識(shí)必備三、什么是大數(shù)據(jù)?定義二:指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

[Gartner美國(guó)高德納咨詢公司]定義一:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。

[全球領(lǐng)先的管理咨詢公司麥肯錫]定義三:大數(shù)據(jù)處理技術(shù)代表了新一代的技術(shù)架構(gòu),這種架構(gòu)通過(guò)高速獲取數(shù)據(jù)并對(duì)其進(jìn)行分析和挖掘,從海量且形式各異的數(shù)據(jù)源中更有效地抽取出富含價(jià)值的信息。

[全球最大的互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)]關(guān)于大數(shù)據(jù)的確切定義,不同組織從不同角度給出了不同的定義。知識(shí)必備三、什么是大數(shù)據(jù)?綜合來(lái)說(shuō):大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)是原有存儲(chǔ)模式和計(jì)算模式與能力不能滿足存儲(chǔ)與處理現(xiàn)有數(shù)據(jù)集規(guī)模這一現(xiàn)狀而產(chǎn)生的相對(duì)概念。大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從技術(shù)角度看,大數(shù)據(jù)代表了新一代的信息技術(shù)架構(gòu),指從海量數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。知識(shí)必備四、大數(shù)據(jù)特征大數(shù)據(jù)4V特征數(shù)據(jù)規(guī)模大(Volume)類型多樣性(Variety)處理速度快(Velocity)價(jià)值密度低(Value)知識(shí)必備四、大數(shù)據(jù)特征大數(shù)據(jù)從TB已經(jīng)發(fā)展到現(xiàn)在的PB、EB等級(jí)別了。根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量1.數(shù)據(jù)量大運(yùn)營(yíng)式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段感知式系統(tǒng)階段GBTBPBEBZB知識(shí)必備四、大數(shù)據(jù)特征2.數(shù)據(jù)類型多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)知識(shí)必備四、大數(shù)據(jù)特征3.處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同知識(shí)必備四、大數(shù)據(jù)特征4.價(jià)值密度低

價(jià)值密度低,商業(yè)價(jià)值高

以公安視頻監(jiān)控系統(tǒng)為例,常年24小時(shí)不間斷視頻監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有幾秒鐘,可是為了這短短的幾秒鐘,我們不得不投入大量資金購(gòu)買監(jiān)控設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備,來(lái)保存攝像頭連續(xù)不斷傳來(lái)的監(jiān)控?cái)?shù)據(jù)。學(xué)習(xí)感悟大數(shù)據(jù)的“大”首先體現(xiàn)在規(guī)模大、發(fā)展快、類型多,但大體量、大容量只是表象,價(jià)值才是本質(zhì),而且大容量并不一定代表大價(jià)值,大數(shù)據(jù)的真正意義還在于大價(jià)值,數(shù)據(jù)的價(jià)值含量、挖掘成本比數(shù)量的大更為重要。價(jià)值主要是通過(guò)數(shù)據(jù)的整合、分析和開(kāi)放而獲得,并且這種整合和分析必須能夠達(dá)到快速處理,實(shí)時(shí)分析,才能凸顯其價(jià)值。因此,“走進(jìn)大數(shù)據(jù)”一定是讓大數(shù)據(jù)創(chuàng)造大價(jià)值,以價(jià)值為目標(biāo),這樣才不會(huì)被表象的“大”弄迷茫,才能透過(guò)表象看到本質(zhì),才有方向感。任務(wù)實(shí)訓(xùn)1.掃教材上二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.假設(shè)你在運(yùn)營(yíng)一微博賬號(hào),那么微博賬號(hào)里面的數(shù)據(jù)有哪些是結(jié)構(gòu)化數(shù)據(jù)?哪些是半結(jié)構(gòu)化數(shù)據(jù)?哪些是非結(jié)構(gòu)化數(shù)據(jù)?3.總結(jié)分析大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的不同點(diǎn)。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答傳統(tǒng)數(shù)據(jù)、信息、知識(shí)的區(qū)別,理解數(shù)據(jù)內(nèi)涵變化過(guò)程;(5分)能夠按數(shù)據(jù)結(jié)構(gòu)屬性區(qū)分結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù);(5分)能夠回答大數(shù)據(jù)的基本特征。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)工作場(chǎng)所中數(shù)據(jù)類型判斷的考評(píng);(20分)描述大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的不同點(diǎn)的考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)二認(rèn)知大數(shù)據(jù)與新一代信息技術(shù)關(guān)系任務(wù)清單工作任務(wù)認(rèn)識(shí)大數(shù)據(jù)與新一代信息技術(shù)關(guān)系教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)多媒體教室任務(wù)描述大數(shù)據(jù)定義中提到,從技術(shù)角度看,大數(shù)據(jù)代表了新一代的信息技術(shù)架構(gòu)。而且我們也看到,伴隨著大數(shù)據(jù)經(jīng)常在一起的,還有人工智能、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等,它們一起統(tǒng)稱為新一代信息技術(shù)。這些新一代信息技術(shù)有什么區(qū)別,它們與大數(shù)據(jù)到底是一種什么樣關(guān)系呢?小王繼續(xù)開(kāi)展他的探索之旅。任務(wù)目標(biāo)理解云計(jì)算、物聯(lián)網(wǎng)、人工智能基本概念;熟悉云計(jì)算基本類型;了解物聯(lián)網(wǎng)和人工智能關(guān)鍵技術(shù);了解云計(jì)算、物聯(lián)網(wǎng)、人工智能的應(yīng)用場(chǎng)景;掌握大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、人工智能的相互關(guān)系;能區(qū)分云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能各自工作特點(diǎn);學(xué)會(huì)思考大數(shù)據(jù)技術(shù)在各個(gè)領(lǐng)域的應(yīng)用潛能和發(fā)展前景;養(yǎng)成對(duì)新事物、新技術(shù)敏感和探索的職業(yè)習(xí)慣;具備迅速適應(yīng)大數(shù)據(jù)下新一代信息技術(shù)的創(chuàng)新能力;了解我國(guó)大數(shù)據(jù)等新一代技術(shù)的應(yīng)用發(fā)展情況、發(fā)展戰(zhàn)略,樹(shù)立愛(ài)國(guó)和民族自豪感,以及為國(guó)勤奮學(xué)習(xí)、拼搏精神。關(guān)鍵詞新一代信息技術(shù)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、人工智能、移動(dòng)互聯(lián)網(wǎng)知識(shí)必備一、云計(jì)算狹義上的云計(jì)算,就是一種提供資源的網(wǎng)絡(luò),使用者可以隨時(shí)獲取“云”上的資源,按需求量使用,并且可以看成是無(wú)限擴(kuò)展的,只要按使用量付費(fèi)就可以。廣義上的云計(jì)算是與信息技術(shù)、軟件、互聯(lián)網(wǎng)相關(guān)的一種服務(wù),這種計(jì)算資源共享池叫做“云”,云計(jì)算把許多計(jì)算資源集合起來(lái),通過(guò)軟件實(shí)現(xiàn)自動(dòng)化管理,只需要很少的人參與,就能讓資源被快速提供。云計(jì)算的概念(一)知識(shí)必備一、云計(jì)算私有云公共云社區(qū)云混合云云計(jì)算單獨(dú)為一個(gè)用戶客戶使用而構(gòu)建的云基礎(chǔ)設(shè)施,可以對(duì)數(shù)據(jù)的安全和服務(wù)質(zhì)量進(jìn)行最有效地控制由一個(gè)云計(jì)算服務(wù)的銷售組織或公司所有的基礎(chǔ)設(shè)施,由組織或公司銷售給普通消費(fèi)者使用基礎(chǔ)設(shè)施是由2種或2種以上的云組成,各類云相對(duì)保持獨(dú)立,用專有的技術(shù)將它們組合起來(lái)被一些組織共享,提供某一方面的社區(qū)服務(wù)的基礎(chǔ)設(shè)施,社區(qū)服務(wù)包括針對(duì)安全要求等1、按運(yùn)營(yíng)模式分類云計(jì)算的類型(二)知識(shí)必備一、云計(jì)算類型

特點(diǎn)私有云利用企業(yè)內(nèi)網(wǎng)和專網(wǎng),面向單一企業(yè)或組織公共云利用互聯(lián)網(wǎng),面向公眾混合云兩種或三種其他云組合社區(qū)云利用內(nèi)網(wǎng)、專網(wǎng)和VPN,面向多家關(guān)聯(lián)部門每一種云都有自己特點(diǎn)知識(shí)必備一、云計(jì)算基礎(chǔ)設(shè)施即服務(wù)(IaaS)平臺(tái)即服務(wù)(PaaS)軟件即服務(wù)(SaaS)云服務(wù)提供商把IT系統(tǒng)的應(yīng)用軟件層作為服務(wù)出租出去,而消費(fèi)者可以使用任何云終端設(shè)備接入計(jì)算機(jī)網(wǎng)絡(luò),使用云端的軟件,相當(dāng)于用戶直接擁有一臺(tái)安裝了自己需要的應(yīng)用程序的計(jì)算機(jī)。云服務(wù)提供商把基礎(chǔ)設(shè)施層和平臺(tái)軟件層都搭建好,然后在平臺(tái)軟件層上劃分“小塊”,并對(duì)外出租,相當(dāng)于在上面裸機(jī)基礎(chǔ)上再加上操作系統(tǒng)和數(shù)據(jù)庫(kù)軟件。云服務(wù)提供商把IT系統(tǒng)的基礎(chǔ)設(shè)施建設(shè)好,主要包括CPU(計(jì)算資源)、硬盤(存儲(chǔ)資源)、網(wǎng)卡(網(wǎng)絡(luò)資源)等,然后直接對(duì)外出租硬件服務(wù)器、虛擬主機(jī)、存儲(chǔ)或網(wǎng)絡(luò)設(shè)施等,相當(dāng)于裸機(jī)出租。2、按服務(wù)模式分類知識(shí)必備一、云計(jì)算云計(jì)算應(yīng)用(三)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),用戶可以將本地的資源上傳至云端上,可以在任何地方連入互聯(lián)網(wǎng)來(lái)獲取云上的資源;百度云、微云使用“云計(jì)算”來(lái)創(chuàng)建醫(yī)療健康服務(wù)云平臺(tái),實(shí)現(xiàn)了醫(yī)療資源的共享和醫(yī)療范圍的擴(kuò)大;舉例:預(yù)約掛號(hào)、電子病歷、醫(yī)保等。旨在為銀行、保險(xiǎn)和基金等金融機(jī)構(gòu)提供互聯(lián)網(wǎng)處理和運(yùn)行服務(wù),同時(shí)共享互聯(lián)網(wǎng)資源,從而解決現(xiàn)有問(wèn)題并且達(dá)到高效、低成本的目標(biāo)。舉例:快捷支付可以將所需要的任何教育硬件資源虛擬化,然后將其傳入互聯(lián)網(wǎng)中,以向教育機(jī)構(gòu)和學(xué)生老師提供一個(gè)方便快捷的平臺(tái)。舉例:慕課知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)概念(一)物聯(lián)網(wǎng)(IoT,Internetofthings)即“萬(wàn)物相連的互聯(lián)網(wǎng)”,是互聯(lián)網(wǎng)基礎(chǔ)上的延伸和擴(kuò)展的網(wǎng)絡(luò),將各種信息傳感設(shè)備與網(wǎng)絡(luò)結(jié)合起來(lái)而形成的一個(gè)巨大網(wǎng)絡(luò),實(shí)現(xiàn)任何時(shí)間、任何地點(diǎn),人、機(jī)、物的互聯(lián)互通。知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關(guān)鍵技術(shù)(二)射頻識(shí)別是一種通信技術(shù),可通過(guò)無(wú)線電訊號(hào)識(shí)別特定目標(biāo)并讀寫相關(guān)數(shù)據(jù),而無(wú)需在識(shí)別系統(tǒng)與特定目標(biāo)之間建立機(jī)械或光學(xué)接觸。它相當(dāng)于物聯(lián)網(wǎng)的“嘴巴”,負(fù)責(zé)讓物體“說(shuō)話”。射頻識(shí)別技術(shù)主要的表現(xiàn)形式就是“RFID”標(biāo)簽,它具有抗干擾性強(qiáng)、識(shí)別速度快、安全性高、數(shù)據(jù)容量大等優(yōu)點(diǎn)。射頻識(shí)別技術(shù)目前在許多方面都有應(yīng)用,例如倉(cāng)庫(kù)物資、物流信息追蹤、醫(yī)療信息追蹤,固定資產(chǎn)追蹤。1、射頻識(shí)別(RFID)技術(shù)知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關(guān)鍵技術(shù)(二)傳感器能感受規(guī)定的被測(cè)量值,例如溫度、濕度、電壓和電流,并按照一定的規(guī)律轉(zhuǎn)換成可用輸出信號(hào)。它相當(dāng)于物聯(lián)網(wǎng)的“耳朵”,負(fù)責(zé)接收物體“說(shuō)話”的內(nèi)容。傳感器技術(shù)可應(yīng)用于生活中空調(diào)制冷劑液位的精確控制、數(shù)字醫(yī)療捕捉電壓信號(hào)等。2、傳感器技術(shù)知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關(guān)鍵技術(shù)(二)當(dāng)物體與物體“交流”的時(shí)候,就需要高速、可進(jìn)行大批量數(shù)據(jù)傳輸?shù)臒o(wú)線網(wǎng)絡(luò),無(wú)線網(wǎng)絡(luò)的速度決定了設(shè)備連接的速度和穩(wěn)定性。若無(wú)線網(wǎng)絡(luò)的速率太低,就會(huì)出現(xiàn)設(shè)備反應(yīng)滯后或者連接失敗等問(wèn)題。目前通訊市場(chǎng)已經(jīng)逐漸從4G網(wǎng)絡(luò)轉(zhuǎn)向5G網(wǎng)絡(luò),物聯(lián)網(wǎng)的發(fā)展也會(huì)因其而得到更大的突破。3、無(wú)線網(wǎng)絡(luò)技術(shù)知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)關(guān)鍵技術(shù)(二)物聯(lián)網(wǎng)中存在大量數(shù)據(jù)來(lái)源、各種異構(gòu)網(wǎng)絡(luò)和不同類型的系統(tǒng),大量不同類型數(shù)據(jù)如何實(shí)現(xiàn)有效整合、處理和挖掘,是物理網(wǎng)處理層需要解決的關(guān)鍵技術(shù)問(wèn)題。云計(jì)算和大數(shù)據(jù)技術(shù)的出現(xiàn)為物聯(lián)網(wǎng)存儲(chǔ)、處理和分析數(shù)據(jù)提供了強(qiáng)大的技術(shù)支撐。海量物聯(lián)網(wǎng)數(shù)據(jù)可以借助龐大的云計(jì)算基礎(chǔ)設(shè)施實(shí)現(xiàn)廉價(jià)存儲(chǔ),利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)快速處理和分析,滿足各種實(shí)際應(yīng)用需求。4、數(shù)據(jù)挖掘和融合技術(shù)知識(shí)必備二、物聯(lián)網(wǎng)物聯(lián)網(wǎng)用途廣泛,遍及智能交通、環(huán)境保護(hù)、政府工作、公共安全、平安家居、智能消防、工業(yè)監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、路燈照明管控、景觀照明管控、樓宇照明管控、廣場(chǎng)照明管控、老人護(hù)理、個(gè)人健康、花卉栽培、水系監(jiān)測(cè)、食品溯源、敵情偵查和情報(bào)搜集等多個(gè)領(lǐng)域。物聯(lián)網(wǎng)的發(fā)展為建設(shè)國(guó)家智慧城市奠定了基礎(chǔ)。物聯(lián)網(wǎng)應(yīng)用(三)知識(shí)必備二、物聯(lián)網(wǎng)你身邊有哪些物聯(lián)網(wǎng)應(yīng)用案例?物聯(lián)網(wǎng)應(yīng)用(三)想一想知識(shí)必備三、人工智能人工智能概念(一)人工智能(AI,ArtificialIntelligence),是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是一個(gè)很寬泛的概念,概括而言是對(duì)人的意識(shí)和思維過(guò)程的模擬,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)分析方法賦予機(jī)器人類的能力。知識(shí)必備三、人工智能人工智能關(guān)鍵技術(shù)(二)機(jī)器學(xué)習(xí)知識(shí)圖譜自然語(yǔ)言處理人機(jī)交互計(jì)算機(jī)視覺(jué)生物特征識(shí)別VR/AR知識(shí)必備三、人工智能人工智能關(guān)鍵技術(shù)(二)2.知識(shí)圖譜是一門涉及統(tǒng)計(jì)學(xué)、系統(tǒng)辨識(shí)、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計(jì)算機(jī)科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科本質(zhì)上是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),是一種由節(jié)點(diǎn)和邊組成的圖數(shù)據(jù)結(jié)構(gòu),以符號(hào)形式描述物理世界中的概念及其相互關(guān)系研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法主要研究人和計(jì)算機(jī)之間的信息交換,主要包括人到計(jì)算機(jī)和計(jì)算機(jī)到人的兩部分信息交換1.機(jī)器學(xué)習(xí)3.自然語(yǔ)言處理4.人機(jī)交互知識(shí)必備三、人工智能人工智能關(guān)鍵技術(shù)(二)6.生物特征識(shí)別使用計(jì)算機(jī)模仿人類視覺(jué)系統(tǒng)的科學(xué),讓計(jì)算機(jī)擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。通過(guò)個(gè)體生理特征或行為特征對(duì)個(gè)體身份進(jìn)行識(shí)別認(rèn)證的技術(shù)。以計(jì)算機(jī)為核心的新型視聽(tīng)技術(shù)。結(jié)合相關(guān)科學(xué)技術(shù),在一定范圍內(nèi)生成與真實(shí)環(huán)境在視覺(jué)、聽(tīng)覺(jué)、觸感等方面高度近似的數(shù)字化環(huán)境。5.計(jì)算機(jī)視覺(jué)7.VR、AR知識(shí)必備三、人工智能人工智能應(yīng)用(三)知識(shí)必備三、人工智能人工智能應(yīng)用(三)知識(shí)必備四、大數(shù)據(jù)與新一代信息技術(shù)關(guān)系物聯(lián)網(wǎng)、傳統(tǒng)互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)著眼于數(shù)據(jù)采集,在源源不斷地匯聚數(shù)據(jù)和接收數(shù)據(jù),為大數(shù)據(jù)提供數(shù)據(jù)來(lái)源。大數(shù)據(jù)著眼于“數(shù)據(jù)”,關(guān)注實(shí)際業(yè)務(wù),對(duì)這些數(shù)據(jù)進(jìn)行分析處理,提取有價(jià)值的信息。云計(jì)算著眼于“計(jì)算”,看重?cái)?shù)據(jù)處理能力。知識(shí)必備四、大數(shù)據(jù)與新一代信息技術(shù)關(guān)系大數(shù)據(jù)是人工智能“思考”和“決策”的基礎(chǔ)。人工智能需要依賴大數(shù)據(jù)完成模型的訓(xùn)練和學(xué)習(xí),大數(shù)據(jù)也需要人工智能技術(shù)對(duì)其進(jìn)行價(jià)值分析。人工智能貴在“智能”,即通過(guò)智能地對(duì)數(shù)據(jù)進(jìn)行分析和處理,按照人的意識(shí)和思維過(guò)程進(jìn)行模擬,賦予機(jī)器人類的能力,指導(dǎo)下一步的操作;而大數(shù)據(jù)分析僅考慮從海量數(shù)據(jù)中獲取想要的結(jié)果。知識(shí)必備四、大數(shù)據(jù)與新一代信息技術(shù)關(guān)系你知道什么叫東數(shù)西算嗎?想一想學(xué)習(xí)感悟云計(jì)算、物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等新一代信息技術(shù),代表了人類IT技術(shù)的最新發(fā)展趨勢(shì),深刻改變著人們的生產(chǎn)和生活。物聯(lián)網(wǎng)、互聯(lián)網(wǎng)著眼于數(shù)據(jù)采集,為大數(shù)據(jù)提供數(shù)據(jù)來(lái)源。大數(shù)據(jù)著眼于“數(shù)據(jù)”,對(duì)這些數(shù)據(jù)進(jìn)行分析處理,提取有價(jià)值的信息。云計(jì)算著眼于“計(jì)算”,看重?cái)?shù)據(jù)處理能力。人工智能貴在“智能”,即通過(guò)智能地對(duì)數(shù)據(jù)進(jìn)行分析和處理,按照人的意識(shí)和思維過(guò)程進(jìn)行模擬,賦予機(jī)器人類的能力。相信這些技術(shù)的融合發(fā)展、相互助力,一定會(huì)給人類社會(huì)的未來(lái)發(fā)展帶來(lái)更多的新變化。作為學(xué)習(xí)者,需要及時(shí)擁抱新技術(shù),需要迅速適應(yīng)大數(shù)據(jù)下新一代信息技術(shù)的創(chuàng)新能力。當(dāng)前,我國(guó)在全球新一代信息技術(shù)領(lǐng)域已經(jīng)占據(jù)一席之地,產(chǎn)業(yè)規(guī)模體量全球領(lǐng)先,利用信息技術(shù)改造傳統(tǒng)經(jīng)濟(jì)、培育壯大數(shù)字經(jīng)濟(jì)新動(dòng)能的空間仍然很大;隨著“東數(shù)西算”工程,“十四五”新一代信息技術(shù)戰(zhàn)略規(guī)劃等的實(shí)施,將繼續(xù)推動(dòng)我國(guó)新一代信息技術(shù)不斷突破、蓬勃發(fā)展。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.圍繞云計(jì)算、物聯(lián)網(wǎng)、人工智能在其它領(lǐng)域的應(yīng)用,舉例分析并展望大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、人工智能幾種技術(shù)綜合應(yīng)用前景。3利用百度地圖查看實(shí)時(shí)公交,請(qǐng)回答這個(gè)過(guò)程用到了哪些新一代信息技術(shù)?任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答云計(jì)算學(xué)習(xí)過(guò)程中相關(guān)基本問(wèn)題;(5分)能夠回答物聯(lián)網(wǎng)學(xué)習(xí)過(guò)程中相關(guān)基本問(wèn)題(5分)能夠回答人工智能學(xué)習(xí)過(guò)程中相關(guān)基本問(wèn)題。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)新一代信息技術(shù)應(yīng)用場(chǎng)景進(jìn)行分析的考評(píng);(20分)新一代信息技術(shù)的體驗(yàn)和分析的考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)三洞悉大數(shù)據(jù)的思維方式和工作流程任務(wù)清單工作任務(wù)洞悉大數(shù)據(jù)的思維方式和工作流程教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)多媒體教室任務(wù)描述在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是一座“金礦”,而思維就是打開(kāi)礦山大門的鑰匙,只有建立符合大數(shù)據(jù)時(shí)代發(fā)展的思維方式和工作方式,才能最大程度地挖掘大數(shù)據(jù)的潛在價(jià)值。那么,大數(shù)據(jù)的思維方式有哪些?相對(duì)于傳統(tǒng)的思維方式有什么不同呢?大數(shù)據(jù)的工作流程又是怎樣的呢?于是小王開(kāi)始尋找這把礦山大門的鑰匙。任務(wù)目標(biāo)了解傳統(tǒng)的思維方式;掌握大數(shù)據(jù)的思維方式特點(diǎn);理解大數(shù)據(jù)思維方式的啟示;掌握大數(shù)據(jù)工作的基本流程;能區(qū)分大數(shù)據(jù)思維和傳統(tǒng)思維方式;能運(yùn)用大數(shù)據(jù)的思維方式看待和分析問(wèn)題;能認(rèn)識(shí)大數(shù)據(jù)工作的基本流程和工作方式;能樹(shù)立大數(shù)據(jù)思維正確意識(shí),警惕大數(shù)據(jù)思維陷阱,做新思維智者。關(guān)鍵詞機(jī)械思維、因果思維、總體思維、容錯(cuò)思維、相關(guān)思維、大數(shù)據(jù)工作流程知識(shí)必備一、傳統(tǒng)的思維方式傳統(tǒng)的思維方式中用的最多的就是機(jī)械思維,即思辨的思想和邏輯推理的能力,通過(guò)這些從實(shí)踐中總結(jié)出基本的定理,然后通過(guò)邏輯繼續(xù)延申。機(jī)械思維的核心思想可以概括成確定性(或者可預(yù)測(cè)性)和因果關(guān)系。牛頓可以把所有天體運(yùn)動(dòng)的規(guī)律用幾個(gè)定律講清楚,并且應(yīng)用到任何場(chǎng)合都是正確的,這就是確定性。加速度的大小取決于外力和物體本身的質(zhì)量,這是一種因果關(guān)系平常我們所說(shuō)的“打破砂鍋問(wèn)到底”是哪種思維方式?想一想知識(shí)必備一、傳統(tǒng)的思維方式1、并非所有的規(guī)律都可以用簡(jiǎn)單的原理來(lái)描述;2、簡(jiǎn)單的因果關(guān)系規(guī)律性都已經(jīng)被發(fā)現(xiàn),再像過(guò)去那樣找到因果關(guān)系已經(jīng)變得非常艱難;3、隨著人類對(duì)世界認(rèn)識(shí)得越來(lái)越清楚,人們發(fā)現(xiàn)世界本身存在著很大的不確定性,并非過(guò)去想象的那樣一切都是可以確定的。機(jī)械思維的局限性也越來(lái)越明顯通過(guò)更多的信息來(lái)消除不確定性。例:人臉識(shí)別知識(shí)必備二、大數(shù)據(jù)思維方式大數(shù)據(jù),不僅是一次技術(shù)革命,同時(shí)也是一次思維革命。知識(shí)必備在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)收集、處理、存儲(chǔ)、分析技術(shù)的突破性發(fā)展,我們可以更加方便、快捷、動(dòng)態(tài)地獲得研究對(duì)象有關(guān)的所有數(shù)據(jù),而不再因諸多限制不得不采用樣本研究方法,相應(yīng)地,思維方式也應(yīng)該從之前的樣本思維轉(zhuǎn)向總體性思維,從而能夠更加直觀、全面、立體、系統(tǒng)地認(rèn)識(shí)總體狀況。1、全樣而非抽樣二、大數(shù)據(jù)思維方式案例:互聯(lián)網(wǎng)的比價(jià)網(wǎng)站知識(shí)必備在大數(shù)據(jù)時(shí)代,得益于大數(shù)據(jù)技術(shù)的突破,大量的結(jié)構(gòu)化、非結(jié)構(gòu)化、異構(gòu)化的數(shù)據(jù)能夠得到儲(chǔ)存、處理、計(jì)算和分析,這極大提升了我們從海量數(shù)據(jù)中獲取知識(shí)和洞見(jiàn)的能力。大數(shù)據(jù)時(shí)代采用全樣分析,全樣分析結(jié)果就不存在誤差被放大的問(wèn)題。因此追求精確性已經(jīng)不是其首要目標(biāo)。相反,大數(shù)據(jù)時(shí)代的“秒級(jí)響應(yīng)”的特征,要求在幾秒鐘內(nèi)迅速給出海量數(shù)據(jù)的分析結(jié)果,否則就會(huì)喪失數(shù)據(jù)的價(jià)值,因此,數(shù)據(jù)分析的效率成為關(guān)注的核心。在大數(shù)據(jù)時(shí)代,思維方式要從精確思維轉(zhuǎn)向容錯(cuò)性思維。2、效率而非精確二、大數(shù)據(jù)思維方式案例:谷歌翻譯知識(shí)必備在大數(shù)據(jù)時(shí)代,人們可以通過(guò)大數(shù)據(jù)挖掘技術(shù),挖掘與分析出事物之間隱蔽的關(guān)聯(lián)關(guān)系,獲得更多的認(rèn)知與洞見(jiàn),運(yùn)用這些認(rèn)知與洞見(jiàn)就可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái),而建立在關(guān)聯(lián)關(guān)系分析基礎(chǔ)上的預(yù)測(cè)分析正是大數(shù)據(jù)的核心議題之一。思維方式要從因果思維轉(zhuǎn)向相關(guān)思維,努力顛覆千百年來(lái)人類形成的傳統(tǒng)思維模式和固有偏見(jiàn),才能更好地分享大數(shù)據(jù)帶來(lái)的深刻洞見(jiàn)。3、相關(guān)而非因果二、大數(shù)據(jù)思維方式案例:“啤酒與尿布”的故事知識(shí)必備“以數(shù)據(jù)為中心”是一種思維方式,也是一種技術(shù)架構(gòu)。其核心思想在于:承認(rèn)數(shù)據(jù)的價(jià)值,正視它在大型企業(yè)和行業(yè)生態(tài)中的多功能角色,并將信息視為企業(yè)架構(gòu)的核心資產(chǎn)。與傳統(tǒng)“以應(yīng)用為中心”的技術(shù)相反,在以數(shù)據(jù)為中心的架構(gòu)中,數(shù)據(jù)是獨(dú)立于單一應(yīng)用程序而存在的,可以為廣泛的利益相關(guān)者提供支持。4、以數(shù)據(jù)為中心二、大數(shù)據(jù)思維方式案例:搜索引擎的關(guān)鍵詞廣告知識(shí)必備三、大數(shù)據(jù)思維方式的啟示1.建立以大數(shù)據(jù)整體性為支撐的總體思維2.建立以大數(shù)據(jù)多樣性為支撐的容錯(cuò)思維3.建立以大數(shù)據(jù)關(guān)聯(lián)性為支撐的相關(guān)思維4.建立以大數(shù)據(jù)開(kāi)放性為支撐的智能思維知識(shí)必備四、警惕大數(shù)據(jù)思維的陷阱2、數(shù)據(jù)有效性偏差易帶來(lái)數(shù)據(jù)誤導(dǎo)在大數(shù)據(jù)時(shí)代,人們盲目樂(lè)觀地獲得由大數(shù)據(jù)分析所得出的結(jié)果,忽視了“沉默的證據(jù)”,也就是說(shuō)“有數(shù)不一定要據(jù)”。數(shù)據(jù)并不天然意味著真實(shí),數(shù)據(jù)源影響數(shù)據(jù)質(zhì)量,互聯(lián)網(wǎng)的開(kāi)放性、匿名性使得數(shù)據(jù)源模糊,數(shù)據(jù)真假難辯。另外,有些大數(shù)據(jù)應(yīng)用收集的數(shù)據(jù)非常多,但對(duì)其傾向性卻不清楚,也就是說(shuō)我們收集到的數(shù)據(jù)可能是“大而不全”。大數(shù)據(jù)更關(guān)注相關(guān)關(guān)系而忽略因果關(guān)系,甚至人們認(rèn)為相關(guān)關(guān)系可以取代因果關(guān)系。大數(shù)據(jù)告訴人們的只是“是什么”而不是“為什么”,這往往使得人們陷入“知其然而不知其所以然”的窘境。1.主觀認(rèn)知偏差易帶來(lái)數(shù)據(jù)偏見(jiàn)3、數(shù)據(jù)相關(guān)與因果相關(guān)的模糊帶來(lái)結(jié)論偏差知識(shí)必備五、大數(shù)據(jù)工作流程大數(shù)據(jù)的處理過(guò)程,其實(shí)就是利用合適的工具采集數(shù)據(jù)源,按照一定的標(biāo)準(zhǔn)對(duì)其存儲(chǔ),再利用相關(guān)的數(shù)據(jù)分析技術(shù)進(jìn)行分析,從而提取出有價(jià)值的數(shù)據(jù)展示給客戶。大數(shù)據(jù)的工作流程主要包括大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)分析和挖掘、大數(shù)據(jù)可視化、數(shù)據(jù)安全和隱私保護(hù)等幾個(gè)層面的內(nèi)容。大數(shù)據(jù)時(shí)代來(lái)臨,那么怎樣開(kāi)展大數(shù)據(jù)工作呢?知識(shí)必備五、大數(shù)據(jù)工作流程數(shù)據(jù)無(wú)處不在,網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、企業(yè)業(yè)務(wù)系統(tǒng)、監(jiān)控?cái)z像頭、傳感器等,每時(shí)每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù)需要采用相應(yīng)的設(shè)備或軟件進(jìn)行采集。采集到的數(shù)據(jù)通常無(wú)法直接用于后續(xù)的數(shù)據(jù)分析,因?yàn)閷?duì)于來(lái)源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語(yǔ)義模糊等問(wèn)題是不可避免的,所以必須采取相應(yīng)措施解決這些問(wèn)題,這就需要一個(gè)被稱為“數(shù)據(jù)預(yù)處理”的過(guò)程,把數(shù)據(jù)變成一個(gè)可用的狀態(tài)。數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,會(huì)被存放到文件系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行存儲(chǔ)與管理,然后采用數(shù)據(jù)挖掘工具對(duì)數(shù)據(jù)進(jìn)行分析處理,最后采用可視化工具為用戶呈現(xiàn)結(jié)果。在整個(gè)數(shù)據(jù)處理過(guò)程中,貫穿始終的還必須注意隱私保護(hù)和數(shù)據(jù)安全問(wèn)題。學(xué)習(xí)感悟大數(shù)據(jù),不僅是一次技術(shù)革命,也是一次思維革命。只有思維升級(jí)了,才可能在這個(gè)時(shí)代透過(guò)數(shù)據(jù)看世界,比別人看得更加清晰,從而在大數(shù)據(jù)時(shí)代有所成就。大數(shù)據(jù)成為各行各業(yè)發(fā)展的方向,無(wú)論是在新興的人工智能,還是傳統(tǒng)的制造業(yè),以及中間的電子商務(wù)等。通過(guò)大數(shù)據(jù)的分析與使用,市場(chǎng)越來(lái)越清晰,產(chǎn)品越來(lái)越準(zhǔn)確,服務(wù)越來(lái)越人性化。大數(shù)據(jù)時(shí)代,主動(dòng)擁抱和融入大數(shù)據(jù)熱潮,具備大數(shù)據(jù)思維,推崇大數(shù)據(jù)的應(yīng)用,才能不斷煥發(fā)生機(jī)和活力,為我們帶來(lái)了相當(dāng)?shù)谋憷5欠彩露加袃擅嫘?,我們?cè)谙硎艽髷?shù)據(jù)優(yōu)點(diǎn)的同時(shí),也要警惕大數(shù)據(jù)思維的陷阱。網(wǎng)絡(luò)發(fā)展帶來(lái)了言論的自由,也帶來(lái)了個(gè)性的釋放。網(wǎng)絡(luò)上大多數(shù)人傳播、推崇的并不一定是對(duì)的,這種足不出戶獲得的海量信息里面還是蘊(yùn)藏了巨大的不確定性。警惕大數(shù)據(jù)思維的陷阱,做個(gè)新時(shí)代思維的智者。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.請(qǐng)根據(jù)自己的生活實(shí)踐舉出一個(gè)大數(shù)據(jù)思維的典型案例。3.描述大數(shù)據(jù)工作的基本流程步驟和各步驟主要功能作用。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答和區(qū)分各種思維方式;(5分)能夠總結(jié)大數(shù)據(jù)思維方式的啟示;(5分)能夠回答大數(shù)據(jù)工作的基本流程。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

生活中大數(shù)據(jù)思維案例分析的考評(píng);(20分)大數(shù)據(jù)工作流程的考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)四探究大數(shù)據(jù)的影響任務(wù)清單工作任務(wù)探究大數(shù)據(jù)的影響教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)多媒體教室任務(wù)描述當(dāng)前,數(shù)字經(jīng)濟(jì)已經(jīng)成為世界經(jīng)濟(jì)發(fā)展的主角之一,并進(jìn)入高速增長(zhǎng)的快車道。大數(shù)據(jù)作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素,對(duì)社會(huì)生產(chǎn)和人們生活的方方面面產(chǎn)生影響,特別是對(duì)科學(xué)研究方法,社會(huì)發(fā)展的決策方式、治理途徑以及行業(yè)之間融合創(chuàng)新,人才的培養(yǎng)和就業(yè)市場(chǎng)都帶來(lái)巨大的影響。為了更好地走進(jìn)大數(shù)據(jù),深入學(xué)習(xí)大數(shù)據(jù),小王擬分析和探究大數(shù)據(jù)具體的影響。任務(wù)目標(biāo)了解大數(shù)據(jù)對(duì)科學(xué)研究的影響;熟悉科學(xué)研究的四種范式;理解大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響;了解大數(shù)據(jù)在社會(huì)發(fā)展中的一些應(yīng)用案例;掌握大數(shù)據(jù)對(duì)就業(yè)市場(chǎng)的影響;掌握大數(shù)據(jù)對(duì)人才培養(yǎng)的影響;能從一些大數(shù)據(jù)應(yīng)用案例中分析大數(shù)據(jù)對(duì)社會(huì)的影響;能正確看待大數(shù)據(jù)對(duì)就業(yè)和人才培養(yǎng)的影響,主動(dòng)調(diào)整和適應(yīng)這種變化;具備對(duì)大數(shù)據(jù)應(yīng)用的探索意識(shí),擁抱大數(shù)據(jù)的意識(shí);能通過(guò)探究大數(shù)據(jù)的影響,知道國(guó)家需要什么樣的人才,樹(shù)立正確的職業(yè)觀。關(guān)鍵詞科學(xué)研究、大數(shù)據(jù)決策、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)+、就業(yè)、人才培養(yǎng)知識(shí)必備一、大數(shù)據(jù)對(duì)科學(xué)研究的影響大數(shù)據(jù)在科學(xué)研究上的影響,最根本的價(jià)值在于為人類提供了認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段。圖靈獎(jiǎng)獲得者,著名數(shù)據(jù)庫(kù)專家JimGray博士認(rèn)為,人類自古以來(lái)在科學(xué)研究上先后經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)4種范式。實(shí)驗(yàn)在最初的科學(xué)研究階段,人類采用實(shí)驗(yàn)來(lái)解決一些科學(xué)問(wèn)題,如伽利略在比薩斜塔上做了“兩個(gè)鐵球同時(shí)落地”的實(shí)驗(yàn),得出了著名“伽利略落體定律”。知識(shí)必備一、大數(shù)據(jù)對(duì)科學(xué)研究的影響大數(shù)據(jù)在科學(xué)研究上的影響,最根本的價(jià)值在于為人類提供了認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段。圖靈獎(jiǎng)獲得者,著名數(shù)據(jù)庫(kù)專家JimGray博士認(rèn)為,人類自古以來(lái)在科學(xué)研究上先后經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)4種范式。實(shí)驗(yàn)科學(xué)的研究會(huì)受到實(shí)驗(yàn)條件的限制,于是,隨著科學(xué)的進(jìn)步,人類開(kāi)始采用各種數(shù)學(xué)、幾何、物理等理論,構(gòu)建問(wèn)題模型和解決方案,如牛頓定律的形成就是理論科學(xué)的成果。理論知識(shí)必備一、大數(shù)據(jù)對(duì)科學(xué)研究的影響大數(shù)據(jù)在科學(xué)研究上的影響,最根本的價(jià)值在于為人類提供了認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段。圖靈獎(jiǎng)獲得者,著名數(shù)據(jù)庫(kù)專家JimGray博士認(rèn)為,人類自古以來(lái)在科學(xué)研究上先后經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)4種范式。隨著1946年人類歷史上第一臺(tái)計(jì)算機(jī)ENIAC的誕生,人類社會(huì)開(kāi)始步入以“計(jì)算”為中心的全新時(shí)期,人們提出問(wèn)題,再進(jìn)行計(jì)算機(jī)模擬,然后收集數(shù)據(jù),通過(guò)計(jì)算來(lái)驗(yàn)證。計(jì)算知識(shí)必備一、大數(shù)據(jù)對(duì)科學(xué)研究的影響大數(shù)據(jù)在科學(xué)研究上的影響,最根本的價(jià)值在于為人類提供了認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段。圖靈獎(jiǎng)獲得者,著名數(shù)據(jù)庫(kù)專家JimGray博士認(rèn)為,人類自古以來(lái)在科學(xué)研究上先后經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)4種范式。數(shù)據(jù)隨著互聯(lián)網(wǎng)發(fā)展,再加上物聯(lián)網(wǎng)和云計(jì)算的出現(xiàn),數(shù)據(jù)的不斷積累,數(shù)據(jù)的寶貴價(jià)值日益得到體現(xiàn)。在大數(shù)據(jù)環(huán)境下,一切將以數(shù)據(jù)為中心,從數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題,解決問(wèn)題,大數(shù)據(jù)將成為科學(xué)工作者的保藏,推動(dòng)科技創(chuàng)新。知識(shí)必備一、大數(shù)據(jù)對(duì)科學(xué)研究的影響針對(duì)實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)4種科學(xué)范式各有哪些案例?想一想知識(shí)必備二、大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響數(shù)據(jù)經(jīng)濟(jì)時(shí)代,根據(jù)數(shù)據(jù)制定決策,已經(jīng)是大勢(shì)所趨。從20世紀(jì)90年代開(kāi)始,數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能工具就開(kāi)始大量用于企業(yè)決策,只是數(shù)據(jù)倉(cāng)庫(kù)以關(guān)系數(shù)據(jù)庫(kù)為基礎(chǔ),數(shù)據(jù)類型和數(shù)據(jù)量還存在比較大的限制?,F(xiàn)今,大數(shù)據(jù)決策可以面向類型繁多的、非結(jié)構(gòu)化的海量數(shù)據(jù)進(jìn)行決策分析,已經(jīng)成為流行的全新決策方式。1、大數(shù)據(jù)決策成為一種新的決策方式案例:“雙減”之下輿情分析知識(shí)必備二、大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響大數(shù)據(jù)是提升國(guó)家治理能力的新途徑,政府可以通過(guò)大數(shù)據(jù)弄清政治、經(jīng)濟(jì)、社會(huì)事務(wù)中傳統(tǒng)技術(shù)難以展現(xiàn)的關(guān)聯(lián)關(guān)系,并對(duì)事物的發(fā)展趨勢(shì)做出準(zhǔn)確預(yù)測(cè),從而在復(fù)雜情況下做出合理,優(yōu)化的決策;大數(shù)據(jù)是促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型增長(zhǎng)的新引擎,大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合,將大幅度推動(dòng)傳統(tǒng)產(chǎn)業(yè)提質(zhì)增效,促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型,催生新業(yè)態(tài),同時(shí),對(duì)大數(shù)據(jù)的采集、管理、交易、分析等業(yè)務(wù)也正在成長(zhǎng)為巨大的新興市場(chǎng);大數(shù)據(jù)是提升社會(huì)公共服務(wù)能力的新手段,通過(guò)打通政府、公共服務(wù)部門的數(shù)據(jù),促進(jìn)數(shù)據(jù)流轉(zhuǎn)共享,將有效促進(jìn)行政審批事物的簡(jiǎn)化,提高公共服務(wù)的效率,更好地服務(wù)民生,提升人民群眾的獲得感和幸福感。2、大數(shù)據(jù)成為提升國(guó)家治理能力的新途徑案例:面對(duì)新冠肺炎疫情防控,大數(shù)據(jù)提升國(guó)家治理能力的作用知識(shí)必備二、大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響有專家指出,大數(shù)據(jù)將會(huì)在未來(lái)10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能?;ヂ?lián)網(wǎng)、銀行、保險(xiǎn)、交通、材料、能源、服務(wù)等行業(yè)領(lǐng)域,不斷積累的大數(shù)據(jù)將加速推進(jìn)行業(yè)與信息技術(shù)的深度融合,開(kāi)拓行業(yè)發(fā)展的新方向。3、大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合知識(shí)必備二、大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響大數(shù)據(jù)的應(yīng)用開(kāi)發(fā),是大數(shù)據(jù)新技術(shù)開(kāi)發(fā)的源泉。在各種應(yīng)用需求的強(qiáng)烈驅(qū)動(dòng)下,各種突破性的大數(shù)據(jù)技術(shù)將被不斷提出并得到廣泛應(yīng)用,數(shù)據(jù)的量能也將不斷得到釋放。在不遠(yuǎn)的將來(lái),原來(lái)那些依靠人類自身判斷力的應(yīng)用,將逐漸被各種基于大數(shù)據(jù)的應(yīng)用所取代。4、大數(shù)據(jù)開(kāi)發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)知識(shí)必備三、大數(shù)據(jù)對(duì)就業(yè)市場(chǎng)的影響在就業(yè)市場(chǎng)上,一方面大數(shù)據(jù)的興起使得數(shù)據(jù)分析師、數(shù)字管理師、數(shù)字營(yíng)銷師等成為熱門職業(yè)?;ヂ?lián)網(wǎng)企業(yè)和零售、金融類企業(yè)都在積極爭(zhēng)奪大數(shù)據(jù)人才。隨機(jī)抽取招聘網(wǎng)站[[招聘網(wǎng)站指:智聯(lián)招聘、獵聘網(wǎng)、前程無(wú)憂、Boss直聘、拉勾網(wǎng)]2019年至今的招聘數(shù)據(jù),分析發(fā)現(xiàn)目前市場(chǎng)上和數(shù)據(jù)相關(guān)的崗位主要?jiǎng)澐譃閮深悾杭償?shù)據(jù)崗位和數(shù)據(jù)賦能崗位知識(shí)必備三、大數(shù)據(jù)對(duì)就業(yè)市場(chǎng)的影響另一方面,大數(shù)據(jù)技術(shù)應(yīng)用為大學(xué)生精準(zhǔn)就業(yè)帶來(lái)了新機(jī)遇,指明了大學(xué)生的就業(yè)方向,為就業(yè)指導(dǎo)提供了科學(xué)依據(jù)。通過(guò)對(duì)大數(shù)據(jù)的應(yīng)用,構(gòu)建大學(xué)生精準(zhǔn)就業(yè)機(jī)制,對(duì)大學(xué)生就業(yè)進(jìn)行精準(zhǔn)定位、分析、培訓(xùn)、匹配、對(duì)接、幫扶、跟蹤等,能實(shí)現(xiàn)大學(xué)生的高質(zhì)量就業(yè)。政府也可通過(guò)大數(shù)據(jù)實(shí)現(xiàn)人才政策發(fā)布的個(gè)性化、精準(zhǔn)化服務(wù);企業(yè)也可通過(guò)就業(yè)市場(chǎng)大數(shù)據(jù)的應(yīng)用招聘到合適人員。知識(shí)必備四、大數(shù)據(jù)對(duì)人才培養(yǎng)的影響1、大數(shù)據(jù)將改變高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制一方面,數(shù)據(jù)科學(xué)家是一個(gè)需要掌握統(tǒng)計(jì)、數(shù)學(xué)、機(jī)器學(xué)習(xí)、可視化、編程等多方面知識(shí)的復(fù)合型人才,在中國(guó)高?,F(xiàn)有的學(xué)科和專業(yè)設(shè)置中,上述專業(yè)知識(shí)分布在數(shù)學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)等多個(gè)學(xué)科中,任何一個(gè)學(xué)科都只能培養(yǎng)某個(gè)方向的專業(yè)人才,無(wú)法培養(yǎng)全面掌握數(shù)據(jù)科學(xué)相關(guān)知識(shí)的復(fù)合型人才。另一方面,數(shù)據(jù)科學(xué)家需要大數(shù)據(jù)應(yīng)用實(shí)戰(zhàn)環(huán)境,在真正的大數(shù)據(jù)環(huán)境中不斷學(xué)習(xí)、實(shí)踐并融會(huì)貫通,將自身技術(shù)背景與所在行業(yè)業(yè)務(wù)需求進(jìn)行深度融合,從數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,但是,目前大多高校還不具備這種培養(yǎng)環(huán)境,不僅缺乏大規(guī)?;A(chǔ)數(shù)據(jù),也缺乏對(duì)領(lǐng)域業(yè)務(wù)需求的理解。知識(shí)必備四、大數(shù)據(jù)對(duì)人才培養(yǎng)的影響2、大數(shù)據(jù)對(duì)傳統(tǒng)的工科類、商科類、文科類等專業(yè)人才培養(yǎng)帶來(lái)大的沖擊目前社會(huì)上提的“新工科”、“新商科”、“新文科”實(shí)際上就是傳統(tǒng)工科、商科、文科與大數(shù)據(jù)等信息技術(shù)的結(jié)合。傳統(tǒng)的工科、商科、文科類專業(yè)是按照工具型人才培養(yǎng)標(biāo)準(zhǔn)的教育理念來(lái)設(shè)置,基于勞動(dòng)分工理論,強(qiáng)調(diào)各個(gè)科目由單一、獨(dú)特的內(nèi)容組成,各學(xué)科相對(duì)獨(dú)立、封閉、自成體系。隨著時(shí)代的進(jìn)步,僅僅關(guān)注財(cái)務(wù)知識(shí)或物流管理知識(shí)本身已經(jīng)解決不了問(wèn)題,還需要進(jìn)一步了解行業(yè)發(fā)展現(xiàn)狀甚至國(guó)際、國(guó)內(nèi)市場(chǎng)的競(jìng)爭(zhēng)態(tài)勢(shì),還需要會(huì)使用大數(shù)據(jù)等新一代信息技術(shù)。學(xué)習(xí)感悟大數(shù)據(jù)能推動(dòng)科技創(chuàng)新,能帶來(lái)巨大經(jīng)濟(jì)效益,能夠增強(qiáng)社會(huì)管理水平,大數(shù)據(jù)作為一種新的資源,給我們的社會(huì)生活帶來(lái)深遠(yuǎn)影響。隨著數(shù)字化轉(zhuǎn)型不斷提速,大數(shù)據(jù)給我們帶來(lái)的實(shí)惠將會(huì)越來(lái)越多。然而,在數(shù)字化轉(zhuǎn)型過(guò)程中,數(shù)字化人才缺口成為了困擾企業(yè)轉(zhuǎn)型與發(fā)展的大問(wèn)題,大數(shù)據(jù)的專門人才以及其它專業(yè)人才數(shù)字能力和數(shù)字素養(yǎng)的剛需已經(jīng)成為社會(huì)共識(shí)。年輕人必須看清社會(huì)發(fā)展變化的趨勢(shì),抓住社會(huì)變革的契機(jī),在數(shù)字化大變革中搶抓先機(jī),提升數(shù)字素養(yǎng)、學(xué)習(xí)數(shù)字技術(shù),為自己贏得更好的發(fā)展機(jī)遇。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.選擇一個(gè)自己喜歡或熟悉行業(yè),分析大數(shù)據(jù)對(duì)它帶來(lái)的影響。3.聯(lián)系自身專業(yè)進(jìn)行分析回答為什么應(yīng)該加強(qiáng)數(shù)字能力、數(shù)字素養(yǎng)的培養(yǎng)?任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答大數(shù)據(jù)對(duì)科學(xué)研究的影響;(5分)能夠按大數(shù)據(jù)對(duì)社會(huì)發(fā)展帶來(lái)的影響;(5分)能夠回答大數(shù)據(jù)對(duì)就業(yè)和人才培養(yǎng)的影響。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

舉例說(shuō)明大數(shù)據(jù)對(duì)社會(huì)帶來(lái)的影響的考評(píng);(20分)描述專業(yè)應(yīng)如何加強(qiáng)數(shù)字能力和數(shù)字素養(yǎng)的培養(yǎng)考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

項(xiàng)目小結(jié)通過(guò)本項(xiàng)目,讀者應(yīng)該掌握的理論知識(shí)如下:數(shù)據(jù)、大數(shù)據(jù)概念,數(shù)據(jù)的類型,大數(shù)據(jù)特征。云計(jì)算機(jī)、物聯(lián)網(wǎng)、人工智能內(nèi)涵以及它們與大數(shù)據(jù)的關(guān)系。傳統(tǒng)思維方式、大數(shù)據(jù)思維方式各有哪些,大數(shù)據(jù)的基本工作流程。大數(shù)據(jù)的基本工作流程。通過(guò)本項(xiàng)目,讀者應(yīng)該掌握的技能如下:能夠運(yùn)用大數(shù)據(jù)相關(guān)基礎(chǔ)知識(shí),做好數(shù)據(jù)分析的全面準(zhǔn)備工作;能夠使用大數(shù)據(jù)的思維模式去思考問(wèn)題、分析問(wèn)題。能針對(duì)大數(shù)據(jù)對(duì)科技、社會(huì)發(fā)展、就業(yè)、人才培養(yǎng)的影響進(jìn)行分析。復(fù)習(xí)與鞏固1.簡(jiǎn)單描述大數(shù)據(jù)的主要特征。2.分析大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、人工智能的關(guān)系3.有哪些傳統(tǒng)思維方式和大數(shù)據(jù)思維方式?請(qǐng)針對(duì)每種思維方式各舉一案例。4.簡(jiǎn)單描述大數(shù)據(jù)的基本工作流程5.簡(jiǎn)要回答大數(shù)據(jù)是怎樣催生“新經(jīng)濟(jì)”的?6.結(jié)合實(shí)際生活,談一談大數(shù)據(jù)的社會(huì)價(jià)值主要體現(xiàn)在哪些方面。謝謝聆聽(tīng)THANKYOUFORYOURATTENTION大數(shù)據(jù)基礎(chǔ)項(xiàng)目二

數(shù)據(jù)采集與預(yù)處理項(xiàng)目簡(jiǎn)介大隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)增長(zhǎng),差不多每?jī)赡攴环?,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。面對(duì)如此巨大的數(shù)據(jù),如何收集這些數(shù)據(jù),并且進(jìn)行清洗、轉(zhuǎn)換為有效的數(shù)據(jù)呢?這是每一個(gè)大數(shù)據(jù)應(yīng)用者首先要遇到的。本項(xiàng)目將帶領(lǐng)你認(rèn)識(shí)數(shù)據(jù)采集的數(shù)據(jù)來(lái)源、數(shù)據(jù)采集方法,評(píng)估數(shù)據(jù)質(zhì)量,識(shí)別臟數(shù)據(jù),掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。學(xué)習(xí)目標(biāo)知識(shí)目標(biāo)1.理解數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約的基本概念;2.熟悉數(shù)據(jù)采集來(lái)源和常用的數(shù)據(jù)采集方法;3.熟悉數(shù)據(jù)質(zhì)量的影響因素和數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn)3.熟悉常見(jiàn)“臟數(shù)據(jù)”類型;4.掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。能力目標(biāo)1.能根據(jù)數(shù)據(jù)采集需求選定數(shù)據(jù)來(lái)源和采集方法;2.能夠使用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集工具采集數(shù)據(jù);3.能夠分析數(shù)據(jù)質(zhì)量影響因素,評(píng)估數(shù)據(jù)質(zhì)量;4.能對(duì)數(shù)據(jù)進(jìn)行一般的數(shù)據(jù)清洗、集成、變換和歸約處理。。素質(zhì)目標(biāo)1.養(yǎng)成做事條理清晰、對(duì)數(shù)據(jù)保持懷疑、善于發(fā)現(xiàn)的工作作風(fēng);2.養(yǎng)成對(duì)數(shù)據(jù)采集、預(yù)處理過(guò)程的細(xì)心、客觀職業(yè)方式。。思政目標(biāo)培養(yǎng)大數(shù)據(jù)采集與預(yù)處理中的數(shù)據(jù)采集人員職業(yè)倫理操守,以及對(duì)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理過(guò)程中的遵紀(jì)守法。思維導(dǎo)圖任務(wù)一數(shù)據(jù)采集任務(wù)清單工作任務(wù)數(shù)據(jù)采集教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述小王還有一年大學(xué)畢業(yè),為了使自己畢業(yè)找工作更有競(jìng)爭(zhēng)力,聽(tīng)人說(shuō),數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)分析類崗位應(yīng)該會(huì)有前景。于是他想考一個(gè)“數(shù)據(jù)分析員”技能等級(jí)證書,但小王對(duì)這個(gè)崗位的市場(chǎng)前景、熱度、競(jìng)爭(zhēng)力都還只是道聽(tīng)途說(shuō),他想通過(guò)網(wǎng)絡(luò)采集數(shù)據(jù)來(lái)進(jìn)行分析,那么小王應(yīng)該采集什么數(shù)據(jù)?在哪里采集數(shù)據(jù)?用什么工具來(lái)采集呢?任務(wù)目標(biāo)理解數(shù)據(jù)采集概念;掌握數(shù)據(jù)采取流程;熟悉數(shù)據(jù)采集來(lái)源渠道;掌握數(shù)據(jù)采集常用方法;能根據(jù)數(shù)據(jù)采集的需求識(shí)別,選取數(shù)據(jù)獲取渠道;能根據(jù)不同的數(shù)據(jù)渠道和數(shù)據(jù)類型選用合適的采取方法;能熟練使用八爪魚等網(wǎng)絡(luò)爬蟲工具采集數(shù)據(jù);養(yǎng)成條理清晰、細(xì)心的工作作風(fēng);養(yǎng)成合規(guī)合法的數(shù)據(jù)采集的職業(yè)操守。關(guān)鍵詞數(shù)據(jù)采集、數(shù)據(jù)來(lái)源、采集方法、網(wǎng)絡(luò)爬蟲知識(shí)必備一、什么是數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是大數(shù)據(jù)工作的入口,也是數(shù)據(jù)分析過(guò)程中相當(dāng)重要的一個(gè)環(huán)節(jié),它通過(guò)各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。相比傳統(tǒng)數(shù)據(jù)采集,大數(shù)據(jù)采集在數(shù)據(jù)源上,大數(shù)據(jù)采集的來(lái)源更廣泛,數(shù)據(jù)量巨大;在數(shù)據(jù)類型上,大數(shù)據(jù)采集的數(shù)據(jù)類型更豐富。知識(shí)必備二、數(shù)據(jù)采集需求識(shí)別針對(duì)不同的需求,我們需要組合不同的數(shù)據(jù)進(jìn)行分析。從多角度考慮設(shè)計(jì)。如分析宏觀背景,可以從年代變化、地區(qū)差異、政策方面搜集數(shù)據(jù);分析微觀事件,可以從媒體關(guān)注、網(wǎng)民討論、時(shí)間節(jié)點(diǎn)、擴(kuò)散路徑等方面搜集數(shù)據(jù);評(píng)價(jià)品牌營(yíng)銷效果,可以從目標(biāo)達(dá)成率、最終銷售額、用戶增長(zhǎng)情況、用戶評(píng)價(jià)等方面搜集數(shù)據(jù);了解平臺(tái)運(yùn)營(yíng)質(zhì)量,可以從網(wǎng)站訪問(wèn)情況、登錄用戶數(shù)、內(nèi)容閱讀、互動(dòng)評(píng)價(jià)等方面搜集數(shù)據(jù)。確定分析方向明確數(shù)據(jù)需求多渠道獲取數(shù)據(jù)如何接受數(shù)據(jù)混雜的現(xiàn)實(shí),在海量的數(shù)據(jù)中找到我們需要的數(shù)據(jù)?知識(shí)必備二、數(shù)據(jù)采集需求識(shí)別全面性多維性高效性全面性是指的采集的數(shù)據(jù)量足夠大具有分析價(jià)值,數(shù)據(jù)面足夠全支撐分析需求。數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。高效性包含技術(shù)執(zhí)行的高效性、團(tuán)隊(duì)內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實(shí)現(xiàn)的高效性。也就是說(shuō)采集數(shù)據(jù)一定要明確采集目的,帶著問(wèn)題、帶著需求搜集信息,使采集更高效、更有針對(duì)性。在進(jìn)行具體數(shù)據(jù)采集時(shí),需要考慮以下3個(gè)要點(diǎn)知識(shí)必備三、數(shù)據(jù)采集來(lái)源1、互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指用戶參與和使用社交平臺(tái)、系統(tǒng)、軟件產(chǎn)生的數(shù)據(jù),以及互聯(lián)網(wǎng)平臺(tái)發(fā)布的數(shù)據(jù)。目前被用戶使用的主流的互聯(lián)網(wǎng)平臺(tái)數(shù)量眾多,比如微信、微博、抖音、QQ、百度貼吧;各個(gè)門戶新聞網(wǎng)站,如今日頭條、新浪,等等。在用戶訪問(wèn)網(wǎng)站期間,其行為會(huì)產(chǎn)生大量的數(shù)據(jù),比如利用電子郵件發(fā)送消息,上傳文字文檔來(lái)表述自己的想法與思考,上傳圖片記錄自己喜愛(ài)的瞬間,上傳音頻或是視頻來(lái)記錄身邊生活,這些通過(guò)不同的社交平臺(tái)或是門戶網(wǎng)站所產(chǎn)生的不同格式的數(shù)據(jù)。知識(shí)必備三、數(shù)據(jù)采集來(lái)源2、日志數(shù)據(jù)許多公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志文件數(shù)據(jù)。日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動(dòng),比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的支付記賬和Web服務(wù)器記錄的用戶訪問(wèn)行為。通過(guò)對(duì)這些日志信息進(jìn)行采集,然后進(jìn)行數(shù)據(jù)分析,就可以從公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中挖掘得到具有潛在價(jià)值的信息,為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估提供可靠的數(shù)據(jù)保證。知識(shí)必備三、數(shù)據(jù)采集來(lái)源3、企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)許多公司使用的業(yè)務(wù)處理系統(tǒng)也會(huì)產(chǎn)生大量的業(yè)務(wù)系統(tǒng)數(shù)據(jù)。如,企業(yè)資源計(jì)劃、客戶關(guān)系管理、供應(yīng)鏈管理、人力資源管理、財(cái)務(wù)系統(tǒng)、等等。這些數(shù)據(jù)一般會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的存儲(chǔ)。企業(yè)每天產(chǎn)生的業(yè)務(wù)數(shù)據(jù),會(huì)以數(shù)據(jù)庫(kù)記錄形式被直接寫入到數(shù)據(jù)庫(kù)中。這些業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)可以滿足企業(yè)的各種商務(wù)決策分析需求。知識(shí)必備三、數(shù)據(jù)采集來(lái)源4、傳感器數(shù)據(jù)傳感器數(shù)據(jù)是指利用物聯(lián)網(wǎng)采集原始數(shù)據(jù)。利用物聯(lián)網(wǎng),數(shù)據(jù)可以來(lái)自醫(yī)療設(shè)備、監(jiān)控設(shè)備、辦公設(shè)備、車輛、視頻游戲、儀表數(shù)據(jù)、照相機(jī)以及各種家用電器。如常見(jiàn)的監(jiān)控設(shè)備采集圖像、視頻信息,話筒獲取聲音信息,掃描器讀取物體尺寸信息,還有各式傳感器采集氣壓、溫度、濕度等信息。物聯(lián)網(wǎng)的目標(biāo)是將眾多的實(shí)體整合進(jìn)互聯(lián)網(wǎng)內(nèi),從而分享數(shù)據(jù)、分析數(shù)據(jù),提供更好的用戶體驗(yàn)。知識(shí)必備四、數(shù)據(jù)采集方法1、網(wǎng)絡(luò)爬蟲對(duì)于互聯(lián)網(wǎng)web數(shù)據(jù)的采集,主要通過(guò)網(wǎng)絡(luò)爬蟲來(lái)進(jìn)行采集。爬蟲是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序,是搜索引擎和Web緩存等的主要數(shù)據(jù)采集方式。網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。當(dāng)前使用較多的網(wǎng)絡(luò)爬蟲工具主要有Python、八爪魚采集器、火車采集器等工具。網(wǎng)絡(luò)爬蟲技術(shù)作為一種重要的數(shù)據(jù)采集手段,已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng)的諸多領(lǐng)域,但是爬蟲技術(shù)的應(yīng)用具有違法性邊界。知識(shí)鏈接:涉網(wǎng)絡(luò)爬蟲的刑法案件及刑事法律規(guī)制知識(shí)必備四、數(shù)據(jù)采集方法1、網(wǎng)絡(luò)爬蟲使用網(wǎng)絡(luò)爬蟲工具—八爪魚采集器八爪魚采集教程/tutorialIndex8知識(shí)必備四、數(shù)據(jù)采集方法2、日志采集系統(tǒng)日志數(shù)據(jù)的采集通常通過(guò)日志采集系統(tǒng)自動(dòng)完成,很多互聯(lián)網(wǎng)企業(yè)都有自己的日志采集系統(tǒng),如Facebook的Scribe、Clouders的Flume、Hadoop的Chukwa等。日志數(shù)據(jù)采集也可以通過(guò)第三方平臺(tái)來(lái)獲取,如CNZZ數(shù)據(jù)專家網(wǎng)站。日志采集系統(tǒng)要做的事情就是實(shí)時(shí)采集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。高可用性、高可靠性、和可擴(kuò)展性是日志采集系統(tǒng)所具有的基本特征。知識(shí)必備四、數(shù)據(jù)采集方法3、數(shù)據(jù)庫(kù)采集互聯(lián)網(wǎng)產(chǎn)品后端、企業(yè)的內(nèi)部業(yè)務(wù)系統(tǒng)都有業(yè)務(wù)數(shù)據(jù)庫(kù),其中存儲(chǔ)了銷售量、訂單量、購(gòu)買用戶數(shù)、粉絲數(shù)、閱讀數(shù)等指標(biāo)數(shù)據(jù)。例如,淘寶網(wǎng)店、微信公眾號(hào)、微博平臺(tái)等的后臺(tái)。數(shù)據(jù)庫(kù)采集系統(tǒng)通過(guò)直接與企業(yè)后臺(tái)服務(wù)器結(jié)合,可以直接采集業(yè)務(wù)后臺(tái)產(chǎn)生的大量業(yè)務(wù)記錄,并交由特定的處理系統(tǒng)進(jìn)行系統(tǒng)分析。目前比較常見(jiàn)的數(shù)據(jù)庫(kù)采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。在從各類專業(yè)數(shù)據(jù)庫(kù)中采集數(shù)據(jù)時(shí),隨著業(yè)務(wù)的不斷實(shí)施,數(shù)據(jù)庫(kù)中的數(shù)據(jù)一直在不斷變化,此時(shí)從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)一般有全量數(shù)據(jù)抽取和增量數(shù)據(jù)抽取兩種方式。全量數(shù)據(jù)抽取是指將數(shù)據(jù)庫(kù)中的全部數(shù)據(jù)抽取出來(lái),而增量數(shù)據(jù)抽取是指僅抽取最近一次抽取后數(shù)據(jù)庫(kù)中有變化的部分。知識(shí)必備四、數(shù)據(jù)采集方法4、傳感器采集傳感器是一種能將感受到的聲音、溫度、壓力、電流、振動(dòng)和距離等類型的信息,按一定規(guī)律轉(zhuǎn)換為電信號(hào)或其他形式的信息輸出的裝置,常用于獲取各種信息,特點(diǎn)是數(shù)字化、多功能化、系統(tǒng)化、智能化和網(wǎng)絡(luò)化。傳感器采集方式一般是通過(guò)選擇設(shè)備、設(shè)定參數(shù)可實(shí)時(shí)自動(dòng)采集到目標(biāo)數(shù)據(jù)。通過(guò)智能感知、識(shí)別技術(shù)與普適計(jì)算等通信感知技術(shù),將測(cè)量所得的物理變量的測(cè)量值轉(zhuǎn)化為數(shù)字信號(hào)、傳送到數(shù)據(jù)采集點(diǎn)。知識(shí)必備四、數(shù)據(jù)采集方法5、第三方統(tǒng)計(jì)平臺(tái)數(shù)據(jù)采集隨著大數(shù)據(jù)應(yīng)用的推進(jìn),在一些專業(yè)二手平臺(tái)上,網(wǎng)售大數(shù)據(jù)采集和定制業(yè)務(wù)頗為盛行。有些從事信息販賣的“商家”,正大肆兜售著覆蓋諸多行業(yè)的用戶信息,內(nèi)容頗為龐雜,可謂五花八門,無(wú)所不包。有的還明碼標(biāo)價(jià),成行成市。這些人打著“專業(yè)定制”的旗號(hào),無(wú)論需要哪類信息,只要客戶提出要求,其都能從網(wǎng)上為你采集到。這些數(shù)據(jù)商的背后隱藏著一條非法獲取用戶數(shù)據(jù)的產(chǎn)業(yè)鏈。他們通過(guò)專業(yè)的“爬蟲軟件”非法爬取,或者通過(guò)私設(shè)監(jiān)控、不正規(guī)渠道買賣數(shù)據(jù)等,采集各類個(gè)人信息及實(shí)時(shí)數(shù)據(jù),經(jīng)過(guò)匯總、整理然后生成所謂大數(shù)據(jù)產(chǎn)品出售。這些行為是否合法?如果任由此類行業(yè)繼續(xù)發(fā)展,將會(huì)帶來(lái)怎樣的后果?想一想知識(shí)鏈接:警惕非法數(shù)據(jù)采集和數(shù)據(jù)交易行為課堂思政學(xué)習(xí)感悟數(shù)據(jù)采集是大數(shù)據(jù)產(chǎn)業(yè)的基石,只有全面、多維、高效地進(jìn)行數(shù)據(jù)采集,大數(shù)據(jù)才具有它應(yīng)有的商業(yè)價(jià)值。因此一方面要廣開(kāi)數(shù)據(jù)采集的來(lái)源渠道,另一方面選擇合適的采集方法。同時(shí),在進(jìn)行數(shù)據(jù)采集過(guò)程中,要做到合法合規(guī)采集。站在數(shù)據(jù)場(chǎng)景的角度,與數(shù)據(jù)有關(guān)的主體可以分為數(shù)據(jù)主體、數(shù)據(jù)控制者和數(shù)據(jù)處理者。在具體的商業(yè)場(chǎng)景中,由于數(shù)據(jù)采集者、處理者、運(yùn)營(yíng)者、交易者等多個(gè)主體混雜在各個(gè)交易流程中,背后隱藏著多種商業(yè)訴求,很容易發(fā)生爭(zhēng)議。因此,從嚴(yán)管控非必要采集數(shù)據(jù)行為,依法依規(guī)打擊黑市數(shù)據(jù)交易行為是非常必要的。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.針對(duì)任務(wù)描述中小王的需求,聯(lián)系所學(xué)的數(shù)據(jù)采集知識(shí),回答以下問(wèn)題:①小王數(shù)據(jù)采集的需求是什么?②小王需采集什么樣數(shù)據(jù)?③小王采集數(shù)據(jù)的來(lái)源渠道有哪些?④小王采集數(shù)據(jù)可使用的工具有哪些?3.使用網(wǎng)絡(luò)爬蟲工具—八爪魚采集器來(lái)采集BOSS直聘網(wǎng)站中“數(shù)據(jù)分析師”相關(guān)的招聘信息,需要采集到公司名稱、成立時(shí)間、法人代表、招聘職位、月薪等數(shù)據(jù),可以通過(guò)公司詳情頁(yè)內(nèi)容來(lái)采集。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答數(shù)據(jù)采集流程;(5分)能夠回答數(shù)據(jù)來(lái)源的各種渠道;(5分)能夠理解和回答各種類型數(shù)據(jù)的采取方法。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)任務(wù)描述中小王數(shù)據(jù)采集思路判斷的考評(píng);(20分)使用八爪魚采集數(shù)據(jù)實(shí)際操作的考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)二數(shù)據(jù)質(zhì)量評(píng)估任務(wù)清單工作任務(wù)數(shù)據(jù)質(zhì)量評(píng)估教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述人們?cè)诓杉瘮?shù)據(jù)的同時(shí)會(huì)由于各種各樣的原因,也會(huì)附帶各種數(shù)據(jù)的質(zhì)量問(wèn)題,而數(shù)據(jù)質(zhì)量的高低對(duì)工業(yè)、經(jīng)濟(jì)、生活等社會(huì)的方方面面會(huì)產(chǎn)生重大影響,數(shù)據(jù)質(zhì)量問(wèn)題很有可能導(dǎo)致最終決策錯(cuò)誤,造成惡劣的后果,嚴(yán)重困擾著信息社會(huì)。那么數(shù)據(jù)質(zhì)量的影響因素有哪些?具體的評(píng)估標(biāo)準(zhǔn)是什么?遇到數(shù)據(jù)質(zhì)量問(wèn)題我們應(yīng)該怎么做?小王急需解決以上問(wèn)題。任務(wù)目標(biāo)了解影響數(shù)據(jù)質(zhì)量的因素;掌握數(shù)據(jù)存在的常見(jiàn)問(wèn)題;掌握評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn);掌握針對(duì)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行的數(shù)據(jù)預(yù)處理方法;能檢測(cè)和判斷數(shù)據(jù)質(zhì)量問(wèn)題;能根據(jù)數(shù)據(jù)存在質(zhì)量問(wèn)題選用對(duì)應(yīng)預(yù)處理方法;具備對(duì)數(shù)據(jù)質(zhì)量檢測(cè)判斷的嚴(yán)謹(jǐn)和細(xì)致的素養(yǎng)。關(guān)鍵詞影響因素、缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)、評(píng)估標(biāo)準(zhǔn)知識(shí)必備一、影響數(shù)據(jù)質(zhì)量的因素?cái)?shù)據(jù)質(zhì)量反映的是數(shù)據(jù)的“適用性(fitnessforuse)”,即數(shù)據(jù)滿足使用需要的合適程度。數(shù)據(jù)質(zhì)量管理的目的是為企業(yè)提供潔凈、結(jié)構(gòu)清晰的數(shù)據(jù),是企業(yè)開(kāi)發(fā)業(yè)務(wù)系統(tǒng)、提供數(shù)據(jù)服務(wù)、發(fā)揮數(shù)據(jù)價(jià)值的必要前提,是企業(yè)數(shù)據(jù)資產(chǎn)管理的前提。影響數(shù)據(jù)質(zhì)量的因素有很多,數(shù)據(jù)質(zhì)量問(wèn)題按照問(wèn)題的來(lái)源和具體原因,可以分為信息、技術(shù)、流程、管理四個(gè)問(wèn)題域。2.技術(shù)類問(wèn)題信息類問(wèn)題是由于對(duì)數(shù)據(jù)本身的描述理解及其度量標(biāo)準(zhǔn)的偏差而造成的數(shù)據(jù)質(zhì)量問(wèn)題。產(chǎn)生這部分?jǐn)?shù)據(jù)質(zhì)量問(wèn)題的原因主要有:元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)度量的各種性質(zhì)得不到保證和變化頻度不恰當(dāng)?shù)?。技術(shù)類問(wèn)題是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問(wèn)題,它產(chǎn)生的直接原因是技術(shù)實(shí)現(xiàn)上的某種缺陷。1.信息類問(wèn)題知識(shí)必備一、影響數(shù)據(jù)質(zhì)量的因素流程類問(wèn)題是指由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問(wèn)題,主要來(lái)源于主題分析數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護(hù)流程和稽核流程等各環(huán)節(jié)。管理類問(wèn)題是指由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問(wèn)題,如人員管理、培訓(xùn)和獎(jiǎng)勵(lì)等方面的措施不當(dāng)導(dǎo)致的管理缺失。3.流程類問(wèn)題4.管理類問(wèn)題上述數(shù)據(jù)質(zhì)量問(wèn)題的影響因素分析,從側(cè)面展示了企業(yè)數(shù)據(jù)一次性達(dá)標(biāo)的困難程度;也反映出關(guān)注數(shù)據(jù)質(zhì)量的重要性、以及數(shù)據(jù)質(zhì)量工作的零散和瑣碎的特點(diǎn)。信息、流程和技術(shù)三個(gè)方面的數(shù)據(jù)質(zhì)量問(wèn)題相對(duì)來(lái)說(shuō),比較容易控制,有可能通過(guò)引入數(shù)據(jù)質(zhì)量管理體系和數(shù)據(jù)質(zhì)量管理系統(tǒng)得到改善;對(duì)于管理類的數(shù)據(jù)質(zhì)量問(wèn)題,往往與企業(yè)對(duì)數(shù)據(jù)的理解和支持程度緊密相關(guān),需要從數(shù)據(jù)規(guī)劃、數(shù)據(jù)治理的組織與職責(zé)、數(shù)據(jù)規(guī)范的制度和流程方面下功夫。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題數(shù)據(jù)采集階段引起數(shù)據(jù)質(zhì)量問(wèn)題的因素主要有兩點(diǎn):數(shù)據(jù)來(lái)源和采集方法。數(shù)據(jù)來(lái)源一般分為直接來(lái)源和間接來(lái)源,直接來(lái)源主要指的是直接調(diào)查收集、科學(xué)實(shí)驗(yàn)、業(yè)務(wù)系統(tǒng)直接生成、傳感器直接采集等方式直接獲取的數(shù)據(jù),由于是一手?jǐn)?shù)據(jù),可信度相對(duì)來(lái)說(shuō)比較高。間接來(lái)源主要是指他人通過(guò)調(diào)查或?qū)嶒?yàn)獲得的數(shù)據(jù),如從統(tǒng)計(jì)部門、第三方數(shù)據(jù)統(tǒng)計(jì)機(jī)構(gòu)獲取的數(shù)據(jù),這種二手?jǐn)?shù)據(jù)的質(zhì)量相對(duì)來(lái)說(shuō)更難把握。在采集方法上,通過(guò)自動(dòng)采集、減少中間環(huán)節(jié)和人為操作所獲得數(shù)據(jù)質(zhì)量相對(duì)來(lái)說(shuō)質(zhì)量更高些。但不管怎樣,還是會(huì)出現(xiàn)數(shù)據(jù)采集設(shè)備異常、錄入數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)傳輸異常等問(wèn)題所帶來(lái)的數(shù)據(jù)質(zhì)量問(wèn)題。具體來(lái)說(shuō),采集過(guò)來(lái)的原始數(shù)據(jù)主要會(huì)存在以下幾個(gè)問(wèn)題。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題(一)重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)一般可以分為兩類,一種是實(shí)體重復(fù),就是指數(shù)據(jù)記錄的所有字段都重復(fù);另一種是指某一個(gè)或多個(gè)不該重復(fù)的字段重復(fù)。例如,某快遞信息表中,快遞單號(hào)是可以唯一標(biāo)識(shí)每條記錄的指標(biāo),結(jié)果發(fā)現(xiàn)某一個(gè)快遞單號(hào)出現(xiàn)了兩次,這就表示為重復(fù)數(shù)據(jù)。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題(二)缺失數(shù)據(jù)缺失數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。缺失數(shù)據(jù)可能是由于數(shù)據(jù)錄入、存儲(chǔ)過(guò)程中的人為失誤和系統(tǒng)軟硬件問(wèn)題,也有可能是由于數(shù)據(jù)采集中傳感器等采集設(shè)備出現(xiàn)故障沒(méi)有獲取到數(shù)據(jù)。缺失數(shù)據(jù)會(huì)影響分析結(jié)果的可信度,甚至使分析結(jié)果出現(xiàn)嚴(yán)重偏差。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題(三)錯(cuò)誤數(shù)據(jù)數(shù)據(jù)產(chǎn)生錯(cuò)誤的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷而是直接寫入后臺(tái)數(shù)據(jù)庫(kù)造成的。錯(cuò)誤數(shù)據(jù)分為兩種,一種是格式的錯(cuò)誤,例如數(shù)值數(shù)據(jù)輸入成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有回車操作、日期格式不正確、日期越界等。另一類是數(shù)值錯(cuò)誤,通常也稱為異常值,是指所獲得數(shù)據(jù)與平均值的偏差超過(guò)兩倍的數(shù)據(jù),異常值產(chǎn)生的原因很多,例如錄入數(shù)據(jù)時(shí)誤將“80”錄入為“800”,那么當(dāng)數(shù)據(jù)都為100左右的數(shù)據(jù),“800”就會(huì)被識(shí)別為異常值。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題(四)冗余數(shù)據(jù)數(shù)據(jù)冗余一方面指多個(gè)數(shù)據(jù)集合并時(shí)同一條數(shù)據(jù)命名或者編碼方式不同,例如某數(shù)據(jù)集的變量名稱為“用戶編碼”而在另一個(gè)數(shù)據(jù)集中為“ID”;另一方面指數(shù)據(jù)集中的兩個(gè)或多個(gè)變量之間存在相關(guān)或推導(dǎo)關(guān)系,例如數(shù)據(jù)集中同時(shí)存在投入產(chǎn)出比、總投入、總收益的數(shù)據(jù),而其中投入產(chǎn)出比=總收益/總投入。冗余數(shù)據(jù)會(huì)造成數(shù)據(jù)重復(fù)或分析結(jié)果產(chǎn)生偏差。知識(shí)必備二、數(shù)據(jù)存在的常見(jiàn)問(wèn)題(五)不一致數(shù)據(jù)不一致數(shù)據(jù)一般表現(xiàn)為以下三個(gè)方面。一是人工/機(jī)械原因?qū)е碌匿浫脲e(cuò)誤或者數(shù)據(jù)規(guī)范不同。例如將數(shù)據(jù)集中的“客單價(jià)”錄入為“-180”,又如變量名“用戶編碼”下,某數(shù)據(jù)集的規(guī)范是“3位”,而另一個(gè)數(shù)據(jù)集中的要求位“5位”。二是變量單位或者量綱不匹配。例如,某數(shù)據(jù)集中的商品價(jià)格以“元”為單位,另一個(gè)數(shù)據(jù)集中卻為“萬(wàn)元”。三是數(shù)據(jù)特征不適應(yīng)特定數(shù)據(jù)分析模型的需求或變量過(guò)多,分析難度較大。例如,客戶系統(tǒng)分為男和女兩種客戶,但回歸分析模型中要求數(shù)據(jù)是數(shù)值型的,這樣就必須將其轉(zhuǎn)變?yōu)?與1再進(jìn)行處理。知識(shí)必備三、評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(一)完整性完整性指的是數(shù)據(jù)信息是否存在缺失情況。數(shù)據(jù)缺失情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,完整性通常與空值(NULL)有關(guān)。空值是缺失或不知道具體值的值。另外,完整性還可通過(guò)數(shù)據(jù)統(tǒng)計(jì)中的記錄值和唯一值進(jìn)行評(píng)估;例如,網(wǎng)站日志訪問(wèn)就是一個(gè)記錄值,平時(shí)的日訪問(wèn)量在1000左右,突然某一天降到100了,那就需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計(jì)地域分布情況的每一個(gè)地區(qū)名就是一個(gè)唯一值,我國(guó)包括34個(gè)省級(jí)行政單位,如果統(tǒng)計(jì)得到的唯一值小于34,則可以判斷數(shù)據(jù)有可能存在缺失。知識(shí)必備三、評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(二)一致性一致性是指數(shù)據(jù)是否合乎規(guī)范,數(shù)據(jù)集內(nèi)的數(shù)據(jù)是否保持統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。數(shù)據(jù)記錄的規(guī)范主要體現(xiàn)在數(shù)據(jù)編碼和格式。一項(xiàng)數(shù)據(jù)有它特定的格式,例如,手機(jī)號(hào)碼一定是11位的數(shù)字,IP地址是由4個(gè)0~255的數(shù)字加上“.”組成的;或者有一些預(yù)先定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等。邏輯則是指多項(xiàng)數(shù)據(jù)間存在著固定的邏輯關(guān)系以及一些預(yù)先定義的數(shù)據(jù)約束。例如,頁(yè)面瀏覽(PageViewPV)量一定是大于等于獨(dú)立訪客(UniqueVisito,UV)量的,跳出率一定為0~1。數(shù)據(jù)的一致性檢驗(yàn)是數(shù)據(jù)質(zhì)量檢驗(yàn)中比較重要也是比較復(fù)雜的一項(xiàng)。知識(shí)必備三、評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(三)準(zhǔn)確性準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異常或錯(cuò)誤。和一致性不一樣,導(dǎo)致一致性問(wèn)題的原因可能是數(shù)據(jù)記錄規(guī)則不同,但它不一定是錯(cuò)誤的。而存在準(zhǔn)確性問(wèn)題的數(shù)據(jù)不僅僅是規(guī)則上的不一致。準(zhǔn)確性關(guān)注數(shù)據(jù)中的錯(cuò)誤,最為常見(jiàn)的數(shù)據(jù)準(zhǔn)確性問(wèn)題就是亂碼。它還包括異?;蛘咝〉臄?shù)據(jù)以及不符合有效性規(guī)則的數(shù)據(jù),如訪問(wèn)量一定是整數(shù)、年齡一般為1~100、轉(zhuǎn)化率一定是0~1的值等。知識(shí)必備三、評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(四)及時(shí)性及時(shí)性是指數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)。及時(shí)性對(duì)于數(shù)據(jù)分析本身的要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時(shí)間過(guò)長(zhǎng),就可能導(dǎo)致分析得出的結(jié)論失去了借鑒意義。所以我們需要對(duì)數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)進(jìn)行關(guān)注。例如,每周的數(shù)據(jù)分析報(bào)告要兩周后才能出來(lái),那么分析的結(jié)論可能已經(jīng)失去及時(shí)性,分析師的工作只是徒勞。同時(shí),某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級(jí)的數(shù)據(jù),它們對(duì)數(shù)據(jù)的及時(shí)性要求極高。所以及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。知識(shí)必備三、評(píng)估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)分析人員在檢查評(píng)估數(shù)據(jù)質(zhì)量時(shí),發(fā)現(xiàn)某條記錄數(shù)據(jù)中的郵箱字段的值記錄為179864378@126,這違反了數(shù)據(jù)質(zhì)量評(píng)估中的哪一條?想一想知識(shí)鏈接:我國(guó)信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)知識(shí)必備四、數(shù)據(jù)預(yù)處理的方法通過(guò)各種渠道收集來(lái)的數(shù)據(jù),常出現(xiàn)缺失、異常、冗余、不一致等現(xiàn)象,并不能直接為數(shù)據(jù)分析所用。此外,一些成熟的數(shù)據(jù)分析模型對(duì)處理的數(shù)據(jù)有特定的要求,比如一定的數(shù)據(jù)類型、統(tǒng)一的數(shù)據(jù)量綱,以及數(shù)據(jù)的冗余性要求、屬性的相關(guān)性要求等。因此對(duì)原始數(shù)據(jù)必須評(píng)估數(shù)據(jù)質(zhì)量,進(jìn)行數(shù)據(jù)預(yù)處理,才能進(jìn)行分析。數(shù)據(jù)的預(yù)處理總體目標(biāo)是為進(jìn)行后續(xù)的數(shù)據(jù)挖掘工作提供可靠和高質(zhì)量的數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度和數(shù)據(jù)挖掘效率。為了得到高質(zhì)量的數(shù)據(jù),數(shù)據(jù)預(yù)處理之前需要制定和明確統(tǒng)一的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),在數(shù)據(jù)預(yù)處理的過(guò)程需要做到以下4個(gè)基本要求:(1)檢測(cè)并除去數(shù)據(jù)中所有明顯的錯(cuò)誤和噪聲;(2)盡可能地減小人工干預(yù)和用戶的編程工作量,并且容易擴(kuò)展到其它數(shù)據(jù)源;(3)與數(shù)據(jù)轉(zhuǎn)化相結(jié)合;(4)要有相應(yīng)的描述語(yǔ)言來(lái)指定數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)化操作,所有這些操作應(yīng)該在一個(gè)統(tǒng)一的框架下完成。知識(shí)必備四、數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理流程中必不可少的關(guān)鍵步驟,更是進(jìn)行數(shù)據(jù)分析和挖掘前的準(zhǔn)備工作。我們要一方面保證挖掘數(shù)據(jù)的正確性和有效性;另一方面要通過(guò)對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。數(shù)據(jù)預(yù)處理的主要任務(wù)包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。具體數(shù)據(jù)預(yù)處理的流程如圖所示。學(xué)習(xí)感悟如今,大數(shù)據(jù)在社會(huì)中扮演著越來(lái)越重要和有用的角色,許多活動(dòng)和流程對(duì)大數(shù)據(jù)的依賴正在增加。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要。質(zhì)量差的數(shù)據(jù)會(huì)帶來(lái)重大的法律或者聲譽(yù)風(fēng)險(xiǎn);例如,數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險(xiǎn)不準(zhǔn)確,信用記錄不完整致使風(fēng)險(xiǎn)評(píng)估錯(cuò)誤,等等。數(shù)據(jù)分析的質(zhì)量高不高,一些沒(méi)有必要的錯(cuò)誤會(huì)不會(huì)犯,確保數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析的關(guān)鍵。要避免最終決策錯(cuò)誤,關(guān)鍵是要解決數(shù)據(jù)質(zhì)量問(wèn)題,而要解決數(shù)據(jù)質(zhì)量問(wèn)題在于能對(duì)數(shù)據(jù)進(jìn)行嚴(yán)謹(jǐn)、及時(shí)質(zhì)量評(píng)估,并針對(duì)評(píng)估結(jié)果選擇數(shù)據(jù)預(yù)處理操作。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.某數(shù)據(jù)分析員收集到企業(yè)“商城會(huì)員消費(fèi)數(shù)據(jù).xls”,請(qǐng)幫他檢測(cè)數(shù)據(jù)存在的問(wèn)題,并給出相應(yīng)的數(shù)據(jù)預(yù)處理方法,填入表2-2中。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答數(shù)據(jù)質(zhì)量影響因素;(5分)能夠回答數(shù)據(jù)常見(jiàn)問(wèn)題;(5分)能夠回答評(píng)估數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估并提出預(yù)處理方法的考評(píng)。(40分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)三數(shù)據(jù)清洗任務(wù)清單工作任務(wù)數(shù)據(jù)清洗教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述來(lái)自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不一定完美,可能會(huì)存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整有缺失、存在錯(cuò)誤和重復(fù)的數(shù)據(jù)。數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理中非常重要的一步,是一種對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程;它的目的在于洗掉數(shù)據(jù)中的“臟、亂、差”的內(nèi)容,保障數(shù)據(jù)質(zhì)量。小王面對(duì)采取到的數(shù)據(jù)如何清洗“臟數(shù)據(jù)”呢?在清洗過(guò)程有什

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論