《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目四 數(shù)據(jù)分析與挖掘_第1頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目四 數(shù)據(jù)分析與挖掘_第2頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目四 數(shù)據(jù)分析與挖掘_第3頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目四 數(shù)據(jù)分析與挖掘_第4頁(yè)
《大數(shù)據(jù)基礎(chǔ)》 課件 項(xiàng)目四 數(shù)據(jù)分析與挖掘_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目四

數(shù)據(jù)分析與挖掘項(xiàng)目簡(jiǎn)介

大數(shù)據(jù)之所以具備戰(zhàn)略意義,不在于其掌握數(shù)據(jù)量如何巨大,而在于通過(guò)對(duì)大數(shù)據(jù)的分析和挖掘,可以獲得更多深入的、有價(jià)值的信息并加以利用,從而有效提升競(jìng)爭(zhēng)力。數(shù)據(jù)分析與挖掘是挖掘大數(shù)據(jù)價(jià)值的最主要的手段,也是決定最終信息是否有價(jià)值的主要因素。本項(xiàng)目將帶領(lǐng)你認(rèn)知數(shù)據(jù)分析作用、基本分析方法和思維模式,運(yùn)用常見(jiàn)的大數(shù)據(jù)分析模型和方法工具,探究大數(shù)據(jù)挖掘過(guò)程和應(yīng)用。學(xué)習(xí)目標(biāo)知識(shí)目標(biāo)1了解大數(shù)據(jù)分析技術(shù)工具;2.理解數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)分析的基本概念;3.熟悉數(shù)據(jù)分析作用、數(shù)據(jù)挖掘分類和相關(guān)技術(shù);4.熟悉常見(jiàn)的大數(shù)據(jù)分析方法和大數(shù)據(jù)分析模型5.掌握數(shù)據(jù)分析常用方法和思維模式;6.掌握數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘應(yīng)用。。能力目標(biāo)1.能根據(jù)數(shù)據(jù)分析目標(biāo)選定數(shù)據(jù)分析方法;2.能夠描述數(shù)據(jù)挖掘過(guò)程,分析數(shù)據(jù)挖掘應(yīng)用;3.能運(yùn)用常見(jiàn)的大數(shù)據(jù)分析方法、工具和模型分析問(wèn)題。素質(zhì)目標(biāo)1.養(yǎng)成數(shù)據(jù)挖掘和分析的職業(yè)習(xí)慣;2.養(yǎng)成對(duì)事物分析的客觀、敏感的職業(yè)思維方式。。思政目標(biāo)通過(guò)數(shù)據(jù)分析思維模式學(xué)習(xí),培養(yǎng)學(xué)生的辯證法思維以及利用客觀數(shù)據(jù)進(jìn)行緣事析理的能力;通過(guò)把數(shù)據(jù)分析技術(shù)與社會(huì)熱點(diǎn)相結(jié)合,培養(yǎng)學(xué)生的社會(huì)責(zé)任感和家國(guó)情懷;通過(guò)各種數(shù)據(jù)分析和數(shù)據(jù)挖掘方法的學(xué)習(xí),理解人類對(duì)學(xué)習(xí)行為本身研究的努力和堅(jiān)持,強(qiáng)化對(duì)未知世界和科學(xué)領(lǐng)域的探索愿望和憧憬,欲窮千里目、更上一層樓。思維導(dǎo)圖任務(wù)一初窺數(shù)據(jù)分析任務(wù)清單工作任務(wù)初窺數(shù)據(jù)分析教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述小王畢業(yè)后去應(yīng)聘一家化妝品公司的運(yùn)營(yíng)數(shù)據(jù)分析崗位,該公司主營(yíng)面膜、水乳膏霜、玫瑰純露等天然植物養(yǎng)護(hù)產(chǎn)品,在淘寶、京東、拼多多等都擁有網(wǎng)絡(luò)店鋪,其主要消費(fèi)群體為女大學(xué)生、公司女白領(lǐng)、家庭主婦等。面試中,面試官問(wèn)其一個(gè)問(wèn)題;“現(xiàn)在要求你以一位數(shù)據(jù)分析員角色向經(jīng)理匯報(bào)本月經(jīng)營(yíng)情況,你會(huì)怎樣匯報(bào)?并說(shuō)說(shuō)你的理由”。要回答好這個(gè)問(wèn)題,必須掌握好數(shù)據(jù)分析的基本思維邏輯,明確數(shù)據(jù)分析角度去匯報(bào)。任務(wù)目標(biāo)理解數(shù)據(jù)分析概念;掌握數(shù)據(jù)分析作用;掌握常見(jiàn)數(shù)據(jù)分析方法;理解和掌握數(shù)據(jù)分析的思維模式;能根據(jù)企業(yè)需求和數(shù)據(jù)分析作用確定數(shù)據(jù)分析目標(biāo);能根據(jù)實(shí)際需求應(yīng)用不同數(shù)據(jù)分析思維模式;能根據(jù)數(shù)據(jù)分析需要選擇常用數(shù)據(jù)分析方法;養(yǎng)成良好的邏輯思維意識(shí)和數(shù)據(jù)思維意識(shí)。關(guān)鍵詞數(shù)據(jù)分析作用、數(shù)據(jù)分析方法、數(shù)據(jù)分析模式、維度法、指標(biāo)法知識(shí)必備一、什么叫數(shù)據(jù)分析?所謂數(shù)據(jù)分析,是指用適當(dāng)?shù)姆椒?,?duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論,從而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。在實(shí)際應(yīng)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)行動(dòng)。例如,數(shù)據(jù)分析可以幫助企業(yè)提升營(yíng)銷的針對(duì)性,數(shù)據(jù)分析可以幫助政府實(shí)現(xiàn)市場(chǎng)經(jīng)濟(jì)調(diào)控,數(shù)據(jù)分析可以幫助醫(yī)療機(jī)構(gòu)建立疫情風(fēng)險(xiǎn)跟蹤機(jī)制,數(shù)據(jù)分析可以幫助航空公司節(jié)省運(yùn)營(yíng)成本,等等。知識(shí)必備二、數(shù)據(jù)分析作用數(shù)據(jù)分析的作用,在于能利用數(shù)據(jù)分析的結(jié)果解決遇到的問(wèn)題,具體而言,數(shù)據(jù)分析的作用主要體現(xiàn)在以下三個(gè)方面:現(xiàn)狀分析、原因分析、預(yù)測(cè)分析。知識(shí)必備二、數(shù)據(jù)分析作用現(xiàn)狀分析也稱為描述性分析,它是數(shù)據(jù)分析最常見(jiàn)也最普遍的形式。它是對(duì)歷史的洞察,即回答“發(fā)生了什么?”這類問(wèn)題。此種分析完全基于歷史對(duì)數(shù)據(jù)進(jìn)行描述,這里的“歷史”是指數(shù)據(jù)發(fā)生的任何特定時(shí)間,可以是一個(gè)月前、幾年前,也可以是一分鐘前或者幾秒前。1、現(xiàn)狀分析—發(fā)生了什么知識(shí)必備二、數(shù)據(jù)分析作用現(xiàn)狀分析的作用在于能分析企業(yè)目前階段的整體運(yùn)營(yíng)情況,并通過(guò)各種運(yùn)營(yíng)指標(biāo)來(lái)衡量企業(yè)當(dāng)前的運(yùn)營(yíng)狀況,指出存在的優(yōu)勢(shì)與不足。其次,通過(guò)分析企業(yè)每個(gè)業(yè)務(wù)的組成,以便了解企業(yè)每個(gè)業(yè)務(wù)的發(fā)展和變化情況,并對(duì)企業(yè)的業(yè)務(wù)狀態(tài)有更深入的了解?,F(xiàn)狀分析通常是以報(bào)告形式呈現(xiàn),例如每日、每周和每月報(bào)告。1、現(xiàn)狀分析—發(fā)生了什么日?qǐng)?bào)表周報(bào)表月報(bào)表知識(shí)必備二、數(shù)據(jù)分析作用原因分析也稱為診斷性分析,它是通過(guò)數(shù)據(jù)分析來(lái)回答“為什么會(huì)發(fā)生這種情況?”的問(wèn)題。因此,您可以通過(guò)分析數(shù)據(jù)了解與您工作的組織、其客戶、員工、產(chǎn)品等相關(guān)的特定行為和事件的原因。假設(shè)您沒(méi)有對(duì)產(chǎn)品的銷售進(jìn)行任何營(yíng)銷修改,但它的銷售額已顯著增加。診斷分析將用于識(shí)別這種異常并確定這種變化的原因。2、原因分析—為什么會(huì)發(fā)生知識(shí)必備二、數(shù)據(jù)分析作用原因分析可以幫助您更好地了解您的數(shù)據(jù),并以多種方式找到應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)的答案。企業(yè)可以使用工具來(lái)過(guò)濾、查找和比較個(gè)人創(chuàng)建的數(shù)據(jù),以便使用這種分析形式更好地了解他們的客戶。原因分析通常通過(guò)主題進(jìn)行分析,即根據(jù)企業(yè)的經(jīng)營(yíng)情況,根據(jù)一定的現(xiàn)狀進(jìn)行分析。2、原因分析—為什么會(huì)發(fā)生知識(shí)必備二、數(shù)據(jù)分析作用預(yù)測(cè)性分析則是專注于預(yù)測(cè)并理解未來(lái)可能發(fā)生的情況。它通過(guò)分析歷史的數(shù)據(jù)與客戶洞察來(lái)總結(jié)過(guò)去的數(shù)據(jù)模式和趨勢(shì),以預(yù)測(cè)未來(lái)“可能發(fā)生的情況”。預(yù)測(cè)性分析大多是基于概率的,即預(yù)測(cè)事件在未來(lái)發(fā)生的概率,或者事件在大概率上會(huì)如何發(fā)生。在預(yù)測(cè)性分析中,一般會(huì)使用數(shù)據(jù)挖掘,統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)算法等等方法。3、預(yù)測(cè)分析—可能發(fā)生什么知識(shí)必備二、數(shù)據(jù)分析作用預(yù)測(cè)分析能幫助企業(yè)對(duì)未來(lái)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),制定業(yè)務(wù)目標(biāo),設(shè)計(jì)有效的營(yíng)銷計(jì)劃,規(guī)避風(fēng)險(xiǎn),提供有效的戰(zhàn)略和決策依據(jù),以確保公司的持續(xù)健康發(fā)展。預(yù)測(cè)分析通常是通過(guò)主題分析來(lái)完成的,主題分析一般在制定公司的季度和年度計(jì)劃時(shí)進(jìn)行。3、預(yù)測(cè)分析—可能發(fā)生什么知識(shí)必備二、數(shù)據(jù)分析作用

以上數(shù)據(jù)分析三方面作用,實(shí)際上也是對(duì)應(yīng)著我們?nèi)粘?shù)據(jù)分析中的三種基本類別:描述性分析、診斷性分析、預(yù)測(cè)性分析。這三種類別在實(shí)際應(yīng)用中的復(fù)雜性也是由低到高排列。在數(shù)據(jù)分析類別中,通常我們還會(huì)提一種“規(guī)范性分析”,它可歸于數(shù)據(jù)分析類別中的第四種,這種分析是最后也是最復(fù)雜的階段,是告訴企業(yè)“需要做什么?該怎么做?”知識(shí)必備二、數(shù)據(jù)分析作用“規(guī)范性分析”,可以幫助企業(yè)根據(jù)可用的數(shù)據(jù)做出最佳決策,即執(zhí)行哪些操作。規(guī)范性分析需要多種技術(shù)和工具應(yīng)用,同時(shí)分析的數(shù)據(jù)也會(huì)包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),因此很少用于日常業(yè)務(wù)運(yùn)營(yíng)中。典型的規(guī)范性分析應(yīng)用的場(chǎng)景例如:石油和制造業(yè)中追蹤價(jià)格波動(dòng)、保險(xiǎn)業(yè)中為客戶評(píng)估有關(guān)定價(jià)和保費(fèi)信息的風(fēng)險(xiǎn)等。知識(shí)必備三、常用數(shù)據(jù)分析方法知道了數(shù)據(jù)分析的三大作用,那么這些作用應(yīng)該通過(guò)什么樣的分析方法來(lái)實(shí)現(xiàn)呢?這三大作用分別對(duì)應(yīng)對(duì)比、細(xì)分、預(yù)測(cè)3類基本方法,詳見(jiàn)表4-1。針對(duì)不同的數(shù)據(jù)分析作用,有不同的數(shù)據(jù)分析方法。這里我們介紹日常使用較多的幾種分析方法:對(duì)比分析法、平均分析法、分組分析法、交叉分析法。知識(shí)必備三、常用數(shù)據(jù)分析方法1.對(duì)比分析法對(duì)比分析法,是數(shù)據(jù)分析的基本方法之一,也是應(yīng)用最廣泛的數(shù)據(jù)分析方法。它是指將兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展變化情況和規(guī)律性。知識(shí)必備三、常用數(shù)據(jù)分析方法1.對(duì)比分析法對(duì)比分析法的特點(diǎn)是可以非常直觀地看出事物某方面的變化或差距,并且可以準(zhǔn)確、量化地表示出這種變化或差距是多少。對(duì)比方法可分為靜態(tài)比較和動(dòng)態(tài)比較兩類。靜態(tài)比較是指在同一時(shí)間條件下對(duì)不同總量指標(biāo)的比較,如不同地域、不同月份的比較,也叫橫向比較,簡(jiǎn)稱橫比。動(dòng)態(tài)比較是指在同一總體條件下對(duì)不同時(shí)期指標(biāo)數(shù)值的比較,也叫縱向比較,簡(jiǎn)稱縱比。知識(shí)必備三、常用數(shù)據(jù)分析方法(1)與目標(biāo)對(duì)比。實(shí)際完成值與目標(biāo)進(jìn)行對(duì)比,屬于橫比。例如,企業(yè)在每個(gè)年度年初都會(huì)制定全年銷售目標(biāo),當(dāng)年底總結(jié)時(shí)就要把實(shí)際銷售情況與年初的銷售目標(biāo)進(jìn)行對(duì)比。(2)不同時(shí)期對(duì)比。選擇不同時(shí)期的指標(biāo)數(shù)值作為對(duì)比標(biāo)準(zhǔn),屬于縱比。與去年同期對(duì)比稱為同比,與上個(gè)月完成情況對(duì)比稱為環(huán)比。通過(guò)對(duì)比自身在不同時(shí)間點(diǎn)上的完成情況,就可知道自身是進(jìn)步還是退步。目前對(duì)比分析常用的維度有以下幾個(gè):知識(shí)必備三、常用數(shù)據(jù)分析方法(3)同級(jí)部門(mén)、單位、地區(qū)對(duì)比。與同級(jí)部門(mén)、單位、地區(qū)進(jìn)行對(duì)比,屬于橫比。(4)行業(yè)內(nèi)對(duì)比。與行業(yè)中的標(biāo)桿企業(yè)、競(jìng)爭(zhēng)對(duì)手或行業(yè)的平均水平進(jìn)行對(duì)比,屬于橫比。(5)活動(dòng)效果對(duì)比。對(duì)某項(xiàng)營(yíng)銷活動(dòng)開(kāi)展前后進(jìn)行對(duì)比,屬于縱比。目前對(duì)比分析常用的維度有以下幾個(gè):指標(biāo)的口徑方位、計(jì)算方法、計(jì)量單位必須一致。對(duì)比的對(duì)象要有可比性。對(duì)比的指標(biāo)類型必須一致。進(jìn)行對(duì)比分析時(shí)還要考慮以下幾個(gè)因素:知識(shí)必備三、常用數(shù)據(jù)分析方法2.平均分析法平均分析法,也是應(yīng)用較廣泛的數(shù)據(jù)分析方法。是指運(yùn)用計(jì)算平均數(shù)的方法來(lái)反映總體在一定時(shí)間、地點(diǎn)條件下某一數(shù)量特征的一般水平。平均指標(biāo)有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)、眾數(shù)和中位數(shù)等。算術(shù)平均數(shù)=總體各單位數(shù)值的總和/總體單位個(gè)數(shù)。知識(shí)必備三、常用數(shù)據(jù)分析方法2.平均分析法平均分析法的主要作用有:利用平均指標(biāo)對(duì)比同類現(xiàn)象在不同地區(qū)、不同行業(yè)、不同類型單位等之間的差異程度,比用總量指標(biāo)對(duì)比更具有說(shuō)服力。利用平均指標(biāo)對(duì)比某些現(xiàn)象在不同歷史時(shí)期的變化,更能說(shuō)明其發(fā)展趨勢(shì)和規(guī)律。知識(shí)必備三、常用數(shù)據(jù)分析方法3.分組分析法數(shù)據(jù)分析不僅要對(duì)總體的數(shù)量特征和數(shù)量關(guān)系進(jìn)行分析,還要深入總體內(nèi)部進(jìn)行分組分析。分組分析法是一種重要的數(shù)據(jù)分析方法,這種方法是根據(jù)數(shù)據(jù)分析對(duì)象的特征按照一定的標(biāo)志(指標(biāo)),把數(shù)據(jù)分析對(duì)象劃分為不同的部分和類型來(lái)進(jìn)行研究,以展示其內(nèi)在的聯(lián)系和規(guī)律性。知識(shí)必備三、常用數(shù)據(jù)分析方法3.分組分析法分組的目的就是為了進(jìn)行組間對(duì)比,把總體中具有不同性質(zhì)的對(duì)象區(qū)分開(kāi),把性質(zhì)相同的對(duì)象合并在一起,保持各組內(nèi)對(duì)象屬性的一致性、組與組之間屬性的差異性,以便進(jìn)一步運(yùn)用各種數(shù)據(jù)分析方法來(lái)解析內(nèi)在的數(shù)量關(guān)系,因此分組分析法必須與對(duì)比分析法結(jié)合運(yùn)用。分組分析法的關(guān)鍵在于確定組數(shù)與組距。在數(shù)據(jù)分組中,各組之間的取值界限稱為組限,一個(gè)組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限值與下限值的平均數(shù)稱為組中值,它是一組變量值的代表值。知識(shí)必備三、常用數(shù)據(jù)分析方法4.交叉分析法交叉分析法,通常用于分析兩個(gè)變量(字段)之間的關(guān)系,即同時(shí)將兩個(gè)有一定聯(lián)系的變量及其值交叉排列在一張表格內(nèi),使各變量值成為不同變量的交叉結(jié)點(diǎn),形成交叉表,從而分析交叉表中變量之間的關(guān)系,也叫交叉表分析法。知識(shí)必備四、數(shù)據(jù)分析思維模式在數(shù)據(jù)分析中,我們一般需要掌握結(jié)構(gòu)化思維、假說(shuō)演繹思維、指標(biāo)化思維和維度分析思維四種思維模式。結(jié)構(gòu)化思維和假說(shuō)演繹思維主要幫助我們?nèi)ザㄐ苑治?,指?biāo)化思維和維度分析思維是幫助我們?nèi)ザ糠治?。定性分析定量分析假說(shuō)演繹思維結(jié)構(gòu)化思維維度分析思維指標(biāo)化思維知識(shí)必備四、數(shù)據(jù)分析思維模式結(jié)構(gòu)化思維就是把復(fù)雜問(wèn)題分解成多種單一因素的過(guò)程,并且將這些因素加以歸納和整理,使之條理化、綱領(lǐng)化,如圖所示。這個(gè)過(guò)程猶如抽絲剝繭,將一團(tuán)亂麻整理得條條順順。例如,有一個(gè)銷售的產(chǎn)品,4月份的銷售額和去年同比下降了30%。那么,在數(shù)據(jù)分析時(shí)后,我們首先分析時(shí)間趨勢(shì)下的波動(dòng),看是突然暴跌還是逐漸下降;再接著分析不同地區(qū)的數(shù)據(jù)差異,有沒(méi)有地區(qū)性的因素影響;再接下來(lái)分析一下競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù),就是這樣一步步用結(jié)構(gòu)化思維去梳理。1.結(jié)構(gòu)化思維知識(shí)必備四、數(shù)據(jù)分析思維模式以現(xiàn)實(shí)情況為起點(diǎn)的推理方法叫歸納推理,以規(guī)則為起點(diǎn)的推理方法可以稱之為演繹推理。例如:某網(wǎng)店想將某款商品提價(jià),讓你分析銷售額會(huì)有怎樣的變化?如圖所示。2.假說(shuō)演繹思維知識(shí)必備四、數(shù)據(jù)分析思維模式數(shù)據(jù)分析是精細(xì)化的工作,一定要建立起體系化的思維,建立起數(shù)據(jù)分析的指標(biāo)體系。假設(shè)有一家電商公司,我們想要了解網(wǎng)站運(yùn)營(yíng)的情況如何?運(yùn)營(yíng)人員向我們描述:我們的網(wǎng)站的流量很高啊,比淘寶差一點(diǎn),比京東好一點(diǎn),每天都有大量的新用戶,老用戶下單也很活躍啊。那我們就疑惑了,流量高是多少?大量的新用戶怎么衡量?一個(gè)手機(jī)注冊(cè)了算新用戶還是新下單的用戶?下單活躍又是怎么個(gè)活躍法?這樣的問(wèn)題相信只能憑運(yùn)營(yíng)人員的經(jīng)驗(yàn)來(lái)判斷,而經(jīng)驗(yàn)帶來(lái)的“后果”往往是拍腦袋式的決策。3.指標(biāo)化思維知識(shí)必備四、數(shù)據(jù)分析思維模式在指標(biāo)分析時(shí)不是有指標(biāo)就行了,而是應(yīng)該把指標(biāo)按照結(jié)構(gòu)化思維可以形成一個(gè)體系,如銷售分析指標(biāo)體系、生產(chǎn)指標(biāo)體系、電商行業(yè)指標(biāo)體系。指標(biāo)體系沒(méi)有放之四海而皆準(zhǔn)的模板,不同業(yè)務(wù)形態(tài)有不同的指標(biāo)體系。一家企業(yè)建立的數(shù)據(jù)分析體系通常細(xì)分到了具體可執(zhí)行的部分,可以根據(jù)設(shè)定的某個(gè)指標(biāo)異常變化,相應(yīng)立即執(zhí)行相應(yīng)的方案,來(lái)保證運(yùn)營(yíng)的正常進(jìn)行。3.指標(biāo)化思維知識(shí)必備四、數(shù)據(jù)分析思維模式建立指標(biāo)體系的思路:向上:可以按業(yè)務(wù)職能結(jié)構(gòu)劃分,映射出更多維度,比如渠道,運(yùn)營(yíng),產(chǎn)品等相關(guān)模塊;將相關(guān)指標(biāo)映射到主要模塊,通過(guò)簡(jiǎn)單快速的溝通,快速定位問(wèn)題原因。向下:可以按因果結(jié)構(gòu)劃分,也就是指標(biāo)分解,利用公式的方法。比如“銷售額=下單人數(shù)*平均每人購(gòu)買金額”等指標(biāo)因果關(guān)系進(jìn)行劃分;通過(guò)定位指標(biāo)波動(dòng)、定位最細(xì)指標(biāo)、輔助維度下轉(zhuǎn),能夠清楚問(wèn)題原因;就像枝丫一樣,從主干不斷延伸枝丫,將業(yè)務(wù)用指標(biāo)評(píng)價(jià)量化,逐漸形成一個(gè)健全的數(shù)據(jù)分析體系。3.指標(biāo)化思維知識(shí)必備四、數(shù)據(jù)分析思維模式維度不是一個(gè)固定數(shù)字,而是一種視角,是描述對(duì)象的參數(shù),在具體分析中,我們可以把它認(rèn)為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時(shí)間也是一種角度,所以它們都能算維度。當(dāng)我們有了維度后,就能夠通過(guò)不同的維度組合,形成數(shù)據(jù)模型;數(shù)據(jù)模型不是一個(gè)高深的概念,它就是一個(gè)多維立方體。4.維度分析思維知識(shí)必備四、數(shù)據(jù)分析思維模式例如,假如我們有以下兩個(gè)數(shù)據(jù)表,4.2商品信息表和4.3的客戶成交訂單表。知識(shí)必備四、數(shù)據(jù)分析思維模式在4.2商品信息表中,我們可以選擇品牌作為維度,就可以分析手機(jī)的銷量情況,也可以將時(shí)間作為維度,分析每一年手機(jī)市場(chǎng)各種品牌的份額情況。在4.4客戶訂單中,可以選擇產(chǎn)品型號(hào)作為維度,分析產(chǎn)品型號(hào)在各城市的銷售情況。假如我們把兩張表結(jié)合起來(lái),選擇品牌、城市、時(shí)間這三個(gè)維度,就可組成如圖4-4的一個(gè)簡(jiǎn)化的分析模型,我們得到的信息就會(huì)更多了。知識(shí)必備四、數(shù)據(jù)分析思維模式鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說(shuō)是將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù);比如通過(guò)對(duì)2021年華為的總銷售數(shù)據(jù)進(jìn)行鉆取來(lái)查看各個(gè)手機(jī)型號(hào)的銷售數(shù)據(jù)。上卷(Roll-up):鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向高層的聚合;如將南京、上海市和杭州的銷售數(shù)據(jù)進(jìn)行匯總來(lái)查看江浙滬地區(qū)的銷售數(shù)據(jù)。切片(Slice):選擇維中特定的值進(jìn)行分析;比如只選擇蘋(píng)果手機(jī)的銷售數(shù)據(jù),或2019年的手機(jī)銷售數(shù)據(jù)。切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)進(jìn)行分析;比如選擇2019年2020年的銷售數(shù)據(jù)。旋轉(zhuǎn)(Pivot):即維的位置的互換,就像是二維表的行列轉(zhuǎn)換;如圖中通過(guò)旋轉(zhuǎn)實(shí)現(xiàn)產(chǎn)品維和地域維的互換。在多維分析中,我們還可以通過(guò)鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot)等操作獲取不同信息。學(xué)習(xí)感悟做數(shù)據(jù)分析,首先我們要明確數(shù)據(jù)分析目的,是做現(xiàn)狀分析、原因分析還是預(yù)測(cè)分析,確定了目的才會(huì)有方向。接下來(lái)就是我們以一種什么思維模式去分析了,結(jié)構(gòu)化思維模式和假說(shuō)演繹思維模式主要是幫助我們把復(fù)雜問(wèn)題條理化,但它畢竟都還只是定性思維模式。實(shí)際的數(shù)據(jù)分析必須要有定量思維,也就是我們通常所說(shuō)的指標(biāo)思維和維度思維模式,要學(xué)會(huì)利用客觀數(shù)據(jù)進(jìn)行緣事析理。在做數(shù)據(jù)定量分析時(shí),首先我們必須確定分析的維度,對(duì)于商務(wù)數(shù)據(jù)分析而言,常用的維度包括時(shí)間維度、空間維度(泛指除時(shí)間維度以外維度)。維度確定后,接下來(lái)就是確定分析的指標(biāo)了。用指標(biāo)法做數(shù)據(jù)分析時(shí),最關(guān)鍵是選擇合適的指標(biāo),可以根據(jù)企業(yè)實(shí)際情況和具體問(wèn)題,有針對(duì)性地選擇具有可讀性的監(jiān)測(cè)指標(biāo)。最后在指標(biāo)分析中再結(jié)合常用的數(shù)據(jù)分析方法,如對(duì)比、平均、分組、回歸等,進(jìn)行具體分析。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.針對(duì)任務(wù)描述中面試官的提問(wèn),聯(lián)系所學(xué)知識(shí),小王應(yīng)該怎么回答呢?3.移動(dòng)互聯(lián)網(wǎng)時(shí)代,微信、微博、抖音等新媒體非常紅火,新媒體運(yùn)營(yíng)中又以內(nèi)容運(yùn)營(yíng)為核心,其基本流程為“內(nèi)容收集→內(nèi)容編輯發(fā)布→用戶瀏覽→用戶點(diǎn)擊→用戶閱讀→用戶評(píng)論轉(zhuǎn)發(fā)”。請(qǐng)用數(shù)據(jù)分析中的指標(biāo)化思維,為內(nèi)容運(yùn)營(yíng)流程中的每一步建立數(shù)據(jù)分析的指標(biāo)。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答數(shù)據(jù)分析作用;(5分)能夠回答常用數(shù)據(jù)分析方法;(5分)能夠理解和回答數(shù)據(jù)分析思維模式。。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)任務(wù)描述中小王數(shù)據(jù)數(shù)據(jù)分析思路斷的考評(píng);(20分)建立數(shù)據(jù)分析指標(biāo)的考評(píng)。(20分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)二運(yùn)用大數(shù)據(jù)分析任務(wù)清單工作任務(wù)運(yùn)用大數(shù)據(jù)分析教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述小王應(yīng)聘到某化妝品公司后,領(lǐng)導(dǎo)交給他一個(gè)任務(wù),目前公司想推出一款新產(chǎn)品面膜,但在進(jìn)入市場(chǎng)前,需要分析市場(chǎng)的可行性以及產(chǎn)品的設(shè)計(jì)路線?,F(xiàn)在是大數(shù)據(jù)時(shí)代,要求小王運(yùn)用大數(shù)據(jù)分析面膜市場(chǎng)的發(fā)展趨勢(shì)、需求情況、人群畫(huà)像等。小王應(yīng)該怎么做呢?要運(yùn)用大數(shù)據(jù)分析,小王必須正確理解大數(shù)據(jù)分析、熟悉大數(shù)據(jù)分析方法和分析模型,掌握大數(shù)據(jù)分析工具的使用。任務(wù)目標(biāo)理解大數(shù)據(jù)分析概念,認(rèn)識(shí)它與傳統(tǒng)數(shù)據(jù)分析的不同;掌握大數(shù)據(jù)分析的常用方法;理解和掌握常用大數(shù)據(jù)分析模型;了解大數(shù)據(jù)分析的常用工具;能利用常用大數(shù)據(jù)分析技術(shù)進(jìn)行大數(shù)據(jù)分析;能根據(jù)具體場(chǎng)景靈活選用大數(shù)據(jù)分析模型進(jìn)行數(shù)據(jù)分析;養(yǎng)成良好的邏輯思維意識(shí)和數(shù)據(jù)分析習(xí)慣。。關(guān)鍵詞大數(shù)據(jù)分析方法、大數(shù)據(jù)分析模型、大數(shù)據(jù)分析工具知識(shí)必備一、認(rèn)識(shí)大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析相比,大數(shù)據(jù)分析主要表現(xiàn)在以下四個(gè)方面的不同。第一,傳統(tǒng)數(shù)據(jù)分析一般都是基于結(jié)構(gòu)化、關(guān)系性的數(shù)據(jù),而且往往是取一個(gè)很小的數(shù)據(jù)集,來(lái)對(duì)整個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè)和判斷。大數(shù)據(jù)分析,除了結(jié)構(gòu)化、關(guān)系性數(shù)據(jù)外,還可以處理半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),是對(duì)整個(gè)數(shù)據(jù)全集直接進(jìn)行存儲(chǔ)和管理分析。第二,傳統(tǒng)數(shù)據(jù)分析是抽樣的小樣本分析,往往要用小樣本來(lái)預(yù)測(cè)整個(gè)數(shù)據(jù)全集的特性,這就決定了所采集的小樣本必須是高品質(zhì)的,否則預(yù)測(cè)出來(lái)的結(jié)果就會(huì)出現(xiàn)很大偏差。大數(shù)據(jù)分析,是對(duì)數(shù)據(jù)全集的分析,對(duì)數(shù)據(jù)的一些噪音有一定的包容性,不用考慮數(shù)據(jù)的分布狀態(tài),也不用考慮假設(shè)檢驗(yàn)。知識(shí)必備一、認(rèn)識(shí)大數(shù)據(jù)分析第三,傳統(tǒng)數(shù)據(jù)分析是根據(jù)小樣本數(shù)據(jù)的分析對(duì)全局?jǐn)?shù)據(jù)進(jìn)行分析和預(yù)測(cè),在整個(gè)預(yù)測(cè)分析過(guò)程中往往采用因果關(guān)系的推理過(guò)程?,F(xiàn)在的大數(shù)據(jù)分析,因果關(guān)系并不是關(guān)注點(diǎn),而是基于對(duì)整個(gè)數(shù)據(jù)全集的分析。對(duì)企業(yè)來(lái)說(shuō)需要了解的是,關(guān)聯(lián)性的分析和規(guī)律性的特性。比如啤酒跟尿布的銷售同步上升,那么在大數(shù)據(jù)的分析下,我們不需要了解為什么啤酒和尿布的銷售量會(huì)同步增長(zhǎng),只需要知道尿布和啤酒是同步上升就可以了,基于這個(gè)結(jié)果,就可以制定很多商業(yè)策略和營(yíng)銷手段。第四、大數(shù)據(jù)分析的數(shù)據(jù)往往是海量的,特別是很多新興的數(shù)據(jù),很具有時(shí)效性,打破了原先數(shù)據(jù)一定先搜集、清洗、存儲(chǔ)、然后進(jìn)行分析的滯后手段。很多分析的需求往往是實(shí)時(shí)的,需要邊采集,邊分析?;ヂ?lián)網(wǎng)上人們留下的社交信息、地理位置信息、行為習(xí)慣信息、偏好信息等各種維度的信息都可以實(shí)時(shí)處理,這也是大數(shù)據(jù)分析的另一大特性。知識(shí)必備二、大數(shù)據(jù)分析的挑戰(zhàn)數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,在進(jìn)行分析之前如何迅速“提純”是大數(shù)據(jù)亟待解決的難題;大數(shù)據(jù)時(shí)代數(shù)據(jù)規(guī)模大,數(shù)據(jù)分析算法需要進(jìn)行調(diào)整,需要解決算法的效率問(wèn)題;大數(shù)據(jù)時(shí)代數(shù)據(jù)類型多而雜亂,僅靠傳統(tǒng)數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)已無(wú)能為力;數(shù)據(jù)結(jié)果好壞怎么去衡量。知識(shí)必備三、大數(shù)據(jù)分析方法(一)降維分析數(shù)據(jù)降維也被稱為數(shù)據(jù)規(guī)約或數(shù)據(jù)約減。它的目的就是為了減少數(shù)據(jù)計(jì)算和建模中涉及的維數(shù),目前主要有兩種數(shù)據(jù)降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。知識(shí)必備三、大數(shù)據(jù)分析方法(二)回歸分析回歸分析研究的是自變量X對(duì)因變量Y的數(shù)據(jù)分析?;貧w分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析被稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。根據(jù)影響是否是線性的,可以分為線性回歸和非線性回歸。知識(shí)必備三、大數(shù)據(jù)分析方法(三)聚類分析簡(jiǎn)單來(lái)說(shuō),“物以類聚”這一成語(yǔ)就是聚類分析的基本思想。聚類分析法是大數(shù)據(jù)挖掘和測(cè)算中的每日基礎(chǔ)任務(wù),是將很多統(tǒng)計(jì)數(shù)據(jù)集中化具備“類似”特點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)點(diǎn)區(qū)劃為一致類型,并最后轉(zhuǎn)化成好幾個(gè)類的方式。大量數(shù)據(jù)集中必須有相似的數(shù)據(jù)點(diǎn),基于這一假設(shè),可以區(qū)分?jǐn)?shù)據(jù),并且可以找到每個(gè)數(shù)據(jù)集的特證。知識(shí)必備三、大數(shù)據(jù)分析方法(四)分類分析分類算法是解決分類問(wèn)題的一種方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別的一個(gè)重要研究領(lǐng)域。分類在于根據(jù)其特性將數(shù)據(jù)“分門(mén)別類”,所以在許多領(lǐng)域都有廣泛的應(yīng)用。例如,在銀行業(yè)務(wù)中,可以構(gòu)建一個(gè)客戶分類模型,對(duì)客戶按照貸款風(fēng)險(xiǎn)的大小進(jìn)行分類;在圖像處理中,分類可以用來(lái)檢測(cè)圖像中是否有人臉出現(xiàn);在手寫(xiě)識(shí)別中,分類可以用于識(shí)別手寫(xiě)的數(shù)字;在互聯(lián)網(wǎng)搜索中,網(wǎng)頁(yè)的分類可以幫助進(jìn)行網(wǎng)頁(yè)的抓取、索引與排序。知識(shí)必備三、大數(shù)據(jù)分析方法(五)關(guān)聯(lián)分析自然界某種事物發(fā)生時(shí)其他事情也發(fā)生,這種聯(lián)系稱為關(guān)聯(lián)。關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析的一個(gè)典型實(shí)例是購(gòu)物籃分析。該實(shí)例通過(guò)發(fā)現(xiàn)顧客放入其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣,了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。關(guān)聯(lián)分析其他的分析應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的擺放和基于購(gòu)買模式的顧客劃分等。知識(shí)必備三、大數(shù)據(jù)分析方法(六)時(shí)間序列分析時(shí)間序列是一種用于研究數(shù)據(jù)隨時(shí)間變化的算法,是一種常用的回歸預(yù)測(cè)方法。其原則是事物的連續(xù)性。所謂連續(xù)性,是指客觀事物的發(fā)展具有規(guī)律性的連續(xù)性。事物的發(fā)展是按照其內(nèi)在規(guī)律進(jìn)行的,在一定的條件下,只要規(guī)則作用的條件不發(fā)生質(zhì)的變化,事物的基本發(fā)展趨勢(shì)就會(huì)持續(xù)到未來(lái)。知識(shí)必備三、大數(shù)據(jù)分析方法(七)異常數(shù)據(jù)檢測(cè)在大多數(shù)數(shù)據(jù)挖掘或數(shù)據(jù)工作中,異常值將被視為“噪聲”,并在數(shù)據(jù)預(yù)處理過(guò)程中消除,以避免其對(duì)整體數(shù)據(jù)評(píng)估和分析挖掘的影響。然而,在某些情況下,如果數(shù)據(jù)工作的目標(biāo)是關(guān)注異常值,這些異常值將成為數(shù)據(jù)工作的焦點(diǎn)。數(shù)據(jù)集中的異常數(shù)據(jù)通常被稱為異常點(diǎn)、異常值或孤立點(diǎn)等。典型的特征是這些數(shù)據(jù)的特征或規(guī)則與大多數(shù)數(shù)據(jù)不一致,表現(xiàn)出“異?!钡奶卣鳌z測(cè)這些數(shù)據(jù)的方法稱為異常檢測(cè)法。知識(shí)必備四、大數(shù)據(jù)分析模型行為事件分析模型主要用于研究某行為事件的發(fā)生對(duì)企業(yè)組織價(jià)值的影響以及影響程度。企業(yè)借此來(lái)追蹤或記錄用戶行為及業(yè)務(wù)過(guò)程,如用戶注冊(cè)、瀏覽產(chǎn)品詳情頁(yè)、成功投資、提現(xiàn)等,通過(guò)研究與事件發(fā)生關(guān)聯(lián)的所有因素來(lái)挖掘用戶行為事件背后的原因、交互影響等。(一)行為事件分析模型知識(shí)必備四、大數(shù)據(jù)分析模型行為事件分析具有強(qiáng)大的篩選、分組和聚合能力,邏輯清洗且使用簡(jiǎn)單,已被廣泛應(yīng)用。行為事件分析一般包括事件定義與選擇、下鉆分析、解釋與結(jié)論等環(huán)節(jié):事件定義與選擇:用戶在某個(gè)時(shí)間點(diǎn)、某個(gè)地方、以某種方式完成某個(gè)具體的事件;下鉆分析:最高行為事件分析需要支持任意下鉆分析和精細(xì)化條件篩查;解釋與結(jié)論:需要對(duì)分析結(jié)果進(jìn)行合理化的解釋和說(shuō)明。(一)行為事件分析模型知識(shí)必備四、大數(shù)據(jù)分析模型例如,某互聯(lián)網(wǎng)金融客戶人員發(fā)現(xiàn),4月16日來(lái)自新浪渠道的PV數(shù)異常高,需要快速排查原因:是異常流量?還是虛假流量?企業(yè)可以先定義事件,通過(guò)“篩選條件”限定廣告系列來(lái)源為“新浪”。再?gòu)钠渌鄠€(gè)維度進(jìn)行細(xì)分下鉆,比如“地理位置”、“時(shí)間”、“廣告系列媒介”、“瀏覽器等。當(dāng)進(jìn)行細(xì)分篩查時(shí),虛假流量就無(wú)處遁形。(一)行為事件分析模型知識(shí)必備四、大數(shù)據(jù)分析模型漏斗分析是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài)以及從起點(diǎn)到終點(diǎn)各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛成功用于流量監(jiān)控、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)運(yùn)營(yíng)與數(shù)據(jù)分析的工作中。漏斗分析模型是企業(yè)實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)、進(jìn)行用戶行為分析的重要數(shù)據(jù)分析模型,其精細(xì)化程度影響著營(yíng)銷管理的成敗,以及用戶行為分析的精準(zhǔn)度。(二)漏斗分析模型知識(shí)必備四、大數(shù)據(jù)分析模型例如在一款產(chǎn)品服務(wù)平臺(tái)中,直播用戶從激活A(yù)PP開(kāi)始到花費(fèi),一般的用戶購(gòu)物路徑為激活A(yù)PP、注冊(cè)賬號(hào)、進(jìn)入直播間、互動(dòng)行為、禮物花費(fèi)五大階段,漏斗能夠展現(xiàn)出各個(gè)階段的轉(zhuǎn)化率,通過(guò)漏斗各環(huán)節(jié)相關(guān)數(shù)據(jù)的比較,能夠直觀地發(fā)現(xiàn)和說(shuō)明問(wèn)題所在,從而找到優(yōu)化方向。對(duì)于業(yè)務(wù)流程相對(duì)規(guī)范、周期較長(zhǎng)、環(huán)節(jié)較多的流程分析,非常實(shí)用。(二)漏斗分析模型知識(shí)必備四、大數(shù)據(jù)分析模型留存分析是一種用來(lái)分析用戶參與情況/活躍程度的分析模型。這是用來(lái)衡量產(chǎn)品對(duì)用戶價(jià)值高低的重要方法??疾爝M(jìn)行初始行為的用戶中,有多少人會(huì)進(jìn)行后續(xù)行為。一般來(lái)講,留存率是指【目標(biāo)用戶】在一段時(shí)間內(nèi)【回到網(wǎng)站/APP中完成某個(gè)行為】的比例,即若滿足某個(gè)條件的用戶數(shù)為n,在某個(gè)時(shí)間點(diǎn)進(jìn)行回訪行為的用戶數(shù)為m,那么該時(shí)間點(diǎn)的留存率就是m/n。常見(jiàn)的指標(biāo)有次日留存率、七日留存率、次周留存率等。(三)留存分析模型知識(shí)必備四、大數(shù)據(jù)分析模型例如,游戲行業(yè)提升活躍、留存—如何精準(zhǔn)找到玩家“流失點(diǎn)”?游戲的生命周期的時(shí)長(zhǎng)差異、玩家的游戲粘度,直接體現(xiàn)了游戲的競(jìng)爭(zhēng)能力和盈利能力。玩家對(duì)游戲的直觀感受、游戲難度曲線、游戲節(jié)奏的松弛、游戲福利等游戲內(nèi)涵都能夠?qū)е掠螒蛲婕伊魇?。正確找到玩家流失原因,是促進(jìn)玩家、活躍挽留玩家的第一步。(三)留存分析模型知識(shí)必備四、大數(shù)據(jù)分析模型以一種特殊高亮的顏色形式顯示訪客熱衷的頁(yè)面區(qū)域和訪客所在的地理區(qū)域。顯示頁(yè)面或頁(yè)面組(結(jié)構(gòu)相同的頁(yè)面,如商品詳情頁(yè)、官網(wǎng)博客等)區(qū)域中不同元素點(diǎn)擊密度的圖示。包括元素被點(diǎn)擊的次數(shù)、占比、發(fā)生點(diǎn)擊的用戶列表、按鈕的當(dāng)前與歷史內(nèi)容等因素。(四)點(diǎn)擊分析模型點(diǎn)擊圖是點(diǎn)擊分析方法的效果呈現(xiàn)。點(diǎn)擊分析具有分析過(guò)程高效、靈活、易用,效果直觀的特點(diǎn)。點(diǎn)擊分析采用可視化的設(shè)計(jì)思想與架構(gòu),簡(jiǎn)潔直觀的操作方式,直觀呈現(xiàn)訪客熱衷的區(qū)域,幫助運(yùn)營(yíng)人員或管理者評(píng)估網(wǎng)頁(yè)的設(shè)計(jì)的科學(xué)性。知識(shí)必備四、大數(shù)據(jù)分析模型用戶路徑分析,顧名思義,用戶在APP或網(wǎng)站中的訪問(wèn)行為路徑。為了衡量網(wǎng)站優(yōu)化的效果或營(yíng)銷推廣的效果,以及了解用戶行為偏好,時(shí)常要對(duì)訪問(wèn)路徑的轉(zhuǎn)換數(shù)據(jù)進(jìn)行分析。(五)用戶行為路徑分析模型知識(shí)必備四、大數(shù)據(jù)分析模型以電商為例,買家從登錄網(wǎng)站/APP到支付成功要線經(jīng)過(guò)首頁(yè)瀏覽、搜索商品、加入購(gòu)物車、提交訂單、支付訂單等過(guò)程。而在用戶真實(shí)的選購(gòu)過(guò)程是一個(gè)交纏反復(fù)的過(guò)程,例如提交訂單后,用戶可能會(huì)返回首頁(yè)繼續(xù)搜索商品,也可能去取消訂單,每一個(gè)路徑背后都有不同的動(dòng)機(jī)。與其他分析模型配合進(jìn)行深入分析后,能為找到快速用戶動(dòng)機(jī),從而引領(lǐng)用戶走向最優(yōu)路徑或者期望中的路徑。用戶的路徑分析中,比較常見(jiàn)的可視化呈現(xiàn),就是桑基圖。(五)用戶行為路徑分析模型知識(shí)必備四、大數(shù)據(jù)分析模型針對(duì)產(chǎn)品的用戶運(yùn)營(yíng),會(huì)用到分群分析的方法。用戶分群,就是通過(guò)一定的規(guī)則找到對(duì)應(yīng)的用戶群體。實(shí)際使用中,可以根據(jù)不同業(yè)務(wù)需要定義群組,常用的方法包括:找到做過(guò)某些事情的人群:比如過(guò)去7天完成過(guò)3次購(gòu)物車計(jì)算;有某些特定屬性的人群:比如年齡在25歲以下的男性;在轉(zhuǎn)化過(guò)程中流失的人群:比如提交了訂單但沒(méi)有付款。(六)用戶分群分析模型知識(shí)必備四、大數(shù)據(jù)分析模型分布分析是用戶在特定指標(biāo)下的頻次、總額等的歸類展現(xiàn)。它可以展現(xiàn)出單用戶對(duì)產(chǎn)品的依賴程度,分析客戶在不同地區(qū)、不同時(shí)段所購(gòu)買的不同類型的產(chǎn)品數(shù)量、購(gòu)買頻次等,幫助運(yùn)營(yíng)人員了解當(dāng)前的客戶狀態(tài),以及客戶的運(yùn)轉(zhuǎn)情況。如訂單金額(100以下區(qū)間、100元-200元區(qū)間、200元以上區(qū)間等)、購(gòu)買次數(shù)(5次以下、5-10次、10以上)等用戶的分布情況。(七)分布分析模型分布分析模型的功能與價(jià)值:科學(xué)的分布分析模型支持按時(shí)間、次數(shù)、事件指標(biāo)進(jìn)行用戶條件篩選及數(shù)據(jù)統(tǒng)計(jì)。為不同角色的人員統(tǒng)計(jì)用戶在一天/周/月中,有多少個(gè)自然時(shí)間段(小時(shí)/天)進(jìn)行了某項(xiàng)操作、進(jìn)行某項(xiàng)操作的次數(shù)、進(jìn)行事件指標(biāo)。知識(shí)必備四、大數(shù)據(jù)分析模型用戶屬性分析根據(jù)用戶自身屬性對(duì)用戶進(jìn)行分類與統(tǒng)計(jì)分析,屬性分析是實(shí)現(xiàn)用戶行為精細(xì)化運(yùn)營(yíng)的必備分析方法之一。比如查看用戶數(shù)量在注冊(cè)時(shí)間上的變化趨勢(shì)、查看用戶按省份的分布情況。用戶屬性涉及用戶信息,如姓名、年齡、家庭、婚姻狀況、性別、最高教育程度等自然信息,也有產(chǎn)品相關(guān)屬性,如用戶常駐省市、用戶等級(jí)、用戶首次訪問(wèn)渠道來(lái)源等。屬性分析主要價(jià)值體現(xiàn)在豐富用戶畫(huà)像維度,讓用戶行為洞察粒度更細(xì)致??茖W(xué)的屬性分析方法,對(duì)于所有類型的屬性都可以將“去重?cái)?shù)”作為分析指標(biāo),數(shù)值類型的屬性可以將“總和”“均值”“最大值”“最小值”作為分析指標(biāo),添加多個(gè)維度。數(shù)字類型的維度可以自定義區(qū)間,方便進(jìn)行更加精細(xì)化的分析。(八)屬性分析模型知識(shí)必備五、大數(shù)據(jù)分析工具用于展現(xiàn)分析的前端開(kāi)源工具有Hadoop、JasperSoft、Pentaho、Spagobi、Openi、Birt等等。用于展現(xiàn)分析商用分析工具有StyleIntelligence、RapidMinerRadoop、Cognos、BO、Excel、MicrosoftPowerBI、Oracle、Microstrategy、QlikView。國(guó)內(nèi)的有BDP、國(guó)云數(shù)據(jù)(大數(shù)據(jù)魔鏡)、思邁特、FineBI等等。數(shù)據(jù)倉(cāng)庫(kù)有TeradataAsterData、EMCGreenPlum、HPVertica等等。數(shù)據(jù)集市有QlikView、Tableau、StyleIntelligence等等。(一)大數(shù)據(jù)分析的軟件工具知識(shí)必備五、大數(shù)據(jù)分析工具好用的大數(shù)據(jù)分析平臺(tái)有百度指數(shù)、微信指數(shù)、微博指數(shù)、生意參謀、360趨勢(shì)、京東商智、頭條指數(shù)、飛瓜數(shù)據(jù)等等。這些大數(shù)據(jù)分析平臺(tái)每一個(gè)都對(duì)應(yīng)一個(gè)海量用戶的商業(yè)平臺(tái),平臺(tái)本身已經(jīng)針對(duì)大數(shù)據(jù)分析做好了底層開(kāi)發(fā),可供數(shù)據(jù)分析員直接查詢使用,開(kāi)展項(xiàng)目分析;同時(shí),平臺(tái)一般也提供一些數(shù)據(jù)下載,數(shù)據(jù)分析員可以下載數(shù)據(jù)進(jìn)行進(jìn)一步的個(gè)性化分析。(二)大數(shù)據(jù)分析的平臺(tái)工具知識(shí)鏈接:百度指數(shù)大數(shù)據(jù)學(xué)習(xí)感悟大數(shù)據(jù)分析相對(duì)傳統(tǒng)數(shù)據(jù)分析,數(shù)據(jù)量更大、數(shù)據(jù)類型復(fù)雜、且是全集分析。在運(yùn)用大數(shù)據(jù)分析時(shí)一定要以真實(shí)數(shù)據(jù)為基礎(chǔ),問(wèn)題為導(dǎo)向,選擇合適的大數(shù)據(jù)分析技術(shù)和大數(shù)據(jù)分析模型,運(yùn)用大數(shù)據(jù)分析工具,最終才能獲得真實(shí)可靠的結(jié)果,以供決策。大數(shù)據(jù)的意義歸根到底就四個(gè)字:“輔助決策”。利用大數(shù)據(jù)分析,能夠分析現(xiàn)狀、分析原因、發(fā)現(xiàn)規(guī)律、總結(jié)經(jīng)驗(yàn)、和預(yù)測(cè)趨勢(shì),這些都可以為輔助決策服務(wù)。因此,在進(jìn)行大數(shù)據(jù)分析時(shí)必須與具體領(lǐng)域、行業(yè)相結(jié)合,給決策者提供幫助之后,才能顯現(xiàn)其價(jià)值。大數(shù)據(jù)分析處理數(shù)據(jù)之多,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會(huì)是前所未有的。伴隨著大數(shù)據(jù)、云平臺(tái)、物聯(lián)網(wǎng)、人工智能技術(shù)的快速發(fā)展,大數(shù)據(jù)分析必然會(huì)發(fā)揮更大的作用,青年學(xué)生一定學(xué)好大數(shù)據(jù)分析,承擔(dān)更多社會(huì)責(zé)任。任務(wù)實(shí)訓(xùn)1.掃教材上對(duì)應(yīng)二維碼針對(duì)必備知識(shí)進(jìn)行在線測(cè)試。2.針對(duì)任務(wù)描述中小王任務(wù),請(qǐng)利用百度指數(shù)或者生意參謀等大數(shù)據(jù)平臺(tái)工具幫小張完成市場(chǎng)需求情況的分析。任務(wù)評(píng)價(jià)評(píng)價(jià)類目評(píng)價(jià)內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評(píng)分小組評(píng)分教師評(píng)分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀(jì)律。(5分)學(xué)習(xí)過(guò)程

能說(shuō)出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問(wèn)題(5分);20

能夠回答大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析的不同點(diǎn);(5分)能夠回答常用大數(shù)據(jù)分析方法;(5分)能夠理解和回答大數(shù)據(jù)分析模型。(5分)學(xué)習(xí)結(jié)果“在線測(cè)試”選擇題和判斷題考評(píng);(3分×10=30分)70

針對(duì)任務(wù)描述中小王任務(wù)利用百度指數(shù)、生意參謀等平臺(tái)進(jìn)行市場(chǎng)需求分析的考評(píng);(40分)合

計(jì)100

所占比例100%30%30%40%綜合評(píng)分

任務(wù)二探究大數(shù)據(jù)挖掘任務(wù)清單工作任務(wù)任務(wù)三探究大數(shù)據(jù)挖掘教學(xué)模式任務(wù)驅(qū)動(dòng)建議學(xué)時(shí)2課時(shí)教學(xué)地點(diǎn)一體化教室任務(wù)描述超級(jí)商業(yè)零售連鎖巨無(wú)霸沃爾瑪公司為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買習(xí)慣,對(duì)其顧客的購(gòu)物行為進(jìn)行了挖掘分析,得到了一個(gè)令人驚奇和意外的結(jié)果:“跟尿不濕一起購(gòu)買最多的商品竟是啤酒”。這么大的數(shù)據(jù)他是怎么發(fā)現(xiàn)的?什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的過(guò)程是怎樣的?初入數(shù)據(jù)分析崗位的小王很想探究大數(shù)據(jù)挖掘。任務(wù)目標(biāo)正確理解數(shù)據(jù)挖掘概念;掌握數(shù)據(jù)挖掘?qū)ο?;理解和熟悉常?jiàn)數(shù)據(jù)挖掘技術(shù);掌握數(shù)據(jù)挖掘過(guò)程;了解數(shù)據(jù)挖掘的應(yīng)用;能利用常用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)分析和挖掘;能掌握數(shù)據(jù)挖掘過(guò)程,厘清數(shù)據(jù)挖掘思路,進(jìn)行常用的數(shù)據(jù)挖掘;養(yǎng)成良好的邏輯思維意識(shí)。關(guān)鍵詞數(shù)據(jù)挖掘、數(shù)據(jù)挖掘?qū)ο?、關(guān)聯(lián)分析、分類分析、聚類分析、CRISP-DM模型知識(shí)必備一、什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining)是指從海量數(shù)據(jù)中挖掘出隱藏的、有價(jià)值的知識(shí)和信息。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘是近年來(lái)伴隨數(shù)據(jù)庫(kù)系統(tǒng)的大量建立和萬(wàn)維網(wǎng)的廣泛應(yīng)用而發(fā)展起來(lái)的一門(mén)技術(shù)。數(shù)據(jù)挖掘是交叉性學(xué)科,它是數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、人工智能、可視化分析、模式識(shí)別等多門(mén)學(xué)科的融合。近年來(lái),隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘應(yīng)用越來(lái)越廣泛,但是由于數(shù)據(jù)量龐大、不完全且模糊,因此針對(duì)大數(shù)據(jù)的數(shù)據(jù)挖掘仍是一個(gè)難題。知識(shí)必備二、正確理解數(shù)據(jù)挖掘數(shù)據(jù)挖掘首先是搜集數(shù)據(jù),數(shù)據(jù)越豐富越好,數(shù)據(jù)量越大越好,只有獲得足夠的高質(zhì)量的數(shù)據(jù),才能獲得確定的判斷,才能產(chǎn)生認(rèn)知模型,這是量變到質(zhì)變的過(guò)程。由此產(chǎn)生經(jīng)驗(yàn),經(jīng)驗(yàn)的積累就能產(chǎn)生有價(jià)值的判斷。認(rèn)知模型是漸進(jìn)發(fā)展的模型,當(dāng)認(rèn)識(shí)深入以后,將生成更加抽象的模型與許多猜想,通過(guò)猜想再擴(kuò)展模型,從而達(dá)到深度學(xué)習(xí)和深度挖掘的目的。知識(shí)必備三、數(shù)據(jù)挖掘的對(duì)象(一)關(guān)系型數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)是表的集合,每個(gè)表有唯一的名字和一組屬性,并可存放大量的記錄。關(guān)系型數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘最流行、最豐富的數(shù)據(jù)源,是數(shù)據(jù)挖掘研究的主要對(duì)象。(二)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)一般用多維數(shù)據(jù)庫(kù)結(jié)構(gòu)建模,每個(gè)維度對(duì)應(yīng)一組屬性。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)裝入并定期對(duì)數(shù)據(jù)刷新。例如,某跨國(guó)公司A在世界各地都有分公司,每個(gè)分公司都有自己的數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)的物理存放地也不同?,F(xiàn)在總公司要求匯總公司第二季度每種商品、每個(gè)分公司的銷售情況。這就需要一個(gè)數(shù)據(jù)倉(cāng)庫(kù),從各個(gè)分公司收集數(shù)據(jù),通過(guò)一致的模式進(jìn)行存儲(chǔ)。知識(shí)必備三、數(shù)據(jù)挖掘的對(duì)象(三)面向?qū)ο髷?shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)是基于面向?qū)ο蟪绦蛟O(shè)計(jì)的,其將一個(gè)實(shí)體看作一個(gè)對(duì)象,如每個(gè)顧客、商品都可以當(dāng)作一個(gè)對(duì)象,一個(gè)對(duì)象的相關(guān)屬性和行為都被封裝在一個(gè)單元中。對(duì)具有公共特性的對(duì)象可以歸入一個(gè)類。每個(gè)對(duì)象都是這個(gè)類的一個(gè)實(shí)例。類可以生成子類,子類可以繼承父類的公共特性,又可以有自身的特性。(四)復(fù)雜類型數(shù)據(jù)指的是具有各種各樣的形式和結(jié)構(gòu),有很多不相同的語(yǔ)義的數(shù)據(jù)。如,序列數(shù)據(jù)(時(shí)間、符號(hào)、生物學(xué)序列)、圖與網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等。知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析(AssociationAnalysis)是一種簡(jiǎn)單且實(shí)用的分析技術(shù),就是發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的關(guān)聯(lián)性和相關(guān)性,進(jìn)而描述出一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,這些規(guī)律和模式即關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析廣泛用于市場(chǎng)營(yíng)銷、事務(wù)分析等應(yīng)用領(lǐng)域。關(guān)聯(lián)分析在商業(yè)領(lǐng)域的成功應(yīng)用,使它成為數(shù)據(jù)挖掘中最成熟、最活躍的一個(gè)分支。(一)關(guān)聯(lián)分析案例:如表4-4中,t1~t7分別表示7位不同的顧客一次在商場(chǎng)購(gòu)買的所有商品。定義一個(gè)規(guī)則“牛肉雞肉”,在t1~t7位顧客中,同時(shí)購(gòu)買牛肉和雞肉的顧客比例為3/7,而購(gòu)買牛肉的顧客中也購(gòu)買了雞肉的顧客比例是3/4。這兩個(gè)比例參數(shù)在關(guān)聯(lián)規(guī)則中被稱作支持度(support)和置信度(confidence),是最重要的兩個(gè)衡量指標(biāo)。知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)對(duì)于規(guī)則“牛肉->雞肉”,支持度為3/7,表示在所有顧客中有3/7同時(shí)購(gòu)買牛肉和雞肉,反映了同時(shí)購(gòu)買牛肉和雞肉的顧客在所有顧客中的覆蓋范圍;置信度為3/4,表示在買了牛肉的顧客中有3/4的人買了雞肉,反映了可預(yù)測(cè)的程度,即顧客購(gòu)買了牛肉的同時(shí),購(gòu)買雞肉的可能性有多大。知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)分類分析是數(shù)據(jù)挖掘中預(yù)測(cè)建模的一種任務(wù),用于預(yù)測(cè)離散的目標(biāo)變量,相對(duì)的回歸用于預(yù)測(cè)連續(xù)的目標(biāo)變量。比較科學(xué)的分類定義:分類任務(wù)就是通過(guò)學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y。例如,預(yù)測(cè)一個(gè)Web用戶是否會(huì)在網(wǎng)上書(shū)店買書(shū)是分類任務(wù),因?yàn)樵撃繕?biāo)變量只有兩個(gè)值——是、否;預(yù)測(cè)某股票的未來(lái)價(jià)格是回歸任務(wù),因?yàn)閮r(jià)格具有連續(xù)值屬性。兩項(xiàng)任務(wù)目標(biāo)都是訓(xùn)練一個(gè)模型,使目標(biāo)變量預(yù)測(cè)值與實(shí)際值之間的誤差達(dá)到最小。(二)分類分析知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)(二)分類分析例如,用挑西瓜的例子訓(xùn)練數(shù)據(jù)集,主要規(guī)則如下。(色澤=青綠,根蒂=蜷縮,敲聲=濁響)<==>好瓜(色澤=烏黑,根蒂=蜷縮,敲聲=濁響)<==>好瓜(色澤=青綠,根蒂=硬挺,敲聲=清脆)<==>壞瓜(色澤=烏黑,根蒂=稍蜷,敲聲=沉悶)<==>壞瓜運(yùn)用分類算法建立分辨好壞瓜的分類模型,就可以去西瓜攤買到好瓜。分類分析算法有決策樹(shù)方法、最近鄰分類器、貝葉斯分類器等。其中決策樹(shù)方法是一種十分常用的分類方法,它是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法。知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)(三)聚類分析將一群物理對(duì)象或者抽象對(duì)象劃分成相似的對(duì)象類的過(guò)程就是聚類分析。類簇是數(shù)據(jù)對(duì)象的集合。在類簇中,所有的對(duì)象都彼此相似,而類簇與類簇之間的對(duì)象是彼此相異的。聚類分析除了可以用于數(shù)據(jù)分割,也可以用于離群點(diǎn)檢測(cè)。所謂的離群點(diǎn),指的是與“普通”點(diǎn)相對(duì)應(yīng)的“異?!秉c(diǎn),而這些“異?!秉c(diǎn)往往值得注意。聚類與分類分析的區(qū)別:聚類是無(wú)監(jiān)督學(xué)習(xí),指事先沒(méi)有“標(biāo)簽”而通過(guò)某種成團(tuán)分析找出事物之間存在聚集性原因的過(guò)程。分類是有監(jiān)督學(xué)習(xí),就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽,再根據(jù)標(biāo)簽來(lái)區(qū)分歸類。聚類分析常用算法有K-means算法、K-medoids算法、層次聚類分析算法等知識(shí)必備四、常用數(shù)據(jù)挖掘技術(shù)(三)聚類分析例如:一個(gè)班級(jí)有30學(xué)生,每個(gè)學(xué)生10張不同照片,將這300張照片打亂,聚類就是在不告訴機(jī)器任何學(xué)生信息,僅憑對(duì)300張照片的學(xué)習(xí),然后把它分成10類。而如果班級(jí)30學(xué)生,每個(gè)學(xué)生10張不同照片,每張照片上面寫(xiě)了該同學(xué)的名字,機(jī)器對(duì)這300張照片和照片上的名字進(jìn)行學(xué)習(xí),形成一個(gè)包含10個(gè)類的模型,用該模型來(lái)預(yù)測(cè)未知照片屬于哪個(gè)類,這就是分類。知識(shí)必備五、數(shù)據(jù)挖掘過(guò)程(一)數(shù)據(jù)挖掘的主要過(guò)程1.分類:根據(jù)數(shù)據(jù)對(duì)象的屬性和特征建立不同的組來(lái)描述數(shù)據(jù)對(duì)象的類別。2.聚類:將數(shù)據(jù)對(duì)象集合分成由類似的數(shù)據(jù)對(duì)象組成的多個(gè)類。3.發(fā)現(xiàn):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則和序列模式,關(guān)聯(lián)是兩種數(shù)據(jù)對(duì)象之間的關(guān)系,而序列是數(shù)據(jù)對(duì)象之間時(shí)間或空間縱向的聯(lián)系。4.預(yù)測(cè):從分析數(shù)據(jù)對(duì)象的特征出發(fā),預(yù)測(cè)數(shù)據(jù)對(duì)象的發(fā)展趨勢(shì)。5.檢測(cè):是進(jìn)行偏差檢測(cè),對(duì)于極少數(shù)特例,詳細(xì)分析數(shù)據(jù)對(duì)象異常的內(nèi)在原因。知識(shí)必備五、數(shù)據(jù)挖掘過(guò)程(二)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)1.業(yè)務(wù)理解該步驟包括四個(gè)方面:詳細(xì)分析業(yè)務(wù)需求;準(zhǔn)確定義問(wèn)題的范圍;準(zhǔn)確定義計(jì)算模型所需要使用的度量;準(zhǔn)確定義數(shù)據(jù)挖掘項(xiàng)目的具體目標(biāo),并擬訂完成目標(biāo)的初步計(jì)劃。2.數(shù)據(jù)理解該步驟的核心任務(wù)是判斷數(shù)據(jù)的質(zhì)量,具體包括熟悉數(shù)據(jù)的含義和特性,過(guò)濾、整理出適合分析的數(shù)據(jù),進(jìn)而評(píng)估數(shù)據(jù)的質(zhì)量,找出影響力最大的數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)之間隱含的相關(guān)性。知識(shí)必備五、數(shù)據(jù)挖掘過(guò)程(二)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)3.數(shù)據(jù)準(zhǔn)備該步驟包括從收集數(shù)據(jù)到構(gòu)建數(shù)據(jù)集的一系列工作。該步驟有可能需要反復(fù)進(jìn)行,主要是為了對(duì)各種不同來(lái)源的數(shù)據(jù)進(jìn)行清洗和整理分類,使數(shù)據(jù)能達(dá)到供給數(shù)據(jù)挖掘模型工具使用的要求。4.建立模型該步驟是對(duì)數(shù)據(jù)準(zhǔn)備步驟中預(yù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論