大數(shù)據(jù)挖掘與分析第一章_第1頁(yè)
大數(shù)據(jù)挖掘與分析第一章_第2頁(yè)
大數(shù)據(jù)挖掘與分析第一章_第3頁(yè)
大數(shù)據(jù)挖掘與分析第一章_第4頁(yè)
大數(shù)據(jù)挖掘與分析第一章_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)挖掘與分析電子商務(wù)課程王倩2022/9/19第一章大數(shù)據(jù)分析概論第二章格微知識(shí)體系和知識(shí)圖譜第三章數(shù)據(jù)分析方法論第四章數(shù)據(jù)準(zhǔn)備和魔方原理第五章數(shù)據(jù)處理第六章數(shù)據(jù)分析法第七章數(shù)據(jù)可視化第八章數(shù)據(jù)分析報(bào)告課程結(jié)構(gòu)0. 課程介紹大數(shù)據(jù)概念何謂數(shù)據(jù)分析數(shù)據(jù)分析師的職業(yè)發(fā)展案例分析涉及專業(yè)知識(shí)軟件工具第一章大數(shù)據(jù)分析概論概念目的分類作用步驟大數(shù)據(jù)挖掘與分析是基于格微公司的知識(shí)魔方產(chǎn)品而設(shè)立的對(duì)口課程,是一門(mén)綜合學(xué)科,包括統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)、管理學(xué)等專業(yè)知識(shí)。未來(lái)大數(shù)據(jù)應(yīng)用領(lǐng)域:企業(yè)日常數(shù)據(jù)產(chǎn)生大量數(shù)據(jù)的機(jī)器驅(qū)動(dòng)(傳感器中的數(shù)據(jù))客戶數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù) (門(mén)戶網(wǎng)站、社交網(wǎng)絡(luò)、電子商務(wù)等數(shù)據(jù))課程介紹

2、大數(shù)據(jù)技術(shù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)概念大數(shù)據(jù)的4V特點(diǎn):Volume (大量)Velocity (高速)Variety (多樣)Value (價(jià)值)1、數(shù)據(jù)分析簡(jiǎn)單來(lái)說(shuō)對(duì)數(shù)據(jù)進(jìn)行分析。專業(yè)說(shuō)法指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開(kāi)發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這里的數(shù)據(jù)也稱觀測(cè)值,是通過(guò)實(shí)驗(yàn)、測(cè)量、觀察、調(diào)查等方式獲取

3、的結(jié)果,常常以數(shù)量的形式展現(xiàn)出來(lái)。何謂數(shù)據(jù)分析2、數(shù)據(jù)分析的目的把隱藏在一大批看似雜亂無(wú)章的數(shù)據(jù)背后的信息集中和提煉出來(lái),總結(jié)出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)際工作中,數(shù)據(jù)分析能夠幫助管理者進(jìn)行判斷和決策,以便采取適當(dāng)策略與行動(dòng)。例如,企業(yè)的高層希望通過(guò)市場(chǎng)分析和研究,把握當(dāng)前產(chǎn)品的市場(chǎng)動(dòng)向,從而制訂合理的產(chǎn)品研發(fā)和銷售計(jì)劃,這就必須依賴數(shù)據(jù)分析才能完成。何謂數(shù)據(jù)分析在統(tǒng)計(jì)學(xué)領(lǐng)域,有些學(xué)者將數(shù)據(jù)分析劃分為描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析(參見(jiàn)圖1-1 )。其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于驗(yàn)證已有假設(shè)的真?zhèn)巫C明。何謂數(shù)據(jù)分析數(shù)據(jù)分析描述性 數(shù)

4、據(jù)分析探索性 數(shù)據(jù)分析驗(yàn)證性 數(shù)據(jù)分析圖1-1 數(shù)據(jù)分析類別從另一個(gè)角度看,描述性數(shù)據(jù)分析屬于初級(jí)數(shù)據(jù)分析,常見(jiàn)的分析方法有對(duì)比分析法、平均分析法、交叉分析法等。而探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析屬于高級(jí)數(shù)據(jù)分析,常見(jiàn)的分析方法有相關(guān)分析、因子分析、回歸分析等。我們?nèi)粘W(xué)習(xí)和工作中涉及的數(shù)據(jù)分析主要是描述性數(shù)據(jù)分析,也就是大家常用的初級(jí)數(shù)據(jù)分析。3、數(shù)據(jù)分析分類4、數(shù)據(jù)分析的作用何謂數(shù)據(jù)分析現(xiàn)狀分析原因分析預(yù)測(cè)分析現(xiàn)狀分析 簡(jiǎn)單來(lái)說(shuō)就是告訴你過(guò)去發(fā)生了什么。具體體現(xiàn)在: 第一,告訴你企業(yè)現(xiàn)階段的整體運(yùn)營(yíng)情況,通過(guò)各個(gè)經(jīng)營(yíng)指標(biāo)的完成情況來(lái)衡量企業(yè)的運(yùn)營(yíng)狀態(tài),以說(shuō)明企業(yè)整體運(yùn)營(yíng)是好了還是壞了,好的

5、程度如何,壞的程度又到哪里。 第二,告訴你企業(yè)各項(xiàng)業(yè)務(wù)的構(gòu)成,讓你了解企業(yè)各項(xiàng)業(yè)務(wù)的發(fā)展及變動(dòng)情況,對(duì)企業(yè)運(yùn)營(yíng)狀況有更深入的了解。 現(xiàn)狀分析一般通過(guò)日常通報(bào)來(lái)完成,如日?qǐng)?bào)、周報(bào)、月報(bào)等形式。預(yù)測(cè)分析簡(jiǎn)單來(lái)說(shuō)就是告訴你將來(lái)會(huì)發(fā)生什么。在了解企業(yè)運(yùn)營(yíng)現(xiàn)狀后,有時(shí)還需要對(duì)企業(yè)未來(lái)發(fā)展趨勢(shì)作出預(yù)測(cè),為制訂企業(yè)運(yùn)營(yíng)目標(biāo)及策略提供有效的參考與決策依據(jù),以保證企業(yè)的可持續(xù)健康發(fā)展。預(yù)測(cè)分析一般通過(guò)專題分析來(lái)完成,通常在制訂企業(yè)季度、年度等計(jì)劃時(shí)進(jìn)行,其開(kāi)展的頻率沒(méi)有現(xiàn)狀分析及原因分析高。圖1-2 數(shù)據(jù)分析作用原因分析簡(jiǎn)單來(lái)說(shuō)就是告訴你某一現(xiàn)狀為什么發(fā)生。經(jīng)過(guò)第一階段的現(xiàn)狀分析,我們對(duì)企業(yè)的運(yùn)營(yíng)情況有了基本了

6、解,但不知道運(yùn)營(yíng)情況具體好在哪里,差在哪里,是什么原因引起的。這時(shí)就需要開(kāi)展原因分析,以進(jìn)一步確定業(yè)務(wù)變動(dòng)的具體原因。例如2012年2月運(yùn)營(yíng)收入環(huán)比下降5%,是什么原因?qū)е碌哪?,是各?xiàng)業(yè)務(wù)收入都出現(xiàn)下降,還是個(gè)別業(yè)務(wù)收入下降引起的,是各個(gè)地區(qū)業(yè)務(wù)收入都出現(xiàn)下降,還是個(gè)別地區(qū)業(yè)務(wù)收入下降引起的,這就需要我們開(kāi)展原因分析,進(jìn)一步確定收入下降的具體原因,對(duì)運(yùn)營(yíng)策略做出調(diào)整與優(yōu)化。原因分析一般通過(guò)專題分析來(lái)完成,根據(jù)企業(yè)運(yùn)營(yíng)情況選擇針對(duì)某一現(xiàn)狀進(jìn)行原因分析。5、數(shù)據(jù)分析步驟何謂數(shù)據(jù)分析明確分析目的和思路數(shù)據(jù)收集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)報(bào)告撰寫(xiě)圖1-3 數(shù)據(jù)分析步驟明確分析目的何謂數(shù)據(jù)分析數(shù)據(jù)變化的背后

7、真相是什么?從那些角度分析數(shù)據(jù)才系統(tǒng)?用什么分析方法最有效?圖表是否表達(dá)出有效的觀點(diǎn)?數(shù)據(jù)分析的目的達(dá)到了嗎?數(shù)據(jù)分析報(bào)告有說(shuō)服力嗎?明確分析目的和思路表1-1 分析目的明確分析目的和思路體系化也就是邏輯化,簡(jiǎn)單來(lái)說(shuō)就是先分析什么,后分析什么,使得各個(gè)分析點(diǎn)之間具有邏輯聯(lián)系。這也是很多人常常感到困擾的問(wèn)題,比如經(jīng)常不知從哪方面入手,分析的內(nèi)容和指標(biāo)常常被質(zhì)疑是否合理、完整,而自己也說(shuō)不出個(gè)所以然來(lái),所以體系化就是為了讓你的分析框架具有說(shuō)服力。以營(yíng)銷、管理等理論為指導(dǎo),結(jié)合實(shí)際業(yè)務(wù)情況,搭建分析框架,這樣才能確保數(shù)據(jù)分析維度的完整性,分析結(jié)果的有效性及正確性。何謂數(shù)據(jù)分析確定分析思路、搭建分析框

8、架、分析體系化明確分析目的和思路營(yíng)銷方面的理論模型:4P、用戶使用行為、STP理論、SWOT等管理方面的理論模型:PEST、5W2H、時(shí)間管理、生命周期、邏輯樹(shù)、金字塔、SMART原則等。何謂數(shù)據(jù)分析圖1-4所示,是以PEST分析理論為指導(dǎo),搭建的互聯(lián)網(wǎng)行業(yè)PEST分析框架,故而使數(shù)據(jù)分析變得有血有肉有脈絡(luò),真正做到理論指導(dǎo)實(shí)踐。其他具體應(yīng)用在后面會(huì)相繼介紹。何謂數(shù)據(jù)分析互聯(lián)網(wǎng)行業(yè)分析政治經(jīng)濟(jì)社會(huì)技術(shù)國(guó)家出臺(tái)的相關(guān)政策?有何影響?制約還是促進(jìn)?相關(guān)法律有哪些?有何影響?GDP及增長(zhǎng)率,進(jìn)出口總額及增長(zhǎng)率消費(fèi)價(jià)格指數(shù)、失業(yè)率、居民可支配收入在人口規(guī)模、性別比例、年齡紹構(gòu)、人口分布、生活萬(wàn)式、購(gòu)買

9、習(xí)慣、教育狀況、城市、宗教信仰狀況等萬(wàn)面,網(wǎng)民與全國(guó)人民是否有區(qū)別?報(bào)術(shù)的發(fā)明、傳播、更新、商品化速度、技術(shù)發(fā)展趁勢(shì)國(guó)家重點(diǎn)支特項(xiàng)目、國(guó)家投入的研發(fā)費(fèi)用、專利個(gè)數(shù)明確分析目的和思路圖1-4 互聯(lián)網(wǎng)行業(yè)PEST分析框架數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析框架,收集相關(guān)數(shù)據(jù)的過(guò)程,它為數(shù)據(jù)分析提供了素材和依據(jù)。這里所說(shuō)的數(shù)據(jù)包括第一手?jǐn)?shù)據(jù)與第二手?jǐn)?shù)據(jù),第一手?jǐn)?shù)據(jù)主要指可直接獲取的數(shù)據(jù),第二手?jǐn)?shù)據(jù)主要指經(jīng)過(guò)加工整理后得到的數(shù)據(jù)。一般數(shù)據(jù)來(lái)源主要有以下幾種方式,如圖1-5所示。何謂數(shù)據(jù)分析數(shù)據(jù)收集數(shù)據(jù)庫(kù)公開(kāi)出版物市場(chǎng)調(diào)查互聯(lián)網(wǎng)圖1-5 數(shù)據(jù)來(lái)源數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工整理,形成適合數(shù)據(jù)分析的樣式,它

10、是數(shù)據(jù)分析前必不可少的階段。數(shù)據(jù)處理的基本目的是從大量的、雜亂無(wú)章、難以理解的數(shù)據(jù)中,抽取并推導(dǎo)出對(duì)解決問(wèn)題有價(jià)值、有意義的數(shù)據(jù)。何謂數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)化數(shù)據(jù)提取數(shù)據(jù)計(jì)算圖1-6 數(shù)據(jù)處理數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒肮ぞ?,?duì)處理過(guò)的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論的過(guò)程。何謂數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)處理是數(shù)據(jù)分析的基礎(chǔ)。通過(guò)數(shù)據(jù)處理,將收集到的原始數(shù)據(jù)轉(zhuǎn)換為可以分析的形式,并且保證數(shù)據(jù)的一致性和有效性。數(shù)據(jù)分析數(shù)據(jù)分析是數(shù)據(jù)處理的目的。數(shù)據(jù)分析是對(duì)“處理過(guò)的數(shù)據(jù)”的功能提煉過(guò)程。數(shù)據(jù)分析數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)是一樣的,都是從數(shù)據(jù)里面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)。數(shù)據(jù)挖掘 數(shù)據(jù)挖掘

11、就是從大量的數(shù)據(jù)中挖掘出有用的信息,它是根據(jù)用戶的特定要求,從浩如煙海的數(shù)據(jù)中找出所需的信息,以滿足用戶的特定需求。數(shù)據(jù)分析圖1-7 數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘之間的區(qū)別何謂數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)圖1-8 數(shù)據(jù)可視化數(shù)據(jù)分析報(bào)告其實(shí)是對(duì)整個(gè)數(shù)據(jù)分析過(guò)程的一個(gè)總結(jié)與呈現(xiàn)。通過(guò)報(bào)告,把數(shù)據(jù)分析的起因、過(guò)程、結(jié)果及建議完整地呈現(xiàn)出來(lái),供決策者參考。所以,數(shù)據(jù)分析報(bào)告是通過(guò)對(duì)數(shù)據(jù)全方位的科學(xué)分析來(lái)評(píng)估企業(yè)運(yùn)營(yíng)質(zhì)量,為決策者提供科學(xué)、嚴(yán)謹(jǐn)?shù)臎Q策依據(jù),以降低企業(yè)運(yùn)營(yíng)風(fēng)險(xiǎn),提高企業(yè)核心競(jìng)爭(zhēng)力。 一份好的數(shù)據(jù)分析報(bào)告,首先需要有一個(gè)好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以

12、使閱讀者正確理解報(bào)告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動(dòng)活潑,提高視覺(jué)沖擊力,有助于閱讀者更形象、直觀地看清楚問(wèn)題和結(jié)論,從而產(chǎn)生思考。 另外,數(shù)據(jù)分析報(bào)告需要有明確的結(jié)論,沒(méi)有明確結(jié)論的分析稱不上分析,同時(shí)也失去了報(bào)告的意義,因?yàn)槲覀冏畛蹙褪菫閷ふ一蛘咔笞C一個(gè)結(jié)論才進(jìn)行分析的,所以千萬(wàn)不要舍本求末。最后,好的分析報(bào)告一定要有建議或解決方案。作為決策者,需要的不僅僅是找出問(wèn)題,更重要的是建議或解決方案,以便他們?cè)跊Q策時(shí)作參考。所以,數(shù)據(jù)分析師不僅需要掌握數(shù)據(jù)分析方法,而且還要了解和熟悉業(yè)務(wù),這樣才能根據(jù)發(fā)現(xiàn)的業(yè)務(wù)問(wèn)題,提出具有可行性的建議或解決方案。下面的圖1-8給出了一個(gè)分析報(bào)告的基本框架示例

13、。報(bào)告撰寫(xiě)何謂數(shù)據(jù)分析何謂數(shù)據(jù)分析圖1-8 數(shù)據(jù)分析報(bào)告示例報(bào)告撰寫(xiě)通信數(shù)據(jù)庫(kù)技術(shù)互聯(lián)網(wǎng)軟件工具電商云端金融硬件設(shè)備數(shù)據(jù)分析師的職業(yè)發(fā)展1、數(shù)據(jù)分析前景目前,數(shù)據(jù)庫(kù)技術(shù)、軟件工具、各種硬件設(shè)備飛速發(fā)展,在這些軟硬件技術(shù)與設(shè)備的支持下,信息技術(shù)的應(yīng)用已在各行各業(yè)全面展開(kāi),尤其是對(duì)通信、互聯(lián)網(wǎng)、金融等行業(yè)的發(fā)展做出了巨大貢獻(xiàn),并且經(jīng)過(guò)長(zhǎng)期的應(yīng)用積累了大量豐富的數(shù)據(jù)。圖1-9 數(shù)據(jù)分析應(yīng)用前景數(shù)據(jù)分析師如此搶手的原因何在呢?答:一個(gè)簡(jiǎn)單的原因就是社會(huì)越發(fā)達(dá),人們對(duì)數(shù)據(jù)的依賴就越多。無(wú)論政府決策還是公司運(yùn)營(yíng),科學(xué)研究還是媒體宣傳,都需要數(shù)據(jù)支持。那么,對(duì)數(shù)據(jù)有如此大的依賴,就必然導(dǎo)致對(duì)數(shù)據(jù)分析的大量需

14、求。因此,將數(shù)據(jù)轉(zhuǎn)化為知識(shí)、結(jié)論和規(guī)律,就是數(shù)據(jù)分析的作用和價(jià)值。數(shù)據(jù)分析師的職業(yè)發(fā)展那數(shù)據(jù)究竟會(huì)龐大到什么地步呢?答:據(jù)國(guó)際知名咨詢公司估計(jì),到2020年,全球每年產(chǎn)生的數(shù)據(jù)量將達(dá)到3500萬(wàn)億GB,打個(gè)比方,就是用普通的DVD一張一張地撰起來(lái),可以從地球撰到月球兩次。面對(duì)這樣龐大的數(shù)據(jù),對(duì)數(shù)據(jù)分析師的要求就不僅僅是單純做分析了,更重要的是與相關(guān)業(yè)務(wù)部門(mén)進(jìn)行合作,將數(shù)據(jù)真正應(yīng)用到業(yè)務(wù)中,根據(jù)實(shí)際的業(yè)務(wù)發(fā)展情況識(shí)別哪些數(shù)據(jù)可用,哪些不適用,而不是孤立地在“真空環(huán)境”下進(jìn)行分析。這就要求數(shù)據(jù)分析師不僅具備洞察數(shù)據(jù)的能力,還要對(duì)相關(guān)業(yè)務(wù)的背景有深入的了解,明白客戶或業(yè)務(wù)部門(mén)的需求,從而將數(shù)據(jù)信息化

15、、可視化,最后轉(zhuǎn)化為生產(chǎn)力,幫助企業(yè)獲得利潤(rùn),這就是整個(gè)數(shù)據(jù)“供應(yīng)鏈”。當(dāng)然,數(shù)據(jù)分析師也需要理解這個(gè)“供應(yīng)鏈”。數(shù)據(jù)分析師的職業(yè)發(fā)展數(shù)據(jù)分析師的職業(yè)發(fā)展2、數(shù)據(jù)分析師職業(yè)要求懂業(yè)務(wù)熟悉行業(yè)知識(shí)、公司業(yè)務(wù)即流程,認(rèn)識(shí)不脫離。懂設(shè)計(jì)圖表運(yùn)用圖表設(shè)計(jì)懂工具ExcelSpss、R等懂分析數(shù)據(jù)分析基本原理有效的數(shù)據(jù)分析方法懂管理數(shù)據(jù)分析框架有知道意義的分析建議圖1-10 數(shù)據(jù)分析師 職業(yè)要求對(duì)于兩化部門(mén):初級(jí)數(shù)據(jù)分析人員:掌握客戶需求分析能力; 理解格微知識(shí)體系能力; 具有熟練搜集情報(bào)能力; 熟練應(yīng)用數(shù)據(jù)采集工具; 微門(mén)戶和魔方配置能力。數(shù)據(jù)分析師:熟練應(yīng)用數(shù)據(jù)分析方法論的能力; 掌握理解多種數(shù)據(jù)分析

16、法的能力; 書(shū)寫(xiě)報(bào)告能力。數(shù)據(jù)分析師的職業(yè)發(fā)展基本素質(zhì)態(tài)度嚴(yán)謹(jǐn)負(fù)責(zé)好奇心強(qiáng)烈邏輯思維清晰擅長(zhǎng)模仿學(xué)習(xí)勇于創(chuàng)新數(shù)據(jù)分析師的職業(yè)發(fā)展3、數(shù)據(jù)分析師基本素質(zhì)圖1-11 數(shù)據(jù)分析師基本素質(zhì)案例:上大學(xué)分析某社會(huì)機(jī)構(gòu),收集了大量的學(xué)生考大學(xué)的數(shù)據(jù)。該機(jī)構(gòu)希望找出一些規(guī)律,以推動(dòng)更多的學(xué)生考大學(xué)。 收集到的數(shù)據(jù)如下:數(shù)據(jù)挖掘準(zhǔn)備在數(shù)據(jù)挖掘之前,我們必須要自己好好分析一下。1.明確挖掘的目標(biāo)。原始需求是這樣的:該機(jī)構(gòu)希望找出一些規(guī)律,以推動(dòng)更多的學(xué)生考大學(xué)。要推動(dòng)更多學(xué)生考大學(xué),無(wú)非就是要分析出:1)有上大學(xué)計(jì)劃的人主要原因是什么呢?2)無(wú)上大學(xué)計(jì)劃的人主要原因是什么呢?分析出這些原因,就可以提出針對(duì)性的建

17、議了。數(shù)據(jù)挖掘準(zhǔn)備2.明確因果關(guān)系現(xiàn)階段存在的原始數(shù)據(jù)有姓名、性別、IQ、家庭年收入、兄弟姐妹數(shù)量、是否想上大學(xué)字段。并根據(jù)上面分析出的原因,可以得到下面這個(gè)圖:數(shù)據(jù)挖掘準(zhǔn)備家庭收入、性別、兄弟姐妹數(shù)量、IQ這些因素,很可能會(huì)影響有否上大學(xué)計(jì)劃。至于姓名會(huì)不會(huì)影響,我們可以用常識(shí)判斷應(yīng)該不會(huì),故可以排除。數(shù)據(jù)挖掘的目標(biāo)就是找出輸入列與可預(yù)測(cè)列的關(guān)系,只要找到這個(gè)規(guī)律,就可以提出針對(duì)性的建議,也可以利用這個(gè)規(guī)律做預(yù)測(cè)。數(shù)據(jù)挖掘方法我們選擇“決策樹(shù)”的方法,右邊是決策樹(shù)的部分分析結(jié)果:決策樹(shù)算法會(huì)分析原始數(shù)據(jù),將影響程度最大的因素排在上面,次之的因素排在后面。數(shù)據(jù)挖掘方法由上面的分析,我們可以得到

18、這樣的一些信息:1.越是IQ高的越有上大學(xué)的計(jì)劃。2.家庭收入越高,越有上大學(xué)計(jì)劃。3.兄弟姐妹越多,上大學(xué)計(jì)劃就越微。4.性別沒(méi)有在這棵樹(shù)出現(xiàn),說(shuō)明性別對(duì)有否上大學(xué)計(jì)劃沒(méi)有明顯影響。提出針對(duì)性的建議,以推動(dòng)更多人考大學(xué):1.大學(xué)學(xué)位有限,目前重點(diǎn)應(yīng)該是鼓勵(lì)更多的聰明的學(xué)生考大學(xué)。2.聰明的學(xué)生不計(jì)劃上大學(xué),主要原因是家庭收入低、兄弟姐妹多,針對(duì)這樣的情況,政府可考慮降低大學(xué)學(xué)費(fèi),或?qū)Φ褪杖搿⒍嘧优募彝ミM(jìn)行資助??偨Y(jié)過(guò)程1.明確你的目標(biāo),收集相關(guān)數(shù)據(jù)。2.根據(jù)目標(biāo)分析這些數(shù)據(jù),找出輸入列、可預(yù)測(cè)列。 3.選擇合適的數(shù)據(jù)挖掘方法。4.分析數(shù)據(jù)挖掘結(jié)果,給出建議。 第2、3步可能需要不斷地嘗試和調(diào)試,才能找到合適的分析結(jié)果。IBM SlamTracker運(yùn)動(dòng)員在場(chǎng)上的每一次揮拍、每一次擊打都可以轉(zhuǎn)化為數(shù)字,用于統(tǒng)計(jì)和分析。網(wǎng)球公開(kāi)賽現(xiàn)在,在每場(chǎng)比賽開(kāi)始前,“Keys to the Match”都會(huì)分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論