1.1.3 進(jìn)入大數(shù)據(jù)時(shí)代-數(shù)據(jù)集與數(shù)據(jù)分析_第1頁(yè)
1.1.3 進(jìn)入大數(shù)據(jù)時(shí)代-數(shù)據(jù)集與數(shù)據(jù)分析_第2頁(yè)
1.1.3 進(jìn)入大數(shù)據(jù)時(shí)代-數(shù)據(jù)集與數(shù)據(jù)分析_第3頁(yè)
1.1.3 進(jìn)入大數(shù)據(jù)時(shí)代-數(shù)據(jù)集與數(shù)據(jù)分析_第4頁(yè)
1.1.3 進(jìn)入大數(shù)據(jù)時(shí)代-數(shù)據(jù)集與數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)集與數(shù)據(jù)分析一、導(dǎo)入一、導(dǎo)入數(shù)據(jù)的關(guān)聯(lián)對(duì)比產(chǎn)生智慧

二、數(shù)據(jù)集與數(shù)據(jù)分析數(shù)據(jù)集:一組或者一個(gè)集合的相關(guān)聯(lián)的數(shù)據(jù)。數(shù)據(jù)集中的每一個(gè)成員數(shù)據(jù),都應(yīng)與數(shù)據(jù)集中的其他成員擁有相同的特征或者屬性。(1)存儲(chǔ)在一個(gè)文本文件中的推文(2)一個(gè)文件夾中的圖像文件(3)存儲(chǔ)在一個(gè)CSⅤ格式文件中的從數(shù)據(jù)庫(kù)中提取出來(lái)的行數(shù)據(jù)(4)存儲(chǔ)在一個(gè)XML文件中的歷史氣象觀測(cè)數(shù)據(jù)例如:XML數(shù)據(jù)、關(guān)系型數(shù)據(jù)和圖像數(shù)據(jù)就是三種不同數(shù)據(jù)格式的數(shù)據(jù)集。數(shù)據(jù)分析:通過(guò)處理數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)一些深層知識(shí)、模式、關(guān)系或是趨勢(shì)的過(guò)程。數(shù)據(jù)分析的總體目標(biāo)是做出更好的決策。如:通過(guò)分析冰淇淋的銷(xiāo)售額數(shù)據(jù),發(fā)現(xiàn)一天中冰淇淋甜筒的銷(xiāo)量與當(dāng)天氣溫的關(guān)系。二、數(shù)據(jù)集與數(shù)據(jù)分析不同的行業(yè)會(huì)以不同的方式使用大數(shù)據(jù)分析工具和技術(shù)。(1)在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營(yíng)開(kāi)銷(xiāo),還有助于優(yōu)化決策。(2)在科研領(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個(gè)現(xiàn)象的起因,提出更為精確的預(yù)測(cè)。(3)在服務(wù)業(yè)領(lǐng)域,大數(shù)據(jù)分析有助于人們以更低的開(kāi)銷(xiāo)提供更好的服務(wù)。二、數(shù)據(jù)集與數(shù)據(jù)分析從描述性分析到規(guī)范性分析,價(jià)值和復(fù)雜性都在不斷提升二、數(shù)據(jù)集與數(shù)據(jù)分析1.描述性分析——往往是對(duì)已經(jīng)發(fā)生的事件進(jìn)行問(wèn)答和總結(jié)。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮。如:(1)過(guò)去12個(gè)月的銷(xiāo)售量如何?(2)根據(jù)事件嚴(yán)重程度和地理位置分類(lèi),收到的求助電話的數(shù)量如何?(3)每一位銷(xiāo)售經(jīng)理的月銷(xiāo)售額是多少?二、數(shù)據(jù)集與數(shù)據(jù)分析進(jìn)行描述性分析常常借助OLTP、CRM、ERP等信息系統(tǒng)經(jīng)過(guò)描述性分析工具的處理生成的即席報(bào)表或者數(shù)據(jù)儀表板(dashboard)。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲(chǔ)的可操作數(shù)據(jù),例如客戶關(guān)系管理系統(tǒng)(CRM)或者企業(yè)資源規(guī)劃系統(tǒng)(ERP)。二、數(shù)據(jù)集與數(shù)據(jù)分析2.診斷性分析——旨在尋求一個(gè)已經(jīng)發(fā)生的事件的發(fā)生原因。這類(lèi)分析的目標(biāo)是通過(guò)獲取一些與事件相關(guān)的信息來(lái)回答有關(guān)的問(wèn)題,最后得出事件發(fā)生的原因。如:(1)為什么Q2商品比Q1賣(mài)得多?(2)為什么來(lái)自東部地區(qū)的求助電話比來(lái)自西部地區(qū)的要多?(3)為什么最近三個(gè)月內(nèi)病人再入院的比率有所提升?二、數(shù)據(jù)集與數(shù)據(jù)分析診斷性分析比描述性分析提供了更加有價(jià)值的信息,但同時(shí)也要求更加高級(jí)的訓(xùn)練集。診斷性分析常常需要從不同的信息源搜集數(shù)據(jù),并將它們以一種易于進(jìn)行分析的結(jié)構(gòu)加以保存。而診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢(shì)。診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的,而且,與描述性分析相比,它的查詢處理更加復(fù)雜。二、數(shù)據(jù)集與數(shù)據(jù)分析3.預(yù)測(cè)性分析——常在需要預(yù)測(cè)一個(gè)事件的結(jié)果時(shí)使用。通過(guò)預(yù)測(cè)性分析,信息將得到增值,這種增值主要表現(xiàn)在信息之間是如何相關(guān)的。這種相關(guān)性的強(qiáng)度和重要性構(gòu)成了基于過(guò)去事件對(duì)未來(lái)進(jìn)行預(yù)測(cè)的模型的基礎(chǔ)。這些用于預(yù)測(cè)性分析的模型與過(guò)去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,如果這些潛在的條件改變了,那么用于預(yù)測(cè)性分析的模型也需要進(jìn)行更新。二、數(shù)據(jù)集與數(shù)據(jù)分析預(yù)測(cè)性分析提出的問(wèn)題常常以假設(shè)的形式出現(xiàn),如:(1)如果消費(fèi)者錯(cuò)過(guò)了一個(gè)月的還款,那么他們無(wú)力償還貸款的幾率有多大?(2)如果以藥品B來(lái)代替藥品A的使用,那么這個(gè)病人生存的幾率有多大?(3)如果一個(gè)消費(fèi)者購(gòu)買(mǎi)了商品A和商品B,那么他購(gòu)買(mǎi)商品C的概率有多大?

預(yù)測(cè)性分析嘗試著預(yù)測(cè)事件的結(jié)果,而預(yù)測(cè)則基于模式、趨勢(shì)以及來(lái)自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望。目的是分辨風(fēng)險(xiǎn)與機(jī)遇。二、數(shù)據(jù)集與數(shù)據(jù)分析二、數(shù)據(jù)集與數(shù)據(jù)分析預(yù)測(cè)性分析能夠提供用戶友好型的前端接口4.規(guī)范性分析——建立在預(yù)測(cè)性分析的結(jié)果之上,用來(lái)規(guī)范需要執(zhí)行的行動(dòng)。其注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換言之,規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑亍R虼?,這種分析常常用來(lái)建立優(yōu)勢(shì)或者降低風(fēng)險(xiǎn)。如:(1)這三種藥品中,哪一種能提供最好的療效?(2)何時(shí)才是拋售一只股票的最佳時(shí)機(jī)?二、數(shù)據(jù)集與數(shù)據(jù)分析規(guī)范性分析比其他三種分析的價(jià)值都高,同時(shí)還要求最高級(jí)的訓(xùn)練集,甚至是專(zhuān)門(mén)的分析軟件和工具。這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來(lái)。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過(guò)去的銷(xiāo)售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會(huì)媒體數(shù)據(jù)、天氣情況、政府公文等等。二、數(shù)據(jù)集與數(shù)據(jù)分析

規(guī)范性分析通過(guò)引入商業(yè)規(guī)則、內(nèi)部數(shù)據(jù)以及外部數(shù)據(jù)來(lái)進(jìn)行深入徹底的分析。補(bǔ)充:關(guān)鍵績(jī)效指標(biāo)(KPI)關(guān)鍵績(jī)效指標(biāo)(KPI)是一種用來(lái)衡量一次業(yè)務(wù)過(guò)程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時(shí),它常常用來(lái)識(shí)別經(jīng)營(yíng)業(yè)績(jī)中的一些問(wèn)題,以及闡

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論