第6章 大數(shù)據(jù)分析與數(shù)據(jù)挖掘-大數(shù)據(jù)-李聯(lián)寧-清華大學(xué)出版社_第1頁
第6章 大數(shù)據(jù)分析與數(shù)據(jù)挖掘-大數(shù)據(jù)-李聯(lián)寧-清華大學(xué)出版社_第2頁
第6章 大數(shù)據(jù)分析與數(shù)據(jù)挖掘-大數(shù)據(jù)-李聯(lián)寧-清華大學(xué)出版社_第3頁
第6章 大數(shù)據(jù)分析與數(shù)據(jù)挖掘-大數(shù)據(jù)-李聯(lián)寧-清華大學(xué)出版社_第4頁
第6章 大數(shù)據(jù)分析與數(shù)據(jù)挖掘-大數(shù)據(jù)-李聯(lián)寧-清華大學(xué)出版社_第5頁
已閱讀5頁,還剩184頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章大數(shù)據(jù)分析

與數(shù)據(jù)挖掘

學(xué)習(xí)任務(wù)大數(shù)據(jù)的分析及應(yīng)用

數(shù)據(jù)挖掘技術(shù)商業(yè)智能與數(shù)據(jù)分析

Clicktoaddtitleinhere123大數(shù)據(jù)營銷業(yè)務(wù)模型

社會媒體的分析預(yù)測技術(shù)

45學(xué)習(xí)任務(wù)案例之六:如何用大數(shù)據(jù)看風(fēng)水?星巴克和海底撈的選址

66.1大數(shù)據(jù)的分析及應(yīng)用6.1.1數(shù)據(jù)處理和分析的發(fā)展1.傳統(tǒng)方式的數(shù)據(jù)處理和分析傳統(tǒng)上,為了特定分析目的進(jìn)行的數(shù)據(jù)處理都是基于相當(dāng)靜態(tài)的模式。通過常規(guī)的業(yè)務(wù)流程,企業(yè)通過CRM、ERP和財(cái)務(wù)系統(tǒng)等應(yīng)用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應(yīng)用程序和事務(wù)型數(shù)據(jù)庫中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個(gè)臨時(shí)區(qū)域,在這個(gè)臨時(shí)區(qū)域進(jìn)行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)最終被模式化到整齊的行和表。6.1大數(shù)據(jù)的分析及應(yīng)用這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級數(shù)據(jù)倉庫。這個(gè)過程會周期性發(fā)生,如每天或每周,有時(shí)會更頻繁。在傳統(tǒng)數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫管理員創(chuàng)建計(jì)劃,定期計(jì)算倉庫中的標(biāo)準(zhǔn)化數(shù)據(jù),并將產(chǎn)生的報(bào)告分配到各業(yè)務(wù)部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。同時(shí),業(yè)務(wù)分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉庫進(jìn)行高級分析,或者通常情況下,由于數(shù)據(jù)量的限制,將樣本數(shù)據(jù)導(dǎo)入到本地?cái)?shù)據(jù)庫中。非專業(yè)用戶通過前端的商業(yè)智能工具對數(shù)據(jù)倉庫進(jìn)行基礎(chǔ)的數(shù)據(jù)可視化和有限的分析。6.1大數(shù)據(jù)的分析及應(yīng)用圖6.1傳統(tǒng)的數(shù)據(jù)處理/分析資料

6.1大數(shù)據(jù)的分析及應(yīng)用2.大數(shù)據(jù)處理和分析的新方法存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點(diǎn)。即他們利用硬件的優(yōu)勢,使用擴(kuò)展的、并行的處理技術(shù),采用非關(guān)系型數(shù)據(jù)存儲處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并對大數(shù)據(jù)運(yùn)用高級分析和數(shù)據(jù)可視化技術(shù),向終端用戶傳達(dá)見解。在大數(shù)據(jù)的數(shù)據(jù)挖掘分析領(lǐng)域中,最常用的四種數(shù)據(jù)分析方法是:描述型分析、診斷型分析、預(yù)測型分析和指令型分析。6.1大數(shù)據(jù)的分析及應(yīng)用(1)描述型分析:發(fā)生了什么?這是最常見的分析方法。在業(yè)務(wù)中,這種方法向數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。例如,每月的營收和損失賬單。數(shù)據(jù)分析師可以通過這些賬單,獲取大量的客戶數(shù)據(jù)。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強(qiáng)描述型分析所提供的信息。例如“各產(chǎn)品銷售量統(tǒng)計(jì)表預(yù)警圖”,從圖中可以明確的看到哪些商品的銷售達(dá)到了銷售量預(yù)期。6.1大數(shù)據(jù)的分析及應(yīng)用(2)診斷型分析:為什么會發(fā)生?描述性數(shù)據(jù)分析的下一步就是診斷型數(shù)據(jù)分析。通過評估描述型數(shù)據(jù),診斷分析工具能夠讓數(shù)據(jù)分析師深入地分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心。良好設(shè)計(jì)的商業(yè)智能數(shù)據(jù)可視化的軟件能夠整合:按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過濾和鉆取數(shù)據(jù)等功能,以便更好的分析數(shù)據(jù)。例如“銷售控制臺”數(shù)據(jù)可視化圖形可以分析出“區(qū)域銷售構(gòu)成”、“客戶分布情況”、“產(chǎn)品類別構(gòu)成”和“預(yù)算完成情況”等信息。6.1大數(shù)據(jù)的分析及應(yīng)用(3)預(yù)測型分析:可能發(fā)生什么?預(yù)測型分析主要用于進(jìn)行預(yù)測。事件未來發(fā)生的可能性、預(yù)測一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過預(yù)測模型來完成。預(yù)測模型通常會使用各種可變數(shù)據(jù)來實(shí)現(xiàn)預(yù)測。數(shù)據(jù)成員的多樣化與預(yù)測結(jié)果密切相關(guān)。在充滿不確定性的環(huán)境下,預(yù)測能夠幫助做出更好的決定。預(yù)測模型也是很多領(lǐng)域正在使用的重要方法。例如從“銷售額和銷售量”圖形中,可以分析出全面的銷售量和銷售額基本呈上升趨勢,借此可推斷明年的基本銷售趨勢。6.1大數(shù)據(jù)的分析及應(yīng)用(4)指令型分析:需要做什么?數(shù)據(jù)價(jià)值和復(fù)雜度分析的下一步就是指令型分析。指令模型基于對“發(fā)生了什么”、“為什么會發(fā)生”和“可能發(fā)生什么”的分析,來幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨(dú)使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通規(guī)劃分析考察了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。6.1大數(shù)據(jù)的分析及應(yīng)用6.1.2大數(shù)據(jù)分析面對的數(shù)據(jù)類型有一個(gè)概念可以很清楚地區(qū)分大數(shù)據(jù)分析和其他形式的分析:要分析的數(shù)據(jù)有多大的數(shù)據(jù)量、數(shù)據(jù)規(guī)模如何和數(shù)據(jù)是否呈多樣性。在過去,通常是從非常大的數(shù)據(jù)庫中提取樣本數(shù)據(jù)集,建立分析模型,然后通過測試再調(diào)整的過程加以改進(jìn)。而現(xiàn)在,隨著計(jì)算平臺能夠提供可擴(kuò)展的存儲和計(jì)算能力,可分析的數(shù)據(jù)量幾乎不再受任何限制。這意味著,實(shí)時(shí)預(yù)測性分析和訪問大量正確的數(shù)據(jù)可以幫助企業(yè)改善業(yè)績。這樣的機(jī)會取決于企業(yè)能否整合和分析不同類型大數(shù)據(jù)。6.1大數(shù)據(jù)的分析及應(yīng)用(1)交易數(shù)據(jù)大數(shù)據(jù)平臺能夠獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對更廣泛的交易數(shù)據(jù)類型進(jìn)行分析,不僅僅包括銷售終端POS機(jī)或電子商務(wù)購物數(shù)據(jù),還包括行為交易數(shù)據(jù),例如Web網(wǎng)絡(luò)服務(wù)器記錄的互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)日志。(2)人為數(shù)據(jù)非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進(jìn)行分析提供了豐富的數(shù)據(jù)源泉。6.1大數(shù)據(jù)的分析及應(yīng)用(3)移動數(shù)據(jù)能夠上網(wǎng)的智能手機(jī)和平板越來越普遍。這些移動設(shè)備上的App應(yīng)用程序都能夠追蹤和溝通無數(shù)事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個(gè)人信息資料或狀態(tài)報(bào)告事件(如地點(diǎn)變更即報(bào)告一個(gè)新的地理編碼)。(4)機(jī)器和傳感器數(shù)據(jù)這包括功能設(shè)備創(chuàng)建或生成的數(shù)據(jù),例如智能電表、智能溫度控制器、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器。機(jī)器和傳感器數(shù)據(jù)是來自新興的物聯(lián)網(wǎng)所產(chǎn)生的主要例子。6.1大數(shù)據(jù)的分析及應(yīng)用6.1.3大數(shù)據(jù)分析與處理方法大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素。大數(shù)據(jù)分析包括以下五個(gè)基本方面的內(nèi)容:(1)預(yù)測性分析能力數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。6.1大數(shù)據(jù)的分析及應(yīng)用(2)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。(3)可視化分析不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。6.1大數(shù)據(jù)的分析及應(yīng)用(4)語義引擎我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。(5)數(shù)據(jù)挖掘算法可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。6.1大數(shù)據(jù)的分析及應(yīng)用6.1.4數(shù)據(jù)分析的步驟什么是數(shù)據(jù)分析?數(shù)據(jù)分析是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析的目的?把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)出研究對象的內(nèi)在規(guī)律。6.1大數(shù)據(jù)的分析及應(yīng)用1.數(shù)據(jù)分析的目的把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)出研究對象的內(nèi)在規(guī)律。2.數(shù)據(jù)分析的分類

數(shù)據(jù)分析主要有三大作用:現(xiàn)狀分析、原因分析、預(yù)測分析。如圖6.2所示。6.1大數(shù)據(jù)的分析及應(yīng)用3.數(shù)據(jù)分析的六部曲數(shù)據(jù)分析流程主要分為六個(gè)步驟,如下圖6.3所示。(1)明確目的和思路梳理分析思路,并搭建分析框架,把分析目的分解成若干個(gè)不同的分析要點(diǎn),即如何具體開展數(shù)據(jù)分析,需要從哪幾個(gè)角度進(jìn)行分析,采用哪些分析指標(biāo)。同時(shí),確保分析框架的體系化和邏輯性。6.1大數(shù)據(jù)的分析及應(yīng)用圖6.3數(shù)據(jù)分析流程的六個(gè)步驟6.1大數(shù)據(jù)的分析及應(yīng)用(2)數(shù)據(jù)收集一般數(shù)據(jù)來源于四種方式:數(shù)據(jù)庫、第三方數(shù)據(jù)統(tǒng)計(jì)工具、專業(yè)的調(diào)研機(jī)構(gòu)的統(tǒng)計(jì)年鑒或報(bào)告、市場調(diào)查。對于數(shù)據(jù)的收集需要預(yù)先做“埋點(diǎn)”,指的是針對特定用戶行為或事件進(jìn)行捕獲、處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過程。在發(fā)布前一定要經(jīng)過謹(jǐn)慎的校驗(yàn)和測試,因?yàn)橐坏┌姹景l(fā)布出去而數(shù)據(jù)采集出了問題,就獲取不到所需要的數(shù)據(jù),影響分析。6.1大數(shù)據(jù)的分析及應(yīng)用(3)數(shù)據(jù)處理數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)提取、數(shù)據(jù)計(jì)算等處理方法,將各種原始數(shù)據(jù)加工成為產(chǎn)品經(jīng)理需要的直觀的可看數(shù)據(jù)。(4)數(shù)據(jù)分析數(shù)據(jù)分析是用適當(dāng)?shù)姆治龇椒肮ぞ撸瑢μ幚磉^的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論的過程。常用的數(shù)據(jù)分析工具,掌握Excel的數(shù)據(jù)透視表,就能解決大多數(shù)的問題。需要的話,可以再有針對性的學(xué)習(xí)SPSS、SAS等。6.1大數(shù)據(jù)的分析及應(yīng)用(5)數(shù)據(jù)展現(xiàn)一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點(diǎn)圖、雷達(dá)圖等。進(jìn)一步加工整理變成我們需要的圖形,如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。如圖6.4所示。一般能用圖說明問題的就不用表格,能用表說明問題的就不用文字。6.1大數(shù)據(jù)的分析及應(yīng)用圖6.4數(shù)據(jù)展現(xiàn)的圖表

6.1大數(shù)據(jù)的分析及應(yīng)用(6)報(bào)告撰寫一份好的數(shù)據(jù)分析報(bào)告,首先需要有一個(gè)好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結(jié)論,從而產(chǎn)生思考。好的數(shù)據(jù)分析報(bào)告需要有明確的結(jié)論、建議或解決方案。6.1大數(shù)據(jù)的分析及應(yīng)用4.數(shù)據(jù)分析的四大誤區(qū)①分析目的不明確,為了分析而分析;②缺乏行業(yè)、公司業(yè)務(wù)認(rèn)知,分析結(jié)果偏離實(shí)際。數(shù)據(jù)必須和業(yè)務(wù)結(jié)合才有意義。摸清楚所在產(chǎn)業(yè)鏈的整個(gè)結(jié)構(gòu),對行業(yè)的上游和下游的經(jīng)營情況有大致的了解,再根據(jù)業(yè)務(wù)當(dāng)前的需要,制定發(fā)展計(jì)劃,歸類出需要整理的數(shù)據(jù)。同時(shí),熟悉業(yè)務(wù)才能看到數(shù)據(jù)背后隱藏的信息;6.1大數(shù)據(jù)的分析及應(yīng)用③為了方法而方法,為了工具而工具,只要能解決問題的方法和工具就是好的方法和工具;④數(shù)據(jù)本身是客觀的,但被解讀出來的數(shù)據(jù)是主觀的。同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結(jié)論,所以一定不能提前帶著觀點(diǎn)去分析。6.1大數(shù)據(jù)的分析及應(yīng)用6.1.5大數(shù)據(jù)分析應(yīng)用1.大數(shù)據(jù)分析應(yīng)用場景假如以下應(yīng)用場景聽上去那么像你了解的企業(yè),你可要認(rèn)真開始考慮大數(shù)據(jù)分析工具,這將是一項(xiàng)合理的投資?。?)客戶分析:這包括分析客戶的信息資料、行為和特點(diǎn)到開發(fā)模型,對客戶進(jìn)行細(xì)分、預(yù)測流失以及提供幫助挽留客戶的下一個(gè)最好報(bào)價(jià)。6.1大數(shù)據(jù)的分析及應(yīng)用(2)營銷分析:有兩種營銷用例。第一種是使用營銷模型,改進(jìn)面向客戶的應(yīng)用程序,更好地向客戶提供推薦。例如,更好地識別交叉銷售和追加銷售機(jī)會,減少放棄的購物車,總體提升集成推薦引擎的準(zhǔn)確性。第二種更加反思性,因?yàn)樗菫榱苏故緺I銷部門過程和活動的表現(xiàn),并建議進(jìn)行調(diào)整,以優(yōu)化績效。例如,分析哪個(gè)活動解決了確認(rèn)群體的需求,或激勵(lì)活動付諸行動的成功率。6.1大數(shù)據(jù)的分析及應(yīng)用(3)社交媒體分析:通過不同社交媒體渠道生成的內(nèi)容為分析客戶情感和輿情監(jiān)督提供了豐富的資料。(4)網(wǎng)絡(luò)安全:大規(guī)模網(wǎng)絡(luò)安全事件(如對美國零售商Target、Sony的網(wǎng)絡(luò)攻擊)的發(fā)生,讓企業(yè)越來越意識到網(wǎng)絡(luò)攻擊發(fā)生時(shí)快速識別的重要性。識別潛在的攻擊包括建立分析模型,監(jiān)測大量網(wǎng)絡(luò)活動數(shù)據(jù)和相應(yīng)的訪問行為,以識別可能進(jìn)行入侵的可疑模式。6.1大數(shù)據(jù)的分析及應(yīng)用(5)設(shè)備管理:隨著越來越多的設(shè)備和機(jī)器能夠與互聯(lián)網(wǎng)相連,企業(yè)能夠收集和分析傳感器數(shù)據(jù)流,包括連續(xù)用電、溫度、濕度和污染物顆粒等無數(shù)潛在變量。模型還可以預(yù)測設(shè)備故障,安排預(yù)防性的維護(hù),以確保項(xiàng)目正常進(jìn)行,不中斷。(6)管道管理:越來越多的能源管道具有傳感器和通信功能。連續(xù)的傳感器數(shù)據(jù)可以用來分析本地和全球性問題,表示是否需要引起注意或進(jìn)行維護(hù)。6.1大數(shù)據(jù)的分析及應(yīng)用(7)供應(yīng)鏈和渠道分析:通過對倉庫庫存、POS交易和多種渠道的運(yùn)輸(如陸運(yùn)、鐵路、海運(yùn))進(jìn)行分析,可建立預(yù)測分析模型,有效幫助預(yù)先補(bǔ)貨,制定庫存管理策略,管理物流,以及因延遲危及到及時(shí)交貨時(shí)對線路進(jìn)行優(yōu)化并發(fā)送通知。(8)價(jià)格優(yōu)化:零售商希望最大限度提高產(chǎn)品銷售的整體盈利,建立的分析模型可以動態(tài)地調(diào)整產(chǎn)品價(jià)格:在供不需求時(shí),或競爭對手沒貨時(shí),價(jià)格上漲;當(dāng)因季節(jié)變化需清理庫存時(shí),價(jià)格下調(diào)。6.1大數(shù)據(jù)的分析及應(yīng)用(9)欺詐行為檢測:身份盜用事件不斷增長,隨之而來的是欺詐行為和交易的不斷增長。金融機(jī)構(gòu)對上億條的交易數(shù)據(jù)進(jìn)行分析,以識別欺詐行為模式。這樣的分析模型還可以在潛在欺詐交易可能發(fā)生時(shí),向用戶發(fā)送警示。所有這些應(yīng)用場景都具有相似的特點(diǎn),即分析涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),被訪問的數(shù)據(jù)或數(shù)據(jù)流來自不同來源,以及數(shù)據(jù)量可能巨大。反之,對數(shù)據(jù)進(jìn)行分析可以建立分析模型,用于實(shí)時(shí)識別來自同一數(shù)據(jù)源和數(shù)據(jù)流的模式。6.1大數(shù)據(jù)的分析及應(yīng)用2.大數(shù)據(jù)分析技術(shù)讓大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。這可能會產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運(yùn)營效率的方法。不過,也有一些已經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌,臉書(Facebook)和領(lǐng)英(LinkedIn)還是更多的傳統(tǒng)企業(yè)。6.1大數(shù)據(jù)的分析及應(yīng)用(1)推薦引擎:網(wǎng)絡(luò)資源和在線零售商根據(jù)用戶的個(gè)人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務(wù)。LinkedIn使用此方法增強(qiáng)其“你可能認(rèn)識的人”這一功能,而亞馬遜利用該方法為網(wǎng)上消費(fèi)者推薦相關(guān)產(chǎn)品。(2)情感分析:與先進(jìn)的文本分析工具結(jié)合,分析社會化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括推特(Tweets)和Facebook,以確定用戶對特定公司,品牌或產(chǎn)品的情緒。情感分析可以專注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶的情緒。6.1大數(shù)據(jù)的分析及應(yīng)用(3)風(fēng)險(xiǎn)建模:財(cái)務(wù)公司、銀行等公司使用下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。(4)欺詐檢測:金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識別可能的被盜卡的交易行為。6.1大數(shù)據(jù)的分析及應(yīng)用(5)營銷活動分析:各行業(yè)的營銷部門長期使用技術(shù)手段監(jiān)測和確定營銷活動的有效性。大數(shù)據(jù)讓營銷團(tuán)隊(duì)擁有更大量的越來越精細(xì)的數(shù)據(jù),如點(diǎn)擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù),以提高分析的準(zhǔn)確性。(6)客戶流失分析:企業(yè)使用大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。6.1大數(shù)據(jù)的分析及應(yīng)用(7)社交圖譜分析:下一代數(shù)據(jù)倉庫相結(jié)合,通過挖掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶,不是那些購買最多產(chǎn)品或花掉最多錢的,而是那些最能夠影響他人購買行為的客戶。(8)用戶體驗(yàn)分析:面向消費(fèi)者的企業(yè)使用大數(shù)據(jù)技術(shù)將之前單一客戶互動渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起,以獲得對客戶體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。6.1大數(shù)據(jù)的分析及應(yīng)用(9)網(wǎng)絡(luò)監(jiān)控:大數(shù)據(jù)技術(shù)被用來獲取,分析和顯示來自服務(wù)器,存儲設(shè)備和其他IT硬件的數(shù)據(jù),使管理員能夠監(jiān)視網(wǎng)絡(luò)活動,診斷瓶頸等問題。這種類型的分析,也可應(yīng)用到交通網(wǎng)絡(luò),以提高燃料效率,當(dāng)然也可以應(yīng)用到其他網(wǎng)絡(luò)。(10)研究與發(fā)展:有些企業(yè)(如制藥商)進(jìn)行大量文本及歷史數(shù)據(jù)的研究,以協(xié)助新產(chǎn)品的開發(fā)。當(dāng)然,上述這些都只是大數(shù)據(jù)用例的舉例。事實(shí)上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。6.2數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(DataMining,DM),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD),所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。6.2數(shù)據(jù)挖掘技術(shù)6.2.1數(shù)據(jù)挖掘的定義

1.技術(shù)上的定義及含義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。

6.2數(shù)據(jù)挖掘技術(shù)從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。6.2數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。

6.2數(shù)據(jù)挖掘技術(shù)2.商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。6.2數(shù)據(jù)挖掘技術(shù)現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會的商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。但所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。

6.2數(shù)據(jù)挖掘技術(shù)圖6.5基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘6.2數(shù)據(jù)挖掘技術(shù)6.2.2數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的常用方法利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有:分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。6.2數(shù)據(jù)挖掘技術(shù)①分類分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個(gè)汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。

6.2數(shù)據(jù)挖掘技術(shù)②回歸分析

回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。

6.2數(shù)據(jù)挖掘技術(shù)③聚類聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。

6.2數(shù)據(jù)挖掘技術(shù)④關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險(xiǎn)評估和詐騙預(yù)測等決策支持提供參考依據(jù)。

6.2數(shù)據(jù)挖掘技術(shù)⑤特征特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。

6.2數(shù)據(jù)挖掘技術(shù)⑥變化和偏差分析偏差包括很大一類潛在有趣的知識,如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識別、評價(jià)和預(yù)警等方面。

6.2數(shù)據(jù)挖掘技術(shù)⑦

Web頁挖掘通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關(guān)信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,對這些信息進(jìn)行分析和處理,以便識別、分析、評價(jià)和管理危機(jī)。

6.2數(shù)據(jù)挖掘技術(shù)6.2.3數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。(1)自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能做出反應(yīng)的群體。

6.2數(shù)據(jù)挖掘技術(shù)(2)關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

6.2數(shù)據(jù)挖掘技術(shù)(3)聚類數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。聚類技術(shù)其要點(diǎn)是,在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

6.2數(shù)據(jù)挖掘技術(shù)(4)概念描述概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述非同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

6.2數(shù)據(jù)挖掘技術(shù)(5)偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。6.2數(shù)據(jù)挖掘技術(shù)6.2.4數(shù)據(jù)挖掘的流程數(shù)據(jù)挖掘的一般流程包括5個(gè)步驟,如圖6.6描述了數(shù)據(jù)挖掘的基本過程和主要步驟。(1)數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識。6.2數(shù)據(jù)挖掘技術(shù)圖6.6典型數(shù)據(jù)挖掘系統(tǒng)的過程6.2數(shù)據(jù)挖掘技術(shù)(2)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程中各步驟的大體內(nèi)容如下:

①確定業(yè)務(wù)對象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。6.2數(shù)據(jù)挖掘技術(shù)②數(shù)據(jù)準(zhǔn)備

首先進(jìn)行數(shù)據(jù)的選擇,搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。其次進(jìn)行數(shù)據(jù)的預(yù)處理,研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析做準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。然后進(jìn)行數(shù)據(jù)的轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型。這個(gè)分析模型是針對挖掘算法建立的,而建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。6.2數(shù)據(jù)挖掘技術(shù)③數(shù)據(jù)挖掘

對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。④結(jié)果分析

解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。⑤知識的同化

將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。6.2數(shù)據(jù)挖掘技術(shù)(3)數(shù)據(jù)挖掘過程工作量在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個(gè)過程的基礎(chǔ),它驅(qū)動了整個(gè)數(shù)據(jù)挖掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問。各步驟是按一定順序完成的,當(dāng)然整個(gè)過程中還會存在步驟間的反饋。數(shù)據(jù)挖掘的過程并不是自動的,絕大多數(shù)的工作需要人工完成。至于各步驟在整個(gè)過程中的工作量之比例,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%。

6.2數(shù)據(jù)挖掘技術(shù)(4)數(shù)據(jù)挖掘需要的人員①數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會需要是有不同專長的人員,他們大體可以分為三類:業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.②數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。③數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。6.2數(shù)據(jù)挖掘技術(shù)從上可見,數(shù)據(jù)挖掘是一個(gè)多學(xué)科專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投入的過程。這一過程要反復(fù)進(jìn)行,并在反復(fù)過程中不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。進(jìn)行數(shù)據(jù)重組和細(xì)分、添加和拆分記錄、選取數(shù)據(jù)樣本、可視化數(shù)據(jù)、探索聚類、分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論、綜合解釋評價(jià)數(shù)據(jù)、知識數(shù)據(jù)取樣、數(shù)據(jù)探索、數(shù)據(jù)調(diào)整和模型化評價(jià)。

6.2數(shù)據(jù)挖掘技術(shù)6.2.6數(shù)據(jù)挖掘的應(yīng)用1.數(shù)據(jù)挖掘解決的典型商業(yè)問題

需要強(qiáng)調(diào)的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù)挖掘(datamining)都是一個(gè)很時(shí)髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)、故障診斷等等。

6.2數(shù)據(jù)挖掘技術(shù)2.數(shù)據(jù)挖掘在市場營銷的應(yīng)用數(shù)據(jù)挖掘是以市場營銷學(xué)的市場細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。通過收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對所識別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營銷,這與傳統(tǒng)的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。

6.2數(shù)據(jù)挖掘技術(shù)3.案例—信用卡消費(fèi)的數(shù)據(jù)挖掘商業(yè)消費(fèi)信息來自市場中的各種渠道。例如,每當(dāng)用信用卡消費(fèi)時(shí),商業(yè)企業(yè)就可以在信用卡結(jié)算過程收集商業(yè)消費(fèi)信息,記錄下我們進(jìn)行消費(fèi)的時(shí)間、地點(diǎn)、感興趣的商品或服務(wù)、愿意接收的價(jià)格水平和支付能力等數(shù)據(jù);當(dāng)我們在申辦信用卡、辦理汽車駕駛執(zhí)照、填寫商品保修單等其他需要填寫表格的場合時(shí),我們的個(gè)人信息就存入了相應(yīng)的業(yè)務(wù)數(shù)據(jù)庫;6.2數(shù)據(jù)挖掘技術(shù)這些來自各種渠道的數(shù)據(jù)信息被組合,應(yīng)用信息處理技術(shù)手段進(jìn)行處理,從中得到商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營銷的決策信息。舉一個(gè)簡單的例子,當(dāng)銀行通過對業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘后,發(fā)現(xiàn)一個(gè)銀行賬戶持有者突然要求申請雙人聯(lián)合賬戶時(shí),并且確認(rèn)該消費(fèi)者是第一次申請聯(lián)合賬戶,銀行會推斷該用戶可能要結(jié)婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學(xué)費(fèi)等長期投資業(yè)務(wù),銀行甚至可能將該信息賣給專營婚慶商品和服務(wù)的公司。數(shù)據(jù)挖掘構(gòu)筑競爭優(yōu)勢。6.3商業(yè)智能與數(shù)據(jù)分析6.3.1商業(yè)智能技術(shù)輔助決策的發(fā)展商務(wù)智能,英文為BusinessIntelligence,簡寫為BI。商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策的工具。這里所談的數(shù)據(jù)包括來自企業(yè)業(yè)務(wù)系統(tǒng)的訂單、庫存、交易賬目、客戶和供應(yīng)商等來自企業(yè)所處行業(yè)和競爭對手的數(shù)據(jù)以及來自企業(yè)所處的其他外部環(huán)境中的各種數(shù)據(jù)。而商業(yè)智能能夠輔助的業(yè)務(wù)經(jīng)營決策,既可以是操作層的,也可以是戰(zhàn)術(shù)層和戰(zhàn)略層的決策。6.3商業(yè)智能與數(shù)據(jù)分析為了將數(shù)據(jù)轉(zhuǎn)化為知識,需要利用數(shù)據(jù)倉庫、聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing,OLTP)和數(shù)據(jù)挖掘等技術(shù)。因此,從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。商業(yè)智能一般由數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成。商業(yè)智能的實(shí)現(xiàn)涉及到軟件、硬件、咨詢服務(wù)及應(yīng)用,其基本體系結(jié)構(gòu)包括數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘三個(gè)部分。6.3商業(yè)智能與數(shù)據(jù)分析6.3.2商業(yè)智能系統(tǒng)架構(gòu)從系統(tǒng)的觀點(diǎn)來看,商業(yè)智能的過程是這樣的:從不同的數(shù)據(jù)源收集的數(shù)據(jù)中提取有用的數(shù)據(jù),對數(shù)據(jù)進(jìn)行清理以保證數(shù)據(jù)的正確性,將數(shù)據(jù)經(jīng)轉(zhuǎn)換、重構(gòu)后存入數(shù)據(jù)倉庫(這時(shí)數(shù)據(jù)變?yōu)樾畔ⅲ?,然后尋找合適的查詢和分析工具,數(shù)據(jù)挖掘工具,OLAP工具對信息進(jìn)行處理(這時(shí)信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)于用戶面前,轉(zhuǎn)變?yōu)闆Q策。商業(yè)智能系統(tǒng)的結(jié)構(gòu)圖如圖6.7所示。6.3商業(yè)智能與數(shù)據(jù)分析圖6.7商業(yè)智能系統(tǒng)結(jié)構(gòu)圖6.3商業(yè)智能與數(shù)據(jù)分析6.3.3商業(yè)智能的技術(shù)體系主要有數(shù)據(jù)倉庫(DW)、在線分析處理(OLAP)以及數(shù)據(jù)挖掘(DM)三部分組成。商業(yè)智能中所包含的數(shù)據(jù)分析技術(shù)主要可分為以下三個(gè)階段:1.數(shù)據(jù)倉庫(DataWarehouse)為了有效地進(jìn)行營銷管理,企業(yè)往往需要將各地的數(shù)據(jù)匯總到總部,并建立一個(gè)龐大的數(shù)據(jù)倉庫。這種數(shù)據(jù)倉庫不但能夠保存歷史數(shù)據(jù)、階段性數(shù)據(jù),并從時(shí)間上進(jìn)行分析,而且能夠裝載外部數(shù)據(jù),接受大量的外部查詢。6.3商業(yè)智能與數(shù)據(jù)分析建立數(shù)據(jù)倉庫的過程一般包括清洗、抽取數(shù)據(jù)操作,統(tǒng)一數(shù)據(jù)格式,設(shè)定自動程序以定時(shí)抽取操作數(shù)據(jù)并自動更新數(shù)據(jù)倉庫,預(yù)先執(zhí)行合計(jì)計(jì)算等步驟??焖?、簡單、易用的查詢和報(bào)告工具能夠幫助管理者充分利用企業(yè)中不同層次的數(shù)據(jù),獲取所需要的特定信息,并以合理的格式加以顯示。同時(shí),優(yōu)秀的工具支持多種網(wǎng)絡(luò)環(huán)境,允許用戶在客戶機(jī)/服務(wù)器網(wǎng)絡(luò)、內(nèi)部網(wǎng)絡(luò)或Internet上傳輸分析結(jié)果。它們還應(yīng)該有足夠的靈活性,以支持各種類型的查詢和報(bào)告需求,從簡單的訂閱、周期性的報(bào)告,到使用SQL和其它查詢語言作隨機(jī)查詢。6.3商業(yè)智能與數(shù)據(jù)分析2.在線分析處理(OLAP)在線分析處理是一種高度交互式的過程,信息分析專家可以即時(shí)進(jìn)行反復(fù)分析,迅速獲得所需結(jié)果。在線分析處理同時(shí)也是對存儲在多維數(shù)據(jù)庫(MDD)或關(guān)系型數(shù)據(jù)庫(RDBMS)中的數(shù)據(jù)進(jìn)行分析、處理的過程。這種分析可以是多維在線分析處理、關(guān)系型在線分析處理,也可以是混合在線分析處理。6.3商業(yè)智能與數(shù)據(jù)分析這一過程一般包括三種可供選擇的方案:預(yù)先計(jì)算:

小結(jié)數(shù)據(jù)在使用前進(jìn)行計(jì)算并存儲;即時(shí)計(jì)算和存儲:

小結(jié)數(shù)據(jù)在查詢是計(jì)算,然后存儲結(jié)果。因?yàn)橄讼鄳?yīng)的運(yùn)行計(jì)算,使隨后的查詢運(yùn)行變得更快。隨時(shí)計(jì)算:

用戶在需要時(shí)對小結(jié)數(shù)據(jù)進(jìn)行計(jì)算。6.3商業(yè)智能與數(shù)據(jù)分析3.數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘是從浩如瀚海的數(shù)據(jù)和文檔中發(fā)現(xiàn)以前未知的、可以理解的信息的過程。由于數(shù)據(jù)挖掘的價(jià)值在于掃描數(shù)據(jù)倉庫或建立非常復(fù)雜的查詢,數(shù)據(jù)和文本挖掘工具必須提供很高的吞吐量,并擁有并行處理功能,而且可以支持多種采集技術(shù)。數(shù)據(jù)挖掘工具應(yīng)該擁有良好的擴(kuò)展功能,并且能夠支持將來可能遇到的各種數(shù)據(jù)(或文檔)和計(jì)算環(huán)境。6.3商業(yè)智能與數(shù)據(jù)分析總結(jié)商業(yè)智能是幫助客戶將數(shù)據(jù)轉(zhuǎn)化為利潤的手段。實(shí)質(zhì)上,商業(yè)智能就是幫助企業(yè)充分利用已有數(shù)據(jù),將其分析整理為可用信息,并以此作為企業(yè)決策的依據(jù)。目前,多數(shù)企業(yè)在部署系統(tǒng)時(shí)多針對自身當(dāng)前的業(yè)務(wù)需求,著眼于靜態(tài)的處理,無法有效地預(yù)測即將產(chǎn)生的情況。在這種條件下,他們難免處于被動的邊緣。企業(yè)若想改變一直面臨的被動局面,就必須利用智能的解決方案,高效地收集、整理并分析相關(guān)數(shù)據(jù),為企業(yè)的正確決策提供前瞻性支持。

6.3商業(yè)智能與數(shù)據(jù)分析6.3.4商務(wù)智能=數(shù)據(jù)+分析+決策+利益人類社會從物物交換到貨幣的產(chǎn)生,到形形色色的交易,產(chǎn)生了我們現(xiàn)在繁榮、復(fù)雜的各種商業(yè)活動。利益是商務(wù)的核心,而商務(wù)需要經(jīng)過買賣雙方的交易,談判,而商品的流通又需要物流、庫存,其中業(yè)務(wù)流程十分繁瑣,然而科技進(jìn)步改善或者正在改變著其形式,人們的工作效率正在極大地提高。6.3商業(yè)智能與數(shù)據(jù)分析在這個(gè)信息化的時(shí)代,許多傳統(tǒng)業(yè)務(wù)被信息化手段所取代或者信息化作為其輔助手段。于是乎,在這個(gè)時(shí)代,所有的人都在談數(shù)據(jù),并且相關(guān)的商務(wù)數(shù)據(jù)呈爆炸性指數(shù)級的增長??墒?,不是所有的數(shù)據(jù)都是有用的,所以人們需要從中挖掘有用的信息,用以指導(dǎo)現(xiàn)實(shí)工作。商務(wù)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策的工具。

6.3商業(yè)智能與數(shù)據(jù)分析比如,百貨商場每天有各種各樣的商品被出售,其POS系統(tǒng)存儲著商品的銷售情況,數(shù)據(jù)量十分龐大。從這些數(shù)據(jù),我們利用一定的數(shù)學(xué)模型和智能軟件工具進(jìn)行分析,知道哪些產(chǎn)品最熱銷,哪些時(shí)段人們喜歡購買什么。接著,運(yùn)用分析后的結(jié)果進(jìn)行決策,比如分析后得知下雨天的時(shí)候啤酒和炸雞的銷量比其他天氣時(shí)段更多,于是我們決定在下雨的日子增大啤酒和炸雞的產(chǎn)量。通過這些分析和決策,我們得到了商業(yè)利潤的增加,6.3商業(yè)智能與數(shù)據(jù)分析這種利潤是我們利用現(xiàn)代工具進(jìn)行商務(wù)智能的動力。這個(gè)過程可以總結(jié)為以下的一個(gè)等式:

商務(wù)智能=數(shù)據(jù)+分析+決策+利益商業(yè)智能的關(guān)鍵是從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取、轉(zhuǎn)換和裝載,即ETL過程,合并到一個(gè)企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進(jìn)行分析和處理,最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型6.5.1大數(shù)據(jù)對業(yè)務(wù)模式的影響大數(shù)據(jù)及其發(fā)揮的作用將影響到每一家公司—從財(cái)富500強(qiáng)企業(yè)到夫妻店—并從內(nèi)到外地改變我們開展業(yè)務(wù)的方式。公司在哪個(gè)領(lǐng)域運(yùn)營,或者公司是什么規(guī)模,這都不要緊,因?yàn)閿?shù)據(jù)收集、分析和解讀變得更加輕松便捷,將從幾個(gè)方面影響到每家公司。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型1.對所有公司來說,數(shù)據(jù)都將成為一項(xiàng)資產(chǎn)。如今,就連最小的公司也都在產(chǎn)生數(shù)據(jù)。如果公司有網(wǎng)站、有社交媒體賬戶、接受信用卡付款等,甚至哪怕它是一家只有一人經(jīng)營的小店,都能從其客戶、客戶體驗(yàn)、網(wǎng)站流量等等方面收集數(shù)據(jù)。這意味著各種規(guī)模的公司都需要一個(gè)針對大數(shù)據(jù)的戰(zhàn)略,并對如何收集、使用和保護(hù)數(shù)據(jù)制訂計(jì)劃。這也意味著精明的企業(yè)將開始向各公司提供數(shù)據(jù)服務(wù),哪怕對方是一家非常小的公司。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型2.大數(shù)據(jù)能讓公司收集更高質(zhì)量的市場和客戶情報(bào)。不管你喜不喜歡,你與之開展業(yè)務(wù)的公司了解你的很多情況——它們所掌握的有關(guān)你的信息的數(shù)量和類別每年都在擴(kuò)大。每家公司(從監(jiān)控我們開車情況的汽車制造商到了解我們刷卡頻率和消費(fèi)水平的銀行)都將對客戶想要什么、使用什么、通常從哪個(gè)渠道購買等擁有更加深入的了解。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型3、大數(shù)據(jù)具備提高工作效率并改進(jìn)運(yùn)營的潛力。從使用傳感器到追蹤機(jī)器性能、優(yōu)化送貨路線、更好地追蹤員工績效甚至招募頂級人才,大數(shù)據(jù)具備能夠提高幾乎任何類型的企業(yè)及眾多不同部門內(nèi)部工作效率并改進(jìn)運(yùn)營的潛力。公司可以使用傳感器追蹤貨運(yùn)和機(jī)器的運(yùn)行情況,也可以追蹤員工績效。各公司已開始使用傳感器追蹤員工的移動、壓力水平、健康狀況甚至他們與誰交談以及使用的語調(diào)等。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型4.數(shù)據(jù)可讓公司改進(jìn)客戶體驗(yàn)并將大數(shù)據(jù)植入其提供的產(chǎn)品中。在所有可能的領(lǐng)域,公司都將使用它們收集的數(shù)據(jù)改進(jìn)產(chǎn)品和客戶體驗(yàn)。它不僅使用數(shù)據(jù)讓自己的客戶受益,還把數(shù)據(jù)作為一個(gè)新的產(chǎn)品提供給客戶。隨著我們生活中聯(lián)網(wǎng)的事物越來越多—從智能恒溫器到蘋果手機(jī)和健身追蹤器—公司會有越來越多的數(shù)據(jù)、分析報(bào)告和信息回售給顧客。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型6.5.2大數(shù)據(jù)營銷的定義與特點(diǎn)1.大數(shù)據(jù)營銷的定義大數(shù)據(jù)營銷是指通過互聯(lián)網(wǎng)采集大量的行為數(shù)據(jù),首先幫助廣告主找出目標(biāo)受眾,以此對廣告投放的內(nèi)容、時(shí)間、形式等進(jìn)行預(yù)判與調(diào)配,并最終完成廣告投放的營銷過程。大數(shù)據(jù)營銷,隨著數(shù)字生活空間的普及,全球的信息總量正呈現(xiàn)爆炸式增長。基于這個(gè)趨勢之上的,是大數(shù)據(jù)、云計(jì)算等新概念和新范式的廣泛興起,它們無疑正引領(lǐng)了新一輪的互聯(lián)網(wǎng)風(fēng)潮。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型2.大數(shù)據(jù)營銷的特點(diǎn)(1)多平臺化數(shù)據(jù)采集:大數(shù)據(jù)的數(shù)據(jù)來源通常是多樣化的,多平臺化的數(shù)據(jù)采集能使對網(wǎng)民行為的刻畫更加全面而準(zhǔn)確。多平臺采集可包含互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、廣電網(wǎng)、智能電視未來還有戶外智能屏等數(shù)據(jù)

。(2)強(qiáng)調(diào)時(shí)效性:在網(wǎng)絡(luò)時(shí)代,網(wǎng)民的消費(fèi)行為和購買方式極易在短的時(shí)間內(nèi)發(fā)生變化。在網(wǎng)民需求點(diǎn)的最高時(shí)段及時(shí)進(jìn)行營銷非常重要。大數(shù)據(jù)營銷企業(yè)可以使得網(wǎng)民在決定購買的“黃金時(shí)間”內(nèi)及時(shí)接收到商品廣告。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型(3)個(gè)性化營銷:在網(wǎng)絡(luò)時(shí)代,廣告主的營銷理念已從“媒體導(dǎo)向”向“受眾導(dǎo)向”轉(zhuǎn)變。以往的營銷活動須以媒體為導(dǎo)向,選擇知名度高、瀏覽量大的媒體進(jìn)行投放。如今,廣告主完全以受眾為導(dǎo)向進(jìn)行廣告營銷,因?yàn)榇髷?shù)據(jù)技術(shù)可讓他們知曉目標(biāo)受眾身處何方,關(guān)注著什么位置的什么屏幕。大數(shù)據(jù)技術(shù)可以做到當(dāng)不同用戶關(guān)注同一媒體的相同界面時(shí),廣告內(nèi)容有所不同,大數(shù)據(jù)營銷實(shí)現(xiàn)了對網(wǎng)民的個(gè)性化營銷。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型(4)性價(jià)比高:和傳統(tǒng)廣告“一半的廣告費(fèi)被浪費(fèi)掉”相比,大數(shù)據(jù)營銷在最大程度上,讓廣告主的投放做到有的放矢,并可根據(jù)實(shí)時(shí)性的效果反饋,及時(shí)對投放策略進(jìn)行調(diào)整。(5)關(guān)聯(lián)性:大數(shù)據(jù)營銷的一個(gè)重要特點(diǎn)在于網(wǎng)民關(guān)注的廣告與廣告之間的關(guān)聯(lián)性,由于大數(shù)據(jù)在采集過程中可快速得知目標(biāo)受眾關(guān)注的內(nèi)容,以及可知曉網(wǎng)民身在何處,這些有價(jià)信息可讓廣告的投放過程產(chǎn)生前所未有的關(guān)聯(lián)性。即網(wǎng)民所看到的上一條廣告可與下一條廣告進(jìn)行深度互動。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型3.大數(shù)據(jù)營銷的實(shí)現(xiàn)過程全球領(lǐng)先的大數(shù)據(jù)營銷平臺AdTime率先推出了大數(shù)據(jù)廣告運(yùn)營平臺——云圖。該系統(tǒng)具備海量數(shù)據(jù)、實(shí)時(shí)計(jì)算、跨網(wǎng)絡(luò)平臺匯聚、多用戶行為分析、多行業(yè)報(bào)告分析等特點(diǎn)。大數(shù)據(jù)營銷是基于大數(shù)據(jù)分析的基礎(chǔ)上,描繪、預(yù)測、分析、指引消費(fèi)者行為,從而幫助企業(yè)制定有針對性的商業(yè)策略。大數(shù)據(jù)營銷中所依賴的數(shù)據(jù),往往是基于Hadoop架構(gòu)分類的靜態(tài)人群屬性和興趣愛好常量,這導(dǎo)致了大數(shù)據(jù)營銷在本質(zhì)上很難以去控制和捕獲用戶的需求。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型4.契機(jī)

第一,用戶行為與特征分析。只有積累足夠的用戶數(shù)據(jù),才能分析出用戶的喜好與購買習(xí)慣,甚至做到“比用戶更了解用戶自己”。這一點(diǎn),才是許多大數(shù)據(jù)營銷的前提與出發(fā)點(diǎn)。第二,精準(zhǔn)營銷信息推送支撐。精準(zhǔn)營銷總在被提及,但是真正做到的少之又少,反而是垃圾信息泛濫。究其原因,主要就是過去名義上的精準(zhǔn)營銷并不怎么精準(zhǔn),因?yàn)槠淙鄙儆脩籼卣鲾?shù)據(jù)支撐及詳細(xì)準(zhǔn)確的分析。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第三,引導(dǎo)產(chǎn)品及營銷活動應(yīng)該考慮用戶愛好。如果能在產(chǎn)品生產(chǎn)之前了解潛在用戶的主要特征,以及他們對產(chǎn)品的期待,那么你的產(chǎn)品生產(chǎn)即可投其所好。第四,競爭對手監(jiān)測與品牌傳播。競爭對手在干什么是許多企業(yè)想了解的,即使對方不會告訴你,但你卻可以通過大數(shù)據(jù)監(jiān)測分析得知。品牌傳播的有效性亦可通過大數(shù)據(jù)分析找準(zhǔn)方向。可以通過監(jiān)測掌握競爭對手傳播態(tài)勢,并可以參考行業(yè)標(biāo)桿用戶策劃,根據(jù)用戶聲音策劃內(nèi)容,甚至可以評估微博矩陣的運(yùn)營效果。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第五,品牌危機(jī)監(jiān)測及管理支持。新媒體時(shí)代,品牌危機(jī)使許多企業(yè)談虎色變,然而大數(shù)據(jù)可以讓企業(yè)提前有所洞悉。在危機(jī)爆發(fā)過程中,最需要的是跟蹤危機(jī)傳播趨勢,識別重要參與人員,方便快速應(yīng)對。大數(shù)據(jù)可以采集負(fù)面定義內(nèi)容,及時(shí)啟動危機(jī)跟蹤和報(bào)警,按照人群社會屬性分析,聚類事件過程中的觀點(diǎn),識別關(guān)鍵人物及傳播路徑,進(jìn)而可以保護(hù)企業(yè)、產(chǎn)品的聲譽(yù),抓住源頭和關(guān)鍵節(jié)點(diǎn),快速有效地處理危機(jī)。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第六,企業(yè)重點(diǎn)客戶篩選。許多企業(yè)家糾結(jié)的事是:在企業(yè)的用戶、好友與粉絲中,哪些是最有價(jià)值的用戶?有了大數(shù)據(jù),或許這一切都可以更加有事實(shí)支撐。從用戶訪問的各種網(wǎng)站可判斷其最近關(guān)心的東西是否與你的企業(yè)相關(guān);從用戶在社會化媒體上所發(fā)布的各類內(nèi)容及與他人互動的內(nèi)容中,可以找出千絲萬縷的信息,利用某種規(guī)則關(guān)聯(lián)及綜合起來,就可以幫助企業(yè)篩選重點(diǎn)的目標(biāo)用戶。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第七,大數(shù)據(jù)用于改善用戶體驗(yàn)。要改善用戶體驗(yàn),關(guān)鍵在于真正了解用戶及他們所使用的你的產(chǎn)品的狀況,做最適時(shí)的提醒。例如,在大數(shù)據(jù)時(shí)代或許你正駕駛的汽車可提前救你一命。只要通過遍布全車的傳感器收集車輛運(yùn)行信息,在你的汽車關(guān)鍵部件發(fā)生問題之前,就會提前向你或4S店預(yù)警,這決不僅僅是節(jié)省金錢,而且對保護(hù)生命大有裨益。事實(shí)上,美國的UPS快遞公司早在2000年就利用這種基于大數(shù)據(jù)的預(yù)測性分析系統(tǒng)來檢測全美60000輛車輛的實(shí)時(shí)車況,以便及時(shí)地進(jìn)行防御性修理。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第八,社會關(guān)系管理中的客戶分級管理支持。面對日新月異的新媒體,許多企業(yè)通過對粉絲的公開內(nèi)容和互動記錄分析,將粉絲轉(zhuǎn)化為潛在用戶,激活社會化資產(chǎn)價(jià)值,并對潛在用戶進(jìn)行多個(gè)維度的畫像。大數(shù)據(jù)可以分析活躍粉絲的互動內(nèi)容,設(shè)定消費(fèi)者畫像各種規(guī)則,關(guān)聯(lián)潛在用戶與會員數(shù)據(jù),關(guān)聯(lián)潛在用戶與客服數(shù)據(jù),篩選目標(biāo)群體做精準(zhǔn)營銷,進(jìn)而可以使傳統(tǒng)客戶關(guān)系管理結(jié)合社會化數(shù)據(jù),豐富用戶不同維度的標(biāo)簽,并可動態(tài)更新消費(fèi)者生命周期數(shù)據(jù),保持信息新鮮有效。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型第九,發(fā)現(xiàn)新市場與新趨勢。基于大數(shù)據(jù)的分析與預(yù)測,對于企業(yè)家提供洞察新市場與把握經(jīng)濟(jì)走向都是極大的支持。第十,市場預(yù)測與決策分析支持。對于數(shù)據(jù)對市場預(yù)測及決策分析的支持,過去早就在數(shù)據(jù)分析與數(shù)據(jù)挖掘盛行的年代被提出過。沃爾瑪著名的“啤酒與尿布”案例即是那時(shí)的杰作。由于大數(shù)據(jù)時(shí)代對數(shù)據(jù)分析與數(shù)據(jù)挖掘提出了新要求。更全面、速度更及時(shí)的大數(shù)據(jù),必然對市場預(yù)測及決策分析進(jìn)一步上臺階提供更好的支撐。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型6.5.3網(wǎng)絡(luò)營銷大數(shù)據(jù)實(shí)際操作作為大數(shù)據(jù)最先落地也最先體現(xiàn)出價(jià)值的應(yīng)用領(lǐng)域,網(wǎng)絡(luò)營銷的數(shù)據(jù)化之路已有成熟的經(jīng)驗(yàn)及操作模式。1.獲取全網(wǎng)用戶數(shù)據(jù)首先需要明確的是,僅有企業(yè)數(shù)據(jù),即使規(guī)模再大,也只是孤島數(shù)據(jù)。在收集、打通企業(yè)內(nèi)部的用戶數(shù)據(jù)時(shí),還要與互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)合,才能準(zhǔn)確掌握用戶在站內(nèi)站外的全方位的行為,使數(shù)據(jù)在營銷中體現(xiàn)應(yīng)有的價(jià)值。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型在數(shù)據(jù)采集階段,建議在搜集自身各方面數(shù)據(jù)形成數(shù)據(jù)管理平臺后,還要與第三方公用數(shù)據(jù)管理平臺數(shù)據(jù)對接,獲取更多的目標(biāo)人群數(shù)據(jù),形成基于全網(wǎng)的數(shù)據(jù)管理系統(tǒng)。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型2.讓數(shù)據(jù)看得懂采集來的原始數(shù)據(jù)難以懂讀,因此還需要進(jìn)行集中化、結(jié)構(gòu)化、標(biāo)準(zhǔn)化處理,讓“天書”變成看得懂的信息。這個(gè)過程中,需要建立、應(yīng)用各類“庫”,如行業(yè)知識庫(包括產(chǎn)品知識庫、關(guān)鍵詞庫、域名知識庫、內(nèi)容知識庫);基于“數(shù)據(jù)格式化處理庫”衍生出來的底層庫(用戶行為庫、URL標(biāo)簽庫);中層庫(用戶標(biāo)簽庫、流量統(tǒng)計(jì)、輿情評估);用戶共性庫等。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型

通過多維的用戶標(biāo)簽識別用戶的基本屬性特征、偏好、興趣特征和商業(yè)價(jià)值特征。如圖所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型3.分析用戶特征及偏好將第一方標(biāo)簽與第三方標(biāo)簽相結(jié)合,按不同的評估維度和模型算法,通過聚類方式將具有相同特征的用戶劃分成不同屬性的用戶族群,對用戶的靜態(tài)信息(性別、年齡、職業(yè)、學(xué)歷、關(guān)聯(lián)人群、生活習(xí)性等)、動態(tài)信息(資訊偏好、娛樂偏好、健康狀況、商品偏好等)、實(shí)時(shí)信息(地理位置、相關(guān)事件、相關(guān)服務(wù)、相關(guān)消費(fèi)、相關(guān)動作)分別描述,形成網(wǎng)站用戶分群畫像系統(tǒng)。如圖6.10所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型圖6.10分析用戶特征及偏好6.5大數(shù)據(jù)營銷業(yè)務(wù)模型4.制定渠道和創(chuàng)意策略根據(jù)對目標(biāo)群體的特征測量和分析結(jié)果,在營銷計(jì)劃實(shí)施前,對營銷投放策略進(jìn)行評估和優(yōu)化。如選擇更適合的用戶群體,匹配適當(dāng)?shù)拿襟w,制定性價(jià)比及效率更高的渠道組合,根據(jù)用戶特征制定內(nèi)容策略,從而提高目標(biāo)用戶人群的轉(zhuǎn)化率。如圖6.11所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型圖6.11制定渠道和創(chuàng)意策略6.5大數(shù)據(jù)營銷業(yè)務(wù)模型5.提升營銷效率在投放過程中,仍需不斷回收、分析數(shù)據(jù),并利用統(tǒng)計(jì)系統(tǒng)對不同渠道的類型、時(shí)段、地域、位置等價(jià)值進(jìn)行分析,對用戶轉(zhuǎn)化率的貢獻(xiàn)程度進(jìn)行評估,在營銷過程中進(jìn)行實(shí)時(shí)策略調(diào)整。對渠道依存關(guān)系進(jìn)行分析:分析推廣渠道的構(gòu)成類型與網(wǎng)站頻道、欄目的關(guān)聯(lián)程度(路徑圖形化+表格展示);6.5大數(shù)據(jù)營銷業(yè)務(wù)模型對流量來源進(jìn)行分析:分析網(wǎng)站各種推廣渠道類型的對網(wǎng)站流量的貢獻(xiàn)程度;對用戶特征及用戶轉(zhuǎn)化進(jìn)行分析:分析各個(gè)類型的推廣渠道所帶來的用戶特征、各個(gè)推廣渠道類型轉(zhuǎn)化效率、效果和ROI。如圖6.12所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型圖6.12分析數(shù)據(jù)提升營銷效率6.5大數(shù)據(jù)營銷業(yè)務(wù)模型6.營銷效果評估、管理利用渠道管理和宣傳制作工具,利用數(shù)據(jù)進(jìn)行可視化的品牌宣傳、事件傳播和產(chǎn)品,制作數(shù)據(jù)圖形化工具,自動生成特定的市場宣傳報(bào)告,對特定宣傳目的報(bào)告進(jìn)行管理。如圖所示6.5大數(shù)據(jù)營銷業(yè)務(wù)模型7.創(chuàng)建精準(zhǔn)投放系統(tǒng)對于有意領(lǐng)先精準(zhǔn)營銷的企業(yè)來說,則可更進(jìn)一步,整合內(nèi)部數(shù)據(jù)資源,補(bǔ)充第三方站外數(shù)據(jù)資源,進(jìn)而建立廣告精準(zhǔn)投放系統(tǒng),對營銷全程進(jìn)行精細(xì)管理。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型6.5.6大數(shù)據(jù)營銷方法論谷歌每天要處理大約24PB的數(shù)據(jù),臉書(Facebook)每天要處理23TB的數(shù)據(jù),推特(Twitter)每天處理7TB,百度每天大概新增10TB的數(shù)據(jù)。每天騰訊新增加200-300TB的數(shù)據(jù),每天淘寶訂單超過1000萬,阿里巴巴已經(jīng)積累的數(shù)據(jù)量超過100個(gè)PB??紤]一下,為什么越是行業(yè)壟斷巨頭就越擁有海量數(shù)據(jù)呢?6.5大數(shù)據(jù)營銷業(yè)務(wù)模型對任何擁有特有數(shù)據(jù)的公司,都應(yīng)該考慮怎么讓數(shù)據(jù)盈利。1.數(shù)據(jù)收集沒想象中那么復(fù)雜,重要的是發(fā)現(xiàn)很多企業(yè)甚至是互聯(lián)網(wǎng)企業(yè),或者不知道該如何使用手中已有的數(shù)據(jù)資源,白白浪費(fèi)掉優(yōu)化改進(jìn)的好機(jī)會;或者認(rèn)為大數(shù)據(jù)只有BAT這樣的互聯(lián)網(wǎng)巨頭才有,一個(gè)小網(wǎng)站或APP應(yīng)用是沒有大數(shù)據(jù)的,果真是如此嗎?一個(gè)網(wǎng)站或一個(gè)APP所包含的數(shù)據(jù)信息都是數(shù)字營銷的基礎(chǔ)。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型通過分析來自網(wǎng)站及競爭對手的定性與定量數(shù)據(jù),可以驅(qū)動用戶及潛在用戶在線體驗(yàn)的持續(xù)提升,并提高我們的數(shù)字營銷業(yè)績。如圖所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型又如,法國的一些航空公司推出免費(fèi)的APP方便旅客在移動設(shè)備上跟蹤自己的行李,之后在追蹤的數(shù)據(jù)平臺上發(fā)現(xiàn)一部分商務(wù)旅行客戶中途在某一城市進(jìn)行短暫的商業(yè)會晤不需入住酒店,行李成了累贅,于是航空公司推出專人看管全程可追蹤的增值服務(wù),此項(xiàng)服務(wù)每周的新創(chuàng)造大概可達(dá)100萬美元。正是基于對數(shù)據(jù)的洞察產(chǎn)出附加價(jià)值。對數(shù)據(jù)的掌控,就是對市場的支配,意味著豐厚的投資回報(bào)。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型2.數(shù)據(jù)是有情緒的,假如別人要你推薦一只股票數(shù)據(jù)的形式多種多樣,呈數(shù)量級爆發(fā)的UGC內(nèi)容可以被我們拿來運(yùn)用?一個(gè)新穎點(diǎn)的例子,譬如最近從5100點(diǎn)+飛瀉而下的中國股市,股民巨量的埋怨和牢騷能以怎樣的數(shù)據(jù)化形式展示?“除了耐心等待,最好再找個(gè)地方讓自己發(fā)泄一下,找些跟自己同病相憐的人,還能緩解下壓力,避免跳樓。彈幕,就是最好的形式了?!薄┯腥私艘粋€(gè)網(wǎng)站,在K線圖上配上彈幕供吐槽…6.5大數(shù)據(jù)營銷業(yè)務(wù)模型結(jié)果被同樣郁悶的股民匯集出的數(shù)據(jù)隨著K線走勢變化擁有了實(shí)時(shí)鮮明的情緒特征,可以在一定程度預(yù)估使用者下一步賣出或繼續(xù)持有的動向。如圖所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型(1)股市數(shù)據(jù)比如買股票,推薦者會繼續(xù)購買并且推薦給其他人來加速某個(gè)公司股票(或?qū)嶋H產(chǎn)品)的成長,而貶損者則能破壞其名聲,不僅僅停止購買,而且勸說周圍朋友,在負(fù)面的口碑中阻止其成長,NPS凈推薦值則反映了類似多與空、褒與貶這兩股力量較量的結(jié)果?;氐綇V告,這些來源于門戶或垂直類網(wǎng)站、電商平臺購物用戶的打分與評論、社會化媒體如微博、論壇、微信、應(yīng)用等的用戶評論文本數(shù)據(jù)以及客服系統(tǒng)的語音數(shù)據(jù)和評價(jià)文本數(shù)據(jù),可以統(tǒng)稱為“用戶反饋數(shù)據(jù)”。如圖6.16.6.5大數(shù)據(jù)營銷業(yè)務(wù)模型圖6.16用戶反饋數(shù)據(jù)6.5大數(shù)據(jù)營銷業(yè)務(wù)模型(2)用戶調(diào)查表我們可以結(jié)構(gòu)化處理后,進(jìn)行數(shù)據(jù)挖掘,識別“貶損者”和“推薦者”,全面和快速的計(jì)算NPS,并了解“貶損者”的貶損原因。若進(jìn)一步關(guān)聯(lián)整合“用戶行為數(shù)據(jù)”,我們還可以了解“貶損者”的歷史“用戶行為數(shù)據(jù)”,有利于我們更好的洞察用戶,優(yōu)化用戶體驗(yàn)和改進(jìn)產(chǎn)品方向;同時(shí)還能定向“推薦者”展開更多的優(yōu)惠促銷或附加增值服務(wù)。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型當(dāng)廣告商們掌握了這些數(shù)據(jù),能夠向客戶傳輸更加相關(guān)的和更加有趣的信息,潛在客戶們甚至可以根據(jù)自己的需求定制一些廣告信息,可能會做出更好的購物決策,并有助于廣告商提升銷售業(yè)績。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型3.基本的5W1H問答也能玩轉(zhuǎn)消費(fèi)行為數(shù)據(jù)科特勒(Kotler行為選擇)模型從市場的特點(diǎn)來探討消費(fèi)者行為,更容易進(jìn)行定量研究:以推廣營銷某款手機(jī)為例,我們將要研究的數(shù)據(jù)可綜合為5W1H:①Who&Whom:購買這款手機(jī)的人群分類?還要弄清誰是決策者,誰是使用者,誰對決定購買有重大影響以及誰是實(shí)際購買者;6.5大數(shù)據(jù)營銷業(yè)務(wù)模型②What:不同手機(jī)品牌的市場占有率、具體型號的銷售情況;③When:了解在具體的季節(jié)、時(shí)間甚至?xí)r點(diǎn)所發(fā)生的購買行為,比如配合節(jié)假日促銷;④Where:研究適當(dāng)?shù)匿N售渠道和地點(diǎn),還可以進(jìn)一步了解消費(fèi)者是在什么樣的地理環(huán)境、氣侯條件、甚至于地點(diǎn)場合使用手機(jī);⑤How:了解消費(fèi)者怎樣購買、喜歡什么樣的促銷方式,比如是去線下體驗(yàn)店還是看測評視頻等;⑥Why:探索消費(fèi)者行為動機(jī)和偏好,比如為什么喜歡特定款手機(jī)并拒絕別的品牌或型號;6.5大數(shù)據(jù)營銷業(yè)務(wù)模型同特征的消費(fèi)者會產(chǎn)生不同的心理活動的過程,通過其決策過程導(dǎo)致了一定的購買決定,最終形成了消費(fèi)者對產(chǎn)品、品牌、經(jīng)銷商、購買時(shí)機(jī)、購買數(shù)量的選擇。如圖所示。

6.5大數(shù)據(jù)營銷業(yè)務(wù)模型4.數(shù)據(jù)是拿來用的,不僅僅是拿來看買一只股票尚需數(shù)據(jù)分析,展開一項(xiàng)持續(xù)的廣告營銷活動當(dāng)然更應(yīng)該建立在有數(shù)據(jù)衡量的基礎(chǔ)上。如圖所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型比如美國優(yōu)步(Uber)打車軟件的數(shù)據(jù)科學(xué)家建立了“基于地理位置的打車需求模型”,每天實(shí)時(shí)更新的熱點(diǎn)地圖可以有效幫助車主縮短空載時(shí)間,同時(shí)幫乘客減少等待時(shí)長。比如在美國舊金山市,下一步,車主會知道提前去哪里等待可以載到更多的乘客啦。如圖6.19所示。6.5大數(shù)據(jù)營銷業(yè)務(wù)模型圖6.19基于地理位置的打車需求模型6.6基于社會媒體的分析預(yù)測技術(shù)6.6.1基于空間大數(shù)據(jù)的社會感知大數(shù)據(jù)時(shí)代產(chǎn)生了大量具有時(shí)空標(biāo)記、能夠描述個(gè)體行為的空間大數(shù)據(jù),如手機(jī)數(shù)據(jù)、出租車數(shù)據(jù)、社交媒體數(shù)據(jù)等。這些數(shù)據(jù)為人們進(jìn)一步定量理解社會經(jīng)濟(jì)環(huán)境提供了一種新的手段。近年來,計(jì)算機(jī)科學(xué)、地理學(xué)和復(fù)雜性科學(xué)領(lǐng)域的學(xué)者基于不同類型數(shù)據(jù)開展了大量研究,試圖發(fā)現(xiàn)海量群體的時(shí)空行為模式,并建立合適的解釋性模型。6.6基于社會媒體的分析預(yù)測技術(shù)“社會感知(socialsensing)”就是借助于各類空間大數(shù)據(jù)研究人類時(shí)空間行為特征,進(jìn)而揭示社會經(jīng)濟(jì)現(xiàn)象的時(shí)空分布、聯(lián)系及過程的理論和方法。值得一提的是,與強(qiáng)調(diào)基于多種傳感設(shè)備采集微觀個(gè)體行為數(shù)據(jù)的社會感知計(jì)算(sociallyawarecomputing)相比,社會感知更加強(qiáng)調(diào)群體行為模式以及背后地理空間規(guī)律挖掘。6.6基于社會媒體的分析預(yù)測技術(shù)

社會感知數(shù)據(jù)可從三個(gè)方面獲取人的時(shí)空間行為特征:(1)對地理環(huán)境的情感和認(rèn)知,如基于社交媒體數(shù)據(jù)獲取人們對于一個(gè)場所的感受;(2)在地理空間中的活動和移動,如基于出租車、簽到等數(shù)據(jù)獲取海量移動軌跡;(3)個(gè)體之間的社交關(guān)系,如基于手機(jī)數(shù)據(jù)獲取用戶之間的通話聯(lián)系信息。由于空間大數(shù)據(jù)包含了海量人群的時(shí)空間行為信息,使得我們可以基于群體的行為特征揭示空間要素的分布格局、空間單元之間的交互以及場所情感與語義(如圖6.20所示)。6.6基于社會媒體的分析預(yù)測技術(shù)圖6.20社會感知研究框架6.6基于社會媒體的分析預(yù)測技術(shù)

空間大數(shù)據(jù)提供的社會感知手段,為地理學(xué)乃至相關(guān)人文社會科學(xué)研究開啟了一種“由人及地”的研究范式。而“社會感知”這一概念,正是概括描述了空間大數(shù)據(jù)在相關(guān)研究與應(yīng)用中所提供的數(shù)據(jù)以及方法上的支撐能力。1.社會感知分析方法根據(jù)社會感知的概念,對于空間大數(shù)據(jù)的研究可以分為“人”和“地”兩個(gè)層面。前者主要關(guān)注人的空間行為模式,以及模式所受到的地理影響;后者則側(cè)重于在群體行為模式的基礎(chǔ)上,探討地理環(huán)境的相關(guān)特征。6.6基于社會媒體的分析預(yù)測技術(shù)2.個(gè)體行為模式分析法空間大數(shù)據(jù)可以感知人的三個(gè)方面的空間行為模式。其中,移動是個(gè)體層次空間行為最直接的外在表現(xiàn)。由于大數(shù)據(jù)對于移動軌跡的獲取能力較強(qiáng),因此目前的研究多集中在移動模式和模型的建立。動物以及人在空間中移動所展示的規(guī)律性是復(fù)雜系統(tǒng)領(lǐng)域研究的一個(gè)重要議題。每個(gè)個(gè)體的移動模式可以表示為隨機(jī)游走(randomwalk)模型。通過對動物的移動進(jìn)行觀察,發(fā)現(xiàn)其移動步長和角度的統(tǒng)計(jì)分布特征呈現(xiàn)一定的模式,提高了覓食的效率。6.6基于社會媒體的分析預(yù)測技術(shù)當(dāng)移動方向均勻分布,而步長為冪律分布,且指數(shù)在1-3之間時(shí),移動為列維飛行模型(Levyflight),如圖6.21所示。6.6基于社會媒體的分析預(yù)測技術(shù)與動物相比,人的出行目的更加多樣化,并且存在一個(gè)或者多個(gè)頻繁重訪地點(diǎn),這使得人的移動模式與動物的移動模式存在機(jī)理上的差異。在海量個(gè)體移動軌跡數(shù)據(jù)的支持下,我們可以觀察人的移動模式并構(gòu)建相應(yīng)的解釋模型。許多學(xué)者利用手機(jī)、出租車、社交媒體簽到等數(shù)據(jù)探討了人的移動模式,并且試圖建立解釋性模型。6.6基于社會媒體的分析預(yù)測技術(shù)目前得到較多關(guān)注的是個(gè)體軌跡中的重訪點(diǎn),這是人類移動和動物移動存在較大差異的方面。人類移動存在家和工作地等頻繁重訪的地點(diǎn),具有較高的可預(yù)測性。在地理環(huán)境分布特征方面,我們通常從城市范圍內(nèi)及城市間兩個(gè)尺度分別探討移動性模式。城市范圍內(nèi)的移動受到城市用地結(jié)構(gòu)的影響。6.6基于社會媒體的分析預(yù)測技術(shù)對于一個(gè)城市而言,通常市中心區(qū)土地開發(fā)強(qiáng)度較大,居民出行的密度相對較高,而在城市邊緣地區(qū),土地利用強(qiáng)度和出行密度都相對較低。這種地理環(huán)境分布模式使得城市尺度的移動步長分布尾部不那么“重”。而對于城市間的移動,城市體系中不同規(guī)模的城市空間分布同樣影響了觀測到的移動模式。6.6基于社會媒體的分析預(yù)測技術(shù)3.活動時(shí)間變化特征分類法不同類型的大數(shù)據(jù)可以揭示一個(gè)區(qū)域或城市的活動以及人口分布狀態(tài)。大數(shù)據(jù)的時(shí)間標(biāo)記可以用于解釋人口分布的動態(tài)變化特征。這種變化特征往往具有較強(qiáng)的周期性。對于城市研究而言,尤其以日周期變化最為明顯。城市居民在居住地點(diǎn)和工作地點(diǎn)之間的通勤行為產(chǎn)生了相關(guān)地理單元人口密度的時(shí)變特征(如圖6.22a)。因此,我們可以基于城市不同區(qū)域?qū)?yīng)的活動日變化曲線來研究其用地特征和在城市運(yùn)行中所承載的功能。6.6基于社會媒體的分析預(yù)測技術(shù)圖6.22活動時(shí)間變化特征分類法6.6基于社會媒體的分析預(yù)測技術(shù)此外,考慮城市居民工作日和周末的不同活動特征,在一些研究中,會將工作日數(shù)據(jù)和非工作日數(shù)據(jù)分開處理。由于空間大數(shù)據(jù)所提取的活動時(shí)空分布信息可以處理成與傳統(tǒng)遙感數(shù)據(jù)相似的形式,因此除了非監(jiān)督分類外,一些圖像處理方法也可以應(yīng)用于社會感知數(shù)據(jù)。圖6.22b展示了如何從人對于城市空間利用的視角去解讀城市的結(jié)構(gòu)特征。6.6基于社會媒體的分析預(yù)測技術(shù)4.場所情感及語義分析法社交媒體(推特、微博)中包含了大量文本數(shù)據(jù),成為語義信息獲取的重要來源。帶有位置的社交媒體數(shù)據(jù)通常占3%,研究者可以利用這部分?jǐn)?shù)據(jù)揭示與地理位置有關(guān)的語義信息。目前的研究主要包括三個(gè)方向:(1)獲取一個(gè)場所的主題詞,例如利用新浪微博數(shù)據(jù)提取的在北京大學(xué)校園范圍內(nèi)發(fā)布的微博的主題詞。如圖6.23a所示。(2)獲取與場所有關(guān)的情感信息,如高興還是抑郁。例如利用推特(Twitter)數(shù)據(jù)分析的美國紐約曼哈頓地區(qū)的幸福感程度。如圖6.23b所示。

6.6基于社會媒體的分析預(yù)測技術(shù)(3)獲取對于特定事件(如災(zāi)害、事故、疾?。┑捻憫?yīng)。與基于文本的語義信息提取相比,照片語義信息更為客觀且豐富。每張照片反映了拍照者對于場所的感知??紤]到文本和照片不同的表達(dá)能力,可以認(rèn)為結(jié)合文本和照片語義信息,能夠全面捕獲一個(gè)地理場所給人們帶來的體驗(yàn)。6.6基于社會媒體的分析預(yù)測技術(shù)圖6.23場所情感及語義分析6.6基于社會媒體的分析預(yù)測技術(shù)空間大數(shù)據(jù)為我們提供了一條透過海量人群的空間行為模式去觀察、理解地理環(huán)境特征及影響的研究路徑。社會感知概念的提出正是概括了空間大數(shù)據(jù)的這種能力??臻g大數(shù)據(jù)的處理,一方面需要有高效的分析方法,一方面需要對人的行為動力學(xué)模型和地理環(huán)境特征有充分的理解。因此,需要信息科學(xué)、復(fù)雜性科學(xué)、地理學(xué)等不同學(xué)科以及不同應(yīng)用領(lǐng)域的學(xué)者進(jìn)行通力合作,才能有效提取空間大數(shù)據(jù)中所蘊(yùn)含的信息,并充分體現(xiàn)其應(yīng)用價(jià)值。6.6基于社會媒體的分析預(yù)測技術(shù)6.6.2基于社會媒體的預(yù)測技術(shù)社會媒體對預(yù)測的作用有兩方面:一是社會信號的采集。例如,如果發(fā)現(xiàn)社會媒體上某一特定區(qū)域的人群都在發(fā)布信息說:“我感冒了”,那么,這一區(qū)域很有可能正在傳播流行性疾病,且有爆發(fā)的趨勢。二是大眾預(yù)測的融合。例如,美國大選期間,推特(Twitter)和臉譜(Facebook)在網(wǎng)上掀起預(yù)測熱潮,很多網(wǎng)友在社會媒體上發(fā)布自己的預(yù)測結(jié)果,這種預(yù)測反映了社會媒體的群體智慧。6.6基于社會媒體的分析預(yù)測技術(shù)準(zhǔn)確的預(yù)測結(jié)果對于人們在生活中的趨利避害、工作計(jì)劃決策起著至關(guān)重要的作用。一個(gè)決策產(chǎn)生的結(jié)果與該決策本身有著時(shí)間上的滯后關(guān)系,“利”與“害”總是存在于未來的時(shí)間與空間中,任何決策都不可避免地要依賴于預(yù)測。對未來趨勢提前做出判斷,有利于適時(shí)地調(diào)整計(jì)劃以及采取措施實(shí)施調(diào)控。人類的預(yù)測活動分為自然預(yù)測和社會預(yù)測,分別面向自然界和人類社會。二者又存在較大差異,主要表現(xiàn)在主客體關(guān)系、規(guī)律性質(zhì)、復(fù)雜程度和不確定性程度等幾個(gè)方面,如下表6.1所示。6.6基于社會媒體的分析預(yù)測技術(shù)表6.1自然預(yù)測與社會預(yù)測的區(qū)別6.6基于社會媒體的分析預(yù)測技術(shù)自然預(yù)測的客體是自然現(xiàn)象,自然現(xiàn)象對人類的預(yù)測毫無感知能力,其運(yùn)行軌跡不會因?yàn)轭A(yù)測而受到任何干擾。而社會預(yù)測的客體本身也是人,人會對預(yù)測結(jié)果產(chǎn)生因應(yīng)行為。所謂因應(yīng)行為,是指被預(yù)測的客體根據(jù)預(yù)測結(jié)果調(diào)整自己的行為,使得預(yù)測結(jié)果不準(zhǔn)。相對而言,社會要比自然的“受力面”多得多,因而不確定性也大得多,對其進(jìn)行預(yù)測也愈加困難。社會作為一個(gè)由大量子系統(tǒng)組成的非線性動態(tài)系統(tǒng),在特定情況下會對某些微小的變量極為敏感?;谏鐣襟w的預(yù)測是指研究人類廣泛參與并與社會發(fā)展變化有關(guān)的預(yù)測問題。6.6基于社會媒體的分析預(yù)測技術(shù)這種預(yù)測研究在許多領(lǐng)域都有著廣泛的應(yīng)用,例如金融市場的走勢預(yù)測、產(chǎn)品的銷售情況預(yù)測、政治大選結(jié)果預(yù)測、自然災(zāi)害的傳播預(yù)測等。以往基于社會媒體的預(yù)測研究工作主要關(guān)注的是相關(guān)關(guān)系的發(fā)現(xiàn)和使用,通過找到一個(gè)現(xiàn)象的良好關(guān)聯(lián)物來幫助了解現(xiàn)在和預(yù)測未來。例如,根據(jù)“微博聲量”以及用戶的情感分析可以預(yù)測股票的漲跌、電影票房的收入以及大選結(jié)果等。6.6基于社會媒體的分析預(yù)測技術(shù)我們需要站在一個(gè)全新的視角,介紹基于消費(fèi)意圖挖掘的預(yù)測以及基于事件抽取的預(yù)測,并通過挖掘影響預(yù)測客體未來走勢的本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論