大數(shù)據(jù)分析與決策(2016-1)_第1頁
大數(shù)據(jù)分析與決策(2016-1)_第2頁
大數(shù)據(jù)分析與決策(2016-1)_第3頁
大數(shù)據(jù)分析與決策(2016-1)_第4頁
大數(shù)據(jù)分析與決策(2016-1)_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與決策

姜昱汐

(大連交通大學(xué)經(jīng)濟管理學(xué)院經(jīng)濟學(xué)教研室)一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報告內(nèi)容2023/1/312數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫管理等時代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進入了一個新的發(fā)展階段-3-194619511956196119701974197919912001200320082011第一臺計算機ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進入文件管理時代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個網(wǎng)絡(luò)模型數(shù)據(jù)庫,但僅限于GE自己的主機1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開始產(chǎn)生,數(shù)據(jù)庫技術(shù)開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語言被發(fā)明關(guān)系型數(shù)據(jù)庫ORACLE發(fā)布第一個商用SQL關(guān)系數(shù)據(jù)庫,后續(xù)快速發(fā)展數(shù)據(jù)倉庫數(shù)據(jù)倉庫開始涌現(xiàn),關(guān)系數(shù)據(jù)庫開始全面普及且平臺無關(guān),進入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開始對數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項目,重點支持海量數(shù)據(jù)分布式管理和分布式計算GFS谷歌發(fā)表論文介紹分布式計算大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時代150億個設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬封電子郵件每天有2.88萬小時視頻上傳到Y(jié)outubeFacebook每日評論達32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬TB2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計2020年將增長到35ZB大數(shù)據(jù)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMCWorld2011大會主題“云計算相遇大數(shù)據(jù)”,EMC除了一直倡導(dǎo)的云計算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報告,予以積極跟進2011年10月,Gartner認(rèn)為2012年十大戰(zhàn)略技術(shù)將包括"大數(shù)據(jù)"2011年11月底,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)

將"大數(shù)據(jù)"放入2012年信息通信產(chǎn)業(yè)十大預(yù)測之一-4-IDC全球數(shù)據(jù)量預(yù)測(1ZB

=1百萬PB=10億TB)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)的產(chǎn)生、增長2023/1/315“大數(shù)據(jù)”是如何產(chǎn)生的?21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。

半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。2023/1/316大數(shù)據(jù)時代的爆炸增長想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1GB

=2^30字節(jié)1TB=2^40字節(jié)1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)2023/1/317大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety2023/1/318數(shù)據(jù)體量巨大(Volume):百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證明,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)僅為200PB(不能在單個計算機上集中存儲,一般需要用到分布式/云計算模式等)。數(shù)據(jù)類型多樣化:現(xiàn)在的數(shù)據(jù)不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多種類型的數(shù)據(jù),個性化、非結(jié)構(gòu)化數(shù)據(jù)占據(jù)較大比例。大數(shù)據(jù)的4V特征處理速度快數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲取高價值的信息價值密度低:以視頻為例,幾小時的視頻,在不間斷的監(jiān)控過程中,有用的數(shù)據(jù)可能僅僅幾秒。單個數(shù)據(jù)可能價值不大,但是數(shù)據(jù)整體還是有高價值的(比如一個班級大家發(fā)的微博可能沒有特別大的意義,但是全國高校大學(xué)生發(fā)的微博就可以反映當(dāng)代大學(xué)生思想理念)2023/1/319大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、微博、微信及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。2023/1/31102023/1/3111大數(shù)據(jù)的市場潛力利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計劃”。該計劃的目標(biāo)是改進現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,從而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強國家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式?!按髷?shù)據(jù)戰(zhàn)略”上升為美國最高國策對數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心能力。大數(shù)據(jù)的浪潮大數(shù)據(jù)與喬布斯的癌癥治療沃爾瑪?shù)钠【婆c紙尿布沃爾瑪?shù)皳榕c颶風(fēng)用品的關(guān)系谷歌流感預(yù)測中國大數(shù)據(jù)市場分析1312011年-2016年中國大數(shù)據(jù)市場規(guī)模22012年各行業(yè)大數(shù)據(jù)市場規(guī)模計世資訊預(yù)測,2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。計世資訊認(rèn)為,2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。計世資訊預(yù)測,2012年中國大數(shù)據(jù)市場規(guī)模將達到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,整個市場規(guī)模逼近百億。大數(shù)據(jù)的商業(yè)價值行業(yè)數(shù)據(jù)處理方式價值銀行/金融貸款、保險、發(fā)卡等多業(yè)務(wù)數(shù)據(jù)集成分析,市場評估新產(chǎn)品風(fēng)險評估股票等投資組合趨勢分析增加市場份額提升客戶忠誠度提高整體收入降低金融風(fēng)險醫(yī)療共享電子病歷及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠程醫(yī)療改善診療質(zhì)量加快診療速度互聯(lián)網(wǎng)在線廣告投放商品評分、排名社交網(wǎng)絡(luò)自動匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠度改善社交網(wǎng)絡(luò)體驗向目標(biāo)用戶提供有針對性的商品與服務(wù)政府/公共事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤氣等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂收視率統(tǒng)計熱點信息統(tǒng)計、分析創(chuàng)造更多聯(lián)合、交叉銷售商機準(zhǔn)確評估廣告效用零售基于用戶位置信息的準(zhǔn)確促銷社交網(wǎng)絡(luò)購買行為分析促進客戶購買熱情順應(yīng)客戶購買行為習(xí)慣一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報告內(nèi)容2023/1/3115分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標(biāo)簽云;關(guān)系圖等相關(guān)技術(shù)存儲結(jié)構(gòu)化數(shù)據(jù)海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop(MapReduce技術(shù))流計算(twitter的storm和yahoo!的S4)2023/1/3116二、大數(shù)據(jù)分析二、大數(shù)據(jù)分析

AnalyticVisualizations(可視化分析)

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

PredictiveAnalyticCapabilities(預(yù)測性分析能力)

SemanticEngines(語義引擎)

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

二、大數(shù)據(jù)分析-可視化分析

AnalyticVisualizations(可視化分析)

不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

二、大數(shù)據(jù)分析-預(yù)測性分析能力

PredictiveAnalyticCapabilities(預(yù)測性分析能力)

數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。二、大數(shù)據(jù)分析-語義引擎

SemanticEngines(語義引擎)

我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報告內(nèi)容2023/1/3123三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/1/3124全球每年約10%~15%的人群會患上流感,受感染人群約5000萬人,死亡人數(shù)約50萬。這可不是個小數(shù)字。如果我們能夠盡早提前預(yù)測到流感即將爆發(fā),無疑將使全球公眾都將受益:政府和醫(yī)療機構(gòu)提前拿出應(yīng)對措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趨勢網(wǎng)站(/flutrends)。該網(wǎng)站假定的前提是:如果用戶患上了流感,則他們會搜索更多同流感相關(guān)的信息。如此一來,如果對任何一個國家或地區(qū)有關(guān)流感的搜索量進行統(tǒng)計,就能較好推斷出某個國家或地區(qū)是否正爆發(fā)流感。2009年,谷歌在甲型H1N1流感爆發(fā)之前,用“谷歌流感趨勢”(GFT)模型成功預(yù)測了流感在美國境內(nèi)的傳播。谷歌的相應(yīng)數(shù)據(jù),同美國疾病控制與預(yù)防中心(CDC)等政府機構(gòu)所統(tǒng)計的數(shù)據(jù)非常接近(97%)。在某些情況下,谷歌甚至能夠比CDC提前一周預(yù)測出哪些地區(qū)將爆發(fā)流感。2023/1/3125全球每星期會有數(shù)以百萬計的用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料的那樣,在流感季節(jié),與流感有關(guān)的搜索會明顯增多;到了過敏季節(jié),與過敏有關(guān)的搜索會顯著上升;而到了夏季,與曬傷有關(guān)的搜索又會大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢會根據(jù)匯總的Google搜索數(shù)據(jù),近乎實時地對全球當(dāng)前的流感疫情進行估測。搜索流感相關(guān)主題的人數(shù)與實際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。當(dāng)然,并非每個搜索“流感”的人都真的患有流感,但將與流感有關(guān)的搜索查詢匯總到一起時,便可以找到一種模式。將統(tǒng)計的查詢數(shù)量與傳統(tǒng)流感監(jiān)測系統(tǒng)的數(shù)據(jù)進行了對比,結(jié)果發(fā)現(xiàn)許多搜索查詢在流感季節(jié)確實會明顯增多。通過對這些搜索查詢的出現(xiàn)次數(shù)進行統(tǒng)計,便可以估測出世界上不同國家和地區(qū)的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February2009)三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/1/3126卡耐基梅隆大學(xué)的JiweiLi和康乃爾大學(xué)的ClaireCardie,成功利用Twitter預(yù)測了早期流感爆發(fā)。他們的方式與Google類似。首先,從Twitter數(shù)據(jù)流中過濾包含與“流感”相關(guān),并帶有位置標(biāo)簽的tweet;然后,在地圖上標(biāo)注這些tweet的位置分布,以及隨時間產(chǎn)生的變化。同時,還制作了流感的動態(tài)變化模型。新模型中,流感包括4個階段:無傳染階段、爆發(fā)階段、穩(wěn)定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發(fā)現(xiàn)不同時期的轉(zhuǎn)換節(jié)點。實際上,Li和Cardie在2008年6月至2010年6月間,已經(jīng)利用100萬美國人的360萬條tweet,驗證了該方法的有效性。為了檢驗他們的預(yù)測是否成真,Li和Cardie將他們的分析與CDC進行對比。他們說,“我們確信,流感相關(guān)tweet與CDC提供的流感疾病案例數(shù)目,呈顯著相關(guān)。”三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/1/3127日本國內(nèi)有一個網(wǎng)站,你只要打開這個網(wǎng)站用自己的Twitter賬號登錄,就可以在短時間內(nèi)通過數(shù)萬條Twitter找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進行分析(以及統(tǒng)計目前發(fā)燒以及嗓子痛的患者數(shù)量),另外該程序還會結(jié)合氣溫和濕度的變化來預(yù)測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開。通過這個服務(wù)器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預(yù)防準(zhǔn)備。日本國立感染癥研究所將會把全國約

5000個醫(yī)療診所的流感患者進行統(tǒng)計并發(fā)布數(shù)據(jù)。經(jīng)過對比,研究所得出的實際統(tǒng)計數(shù)字和網(wǎng)站上預(yù)測的結(jié)果基本是一致的,那么為什么大數(shù)據(jù)的結(jié)果會很準(zhǔn)呢?首先是因為通過網(wǎng)絡(luò)信息分析的技術(shù)有所進步,已經(jīng)可以通過各種各樣的留言自動搜索到相關(guān)的數(shù)據(jù),并自動分類。就像Google現(xiàn)在所使用的技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分密切的十幾個單詞進行統(tǒng)計。另一個就是大數(shù)據(jù)所特有的功能。在流感最嚴(yán)重的時候,每天會有成千上萬條Tweets發(fā)布,即便有一些誤差,但通過數(shù)據(jù)分析也能分析出數(shù)據(jù)的精準(zhǔn)度。以往,公共機構(gòu)在發(fā)布流感情報的時候至少要延遲一周,在有些偏遠地區(qū)的立桿信息也并不確切,而現(xiàn)在,通過網(wǎng)絡(luò)能夠有效彌補這些缺憾。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/1/3128亞馬遜“預(yù)測式發(fā)貨”的新專利,可以通過對用戶數(shù)據(jù)的分析,在他們還沒有下單前,提前發(fā)出包裹。這項技術(shù)可以縮短發(fā)貨時間,從而降低消費者前往實體店的沖動。(因為在下單到收獲之間的時間延遲可能會降低人們的購物意愿,導(dǎo)致他們放棄網(wǎng)上購物)亞馬遜根據(jù)之前的訂單和其他因素,預(yù)測用戶的購物習(xí)慣,從而在他們實際下單前就將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹會暫存在快遞公司的轉(zhuǎn)運中心或者卡車?yán)铩嗰R遜為了決定要運送那些貨物,可能會參考以前的訂單、商品搜索記錄、愿望清單、購物車、甚至包括用戶的鼠標(biāo)在某件商品上停留的時間。三、大數(shù)據(jù)應(yīng)用的典型案例-亞馬遜“預(yù)測式發(fā)貨”2023/1/31292012年11月奧巴馬大選連任成功的勝利果實也被歸功于大數(shù)據(jù),因為他的競選團隊對選民的行為、支持偏向進行了數(shù)據(jù)搜集,并進行了大規(guī)模與深入的數(shù)據(jù)挖掘。在這次大選中,奧巴馬競選陣營的高級助理們決定將參考得到的數(shù)據(jù)分析結(jié)果來制定下一步的競選方案,從而獲得選民的支持。三、大數(shù)據(jù)應(yīng)用的典型案例-奧巴馬選舉三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉”2023/1/3130早在2009年,上交所曾經(jīng)利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想,設(shè)定一定的指標(biāo)預(yù)警,當(dāng)相關(guān)指標(biāo)達到某個預(yù)警點時,監(jiān)控系統(tǒng)會自動報警。深交所“大數(shù)據(jù)”監(jiān)控系統(tǒng),設(shè)置200多個指標(biāo)用于監(jiān)控估計,一旦出現(xiàn)股價偏離大盤的走勢,將利用大數(shù)據(jù)查探異動背后的機構(gòu)或投資人。馬樂案,監(jiān)管系統(tǒng)發(fā)現(xiàn)有三個賬戶的交易特點和當(dāng)時的博時精選基金高度重合,從交易記錄上可以看到,持股時間最長不過一兩個月,大多是三四天、四五天。三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2023/1/3131阿里“水文模型”是按照小微企業(yè)類型、級別等分別統(tǒng)計一個阿里系客戶的相關(guān)“水文數(shù)據(jù)”庫。如過往每到一個時點,該店鋪銷售會進入旺季,銷售額就會增長,同時沒到這個時段,該客戶對外投放的額度就會上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支出數(shù)據(jù)及同類店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2023/1/3132全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂道。三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新聞讓英國撤軍2023/1/31332010年10月23日《衛(wèi)報》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標(biāo)點擊紅點后彈出的窗口則有詳細的說明:傷亡人數(shù)、時間,造成傷亡的具體原因。密布的紅點多達39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2023/1/3134喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。三、大數(shù)據(jù)應(yīng)用的典型案例

-微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項大獎2023/1/31352013年,微軟紐約研究院的經(jīng)濟學(xué)家大衛(wèi)羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預(yù)測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。2014年羅斯柴爾德再接再厲,成功預(yù)測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報告內(nèi)容2023/1/3136四、大數(shù)據(jù)的可靠性2023/1/3137大數(shù)據(jù)思維的相關(guān)關(guān)系可以替代因果關(guān)系嗎?大數(shù)據(jù)思維下可以直接用調(diào)研結(jié)果來指導(dǎo)實踐嗎?四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測2023/1/3138在2011-2013年的三年間,谷歌流感模型的預(yù)測出現(xiàn)嚴(yán)重偏差:一直在高估流感的事態(tài)。其中最嚴(yán)重的偏差出現(xiàn)在2013年1月,谷歌產(chǎn)品估計的結(jié)果是CDC匯總實際結(jié)果的2倍。四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測2023/1/3139谷歌的目的是估算禽流感在整個美國的發(fā)病率。數(shù)據(jù)來源是自用戶使用搜索引擎的檢索記錄,即谷歌用搜索關(guān)鍵字的網(wǎng)民行為來預(yù)測整個國家人們患病的可能性。Q1:有禽流感癥狀的人都會使用google搜索關(guān)鍵字嗎?Q2:用google搜索關(guān)鍵字的人都有禽流感癥狀嗎?四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測2023/1/3140谷歌模型失敗原因谷歌模型是基于關(guān)鍵字和發(fā)病率的關(guān)系來進行預(yù)測。大數(shù)據(jù)思維重視相關(guān)性(A和B同時發(fā)生),卻忽略了因果關(guān)系(A導(dǎo)致B發(fā)生)的分析。隨著流感的發(fā)展,媒體不斷增加對流感的報道,引來越來越多人的重視,也就有相應(yīng)一部分人會通過google來搜索流感關(guān)鍵詞,但是這些人并不一定得了流感。1A導(dǎo)致B2B導(dǎo)致A3C導(dǎo)致A和B4A和B互為因果5小樣本引起的巧合A和B的關(guān)系四、大數(shù)據(jù)的可靠性-被解雇的市場調(diào)研部員工2023/1/31412004年,我國某知名電視機生產(chǎn)公司因為一次市場調(diào)查的結(jié)果,解雇了市場調(diào)研部的大量員工四、大數(shù)據(jù)的可靠性-被解雇的市場調(diào)研部員工2023/1/3142為調(diào)查該企業(yè)電視機品牌的市場占有率,該公司排除市場研究部的兩組員工,調(diào)查消費者會選擇的電視機品牌。Q:為什么同樣的抽樣方法結(jié)果差異這么大?

愿意購買不愿購買A組36%64%B組16%84%四、大數(shù)據(jù)的可靠性-被解雇的市場調(diào)研部員工2023/1/3143Q:為什么同樣的抽樣方法結(jié)果差異這么大?原因:1A組調(diào)查員在詢問過程中均戴著有該公司logo的領(lǐng)帶2在問題的選項中,該公司的名字排在眾多品牌的第一位四、大數(shù)據(jù)的可靠性2023/1/3144“大數(shù)據(jù),大偏差”科學(xué)的技術(shù)誠實的態(tài)度嚴(yán)密的操作一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報告內(nèi)容2023/1/3145

假設(shè)擲出一枚硬幣,正面朝上的概率是50%,如果連續(xù)99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少?這是Taleb在《黑天鵝》一書中給出的一個假想的問題。在Taleb的書中,受過正統(tǒng)教育的約翰博士給出了教科書教給我們的標(biāo)準(zhǔn)回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因為下一次硬幣朝向與之前投擲的結(jié)果無關(guān)。而教育背景沒有那么光鮮的胖托尼則認(rèn)為下一次投擲硬幣正面朝上的概率為99%。孰對孰錯?每個人都不妨給出自己的判斷。而如果一定要為自己的答案下一萬塊錢的賭注的話,可能我就會和Taleb一樣,更傾向于和不是那么教條的胖托尼保持一致,即更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關(guān)正面朝上落地的概率是50%的假設(shè)是錯誤的。五、大數(shù)據(jù)與貝葉斯方法

近幾年“大數(shù)據(jù)”成為熱詞后,諸如“貝葉斯算法”這樣的統(tǒng)計學(xué)名詞也隨之在IT領(lǐng)域熱起來。所謂的貝葉斯方法源于托馬斯·貝葉斯(ThomasBayes)生前為解決一個“逆概”問題寫的一篇文章。在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計算“正向概率”,如“假設(shè)袋子里面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大”。而一個自然而然的問題是反過來:“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色之后,那么我們可以就此對袋子里面的黑白球的比例作出什么樣的推測呢?”。這個問題,就是所謂的逆概問題。

五、大數(shù)據(jù)與貝葉斯方法

實際上,貝葉斯當(dāng)時的論文只是對這個問題的一個直接的求解嘗試,并不清楚他當(dāng)時是不是已經(jīng)意識到這里面包含著的深刻思想。然而后來,貝葉斯方法席卷了概率論,并將應(yīng)用延伸到各個問題領(lǐng)域,所有需要作出概率預(yù)測的地方都可以見到貝葉斯方法的影子,特別地,貝葉斯是機器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于,現(xiàn)實世界本身就是不確定的,人類的觀察能力是有局限性的,我們?nèi)粘K^察到的只是事物表面上的結(jié)果,沿用剛才那個袋子里面取球的比方,我們往往只能知道從里面取出來的球是什么顏色,而并不能直接看到袋子里面實際的情況。這個時候,我們就需要做一個猜測,所謂猜測,當(dāng)然就是不確定的,但也絕對不是兩眼一抹黑瞎蒙。五、大數(shù)據(jù)與貝葉斯方法

雖然,人們在談大數(shù)據(jù)時往往都會談及利用Hadoop等新興技術(shù)對海量數(shù)據(jù)處理等技術(shù)問題,也會談及Facebook、Google等公司所處理的PB級別數(shù)據(jù)的問題。但是,大數(shù)據(jù)的核心問題在于預(yù)測。電子商務(wù)網(wǎng)站通過數(shù)據(jù)預(yù)測顧客是否會購買推薦的產(chǎn)品;信貸公司通過數(shù)據(jù)預(yù)測借款人是否會違約;執(zhí)法部門用大數(shù)據(jù)預(yù)測特定地點發(fā)生犯罪的可能性;交通部門利用數(shù)據(jù)預(yù)測交通流量。但是,預(yù)測不是大數(shù)據(jù)時代才有的新問題,它是人類本能的一部分。五、大數(shù)據(jù)與貝葉斯方法

但是,與科學(xué)研究中以求真為目的的構(gòu)建模型不同,大數(shù)據(jù)時代的模型構(gòu)建將更加以務(wù)實為目的,即遵循統(tǒng)計學(xué)家GeorgeE.P.Box的觀點“本質(zhì)而言,所有模型都是錯誤的,只是有些模型更有用”。大數(shù)據(jù)時代的很多模型都是為了指導(dǎo)商業(yè)決策而設(shè)的,而商業(yè)決策通常會影響決策者的利益。所以,一個模型是否正確不是最重要的,重要的是決策者對這個模型有多大的把握,決策者能否從這個模型中獲利。所以,大數(shù)據(jù)時代中最為關(guān)鍵的應(yīng)該是基于數(shù)據(jù)的模型能否說服決策者據(jù)此進行決策,并且?guī)椭鷽Q策者改善決策賺取相應(yīng)的利潤。五、大數(shù)據(jù)與貝葉斯方法

艾賽亞·柏林(IsaishBerlin)曾經(jīng)援引古希臘詩人的殘簡“狐貍多知而刺猬有一大知”將知識分子分為狐貍和刺猬兩類。刺猬用一個宏大的概念解釋所有現(xiàn)象,如約翰博士一般;狐貍知道很多事情,用多元化的甚至相互矛盾的視角看待問題,狐貍也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng),如胖托尼一般。Tetlock等人的研究表明,在現(xiàn)實的預(yù)測中,狐貍的表現(xiàn)要優(yōu)于刺猬。在大數(shù)據(jù)時代,人們能夠接觸越來越多的信息,這些信息能否修訂決策者已有的觀念,對決策者的決策產(chǎn)生影響,這是大數(shù)據(jù)能否發(fā)揮價值的關(guān)鍵所在。五、大數(shù)據(jù)與貝葉斯方法很多人都知道亞當(dāng)斯密(AdamSmith)在《國富論》中所描述的市場中的“看不見的手”。在市場中,沒有人掌握有關(guān)生產(chǎn)和消費的全局信息,但是人們通過市場交易對供需的行為作出反應(yīng),從而逐步更新價格,進而達到平衡。ThomasBayes與亞當(dāng)斯密同時代且同在蘇格蘭接受教育,他的貝葉斯定理(Bayesian'sTheorem)也和亞當(dāng)斯密的“看不見的手”有相通之處。貝葉斯理論允許每個人擁有有關(guān)世界的先驗的信念,胖托尼也許最初認(rèn)為硬幣正面朝上的概率是50%,而當(dāng)他看到了連續(xù)99次的硬幣正面朝上落地,則他不斷利用數(shù)據(jù)修改其信念。五、大數(shù)據(jù)與貝葉斯方法

英國哲學(xué)家艾賽亞·柏林,把一句古希臘諺語“狐貍多技巧,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論