楊華大數(shù)據(jù)時代技術(shù)與應(yīng)用0718(精編)_第1頁
楊華大數(shù)據(jù)時代技術(shù)與應(yīng)用0718(精編)_第2頁
楊華大數(shù)據(jù)時代技術(shù)與應(yīng)用0718(精編)_第3頁
楊華大數(shù)據(jù)時代技術(shù)與應(yīng)用0718(精編)_第4頁
楊華大數(shù)據(jù)時代技術(shù)與應(yīng)用0718(精編)_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

楊華博士/副教授中國海洋大學(xué)信息科學(xué)與工程學(xué)院E-mail:大數(shù)據(jù)營銷?紙牌屋?是“大數(shù)據(jù)〞時代下的產(chǎn)物,其制作公司Netflix公司通過對3000萬付費(fèi)用戶的收視習(xí)慣、劇情評論、演員喜好等數(shù)據(jù)精準(zhǔn)分析定制內(nèi)容,將全部13集內(nèi)容一次全部推出而大獲成功。現(xiàn)代海洋科技淺藍(lán)

深藍(lán)

透明海洋ToomuchVolume(Ihavetoomuchdata)ToomuchVelocity(It’scomingatmetoofast)ToomuchVariety(It’scomingatmefromtoomanyplacesintoomanyformats)Whatis“BigData〞數(shù)據(jù)爆炸:互聯(lián)網(wǎng)催生大量數(shù)據(jù)“COPYRIGHTRESERVED〞,“一鍵分享〞1995年,Windows95,MB2004,Google上市,GB2021,大數(shù)據(jù),TB,PB大數(shù)據(jù)分析字節(jié)(B)、千字節(jié)(KB)、兆字節(jié)(MB)、吉字節(jié)(GB)、太字節(jié)(TB)、拍字節(jié)(PB)、艾字節(jié)(EB)、澤它字節(jié)(ZB,又稱皆字節(jié))、堯它字節(jié)(YB)表示、千億億億字節(jié)(BB)封面故事:利用海量數(shù)據(jù)的最新策略研究人員怎樣才能應(yīng)對現(xiàn)代方法所產(chǎn)生的大量數(shù)據(jù)流?大數(shù)據(jù)分析不是隨機(jī)樣本,而是全體數(shù)據(jù)不是精確性,而是混雜性不是因果關(guān)系,而是相關(guān)關(guān)系大數(shù)據(jù)分析1.AnalyticVisualizations〔可視化分析〕

2.DataMiningAlgorithms〔數(shù)據(jù)挖掘算法〕

3.PredictiveAnalyticCapabilities〔預(yù)測性分析能力〕

4.SemanticEngines〔語義引擎〕

5.DataQualityandMasterDataManagement〔數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理〕大數(shù)據(jù)分析可視化:NASA公布全球洋流圖語義搜索引擎數(shù)據(jù)挖掘案例分析:電子商務(wù)領(lǐng)域

大數(shù)據(jù)之用戶行為分析數(shù)據(jù)挖掘:機(jī)器學(xué)習(xí)算法

學(xué)習(xí)方式1、監(jiān)督式;2、非監(jiān)督式;3、半監(jiān)督式;4、強(qiáng)化;

算法類似性1、回歸算法;2、基于實(shí)例的算法;3、正那么化方法;4、決策樹學(xué)習(xí);5、貝葉斯方法;6、基于核的算法;7、聚類算法;8、關(guān)聯(lián)規(guī)那么學(xué)習(xí);9、人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘:機(jī)器學(xué)習(xí)算法輸入數(shù)據(jù),被稱作“訓(xùn)練數(shù)據(jù)〞,并進(jìn)行標(biāo)識。在建模時,將預(yù)測結(jié)果和實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整,直到預(yù)期的準(zhǔn)確率。應(yīng)用:分類、回歸算法:邏輯回歸、反向傳遞神經(jīng)網(wǎng)絡(luò)等監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)數(shù)據(jù)不被標(biāo)識,學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。應(yīng)用場景:企業(yè)數(shù)據(jù),如關(guān)聯(lián)規(guī)那么學(xué)習(xí)、聚類半監(jiān)督學(xué)習(xí)數(shù)據(jù)局部被標(biāo)識,局部不被標(biāo)識。模型先學(xué)習(xí)數(shù)據(jù)的內(nèi)部結(jié)構(gòu),再用于預(yù)測應(yīng)用場景:圖像識別,回歸和分類算法:對標(biāo)識數(shù)據(jù)進(jìn)行建模,然后對未標(biāo)識數(shù)據(jù)進(jìn)行預(yù)測。強(qiáng)化學(xué)習(xí)數(shù)據(jù):直接作為模型的反響模型:必須對數(shù)據(jù)做出直接反響應(yīng)用場景:動態(tài)系統(tǒng)和機(jī)器人控制機(jī)器學(xué)習(xí)算法

學(xué)習(xí)方式1、監(jiān)督式;2、非監(jiān)督式;3、半監(jiān)督式;4、強(qiáng)化;

算法類似性1、回歸算法;2、基于實(shí)例的算法;3、正那么化方法;4、決策樹學(xué)習(xí);5、貝葉斯方法;6、基于核的算法;7、聚類算法;8、關(guān)聯(lián)規(guī)那么學(xué)習(xí);9、人工神經(jīng)網(wǎng)絡(luò)回歸分析RegressionAnalysis物理意義:試圖采用對誤差的衡量來描述變量之間的相關(guān)關(guān)系步驟?確定變量?建立預(yù)測模型?進(jìn)行相關(guān)分析?計(jì)算預(yù)測誤差?確定預(yù)測值回歸分析RegressionAnalysisSIM的用戶滿意度與相關(guān)變量的線性回歸分析因變量:“用戶滿意度〞自變量:“質(zhì)量〞、“形象〞和“價格〞回歸方程:用戶滿意度=0.008×形象+0.645×質(zhì)量+0.221×價格指標(biāo)顯著性水平意義

R20.89

“質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度F248.530.001回歸方程的線性關(guān)系顯著T(形象)0.001.000“形象”變量對回歸方程幾乎沒有貢獻(xiàn)T(質(zhì)量)13.930.001“質(zhì)量”對回歸方程有很大貢獻(xiàn)T(價格)5.000.001“價格”對回歸方程有很大貢獻(xiàn)回歸分析RegressionAnalysis指標(biāo)顯著性水平意義

R0.89

“質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度F374.690.001回歸方程的線性關(guān)系顯著T(質(zhì)量)15.150.001“質(zhì)量”對回歸方程有很大貢獻(xiàn)T(價格)5.060.001“價格”對回歸方程有很大貢獻(xiàn)SIM的用戶滿意度與相關(guān)變量的線性回歸分析因變量:“用戶滿意度〞自變量:“質(zhì)量〞、“形象〞和“價格〞回歸方程:用戶滿意度=0.008×形象+0.645×質(zhì)量+0.221×價格決策樹

DecisionTree決策樹

DecisionTreeEMV〔建大廠〕=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV〔中型廠〕=(0.4)*($60,000))+(0.6)*(-$10,000)=+$18,000EMV〔建小廠〕=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000EMV〔不建廠〕=$0如果建一個大廠且市場較好就可實(shí)現(xiàn)$100,000的利潤。如果市場不好那么會導(dǎo)致$90,000的損失。但是,如果市場較好,建中型廠將會獲得$60,000,小型廠將會獲得$40,000,市場不好那么建中型廠將會損失$10,000,小型廠將會損失$5,000。當(dāng)然,還有一個選擇就是什么也不干。最近的市場研究說明市場好的概率是0.4,也就是說市場不好的概率是0.6。決策樹

DecisionTree根據(jù)EMV標(biāo)準(zhǔn)公司應(yīng)該建一個中型廠復(fù)雜網(wǎng)絡(luò)ComplexNetworksAspatialcomplexdynamicalnetworkwithtime-varying(switching)topology復(fù)雜網(wǎng)絡(luò)ComplexNetworksConsensusCorrectconsensus

(Truelearning)Control

Manipulation

Misinformation復(fù)雜網(wǎng)絡(luò)ComplexNetworksPOWEROFBIGDATAOFTHEDATA

WisdomofcrowdsBYTHEDATA

WhatuneedtochangeFORTHEDATA

Qualitymattersmost工商數(shù)據(jù)分析應(yīng)用案例簡介活潑度分析包括資本活潑度CRI〔CapitalRelativeindex〕和主體數(shù)量活潑度QRI〔QuantityRelativeindex〕?;顫姸戎笖?shù)是衡量市場環(huán)境的體檢表,也是實(shí)體經(jīng)濟(jì)的晴雨表,是一項(xiàng)重要的經(jīng)濟(jì)先行指標(biāo)?;顫姸戎笖?shù)與企業(yè)生存環(huán)境和市場投資環(huán)境密切相關(guān),在市場環(huán)境轉(zhuǎn)好時,投資踴躍,資本活潑度指數(shù)升高;反之,指數(shù)下降,表示投資人不愿向經(jīng)濟(jì)體注入資金,反映市場環(huán)境趨于惡化。案例一市場主體活潑度模型分析案例—市場主體活潑度模型活潑度指數(shù)與很多市場經(jīng)濟(jì)指標(biāo)有相當(dāng)密切的關(guān)系。CRI與財(cái)政收入呈現(xiàn)明顯的相關(guān)關(guān)系。CRI與存款準(zhǔn)備金率、CPI等也有明顯相關(guān)關(guān)系。案例一市場主體活潑度模型案例分享—企業(yè)生命周期企業(yè)生命周期是反映某一國家或地區(qū)中市場環(huán)境優(yōu)劣的重要指標(biāo),一般來講,長壽企業(yè)對于區(qū)域市場經(jīng)濟(jì)秩序的穩(wěn)定有一定積極作用,相對的非長壽企業(yè)對經(jīng)濟(jì)秩序的平穩(wěn)有相應(yīng)的負(fù)面影響。對不同維度中的企業(yè)分析其生命周期,可以客觀反映區(qū)域細(xì)分市場的經(jīng)濟(jì)秩序,從而協(xié)助決策者準(zhǔn)確把握影響區(qū)域市場經(jīng)濟(jì)秩序的主要因素。案例二市場主體退出路徑

案例分享—企業(yè)生命周期常規(guī)統(tǒng)計(jì)一般趨勢分析生存規(guī)律挖掘基于規(guī)律的知識發(fā)現(xiàn)企業(yè)生命周期的分析層次基于工商登記數(shù)據(jù)分析企業(yè)生命周期,一般有兩種常見的分析層次:常規(guī)統(tǒng)計(jì)、一般趨勢分析。通過對數(shù)據(jù)的深度分析,還可以挖掘出區(qū)域企業(yè)的生存規(guī)律,并可以根據(jù)生存規(guī)律進(jìn)一步總結(jié)出直觀的,可用于實(shí)際監(jiān)管工作的“知識〞。善于發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律與價值案例二市場主體退出路徑

43Chapter#7案例分享—企業(yè)生命周期常規(guī)統(tǒng)計(jì)一般趨勢分析案例二市場主體退出路徑

Chapter#7案例分享—企業(yè)生命周期生存規(guī)律挖掘基于規(guī)律的知識發(fā)現(xiàn)死亡高風(fēng)險時間段---政府監(jiān)管介入的最正確時機(jī)案例二市場主體退出路徑

不同產(chǎn)業(yè),不同區(qū)域,不同規(guī)模市場主體存活率的研究有助于判別市場生態(tài)環(huán)境發(fā)生了哪些變化。產(chǎn)業(yè)生命周期模型對于政府產(chǎn)業(yè)扶持政策的出臺也有著較強(qiáng)的參考意義。案例二市場主體退出路徑

用2000-2007年的數(shù)據(jù)預(yù)測2001-2007年成立企業(yè)在2021年末的存活數(shù)。預(yù)測2001-2007年成立企業(yè)在2021年末的存活總數(shù)為363322,實(shí)際存活個數(shù)為364927,誤差為-0.44%。開業(yè)年開業(yè)數(shù)存活率預(yù)測存活個數(shù)實(shí)際存活個數(shù)誤差個數(shù)誤差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市場主體退出路徑預(yù)測驗(yàn)證

案例三區(qū)域產(chǎn)業(yè)偏好分析模型

案例五波士頓矩陣分析洞察產(chǎn)業(yè)變遷A類〔優(yōu)勢行業(yè)〕B類〔支柱行業(yè)〕C類〔潛力行業(yè)〕D類〔弱勢行業(yè)〕:案例五波士頓矩陣分析洞察產(chǎn)業(yè)變遷北京市2021、2021年重點(diǎn)行業(yè)產(chǎn)業(yè)遷移情況。案例五智波士頓矩陣分析洞察產(chǎn)業(yè)變遷案例五智波士頓矩陣分析洞察產(chǎn)業(yè)變遷利潤率%可視化案例GISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化根據(jù)市場主體GIS信息進(jìn)行密度分析。疊加其他面數(shù)據(jù)信息,可直觀看出主體的區(qū)域分布熱點(diǎn)。密度分析:根據(jù)輸入的點(diǎn)要素的分布,計(jì)算整個區(qū)域的數(shù)據(jù)分布情況,從而生成一個連續(xù)的外表。GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系統(tǒng)-市場主體密度分析—使分析更加直觀化GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體密度分析—疊加網(wǎng)格數(shù)據(jù),點(diǎn)數(shù)據(jù)GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析根據(jù)市場主體GIS信息進(jìn)行3D分析。按照其屬性值進(jìn)行3維拉伸,直觀展現(xiàn)主體的區(qū)域分布差異。3D分析:根據(jù)輸入的點(diǎn)要素的分布,計(jì)算整個區(qū)域的數(shù)據(jù)分布高程情況,從而生成不同高度的3D圖形。GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析--外資2021-2021新增企業(yè)數(shù)量〔區(qū)縣〕GISforSAICGISofBeijingAdministrationforIndustryandCommerce市場主體3D分析--外資2021-2021新增企業(yè)數(shù)量〔工商所〕GISforSAICGISofBeijingAdministrationforIndu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論