8.2.1大數(shù)據(jù)在云端-數(shù)據(jù)科學(xué)_第1頁
8.2.1大數(shù)據(jù)在云端-數(shù)據(jù)科學(xué)_第2頁
8.2.1大數(shù)據(jù)在云端-數(shù)據(jù)科學(xué)_第3頁
8.2.1大數(shù)據(jù)在云端-數(shù)據(jù)科學(xué)_第4頁
8.2.1大數(shù)據(jù)在云端-數(shù)據(jù)科學(xué)_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)導(dǎo)論》大數(shù)據(jù)在云端【導(dǎo)讀案例】智能大數(shù)據(jù)分析成熱點我國大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模(單位:億元)【導(dǎo)讀案例】智能大數(shù)據(jù)分析成熱點2015年中國大數(shù)據(jù)細分市場規(guī)模占比2014年全球大數(shù)據(jù)細分市場【導(dǎo)讀案例】智能大數(shù)據(jù)分析成熱點大數(shù)據(jù)未來發(fā)展方向【任務(wù)描述】(1)了解新興學(xué)科——數(shù)據(jù)科學(xué)的基礎(chǔ)知識和主要內(nèi)容。(2)熟悉數(shù)據(jù)工作者的技能要求、素質(zhì)要求、知識結(jié)構(gòu)和培養(yǎng)途徑。(3)認識“數(shù)據(jù)開放”的重要意義,重視隱私保護和信息安全。(4)認識投身大數(shù)據(jù)時代的積極意義,做大數(shù)據(jù)的先行者。【知識準備】每當(dāng)提及“數(shù)據(jù)科學(xué)”(datascience),人們總會聯(lián)想到另一個含義相近的名詞一一“商務(wù)智能”(BI)。而測量尺度和關(guān)鍵績效指標(biāo)(KPI)通常是在聯(lián)機分析處理模式(OLAP)中定義,使得商務(wù)智能報表的內(nèi)容能夠基于已定義的衡量標(biāo)準。商務(wù)智能的典型技術(shù)和數(shù)據(jù)類型包括:·標(biāo)準和滿足特定需求的報表、信息面板、警報、查詢及細節(jié);·結(jié)構(gòu)化數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)源、易操作的數(shù)據(jù)集。數(shù)據(jù)科學(xué)的典型技術(shù)和數(shù)據(jù)類型包括:·優(yōu)化模型、預(yù)測模型、預(yù)報、統(tǒng)計分析;·結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)、多種類型數(shù)據(jù)源、超大數(shù)據(jù)集?!局R準備】數(shù)據(jù)科學(xué)通常,數(shù)據(jù)科學(xué)的實踐需要三個一般領(lǐng)域的技能,即:商業(yè)洞察、計算機技術(shù)/編程和統(tǒng)計學(xué)/數(shù)學(xué)。而另一方面,不同的工作對象,他的具體技能集合會有所不同。數(shù)據(jù)科學(xué)技能領(lǐng)域技能詳情商業(yè)1.產(chǎn)品設(shè)計和開發(fā)2.項目管理3.商業(yè)開發(fā)4.預(yù)算5.管理和兼容性(例如:安全性)技術(shù)6.處理非結(jié)構(gòu)化數(shù)據(jù)(例如:NoSQL)7.管理結(jié)構(gòu)化數(shù)據(jù)(例如:SQL、JSON、XML)8.自然語言處理(NLP)和文本挖掘9.機器學(xué)習(xí)(例如:決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機、聚類)10.大數(shù)據(jù)和分布式數(shù)據(jù)(例如:Hadoop、Map/Reduce、Spark)數(shù)學(xué)&建模11.最優(yōu)化(例如:線性、整數(shù)、凸優(yōu)化、全局)12.數(shù)學(xué)(例如:線性代數(shù)、實變分析、微積分)13.圖模型(例如:社會網(wǎng)絡(luò))14.算法(例如:計算復(fù)雜性、計算科學(xué)理論)和仿真(例如:離散、基于agent、連續(xù))15.貝葉斯統(tǒng)計(例如:馬爾科夫鏈蒙特卡羅方法)編程16.系統(tǒng)管理(例如:UNIX)和設(shè)計17.數(shù)據(jù)庫管理(例如:MySQL、NoSQL)18.云管理19.后端編程(例如:Java/Rails/ObjectiveC)20.前端編程(例如:JavaScript,HTML,CSS)統(tǒng)計21.數(shù)據(jù)管理(例如:重編碼、去重復(fù)項、整合單個數(shù)據(jù)源、網(wǎng)絡(luò)抓取)22.數(shù)據(jù)挖掘(例如:R,Python,SPSS,SAS)和可視化(例如:圖形、地圖、基于Web的數(shù)據(jù)可視化)工具23.統(tǒng)計學(xué)和統(tǒng)計建模(例如:一般線性模型、ANOVA、MANOVA、時空數(shù)據(jù)分析、地理信息系統(tǒng))24.科學(xué)/科學(xué)方法(例如:實驗設(shè)計、研究設(shè)計)25.溝通(例如:分享結(jié)果、寫作/發(fā)表、展示、博客)數(shù)據(jù)科學(xué)中25項技能數(shù)據(jù)科學(xué)1.數(shù)據(jù)科學(xué)技能和熟練程度在上表中列出的這25項技能,反映了通常與數(shù)據(jù)科學(xué)家相關(guān)的技能集合。在進行針對數(shù)據(jù)科學(xué)家的調(diào)查中,調(diào)查者要求數(shù)據(jù)專業(yè)人員指出他們在25項不同數(shù)據(jù)科學(xué)技能上的熟練程度。這項研究數(shù)據(jù)基于620名被訪的數(shù)據(jù)專業(yè)人士,具備某種技能的百分比反映了指出他在該技能上至少中等熟練程度的被訪問者比例職位角色,即:商業(yè)經(jīng)理=250;開發(fā)人員=222;創(chuàng)意人員=221;研究人員=353。數(shù)據(jù)科學(xué)2.重要數(shù)據(jù)科學(xué)技能分析表明,所有數(shù)據(jù)專業(yè)人員中最常見的數(shù)據(jù)科學(xué)十大技能是:統(tǒng)計–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(75%)數(shù)學(xué)&建模–數(shù)學(xué)(71%)商業(yè)–項目管理(71%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(71%)統(tǒng)計–科學(xué)/科學(xué)方法(65%)統(tǒng)計–數(shù)據(jù)管理(65%)商業(yè)–產(chǎn)品設(shè)計和開發(fā)(59%)統(tǒng)計–統(tǒng)計學(xué)和統(tǒng)計建模(59%)商業(yè)–商業(yè)開發(fā)(53%)數(shù)據(jù)科學(xué)3.因職業(yè)角色而異的十大技能(1)商業(yè)經(jīng)理:統(tǒng)計–溝通(91%)商業(yè)–項目管理(86%)商業(yè)–商業(yè)開發(fā)(77%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(74%)商業(yè)–預(yù)算(71%)商業(yè)–產(chǎn)品設(shè)計和開發(fā)(70%)數(shù)學(xué)&建模–數(shù)學(xué)(65%)統(tǒng)計–數(shù)據(jù)管理(64%)統(tǒng)計--數(shù)據(jù)挖掘和可視化工具(64%)商業(yè)–管理和兼容性(61%)(2)開發(fā)人員:技術(shù)–管理結(jié)構(gòu)化數(shù)據(jù)(91%)統(tǒng)計–溝通(85%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(76%)商業(yè)–產(chǎn)品設(shè)計(75%)數(shù)學(xué)&建模–數(shù)學(xué)(75%)統(tǒng)計–數(shù)據(jù)管理(75%)商業(yè)–項目管理(74%)編程–數(shù)據(jù)庫管理(73%)編程–后端編程(70%)編程–系統(tǒng)管理(65%)數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)(3)創(chuàng)意人員:統(tǒng)計–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(79%)商業(yè)–項目管理(77%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(77%)數(shù)學(xué)&建模–數(shù)學(xué)(75%)商業(yè)–產(chǎn)品設(shè)計和開發(fā)(68%)統(tǒng)計–科學(xué)/科學(xué)方法(68%)統(tǒng)計–數(shù)據(jù)管理(67%)統(tǒng)計–統(tǒng)計學(xué)和統(tǒng)計建模(63%)商業(yè)–商業(yè)開發(fā)(58%)數(shù)據(jù)科學(xué)(4)研究人員:統(tǒng)計–溝通(90%)統(tǒng)計–數(shù)據(jù)挖掘和可視化工具(81%)數(shù)學(xué)&建模–數(shù)學(xué)(80%)統(tǒng)計–科學(xué)/科學(xué)方法(78%)統(tǒng)計–統(tǒng)計學(xué)和統(tǒng)計建模(75%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(73%)統(tǒng)計–數(shù)據(jù)管理(69%)商業(yè)–項目管理(68%)技術(shù)–機器學(xué)習(xí)(58%)數(shù)學(xué)–最優(yōu)化(56%)數(shù)據(jù)科學(xué)4.按職業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論