數據科學將數據轉化為價值_第1頁
數據科學將數據轉化為價值_第2頁
數據科學將數據轉化為價值_第3頁
數據科學將數據轉化為價值_第4頁
數據科學將數據轉化為價值_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 數據科學將數據轉化為價值目 錄 TOC o 1-3 h z u HYPERLINK l _Toc15835264 1.數據科學定義 PAGEREF _Toc15835264 h 3 HYPERLINK l _Toc15835265 2.數據科學與分析 PAGEREF _Toc15835265 h 4 HYPERLINK l _Toc15835266 3.數據科學與大數據 PAGEREF _Toc15835266 h 4 HYPERLINK l _Toc15835267 4.數據科學的商業(yè)價值 PAGEREF _Toc15835267 h 5 HYPERLINK l _Toc15835268

2、5.數據科學團隊 PAGEREF _Toc15835268 h 5 HYPERLINK l _Toc15835269 6.數據科學的嵌入式方法 PAGEREF _Toc15835269 h 6 HYPERLINK l _Toc15835270 7.數據科學目標和可交付成果 PAGEREF _Toc15835270 h 7 HYPERLINK l _Toc15835271 8.數據科學過程和方法 PAGEREF _Toc15835271 h 7 HYPERLINK l _Toc15835272 9.數據科學工具 PAGEREF _Toc15835272 h 8 HYPERLINK l _Toc1

3、5835273 10.數據科學家的薪酬 PAGEREF _Toc15835273 h 9 HYPERLINK l _Toc15835274 11.數據科學技能 PAGEREF _Toc15835274 h 11 HYPERLINK l _Toc15835275 12.數據科學培訓 PAGEREF _Toc15835275 h 12 HYPERLINK l _Toc15835276 13.數據科學學位 PAGEREF _Toc15835276 h 12 HYPERLINK l _Toc15835277 14.數據科學認證 PAGEREF _Toc15835277 h 13數據科學是一種將業(yè)務數據

4、轉換為資產的方法,可幫助組織提高收入、降低成本、抓住商機、改善客戶體驗等。數據科學定義數據科學是一種使用從統(tǒng)計分析到機器學習的方法從結構化和非結構化數據中收集洞察力的方法。對于大多數組織而言,數據科學被用于將數據轉化為價值,其形式是改善收入,降低成本,提高業(yè)務靈活性,改善客戶體驗,開發(fā)新產品等。RiskIQ公司首席數據科學家Adam Hunt說,“如果愿意,企業(yè)可以獲取的數據量是巨大的,但是如果沒有做任何事情,把它變成有趣的東西,它有什么用呢?數據科學是關于提供這些數據的目的?!睌祿茖W與分析雖然數據分析是緊密相關的,但它是數據科學的一個組成部分,用于了解組織的數據是什么樣子的。數據科學利用分

5、析的輸出來解決問題。Hunt說,“數據科學正在得出推動數據向前發(fā)展的結論。如果不是采用數據解決問題,如果只是在做調查,那就是分析。如果真的要用結果來解釋某些事情,就要從分析到科學。數據科學與實際解決問題的關系比觀察、檢查、繪制數據更大?!睂τ贚ooker公司首席數據科學家Hillary Green-Lerman來說,數據分析和數據科學之間的區(qū)別在于時間尺度。她表示,數據分析描述了當前的現(xiàn)實狀況。數據科學使用該數據來預測或了解未來。Green-Lerman說,“許多人認為數據分析師只是初級數據科學家;有人希望在他們長大后成為數據科學家。有時這是真的,但實際上我發(fā)現(xiàn)一個非常優(yōu)秀的分析師擁有與數據科

6、學家不同的技能。”數據科學與大數據數據科學和大數據通常是一致的,但數據科學可以用來從各種規(guī)模的數據中提取價值,無論是結構化的、非結構化的還是半結構化的。當然,在許多情況下,大數據對數據科學家很有用,因為企業(yè)擁有的數據越多,在給定模型中可以包含的參數就越多。Hunt說,“有了大數據,企業(yè)就不必受制于小數據的維數限制。大數據在某些方面確實有幫助,但更多并不總是更好。如果把股票市場放在合適的位置,它就不會起作用?!睌祿茖W的商業(yè)價值數據科學的商業(yè)價值取決于組織需求。數據科學可以幫助組織構建工具來預測硬件故障,允許組織執(zhí)行維護,并防止意外停機。它可以幫助預測超市貨架上的內容,或者根據產品的屬性預測產品

7、的流行程度。MapR科技公司首席應用架構師Ted Dunning說,“數據科學團隊可以擁有的最大價值在于他們與業(yè)務團隊融為一體。幾乎按照定義,尋求新奇的人員,真正創(chuàng)新的人員,將會發(fā)現(xiàn)價值或泄漏的價值,而不是人們所預期的。通常他們會讓業(yè)務人員帶來驚喜。價值并不是人們最初認為的那樣?!睌祿茖W團隊數據科學通常是一門團隊科學。數據科學家是大多數數據科學團隊的前瞻性核心,但從數據轉向分析,然后將分析轉化為生產價值需要一系列技能和角色。例如,數據分析師應該在將數據呈現(xiàn)給團隊,并在維護數據模型之前對其進行調查。數據工程師必須構建數據管道以豐富數據集,并使數據可供公司其他人使用。eBates公司分析副總裁M

8、ark Stange-Tregear警告不要尋求數據科學“獨角獸”,也就是將非線性思維與高級數學和統(tǒng)計知識以及編碼能力相結合的人員。Stange-Tregear解釋說,“我不認為數據工程是關鍵的數據科學家特征,我希望有人真正添加其他內容。如果我可以讓某人建立模型,能夠評估統(tǒng)計數據,并將該模型的好處傳達給業(yè)務部門,那么我就可以雇傭足夠成熟的數據工程師來采用該模型并實現(xiàn)它?!睌祿茖W的嵌入式方法一些組織選擇將數據科學家與其他功能混合在一起。例如,Mapr公司的Dunning建議遵循數據操作方法,將數據科學家嵌入到具有業(yè)務線職責的DevOps團隊中。這些數據運營團隊往往是跨職能的和技能的,如運營、軟

9、件工程、架構和產品管理,并且可以從頭到尾協(xié)調數據、工具、代碼和環(huán)境。數據運營團隊傾向于將分析管道視為類似于生產線。Dunning說,“孤立的數據科學團隊可能希望部署最復雜的模型,嵌入式數據科學家將尋找可維護的廉價勝利。他們對于選擇的解決方案是務實的?!睌祿茖W目標和可交付成果數據科學的目標是構建從數據中提取以業(yè)務為中心的見解的方法。這需要理解價值和信息在企業(yè)中是如何流動的,并能夠利用這種理解來識別業(yè)務機會。雖然這可能涉及一次性項目,但更典型的是,數據科學團隊尋求識別關鍵數據資產,這些資產可以轉化為數據管道,為可維護工具和解決方案提供支持。例如,銀行使用的信用卡欺詐監(jiān)控解決方案,或用于優(yōu)化風電場

10、中風力發(fā)電機布置的工具。逐漸地,傳達團隊所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt說,“確保他們將結果傳達給公司的其他人是非常重要的,當數據科學團隊長時間陷入困境時,它開始陷入困境。產品經理認為工作是理所當然的,除非我們一直在談論和關注它。”數據科學過程和方法生產工程團隊在Sprint周期中工作,并且有計劃的時間表。Hunt表示,數據科學團隊通常很難做到這一點,因為可以提前花很多時間來確定一個項目是否可行。Hunt說,“很多時候,第一周甚至第一個月都是研究、收集、清理數據。我們能回答這個問題嗎?我們能有效地做到嗎?我們花費了大量的時間進行設計和調查,遠遠超過了標準工程團隊

11、的表現(xiàn)?!睂τ贖unt來說,數據科學應該遵循科學方法,盡管他指出并非總是如此,甚至不可行。Hunt說,“企業(yè)試圖從數據中提取一些洞察力。為了反復和自信地做到這一點,必須使用科學方法準確地證明其假設。但我不認為許多數據科學家真正使用任何科學。”Hunt說,真正的科學需要時間。企業(yè)花費時間確認其假設,然后花費很多時間試圖反駁自己。Hunt說,“通過數據科學,企業(yè)需要深入研究數據來驗證這些假設。我們試圖回答的很多問題都是短暫的。例如,在安全方面試圖找到解決威脅的辦法?!彼硎?,因此,數據科學通常意味著采用“足夠好”的答案,而不是最佳答案。然而,危險是結果可能成為確認偏見或過度擬合的犧牲品。他說,“如

12、果這不是真正的科學,也就是說企業(yè)用科學的方法來證實一個假設,那么所做的就是向一些算法采用數據來證實自己的假設?!睌祿茖W工具數據科學團隊使用各種工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等開源項目。這些工具用于各種與數據相關的任務,從提取和清理數據到通過統(tǒng)計方法或機器學習對數據進行算法分析。通過統(tǒng)計方法或機器學習進行算法分析?!捌髽I(yè)需要良好的可視化工具。在這一點上,編程工具Python是最受歡迎的。企業(yè)需要能夠構建有趣模型的工具?!盡apR公司Dunning說。Dunning說,當MapR公司調查其客戶數據團隊時,團隊使用的最少數量的建模工具是5

13、個,而且甚至沒有進入可視化工具?!笆虑樽兊迷絹碓蕉啵驗槿藗兏討岩?。這種其他建模技術會產生更好的模型嗎?”Dunning說。數據科學家的薪酬根據PayScale公司的數據,以下是一些與數據科學相關的最受歡迎的職位和每個職位的平均薪酬:分析經理:67,000美元至126,000美元助理數據科學家:58,000美元至101,000美元商業(yè)智能分析師:49,000美元至95,000美元數據分析師:42,000美元至83,000美元數據架構師:77,000美元至153,000美元數據工程師:64,000美元至132,000美元數據科學家:65,000美元至134,000美元IT數據科學家:61,00

14、0美元至135,000美元首席數據科學家:95,000美元至172,000美元研究分析師:4萬至7萬美元研究科學家:48,000美元至118,000美元高級數據科學家:93,000美元至160,000美元統(tǒng)計學家:50,000美元至108,000美元數據科學技能雖然數據科學學位課程的數量正在迅速增加,但它們并不一定是組織在尋找數據科學家時所尋求的。eBates公司Stange-Tregear表示,他尋找具有統(tǒng)計背景的候選人,因此他們知道是否在看實際結果,將結果置于場景中的領域知識;以及使他們能夠向業(yè)務用戶傳達結果的溝通技巧。“如果我有一位可以完成所有這些工作的數據科學家,那么我會擔心通過數據工

15、程團隊實現(xiàn)這一點。”他說。RiskIQ公司的Hunt表示,對擁有博士學位的應聘者很感興趣。Hunt說,“我偏向招聘于擁有博士學位的人,但我不會放棄那些具有豐富經驗的人才。博士能夠對一個主題進行非常深入的研究,并且能夠將這些信息傳播給其他人。但是,擁有扎實的背景或個人項目是非常有趣的?!盚unt說,他特別尋找物理、數學、計算機科學、經濟學甚至社會科學的博士學位的人才。他不會對擁有數據科學或分析學位的應聘者另眼相看,但他確實對招聘這些人有所保留。他說,“我的個人經歷是,我發(fā)現(xiàn)它們非常有用,但他們過于關注模型的操作,而不是思維方式?!盡apR公司的Dunning更關心申請人的個人能力,而不是展示新事

16、物的能力。他說,“我在招聘數據科學家時首先想到的內容是:受訪者是否能教會我一些東西?我不想找到指導我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教會團隊的人才?!盌unning指出,一些優(yōu)秀的數據科學家或數據科學領域的領導者都具有非傳統(tǒng)背景,并指出,他與之合作過的最好的人員包括曾經做了6年園丁的人,具有美術背景的人,有的甚至擁有法國文學學位,還有一位沒有接受計算機培訓的新聞系學生。Dunning說:“想用數據感知來測試人們,而不是用公式。希望有能力看到事物并理解它們?!睌祿茖W培訓鑒于目前缺乏數據科學人才,許多組織正在制定計劃,以培養(yǎng)內部數據科學人才。而培訓是另一條快速增長的途徑,培訓工作人員承擔數據科學家的角色。數據科學學位根據美國新聞和世界報道,這些是數據科學領域的頂級研究生學位課程:統(tǒng)計學理學碩士:斯坦福大學的數據科學信息與數據科學碩士:伯克利信息學院數據科學理學碩士:哈佛大學約翰保爾森工程與應用科學學院分析科學碩士:芝加哥大學格雷厄姆學院計算數據科學碩士:卡內基梅隆大學數據科學理學碩士:華盛頓大學跨學科數據科學碩士:杜克大學應用數據科學碩士:密歇根大學信息學院數據科學認證組織需要在數據分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論