干貨:八個步驟讓你的企業(yè)全面“數據化”綜述_第1頁
干貨:八個步驟讓你的企業(yè)全面“數據化”綜述_第2頁
干貨:八個步驟讓你的企業(yè)全面“數據化”綜述_第3頁
干貨:八個步驟讓你的企業(yè)全面“數據化”綜述_第4頁
干貨:八個步驟讓你的企業(yè)全面“數據化”綜述_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、干貨 :八個步驟讓你的企業(yè)全面“數據化”2016-05-24數據分析什么樣的企業(yè)可以稱得上是大數據企業(yè)呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google 更像是一個大數據的企業(yè),阿里巴巴也像是一個大數據的企業(yè),而中國銀行似乎不太像一個大數據的企業(yè),盡管它每天也一樣浸泡在海量的數據中。除了具有處理大量數據的能力外,之所以Google 和阿里巴巴更像大數據的企業(yè),是因為他們有深入的數據分析工具,利用數據分析的結果直接指導決策,而且經常推出基于數據分析的創(chuàng)新型應用,這還不包括類似于AlphaGo 這樣的奇葩。這是我第三次以文字的形式談論如何成為一個大數據企業(yè)。一是很早以前在

2、“科學網”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個版本可以看作是上兩個版本的補充和擴充,同時也是本書一些重點內容的重述(為了保證本文的獨立性,可以不依賴本書直接閱讀,少量書中給出過的文獻和注釋在本文中重復出現(xiàn)了)。然而遺憾的是,并沒有一條放之四海皆準的通往大數據企業(yè)的康莊大道,更沒有點石成金之術可以讓一個企業(yè)快速Google化。這篇結束語只是提出一些看得見摸得著的建議,藏在這些建議背后的大數據理念,或許更加重要。盡管我是用Step1、Step2 這樣的說法來列舉成為大數據企業(yè)的措施,但是這些步驟之間并沒有嚴格的邏輯上誰決定誰或者時間上誰先誰后的關系。舉個例子來說,

3、最好的辦法當然是先有了數據標準再整理采集數據,這樣可以不走任何彎路,但實際上完全沒有數據,企業(yè)不會有動力做標準建設,做出來的標準也可能是紙上談兵,完全不實用。又比如,數據管理平臺的建設能夠幫助更好地進行全面數據化,但實際上它多半是全面數據化戰(zhàn)略進行了一定程度之后才開始啟動建設的??傮w來說,寫在更前面位置的,是更基礎的,但是沒有絕對的依賴關系。Step 1. 全面數據化“數據化”浪潮是整個大數據時代的起點,它強調數據就是資產,記錄一切可以記錄的數據,并相信這些數據一定會在某一天產生巨大的價值。顯然,數據化是一個企業(yè)能夠通過深入數據分析,實現(xiàn)自身優(yōu)化的基礎。我去長虹集團調研的時候,他們告訴我,長虹

4、電器在自己的生產線上,通過大量傳感器,記錄生產環(huán)境的溫度、濕度、粉塵度、振動強度和噪音強度,等等,通過這些量化指標與產品質量的關聯(lián)分析,得到影響產品優(yōu)品率和良品率的關鍵因素,再進一步通過控制環(huán)境因素,明顯提高了產品的優(yōu)品率。企業(yè)在日常的經營管理過程中,通過辦公自動化系統(tǒng)(OA系統(tǒng)),很多內部即時通訊、郵件往來、工作分配和業(yè)務文件上傳下載等日志數據都被記錄下來了。這些數據就是寶貴的財富!我們通過對這些數據的分析,能夠更精確地預測員工的離職率和升職率,更精確地預測員工和部門的績效水平,幫助企業(yè)員工通過基于關聯(lián)用戶和文本智能匹配快速找到對自己現(xiàn)有業(yè)務和客戶有參考價值的案例和文件,等等。但是這些提升,

5、都是建立在企業(yè)擁有相應數據的基礎上??偟膩碚f,全面數據化要求企業(yè)采集并存儲企業(yè)生產經營中的一切數據,形成企業(yè)數據資產的概念。Step 2. 整理數據資源,建立數據標準,形成管理規(guī)范很多企業(yè)已經有了一些數據儲備,或者通過第一步,開始快速積累了一些數據。但是企業(yè)管理層,尤其是跨業(yè)態(tài)擁有多家子公司的集團運營的企業(yè),一般而言,對于自己到底有哪些數據資源是沒有清晰認識的,更拿不出一張較完備的數據目錄。企業(yè)要做的第一步,就是通過自頂向下的方式,成立數據委員會,在有必要的時候借助外部合作方的幫助,進行全面的數據調研,了解數據資源的整體情況并建立數據資源情況更新的流程和規(guī)范。數據資源最基本的呈現(xiàn)方式是一個數據

6、目錄,我認為,企業(yè)管理團隊至少要掌握整個企業(yè)數據的3級目錄,而企業(yè)的主要技術團隊應該掌握到4級目錄。但數據資源又不僅僅是數據目錄,因為還涉及到每一個數據項的完備性、更新程度、有效性和噪音源等描述。掌握了數據資源后,企業(yè)要根據自己業(yè)務發(fā)展的需求,建立數據標準,使現(xiàn)有數據和未來所有的新增數據都能夠在同一個標準下統(tǒng)一管理,避免“信息系統(tǒng)建設越多,未來數據整合越難”的困境。業(yè)務中涉及大量數據的企業(yè),尤其是涉及到用戶隱私數據、國家安全數據和具有重要商業(yè)價值數據的企業(yè),要形成數據全流程管理的規(guī)范,因為絕大部分數據隱私和數據安全的事件,都不是從外部由黑客或者敵方特定人員通過技術手段獲得的,而是本單位人員蓄意

7、或無意泄露的。數據全流程管理的規(guī)范就是要做到企業(yè)能夠對數據進行分級分權限的管理,隨時了解敏感數據存儲在哪些服務器和終端設備上,對于敏感數據的任何處理,都能夠留下數據日志并打上唯一的數據水印,使任何可能的數據泄露之后,都能夠追根溯源知道是哪一位員工在什么時間點在哪一臺設備上運用何種權限下載的。對于一些操作過程中出現(xiàn)的風險點,良好的管理規(guī)范也能夠實時發(fā)現(xiàn),防患于未然。Step 3. 建設數據管理平臺有的讀者一聽到數據管理平臺,就認為是要花一大筆錢建設數據中心,把數據存起來。數據管理平臺肯定要有數據中心的存儲災備功能,但是它的作用遠不止此。首先,數據管理平臺要為企業(yè)量身定做一套數據組織和管理的解決方

8、案,特別是企業(yè)各部門之間數據的共融共通,以及企業(yè)數據怎么樣進行索引和關聯(lián)。很多大企業(yè),各部門之間數據的格式、形態(tài)和ID系統(tǒng)都不一致,部門之間無法交換數據,甚至大部分的數據表連主鍵和外鍵都沒有,數據之間不可能形成有效的組織。這些都是數據管理平臺要做的事情。其次,數據管理平臺是由業(yè)務所引導的,先進的流數據智能處理系統(tǒng),要為業(yè)務提供直接的支撐。很多時候,數據管理平臺怎么搭建,需要深度了解企業(yè)最重要的核心業(yè)務,通過有重大價值的示范性應用來牽引數據管理平臺的建設。例如針對零售類的企業(yè),就應該形成以消費者為中心的索引和畫像系統(tǒng),主要支持精準廣告、智能客服等核心業(yè)務,其次才是以商品為中心的索引系統(tǒng),主要支持

9、物流和倉儲優(yōu)化等業(yè)務。最后,數據管理平臺的建設要量體裁衣,強調魯棒性和可擴展性,沒有必要一開始就投入大量經費。因為硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架構設計合理,到需要的時候擴充硬件是容易的。Step 4. 建立海量數據的深入分析能力要想建立針對多元異構、跨域關聯(lián)的海量數據,通過深度分析挖掘獲取價值的能力,主要要培養(yǎng)兩個方面的能力。第一,非結構化數據的分析處理能力。包括文本、音頻、圖像、視頻、網絡和軌跡等數據。受過傳統(tǒng)商務智能和統(tǒng)計學訓練的人,對于處理結構化數據非常在行,但是處理非結構化數據往往比較頭痛比如分布好做抽樣,網絡怎么進行抽樣?所以,對于常見的,特別是和企業(yè)

10、自身業(yè)務有密切關系的非結構化數據,一定要有一支隊伍能夠挖掘其間價值,甚至將其轉化為結構化的數據。第二,大數據下的機器學習的能力。絕大部分我們可以想象到的應用問題,其本質都是分類或者預測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡征信、小微企業(yè)貸款、生產線控制、精準廣告和網點選擇,等等。解決這些問題最有力的武器就是機器學習!特別是在大數據環(huán)境下,很多高階的核函數慢得不行,大量的學習都必須采用線性學習器;而且數據非常多,很多時候都是在強噪音環(huán)境下尋找弱信號,單一分類器往往效果一般,必須要做集成學習。舉個例子,在Netflix舉辦的百萬美元電影個性化推薦大賽中,我們做過一些很優(yōu)美的單模型

11、,但是比起在比賽中最后獲勝的集成學習模型,至少從精度上來說是弱爆了!有的讀者要問了,高性能存儲計算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術高手嗎?要不要在CPU陣列里面加幾塊GPU甚至可編程邏輯陣列呢?這個也重要,但是企業(yè)如果實力足夠,可以采用成熟的解決方案,國際上頂尖的大數據服務商,例如IBM、HP和Intel都有不錯的方案。但是我說的上述兩點,是給企業(yè)培養(yǎng)人才和能力,而且至今也沒有特別好的成熟的解決方案,所以更重要。最后,企業(yè)怎么建立這樣的能力呢?首要辦法是能夠招聘到一流的大數據人才多花點錢和股票。第二選擇是以顯示度項目為牽引,通過外部合作,培養(yǎng)自己的數據分析團隊,既解決

12、問題,又學習能力。企業(yè)做這類的合作,不要老想著一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯(lián)合小組共同進行研發(fā),多投入一些人去學習。有一些供應商,特別是在某些方面有專長,但是還不屬于國際一流的供應商,在發(fā)展過程中是能夠接受企業(yè)這種要求的。Step 5. 建設外部數據的戰(zhàn)略儲備企業(yè)走到這一步,就有點現(xiàn)代大數據企業(yè)的理念了,因為它不再僅僅局限于自己業(yè)務的數據了,開始看外面的世界了很多大數據的重大創(chuàng)新,都是來源于把數據放在產生數據的業(yè)務體系之外去應用。舉個例子,一個服裝企業(yè)要解決設計生產的規(guī)劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,了解什么款式、什么

13、顏色、什么價位的服裝在哪個地區(qū)最受歡迎呢?這就需要外部數據了!事實上,外部數據對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產品推薦等意義重大,而網站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數據,這些數據中的大部分可以通過分布式深網爬蟲技術直接高效采集。所以,企業(yè)要有意識地開始建立自己的外部數據戰(zhàn)略儲備,不要“數”到用時方恨少。一方面,企業(yè)可以自建具備采集、清洗、存儲和索引等功能的自動化系統(tǒng),自動積累外部數據;另一方面,企業(yè)可以通過和數據供應商合作,得到一些亟需的數據。Step 6. 建立數據的外部創(chuàng)新能力企業(yè)很容易局限在自己的業(yè)務中不能自拔。所以,讓企業(yè)理解外面的數據能

14、夠幫助解決自己業(yè)務遇到的問題比較容易,因為企業(yè)主和員工們每天都在想怎么解決這些問題,反過來,讓他們去思考自己業(yè)務的數據能不能在其他地方產生重大價值,幫到其他企業(yè),他們就沒有那么敏感了。其實,這些創(chuàng)新性的想法往往能夠帶來新的巨大價值。比如,Google利用自身搜索業(yè)務產生的數據,進行電價和傳染病流行情況的預測,取得了巨大成功。事實上,企業(yè)通過智能終端、傳感網絡、物流記錄、網點記錄和電子商務平臺,等等,獲得的第一手數據,很多都可以用于支持在跨領域交叉銷售、環(huán)境保護、健康管理、智慧城市、精準廣告和房地價預測等方面的創(chuàng)新型應用。把握住這些機會,就能夠放大企業(yè)當前業(yè)務的價值,帶來持久可觀的收益。Step

15、 7. 推動自身數據的開放與共享偉大的企業(yè)懂得如何把最聰明的人集合起來,為自己服務。企業(yè)有了大量數據和一定的分析能力后,不能故步自封,而要充分借助社會的力量,盡最大可能發(fā)揮數據潛藏的價值。Netflix曾經公開了包含50多萬用戶和17 770部電影的在線評分數據,并懸賞100萬美元獎勵能夠將Netflix現(xiàn)有評分預測準確度提高10%的團隊?,F(xiàn)在的Netflix已經不再是一家電影在線租賃公司,而是國際一流的大數據企業(yè)了。除了法律上因為安全和隱私不能開放共享的數據,相當一部分都能夠以各種方式開放出來這種開放會帶來更大價值!國際化的如 Kaggle(英文平臺,),國內如 DataCastle(中文平

16、臺,),都是很有影響力的大數據創(chuàng)新競賽平臺。舉個例子,電子科技大學大數據研究中心曾經在DataCastle上舉辦過學生成績預測的比賽,總獎金才50 000元,卻吸引了915支隊伍2 000余名參賽者參加比賽,其中200多只隊伍來自于“985”和“211”知名高校。這里面最佳解決方案的思路和方法已經被應用于教育大數據定量化管理的產品模塊中了。最近現(xiàn)金巴士推出的“微額借貸用戶人品預測大賽”更是吸引了1531支參賽隊伍。還有一種最近新出的比賽方式,就是企業(yè)給出數據集的描述和樣本數據,參賽選手設計創(chuàng)新型商業(yè)應用,提交產品說明或者商業(yè)計劃書。企業(yè)通過這些數據開放計劃,可以學習最先進的算法和最具創(chuàng)新性的數據應用思路,實現(xiàn)自身數據的價值最大化。Step 8. 數據產業(yè)的戰(zhàn)略投資布局企業(yè)有了一定的規(guī)模,光靠自己的能力還不夠或者還太慢,就可以考慮通過投資的方式迅速形成自己的大數據能力甚至大數據產業(yè)布局。這類戰(zhàn)略型的投資,有三個可能的出發(fā)點:(1) 產業(yè)集成。從投資方原有優(yōu)勢產業(yè)或大數據前景廣闊的重點產業(yè)入手,進行全產業(yè)鏈布局,集中力量。(2) 技術集成。以數據采集、存儲、計算、分析和可視化的創(chuàng)新型工具為主要投資對象,提供具有普適性的解決方案。(3) 數據集成。以數據流動共享,發(fā)揮外部價值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論