




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、of accountability, redress of orders and prohibitions. Strengthening the honesty and self-discipline of leading cadres honesty in politics and education work, enhance leaders ability to resistof accountability, redress of orders and prohibitions. Strengthening the honesty and self-discipline of lead
2、ing cadres honesty in politics and education work, enhance leaders ability to resistof accountability, redress of orders and prohibitions. Strengthening the honesty and self-discipline of leading cadres honesty in politics and education work, enhance leaders ability to resist2016年大數據到底還算不算個 “東西”在喜新厭
3、舊的技術初創(chuàng)企業(yè)界,已有 3年 歷史 “大數據” 聽起來似乎已經過氣了。雖然 Hadoop 在 2006年 已經出來,但 “大數據” 這個概念大概是在 2011 到 2014年 左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼里,“大數據” 成為了新的 “金子” 或者 “石油”。然而,至少在我跟業(yè)界人士交談中,大家越來越感覺到這項技術已經在某種程度上陷入了停滯。2015年 可能是數據領域的那些酷小子轉移興趣,開始沉迷于 AI 以及機器智能、深度學習等許多相關概念的年份。拋開不可避免的炒作周期曲線態(tài)勢不管,我們的 “大數據版圖” 已經進入第 4 個年頭了,趁這個時候退一步來反思一下
4、去年發(fā)生了什么,思考一下這個行業(yè)的未來會怎樣是很有意義的。2016 大數據版圖那么 2016年 大數據到底還算不算個 “東西” 呢?我們不妨探討一下。企業(yè)技術=艱苦工作大數據有趣的一點在于,它不再像當初經歷過那樣有可能成為炒作的題材了。經過炒作周期后仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知,或者與大眾相關聯(lián)的:比如移動應用、社交網絡、可穿戴、虛擬現(xiàn)實等。但大數據基本上就是管道設施的一種。當然,大數據為許多消費者或商業(yè)用戶體驗提供了動力,但它的核心是企業(yè)技術:數據庫、分析等,這些東西都是在后端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適
5、應企業(yè)端的新技術是不可能的。大數據現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網公司(尤其是 Google、Facebook、Twitter 等)的共生關系的推動,這些公司既是核心大數據技術的重度用戶,同時也是這些技術的創(chuàng)造者。這些公司突然間面對著規(guī)模前所未有的龐大數據時,由于本身缺乏傳統(tǒng)的(昂貴的)基礎設施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發(fā)所需的技術。后來隨著開源運動的迅速發(fā)展,一大批此類新技術開始共享到更廣的范圍。然后,一些互聯(lián)網大公司的工程師離職去創(chuàng)辦自己的大數據初創(chuàng)企業(yè)。其他的一些 “數字原生” 公司,包括嶄露頭角的獨角獸公司,也開始面臨著互聯(lián)網大公司的類似需求,由于它
6、們自身也沒有傳統(tǒng)的基礎設施,所以自然就成為了那些大數據技術的早期采用者。而早期的成功又導致了更多的創(chuàng)業(yè)活動發(fā)生,并獲得了更多的 VC 資助,從而帶動了大數據的起勢??焖侔l(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規(guī)模到跨國公司級別的更大一批企業(yè)采用大數據技術。這些公司跟 “數字原生” 公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現(xiàn)有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的,組織內部許多人也意識到對自己的遺留基礎設施進行現(xiàn)代化應該是早點好過晚點,但他們不會一夜間就把自己的關鍵業(yè)務取代掉。任何革命都需要過程、預算、項目
7、管理、試點、局部部署以及完備的安全審計等。大企業(yè)對由年輕的初創(chuàng)企業(yè)來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多(還是大多數?)企業(yè)仍頑固地拒絕把數據遷移到云端(至少不愿遷移到公有云)。還需要理解的另一個關鍵是:大數據的成功不在于實現(xiàn)技術的某一方面(像 Hadoop 什么的),而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數據、存儲數據、清洗數據、查詢數據、分析數據并對數據進行可視化。這些工作一部分可以由產品來完成,而有的則需要人來做。一切都需要無縫集成起來。最后,要想讓所有這一切發(fā)揮作用,整個公司從上到下都需要樹立以數據驅動的文化,這樣大數據才不僅僅是
8、個 “東西”,而且就是那個(關鍵的)“東西”。換句話說:有一堆艱苦的工作要做。部署階段所以,這就是在經過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC 投資頻等頭條后,我們開始步入大數據的部署期和早期成熟期的原因。更有前瞻性的大公司(姑且稱之為傳統(tǒng)技術采用周期的 “早期采用者”)在 2011 到 2013年 間開始實驗大數據技術,推出了若干的 Hadoop 試點計劃(往往是因為趕時髦)或者嘗試一些點方案。他們招募了各種各樣此前并不存在的崗位(如 “數據科學家” 或 “首席數據官”)。他們進行了各種努力,包括吧全部數據都堆到一個數據容器(“data lake”),然后希望緊跟著就會發(fā)生奇跡(往往不會
9、)。他們逐步建設自己的內部能力,試驗了各種供應商,從試點計劃到生產中的局部部署,然后到現(xiàn)在爭論要不要全企業(yè)鋪開(全范圍鋪開實施的情況還很罕見)。許多情況下,他們正處在這樣一個重要的拐點上,即經過大數據基礎設施的數年建設后,能夠展示的成果還不多,至少在公司內部的商業(yè)用戶看來是這樣的。但是大量吃力不討好的工作已經做完了,現(xiàn)在開始進入到有影響力的應用部署階段了。只是從目前來看,這種建構在核心架構之上的應用數量還不成比例。接下來的一波大公司(稱之為傳統(tǒng)技術采用周期的 “早期多數使用者”)大多數時候對大數據技術是持觀望態(tài)度的,對于整個大數據方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指
10、望某個大型供應商(比如 IBM)會提供一個一站式的解決方案,不過現(xiàn)在看來這種情況近期內并不會出現(xiàn)。他們看待這個大數據版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來并沒有什么不同的初創(chuàng)企業(yè)合作,然后修補出各種解決方案。生態(tài)體系正在成熟與此同時,在初創(chuàng)企業(yè) / 供應商這一塊,整個第一波的大數據公司(2009 至 2013年 間成立的那批)現(xiàn)在已經融了數輪的資金,企業(yè)規(guī)模已經得到了擴大,并且從早期部署的成功或失敗中學到了東西,現(xiàn)在他們已經能夠提供更成熟的、經受過考驗的產品了。少數一些已經成為了上市公司(包括 2015年 上市的 HortonWorks 和 New Relic),而有的(比
11、如 Cloudera、MongoDB 等)融資已經達上億美元了。這個領域的 VC 融資活動仍然很有生氣,2016年 的前幾周我們見證好幾輪相當可觀的后期階段大數據融資事件:DataDog(9400 萬美元),BloomReach(5600 萬美元),Qubole(3000 萬美元),PlaceIQ(2500 萬美元)等。2015年 大數據初創(chuàng)企業(yè)拿到的融資額達到了 66.4 億美元,占整個技術 VC 總融資額額 11%。并購活動則開展得中規(guī)中矩(自從上一版大數據版圖發(fā)布以來完成了 34 項并購,具體可參見附注)隨著該領域的創(chuàng)業(yè)活動持續(xù)進行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的
12、技術巨頭(尤其是 Amazon、Google、IBM),使得這個領域的公司日益增多,最后匯成了這幅 2016 版的大數據版圖。顯然這張圖已經很擠了,而且還有很多都沒辦法列進去(關于我們的方法論可以參見附注)在基本趨勢方面,行動開始慢慢從左轉到右(即創(chuàng)新、推出新產品和新公司),從基礎設施層(開發(fā)者 / 工程師的世界)轉移到分析層(數據科學家和分析師的世界)乃至應用層(商業(yè)用戶和消費者的世界),“大數據原生應用” 已經在迅速冒頭這多少符合了我們原先的一些預期。大數據基礎設施:仍有大量創(chuàng)新Google 關于 MapReduce 和 BigTable 的論文(Cutting 和 MikeCafarel
13、la 因為這個而做出了 Hadoop)的誕生問世已有 10年 了,在這段時間里,大數據的基礎設施層已經逐漸成熟,一些關鍵問題也得到了解決。但是,基礎設施領域的創(chuàng)新仍然富有活力,這很大程度上是得益于可觀的開源活動規(guī)模。2015 年 無疑是 Apache Spark 之年。自我們發(fā)布上一版大數據版圖以來,這個利用了內存處理的開源框架就開始引發(fā)眾多討論。自那以后,Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護,讓它獲得了可觀的信任度。Spark 的出現(xiàn)是很有意義的,因為它解決了一些導致 Hadoop 采用放緩的關鍵問題:Spark 速度變快了很多(基準測試表明 Spark 比
14、Hadoop 的 MapReduce 快 10 到 100 倍),更容易編程,并且跟機器學習能夠很好地搭配。除了 Spark 以外,還出現(xiàn)了其他的一些令人興奮的框架,比如 Flink、Ignite、Samza、Kudu 等,這些框架的發(fā)展勢頭也很好。一些思想領袖認為,Mesos(數據中心資源管理系統(tǒng),把數據中心當作一臺大計算資源池進行編程)的出現(xiàn)也刺激了對 Hadoop 的需求。即便在數據庫的世界里,新興的玩家似乎也越來越多。多到市場已經難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數據庫(如 Neo4j )的成熟,到專門數據庫的推出(如統(tǒng)計時序數據庫 InfluxDB),乃至于 Coc
15、kroachDB 的出現(xiàn)(受 Google Spanner 靈感啟發(fā)誕生的融合了 SQL 與 NoSQL 長處的新型數據庫)。數據倉庫也在演變(如云數據倉庫 Snowflake)。大數據分析:現(xiàn)在跟 AI 結合了大數據分析過去幾個月出現(xiàn)的一股趨勢是,越來越關注利用人工智能(形式和風格各異)來幫助分析大規(guī)模的數據,從而獲得預測性的洞察。其實最近出現(xiàn)復興的 AI 很大程度上算是大數據的產物。深度學習(最近受到關注最多的 AI 領域)背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應用到大規(guī)模數據之后才發(fā)揮出了它的最大潛能。AI 與大數據之間的關系如此緊密,以至于業(yè)界專家現(xiàn)
16、在認為 AI 已經令人懊惱地 “與大數據陷入了熱戀當中”。不過反過來,AI 現(xiàn)在也在幫助大數據實現(xiàn)后者的承諾。分析對 AI/ 機器學習越來越多的關注也符合大數據下一步演進的趨勢:現(xiàn)在數據我都有了,但究竟從中能得到什么樣的洞察呢?當然,這件事情可以讓數據科學家來解決,從一開始他們的角色就是實現(xiàn)機器學習,否則的話就得想出模型來發(fā)現(xiàn)數據的意義。但是機器智能現(xiàn)在正在逐漸發(fā)揮輔助數據科學家的作用只需要倒騰數據,新興的產品就能從中提煉出數學公式(如 Context Relevant)或者自動建立和推薦最有可能返回最佳結果的數據科學模型(如 DataRobot)。一批新的 AI 公司提供的產品能夠自動識別像
17、圖像這樣的復雜實體(如 Clarifai、Dextro),或者提供強大的預測性分析(如 HyperScience)。同時,隨著基于無監(jiān)督學習的產品的傳播和改善,看看它們與數據科學家之間的關系如何演變將非常有趣將來這兩者是敵還是友呢?AI 當然不會很快取代數據科學家的位置,但預計會看到數據科學家通常執(zhí)行的更簡單一點的工作越來越多的自動化,從而可以極大提高生產力。但不管怎樣,AI/ 機器學習絕不是大數據分析唯一值得關注的趨勢。大數據 BI 平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢(如 SiSense、Arcadia Data 等)。大數據應用:真正的加速隨著一些核心基礎設施的挑戰(zhàn)
18、得到解決,大數據應用層正在快速構建。在企業(yè)內部,已經出現(xiàn)了各種工具來幫助跨多個核心職能的企業(yè)用戶。比方說,銷售和營銷的大數據應用通過處理大規(guī)模的內外部數據來幫助找出哪位客戶可能會購買、續(xù)約或者流失,且速度越來越實時化??头脦椭鷤€性化服務。人力應用幫助找出如何吸引和挽留最好的員工等。專門的大數據應用幾乎在任何一個垂直行業(yè)都有出現(xiàn),從醫(yī)療保健(尤其是基因組學和藥物研究)到金融、時尚乃至于執(zhí)法(如 Mark43)。有兩個趨勢值得強調一下。首先,這些應用很多都是 “大數據原生” 的,本身都是依托在最新的大數據技術基礎上開發(fā)的,代表了一種客戶無須部署底層大數據技術即可利用大數據的有趣方式因為那些底層
19、技術已經是打包的,至少對于特定功能來說是這樣的。比方說,ActionIQ 就是在 Spark 基礎上開發(fā)的(或者說是 Spark 的一個派生),所以它的客戶能夠在營銷部門利用 Spark 的威力而不需要自己部署 Spark,這種情況下是沒有 “裝配線” 的。其次,AI 在應用層也有很強大的存在。比方說,在貓捉老鼠的安全領域中,AI 被廣泛用來對付黑客,實時識別和對抗網絡攻擊。去年已經出現(xiàn)了一個 AI 驅動的數字助手行業(yè),支持從任務自動化到會議安排(如 x.ai)以及購物等幾乎一切事情。這些解決方案對 AI 的依賴程度不一,從幾乎 100%自動化到 “有人參與” 等情況各不相同,但是可以明確的是,人的能力在 AI 幫助下得到了增強。結論從很多方面來看,我們仍然處在大數據現(xiàn)象的早期發(fā)展階段。盡管已經花費了數年時間,但減少基礎設施來存儲和處理大規(guī)模數據還只是第一階段。AI/ 機器學習已經成為大數據應用層的一股迅猛趨勢。大數據與 AI 的結合將會推動很多行業(yè)的驚人創(chuàng)新。從這個角度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供熱公司收購合同范本
- 買方單方面違約合同范本
- 上海租賃牌照合同范本
- 2024年遵義市赤水市公益性崗位人員招聘考試真題
- Unit 1 A new start:Understanding ideas ① 教學設計 -2024-2025學年外研版(2024年)英語七年級 上冊
- 出售大型廢船合同范本
- 臨時供電協(xié)議合同范本
- 2024年民主與科學雜志社招聘考試真題
- 勞務合同范本修灶臺
- 上海疫情物質供貨合同范本
- 2023新一代變電站二次系統(tǒng)技術規(guī)范第3部分:綜合應用主機
- 2024年高考真題-英語(新高考Ⅰ卷) 含解析
- TSHJX 061-2024 上海市域鐵路工程施工監(jiān)測技術規(guī)范
- 新能源汽車車位租賃合同
- 行為矯正原理與方法課件
- 《人工智能導論》(第2版)高職全套教學課件
- 39 《出師表》對比閱讀-2024-2025中考語文文言文閱讀專項訓練(含答案)
- 蛇膽川貝液在動物模型中的藥理作用研究
- GB/T 44260-2024虛擬電廠資源配置與評估技術規(guī)范
- 中國煤炭地質總局公開招聘報名表
- AQ 1064-2008 煤礦用防爆柴油機無軌膠輪車安全使用規(guī)范(正式版)
評論
0/150
提交評論