版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
IBM軟件1IBM軟件IBM軟件1駕馭大數(shù)據(jù)的力量駕馭大數(shù)據(jù)的力量PAGE駕馭大數(shù)據(jù)的力量PAGE2IBMIBM軟件PAGE3大數(shù)據(jù)這個術(shù)語有點用詞不當(dāng)。說實話,我們甚至不太喜歡這個術(shù)語(盡管事實上,它在本書的封面占據(jù)了非常顯眼的位置),因為它暗示著,其他數(shù)據(jù)有點小(可能是),或這種特殊類型的數(shù)據(jù)在良機上比較大(它可能會這樣,但并非總是如此)。為此,我們認為最好還是專門用一章來解釋大數(shù)據(jù)究竟是什么。在嘗試了解什么是大數(shù)據(jù)之前,您應(yīng)該知道為什么大數(shù)據(jù)對業(yè)務(wù)如此重要。簡單地說,對大數(shù)據(jù)的追求直接歸因于數(shù)據(jù)分析,對于企業(yè)業(yè)務(wù)而言,數(shù)據(jù)分析已經(jīng)從一個輔助手段發(fā)展成為了不可或缺的條件。事實上,我們應(yīng)該說對分析的運用水平導(dǎo)致了業(yè)界同行的分化:有些成為領(lǐng)導(dǎo)者,而另一些則成為追隨者。很難忽視分析在過去十多年中對組織的影響。IBM商業(yè)價值研究院與MIT的斯隆管理評論在一份名為TheNewIntelligentEnterprise(全新的智能企業(yè))的文章中發(fā)布了研究結(jié)果。此文章得出的結(jié)論是,使用分析獲得競爭優(yōu)勢的組織業(yè)績大幅超越其業(yè)界同行的可能性在2倍以上。想想看:分析(具體而言,依賴于大數(shù)據(jù)所作的分析)將幫助您超越競爭對手,因此,如果您的
企業(yè)對大數(shù)據(jù)只是好奇,而競爭對手則不僅僅是好奇,您明白了吧。大數(shù)據(jù)的目的就是更好地分析更廣泛的數(shù)據(jù),并因此代表了在業(yè)內(nèi)同行之間創(chuàng)造更多差異化的機會。這常常是被忽視的一個關(guān)鍵點:從來沒有人通過數(shù)據(jù)存儲中提供一分錢的價值。許多供應(yīng)商都在談?wù)摯髷?shù)據(jù),但除了存儲大量數(shù)據(jù)的能力以外,我們并沒有看到什么,而要想讓這些數(shù)據(jù)變得有意義,讓組織“部署自己的”應(yīng)用程序沒有什么幫助。真正的價值只能出現(xiàn)在消費品分析平臺上,這種平臺讓您不必從頭開始構(gòu)建應(yīng)用程序,有效地將獲得洞察的時間曲線拉平。大數(shù)據(jù)真正的重點是分析。IBM/MIT在TheNewIntelligent發(fā)現(xiàn),自一年前進行的上一次研究以來,試圖使用分析打造競爭優(yōu)勢的企業(yè)的數(shù)量猛增了近60%。這項研究的觀察結(jié)論是,近六成的組織現(xiàn)在通過分析實現(xiàn)了差異化。簡單地說,早期的分析采用者在擴大其領(lǐng)導(dǎo)地位。如果您想成為領(lǐng)導(dǎo)者,就必須充分運用分析,如果您想站在分析的前沿,就必須擁抱大數(shù)據(jù)。進么是大分多年以前,IBM推出了智慧的地球(“物聯(lián)化、互聯(lián)化以及智能化”),這預(yù)示了短短幾年后對IT格局造成巨大沖擊的大數(shù)據(jù)熱潮。我們認為,沃爾瑪對使用無線射頻識別(RFID)標(biāo)簽進行供應(yīng)鏈優(yōu)化的推動是一個非常好的故事,它是大數(shù)據(jù)時代來臨的一個例證。RFID是以機器速度生成可被收集和分析的數(shù)據(jù)的一個出色例子。今天,世界已經(jīng)變得更加物聯(lián)化和互聯(lián)化,這要歸功于包括RFID標(biāo)簽在內(nèi)的很多技術(shù)。RFID技術(shù)的示例包括,在滑道級別或庫存單位(SKU)級別跟蹤產(chǎn)品;跟蹤實時庫存;使用徽章來跟蹤參加會議的人員;監(jiān)測在運輸過程中的食品溫度;跟蹤行李(從我們作為旅客的經(jīng)驗,這方面還有很多改進的余地);監(jiān)測橋梁混凝土結(jié)構(gòu)的狀況;以及監(jiān)控鐵路軌道的熱膨脹度,然后根據(jù)該數(shù)值調(diào)整車速,我們還可以舉出數(shù)千種其他用例。在2005年,估計有13億RFID標(biāo)簽在流通;至2011年年底,這一數(shù)字已上升到300億!現(xiàn)在,考慮到RFID的價格點預(yù)計到2015年會下降到低于1美分,并且已經(jīng)有各種其他傳感和測量技術(shù)可用;事實上,我們此時會討論,我們可以測量這個世界上任何想測量的東西。從物聯(lián)化的角度來看,如今還有什么不包含一定量的編碼嗎?看看您的汽車:這些天,
不給它連接一臺電腦都不能診斷出問題。在如今的硬件網(wǎng)絡(luò)交換機中,軟件代碼比組件更多。最新的航空客運飛機儀表與超過十億行的代碼物聯(lián),這些代碼在每1.5小時的操作中生成每發(fā)動機約10兆兆字節(jié)(TB)的數(shù)據(jù)。讓我們說得更明白一點:從倫敦的希思羅機場到紐約的約翰·F·肯尼迪機場的一次單程飛行將產(chǎn)生大約650TB數(shù)據(jù)!這可能比如今您的倉庫中的數(shù)據(jù)還要多。大部分這些數(shù)據(jù)可能從來都沒有被看過,除非有災(zāi)難發(fā)生。如果經(jīng)濟高效地分析所有這些數(shù)據(jù),想象一下所獲得的效率、潛在的災(zāi)難預(yù)防成果、洞察和業(yè)務(wù)優(yōu)化等其他機會。其中一個重要的企業(yè)差異化因素是捕獲“掉到地板上”的數(shù)據(jù)的能力;此類數(shù)據(jù)可以產(chǎn)生令人難以置信的洞察和結(jié)果,因為它可以豐富在您的組織中正在執(zhí)行的分析手段。數(shù)據(jù)廢氣(Dataexhaust)是我們對此類數(shù)據(jù)喜歡使用的術(shù)語:其數(shù)量巨大(通常每天若干TB),但通常不會深挖它來獲得業(yè)務(wù)洞察。在線店面無法捕獲多個TB的點擊流來執(zhí)行公里”的購物體驗,并且或許也無法了解為什么在線購物籃被放棄。我們可以通過收集并分析堆積如山的數(shù)據(jù)來判斷一個石油鉆井平臺的狀況。也可以分析您最重要的網(wǎng)絡(luò)的日志文件,在故障出現(xiàn)之前就提供相應(yīng)的預(yù)測和預(yù)警的能力,像“大海撈針”一樣找出可能表示下游問題的指標(biāo)。此處有一個“如果”與大數(shù)據(jù)的承諾緊密相關(guān):“如果您能收集和分析所有數(shù)據(jù)”我們喜歡把對所有數(shù)據(jù)進行分析的功能稱為整體分析。這是大數(shù)據(jù)的價值主張之一。此處考慮的是,如果分析程序沒有受限于數(shù)據(jù)的采樣和收集,它們可以做出什么預(yù)測和洞察。如今,許多公用事業(yè)公司的長期計劃中都包括逐漸采用智能電表和電網(wǎng),確保實現(xiàn)可靠的能源供應(yīng),結(jié)合分布式發(fā)電資源,并讓客戶能夠?qū)ζ淠茉词褂梅绞接懈嗟目刂?。很多公司的第一步都是部署智能電表系統(tǒng),這意味著一個直接的技術(shù)挑戰(zhàn):從每月一次電表讀數(shù),變成每15分鐘一次智能電表讀數(shù),可換算為每一百萬個儀表每天產(chǎn)生9600萬次讀數(shù):數(shù)據(jù)收集速率增加了3000倍!您可以想像,如果沒有適當(dāng)?shù)墓芾恚@種數(shù)據(jù)生成速率可能造成沉重的負擔(dān)。當(dāng)然,它也有好處。額外的數(shù)據(jù)開辟了新的機會,讓能源企業(yè)可以做他們以前從來不可能做到的事情。利用智能電表采集的數(shù)據(jù)可以更好地理解客戶的細分和行為,以及預(yù)測定價如何影響使用情況,但前提是這些企業(yè)有能力使用這些數(shù)據(jù)。例如,按使用時間定價鼓勵精于成本計算的能源消費者在非高峰時間運行其洗衣設(shè)施、空調(diào)和洗碗機。不過,機會還不止這些。利用智能電表和智能電網(wǎng)提供的更多信息,有可能改造并極大地提高發(fā)電和調(diào)度的效率。
還有生產(chǎn)消費者的出現(xiàn),這是一個全新的消費者類別,他同時也是生產(chǎn)者。生產(chǎn)消費者通過太陽能電池板發(fā)電,并將電力賣回給電網(wǎng);這樣做在整個供應(yīng)鏈中也產(chǎn)生了連鎖反應(yīng)。通過對其數(shù)據(jù)進行預(yù)測分析,公司可以作出廣泛的預(yù)測,如在銷售和傳輸方面考慮記錄過剩的電力、典型的故障點和電網(wǎng)中斷位置,以及哪些客戶有可能將電力回饋到電網(wǎng),他們可能在什么時候這樣做。現(xiàn)在考慮社交媒體的更多影響。在物聯(lián)化和互聯(lián)化的世界之上的一個社交層也會產(chǎn)生大量數(shù)據(jù)。這些數(shù)據(jù)更復(fù)雜,因為它們大部分是非結(jié)構(gòu)化的(圖像、Twitter內(nèi)容、Facebook帖子、微博評論等)。如果您吃過Frito-LaySunChips,可能還記得它改用世界上第一個可生物降解的環(huán)保型薯片袋;您可能還記得這個包裝有多大聲??蛻魟?chuàng)建了數(shù)千個YouTube視頻來顯示環(huán)保袋有多吵。一個“對不起,這個SunChips袋太吵了,我聽不見你說什么”Facebook頁面有超過50,000個關(guān)注者,但博主讓大家知道了自己的感受。最后,F(xiàn)rito-Lay推出了比較安靜的一款全新SunChips袋,這證明了社交媒體的力量和重要性。多年來,F(xiàn)acebook每三秒鐘就增加一個新用戶,如今,這些用戶每天生成兩位數(shù)TB級的數(shù)據(jù)。事實上,F(xiàn)acebook一天中一般會有超過25億個關(guān)注和30萬次照片上傳。Facebook帖子的格式其實是結(jié)構(gòu)化數(shù)據(jù);ObjectNotation(JSON)格式進行標(biāo)記:{"data":["from":{"name":"PaulZikopoulos","id":"Z12"},"message":"Thinkingofsurprisingmywifewithaqualitytimegiftthatletsherknowshe'sspecial,anyideas?Ithoughtabouttakinghertothedrivingrange,perhapsplayaroundandcaddiemygame.","created_time":"2012-08-02T21:27:44+0000","likes:5,""comments":{"data":[{"id":2847923942_723423423","from":{"name":"MaryAnneInfanti","id":"948574763"},"message":"Paul!Pursesandgold!Costco’sgotaKateSpadepurse
onsalethisweekthatsaysIloveyouwithouthavingtoliftapen.Ifyougowithyouridea,theonlything2012-00-02T11:27:44+0000","likes:64}}這個Facebook帖子是結(jié)構(gòu)化的,雖然這一點是毫無疑問的,但其非結(jié)構(gòu)化的部分才更具有潛在價值;它包含了一個糟糕的計劃意圖,以及強烈建議可能有什么更好計劃的評論。對結(jié)構(gòu)化數(shù)據(jù)進行存儲和分析很容易;但是,要分析其非結(jié)構(gòu)化組件中的意圖、情緒等,這是非常困難的,但它有可能產(chǎn)生非常高的回報,如果……Twitter是另一種現(xiàn)象。這個世界所產(chǎn)生的有關(guān)體育賽事、銷售、圖像、政治等的簡短意見(140個字符以內(nèi))和評論(通常是未經(jīng)篩選的)已經(jīng)達到兩位數(shù)的TB。Twitter也是另一種媒體,提供了格式是結(jié)構(gòu)化的大量數(shù)據(jù),但其結(jié)構(gòu)內(nèi)的非結(jié)構(gòu)化部分才真正保存了大部分未挖掘的價值。看看NoahKravitz(@noahkravitz)的例子,在離開其公司跳槽到競爭對手的公司之前,當(dāng)他在某公司任職時,他有超過25,000名關(guān)注者。而他辭職以后,他的前雇主起訴他,聲稱Kravitz先生的象一下自己成為一宗法庭訴訟的主角)。該案今天仍未有定論,并且肯定將會成為一個先例,但它說明了在Twitter生態(tài)系統(tǒng)中體現(xiàn)的價值,如果不是事實的價值,至少是感知的價值(我們認為是前者)。在今天收集到的數(shù)據(jù)中,大部分在時間和空間上都很豐富。例如,我們知道電視節(jié)目MythBusters的其中一位明星住在哪里——不是因為他告訴過我們,而是因為他在啟用了基于位置的服務(wù)(LBS)的智能設(shè)備上將其汽車的照片發(fā)送到Tweeter上,從而與超過650,000位最親密的朋友共享了他家的地理(緯度/經(jīng)度)坐標(biāo)!大部分人都不知道什么是LBS,但他們都打開了它,因為他們都在使用某些移動地圖應(yīng)用程序?,F(xiàn)在,通過可將地理坐標(biāo)轉(zhuǎn)換成容易識別位置的社交應(yīng)用程序,人們就可以讓您知道他們什么時候去健身房,或者他們在哪家餐廳就餐。此類數(shù)據(jù)往往具有內(nèi)置的位置感知,這代表了實現(xiàn)更精細粒度的個性化或情況風(fēng)險評估的另一個巨大機會,如果……如今,一些大型信用卡公司擁有基于這種方法的計劃供您加入;例如,如果您使用自己的信用卡購買咖啡,他們會分析您的位置(通過LBS)、購買記錄,并提供在您當(dāng)前位置附近的零售商專門為您量身定制的優(yōu)惠活動。時間戳無處不在,包括用您的相機或智能手機拍攝的照片上的自動日期元數(shù)據(jù)、Facebook帖子的發(fā)布時間,您打開智能手機或觀看您最喜愛的節(jié)目的時間等;其實,建立一個生活時間表變得很容易。如果您試想一下,平均來說,英國倫敦的乘客每天從
倫敦市中心回家的路上會拍照150多次,然后將這些照片加上在這段時間框架所產(chǎn)生的各種情緒、時間和空間數(shù)據(jù),您就已經(jīng)獲得了可隨意處置的很多信息——大數(shù)據(jù)信息。為了簡單起見,我們通常使用四個V來定義大數(shù)據(jù),即數(shù)量(volume)、種類(variety)、速度(velocity)和真實性(veracity)。我們最近增加了真實性這個特征,旨在響應(yīng)我們的客戶在其大數(shù)據(jù)項目中開始面臨的質(zhì)量和來源問題。有些分析師還會包括其他基于V的描述符,如變異性(variability)和可見性(visibility),但我們在本次討論中不涉及這些方面。毫無疑問:數(shù)據(jù)的數(shù)量正在增加數(shù)量是明顯的大數(shù)據(jù)特征。在本章的開始,我們就羅列了各種數(shù)量統(tǒng)計資料,這些統(tǒng)計做兩件事情:在引用它們的那一刻就過時了,并且變得更大!我們可以同家庭存儲成本聯(lián)系起來,還記得向朋友吹噓我們花了500美元買回來的新1TB硬盤,它現(xiàn)在大約賣60美元;再過幾年,一個消費品版本的硬盤將只有指甲大小。關(guān)于大數(shù)據(jù)和數(shù)據(jù)數(shù)量的問題是,語言發(fā)生了變化。曾經(jīng)以petabytes(PB)來衡量的總計內(nèi)容,現(xiàn)在要用聽起來像是來自“星球大戰(zhàn)”電影的術(shù)語來形容:個zettabytes是一萬億個gigabytes(GB),(TB)!由于我們在上一節(jié)已經(jīng)提供了一些很好的數(shù)據(jù)數(shù)量的示例,本節(jié)內(nèi)容會比較少,并以引用世界總體的數(shù)字數(shù)據(jù)增長速度來結(jié)尾。在年,我們超過了1ZB,而在2011年年底,這個數(shù)字估計為1.8ZB(我們認為80%是相當(dāng)高的增長速率)。從現(xiàn)在開始的六到七年后,該數(shù)字估計(注意,本書中對未來的任何估計在我們保存草稿的那一刻已經(jīng)過時了,并且偏低)是35ZB左右,相當(dāng)于約四萬億臺8GBiPod的容量!考慮到這是一個偏低的估計,這個數(shù)字仍是驚人的。同樣驚人的是與這個數(shù)量的數(shù)據(jù)相關(guān)的挑戰(zhàn)和機遇。種類是生活的調(diào)味品大數(shù)據(jù)的種類特征的真正目的是嘗試捕獲決策制定流程涉及的所有數(shù)據(jù)。讓非結(jié)構(gòu)化數(shù)據(jù)有意義(例如在Facebook上的意見和意圖想法)或分析圖像,并不是計算機與生俱來的功能。然而,這種數(shù)據(jù)補充了今天我們用于推動決策的數(shù)據(jù)。那里的大部分數(shù)據(jù)都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。(澄清一下,所有數(shù)據(jù)都有一定的結(jié)構(gòu),當(dāng)我們提到非結(jié)構(gòu)化數(shù)據(jù),我們指的是沒有結(jié)構(gòu)的子組件,如在評論字段輸入的自由格式的文本,或自動記錄日期的圖片中的圖像。)
考慮一個客戶呼叫中心;想象一下,如果能夠檢測到一位憤怒的客戶提高聲音說“這是我在一個星期中的第三次中斷!”中的語調(diào)變化,大數(shù)據(jù)解決方案不僅將“第三次”和“中斷”識別為消費者脆弱性的負面趨勢,同時也將語調(diào)變化作為客戶流失事件趨向發(fā)生的另一個指標(biāo)。所有這種洞察都可以從非結(jié)構(gòu)化數(shù)據(jù)中收集到。結(jié)合這種非結(jié)構(gòu)化數(shù)據(jù)與客戶的記錄數(shù)據(jù)和交易歷史(我們熟悉的結(jié)構(gòu)化數(shù)據(jù)),您就擁有了此客戶的一個非常個性化的模型:他的價值、他作為您的客戶的屬性等。(您可以從嘗試非實時地分析已記錄的電話開始這個使用模式,隨著時間的推移讓解決方案逐漸成熟,最終實現(xiàn)實時地分析口頭語言)。IBM業(yè)務(wù)合作伙伴TerraEchos已開發(fā)了一個世界上最成熟的聲音分類系統(tǒng)。該系統(tǒng)用于實時的周邊安全控制;有一千個傳感器埋在地下,以收集和分類所檢測到的聲音,從而根據(jù)分類采取適當(dāng)?shù)男袆?派遣人員、派遣空中監(jiān)視等)。試想由綠地包圍的核反應(yīng)堆周邊出現(xiàn)安全問題。TerraEchos系統(tǒng)可以近乎瞬間地區(qū)分出風(fēng)聲和人聲,或者區(qū)分出一頭鹿跑動的聲音和人的腳步聲。事實上,如果在其保護的森林中有一棵樹要倒下,TerraEchos可以肯定,即使周圍沒有人聽到,它還是發(fā)出了聲音。聲音分類是大數(shù)據(jù)種類特征的一個不錯示例。您的分析能有多快?數(shù)據(jù)的速度我們最喜歡但了解最少的一個大數(shù)據(jù)特征是速度。我們將速度定義為數(shù)據(jù)到達企業(yè)并被處理或充分了解的速率。事實上,我們請客戶問問自己,一旦數(shù)據(jù)到達其企業(yè)的門口:“您需要多長時間才可以處理它,或者知道它已經(jīng)到達?”仔細想想。數(shù)據(jù)的機會成本時鐘在數(shù)據(jù)到達線纜的那一刻已開始計時。作為組織,我們發(fā)現(xiàn)趨勢或者獲得寶貴洞察所花的時間太長了。不論您在什么行業(yè),能夠更迅速地了解和響應(yīng)數(shù)據(jù)信號,都會讓您處于主導(dǎo)地位。無論您想了解交通系統(tǒng)的狀況、患者的健康,還是貸款組合的狀況,更快的反應(yīng)速度都會給您提供一個優(yōu)勢。速度也許是大數(shù)據(jù)熱潮中最容易被忽視的一個領(lǐng)域,并且我們認為,就所提供的功能和成熟度而言,IBM在該領(lǐng)域中是無與倫比的。在如風(fēng)暴一般占領(lǐng)市場的大數(shù)據(jù)熱潮中,每個人都緊盯著靜態(tài)分析,使用優(yōu)化的引擎(如IBMPureDataSystemforAnalytics背后的Netezza技術(shù)或Hadoop)來執(zhí)行以前不可能實現(xiàn)的,至少不會如此大規(guī)模實現(xiàn)的分析工作。雖然這極為重要,但我們必須要問:“您如何對運動中的數(shù)據(jù)進行分析?”此功能有可能為企業(yè)提供最高水平的差異化,但它似乎在一定程度上受到了忽視。IBM是據(jù)平臺的一部分,它提供了實時的流式傳輸
數(shù)據(jù)分析引擎。Streams是一個平臺,可對時間序列數(shù)據(jù)包的連續(xù)流進行快速、靈活和可擴展的處理。在第三部分中,我們將深入您可能會想,復(fù)雜事件處理(CEP,ComplexEventProcessing)系統(tǒng)可以處理速度問題,雖然表面上看來它們可能適用,但在大數(shù)據(jù)世界中,它們的缺點非常明顯。流處理實現(xiàn)跨不同數(shù)據(jù)類型的高級分析,具有非常高的消息數(shù)據(jù)速率和極低的延遲(微秒到秒)。例如,金融服務(wù)行業(yè)(FSS)的客戶每秒分析和關(guān)聯(lián)超過五百萬條市場消息,以執(zhí)行期權(quán)交易算法,其平均延遲為30微秒。另一位客戶分析每秒超過500,000條Internet協(xié)議細節(jié)的記錄(IPDR),每天超過60億IPDR,每年超過4PB的數(shù)據(jù),以了解其網(wǎng)絡(luò)狀況的趨勢和當(dāng)前狀態(tài)。考慮一個企業(yè)的網(wǎng)絡(luò)安全問題。在這個領(lǐng)域,威脅是微秒級的,所以您需要一種能夠響應(yīng)和跟上此速度的技術(shù)。但是,您也需要能夠快速捕獲大量數(shù)據(jù),并對其進行分析,以便在網(wǎng)絡(luò)數(shù)據(jù)包流過網(wǎng)絡(luò)基礎(chǔ)架構(gòu)時確定網(wǎng)絡(luò)數(shù)據(jù)包上新出現(xiàn)的簽名和模式。最后,從治理的角度來看,考慮大數(shù)據(jù)分析速度引擎的額外好處:如果您有一個強大的分析引擎,可以在數(shù)據(jù)流過線纜時將非常復(fù)雜的分析應(yīng)用到數(shù)據(jù)上,您就可以從這些數(shù)據(jù)中搜集洞察,而不必存儲數(shù)據(jù),您可能不必讓這些數(shù)據(jù)受到保留政策的約束,而這可能會為您的IT部門帶來巨額節(jié)省。今天的CEP解決方案可以針對最多約每秒數(shù)萬個消息,延遲為幾秒到幾分鐘。此外,分析大多是基于規(guī)則的,僅適用于傳統(tǒng)的數(shù)據(jù)類型(與前面的TerraEchos示例相反)。不要誤會我們的意思;CEP有其用武之地,但它的設(shè)計點有根本性的差異。CEP是一個面向非程序員的解決方案,供使用簡單規(guī)則的應(yīng)用程序分離“復(fù)雜的”事件。請注意,正在談?wù)摯髷?shù)據(jù)速度的人并不多,因為可以做到這一點的廠商并不多,更不用說集成靜止技術(shù)與實時處理,為企業(yè)目前的投資提供規(guī)模經(jīng)濟效應(yīng)。請參閱圖1-1,仔細考慮您的公司在利用運動、靜止的大數(shù)據(jù)分析平臺時將擁有的競爭優(yōu)勢(第3章將詳細
介紹IBM大數(shù)據(jù)平臺)。您可以看到大數(shù)據(jù)如何流進企業(yè);注意,機會成本時鐘在左側(cè)的那一點就開始計時。通過的時間越長,您擁有的潛在競爭優(yōu)勢越少,并且所獲得的數(shù)據(jù)回報(ROD)也越低。我們覺得這個ROD指標(biāo)將在大數(shù)據(jù)世界中主導(dǎo)未來的IT環(huán)境格局:我們以前談?wù)撏顿Y回報(ROI),它涉及整個解決方案的投資;但是,在大數(shù)據(jù)世界中,ROD是一個粒度更細的指標(biāo),有助于推動未來的大數(shù)據(jù)投資。傳統(tǒng)上,我們使用靜止的解決方案(傳統(tǒng)的數(shù)據(jù)倉庫、Hadoop、圖形存儲等)。圖1-1中右側(cè)的T方框表示發(fā)現(xiàn)和收獲靜止數(shù)據(jù)的分析(在本例中,它是基于文本的情緒分析)。駕馭大數(shù)據(jù)的力量10駕馭大數(shù)據(jù)的力量10IBMIBM軟件PAGE11不幸的是,這是許多供應(yīng)商的大數(shù)據(jù)討論結(jié)束的地方。事實上,許多供應(yīng)商都無法幫助您構(gòu)建分析;他們只能幫助您執(zhí)行它。這是您在IBM大數(shù)據(jù)平臺中可以發(fā)現(xiàn)的一個關(guān)鍵區(qū)別。想象一下,能夠無縫地移動在靜止數(shù)據(jù)中獲得的分析工件,并在數(shù)據(jù)運動發(fā)生時將該洞察應(yīng)用到數(shù)據(jù)(左側(cè)有閃電符號的T方框)。這改變了游戲規(guī)則。它讓分析模型是自適應(yīng)的,是有生命的實體,每一天都會變得更聰明,并在數(shù)據(jù)到達組織的門檻時將所學(xué)習(xí)到的智能應(yīng)用到數(shù)據(jù)。這個模型是周期性的,我們往往將其稱為自適應(yīng)分析,因為這種架構(gòu)具有實時閉環(huán)機制。對靜止數(shù)據(jù)和運動數(shù)據(jù)進行無縫分析的能力,讓您在與傳統(tǒng)倉庫(右)緊密匹配的預(yù)測模型的基礎(chǔ)上有所發(fā)展,并通過現(xiàn)報(nowcast)模型激勵業(yè)務(wù)。重點是將您通過靜止數(shù)據(jù)學(xué)習(xí)到的洞察應(yīng)用到業(yè)務(wù)前沿,因此在它發(fā)生時可以優(yōu)化和理解它。出乎意料的是,企業(yè)完成此自適應(yīng)分析周期的時間越長,獲得的智能就越多。如果您熟悉在觀測的基礎(chǔ)上進行調(diào)整的控制系統(tǒng)或控制理論,這是一個類似的循環(huán)過程。打一個簡單的比方,想想當(dāng)拼圖快完成的時候,甚至只有外
框架時,要完成它都會變得容易得多。在RTAP系統(tǒng)中,您識別和帶給業(yè)務(wù)前沿的資料更多,所感興趣的主題畫面就會越完整,就會越早在周期中擁有它。數(shù)據(jù)在這里,數(shù)據(jù)在那里,數(shù)據(jù),數(shù)據(jù)無處不在:數(shù)據(jù)的真實性真實性是在描述大數(shù)據(jù)時使用得越來越多的一個術(shù)語;它指的是數(shù)據(jù)的質(zhì)量或可信度。協(xié)助處理大數(shù)據(jù)的真實性的工具可將數(shù)據(jù)轉(zhuǎn)換成可信的洞察并丟棄噪音??傮w來講,大數(shù)據(jù)平臺讓企業(yè)有機會分析所有數(shù)據(jù)(總?cè)丝诜治?,并更好地了解業(yè)務(wù)、客戶、市場等。這樣的機會產(chǎn)生了大數(shù)據(jù)難題:雖然刪除數(shù)據(jù)的經(jīng)濟性造成對組織可用的數(shù)據(jù)量激增,但企業(yè)可以理解的數(shù)據(jù)比例卻在下降。更復(fù)雜的是,企業(yè)試圖理解的數(shù)據(jù)已經(jīng)飽和,其中包括有用的信號和大量噪聲(不能被信任,或者是對于手頭的業(yè)務(wù)問題無用的數(shù)據(jù)),如圖1-2所示。我們都親身體驗過這一點;Twitter充滿了垃圾機器人和定向推文的例子,它們是不可靠的數(shù)據(jù)。對組織可用的數(shù)據(jù)信號和噪聲組織可以處理的數(shù)據(jù)墨西哥2012年的總統(tǒng)選舉最終變成了一個Twitter真實性的示例,各種虛假帳戶污染了政治討論,推出貶義的哈希標(biāo)簽等。垃圾郵件對IT界人士并不陌生,但您需要知道,在大數(shù)據(jù)世界中,也可能有大垃圾(BigSpam),您需要有一種方法篩選它,并找出什么數(shù)據(jù)是可信的和不可信的。當(dāng)然,還有需要根據(jù)上下文、術(shù)語等理解的話(我們在第8章討論這個問題)。如前所述,有用的信號嵌入在所有這些噪聲中:某人自稱非常鄙視其目前的智能手機制造商,并開始說需要一臺新手機,這個人在表達一種貨幣化的意圖。大數(shù)據(jù)如此巨大,其質(zhì)量問題是一個現(xiàn)實,而我們一般用“真實性”來指代這個問題領(lǐng)域。事實上,三分之一的業(yè)務(wù)領(lǐng)導(dǎo)者不信任自己用于決策的信息,這是一個強烈的信號,一個良好的大數(shù)據(jù)平臺需要解決數(shù)據(jù)真實性問題。
權(quán)威人士堅持認為執(zhí)行分析的傳統(tǒng)方法已過時。有時,這些NoSQL(其實意味著“不僅僅是SQL)權(quán)威人士們認為,所有的倉庫都會像恐龍一樣絕種——考慮到關(guān)于NoSQL數(shù)據(jù)庫的許多關(guān)注都是如何將SQL接口進行兼容時,這是具有諷刺意味的。沒有什么比這離真相更遠。我們看到了一些專用的引擎和編程模型非常適合于某些類型的分析。例如,Hadoop的MapReduce編程模型更適用于某些類型的數(shù)據(jù),而不是傳統(tǒng)的倉庫。出于這個原因,您將在第3章中了解到,IBM大數(shù)據(jù)平臺包括一個Hadoop引擎(并支持其他Hadoop引擎,如Cloudera)。更重要的是,IBM認識到編程模型的靈活性,所以IBMNetezza)可以在數(shù)據(jù)庫中執(zhí)行MapReduce12駕馭大數(shù)據(jù)的力量程序。在大數(shù)據(jù)時代中真正重要的是,您要選擇一個提供非常適合手頭任務(wù)的專用引擎(您正在執(zhí)行的分析類型、所分析的數(shù)據(jù)類型等)的靈活平臺。該平臺還必須讓您能夠無縫地跨平臺轉(zhuǎn)移編程技能、API和資產(chǎn),這樣,就可以將分析應(yīng)用到針對手上的數(shù)據(jù)進行了優(yōu)化的引擎。例如,IBM大數(shù)據(jù)平臺可以讓您采用通過其AnnotatedQueryLanguage(AQL)構(gòu)建的文本分析,并無縫地將它們從靜止的Hadoop引擎部署到它的Streams大數(shù)據(jù)實時處理引擎。大部分在Hadoop中編碼的MapReduce程序都可以Systemfor行;在IBMpureSystemsforOperationalAnalytics(之前稱為IBMSmartAnalyticsSystem)上生成的SQL報告無需修改就可以forz/OS上??紤]數(shù)據(jù)應(yīng)存儲在哪里時,最好先了解現(xiàn)有數(shù)據(jù)是如何存儲的,以及什么特性是持久性選項的特征。存儲在傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)在進入倉庫前要經(jīng)過大量的處理。一旦數(shù)據(jù)到達倉庫,就預(yù)期它是高質(zhì)量的,然后通過收集、匹配、轉(zhuǎn)換、元數(shù)據(jù)、主數(shù)據(jù)管理、建模和附加到數(shù)據(jù)上的其他質(zhì)量服務(wù)對數(shù)據(jù)進行清理,讓數(shù)據(jù)準備好進行分析。顯然,這可能是一個成本高昂的過程,而進入倉庫的數(shù)據(jù)被視為同時具有高價值和廣泛的用途:它被傳輸?shù)狡渌胤剑⒊霈F(xiàn)在以準確性為關(guān)鍵要求的報告和儀表板中。
與此相反,在一些較新的大數(shù)據(jù)存儲庫中的數(shù)據(jù)很少經(jīng)歷(至少在初期)這種嚴格的預(yù)處理,因為這樣做的成本將會非常高昂,而且這些存儲庫中的工作更多地受限于發(fā)現(xiàn),而不是已知的值。更重要的是,每個存儲庫在不同的應(yīng)用中有不同的特征需求。有些人可能會優(yōu)先考慮應(yīng)用程序的ACID(原子性、一致性、隔離性和持久性)屬性,其他人可能以寬松的一致性狀態(tài)運營,可以容忍BASE屬我們喜歡使用黃金開采來表達大數(shù)據(jù)的機會。在“昔日”(由于某些原因,我們的孩子認為這是我們像他們現(xiàn)在這種年紀的時候),礦工們可以很容易發(fā)現(xiàn)金塊或金脈,因為它們是肉眼可見的。讓我們把黃金比作“每字節(jié)高價值的數(shù)據(jù)”,您可以看到它的價值,因此,您投入資源來提取它。但是,還有更多的黃金,有可能在附近的山上或數(shù)英里之外;肉眼看不見它,試圖找到這些隱藏的黃金變得像賭博游戲一樣。當(dāng)然,歷史上一直有淘金熱的故事,但從來沒有人動員數(shù)百萬人到每個地方都去挖;這樣做成本太高了。如今,礦工的工作方式有所不同。黃金開采利用大規(guī)模的資本設(shè)備,可以處理數(shù)百萬噸的泥土(每字節(jié)低價值的數(shù)據(jù)),以發(fā)現(xiàn)幾乎看不見的金線(黃金的礦石等級通常需要達到30ppm才能用肉眼觀察到)。換句話說,在這些泥土(每字節(jié)低價值數(shù)據(jù))中有大量的黃金(每字節(jié)高價值數(shù)據(jù)),使用合適的設(shè)備,IBMIBM軟件PAGE13駕馭大數(shù)據(jù)的力量PAGE駕馭大數(shù)據(jù)的力量PAGE14就可以經(jīng)濟地處理大量泥土,保留所發(fā)現(xiàn)的金片。金片被處理(也許在數(shù)據(jù)倉庫或其他洞察引擎中處理),熔為金條,最終被存儲和記錄在一個安全、接受治理、有價值和可信的地方。黃金行業(yè)的工作是進行化學(xué)清洗,其目的是發(fā)現(xiàn)粒度更細的黃金,從之前提取的泥土中找到更多價值(現(xiàn)在想想數(shù)據(jù))。我們認為這個比喻非常適合我們的大數(shù)據(jù)故事,因為我們愿意打賭,如果您有一個由十年的交易數(shù)據(jù)組成的資料庫,與目前使用的技術(shù)相比,新的分析方法可以讓您在從現(xiàn)在算起三年的數(shù)據(jù)中提取更多的洞察。此外,如果您看看作為數(shù)據(jù)倉庫和Hadoop存儲庫的特征的訪問模式,就會發(fā)現(xiàn)一個差別,數(shù)據(jù)倉庫的特征往往是讓您能夠與系統(tǒng)進行交互工作并保證響應(yīng)時間。事實上,如“思想速度的響應(yīng)時間”等術(shù)語暫時并不是與批處理系統(tǒng)有關(guān)的描述,目前是和Hadoop有關(guān)。大數(shù)據(jù)平臺讓您可以使用其原生業(yè)務(wù)對象格式存儲所有數(shù)據(jù),并通過產(chǎn)品組件上的大規(guī)模并行處理從中獲得價值。對于交互式查詢需求,您要繼續(xù)選擇來源,清洗數(shù)據(jù),并將它保存在倉庫中。但是您可以通過拉入似乎無關(guān)的信息,形成更可靠的視圖,從大量低保真數(shù)據(jù)中得到更多價值。換句話說,數(shù)據(jù)可以在Hadoop中停留一會兒,當(dāng)其值經(jīng)過驗證并且可持續(xù)時,可以將它遷移到倉庫中。
觀察和發(fā)現(xiàn)之間的差異并不像我們在這里所描述的那樣黑白分明。例如,Hadoop引擎的一個常見用例是向數(shù)據(jù)倉庫提供數(shù)據(jù)庫歸檔服務(wù),將不再“暖”或“熱”的數(shù)據(jù)移到由Hadoop支持的成本較低的存儲平臺。例如,客戶檔案系統(tǒng)保存兩年以內(nèi)的高溫數(shù)據(jù),但在20年業(yè)務(wù)推移的過程中收集到的所有數(shù)據(jù)可能仍有價值。保險公司可以受益于了解您的檔案,看看您如何從單身發(fā)展為已婚,然后又有了孩子,保險公司同時還會考慮目前的趨勢或事件(尤其是理財產(chǎn)品組合)。當(dāng)然,查詢API的可移植性在這種場景中很關(guān)鍵;例如,在訪問被遷移到Hadoop的冷數(shù)據(jù)(IBM大數(shù)據(jù)平臺可以讓您做到這一點)時,不必重新編寫基于SQL的應(yīng)用程序代碼。另一個示例,也是大數(shù)據(jù)平臺的要求,是SQL和NoSQL世界之間的集成。在您的關(guān)系型倉庫中可能有一個消費者脆弱性作業(yè)在運行,但您選擇啟動一個基于Hadoop的品牌情緒作業(yè),它可能會影響最后的脆弱性評估。在同一時間,您可能在運行對TB級的點擊流日志數(shù)據(jù)進行分析的Hadoop作業(yè),并且想從記錄系統(tǒng)中提取采購信息,以了解還有什么其他因素導(dǎo)致人們成功購買或放棄過去的在線購物車中的商品。(現(xiàn)在試想一下,如果您可以在人們將商品放入購物車時將這種邏輯應(yīng)用到購物車)。傳統(tǒng)引擎和新的數(shù)據(jù)處理引擎(Hadoop和其他引擎)將成為一個組織的左膀右臂。關(guān)鍵是確保您的大數(shù)據(jù)平臺供應(yīng)商可以提供支持同時使用這對臂膀的集成技術(shù)。最后一個比喻,想想棒球運動員。一位典型的棒球運動員非常強壯,用一只手投球,用另一只手接球;大腦協(xié)調(diào)四肢的活動,以獲得最佳的戰(zhàn)績。如果一位棒球手試著使用他非慣用的手來投球或接球,他也許能夠做到這一點,但不會很流暢、干脆,看起來也不會非常專業(yè)。除了只有一只手的某些專業(yè)棒球選手(例如JimAbbott,),您其實不會看到棒球球員接完球后脫下手套用同一只手來投球。這是NoSQL和SQL的比喻;它們各自都針對特定任務(wù)和數(shù)據(jù)進行了優(yōu)化,用兩只手打球非常重要。
小結(jié)在本章中,我們提供了一個總體框架,您可以用它來識別大數(shù)據(jù)。我們解釋了可以從該框架獲得的增強分析功能代表著一個轉(zhuǎn)折點。我們使用數(shù)量、種類、速度和真實性這四個術(shù)語,讓您用一種容易記住的方式來理解和分類大數(shù)據(jù)機會。大數(shù)據(jù)時代的重點是通過專用的大數(shù)據(jù)平臺加強分析,該平臺引入了全新的方法和技術(shù),并讓它們與同樣重要的且目前已經(jīng)在運行的傳統(tǒng)解決方案協(xié)同工作。因此,大數(shù)據(jù)討論從未以“讓我們遷離目前的倉庫技術(shù)”開始。這些方法彼此補充,就像協(xié)調(diào)多種技能,表現(xiàn)非常出色的運動員一樣,IBM大數(shù)據(jù)平臺也會推動各種讓您獲得成功和實現(xiàn)業(yè)務(wù)差異化的大數(shù)據(jù)措施。2本章的標(biāo)題描述了我們要介紹的內(nèi)容:如何應(yīng)用大數(shù)據(jù)來幫助您解決業(yè)務(wù)問題。我們將使用多個精選的用例,以及對配合大數(shù)據(jù)使用的機制進行評論,從而闡述大數(shù)據(jù)提高業(yè)務(wù)績效和解決以前難以逾越的(或極大地簡化了困難的)問題的能力。我們將涉及如何幫助客戶開發(fā)新的應(yīng)用程序,可以使用哪些潛在方法來解決以前困難的挑戰(zhàn)。我們還將討論全新的做事方式如何從根本上改變解決問題的方法。您是否受限于目前的平臺或環(huán)境,因為您無法處理自己想處理的數(shù)據(jù)量?您是否希望在分析范式中包含新的數(shù)據(jù)源,但卻無法實現(xiàn),因為在不犧牲數(shù)據(jù)的保真度或豐富性的情況下,它無法融入模式所定義的行和列?您是否需要盡快攝取數(shù)據(jù),并需要使用一個按需模式(schema-on-demand)的范式?您是否被迫使用一個寫時模式(schema-on-write)的方法(在加載數(shù)據(jù)之前,必須創(chuàng)建模式),但需要快速攝取數(shù)據(jù),或者在一個發(fā)現(xiàn)流程中,您希望獲得讀時模式(schema-on-read)方法的成本優(yōu)勢(數(shù)據(jù)只是被復(fù)制到文件存儲,并不需要進行特殊的轉(zhuǎn)換),直到您知道自己已經(jīng)獲得可隨時進行分析的東西?數(shù)據(jù)是否太快到達您的門檻,讓目前的分析
平臺來不及處理?如果您對上述任意一個問在第1章中,我們概述了可以幫助您找到大數(shù)據(jù)的特征(速度、數(shù)量、真實性和種類)。我們還指出,您可能聽說過的大部分全新大數(shù)據(jù)解決方案更有可能是補充性的,而不是替代您目前的分析平臺(如可信的數(shù)據(jù)倉庫)??傊@種補充性的方法可以幫助您提高公司的大數(shù)據(jù)IQ。讓我們從一個很好的示例開始,看看我們?nèi)绾卫么髷?shù)據(jù)技術(shù)幫助解決業(yè)務(wù)問題。我們幫助一家金融服務(wù)行業(yè)(FSS)的大型公司了解為什么他們遇到了日益增加的減員和客戶流失率。我們首先研究了來自其客戶服務(wù)中心的整整一個月的電子郵件(約4千萬條消息)。在本例中,從任何角度來看,所存儲的數(shù)據(jù)量都不大,但我們?nèi)匀皇褂昧薎BMInfoSphereBigInsights(BigInsights),這是IBM非分支的Hadoop發(fā)行版,因為執(zhí)行分析需要強大的計算能力。還需要另一種方法快速、準確地咀嚼電子郵件。此外,我們不知道會發(fā)生什么,所以我們希望在規(guī)模、信息類型,以及我們可用于執(zhí)行分析的方法方面具有最高的靈活性。我們還不知道我們會發(fā)現(xiàn)什么,并且我們需要“進入”其他數(shù)據(jù)源來獲取洞察的靈活性;在本例中指Web瀏覽行為、結(jié)構(gòu)化的會計數(shù)據(jù),以及帳戶的績效歷史記錄。這種靈活性往往是解決問題和推進項目的關(guān)鍵。我們以這個示例開始,因為它突出了一些常見的并且反復(fù)出現(xiàn)的用例模式。特別是,該用例提供了以下模式的示例:?需要從小規(guī)模歷史記錄(月)改變?yōu)閿?shù)年?包括混合的信息類型,在本例中是結(jié)構(gòu)化的帳戶歷史記錄與電子郵件?跨系統(tǒng)的工作流,需要用不同于最初數(shù)據(jù)準備時的一種腳本語言來完成特定文件的導(dǎo)出格式化工作?利用計算密集型的NLP(自然語言處理)和機器學(xué)習(xí)技術(shù)。當(dāng)然,在此用例中完成的工作所帶給我們的挑戰(zhàn)似乎每次都會出現(xiàn),最終我們建議您使用一種大數(shù)據(jù)解決方案,具體如下:?大數(shù)據(jù)解決方案不僅非常適合于分析原始的結(jié)構(gòu)化數(shù)據(jù),也非常適合于分析多種來源的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),我們的洞察來自所有這些來源的交集。?如果您不滿意算法或模型的有效性;需要對所有或大部分數(shù)據(jù)進行分析;數(shù)據(jù)采樣不具備同等有效性,大數(shù)據(jù)解決方案都是理想的。如果您不滿足于只是對數(shù)據(jù)進行采樣,還想看看每一次交互,因為您認為它會帶來競爭優(yōu)勢(這就是我們在第1章談到的總?cè)丝诜治龅闹黝}),大數(shù)據(jù)解決方案也是有幫助的。
?如果有關(guān)數(shù)據(jù)的業(yè)務(wù)措施不是預(yù)先確定的,大數(shù)據(jù)解決方案對于迭代和探索性分的學(xué)習(xí)方法。?如果您無法完全確定調(diào)查將帶您去哪里,并且希望獲得計算、存儲和將要進行的分析類型(隨著我們增加更多的資源和新方法,這一切都會變得有用)等方面的彈性,大數(shù)據(jù)解決方案是理想的。此外很重要的并且真正重要的是:注意我們擴充了現(xiàn)有的分析投資的能力。在大多數(shù)情況下,淘汰和更換是不恰當(dāng)?shù)?;相反,與我們合作的客戶希望增加其現(xiàn)有投資的收益。在此客戶案例中,我們使用了一個大數(shù)據(jù)解決方案,以利用不適合其傳統(tǒng)數(shù)據(jù)倉庫環(huán)境的數(shù)據(jù),以及我們從倉庫所知道的信息。大數(shù)據(jù)技術(shù)也非常適合于應(yīng)對本身無法用傳統(tǒng)關(guān)系型數(shù)據(jù)庫方法處理的信息挑戰(zhàn)。重要的是要明白,傳統(tǒng)的數(shù)據(jù)庫技術(shù)是至關(guān)重要和必不可少的,是整體分析解決方案的一部分。事實上,在與大數(shù)據(jù)平臺結(jié)合使用時,它們變得更加重要。我們常說:“大數(shù)據(jù)不只是Hadoop?!痹掚m如此,有些問題無法通過傳統(tǒng)數(shù)據(jù)庫解決,至少在開始時做不到。有些數(shù)據(jù)是我們無法肯定是否希望保留在倉庫中的,因為我們不知道其價值是否豐富——它是非結(jié)構(gòu)化的,它的數(shù)量過于龐大,也許其保質(zhì)期太短,或者要知道如何規(guī)范化其結(jié)構(gòu)可能言之尚早。:大察在深入討論用例之前,讓我們談?wù)劷鉀Q問題的大數(shù)據(jù)方法如何比常規(guī)方法更有效。在閱讀本節(jié)之前,我們會要求您考慮以下兩個問題:“在處理大數(shù)據(jù)時,尋找模式是更容易還是更困難?”和“隨著數(shù)據(jù)量和速度的增加,發(fā)現(xiàn)異常值是更容易還是更難?”在閱讀本節(jié)之前先考慮一下答案,然后在閱讀完本節(jié)后回答這些問題。首次打開2000塊的拼圖盒,并將其中的拼圖塊全部拿到桌上時,所有拼圖塊都混在一起。通過應(yīng)用一些基本的分組,您可以很輕松地找到直邊和角部的拼圖塊,組成拼圖的外框。完成拼圖的外框后,仍然有大約1,900塊要填充進去;和數(shù)據(jù)一樣,需要使用分析來完成整個圖片。您可以將這個簡單的模式匹配視為傳統(tǒng)的報告,它側(cè)重于可預(yù)見的、形狀整齊的數(shù)據(jù),可以輕松地將它們組合在一起并進行排序。如果打開拼圖盒時,所有的邊界形狀都包裝在一個單獨的袋子里,而所有黃色圖塊也都放在專用的袋子中,諸如此類,那么完成這個拼圖不會很難。但是,拼圖并不是這樣包裝的,數(shù)據(jù)也不是這樣到達您的門檻的。讓我們假設(shè)此時您已經(jīng)在拼圖上花了幾個小時。外框已經(jīng)完成,中間也正在成形。您可以看到部分圖片。拼圖的哪種狀態(tài)包含更多數(shù)據(jù)?在將它從盒子中倒出來,變成一堆圖
塊的時候,還是在您可以看到一些(但不是全部)圖片的時候?我們猜想,很多人最初會覺得兩者都含有相同數(shù)量的數(shù)據(jù)——畢竟,拼圖塊的總數(shù)并沒有改變。但數(shù)據(jù)并不只是有多少行,或有多少PB信息;它與上下文和理解有關(guān)。實際上,隨著拼圖慢慢成形,我們能更好地理解問題領(lǐng)域。我們可以進行推理,發(fā)現(xiàn)關(guān)系,這可為我們提供豐富得多的信息。也就是說,即使我們有相同數(shù)量的拼圖,但我們現(xiàn)在要管理更多的數(shù)據(jù)(和元數(shù)據(jù))。讓我們來解釋一下:就像數(shù)據(jù)組合在一起可以產(chǎn)生更多洞察一樣肯定的是,必須對新的關(guān)系和模式進行管理(這不一定和拼圖有關(guān)系)。因此,在拼圖完成35%時,比剛剛將它倒出盒子時有更多的信息,這是很客觀的。雖然大家最初都認為處理更多的數(shù)據(jù)會更難、更具挑戰(zhàn)性,但隨著模式的發(fā)現(xiàn),更多的數(shù)據(jù)會讓問題更容易解決。現(xiàn)在,假設(shè)有人在您不知情的情況下扔進了來自另一個拼圖的一些圖塊。(本實驗來自IBM的實體分析首席科學(xué)家JeffJonas;他的研究主體是毫無戒備之心的家人和朋友。要提防Jeff會在晚飯后搞亂一個拼圖呀。)面對其中有5%無法拼起來的一堆拼圖塊,什么時候會比較容易哪些拼圖塊不屬于這個拼圖呢?在最初的圖塊堆中,還是在某些圖塊已經(jīng)被放好的時候?當(dāng)然,已放好的圖塊有助于說明模式,讓我們更容易找到那些外來者,并通過消除這些外來者更輕松地解決剩下的拼圖。有更多的數(shù)據(jù)讓我們更容易找到外來者。仔細想想:拼圖越完整,就越容易識別模式,越容易找出外來者(另一個拼圖的圖塊)??纯唇M織如何可以充分利用更多的數(shù)據(jù)?現(xiàn)在讓我們假設(shè),我們要求您解決世界上最大的拼圖,它有32,256塊(由RavensburgerAG在2010年制作)。兩個人需要多久才能完成?如果我們增加兩個人(處理器),并向他們安排互補但不同的任務(wù),如尋找其中包含臉部元素的作品,這又需要多久才能完成呢?如果我們再增加另外兩個人,他們唯一的任務(wù)就看看拼圖的另一個獨立部分,以此類推?您應(yīng)該明白了吧,這正是我們使用機器向外擴展工作的方式,而不是依靠數(shù)量有限的處理器?,F(xiàn)在,我們希望您開始明白為什么新的大數(shù)據(jù)技術(shù)對于完成拼圖如此重要,拼圖就相當(dāng)于下一個最佳報價、下一個最佳行動、治愈一種疾病等。我們無法開始揣測有多少塊數(shù)據(jù)屬于大數(shù)據(jù)時代拼圖的一部分,所以需要向外擴展、機器學(xué)習(xí)和大規(guī)模分析系統(tǒng)來確定其邊緣,對數(shù)據(jù)塊進行排序和分組,并發(fā)現(xiàn)模式。您可能想知道在本節(jié)開始時我們要您考慮的問題的答案;現(xiàn)在我們的答案很可能與您的答案是一致的——更快、更輕松。利用大型數(shù)據(jù)集的解決方案往往比受限于較小數(shù)據(jù)集的解決方案更有幫助。
大數(shù)據(jù)用例:大數(shù)據(jù)部署的模式我們討論過在本章中要介紹哪些用例,我們試圖找出哪些行業(yè)沒有適合大數(shù)據(jù)的用例。當(dāng)有人脫口而出“DJ行業(yè)”時,我們認為找到了優(yōu)勝者,但之后,在BigDataU有一個學(xué)生將他的整個音樂收藏放進BigInsights,隨后對他的音樂文件構(gòu)建了一些很酷的分析,包括面向音樂基因組學(xué)的應(yīng)用程序。講了這么多如何使用該方法縮小范圍,這導(dǎo)致我們選擇的用例可以幫助您挖掘常見并且在各行業(yè)都會出現(xiàn)的模式。例如,接觸新的數(shù)據(jù)類型并在數(shù)據(jù)流離開裝配有傳感器的采集單元時應(yīng)用分析,這樣做可以獲得對交通系統(tǒng)、網(wǎng)絡(luò)、新生兒健康、貸款賬項估值等的洞察。此處詳述的使用模式涉及BigInsights、IBMInfoSphereStreams(Streams),以及新時代的大數(shù)據(jù)引擎與傳統(tǒng)倉庫的組合,如IBMPureDataSystemforAnalytics(前身為Netezza)或IBMPureDataSystemforOperationalAnalytics平臺。在我們介紹的所有用例中都有一個共同的趨勢:它們都涉及到利用大數(shù)據(jù)平臺,以更實用(并且現(xiàn)在終于成為可能)的全新方式來做事情。您花了錢實現(xiàn)物聯(lián)化—現(xiàn)在充分利用它吧!在第1章中,我們?yōu)槟榻B了各種指標(biāo)和示例,說明我們的世界物聯(lián)化程度有多高:從橋梁,到路軌、牲畜、會議徽章、跑步鞋等,這個世界幾乎可以在任何地點、任何時間從任何東西處收集某種數(shù)據(jù)。以一個典型的石油鉆井平臺為例子,它的主這些傳感器都以流式方式傳輸有關(guān)石油鉆井的狀況、作業(yè)質(zhì)量等方面的數(shù)據(jù)。并不是每個傳感器都全天候主動廣播數(shù)據(jù),但也有一些傳感器每秒要報告多次?,F(xiàn)在猜一猜主動利用這些傳感器的比例有多少。如果您認為在10%(甚至5%)的范圍內(nèi),您要么很會猜,要么已經(jīng)了解跨越行業(yè)和用例反復(fù)出現(xiàn)的大數(shù)據(jù)主題:客戶在其決策制定過程中并沒有使用為他們提供的所有數(shù)據(jù)。當(dāng)然,涉及到能源數(shù)據(jù)(或該主題的任何數(shù)據(jù))的收集率時,它確實引出了一個問題:“如果您費盡力氣物聯(lián)化用戶、設(shè)備或鉆機,從理論上講您是有意這樣做的,那么,為什么您不捕獲并充分利用所收集的信息呢?”在這種使用模式中,重點是對所獲得的靜止數(shù)據(jù)應(yīng)用分析,并將分析結(jié)果應(yīng)用于運動中的數(shù)據(jù),從而更好地理解該領(lǐng)域。TheUniversityofOntarioInstituteofTechnology(UOIT)首席研究員(CarolynMcGregor博士)與多倫多的TheHospitalforSickChildren進行合作,找到一種更好的方法來預(yù)測可影響新生嬰兒某種特定院內(nèi)傳播疾病的發(fā)病情況。您可以想象這些脆弱的嬰兒被連接到持續(xù)收集數(shù)據(jù)的機器會是什么樣。有些醫(yī)院記錄每小時或每半小時的讀
數(shù),并在72小時左右后丟棄;從而沒有能力發(fā)現(xiàn)靜止數(shù)據(jù)中的趨勢,并以更精細的水平將分析應(yīng)用到運動中的數(shù)據(jù)。UOIT的首席研究員CarolynMcGregor博士利用了IBM的Streams技術(shù)創(chuàng)建一個運動數(shù)據(jù)分析平臺,每秒分析超過1,000條獨特的醫(yī)療診斷信息。想象一下,120名嬰兒的傳感器數(shù)據(jù)量,這就相當(dāng)于每秒分析12萬條消息,每天分析1.788億條消息!您可以在Web上找到有關(guān)這個美妙成功故事的詳細信息(搜索“IBMdatababy”)?,F(xiàn)在,想想將這種方法擴大到門診患者,他們掛上一個傳感器,可以隨時了解他們的日?;顒?,或監(jiān)控有可能進入慢性疾病狀態(tài)的人。簡單來說,大數(shù)據(jù)有可能改變游戲規(guī)則,也有可能成為生命的救星??纯催@個世界有多少東西是物聯(lián)化的,因此傳感器數(shù)據(jù)是驚人的(電網(wǎng)、石油鉆井、交通流量、收費路線等),這意味著它們的意圖是收集數(shù)據(jù):大數(shù)據(jù)現(xiàn)在讓您可以對數(shù)據(jù)進行一些處理。IT對IT:數(shù)據(jù)中心、機器數(shù)據(jù)和日志分析基于Hadoop的日志分析已成為一種常見用例,但是,這并不意味著其部署如預(yù)期般廣泛。日志分析實際上IBM與多家公司合作后建立的一個模式,最初在FSS中建立。之后,我們看到這種用例出現(xiàn)在各個行業(yè);因此,我們將這個模式稱為ITforIT(IT對IT)。駕馭大數(shù)據(jù)的力量PAGE駕馭大數(shù)據(jù)的力量PAGE20IBMIBM軟件PAGE21通過大數(shù)據(jù)得到充實的“IT對IT”可以幫助客戶更好地了解其系統(tǒng)如何運行,各部分何時以及如何被拆分。例如,某金融公司將搞清楚應(yīng)用程序如何運行的傳統(tǒng)方式親切地稱為“打鼴鼠”。當(dāng)在其嚴重依賴于SOA的環(huán)境中發(fā)生了問題,總是很難確定到底發(fā)生了什么事,因為一個給定交易的處理涉及超過20個系統(tǒng)。(我們都看過這部電影,每個人都在作戰(zhàn)室跑來跑去,嚷嚷著“不是我做的!”那部電影里還有一個場景,每個人的手指都指向……您!)我們使用該模式幫助的其中一個客戶最終獲得了每天分析大約1TB日志數(shù)據(jù)的能力,其時延不到5分鐘(這個用例同樣適用于更大或更小的日志生成速率)。如今,該客戶能夠破譯在其整個IT體系的每一個交易中到底發(fā)生了什么。如果他們的客戶從其移動銀行或網(wǎng)上銀行站點發(fā)起某個交易失敗了,他們可以說出發(fā)生失敗的確切位置,以及是什么組件造成了這個問題。正如您可以想像的,這拉平了解決時間指標(biāo)。此客戶可以利用他們從靜止數(shù)據(jù)中獲取的洞察,并充分利用Streams對其網(wǎng)絡(luò)的狀況進行的實時調(diào)查。例如,如果在Hibernate(休眠)層中內(nèi)存堆的不斷消耗與應(yīng)用服務(wù)器中的堆棧溢出密切相關(guān),能夠在這個問題的起源發(fā)現(xiàn)它就可以保住交易或防止網(wǎng)絡(luò)中斷。例如,我們其中一個電信客戶使用Streams實時分析機器數(shù)據(jù),以發(fā)現(xiàn)行為異常的、損害網(wǎng)絡(luò)的移動計算應(yīng)用程序,從而讓有問題的
應(yīng)用程序可以被終止。有時候,我們喜歡將因運營IT解決方案而生成的所有日志和跟蹤數(shù)據(jù)稱為數(shù)據(jù)廢氣。企業(yè)有大量的數(shù)據(jù)廢氣,像任何污染物一樣,它就會被丟棄,因為它被視為廢物。日志數(shù)據(jù)往往與高存儲成本緊密聯(lián)系在一起。然而,日志中包含了大量潛在的洞察,不僅僅關(guān)于您的服務(wù)器現(xiàn)在發(fā)生了什么事,還關(guān)于將要發(fā)生什么事。仔細考慮一下,組織如何編制基礎(chǔ)架構(gòu)預(yù)算。您愿意認為它是基于事實的,但這是真的嗎?您是否有一個清晰的跨端到端平臺的系統(tǒng)利用率視圖,其中包括趨勢?您是否了解在各團體和部門間的季節(jié)性因素和其他活動的影響?我們能夠向我們的其中一個客戶證明,他們計劃采購新服務(wù)器所依據(jù)的峰值負載量,其實可以利用現(xiàn)有的空閑系統(tǒng)來處理。我們幫助他節(jié)省了數(shù)百萬美元,結(jié)果在第一年就獲得了三位數(shù)的投資回報率。我們幫助另一個客戶建立一個集中式的日志信息交流中心,而不是讓每個子小組部署自己的解決方案。該客戶在為期兩周的窗口中存儲日志,然后刪除它們以規(guī)避存儲成本。依賴于這些系統(tǒng)的部門和應(yīng)用程序開發(fā)團隊知道日志將被刪除,因此會獲得這些日志并將其放在昂貴的SAN上。沒有企業(yè)范圍的保留策略,各部門使用日志的方式也沒有一致性。當(dāng)我們思考這種情況時,是很諷刺的。這些日志被刪除,是因為它們產(chǎn)生了存儲費用,但它們最后以一式三份(或更多)的形式被放在沒有計劃好刪除機制的昂貴SAN上。該客戶使用BigInsights創(chuàng)建一個集中式日志信息交流中心,并實現(xiàn)了超過一百萬美元的節(jié)省。具體來說,他們在BigInsights存儲上滾動保留策略;在這段時間之后,日志的保留價值不大。但是,他們并沒有就此停止?,F(xiàn)在,日志都在一個地方,并且保留一段合理的時間,讓他們能夠確定整體的趨勢和問但該用例并不僅僅要說明檢測問題。該客戶目前正在整理大量知識,讓他們能更好地預(yù)測失敗,并理解失敗之間的相互作用。他們的服務(wù)部門可以針對具體問題生成最佳實踐補救措施,或調(diào)優(yōu)基礎(chǔ)架構(gòu)來消除問題。這就是可發(fā)現(xiàn)的預(yù)防性維護。我們的一些大型保險公司和零售客戶需要知道“失敗的前兆是什么?”或“這些系統(tǒng)之間有何關(guān)系?”等問題的答案。這些是傳統(tǒng)的監(jiān)控?zé)o法回答的問題類型;大數(shù)據(jù)解決方案最終讓您有機會對手頭上各種問題實現(xiàn)更好的新洞察。什么、為什么和誰?社交媒體分析也許人們談?wù)摰米疃嗟拇髷?shù)據(jù)使用模式涉及社交媒體和客戶情緒分析—它也可能被過分夸大和誤解。雖然大數(shù)據(jù)可以幫助您找出社交媒體分析是一個相當(dāng)熱門的話題,但我
們已經(jīng)開始看到“買方疲勞”,因為目前的實踐沒有支持有關(guān)該用例的不斷炒作。簡單地說,人們說或想什么,與為什么他們會這樣說和這樣想,這之間有很大的區(qū)別。您的社交媒體大數(shù)據(jù)分析項目試圖回答“什么”和“為什么”,提供您所追求的分析收益。最近,我們能夠識別出專門針對我們所幫助的一家金融公司的一些負面議論。我們想找出一開始為什么會出現(xiàn)負面議論,為什么人們會進入使用技術(shù)來傳播這種消極情緒的狀態(tài)?更重要的是,這是否會影響銷售,可以做些什么來改善這種情況,如果有一種特定的響應(yīng)可以改善情況,我們又如何知道?我們將這稱為閉環(huán)分析。如果您只是聽見人們說什么,但不具備對信息進行分析并作出相應(yīng)反應(yīng)的能力,您的行動很大程度上仍然是盲目的。了解為什么人們這樣評論您的組織,這包括與之相關(guān)的一切:宣傳、產(chǎn)品組合、價格變化、政策變化、市場營銷、企業(yè)社會責(zé)任,以及最初促成消費者意見的一系列其他活動。還有一個少數(shù)企業(yè)正在談?wù)摰幕疽?您需要在相同的分析管道中結(jié)合外部和內(nèi)部的信息流。這就是您開始獲得真正的洞察和實現(xiàn)提升的地方;事實證明,只有很少的(如果有的話)外部服務(wù)提供社交媒體產(chǎn)品來做到這一點,因為他們不能處理內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)來源,或者他們?nèi)狈⒍呓Y(jié)合起來的分析——IBM大數(shù)據(jù)平臺可以做到這一點。了解客戶情緒某些行業(yè)或產(chǎn)品的客戶并不忠誠,具有非常高的流失率。我們曾與一家電信公司合作,該公司經(jīng)歷了每年50%以上的客戶流失。他們希望在計費周期中更早地識別出哪類客戶是最脆弱的,從而提高保留率。對于這個客戶,即使其用戶轉(zhuǎn)換到更穩(wěn)定計劃的比率有很小的提高,也可讓他們其中一個產(chǎn)品的收入流增加一倍。很簡單,他們并不需要一個本壘打才會取得更大的成功;他們只是需要一個二壘安打。當(dāng)然,通常說起來容易,做起來難,但是,機會對于客戶而言轉(zhuǎn)瞬即逝。處理這種級別的流失率和大量的數(shù)據(jù)時,能夠?qū)崿F(xiàn)數(shù)據(jù)發(fā)現(xiàn)、捕獲、響應(yīng)和互動就是一個不小的挑戰(zhàn)。實現(xiàn)這一點的關(guān)鍵是,能夠檢測到忠誠度在下降,并在與客戶的下一次聯(lián)系之前將它融入到您的客戶協(xié)議和下一個最佳行動模型中。這樣做不能算實時處理,而是我們所說的客戶時間??蛻魰r間只是一個概念,在下一次客戶互動之前能夠處理所需的一切,讓它在客戶的眼中是無縫的。然而,隨著智能手機的普及,客戶時間越來越接近于實時,因為總是有機會讓他們了解情況,例如發(fā)送電子郵件、文本信息或優(yōu)惠。除了在客戶時間內(nèi)操作,此用例提供了另一個示例來說明捕獲所有可用信息的價值,以觀察有助于建立上下文的事件。在您捕獲一個方面的通信內(nèi)容后,就可以繼續(xù)到下一個
方面,并開始將它關(guān)聯(lián)到從電子郵件到社交媒體及我們已經(jīng)在本章討論過的其他東西;您甚至可以將它關(guān)聯(lián)到后端辦公服務(wù)質(zhì)量報告,根據(jù)您的后端系統(tǒng),看看是否有人致電并表示對您的不滿。如果能夠識別出那些表明您的系統(tǒng)速度較慢或行為異常的模式,而且這恰好是某個特定用戶致電取消服務(wù)而沒有明確提到的原因,您就可以同客戶所說的內(nèi)容建立關(guān)聯(lián)。事實上,我們其中一個FSS客戶的目標(biāo)之一是在他們跟您談話之前,就深入了解為什么您要打電話,讓他們能夠預(yù)先解決您的問題,并將修補計劃告知您,而不是與您談?wù)搯栴}!我們相信,您可能對以下場景深有體會:您在電話中斷兩次后致電服務(wù)提供商的客戶服務(wù)部門。您必須重新進行身份驗證,然后向另一位座席代表重復(fù)整個故事,因為當(dāng)您的電話出現(xiàn)中斷問題時,原來的座席代表還沒有完成記錄?,F(xiàn)在想象一下,再次打電話過去并聽見座席代表說,“很抱歉,我們的電話有些問題,并注意到您已經(jīng)被中斷兩次。我很抱歉,我必須對您重新進行身份驗證,但我理解為什么您打電話過來,以下是我們可以做的,以幫助解決這個問題……”我們愿意打賭,這種回答可能會超出您的期望。另一個示例:有多少次您致電Internet服務(wù)提供商投訴您的高速Internet服務(wù),而得到的印象卻只是客戶服務(wù)代表(CSR)的工作是讓您覺得自己并不重要,并盡快讓您掛斷電話?從業(yè)務(wù)的角度來看,您必須知道提供商是否真的捕獲了服務(wù)問題。也許處理電話的座席代表填寫一個表單,概述基本的服務(wù)投訴,但它會與顯示系統(tǒng)運行情況的時間點定量報告有什么關(guān)聯(lián)嗎?如果您有一個大數(shù)據(jù)平臺,您可以獲得洞察和并在投訴出現(xiàn)之前預(yù)測問題。在Internet服務(wù)的情況中,服務(wù)質(zhì)量(QoS)的測量很簡單—該供應(yīng)商的技術(shù)支持部門是否分析Internet協(xié)議的詳細記錄(IPDR),從而了解網(wǎng)絡(luò)的狀況,然后每當(dāng)城市的某一部分存在QoS問題時就會提醒客戶服務(wù)部門?誠然,之前的場景對于今天的呼叫中心來說是非常先進的,但在大數(shù)據(jù)世界中,它還有成長的空間,如音調(diào)變化或文本分析,以識別憤怒的情緒(“我已經(jīng)第三次打電話了!”)或進行實時關(guān)聯(lián),以識別情緒的趨勢,確定如何在呼叫中心將趨勢與其余的業(yè)務(wù)操作相關(guān)聯(lián)。如果您需要解釋這是第三次不得不致電來投訴同一個問題,即使您選擇使用不同的渠道,與供應(yīng)商之間的所有交互不是都應(yīng)該反映出這一點嗎?了解客戶情緒是一個非常有趣的大數(shù)據(jù)用例,因為可將其應(yīng)用到目前有可能出現(xiàn)的所有數(shù)據(jù)上(對運動或靜止的數(shù)據(jù)使用分析),也可以應(yīng)用到新出現(xiàn)的功能。您可以使用其中一個IBM大數(shù)據(jù)平臺靜止分析引擎(如BigInsights)發(fā)現(xiàn)和構(gòu)建自己的模型,并獲得業(yè)務(wù)洞察。然后可以選擇繼續(xù)使用靜止
分析,用低得多的延遲獲得電話交互,或者構(gòu)建這些模型,然后將它們重新提升到業(yè)務(wù)前沿,使用Streams研究和分析電話內(nèi)容并盡快轉(zhuǎn)換它們,以近乎實時地獲得洞察。這將業(yè)務(wù)從預(yù)測(我們認為,如果……客離開,因為……)。Streams分析的結(jié)果流回社交媒體技術(shù)讓您隨心所欲在前面的章節(jié)中,我們談到了社交媒體分析,說起了很多傳言和疲勞——它可能被過于夸大了。我們認為,我們會幫助您擴大適用此技術(shù)的范圍;事實上,如果您擁有從非結(jié)構(gòu)化文本提取結(jié)構(gòu)和理解內(nèi)容的技術(shù),就能想象無限多種使用模式。用于社交媒體的文本分析技術(shù)同樣可用來做一些不同的事情。例如,一個客戶想調(diào)查對其知識產(chǎn)權(quán)的盜版?zhèn)鞑ズ桶鏅?quán)侵犯(它是基于視頻的)。這是一個非常有趣的領(lǐng)域,因為在社交媒體上常常有對盜版類型的討論,這個客戶能夠建立模式來識別在全球各種微博站點中發(fā)生的這種對話。這最終將他們帶到包含非法發(fā)布了屬于客戶的受版權(quán)保護材料的網(wǎng)站。他們?nèi)绾巫龅竭@一點呢?他們開發(fā)了字典和模式來識別在“被盜”材料中的運動隊名稱,“下載”有關(guān)免費內(nèi)容的誘人鏈接的語言,對縮短的URL(tinyURL)進行URL解析,獲得實際位置等。因此,雖然他們并沒有分析誰說了什么,但的確通過基于非結(jié)構(gòu)化文本的數(shù)據(jù)創(chuàng)建了關(guān)于問題領(lǐng)域的結(jié)構(gòu)。同樣的技術(shù)、同樣的工具集、同樣的方法,只是不同的用例。我們介紹了一個供應(yīng)商在限制其知識產(chǎn)權(quán)盜版方面的行動,您可以看到大數(shù)據(jù)分析平臺(如IBM提供的產(chǎn)品)的多種應(yīng)用方式。例如,一個“監(jiān)察”客戶篩選有關(guān)國家議會的出席和投票記錄的無數(shù)網(wǎng)頁,產(chǎn)生很強的相關(guān)性,并將注意力集中在特定的一位代表在其當(dāng)選位置上的行為(在本例中,由于該代表所缺少的票數(shù),給人留下了深刻印象)。另一個客戶使用相同的概念構(gòu)建一個有關(guān)情緒的廢話字典,并應(yīng)用它來創(chuàng)建對日志文件的理解(我們會在本章后面討論這種使用模式)。例如,一個IP地址本身具有一定的結(jié)構(gòu)(IPv4或IPv6),監(jiān)控代理有自己的名稱(如Nagios),依此類推。應(yīng)用程序服務(wù)器和數(shù)據(jù)庫服務(wù)器上的監(jiān)控代理名稱之間是否有相關(guān)性?最后,某投資公司搜索IT公司基于文本(HTML)的公開收入報告,以查找披露內(nèi)容中有關(guān)業(yè)務(wù)狀況的“秘密信息”或跡象,或在評論中有關(guān)其未來業(yè)績等的指導(dǎo)因素。您可以想象,比較不同公司(如HP和IBM)的服務(wù)收入流可能是非常有用的,但每個公司很可能對這些部門有不同的命名,例如,HP稱之為“惠普企業(yè)服務(wù)”,而IBM稱之為“IBM全球服務(wù)”。手工組裝大規(guī)模市場參與者的這些信息是一項艱巨的任務(wù),但如果
構(gòu)建文本提取器來定義如何識別公司的名稱和服務(wù)部門的名稱,然后也許使用Nutch(一個基于ApacheLucene的開源Web搜索引公司的該部門有關(guān)的評論,這就會成為一個輕松得多的任務(wù)??蛻魻顟B(tài):或者,不要在我生氣的時候試圖向我推銷產(chǎn)品研究似乎表明,無論是由于外包、緊迫的解決時間指標(biāo)、經(jīng)濟因素還是經(jīng)費削減等,客戶服務(wù)正變得越來越差。許多人發(fā)現(xiàn)很難想起他們最后一次良好的客戶體驗是什么時候出現(xiàn)的。服務(wù)質(zhì)量往往取決于個人,而不是業(yè)務(wù)。(我們已經(jīng)有這樣的經(jīng)驗:因同樣的信息或問題致電產(chǎn)生不同的結(jié)果,這取決于CSR的態(tài)度和培訓(xùn))。我們中的許多人已經(jīng)習(xí)慣于以平庸的客戶體驗為規(guī)則。但是,并不一定要這樣,消費者的聲音也越來越大,他們不想因為與他們做生意的公司在經(jīng)濟困難時期削減服務(wù)成本來提高其盈利能力而受關(guān)鍵是通過利用所有可用信息,重新構(gòu)想整個流程如何工作;幫助業(yè)務(wù)在正確的時間,在正確的上下文中做正確的事。當(dāng)然,這不是一個新目標(biāo),但大數(shù)據(jù)極大地提高了真正做到這一點,并把它做好的能力。大多數(shù)客戶參與數(shù)據(jù)都被忽略了。如果有的話,也只是從呼叫中心交互中捕獲了極少的上下文。通過公司網(wǎng)站的點擊流數(shù)據(jù)也是如此。這難道不是一種溝通形式?在本例中,客戶在說您所做的足以引起他們的興趣,并希望了解有關(guān)您的公司或產(chǎn)品的更多信息。通常在匯總級別上使用這種類型的數(shù)據(jù),我們將客戶的行為視作一個整體;例如,您的客戶在查看什么產(chǎn)品,什么被添加到購物車中,什么樣的購物車被放棄。為什么不改為在更加個人的級別上使用這些數(shù)據(jù),以發(fā)現(xiàn)客戶實際上在做什么?例如,購物車是否一直在訂單流程的運費計算階段被放棄,或者經(jīng)過搜索之后似乎并沒有產(chǎn)生結(jié)果?通常不會保存和分析這種類型的數(shù)據(jù)粒度,因為它需要太多存儲,也許認為它的保質(zhì)期過短,不值得投資,或其處理速度不夠快,無法在個人客戶級別使用。再舉一個例子,試想您最后一次向服務(wù)提供者發(fā)送電子郵件,并且它真正改變了他們與您的交互方式。不應(yīng)該嗎?您敢打賭它應(yīng)該這樣!在大數(shù)據(jù)時代,那些迫使人們進行折衷,從而降低服務(wù)水平的存儲和處理問題可以開始得到解決。考慮在一個場景中,您可以結(jié)合倉庫對具有以下通信事件的客戶進行了解:您最終會對我們所說的客戶狀態(tài)有更加豐富、明智、及時的了解。本書的一位作者最近經(jīng)歷了一個很好的客戶狀態(tài)不匹配示例。他和一家公司之間發(fā)生了一個問題,他的信
用卡計費出現(xiàn)了錯誤,但銀行告訴他,他必須找供應(yīng)商解決問題。銀行不會停止計費,因為這是一筆預(yù)授權(quán)費用。在幾天的過程中,他發(fā)送了電子郵件,然后聊了聊,然后打電話到銀行,挫折感每次都在不斷提高。支行,對方即刻試圖向他推銷一張新卡的功能。這顯然不是向他進行推銷的適當(dāng)時間(他的客戶狀態(tài)不對),但可憐的CSR完全不知道稱不上獨特(并且我們的作者希望您知道,他大欺詐檢測:“誰在凌晨4點購買訂婚戒指?”您最后一次在凌晨4點買訂婚戒指是什么時候?(我們不包括在拉斯維加斯的任何采購)。不是很常見,對吧?這是異常值概念的一個很好的示例,它是尋找和試圖預(yù)測各種詐騙行動的關(guān)鍵。您總是要搜索異常值。試想一下智能手機的詳細清單,您肯定不會查看數(shù)百個電話來試圖弄清楚如何揮霍掉2,000分鐘;但我們敢打賭,如果其他通話分鐘數(shù)都是個位數(shù),您就能發(fā)現(xiàn)那次70分鐘的通話。欺詐和風(fēng)險屬于跨行業(yè)的大數(shù)據(jù)用欺詐檢測的某些挑戰(zhàn)就是只使用傳統(tǒng)的技術(shù)。所有大數(shù)據(jù)模式中最常見的主題僅限于可以存儲什么(數(shù)量和類型),以及提供什么計算資源來處理您的意圖。換句話說,預(yù)測欺詐的模型往往要么過分聚焦在計算限制和錯過的東西,要么就無法達到預(yù)期(或應(yīng)該)的精細程度,因為模型的維度肯定會有人為的約束。畢竟,如果不存儲數(shù)據(jù),分析這些異常值的屬性,就很難找到異常值。這就是說,只有您具有梳理數(shù)據(jù)并找到埋在噪聲中的信號所需要的計算能力時,更多的數(shù)據(jù)和屬性才是有用的。以足夠快的速度加載和處理數(shù)據(jù),捕獲快速移動的事件,這也是至關(guān)重要的。傳統(tǒng)的詐騙案件涉及使用樣品和模型來識別表現(xiàn)出一定特征的客戶。雖然這種方法是可行的,但它的問題是(這是在很多這些用例中都會看到的趨勢),您分析一個市場細分類別,并且不是在單獨的事務(wù)或個人級別進行分析。基于細分類別進行預(yù)測是好的,但根據(jù)個人的實際資料作出決定并關(guān)聯(lián)他們的交易顯然是更好的。為此,您需要處理的數(shù)據(jù)集比傳統(tǒng)方法可以處理的數(shù)據(jù)集更大。我們估計,在可用的信息中,只有不到50%(通常比這個數(shù)字還要少得多)對欺詐建??赡苡?/p>
如果將剩下的數(shù)據(jù)都填進現(xiàn)有的倉庫是不可行的,那怎樣才可行呢?我們認為,IBM大和基于分析的IBMSystems)為您提供了靈活性和敏捷性,將您的欺詐模型帶到一個全新的水平。BigInsights解決了我們在上一段中概述的問題,因為它會擴展到幾乎任何數(shù)量,并處理所要求的任何數(shù)據(jù)類型。因為它沒有施加一個寫時模式,您將在如何組織數(shù)據(jù)時擁有最大的靈活性,并且工作不會影響現(xiàn)有的工作負載和其他系統(tǒng)。最后,BigInsights是高度可擴展的;您可以從小規(guī)模開始部署,并以非常經(jīng)濟高效的方式增長(如果我們說您的CIO肯定會喜歡這一部現(xiàn)在,您擁有了BigInsights,可為所有可用數(shù)據(jù)提供一個富有彈性且經(jīng)濟高效的存儲庫,您如何去找出那些異常值呢?我們在這里盡量保持簡單,因為這個話題本身可以寫滿一整本書,但第一步是將全部有用的數(shù)據(jù)加載到BigInsights。請注意,我們沒有通過數(shù)據(jù)類型來限定數(shù)據(jù)的資格。第二,構(gòu)建一個基本的客戶檔案,包含盡可能詳細和盡可能多的行為維度。第三,開始構(gòu)建模型,定義“正常”是什么模樣,然后開始搞清楚異常值的模樣,以及它需要有多“異?!辈胖档脤⑺M行標(biāo)記。在第一次迭代中,我們預(yù)期某些異常值是不正確的,但以迭代和經(jīng)驗為基礎(chǔ)的學(xué)習(xí)是我們所追求的。當(dāng)然,回溯測試是這一過程的一部分,但對當(dāng)前數(shù)據(jù)流進行測試也同樣屬于該過程,您可以通過將模型推送到Streams來做到這一點(PredictiveModelMarkupLanguage是做到這一點的其中一種方式),這樣您就可以對一個實時數(shù)據(jù)流進行評分,以加快學(xué)習(xí)過程。隨著發(fā)現(xiàn)和驗證各種模型,您會將它們推廣到日常的高性能分析平臺,這就會將傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)帶進畫面。尋找異常值將提供有關(guān)“正?!笨蛻粼谧鍪裁吹念~外洞察,而客戶細分模型沒有因此而改善是很少見的情況;當(dāng)然,在改善發(fā)生之后,您也需要釋放您的團隊,讓他們開始使用這些數(shù)據(jù)。我們在本章開始時說過,有數(shù)百種使用模式,但我們在本章中對它們進行一一介紹。事實上,欺詐檢測有很高的適用性。想想在醫(yī)療保健市場的欺詐行為(健康保險欺詐、藥物欺詐、醫(yī)療欺詐等),并且走在保險公司和政府的詐騙計劃(原告和供應(yīng)商)前面。這是一個巨大的機會;美國聯(lián)邦調(diào)查局(FBI)估計,醫(yī)療保健欺詐一年就花掉美國納稅人600多億美元。想想欺詐性的在線產(chǎn)品或機票銷售、匯款、銀行卡刷卡等。
流動資金和風(fēng)險:從匯總到個人在許多行業(yè)中的風(fēng)險建模和管理都有改進的余地,這個事實可能是令人震驚的。涉及到在整章中所討論的大數(shù)據(jù)使用模式時,風(fēng)險建模帶來了對反復(fù)出現(xiàn)的問題的關(guān)注:“您在建模中使用了多少數(shù)據(jù)?”和“迭代和刷新這些模型需要多長時間?”目前的建模方法受到了系統(tǒng)的約束,它們決定了架構(gòu)并將獲得最佳效果的路徑排除在外。這并不是說公司沒有認識到在未被發(fā)現(xiàn)的數(shù)據(jù)中可提供很多潛在的洞察,但他們目前的系統(tǒng)并不總是支持他們。分析倉庫的大小增加兩倍、三倍或四倍是行不通的,因為它們通常已經(jīng)擁擠不堪或已被充分利用了。資本約束和監(jiān)管要求正迫使在這個領(lǐng)域中采用有趣的新方法,我們會在本節(jié)中與您分享一些新方法。以一個跨國公司客戶為例,需要從按業(yè)務(wù)線組織的管道轉(zhuǎn)變?yōu)閭€人層面的風(fēng)險管理。他們目前的數(shù)據(jù)是一個月時間的信貸風(fēng)險快照;肯定是有用的數(shù)據(jù),但以他們目前的手工流程來處理是非常緩慢而且昂貴的。我們提出了一個新的架構(gòu),其中包括BigInsights、IBMInformationServer和Netezza(IBMPureDataSystemsforAnalytics當(dāng)時的名稱)。我們使用了他們現(xiàn)有的IBMInformationServerDataStage平臺來轉(zhuǎn)換其原始數(shù)據(jù),并將充實后的數(shù)據(jù)加載到HBase(在BigInsights產(chǎn)品中包括的面向列的數(shù)據(jù)存儲)。HBase讓您能夠以鍵/值對的形式保存和表示數(shù)據(jù)。以時間序列寫出客戶信貸風(fēng)險,在提供新產(chǎn)品時該序列被擴展。使用這種方法,BigInsights能夠在一個大小和性能均具備彈性且成本明顯降低的環(huán)境中維護客戶信用狀況的當(dāng)前表示。Netezza分析環(huán)境可以在需要時請求來自BigInsights的數(shù)據(jù),以充實模型,而無需擔(dān)心客戶如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 挖掘機拆遷安全協(xié)議書
- 《水分析化學(xué)》重點筆記
- 2024-2025學(xué)年六年級上冊數(shù)學(xué)北師大版期中模擬檢測卷(1-3單元)(含答案)
- 氣體儲存技術(shù)新進展
- 高考數(shù)學(xué)復(fù)習(xí):三角函數(shù)的概念與三角公式應(yīng)用
- 合伙企業(yè)的賬務(wù)處理-做賬實操
- 2024年煤層氣(煤田)項目資金需求報告代可行性研究報告
- 【北京】期中模擬卷【18-19章】
- 公司生產(chǎn)設(shè)備購買合同(3篇)
- 左傳讀書心得體會三篇
- 2024-2025學(xué)年九年級上學(xué)期期中考試英語試題
- 四川新農(nóng)村建設(shè)農(nóng)房設(shè)計方案圖集川西部分
- 安全工程導(dǎo)論課件:事故致因理論
- 山東省青島實驗中學(xué)2024-2025學(xué)年七年級上學(xué)期期中考試數(shù)學(xué)試題(無答案)
- 2024年安能物流合作加盟協(xié)議版
- 質(zhì)量管理體系過程方法和風(fēng)險思維專業(yè)解讀與應(yīng)用之7:5 領(lǐng)導(dǎo)作用-5.3組織的崗位、職責(zé)和權(quán)限(雷澤佳編制-2024B1)
- 地面找平專項施工方案
- 初三化學(xué)-水的凈化省公開課獲獎?wù)n件說課比賽一等獎?wù)n件
- 2024-2030年中國財稅服務(wù)行業(yè)市場深度調(diào)研及發(fā)展前景與投資研究報告
- 第二次月考卷-2024-2025學(xué)年統(tǒng)編版語文六年級上冊
- 申論國家公務(wù)員考試試題與參考答案
評論
0/150
提交評論