大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第10章 用戶角色與分析工具_(dá)第1頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第10章 用戶角色與分析工具_(dá)第2頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第10章 用戶角色與分析工具_(dá)第3頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第10章 用戶角色與分析工具_(dá)第4頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第10章 用戶角色與分析工具_(dá)第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第10章用戶角色與分析工具QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理我們要講述的是一個有關(guān)對圖書館進(jìn)行實驗的故事。實驗對象是史學(xué)史中最有趣的數(shù)據(jù)集:一個旨在包羅所有書籍的數(shù)字圖書館。圖10-1圖書館的進(jìn)化第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館這樣神奇的圖書館從何而來呢?1996年,斯坦福大學(xué)計算機(jī)科學(xué)系的兩位研究生正在做一個現(xiàn)在已經(jīng)沒什么影響力的項目——斯坦福數(shù)字圖書館技術(shù)項目。該項目的目標(biāo)是展望圖書館的未來,構(gòu)建一個能夠?qū)⑺袝突ヂ?lián)網(wǎng)整合起來的圖書館。他們打算開發(fā)一個工具,能夠讓用戶瀏覽圖書館的所有藏書。但是,這個想法在當(dāng)時是難以實現(xiàn)的,因為只有很少一部分書是數(shù)字形式的。于是,他們將該想法和相關(guān)技術(shù)轉(zhuǎn)移到文本上,將大數(shù)據(jù)實驗延伸到互聯(lián)網(wǎng)上,開發(fā)出了一個讓用戶能夠瀏覽互聯(lián)網(wǎng)上所有網(wǎng)頁的工具,他們最終開發(fā)出了一個搜索引擎,并將其稱為“谷歌(Google)”。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館到2004年,谷歌“組織全世界的信息”的使命進(jìn)展得很順利,這就使其創(chuàng)始人拉里?佩奇有暇回顧他的“初戀”——數(shù)字圖書館。令人沮喪的是,仍然只有少數(shù)圖書是數(shù)字形式的。不過,在那幾年間,某些事情已經(jīng)改變了:佩奇現(xiàn)在是億萬富翁。于是,他決定讓谷歌涉足掃描圖書并對其進(jìn)行數(shù)字化的業(yè)務(wù)。盡管他的公司已經(jīng)在做這項業(yè)務(wù)了,但他認(rèn)為谷歌應(yīng)該為此竭盡全力。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館雄心勃勃?無疑如此。不過,谷歌最終成功了。在公開宣稱啟動該項目的9年后,谷歌完成了3000多萬本書的數(shù)字化,相當(dāng)于歷史上出版圖書總數(shù)的l/4。其收錄的圖書總量超過了哈佛大學(xué)(1700萬冊)、斯坦福大學(xué)(900萬冊)、牛津大學(xué)(1100萬冊)以及其他任何大學(xué)的圖書館,甚至還超過了俄羅斯國家圖書館(1500萬冊)、中國國家圖書館(2600萬冊)和德國國家圖書館(2500萬冊)。唯一比谷歌藏書更多的圖書館是美國國會圖書館(3300萬冊)。而在你讀到這句話的時候,谷歌可能已經(jīng)超過它了。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館長數(shù)據(jù),量化人文變遷的標(biāo)尺當(dāng)“谷歌圖書”項目啟動時,大家都是從新聞中得知的。但是,直到兩年后的2006年,這一項目的影響才真正顯現(xiàn)出來。當(dāng)時,我們正在寫一篇關(guān)于英語語法歷史的論文。為了該論文,我們對一些古英語語法教科書做了小規(guī)模的數(shù)字化?,F(xiàn)實問題是,與我們的研究最相關(guān)的書被“埋藏”在哈佛大學(xué)魏德納圖書館里。來看一下我們是如何找到這些書的。首先,到達(dá)圖書館東樓的二層,走過羅斯福收藏室和美洲印第安人語言部,你會看到一個標(biāo)有電話號碼“8900”和向上標(biāo)識的過道,這些書被放在從上數(shù)的第二個書架上。多年來,伴隨著研究的推進(jìn),我們經(jīng)常來翻閱這個書架上的書。那些年來,我們是唯一借閱過這些書的人,除了我們之外沒有人在意這個書架。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館有一天,我們注意到研究中經(jīng)常使用的一本書可以在網(wǎng)上看到了。那是由“谷歌圖書”項目實現(xiàn)的。出于好奇,我們開始在“谷歌圖書”項目中搜索魏德納圖書館那個書架上的其他書,而那些書同樣也可以在“谷歌圖書”項目中找到。這并不是因為谷歌公司關(guān)心中世紀(jì)英語的語法。我們又搜索了其他一些書,無論這些書來自哪個書架,都可以在“谷歌圖書”中找到對應(yīng)的電子版本。也就是說,就在我們動手?jǐn)?shù)字化那幾本語法書時,谷歌已經(jīng)數(shù)字化了幾棟樓的書!第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館谷歌的大量藏書代表了一種全新的大數(shù)據(jù),它有可能會轉(zhuǎn)變?nèi)藗兛创^去的方式。大多數(shù)大數(shù)據(jù)雖然大,但時間跨度卻很短,是有關(guān)近期事件的新近記錄。這是因為這些數(shù)據(jù)是由互聯(lián)網(wǎng)催生的,而互聯(lián)網(wǎng)是一項新興的技術(shù)。我們的目標(biāo)是研究文化變遷,而文化變遷通常會跨越很長的時間段,這期間一代代人的生生死死。當(dāng)我們探索歷史上的文化變遷時,短期數(shù)據(jù)是沒有多大用處的,不管它有多大。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館“谷歌圖書”項目的規(guī)??梢院臀覀冞@個數(shù)字媒體時代的任何一個數(shù)據(jù)集相媲美。谷歌數(shù)字化的書并不只是當(dāng)代的:不像電子郵件、RSS(內(nèi)容聚合)訂閱和Superpokes(超級戳)等,這些書可以追溯到幾個世紀(jì)前。因此,“谷歌圖書”不僅是大數(shù)據(jù),而且是長數(shù)據(jù)。由于“谷歌圖書”包含了如此長的數(shù)據(jù),和大多數(shù)大數(shù)據(jù)不同,這些數(shù)字化的圖書不局限于描繪當(dāng)代人文圖景,還反映了人類文明在相當(dāng)長一段時期內(nèi)的變遷,其時間跨度比一個人的生命更長,甚至比一個國家的壽命還長?!肮雀鑸D書”的數(shù)據(jù)集也由于其他原因而備受青睞——它涵蓋的主題范圍非常廣泛。瀏覽如此大量的書籍可以被認(rèn)為是在咨詢大量的人,而其中有很多人都已經(jīng)去世了。在歷史和文學(xué)領(lǐng)域,關(guān)于特定時間和地區(qū)的書是了解那個時間和地區(qū)的重要信息源。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館由此可見,通過數(shù)字透鏡來閱讀“谷歌圖書”將有可能建立一個研究人類歷史的新視角。我們知道,無論要花多長時間,我們都必須在數(shù)據(jù)上入手。數(shù)據(jù)越多,問題越多大數(shù)據(jù)為我們認(rèn)識周圍世界創(chuàng)造了新機(jī)遇,同時也帶來了新的挑戰(zhàn)。第一個主要的挑戰(zhàn)是,大數(shù)據(jù)和數(shù)據(jù)科學(xué)家們之前運用的數(shù)據(jù)在結(jié)構(gòu)上差異很大。科學(xué)家們喜歡采用精巧的實驗推導(dǎo)出一致的準(zhǔn)確結(jié)果,回答精心設(shè)計的問題。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館但是,大數(shù)據(jù)是雜亂的數(shù)據(jù)集。典型的數(shù)據(jù)集通常會混雜很多事實和測量數(shù)據(jù),數(shù)據(jù)搜集過程隨意,并非出于科學(xué)研究的目的。因此,大數(shù)據(jù)集經(jīng)常錯漏百出、殘缺不全,缺乏科學(xué)家們需要的信息。而這些錯誤和遺漏即便在單個數(shù)據(jù)集中也往往不一致。那是因為大數(shù)據(jù)集通常由許多小數(shù)據(jù)集融合而成。不可避免地,構(gòu)成大數(shù)據(jù)集的一些小數(shù)據(jù)集比其他小數(shù)據(jù)集要可靠一些,同時每個小數(shù)據(jù)集都有各自的特性。臉書就是一個很好的例子,交友在臉書中意味著截然不同的意思。有些人無節(jié)制地交友,有些人則對交友持謹(jǐn)慎的態(tài)度;有些人在臉書中將同事加為好友,而有些人卻不這么做。處理大數(shù)據(jù)的一部分工作就是熟悉數(shù)據(jù),以便你能反推出產(chǎn)生這些數(shù)據(jù)的工程師們的想法。但是,我們和多達(dá)1拍字節(jié)的數(shù)據(jù)又能熟悉到什么程度呢?第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館第二個主要的挑戰(zhàn)是,大數(shù)據(jù)和我們通常認(rèn)為的科學(xué)方法并不完全吻合??茖W(xué)家們想通過數(shù)據(jù)證實某個假設(shè),將他們從數(shù)據(jù)中了解到的東西編織成具有因果關(guān)系的故事,并最終形成一個數(shù)學(xué)理論。當(dāng)在大數(shù)據(jù)中探索時,你會不可避免地有一些發(fā)現(xiàn),例如,公海的海盜出現(xiàn)率和氣溫之間的相關(guān)性。這種探索性研究有時被稱為“無假設(shè)”研究,因為我們永遠(yuǎn)不知道會在數(shù)據(jù)中發(fā)現(xiàn)什么。但是,當(dāng)需要按照因果關(guān)系來解釋從數(shù)據(jù)中發(fā)現(xiàn)的相關(guān)性時,大數(shù)據(jù)便顯得有些無能為力了。是海盜造成了全球變暖嗎?是炎熱的天氣使更多的人從事海盜行為的嗎?如果二者是不相關(guān)的,那么近幾年在全球變暖加劇的同時,海盜的數(shù)目為什么會持續(xù)增加呢?我們難以解釋,而大數(shù)據(jù)往往卻能讓我們?nèi)ゲ孪脒@些事情中的因果鏈條。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館第三個主要挑戰(zhàn)是,數(shù)據(jù)產(chǎn)生和存儲的地方發(fā)生了變化。作為科學(xué)家,我們習(xí)慣于通過在實驗室中做實驗得到數(shù)據(jù),或者記錄對自然界的觀察數(shù)據(jù)??梢哉f,某種程度上,數(shù)據(jù)的獲取是在科學(xué)家的控制之下的。但是,在大數(shù)據(jù)的世界里,大型企業(yè)甚至政府擁有著最大規(guī)模的數(shù)據(jù)集。而它們自己、消費者和公民們更關(guān)心的是如何使用數(shù)據(jù)。很少有人希望美國國家稅務(wù)局將報稅記錄共享給那些科學(xué)家,雖然科學(xué)家們使用這些數(shù)據(jù)是出于善意。eBay的商家不希望它們完整的交易數(shù)據(jù)被公開,或者讓研究生隨意使用。搜索引擎日志和電子郵件更是涉及個人隱私權(quán)和保密權(quán)。書和博客的作者則受到版權(quán)保護(hù)。各個公司對所控制的數(shù)據(jù)有著強烈的產(chǎn)權(quán)訴求,它們分析自己的數(shù)據(jù)是期望產(chǎn)生更多的收入和利潤,而不愿意和外人共享其核心競爭力,學(xué)者和科學(xué)家更是如此。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館如果要分析谷歌的圖書館,我們就必須找到應(yīng)對上述挑戰(zhàn)的方法。數(shù)字圖書所面臨的挑戰(zhàn)并不是獨特的,只是今天大數(shù)據(jù)生態(tài)系統(tǒng)的一個縮影。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館目錄用戶角色分析的成功因素分析編程語言業(yè)務(wù)用戶工具1234用戶角色PART0110.110.1用戶角色在大多數(shù)組織中,分析的用戶角色有這樣幾種類型,即超級分析師、數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師和分析使用者。區(qū)分這些用戶角色并不能滿足所有分析需求,但會提供一個框架來幫助你理解實際用戶的需求。像超級分析師和數(shù)據(jù)科學(xué)家這樣有經(jīng)驗的用戶,傾向于使用R、SAS或者SQL這樣的分析語言。而業(yè)務(wù)用戶,包括業(yè)務(wù)分析師和分析使用者,則傾向于使用商業(yè)化的交互型軟件。圖10-2用戶角色的區(qū)分10.1.3業(yè)務(wù)分析師10.1.1超級分析師10.1.4分析使用者10.1.2數(shù)據(jù)科學(xué)家區(qū)分用戶角色并不能滿足所有分析需求,但會提供一個框架來幫助你理解實際用戶的需求。10.1用戶角色10.1.1

超級分析師某大型企業(yè)有三位數(shù)據(jù)專家。一位A,36歲,另一位B,46歲,而C則更年輕,這說明數(shù)據(jù)分析是一個新興行業(yè)。十多年前,數(shù)據(jù)分析的概念還很模糊,當(dāng)時如果有人把Excel表格玩得很溜就很厲害了。但是現(xiàn)在,如果去找一個數(shù)據(jù)分析的工作,自我表示對Excel的操作很精通,在面試官看來這是件很基礎(chǔ)的事——說明這個行業(yè)變化很快。所謂超級分析師,是一個像統(tǒng)計師、精算師或者風(fēng)險分析師一樣的專門職位,他們適合于在分析方面有巨大投資的團(tuán)隊中工作,或者在提供分析服務(wù)的組織中擔(dān)任咨詢師和開發(fā)者。超級分析師了解傳統(tǒng)的統(tǒng)計分析和機(jī)器學(xué)習(xí),并且在應(yīng)用分析方面有相當(dāng)多的工作經(jīng)驗。10.1.1

超級分析師超級分析師更愿意使用分析編程語言這樣的工作,例如LegacySAS或者R。他們有豐富的訓(xùn)練和工作經(jīng)驗來使編程語言能夠貼合生產(chǎn),并且認(rèn)為分析編程語言比圖形用戶界面的分析軟件包更靈活也更強大?!罢_的”分析方法對于超級分析師來說尤其重要。他們會更加關(guān)注使用“對的”方法,而不是用不同方法得到商業(yè)結(jié)果的不同方面。這意味著,如果一個特定的分析問題要求一個具體方法或者一類方法。如生存分析,超級分析師會花費很大力氣來使用這種方法,即使這對于預(yù)測準(zhǔn)確的改善很少。10.1.1

超級分析師在實際工作中,由于超級分析師側(cè)重于處理高度多樣化的問題,并且不能完全準(zhǔn)確地預(yù)測需要解決問題的種類,他們更傾向于使用各種各樣的分析方法和技術(shù)。對于一種特定的方法和技術(shù)的需求即使非常少見,但是如果需要,超級分析師也希望能夠用上它。因為數(shù)據(jù)準(zhǔn)備對于成功的預(yù)測分析特別重要,超級分析師需要能夠解讀和控制他們所處理的數(shù)據(jù)。這不意味著超級分析師想要管理數(shù)據(jù)或者運行ETL任務(wù),他們只是需要讓數(shù)據(jù)管理流程變得透明和可反饋。10.1.1

超級分析師ETL(抽取、轉(zhuǎn)換、加載)是數(shù)據(jù)倉庫技術(shù),也是BI(商業(yè)智能)項目的一個重要環(huán)節(jié),它是將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換和加載至目的端的過程,其對象并不限于數(shù)據(jù)倉庫。ETL所描述的過程一般包含ETL或是ELT(抽取、裝載、轉(zhuǎn)換)并且混合使用。通常愈大量的數(shù)據(jù)、復(fù)雜的轉(zhuǎn)換邏輯、目的端為較強運算能力的數(shù)據(jù)庫,愈偏向使用ELT,以便運用目的端數(shù)據(jù)庫的平行處理能力。ETL(或ELT)的流程可以用任何編程語言開發(fā)完成,由于ETL是極為復(fù)雜的過程,而手寫程序不易管理,有愈來愈多的企業(yè)采用工具協(xié)助ETL的開發(fā),并運用其內(nèi)置的元數(shù)據(jù)功能存儲來源與目的所對應(yīng)的轉(zhuǎn)換規(guī)則。10.1.1

超級分析師超級分析師的工作成果可能包括:·管理顯示分析結(jié)果的報告;·撰寫預(yù)測模型規(guī)范;·預(yù)測模型對象(例如PMML文件)。PMML(預(yù)測模型標(biāo)記語言)利用XML描述和存儲數(shù)據(jù)挖掘模型,是一個已經(jīng)被W3C所接受的標(biāo)準(zhǔn)。MML是一種基于XML的語言,用來定義預(yù)測模型。·用編程語言(如Java或C)編寫的一個可執(zhí)行的評分函數(shù)。10.1.1

超級分析師超級分析師不想過多地參與生產(chǎn)部署或者導(dǎo)入模型評分,但如果該組織沒有投入用于模擬評分部署的工具,他們也可能執(zhí)行這個角色。超級分析師會更多地參與具體分析軟件的品牌、發(fā)布和版本的工作。在分析團(tuán)隊有著重要影響的組織里,他們在選擇分析軟件上發(fā)揮了決定性的作用。他們也希望控制支持分析軟件的技術(shù)基礎(chǔ)設(shè)施,但往往不關(guān)心特定的硬件、數(shù)據(jù)庫、存儲等細(xì)節(jié)。10.1.2

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)家在很多方面與超級分析師很相似,這兩個角色都對具體工具缺乏興趣,并且渴望參與有關(guān)數(shù)據(jù)的任何工作。數(shù)據(jù)科學(xué)家和超級分析師的主要不同在于背景、訓(xùn)練和方法上。一方面,超級分析師傾向于理解統(tǒng)計方法,將分析帶向統(tǒng)計方向,并且更喜歡使用高級語言與內(nèi)置的分析語法。另一方面,數(shù)據(jù)科學(xué)家往往具有機(jī)器學(xué)習(xí)、工程或計算機(jī)科學(xué)的背景。因此,他們傾向于選擇編程語言(如C、Java、Python),更擅長用SQL和MapReduce工作。他們對用Hadoop工作有著豐富的經(jīng)驗,這是他們喜歡的工作環(huán)境。10.1.2

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)家的機(jī)器學(xué)習(xí)淵源影響著他們的研究方法、技術(shù)和方法,從而影響他們對分析工具的需求。機(jī)器學(xué)習(xí)學(xué)科往往不是把重點放在選擇“正確的”分析方法上,而是放在預(yù)測分析過程的結(jié)果上,包括該過程產(chǎn)生模型的預(yù)測能力。因此,他們很容易接受各種暴力學(xué)習(xí)的方式,并且選擇可能在統(tǒng)計范式里很難實施的方法,但這些方法可以表現(xiàn)出良好的效果。數(shù)據(jù)科學(xué)家往往對現(xiàn)有的分析軟件供應(yīng)商熱情不高,尤其是那些喜歡通過軟推銷技術(shù)細(xì)節(jié)迎合企業(yè)客戶的軟件供應(yīng)商。相反,他們傾向于選擇開源工具。他們尋求最好的“技術(shù)”解決方案,一個具有足夠的靈活性來支持創(chuàng)新的解決方案。數(shù)據(jù)科學(xué)家傾向于親手“生產(chǎn)”分析結(jié)果,而超級分析師則正好相反,更喜歡能夠在過程中完全放手的方式。10.1.3

業(yè)務(wù)分析師業(yè)務(wù)分析師在組織中以不同角色使用分析結(jié)果,對于他們來說,分析是重要的但不是唯一的責(zé)任。他們還需要應(yīng)付一系列其他工作,如貸款、市場分析或渠道等。業(yè)務(wù)分析師對分析非常熟悉,并且可能經(jīng)過一些培訓(xùn)和有一定經(jīng)驗。不管怎么樣,他們更喜歡一個易于使用的界面和軟件,像SASEnterpriseGuide、SASEnterpriseMiner、SPSSStatistics,或者其他一些產(chǎn)品。與超級分析師非常關(guān)心選擇問題的“正確”方法不同,業(yè)務(wù)分析師傾向于一種更簡單的方法。例如他們可能對回歸分析很熟悉,但是對不同種類的回歸方法和如何計算回歸模型的細(xì)節(jié)并不感興趣。他們看重在解決問題框架內(nèi)可以指導(dǎo)他們選擇方法和技術(shù)的“向?qū)А惫ぞ摺?0.1.3

業(yè)務(wù)分析師業(yè)務(wù)分析師知道數(shù)據(jù)對于分析的成功很重要,但是卻不想直接處理它們。相反,業(yè)務(wù)分析師更愿意使用已經(jīng)被組織中其他人修正過的數(shù)據(jù)。數(shù)據(jù)正確性對業(yè)務(wù)分析師非常重要,數(shù)據(jù)應(yīng)該在內(nèi)部是一致的,并與分析師所理解的業(yè)務(wù)一致。在大多數(shù)情況下,業(yè)務(wù)分析師的工作成果是一個總結(jié)分析結(jié)果的報告。工作成果也可能是一些決策,如關(guān)于一個復(fù)雜貸款決策的商品數(shù)量。業(yè)務(wù)分析師很少做生產(chǎn)部署的預(yù)測模型,因為他們的工作方法往往缺乏超級分析師的嚴(yán)謹(jǐn)性和高效性。業(yè)務(wù)分析師看重優(yōu)質(zhì)、客戶友好的技術(shù)支持,傾向于使用在分析中表現(xiàn)出可靠性的來自供應(yīng)商的軟件。10.1.4

分析使用者分析使用者通常僅僅是從事預(yù)測、自動化決策等具體分析過程的非專業(yè)人員,他們專注于業(yè)務(wù)問題和事件,不直接在生產(chǎn)中進(jìn)行分析工作,相反,他們以自動化決策、預(yù)測或者其他智能的可嵌入到所參與業(yè)務(wù)流程的形式來使用分析結(jié)果。雖然分析使用者一般不會參與數(shù)學(xué)計算,但他們很關(guān)注總體效用、效果和所使用系統(tǒng)的可靠性。例如,信用卡呼叫中心的客戶服務(wù)代表可能不關(guān)心具體用于確定決策的分析方法,但非常關(guān)注該系統(tǒng)是否需要很長時間才能達(dá)成決策。如果當(dāng)系統(tǒng)拒絕信用卡申請或拒絕了太多看似風(fēng)險良好的客戶而無法提供合理的解釋時,客戶代表就會拒絕這個系統(tǒng)。因為正在快速增長的分析對業(yè)務(wù)流程產(chǎn)生積極影響的方法很多,并且嵌入式分析已經(jīng)幾乎沒有使用的障礙了,所以這類用戶將有最大的增長潛力。10.1.4

分析使用者表10-1展示了適合每個用戶角色的不同工具。表10-1用于不同用戶的分析工具10.1.4

分析使用者企業(yè)應(yīng)該以協(xié)作和自定義的方式支持所有用戶角色的需求。不同角色的用戶不可能孤立地工作,有經(jīng)驗的用戶應(yīng)該能夠與業(yè)務(wù)用戶分享應(yīng)用程序,反之亦然。數(shù)據(jù)的復(fù)雜性和不透明性往往會推動用戶探索新的編程工具,而干凈透明的數(shù)據(jù)結(jié)構(gòu)是實現(xiàn)商業(yè)友好型分析的重要推動者。分析的成功因素PART0210.210.2分析的成功因素組織為了使分析被廣泛接受,必須認(rèn)識到不同的用戶需求?,F(xiàn)代企業(yè)中的許多用戶都需要易使用且無需編程的用戶界面。然而,易于使用的工具可能缺乏復(fù)雜分析或自定義分析所需要的關(guān)鍵功能。10.2分析的成功因素為了獲得盡可能廣泛的影響,應(yīng)該重點關(guān)注以下三個重要的成功因素:(1)關(guān)注數(shù)據(jù)基礎(chǔ)設(shè)施。有經(jīng)驗的分析師會把大量時間花在“數(shù)據(jù)糾紛”上,也就是采集、轉(zhuǎn)換和清理原始數(shù)據(jù)。企業(yè)用戶沒有多余的時間去清洗數(shù)據(jù),這些用戶需要一個易于訪問的清潔、可靠的數(shù)據(jù)來源。(2)確保協(xié)作。有經(jīng)驗的用戶在開發(fā)、測試和驗證分析應(yīng)用程序中起著關(guān)鍵作用,他們要確?;A(chǔ)的數(shù)學(xué)知識是正確的。商務(wù)用戶工具應(yīng)該直接使用和利用有經(jīng)驗的分析師開發(fā)的先進(jìn)分析工具。10.2分析的成功因素(3)為業(yè)務(wù)流程定制分析。當(dāng)分析直接影響一個業(yè)務(wù)流程時往往是最高效的。用戶不需要進(jìn)行“業(yè)務(wù)分析”,他們需要進(jìn)行信用分析、勞動力分析或者其他利用數(shù)據(jù)和業(yè)務(wù)規(guī)則的任務(wù)。這些工具應(yīng)該支持針對特定業(yè)務(wù)流程、角色和任務(wù)的自定義應(yīng)用分析。為了最大化商業(yè)影響力,我們要開發(fā)一種能夠支持組織中從新手到專家的各種用戶群體的分析方法。建立一個高效的數(shù)據(jù)平臺,有著清潔、易獲取的數(shù)據(jù),確保用戶群體之間的協(xié)作,并且能夠定制支持業(yè)務(wù)流程的分析。這些是建立一個更有智慧的組織的關(guān)鍵。分析編程語言PART0310.310.3分析編程語言如果一種編程語言的主要用戶是分析師,并且該語言具有分析師所需的高級功能,我們就把它歸為“分析”語言。我們可以通過自定義代碼或外部分析庫來使用通用語言(如Python或者Java)進(jìn)行高級分析。數(shù)據(jù)科學(xué)家對使用Python進(jìn)行機(jī)器學(xué)習(xí)越來越感興趣。10.3.3SQL10.3.1R語言10.3.2SAS編程語言可以通過自定義代碼或外部分析庫來使用通用語言(如Python或者Java)進(jìn)行高級分析。數(shù)據(jù)科學(xué)家對使用Python進(jìn)行機(jī)器學(xué)習(xí)越來越感興趣。10.3分析編程語言10.3.1R語言R語言是一個面向?qū)ο?,主要用于統(tǒng)計和高級分析的開源編程語言,它在高級分析中的使用率快速增長。圖10-3R語言示例10.3.1R語言R語言是S語言的一種實現(xiàn)。S語言是1980年左右由AT&T貝爾實驗室開發(fā)的一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計分析和作圖的解釋型語言。S語言最初的實現(xiàn)版本是S-PLUS商業(yè)軟件。新西蘭奧克蘭大學(xué)的羅伯特·紳士和羅斯·伊卡及其他志愿人員組成“R開發(fā)核心團(tuán)隊”開發(fā)了R系統(tǒng)。R和S語言在程序語法上可以說幾乎一樣,只是在函數(shù)方面有細(xì)微差別。R的核心開發(fā)團(tuán)隊引領(lǐng)對核心軟件環(huán)境的持續(xù)改善,同時R社區(qū)用戶可以貢獻(xiàn)支持特定任務(wù)的軟件包。10.3.1R語言R是一套完整的軟件系統(tǒng),支持:·數(shù)據(jù)處理和存儲;·計算數(shù)組和矩陣的運算符;·數(shù)據(jù)分析工具;·圖形設(shè)備;·編程功能像輸入和輸出、條件句、循環(huán)和遞歸運算。10.3.1R語言R發(fā)行版本中包括支持基本統(tǒng)計、圖形和有價值的實用程序的14個基本包。用戶可以選擇從CRAN或其他庫中添加包。由于存在廣泛的開發(fā)者社區(qū)和貢獻(xiàn)的低門檻,在R中可獲得的軟件功能遠(yuǎn)遠(yuǎn)超過了商業(yè)分析軟件。

圖10-4R語言可視化圖形示例10.3.1R語言雖然R核心開發(fā)團(tuán)隊負(fù)責(zé)研發(fā)R基礎(chǔ)軟件,但每個包的開發(fā)人員都負(fù)責(zé)各自軟件包的質(zhì)量。這意味著實際使用的編程語言和實施的質(zhì)量會有很大的不同。質(zhì)量保證以社區(qū)為基礎(chǔ),用戶可以而且的確會報告錯誤。大多數(shù)提供商業(yè)分析軟件或數(shù)據(jù)管理平臺的供應(yīng)商都提供連接到R語言程序或?qū)語言腳本嵌入到其他功能中的能力?;镜腞發(fā)行版本包括一個內(nèi)置的用于交互和腳本開發(fā)的控制臺。然而,許多用戶更喜歡使用集成開發(fā)環(huán)境(IDE)或GUI界面。R最著名的商業(yè)界面是RStudio。10.3.1R語言R語言的主要優(yōu)點是它的綜合功能性、可擴(kuò)展性和低成本,其主要弱點是多樣化和集市化開發(fā)的方法,由此產(chǎn)生了大量的重疊功能、松散的標(biāo)準(zhǔn)和異構(gòu)的軟件質(zhì)量。商業(yè)化的發(fā)行版本通過質(zhì)量保證、培訓(xùn)和用戶支持來解決這些缺陷。它的另一個主要不足是無法處理超過單個機(jī)器存儲容量的數(shù)據(jù)集。有一些開源軟件可以部分解決這個問題,另外,RevolutionAnalytics的ScaleR軟件包支持針對大數(shù)據(jù)的分布式超存儲分析。10.3.2SAS編程語言SAS語言是SASInstitute(公司)開發(fā)的命令式編程語言,該公司還利用SAS編程語言開發(fā)工具和軟件。世界各地的組織都在使用SAS,大部分評估都認(rèn)為SAS是分析行業(yè)的領(lǐng)導(dǎo)者。然而,單就SAS編程語言本身難以衡量其使用方面的影響,在對分析師和數(shù)據(jù)挖掘師的大范圍調(diào)查中,SAS的評級低于R和其他開源工具。圖10-5SAS統(tǒng)計分析結(jié)果10.3.2SAS編程語言SAS編程語言的編程步驟一般有兩種類型。SASDATA讀取數(shù)據(jù),以不同的方式操縱數(shù)據(jù),并創(chuàng)建SASDATA集,這是一個專有的數(shù)據(jù)結(jié)構(gòu)。SASPROC是使用SASDATA集生成用戶指定的特殊分析,它的結(jié)果可以是發(fā)布到文件的顯示或報告,或SASDATA集的形式。一個SASPROC的輸出可以作為另一個SASPROC輸入。大多數(shù)的SAS程序員在SAS軟件中運行程序,然而也有一些其他的選擇。由杜勒斯研究所發(fā)布的一個商業(yè)軟件產(chǎn)品Carolina可以讓用戶將SAS程序轉(zhuǎn)化為Java語言。SAS為Windows、Linux、UNIX操作系統(tǒng)提供了相應(yīng)的編程語言運行環(huán)境。除了這些平臺,WPL支持MacOS上的WPS。大多數(shù)SAS編程步驟在SAS運行環(huán)境中以單線程運行,而相同的程序在WPS中以多線程運行。10.3.2SAS編程語言為了改善在SASDATA步中的一些明顯的局限性,SAS開發(fā)了DS2(一種面向?qū)ο蟮木幊陶Z言)以適合高級數(shù)據(jù)操作。SASDS2代碼在五種不支持標(biāo)準(zhǔn)SASDATA步的環(huán)境下運行:·SAS聯(lián)邦服務(wù)器;·SASLASR分析服務(wù)器;·SAS嵌入式過程;·SAS企業(yè)挖掘器;·SAS決策服務(wù)。10.3.3SQLSQL(結(jié)構(gòu)化查詢語言)是一種關(guān)系數(shù)據(jù)庫語言。在對數(shù)據(jù)科學(xué)家的調(diào)查中,有71%的受訪者說他們使用SQL的程度遠(yuǎn)超過其他任何語言。圖10-6OracleSQL示例10.3.3SQLSQL語言最初是在20世紀(jì)20年代早期由IBM研究者們開發(fā)的,其應(yīng)用和使用在20世紀(jì)80年代隨著關(guān)系數(shù)據(jù)庫的廣泛使用得到了快速增長。如今,SQL已經(jīng)從傳統(tǒng)的關(guān)系數(shù)據(jù)庫擴(kuò)展到了數(shù)據(jù)倉庫應(yīng)用和軟件定義的SQL平臺(像是Hive或者Shark)。SQL是一套基于集合的聲明性語言而不是一個像SAS或BASIC的命令式程序語言。美國國家標(biāo)準(zhǔn)協(xié)會(ANSI)在1986年定義了一個SQL標(biāo)準(zhǔn),緊隨其后的是國際標(biāo)準(zhǔn)化組織(ISO)在1987年也制定了SQL標(biāo)準(zhǔn),但不同的數(shù)據(jù)庫廠商用各種方式限制了代碼從一個平臺到另一個平臺的可移植性。10.3.3SQL數(shù)據(jù)庫管理員使用SQL來創(chuàng)建和管理數(shù)據(jù)庫,他們可以使用SQL創(chuàng)建表、刪除表、創(chuàng)建索引、插入數(shù)據(jù)到表中、更新表中的數(shù)據(jù)、刪除數(shù)據(jù)以及執(zhí)行其他操作。將關(guān)系型數(shù)據(jù)庫作為一個“沙盒”的分析師也可以使用這些SQL的功能。更為常見的是,分析師可以使用SQL從關(guān)系數(shù)據(jù)庫中選擇和恢復(fù)數(shù)據(jù),從而在其他分析操作中使用。ANSISQL包括一些基本的分析功能,包括標(biāo)量函數(shù)、聚合函數(shù)和窗口函數(shù)。標(biāo)量函數(shù)可以對單個值操作,包括數(shù)字運算和字符串操作等。聚合函數(shù)對集合的值操作并且返回一個匯總值,它們包含常見的統(tǒng)計功能,如計數(shù)、總和、均值、方差、標(biāo)準(zhǔn)差、相關(guān)性和二元線性回歸。窗口函數(shù)類似于聚合函數(shù),但用戶可以將操作應(yīng)用于數(shù)據(jù)分區(qū),命令數(shù)據(jù)或定義帶有移動“窗口”數(shù)值的組,這些函數(shù)支持如累積分布、排名和排序的操作。10.3.3SQL除了支持基礎(chǔ)統(tǒng)計(如聚合函數(shù)等),ANSISQL標(biāo)準(zhǔn)不包括高級分析。數(shù)據(jù)庫供應(yīng)商,如Oracle,提供特定平臺的SQL拓展用于分析。更多的支持表函數(shù)的高級數(shù)據(jù)庫可以嵌入用通用編程語言所寫的程序(如C、Java、Python或者R)并且使用這些語言寫的分析庫。SQL用于分析的最大優(yōu)勢是它的標(biāo)準(zhǔn)化、平臺中立性和對基本數(shù)據(jù)操作的實用性。雖然特定供應(yīng)商的SQL版本與ANSI標(biāo)準(zhǔn)偏差較大,大多數(shù)基本操作可以在不同平臺以一致的方式進(jìn)行。大部分有較強ANSISQL背景的用戶可以很快學(xué)會一個特定供應(yīng)商的SQL版本。因為在大型企業(yè)中普遍使用SQL平臺,對SQL有基本理解對試圖檢索和操作數(shù)據(jù)的分析師來說十分重要。SQL用于分析的主要缺點是缺乏高級分析的標(biāo)準(zhǔn)算法。業(yè)務(wù)用戶工具PART0410.410.4業(yè)務(wù)用戶工具現(xiàn)在的組織需要用比以前更少的時間做出更多的決策?,F(xiàn)代分析決策影響著短期業(yè)務(wù)的執(zhí)行以及企業(yè)的長期競爭力。正確的決策意味著競爭力和盈利能力的飛躍,而錯誤的決策能帶來毀滅性影響。在這種競爭格局下,海量數(shù)據(jù)肯定會讓問題更復(fù)雜。從即時社交媒體評論到上周的銷售交易數(shù)據(jù),再到數(shù)據(jù)倉庫中存儲的多年客戶購買歷史數(shù)據(jù),即使是最小的決定,也必須考慮到數(shù)據(jù)量和數(shù)據(jù)的多樣性。10.4.3新的分析工具與方法10.4.1BI的常用技術(shù)10.4.2BI工具和方法的發(fā)展歷程現(xiàn)代分析決策影響著短期業(yè)務(wù)的執(zhí)行以及企業(yè)的長期競爭力。正確的決策意味著競爭力和盈利能力的飛躍,而錯誤的決策能帶來毀滅性影響。10.4業(yè)務(wù)用戶工具10.4.1BI的常用技術(shù)以下是商務(wù)智能中三種最常用的技術(shù):(1)報告和查詢。建立在一個傳統(tǒng)的關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫中,報告和查詢工具檢索、分析和報告存儲在基礎(chǔ)數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)。報告和查詢工具的例子有SAPBusinessObjects和MicrosoftAccess/SQLServer。(2)線分析處理OLAP。允許用戶從多個維度來分析多維數(shù)據(jù),OLAP工具和應(yīng)用程序可以生成預(yù)制的數(shù)據(jù)集或信息“立方體”。OLAP工具的例子包括Essbase和CognosPowerPlay。10.4.1BI的常用技術(shù)(3)以電子表格為基礎(chǔ)的決策支持系統(tǒng)(DSS)。使用戶能夠分析數(shù)據(jù)的電子表格格式的專業(yè)應(yīng)用程序。以電子表格為基礎(chǔ)的DSS應(yīng)用的例子有MicrosoftExcel和企業(yè)績效管理(EPM)的解決方案,如OracleHyperion。數(shù)據(jù)分析師可以獲得功能強大的數(shù)據(jù)整合和分析工具,它們將不同來源的數(shù)據(jù)放入單一的工作流程中,可視化工具也使數(shù)據(jù)易于展示和使用——這些都是以前不一定能做到的。隨著商業(yè)進(jìn)程不斷加快,無論可用數(shù)據(jù)的數(shù)量還是種類都在呈指數(shù)級增長,傳統(tǒng)的商務(wù)智能(BI)工具未能以同樣的速度發(fā)展,數(shù)據(jù)分析師只能拼湊著定制解決方案和不同的工具,浪費寶貴的時間和稀缺的預(yù)算。10.4.2BI工具和方法的發(fā)展歷程為了更好地理解傳統(tǒng)商務(wù)智能(BI)工具的局限性,我們來回顧一下BI工具和方法的發(fā)展歷程。在20世紀(jì)80年代初首次登上歷史舞臺后,早期的商務(wù)智能工具是建立在傳統(tǒng)關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫之上的。利用ETL功能來將所需數(shù)據(jù)從原始形式(關(guān)系型或者其他形式)轉(zhuǎn)化為一個關(guān)系型數(shù)據(jù)模型,這樣分析師和其他用戶就可以使用報告和查詢工具對數(shù)據(jù)進(jìn)行檢索、分析和報告。

圖10-7傳統(tǒng)商務(wù)智能過程10.4.2BI工具和方法的發(fā)展歷程到20世紀(jì)90年代中期,數(shù)據(jù)量和速度的增長比ETL工具的能力增長更快,這產(chǎn)生了一個瓶頸。受數(shù)據(jù)復(fù)雜性所累,ETL工具艱難地在流程中做數(shù)據(jù)轉(zhuǎn)換,使得分析速度以及商業(yè)決策速度都變慢了。更麻煩的事情是,如果ETL邏輯里的任何一部分不正確,在這期間的所有轉(zhuǎn)換都需要重做,同時也要對新生成的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。10.4.2BI工具和方法的發(fā)展歷程尋找規(guī)避ETL瓶頸的方法促使了一種新的商務(wù)智能范式的崛起,被稱為OLAP或聯(lián)機(jī)分析處理。OLAP工具允許用戶使用預(yù)制的數(shù)據(jù)集或信息“立方體”從幾個不同的角度來分析多維數(shù)據(jù)。立方體產(chǎn)生于一個數(shù)據(jù)庫中提取的相關(guān)信息,該數(shù)據(jù)庫采用有各種數(shù)據(jù)之間關(guān)系的多維數(shù)據(jù)模型,立方體允許用戶進(jìn)行復(fù)雜的分析和即席查詢,速度比以前快很多。

圖10-8OLAP多維數(shù)據(jù)集范例10.4.2BI工具和方法的發(fā)展歷程OLAP用戶將會使用三個基本操作中的一個或多個來分析立方體中的數(shù)據(jù)。(1)整合或匯總。在這些操作中,數(shù)據(jù)從一個或多個方面進(jìn)行匯總,例如,銷售部的所有銷售辦公室預(yù)測總體銷售趨勢和收入。(2)向下鉆取分析。相比于向上匯總,這些操作允許用戶對更具體的運營進(jìn)行分析,如確定每個單獨產(chǎn)品或SKU占公司總體銷售額的比例。(3)交叉分析。這些操作使得用戶能夠取出或切割來自于OLAP立方體和視圖,或不同角度子集的特定數(shù)據(jù)集來進(jìn)行各種分析。10.4.2BI工具和方法的發(fā)展歷程OLAP顯然已經(jīng)達(dá)到其能力極限。隨著商業(yè)進(jìn)程持續(xù)加快,需要快速進(jìn)行海量分析和快速場景的變換,OLAP在需要進(jìn)行快速決策的時代已經(jīng)變得不那么有用。為了適應(yīng)對分析速度和靈活性的要求,通過MicrosoftExcel發(fā)展出了一種可替代的方法。這種以電子表格為基礎(chǔ)的決策支持系統(tǒng)或DSS是一種使數(shù)據(jù)分析易于使用且高度靈活的專業(yè)應(yīng)用程序。它允許用戶手動輸入數(shù)據(jù)或從數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù),然后保存數(shù)據(jù)以便在工作表、宏和流程圖中的后續(xù)操作使用。這種靈活性的缺點是由于手動數(shù)據(jù)輸入和剪切—粘貼信息會導(dǎo)致高錯誤率。10.4.2BI工具和方法的發(fā)展歷程因為靈活性高,電子表格決策支持系統(tǒng)的應(yīng)用程序仍然在使用。大多數(shù)數(shù)據(jù)分析師和他們的企業(yè)管理人員都同意這個觀點,為了使決策支持系統(tǒng)應(yīng)用程序在尖端、高度復(fù)雜的分析中更有用,組織必須要招募昂貴而稀缺的分析師來編寫能在該表格數(shù)據(jù)上運行的復(fù)雜代碼。通常這個代碼需要較長的開發(fā)周期,快速發(fā)展的企業(yè)沒有這么多時間來等待。10.4.2BI工具和方法的發(fā)展歷程許多需要進(jìn)行快速決策的組織意識到,上述舊范式已經(jīng)無法滿足他們目前的分析要求:·及時性——由于訪問數(shù)據(jù)和迭代分析花了太長時間,同時如果太昂貴以至于不能持續(xù)更新,大多數(shù)決策在做出時就已經(jīng)過時了?!?zhǔn)確性——因為目前使用歷史數(shù)據(jù)做出決策,而歷史數(shù)據(jù)并不是總能產(chǎn)生好的對未來的預(yù)測,它們往往是不準(zhǔn)確的決策。·質(zhì)量——以質(zhì)量差的數(shù)據(jù)為核心,如果企業(yè)用戶沒有能力自己解決這些問題,組織往往會做出質(zhì)量不好的決策。·相關(guān)性——因為沒有現(xiàn)成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論