Oracle高級(jí)數(shù)據(jù)分析白皮書(shū)_第1頁(yè)
Oracle高級(jí)數(shù)據(jù)分析白皮書(shū)_第2頁(yè)
Oracle高級(jí)數(shù)據(jù)分析白皮書(shū)_第3頁(yè)
Oracle高級(jí)數(shù)據(jù)分析白皮書(shū)_第4頁(yè)
Oracle高級(jí)數(shù)據(jù)分析白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 Oracle 大數(shù)據(jù)分析Oracle 數(shù)據(jù)庫(kù)中的高級(jí)數(shù)據(jù)分析白皮書(shū)目 錄TOC o 1-2 h z u HYPERLINK l _TOC_250016 執(zhí)行概要4 HYPERLINK l _TOC_250015 大數(shù)據(jù)的曙光4 HYPERLINK l _TOC_250014 合并傳統(tǒng)數(shù)據(jù)分析與大數(shù)據(jù)分析5 HYPERLINK l _TOC_250013 大數(shù)據(jù)分析技術(shù) 一種新的方法5 HYPERLINK l _TOC_250012 大數(shù)據(jù)用例6 HYPERLINK l _TOC_250011 示例 1:機(jī)器生成的數(shù)據(jù)6 HYPERLINK l _TOC_250010 示例 2:在線預(yù)訂7 H

2、YPERLINK l _TOC_250009 示例 3:多渠道營(yíng)銷(xiāo)和輿情分析7 HYPERLINK l _TOC_250008 大數(shù)據(jù)分析需求8 HYPERLINK l _TOC_250007 大數(shù)據(jù)分析工具9 HYPERLINK l _TOC_250006 使用 Hadoop 的處理和分析類(lèi)型9 HYPERLINK l _TOC_250005 使用 Oracle Advanced Analytics 執(zhí)行數(shù)據(jù)庫(kù)中處理10 HYPERLINK l _TOC_250004 高效數(shù)據(jù)挖掘10 HYPERLINK l _TOC_250003 使用 R 進(jìn)行統(tǒng)計(jì)分析11 HYPERLINK l _TO

3、C_250002 Hadoop 與 Oracle 數(shù)據(jù)庫(kù)相鏈接11 HYPERLINK l _TOC_250001 Oracle 大數(shù)據(jù)平臺(tái)11 HYPERLINK l _TOC_250000 總結(jié):適用于企業(yè)的各種分析12執(zhí)行概要無(wú)論是微調(diào)供應(yīng)鏈、監(jiān)視車(chē)間操作、判斷消費(fèi)輿情,還是其他各種大規(guī)模分析挑戰(zhàn),大數(shù)據(jù)正在對(duì)企業(yè)產(chǎn) 生極大的影響。生成的業(yè)務(wù)數(shù)據(jù)量每年都在穩(wěn)步增加,越來(lái)越多的信息類(lèi)型以數(shù)字格式存儲(chǔ)。其中的一個(gè)挑戰(zhàn)是,要學(xué)習(xí)如何處理所有這些新數(shù)據(jù)類(lèi)型以及確定哪些信息可能為您的業(yè)務(wù)提供價(jià)值。這不僅僅是訪問(wèn)新數(shù)據(jù)源、選定的事件或事務(wù)或者博文,還要了解所感興趣的元素的模式及其之間的關(guān)系。只會(huì)快速

4、收集大量不同類(lèi)型的數(shù)據(jù)并不能創(chuàng)造價(jià)值。您需要分析以發(fā)現(xiàn)有助于您業(yè)務(wù)的洞察。這正是本文所講述的內(nèi)容。大數(shù)據(jù)不僅帶來(lái)了新的數(shù)據(jù)類(lèi)型和存儲(chǔ)機(jī)制,它還帶來(lái)了新的分析類(lèi)型。下面我們將討論各種分析大數(shù)據(jù)的方法,利用這些分析方法,可以從這些不斷涌入的信息發(fā)現(xiàn)模式和關(guān)系、做出明智預(yù)測(cè)、提供行動(dòng)情報(bào)以及獲得業(yè)務(wù)洞察。大數(shù)據(jù)分析是一連串持續(xù)的活動(dòng),而不是一個(gè)個(gè)孤立的活動(dòng)。因此,您需要一套統(tǒng)一的大數(shù)據(jù)分析解決方案,從獲取數(shù)據(jù)和發(fā)現(xiàn)新洞察,到做出可重復(fù)的決策以及擴(kuò)展相關(guān)信息系統(tǒng)以支持后續(xù)分析。許多組織通過(guò)協(xié)調(diào)使用商業(yè)組件和開(kāi)源組件完成這些任務(wù)。通過(guò)為大數(shù)據(jù)分析提供一個(gè)集成的架構(gòu),可以更易于執(zhí)行各種類(lèi)型的活動(dòng),更易于在

5、這些組件之間移動(dòng)數(shù)據(jù)。大數(shù)據(jù)的曙光當(dāng)數(shù)據(jù)的數(shù)量、產(chǎn)生的速度或種類(lèi)超出了您的 I T 系統(tǒng)提取、存儲(chǔ)、分析和處理數(shù)據(jù)的能力時(shí),這些數(shù)據(jù)就成為了大數(shù)據(jù)。許多組織擁有處理大量結(jié)構(gòu)化數(shù)據(jù)的設(shè)備和專(zhuān)業(yè)知識(shí),但是,隨著數(shù)據(jù)量不斷增加并且數(shù)據(jù)流動(dòng)速度不斷加快,這些組織缺乏及時(shí)“挖掘”數(shù)據(jù)和提供行動(dòng)情報(bào)的能力。對(duì)傳統(tǒng)分析而言,不只是數(shù)據(jù)量增長(zhǎng)過(guò)快,而且,數(shù)據(jù)涌入的速度以及數(shù)據(jù)類(lèi)型的多樣性也需要新型的數(shù)據(jù)處理和分析解決方案。然而,大數(shù)據(jù)并不總能納入包含列和行的工整的表中。如今出現(xiàn)了許多新的數(shù)據(jù)類(lèi)型,其中既有結(jié)構(gòu)化也有非結(jié)構(gòu)化的類(lèi)型,對(duì)這些數(shù)據(jù)進(jìn)行處理可以產(chǎn)生對(duì)業(yè)務(wù)或情況的洞察。例如,對(duì)于來(lái)自 twitter 信

6、源、呼叫詳情報(bào)告、網(wǎng)絡(luò)數(shù)據(jù)、攝像機(jī)和設(shè)備傳感器的數(shù)據(jù),通常首先要對(duì)它們進(jìn)行預(yù)處理,如提煉、匯總、可能還有檢測(cè)基本趨勢(shì)和相關(guān)性之后,才將它們存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。將結(jié)果加載到倉(cāng)庫(kù)用于其他分析將更加經(jīng)濟(jì)高效。這個(gè)想法是為了“化簡(jiǎn)”數(shù)據(jù)以便能夠以結(jié)構(gòu)化形式存放它們。然后,這些數(shù)據(jù)就變得與您的其他數(shù)據(jù)同樣有用,可以使用傳統(tǒng)的業(yè)務(wù)智能 (BI) 工具對(duì)它們進(jìn)行研究了。合并傳統(tǒng)數(shù)據(jù)分析與大數(shù)據(jù)分析為了利用大數(shù)據(jù),整個(gè)企業(yè)通常需要在文化上和技術(shù)上進(jìn)行一系列的轉(zhuǎn)變,從探索新商機(jī)到擴(kuò)展調(diào)查范圍,再到利用新洞察,這些轉(zhuǎn)變將隨著您合并傳統(tǒng)分析與大數(shù)據(jù)分析而進(jìn)行。這一過(guò)程通常始于傳統(tǒng)企業(yè)數(shù)據(jù)和工具,會(huì)帶來(lái)對(duì)從銷(xiāo)售預(yù)測(cè)到庫(kù)

7、存水平的一切事物的洞察。數(shù)據(jù)通常保存在數(shù)據(jù)倉(cāng)庫(kù)中,并使用基于 SQL 的業(yè)務(wù)智能 (BI) 工具進(jìn)行分析。倉(cāng)庫(kù)中的大部分?jǐn)?shù)據(jù)來(lái)自于OLTP 數(shù)據(jù)庫(kù)中最初捕獲的業(yè)務(wù)事務(wù)。雖然 BI 的使用大多為報(bào)告和信息板,但是,越來(lái)越多的組織正在對(duì)多維數(shù)據(jù)庫(kù)執(zhí)行“假設(shè)”分析,在財(cái)務(wù)計(jì)劃和預(yù)測(cè)情景下尤其如此。這些計(jì)劃和預(yù)測(cè)應(yīng)用程序可以從大數(shù)據(jù)獲益,但組織需要高級(jí)分析才能使這一目標(biāo)成為現(xiàn)實(shí)。對(duì)于諸如統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、預(yù)測(cè)分析及文本挖掘等更高級(jí)的數(shù)據(jù)分析,公司過(guò)去習(xí)慣于將數(shù)據(jù)移動(dòng)到專(zhuān)用服務(wù)器進(jìn)行分析。將數(shù)據(jù)導(dǎo)出數(shù)據(jù)倉(cāng)庫(kù)、在外部分析服務(wù)器中創(chuàng)建數(shù)據(jù)副本,然后獲得洞察和預(yù)測(cè),這一過(guò)程非常耗時(shí)。而且,這種方法需要重復(fù)的

8、數(shù)據(jù)存儲(chǔ)環(huán)境和專(zhuān)門(mén)的數(shù)據(jù)分析技能。成功建立預(yù)測(cè)模型后,若要對(duì)生產(chǎn)數(shù)據(jù)使用該模型,要么需要進(jìn)行復(fù)雜的模型重寫(xiě),要么需要再次將大量數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)移動(dòng)到外部數(shù)據(jù)分析服務(wù)器。這時(shí)對(duì)數(shù)據(jù)進(jìn)行“評(píng)分”,然后將結(jié)果移回?cái)?shù)據(jù)倉(cāng)庫(kù)。這一移動(dòng)和重用數(shù)據(jù)以生成可指導(dǎo)行動(dòng)的信息的過(guò)程可能需要數(shù)天、數(shù)周甚至數(shù)月才能完成。雖然許多組織在借助分析來(lái)利用自己的數(shù)據(jù)方面已經(jīng)非常熟練,但他們?cè)趧?chuàng)建分析模型以便從大數(shù)據(jù)獲取真正業(yè)務(wù)價(jià)值方面仍處于早期階段。其主要障礙在于實(shí)現(xiàn)對(duì)公司數(shù)據(jù)及時(shí)和直接訪問(wèn)的這些過(guò)程緩慢且神秘。然而,各種新技術(shù)通過(guò)在數(shù)據(jù)庫(kù)自身中實(shí)現(xiàn)高級(jí)分析,減少來(lái)回移動(dòng)大量數(shù)據(jù)的需要,正在打破 IT 和數(shù)據(jù)分析之間原先存在的

9、藩籬。與此同時(shí),新的數(shù)據(jù)類(lèi)型也正在對(duì)傳統(tǒng)數(shù)據(jù)源和熟悉的 BI 活動(dòng)進(jìn)行補(bǔ)充。例如,網(wǎng)絡(luò)日志文件可跟蹤網(wǎng)站訪問(wèn)者的運(yùn)動(dòng),這將揭示何人何時(shí)在何處訪問(wèn)了該網(wǎng)站。這種數(shù)據(jù)可揭示人們與您網(wǎng)站的交互情況。社交媒體有助于您了解人們想些什么或者他們對(duì)某些事情的感覺(jué)。數(shù)據(jù)可來(lái)源于網(wǎng)頁(yè)、社交媒體網(wǎng)站、微博、博客條目、電子郵件交流、搜索索引、點(diǎn)擊流、設(shè)備傳感器和所有類(lèi)型的多媒體文件(包括音頻、視頻和攝影)。這些數(shù)據(jù)不僅可以從計(jì)算機(jī)來(lái)收集,還可以從數(shù)十億移動(dòng)電話(huà)、數(shù)百億社交媒體帖子,以及源自汽車(chē)、公用事業(yè)量表、海運(yùn)集裝箱、車(chē)間設(shè)備、銷(xiāo)售點(diǎn)終端和許多其他源的不斷增多的聯(lián)網(wǎng)傳感器來(lái)收集。這些數(shù)據(jù)大多不太密集且信息含量不高

10、,不適合直接納入數(shù)據(jù)倉(cāng)庫(kù)。正如我們將看到的,其中的一些數(shù)據(jù)更適合放在 Hadoop 分布式文件系統(tǒng) (HDFS) 或非關(guān)系數(shù)據(jù)庫(kù)(通常稱(chēng)為 NoSQL 數(shù)據(jù)庫(kù)) 中。許多情況下,這是大數(shù)據(jù)分析的起點(diǎn)。大數(shù)據(jù)分析技術(shù) 一種新的方法當(dāng)您使用 SQL 查詢(xún)來(lái)查找財(cái)務(wù)數(shù)字或使用 OLAP 工具來(lái)生成銷(xiāo)售預(yù)測(cè)時(shí),通常知道自己擁有哪些類(lèi)型的數(shù)據(jù)以及這些數(shù)據(jù)會(huì)告訴您什么。收入、地理位置和時(shí)間所有這些都以可預(yù)測(cè)的方式相互關(guān)聯(lián)。您不一定知道答案是什么,但您知道數(shù)據(jù)集的各種元素之間是如何相互關(guān)聯(lián)的。BI 用戶(hù)通常從結(jié)構(gòu)化數(shù)據(jù)庫(kù)運(yùn)行標(biāo)準(zhǔn)報(bào)告,結(jié)構(gòu)化數(shù)據(jù)庫(kù)已經(jīng)過(guò)精心建??衫眠@些關(guān)系。而大數(shù)據(jù)分析需要從大量各種數(shù)據(jù)中

11、提取出有用的含義,這些數(shù)據(jù)的原始形式缺少一種可定義每個(gè)元素在 彼此的上下文中所具有的含義的數(shù)據(jù)模型。在使用這種新式的分析時(shí),您應(yīng)考慮幾個(gè)新的問(wèn)題:發(fā)現(xiàn) 許多情況下,您并不確切了解自己擁有什么樣的數(shù)據(jù)以及不同的數(shù)據(jù)集之間存在什么樣的關(guān)系。您必須通過(guò)探索和發(fā)現(xiàn)過(guò)程弄明白這些東西。迭代 因?yàn)椴⒉豢偰芴崆爸獣詫?shí)際關(guān)系,因此,在尋找所尋求的答案時(shí),往往需要通過(guò)迭代過(guò)程才能獲得洞察。迭代的本質(zhì)是,有時(shí)它會(huì)將您引向通向死胡同的路徑。沒(méi)關(guān)系,實(shí)驗(yàn)正是迭代過(guò)程的組成部分。許多分析師和行業(yè)專(zhuān)家建議,先從明確的小項(xiàng)目開(kāi)始,從每次迭代中吸取經(jīng)驗(yàn),逐漸轉(zhuǎn)到下一個(gè)想法或調(diào)查領(lǐng)域。靈活的容量 因?yàn)榇髷?shù)據(jù)分析固有的迭代性質(zhì),

12、應(yīng)準(zhǔn)備好花更多時(shí)間和利用更多資源來(lái)解決問(wèn)題。挖掘和預(yù)測(cè) 大數(shù)據(jù)分析不是簡(jiǎn)單明了的。您并不總能了解各種數(shù)據(jù)元素之間的相互關(guān)系。當(dāng)您挖掘數(shù)據(jù)來(lái)發(fā)現(xiàn)模式和關(guān)系時(shí),預(yù)測(cè)分析可以提供您所尋求的洞察。決策管理 考慮事務(wù)量和速度。如果您正在使用大數(shù)據(jù)分析來(lái)推動(dòng)多個(gè)運(yùn)營(yíng)決策(如個(gè)性化網(wǎng)站或向呼叫中心客服人員提示消費(fèi)者的習(xí)慣和活動(dòng)),那么您需要考慮如何自動(dòng)化執(zhí)行和優(yōu)化所有這些操作的實(shí)施。例如,您可能根本不知道社交數(shù)據(jù)是否可指明銷(xiāo)售趨勢(shì)。存在的挑戰(zhàn)是,需要弄清楚哪些數(shù)據(jù)元素與哪些其他數(shù)據(jù)元素相關(guān),以及存在多大程度的相關(guān)性。發(fā)現(xiàn)的過(guò)程不僅需要探索數(shù)據(jù)以了解如何使用數(shù)據(jù),而且還需要確定這些數(shù)據(jù)與傳統(tǒng)企業(yè)數(shù)據(jù)的關(guān)系。新

13、式調(diào)查不僅需要了解發(fā)生了什么,還需要知道發(fā)生這些情況的原因。例如,許多公司使用的一個(gè)關(guān)鍵指標(biāo)是客戶(hù)流失。對(duì)客戶(hù)流失做出量化相當(dāng)容易。但是,為何會(huì)出現(xiàn)客戶(hù)流失?對(duì)呼叫數(shù)據(jù)記錄、客戶(hù)支持詢(xún)問(wèn)、社交媒體的評(píng)論和其他客戶(hù)反饋進(jìn)行研究,可以幫助解釋客戶(hù)流失的原因。類(lèi)似的方法可用于其他類(lèi)型的數(shù)據(jù)及用在其他情況中。某特定商店的銷(xiāo)售額為何下降?為何某些患者生存時(shí)間比其他患者長(zhǎng)?秘訣就是要找到正確的數(shù)據(jù)、發(fā)現(xiàn)隱藏的關(guān)系并正確分析數(shù)據(jù)。大數(shù)據(jù)用例本節(jié)給出了幾個(gè)用例,說(shuō)明不同業(yè)務(wù)領(lǐng)域中大數(shù)據(jù)分析的潛能。示例 1:機(jī)器生成的數(shù)據(jù)隨著“物聯(lián)網(wǎng)”每年的穩(wěn)步增長(zhǎng),研究人員預(yù)測(cè),由機(jī)器生成的數(shù)據(jù)量有一天將會(huì)超過(guò)人類(lèi)所產(chǎn)生的數(shù)

14、據(jù)量。Machina Research(英國(guó)的一家研究公司)認(rèn)為,到 2020 年全球的“智能”連接設(shè)備將會(huì)從現(xiàn)在的 13 億增加到 125 億 不包括智能電話(huà)、PC 和平板電腦。設(shè)備傳感器遍布于重型機(jī)械、汽車(chē)、裝配線、電網(wǎng)、計(jì)算機(jī)設(shè)備和許多其他領(lǐng)域。而這僅僅只是開(kāi)始,因?yàn)樵絹?lái)越多設(shè)備的制造都將包含有監(jiān)視自身運(yùn)行及記錄故障診斷與分析結(jié)果的傳感器。例如,制造企業(yè)通常將傳感器嵌入在自己的機(jī)器中,用于監(jiān)視使用模式、預(yù)測(cè)維護(hù)問(wèn)題,以及提高建 造質(zhì)量。甚至像自行車(chē)、洗衣機(jī)和恒溫器這樣的消費(fèi)設(shè)備也成為這一機(jī)器對(duì)機(jī)器 (M2M) 通信現(xiàn)象的一部分。對(duì)這些數(shù)據(jù)流進(jìn)行研究,可以使制造商們改進(jìn)自己的產(chǎn)品以及制定更

15、準(zhǔn)確的服務(wù)周期。電子傳感器不僅監(jiān)視機(jī)械和大氣狀況,而且還監(jiān)視人體的生物特征。在醫(yī)療保健行業(yè),存在一個(gè)巨大商機(jī),其不僅可改善患者治療效果,而且還可以監(jiān)視醫(yī)療診斷、治療及索賠中存在的趨勢(shì),以便做出更好的臨床和管理決策。一旦能以聚合形式分析數(shù)據(jù),該商機(jī)會(huì)變得更加引人注目。如果有一千個(gè)傳感器顯示設(shè)備故障模式,或者有一千個(gè)心臟監(jiān)護(hù)儀顯示生物特征水平與不良反應(yīng)間的相關(guān)性,那么我們就可以開(kāi)始將趨勢(shì)轉(zhuǎn)化為預(yù)測(cè),并最終使用大數(shù)據(jù)來(lái)采取糾正措施或先發(fā)制人的行動(dòng)。同樣,發(fā)現(xiàn)模式是關(guān)鍵。例如,保險(xiǎn)公司現(xiàn)在請(qǐng)求司機(jī)們自愿提供跟蹤其運(yùn)動(dòng)、地點(diǎn)以及不同時(shí)間所處位置的數(shù)據(jù),這樣保險(xiǎn)公司就可以為每個(gè)客戶(hù)開(kāi)發(fā)更好的險(xiǎn)種??蛻?hù)通過(guò)

16、表明自己遵守限速、在事故低發(fā)地段行駛,以及避開(kāi)高犯罪區(qū)域,可以有資格獲得低成本的保險(xiǎn)計(jì)劃。示例 2:在線預(yù)訂如果您在運(yùn)營(yíng)一個(gè)在線旅游預(yù)訂網(wǎng)站,您可以利用自己的數(shù)據(jù)做很多有趣的事情來(lái)更好地了解您的用戶(hù)。例如,當(dāng)消費(fèi)者預(yù)訂航空旅行時(shí),他們訂機(jī)票的時(shí)間是否與其花錢(qián)多少有關(guān)?尋求低價(jià)票的度假旅客也許在晚上登錄,而公司旅客則可能在清晨預(yù)定航班。與每種旅行方式相關(guān)的差異是什么,您如何發(fā)現(xiàn)這些使用模式?您可以先整理日志文件以確定人們何時(shí)開(kāi)始、結(jié)束或完成預(yù)訂。您也可以查看幾個(gè)相關(guān)因素。例如,他們按價(jià)格或旅行時(shí)間排序了嗎?他們對(duì)航空公司有偏好嗎?每種類(lèi)型的買(mǎi)家是喜歡白天的航班還是晚上的航班?他們考慮了多少個(gè)不同

17、航班選擇?在完成預(yù)訂前他們?cè)L問(wèn)了您的網(wǎng)站幾次,他們花了多長(zhǎng)時(shí)間考慮購(gòu)買(mǎi)?要回答這些問(wèn)題,就需要比較和分析大量不斷生成的 web 日志數(shù)據(jù)。大多數(shù)這類(lèi)信息在孤立存在時(shí)并不十分重要,但是,當(dāng)您以聚合方式對(duì)其分析時(shí),就能開(kāi)始看到模式及辨別重要趨勢(shì)了。通過(guò)使用 HDFS 來(lái)獲取原始數(shù)據(jù)及使用 MapReduce 來(lái)處理這些數(shù)據(jù),您可以將各種變量相關(guān)聯(lián),如登錄時(shí)間、鼠標(biāo)點(diǎn)擊次數(shù)、每個(gè)會(huì)話(huà)的時(shí)長(zhǎng),以及購(gòu)買(mǎi)之前處于哪個(gè)隊(duì)列或頁(yè)面。然后您可以將這個(gè)答案集添加到您的數(shù)據(jù)倉(cāng)庫(kù)供其他分析使用。示例 3:多渠道營(yíng)銷(xiāo)和輿情分析今天的零售商必須面對(duì)大量重疊的接觸點(diǎn),其中包括社交、數(shù)字、直接接觸點(diǎn)、實(shí)體店、移動(dòng)和呼叫中心。

18、市場(chǎng)領(lǐng)先者通過(guò)分析交易歷史記錄和 web 行為,并且結(jié)合來(lái)自外部環(huán)境(如社交媒體、人口統(tǒng)計(jì)和財(cái)務(wù))的數(shù)據(jù)來(lái)獲得洞察。有遠(yuǎn)見(jiàn)的公司將社交媒體信源、客戶(hù)人口統(tǒng)計(jì)信息、心理數(shù)據(jù)(價(jià)值觀、態(tài)度、興趣或生活方式)、購(gòu)買(mǎi)數(shù)據(jù)和網(wǎng)絡(luò)使用數(shù)據(jù)合并在一起,描繪出每個(gè)客戶(hù)的行為和好惡的一幅全景視圖。利用這些信息,可幫助零售商了解作為“個(gè)人市場(chǎng)”的每個(gè)潛在買(mǎi)家,從而為個(gè)人客戶(hù)提供個(gè)性化量身定制的產(chǎn)品。為實(shí)現(xiàn)這種程度的個(gè)性化,零售商必須從有關(guān)客戶(hù)、消費(fèi)歷史、庫(kù)存、價(jià)格、營(yíng)銷(xiāo)活動(dòng)及其他促銷(xiāo)的大量數(shù)據(jù)中找出隱藏的答案。通過(guò)分析這些數(shù)據(jù),零售商們可以更好地了解激發(fā)各種客戶(hù)群和各種渠道中所希望行為的因素。數(shù)據(jù)還揭示了影響顧客

19、忠誠(chéng)度和保留率的各種因素,如易用性、物有所值以及客戶(hù)獎(jiǎng)勵(lì)計(jì)劃的影響。對(duì)零售商而言,客戶(hù)流失是一個(gè)大問(wèn)題,而合適的分析解決方案能幫助他們發(fā)現(xiàn)客戶(hù)流失背后的原因。通過(guò)檢查已流失客戶(hù)的有關(guān)記錄,您可以發(fā)現(xiàn)模式,然后在當(dāng)前客戶(hù)中搜索那些同樣模式的早期跡象??梢圆东@、聚合和分析客戶(hù)交互,并將其與其他類(lèi)似凈推介值的 KPI 相關(guān)聯(lián),從而增強(qiáng)對(duì)客戶(hù)行為的洞察。例如,對(duì) Twitter 信源和 Facebook 帖子進(jìn)行分析,可以揭示特定區(qū)域或特定客戶(hù)群內(nèi)的服務(wù)質(zhì)量問(wèn)題。盡管傳統(tǒng)的客戶(hù)細(xì)分戰(zhàn)略也按渠道特定的購(gòu)買(mǎi)周期對(duì)客戶(hù)進(jìn)行了分組,但是,人們?cè)絹?lái)越多地通過(guò)公司是否能很好地管理跨所有渠道(包括移動(dòng)、網(wǎng)絡(luò)、呼叫中

20、心、IVR、經(jīng)銷(xiāo)商和零售店)的交互來(lái)界定其價(jià)值。輿情數(shù)據(jù)可以告訴您具體某個(gè)人是否喜歡您的公司和產(chǎn)品。將這些信息與其他電子商務(wù)數(shù)據(jù)相結(jié)合后,您還可以辨別出這些人是否是大消費(fèi)客戶(hù),是否是???,或者還不是客戶(hù)。您還可以了解這些人對(duì)您客戶(hù)數(shù)據(jù)庫(kù)中的其他人是否產(chǎn)生影響。當(dāng)您結(jié)合所有這些數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆治龊?,就可以揭示出隱藏的關(guān)系,若非如此,您將無(wú)法了解這些關(guān)系。您可以確定行為模式,甚至可以預(yù)測(cè)出其他人在類(lèi)似情況下可能會(huì)做什么。大數(shù)據(jù)分析需求在上面“大數(shù)據(jù)分析技術(shù)”一節(jié)中,我們討論了您可以用來(lái)尋找大數(shù)據(jù)中蘊(yùn)藏的意義和隱藏的關(guān)系的一些方法。本節(jié)我們將介紹以有利方式執(zhí)行這些調(diào)查的三個(gè)重要需求:最大限度地減少數(shù)

21、據(jù)移動(dòng)利用現(xiàn)有技能關(guān)注數(shù)據(jù)安全最大限度減少數(shù)據(jù)移動(dòng)就是節(jié)約計(jì)算資源。在傳統(tǒng)分析案例中,數(shù)據(jù)被移入計(jì)算機(jī)進(jìn)行處理,然后發(fā)送到下一個(gè)目的地。例如,可能會(huì)從電子商務(wù)系統(tǒng)中提取生產(chǎn)數(shù)據(jù),將其轉(zhuǎn)換為關(guān)系數(shù)據(jù)類(lèi)型,然后加載到結(jié)構(gòu)化的運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)中供生成報(bào)告。但是,隨著數(shù)據(jù)量的增長(zhǎng),這種類(lèi)型的 ETL 架構(gòu)變得越來(lái)越低效。有太多的數(shù)據(jù)需要來(lái)回移動(dòng)。因此最好在同一個(gè)位置存儲(chǔ)和處理數(shù)據(jù)。隨著新數(shù)據(jù)和新數(shù)據(jù)源的出現(xiàn),人們開(kāi)始需要掌握新的技能。有時(shí),現(xiàn)有的技能儲(chǔ)備將決定可以和應(yīng)該在何處實(shí)施分析。缺乏必要技能時(shí),培訓(xùn)、招聘和新工具使用多管齊下將會(huì)解決這一問(wèn)題。在大多數(shù)組織中,能使用 SQL 分析數(shù)據(jù)的人比能使用 Ma

22、pReduce 分析數(shù)據(jù)的人多,因此,能夠同時(shí)支持這兩種處理就顯得尤為重要。數(shù)據(jù)安全對(duì)許多企業(yè)應(yīng)用程序都至關(guān)重要。數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)不僅習(xí)慣于仔細(xì)定義的指標(biāo)及維度和屬性,而且還習(xí)慣于一組可靠的管理策略和安全控制。而對(duì)非結(jié)構(gòu)化數(shù)據(jù)源和開(kāi)源分析工具,往往缺乏這些嚴(yán)格的過(guò)程。要注意每個(gè)分析項(xiàng)目的安全和數(shù)據(jù)治理需求,并確保您正在使用的工具可以滿(mǎn)足這些需求。大數(shù)據(jù)分析工具有五種分析大數(shù)據(jù)并生成洞察的主要方法:發(fā)現(xiàn)工具 適用于整個(gè)信息生命周期,可快速、直觀地探索和分析來(lái)自結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源的任意組合的信息。這些工具允許與傳統(tǒng)的 BI 源系統(tǒng)一起進(jìn)行分析。因?yàn)椴恍枰捌诮?,因此用?hù)可以迅速獲得新洞察,

23、得出有意義的結(jié)論并做出明智的決策。BI 工具 對(duì)報(bào)告、分析和績(jī)效管理都很重要,主要使用來(lái)自數(shù)據(jù)倉(cāng)庫(kù)和生產(chǎn)信息系統(tǒng)的事務(wù)數(shù)據(jù)。BI 工具在一個(gè)集成的企業(yè)級(jí)平臺(tái)上提供全面的業(yè)務(wù)智能和績(jī)效管理功能,包括企業(yè)報(bào)表、信息板、即席分析、記分卡和假設(shè)場(chǎng)景分析。數(shù)據(jù)庫(kù)中分析 包括發(fā)現(xiàn)數(shù)據(jù)中存在的模式和關(guān)系的各種技術(shù)。因?yàn)檫@些技術(shù)直接在數(shù)據(jù)庫(kù)內(nèi)應(yīng)用, 因此消除了與其他分析服務(wù)器之間的數(shù)據(jù)移動(dòng),這加速了信息周期并降低了總體擁有成本。Hadoop 用于對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以識(shí)別宏觀趨勢(shì)或找到有價(jià)值的信息,例如,超出范圍的值。它支持企業(yè)使用廉價(jià)的商用服務(wù)器從新數(shù)據(jù)獲得潛在價(jià)值。組織主要將 Hadoop 用作高級(jí)分析形式之

24、前的處理手段。決策管理 包括基于當(dāng)前上下文采取明智行動(dòng)的預(yù)測(cè)建模、業(yè)務(wù)規(guī)則和自我學(xué)習(xí)。這種分析類(lèi)型支持跨多渠道的個(gè)別建議,可以使每個(gè)客戶(hù)交互的價(jià)值最大化。可以集成 Oracle Advanced Analytics 評(píng)分以實(shí)施復(fù)雜的預(yù)測(cè)分析模型并創(chuàng)建實(shí)時(shí)的決策流程。所有這些方法在揭示隱藏關(guān)系的過(guò)程中都起著一定的作用。像 Oracle Endeca Information Discovery 這樣的傳統(tǒng)數(shù)據(jù)發(fā)現(xiàn)工具、像 Oracle Exalytics 這樣的 BI 工具以及像 Oracle Real Time Decisions 這樣的決策管理工具,將在其他白皮書(shū)中給予全面介紹。在本文中,我們

25、主要關(guān)注集成使用 Hadoop 和數(shù)據(jù)庫(kù)中分析來(lái)處理和分析廣闊的新數(shù)據(jù)領(lǐng)域。使用 Hadoop 的處理和分析類(lèi)型當(dāng)您需要就地過(guò)濾、排序或預(yù)處理大量新數(shù)據(jù)并提取數(shù)據(jù)以生成理論上包含更多“情報(bào)”的密度更高的數(shù)據(jù)時(shí),Hadoop 是一個(gè)普遍的選擇。預(yù)處理包括過(guò)濾新數(shù)據(jù)源以使其適用于數(shù)據(jù)倉(cāng)庫(kù)中的其他分析。例如,演唱會(huì)主辦方可能希望對(duì) twitter 信源進(jìn)行分析來(lái)確定觀眾對(duì)與 Lady Gaga 新巡演有關(guān)的舞臺(tái)布景、節(jié)目單、服飾和熱身樂(lè)隊(duì)喜歡的程度。他們可能首先使用像“#Gaga”、“#concert”、“#Palladium”等# 標(biāo)記來(lái)收集與該藝術(shù)家相關(guān)的微博。通過(guò)解析文本并將其與英語(yǔ)字典中的褒

26、義和貶義詞語(yǔ)相比較而確定每條微博的輿情。與 MapReduce 結(jié)合使用,Hadoop 可以在多個(gè)服務(wù)器上并行處理大量數(shù)據(jù),然后把數(shù)據(jù)重新組合成一個(gè)統(tǒng)一的答案集,或?qū)⑵渑c他類(lèi)型的企業(yè)數(shù)據(jù)相整合??梢詫⑸傻臄?shù)據(jù)集導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)供數(shù)據(jù)挖掘和預(yù)測(cè)分析使用。對(duì)粉絲和觀眾的社交媒體進(jìn)行分析,可以揭示在線消費(fèi)者輿情的轉(zhuǎn)變速度。體育運(yùn)動(dòng)隊(duì)、當(dāng)選官員和其他公眾人物可以利用類(lèi)似的戰(zhàn)略來(lái)識(shí)別公眾態(tài)度的細(xì)微差別,并做出相應(yīng)的回應(yīng)。任何擁有客戶(hù)數(shù)據(jù)庫(kù)的商業(yè)組織都可以進(jìn)行進(jìn)一步的分析,確定積極和消極態(tài)度對(duì)總銷(xiāo)量、支持詢(xún)問(wèn)和其他關(guān)鍵指標(biāo)有怎樣的影響。使用 Hadoop 對(duì)社交媒體數(shù)據(jù)進(jìn)行預(yù)處理通常是以下活動(dòng)的第一步:預(yù)測(cè)

27、客戶(hù)行為、預(yù)測(cè)交叉銷(xiāo)售/追加銷(xiāo)售商機(jī)、提高市場(chǎng)營(yíng)銷(xiāo)活動(dòng)響應(yīng)率、防止客戶(hù)流失以及分析購(gòu)物車(chē)以發(fā)現(xiàn)關(guān)聯(lián)、模式和關(guān)系。Hadoop 也是一個(gè)過(guò)濾和預(yù)處理博客文件中的數(shù)據(jù)的極好工具。公司數(shù)據(jù)倉(cāng)庫(kù)在大數(shù)據(jù)時(shí)代不會(huì)過(guò)時(shí)。事實(shí)上,隨著您發(fā)現(xiàn)新的分析類(lèi)型以及經(jīng)預(yù)處理后可融入您現(xiàn)有決策支持框架的新數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù)變得更加重要。一旦對(duì)這些數(shù)據(jù)進(jìn)行了分類(lèi)、匯總和“會(huì)話(huà)化”(將其劃分為個(gè)人客戶(hù)對(duì)話(huà)),您就做好了將這些匯總加載到數(shù)據(jù)倉(cāng)庫(kù)供分析使用的準(zhǔn)備。您可能決定將會(huì)話(huà)化的信息與 ERP 系統(tǒng)中的客戶(hù)購(gòu)買(mǎi)記錄相聯(lián)接,然后分析結(jié)果,從而更清楚地知道何種 web 操作帶來(lái)了何種購(gòu)買(mǎi)類(lèi)型。使用 Oracle Advanced

28、 Analytics 執(zhí)行數(shù)據(jù)庫(kù)中處理大多數(shù) Oracle 客戶(hù)都非常習(xí)慣于使用 SQL 語(yǔ)言對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢(xún)、報(bào)告和分析。這是事實(shí)上的分析標(biāo)準(zhǔn),是大多數(shù) BI 工具的基礎(chǔ)技術(shù)。R 是人們?cè)谶M(jìn)行統(tǒng)計(jì)分析時(shí)喜歡使用的開(kāi)源編程語(yǔ)言。分析師、數(shù)據(jù)科學(xué)家、研究人員和學(xué)者普遍使用 R 語(yǔ)言,因而 R 程序員群體越來(lái)越龐大。數(shù)據(jù)一旦加載到 Oracle 數(shù)據(jù)庫(kù),用戶(hù)就可以利用 Oracle Advanced Analytics (OAA) 來(lái)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的關(guān)系。Oracle Advanced Analytics 是 Oracle Database 企業(yè)版的一個(gè)選件,它兼具強(qiáng)大的數(shù)據(jù)庫(kù)中算法和開(kāi)源

29、R 算法,用戶(hù)可以使用 SQL 和 R 語(yǔ)言來(lái)訪問(wèn)這些算法。該選件將高性能數(shù)據(jù)挖掘功能與開(kāi)源 R 語(yǔ)言相結(jié)合,以便支持預(yù)測(cè)分析、數(shù)據(jù)挖掘、文本挖掘、統(tǒng)計(jì)分析、高級(jí)數(shù)值計(jì)算和交互式圖形 所有這些都在數(shù)據(jù)庫(kù)內(nèi)部進(jìn)行。Oracle Advanced Analytics 在一個(gè)強(qiáng)大的數(shù)據(jù)庫(kù)中架構(gòu)上提供全部核心分析功能和語(yǔ)言。這些分析功能包括:在數(shù)據(jù)庫(kù)中實(shí)現(xiàn)的數(shù)據(jù)挖掘算法、用于基本統(tǒng)計(jì)技術(shù)的原生 SQL 函數(shù),以及與開(kāi)源 R 的集成, 這一集成可用于統(tǒng)計(jì)編程及利用一系列更廣泛的統(tǒng)計(jì)技術(shù)。這個(gè)強(qiáng)大的分析環(huán)境最大限度減少了數(shù)據(jù)移動(dòng)并確保了固有的安全性、可伸縮性和性能,從而為Oracle 數(shù)據(jù)庫(kù)客戶(hù)提供了應(yīng)對(duì)

30、大數(shù)據(jù)項(xiàng)目的各種各樣的功能。它包括數(shù)據(jù)挖掘工具,您可以使用這些工具創(chuàng)建復(fù)雜的模型并將它們部署在非常大的數(shù)據(jù)集上。您可以在 BI 應(yīng)用程序中利用這些預(yù)測(cè)模型的分析結(jié)果。例如,您可以使用回歸模型基于購(gòu)買(mǎi)行為和人口統(tǒng)計(jì)數(shù)據(jù)來(lái)預(yù)測(cè)客戶(hù)年齡。您還可以構(gòu)建和應(yīng)用能幫助您瞄準(zhǔn)最佳客戶(hù)、建立詳細(xì)客戶(hù)檔案、發(fā)現(xiàn)和防止欺詐以及解決許多其他分析難題的預(yù)測(cè)模型。高效數(shù)據(jù)挖掘利用 OAA 中的數(shù)據(jù)挖掘工具,數(shù)據(jù)分析師可以直接操作數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)、以圖形方式研究數(shù)據(jù)、構(gòu)建和評(píng)估多個(gè)數(shù)據(jù)挖掘模型,以及在整個(gè)企業(yè)中部署預(yù)測(cè)和洞察。OAA 包括 15 個(gè)數(shù)據(jù)挖掘算法,分別用于分類(lèi)、聚類(lèi)、購(gòu)物籃分析、欺詐檢測(cè)和文本挖掘,可應(yīng)用這些

31、算法來(lái)解決各種數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題。它還包括十幾個(gè)您可用來(lái)構(gòu)建和部署預(yù)測(cè)應(yīng)用程序的算法,這些應(yīng)用程序可自動(dòng)挖掘星型模式數(shù)據(jù)以提供實(shí)時(shí)結(jié)果和預(yù)測(cè)。由于數(shù)據(jù)、模型和結(jié)果都保存在 Oracle 數(shù)據(jù)庫(kù)中,消除了數(shù)據(jù)移動(dòng),所以信息延遲降至最低,同時(shí)維護(hù)了安全性。使用標(biāo)準(zhǔn) SQL 命令,您可以訪問(wèn)數(shù)據(jù)庫(kù)中的高性能算法來(lái)挖掘表、視圖、星型模式以及事務(wù)和非結(jié)構(gòu)化數(shù)據(jù)。能夠訪問(wèn) Oracle 數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)的任何人,都可以使用標(biāo)準(zhǔn)報(bào)表和BI 工具來(lái)訪問(wèn) OAA 結(jié)果、預(yù)測(cè)、建議和發(fā)現(xiàn)。使用 R 進(jìn)行統(tǒng)計(jì)分析Oracle Advanced Analytics 的設(shè)計(jì)初衷就是支持統(tǒng)計(jì)人員在非常大的數(shù)據(jù)集上使用 R。分

32、析模型可以使用R 來(lái)編寫(xiě)構(gòu)建。Oracle 數(shù)據(jù)庫(kù)中的相關(guān)表和視圖可以顯示為 R 對(duì)象。因而無(wú)需編寫(xiě) SQL 語(yǔ)句。分析師可以編寫(xiě) R 代碼來(lái)操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)。通過(guò)在數(shù)據(jù)庫(kù)中原地運(yùn)行 R 程序,不再需要來(lái)回移動(dòng)數(shù)據(jù)。這種集成式架構(gòu)可以確保卓越的安全性和性能,因?yàn)槟梢赃\(yùn)用大規(guī)模可擴(kuò)展的硬件資源處理復(fù)雜的問(wèn)題。OAA 也支持現(xiàn)有 R 腳本和第三方程序包。所有現(xiàn)有的 R 開(kāi)發(fā)技能、工具和腳本都可以在 OAA 中透明地執(zhí)行,并且可以根據(jù) Oracle Database11g 中存儲(chǔ)的數(shù)據(jù)進(jìn)行伸縮。R、Oracle 數(shù)據(jù)庫(kù)和 Hadoop 之間的緊密集成,讓分析師能夠編寫(xiě)一個(gè)可以在以下三個(gè)不同環(huán)境中

33、運(yùn)行的R 腳本:運(yùn)行開(kāi)源 R 的筆記本電腦、和 Oracle Big Data Connectors 一起運(yùn)行的 Hadoop,以及 Oracle 數(shù)據(jù)庫(kù)。如下節(jié)所述,很容易將分析結(jié)果鏈接到諸如 Oracle Business Intelligence 和 Oracle Exalytics 等業(yè)務(wù)分析工具。Hadoop 與 Oracle 數(shù)據(jù)庫(kù)相鏈接有兩個(gè)不同的選件都可用來(lái)將 Hadoop 中的數(shù)據(jù)和中間結(jié)果與您的 Oracle 數(shù)據(jù)倉(cāng)庫(kù)相鏈接。根據(jù)您的使用場(chǎng)合,您可能希望將 Hadoop 數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,也可能希望將它留在原地僅供使用 SQL 對(duì)其進(jìn)行查詢(xún)。Oracle Loader

34、for Hadoop 提供了一種將 HDFS 數(shù)據(jù)加載到 Oracle 數(shù)據(jù)倉(cāng)庫(kù)的簡(jiǎn)單方法。它使用MapReduce 創(chuàng)建優(yōu)化數(shù)據(jù)集以便可以高效地將這些數(shù)據(jù)加載到 Oracle 數(shù)據(jù)庫(kù)。與其他 Hadoop 加載器不同, 它生成 Oracle 內(nèi)部格式, 因而能以更少的系統(tǒng)資源更快地加載數(shù)據(jù)。數(shù)據(jù)加載后,就可以使用基于 SQL 的傳統(tǒng)業(yè)務(wù)智能工具訪問(wèn)它們。Oracle SQL Connector for HDFS 是一種高速連接器,用于直接從 Oracle 數(shù)據(jù)庫(kù)訪問(wèn) HDFS 數(shù)據(jù),在HDFS 與數(shù)據(jù)倉(cāng)庫(kù)環(huán)境之間架起了橋梁。這樣可以通過(guò) SQL 查詢(xún) HDFS 中存儲(chǔ)的數(shù)據(jù),將這些數(shù)據(jù)與Oracle 數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)相聯(lián)接,或?qū)⑺鼈兗虞d到 Oracle 數(shù)據(jù)庫(kù)中。Oracle 大數(shù)據(jù)平臺(tái)Oracle 有三個(gè)解決大數(shù)據(jù)不同部分問(wèn)題的工程化系統(tǒng)。每個(gè)平臺(tái)都包括卓越數(shù)據(jù)處理所需的全部必要硬件和軟件。所有組件都預(yù)先進(jìn)行了集成,隨時(shí)可以部署和運(yùn)行。Ora

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論