大數(shù)據(jù)分析市場(chǎng)行業(yè)分布講義_第1頁(yè)
大數(shù)據(jù)分析市場(chǎng)行業(yè)分布講義_第2頁(yè)
大數(shù)據(jù)分析市場(chǎng)行業(yè)分布講義_第3頁(yè)
大數(shù)據(jù)分析市場(chǎng)行業(yè)分布講義_第4頁(yè)
大數(shù)據(jù)分析市場(chǎng)行業(yè)分布講義_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)機(jī)大數(shù)據(jù)機(jī) 大數(shù)據(jù)分析市場(chǎng)行業(yè)分布 ? 2012年大數(shù)據(jù)分析需求行業(yè)分布 政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。 ? 結(jié)論:各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用的需求,潛在市場(chǎng)空間非??捎^。 云展大數(shù)據(jù)機(jī) 收集網(wǎng)站日志,交易數(shù)據(jù),音頻視頻數(shù)據(jù),即時(shí)信息 大數(shù)據(jù)分析應(yīng)用大數(shù)據(jù)分析應(yīng)用 數(shù)據(jù)導(dǎo)入 確立分析目標(biāo) 編寫分析程序 為分析目標(biāo)生成報(bào)表,趨勢(shì)圖等 大數(shù)據(jù)采集 大數(shù)據(jù)存儲(chǔ) 大數(shù)據(jù)處理 大數(shù)據(jù)可視化 可擴(kuò)展數(shù)據(jù)采集框架 元數(shù)據(jù)管理 分布式大數(shù)據(jù)存儲(chǔ) 大數(shù)據(jù)并行處理引擎 圖表生成工具 大數(shù)據(jù)分析平臺(tái)大數(shù)據(jù)分析平臺(tái) 云展大數(shù)據(jù)機(jī)軟件架構(gòu) 可視化工具 大數(shù)據(jù)知識(shí)庫(kù) 文本分

2、析工具 結(jié)構(gòu)化數(shù)據(jù) 分析工具 E3編程接口 MapReduce接口 SQL接口 E3大數(shù)據(jù)并行處理框架 元數(shù)據(jù)管理 數(shù)據(jù)收集框架 基于分布式文件系統(tǒng)的數(shù)據(jù)存儲(chǔ) 云展大數(shù)據(jù)機(jī)硬件架構(gòu) ? 標(biāo)準(zhǔn)機(jī)架式設(shè)計(jì) 每個(gè)機(jī)架可容納40臺(tái)節(jié)點(diǎn)機(jī) 節(jié)點(diǎn)機(jī)通過(guò)千兆以太網(wǎng)連接 節(jié)點(diǎn)機(jī)采用標(biāo)準(zhǔn)PC服務(wù)器 可擴(kuò)展到20個(gè)機(jī)架 原型機(jī):awan(2個(gè)機(jī)架,76臺(tái)節(jié)點(diǎn)機(jī)) 3云展關(guān)鍵技術(shù)E 引擎 ?E3將數(shù)據(jù)處理過(guò)程描述為一個(gè)線性工作流,工作流中每一個(gè)節(jié)點(diǎn)稱為一個(gè)階段,每階段包含若干處理單元,每個(gè)處理單元對(duì)數(shù)據(jù)進(jìn)行部分處理。 E3按照工作流的順序,并行地調(diào)度處理單元在計(jì)算節(jié)點(diǎn)上運(yùn)行,自動(dòng)在處理單元之間傳遞中間運(yùn)算結(jié)果,最終

3、完成整個(gè)數(shù)據(jù)處理過(guò)程。 pu1 pu2 pu4 pu5 云數(shù)據(jù) 存儲(chǔ)服務(wù) pu1 pu2 pu4 pu5 pu1 pu3 pu5 pu1 PU processing unit (處理單元) 云 數(shù)據(jù)存儲(chǔ)服務(wù) 3E 與阿帕奇Hadoop的性能比較 ? Grep任務(wù):每個(gè)節(jié)點(diǎn)535M ? Select任務(wù):每個(gè)節(jié)點(diǎn)1G Grep任務(wù) Select任務(wù) 混合式數(shù)據(jù)分析工具 ? 同時(shí)支持非結(jié)構(gòu)化的文本分析和結(jié)構(gòu)化的數(shù)據(jù)庫(kù)分析 ? 建立在統(tǒng)一的E3引擎之上,能夠進(jìn)行交互和聯(lián)合分析 ? 支持對(duì)海量數(shù)據(jù)的快速分析,發(fā)現(xiàn)其中隱藏的知識(shí)、行為模式等 ? 提供描述語(yǔ)言,支持用戶進(jìn)行自定義的數(shù)據(jù)分析 文本分析工具

4、結(jié)構(gòu)化數(shù)據(jù) 分析工具 非機(jī)構(gòu)化分析工具 ?分布式存儲(chǔ)和處理模型 無(wú)需定義表結(jié)構(gòu) 數(shù)據(jù)直接存儲(chǔ)與分布式文件系統(tǒng)中 自動(dòng)錯(cuò)誤處理和恢復(fù) ?基本的數(shù)據(jù)訪問(wèn)接口 put/get: 隨機(jī)的文檔數(shù)據(jù)讀取 scan: 批量數(shù)據(jù)掃描 tokenize: 將文檔組織成單詞組以提供給上層分析處理 ?分析數(shù)據(jù)接口 Extract operator ?: 提供基于正則表達(dá)式和字典的匹配操作 Select operator : 提供基于用戶選擇條件的過(guò)濾操作 Join operator ?: 將來(lái)自多個(gè)數(shù)據(jù)源的文檔 /文字流進(jìn)行合并 Consolidate operator : 去重操作 ?提供類似于SQL的文本處理分

5、析語(yǔ)言: EPQL 非結(jié)構(gòu)化處理流程 ? 每一個(gè)EPQL將對(duì)特定集合的文檔進(jìn)行處理 ? 每個(gè)文檔將通過(guò)4個(gè)操作的處理,然后中間結(jié)果傳給連接操作和去重操作 ? 結(jié)果將是符合用戶要求的文檔或統(tǒng)計(jì)內(nèi)容,比如: 查找所有包含關(guān)鍵詞:Cloud Computing,在2012年產(chǎn)生的網(wǎng)頁(yè) 統(tǒng)計(jì)近一個(gè)月內(nèi),出現(xiàn)包含釣魚島的文檔與包含日本車銷量?jī)?nèi)容的文檔的關(guān)聯(lián)度 文本分析示例:用戶反饋信息分析 ? 在電子商務(wù)網(wǎng)站,如京東等,用戶購(gòu)買結(jié)束后,會(huì)對(duì)產(chǎn)品購(gòu)買過(guò)程及產(chǎn)品本身進(jìn)行評(píng)價(jià),通過(guò)分析用戶的反饋信息,可以發(fā)現(xiàn)其中的問(wèn)題 關(guān)鍵問(wèn)題:發(fā)貨速度慢,關(guān)鍵問(wèn)題:發(fā)貨速度慢,需要更換物流公司需要更換物流公司 結(jié)構(gòu)化數(shù)據(jù)分

6、析 ? 結(jié)構(gòu)化數(shù)據(jù)分析通過(guò)維護(hù)并定期更新data cube的方式來(lái)提供高效的分析查詢結(jié)果 ? 根據(jù)時(shí)間戳來(lái)實(shí)現(xiàn)同時(shí)支持實(shí)時(shí)事務(wù)處理和分析查詢 分析查詢E3引擎更新Cube事務(wù)處理查詢?cè)獢?shù)據(jù)鍵值存儲(chǔ)系統(tǒng)實(shí)時(shí)數(shù)據(jù)DataCube數(shù)據(jù)分片 分布式文件系統(tǒng)分布式索引技術(shù) ?在結(jié)構(gòu)化分析工具中,系統(tǒng)建立多維的分布式索引以支持高效的并行查找 分布式索引技術(shù) 建立分布式二級(jí)索引 支持并發(fā)地在多節(jié)點(diǎn)上同時(shí)查詢 可以和本地?cái)?shù)據(jù)庫(kù)索引連接 例如:分布式 B樹索引結(jié)構(gòu), 可視化工具 ? 將分析結(jié)果以報(bào)表的形式展現(xiàn)給用戶 支持線圖、餅圖、柱裝圖、趨勢(shì)圖等常用的圖表格式 標(biāo)簽云以及數(shù)據(jù)關(guān)聯(lián)挖掘 云展大數(shù)據(jù)機(jī)與其他大數(shù)據(jù)

7、分析平臺(tái)的比較 云展大數(shù)據(jù)機(jī) 是否一體機(jī) 硬件架構(gòu) 大數(shù)據(jù)收集 是 標(biāo)準(zhǔn) 框架式設(shè)計(jì) Greenplum HD 是 標(biāo)準(zhǔn) 手工 IBM BigInsights 否 N.A. 手工 元數(shù)據(jù)管理 大數(shù)據(jù)存儲(chǔ) 大數(shù)據(jù)處理引擎 大數(shù)據(jù)處理接口 支持 HDFS E3 E3,MapReduce,SQL 支持 Elephant DB,支持檢索、外部應(yīng)用訪問(wèn)接口 不支持 HDFS Hadoop MapReduce,HiveQL 不支持 HDFS Hadoop MapReduce,Jaql 大數(shù)據(jù)可視化 如何處理分析結(jié)果 不支持 需要倒入Greenplum Database數(shù)據(jù)倉(cāng)庫(kù) 不支持 文件存儲(chǔ),無(wú)外部應(yīng)用

8、訪問(wèn)接口 分析案例:95598客服服務(wù) ? 主要功能包括客戶檔案查詢、電量電費(fèi)查詢、業(yè)務(wù)辦理進(jìn)度查詢,以及業(yè)務(wù)受理、故障報(bào)修、咨詢受理、投訴舉報(bào)、消息訂閱 ? 主要業(yè)務(wù)流程 客戶電話記錄 用戶電話 語(yǔ)音記錄 客戶電話記錄 ? 由客服人員手工錄入,包括: 電話起止時(shí)間 客戶身份信息 原因(歸類為:電費(fèi)查詢、投訴、保修等幾大類) 簡(jiǎn)單內(nèi)容概述(不完整,客戶人員匆匆記錄) ? 當(dāng)前的處理方式簡(jiǎn)單的統(tǒng)計(jì)信息: 平均電話時(shí)常 客戶分布信息 每種電話的統(tǒng)計(jì)百分比 ? 缺乏深度的分析 用戶因?yàn)槭裁炊对V,這種投訴是否是普遍存在的 每個(gè)用戶是否通過(guò)撥打955598電話完成了他的請(qǐng)求 語(yǔ)音記錄 ? 用戶和客服之

9、間的對(duì)話會(huì)被完整記錄為語(yǔ)音文件 ? 語(yǔ)音文件包含了豐富的信息: 用戶打電話的主要原因 客服的服務(wù)態(tài)度 客服的服務(wù)能力 用戶的滿意度 ? 因?yàn)槿鄙傧嚓P(guān)工具,當(dāng)前采用人員采樣收聽(tīng)的策略,效率低,覆蓋率低 針對(duì)客服信息的大數(shù)據(jù)分析 關(guān)聯(lián) 翻譯 混合數(shù)據(jù)分析 導(dǎo)入 云展數(shù)據(jù)倉(cāng)庫(kù) 用戶數(shù)據(jù) 產(chǎn)生新的數(shù)據(jù) 改進(jìn)業(yè)務(wù)流程 關(guān)鍵技術(shù)非結(jié)構(gòu)化語(yǔ)音分析 客服信息 內(nèi)容分割: 按照音色音域 用戶信息 記錄了用戶的投訴內(nèi)容和對(duì)服務(wù)的滿意度 語(yǔ)音語(yǔ)調(diào)分析,看是否按照規(guī)定的態(tài)度服務(wù) 分析結(jié)果用戶滿意度 ? 用戶撥打客服電話都是有一定的目的,目的達(dá)到與否則表示了客服的成功率 ? 通過(guò)對(duì)用戶的語(yǔ)義、情緒分析,符合下列模型的,

10、分析認(rèn)為是正確滿足用戶需求的 不滿 憤怒 疑問(wèn) 稱贊 感謝 釋疑 平靜 分析結(jié)果客服質(zhì)量 ? 客服質(zhì)量定義為:?jiǎn)挝粫r(shí)間內(nèi)滿足的用戶數(shù)量 ? 對(duì)某一特定客服人員: 服務(wù)效率 ?滿意的用戶數(shù)總服務(wù)時(shí)間 服務(wù)質(zhì)量統(tǒng)計(jì)服務(wù)質(zhì)量統(tǒng)計(jì) 滿意的用戶數(shù)服務(wù)質(zhì)量 ?總用戶數(shù)分析結(jié)果熱點(diǎn)分析 ? 通過(guò)整理分析用戶通話內(nèi)容得到用戶投訴的主要目的 ? 使用數(shù)據(jù)挖掘和數(shù)據(jù)可視化來(lái)統(tǒng)計(jì)關(guān)鍵問(wèn)題 ? 支持海量數(shù)據(jù)的快速處理 ? 分析客戶通話內(nèi)容,按照詞頻構(gòu)造標(biāo)簽云: 關(guān)鍵技術(shù)分結(jié)構(gòu)化數(shù)據(jù)分析 ? 系統(tǒng)支持按照關(guān)鍵詞(一個(gè)或多個(gè))將錄音電話切片分類 比如,要查找關(guān)于“電費(fèi)”相關(guān)的記錄中主要的投訴內(nèi)容 ? 通過(guò)索引和分布式處理

11、機(jī)制,可以快速的生成新的統(tǒng)計(jì)數(shù)據(jù)(類似于在數(shù)據(jù)倉(cāng)庫(kù)中做切片操作): 關(guān)鍵技術(shù)結(jié)構(gòu)化/分結(jié)構(gòu)化混合分析 ? 客服內(nèi)容由兩部分:關(guān)于電話基本信息的關(guān)系數(shù)據(jù),具體的語(yǔ)音信息 ? 關(guān)聯(lián)分析將兩者結(jié)合起來(lái)進(jìn)行深度分析: 電話耗時(shí)10分鐘以下和10分鐘以上的用戶滿意度統(tǒng)計(jì) 分布在不同區(qū)域的用戶滿意度統(tǒng)計(jì) 收入在不同范圍的用戶關(guān)心的主要問(wèn)題 客服填寫的簡(jiǎn)要信息是否和用戶錄音記錄一致 客戶電話主要集中來(lái)電時(shí)間分布,以及和滿意度的關(guān)聯(lián)度 客服的效率和時(shí)間的關(guān)系 其他案例 ? 網(wǎng)易私有云平臺(tái)網(wǎng)易私有云平臺(tái) 推進(jìn)企業(yè)內(nèi)數(shù)據(jù)共享、全局信息挖掘與商業(yè)智能 數(shù)據(jù)共享 IP城市庫(kù)、樂(lè)庫(kù)、書庫(kù) 圖像處理、文本分析(分詞、標(biāo)簽、擴(kuò)展分類)、數(shù)據(jù)挖掘(聚類、關(guān)聯(lián)規(guī)功能 則)、語(yǔ)音處理、GIS 應(yīng)用平滑遷移 配額與計(jì)費(fèi) 應(yīng)用架構(gòu) 數(shù)據(jù)管理 應(yīng)用托管 Web App Engine for Java 負(fù)載均衡(LVS、反向代理)、DNS、消息隊(duì)列 DDB、對(duì)象存儲(chǔ)、文件中心、關(guān)系數(shù)據(jù)存儲(chǔ)、全文檢索、并行分析、Timeline、NewSQL、緩存服務(wù) 用戶管理與監(jiān)控平臺(tái) 管理員運(yùn)維平臺(tái) 虛擬化 硬件 虛擬機(jī)、網(wǎng)絡(luò)、云硬盤 IDC、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò) epiC

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論