版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)機大數(shù)據(jù)機 大數(shù)據(jù)分析市場行業(yè)分布 ? 2012年大數(shù)據(jù)分析需求行業(yè)分布 政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。 ? 結(jié)論:各個行業(yè)都存在大數(shù)據(jù)應(yīng)用的需求,潛在市場空間非常可觀。 云展大數(shù)據(jù)機 收集網(wǎng)站日志,交易數(shù)據(jù),音頻視頻數(shù)據(jù),即時信息 大數(shù)據(jù)分析應(yīng)用大數(shù)據(jù)分析應(yīng)用 數(shù)據(jù)導(dǎo)入 確立分析目標(biāo) 編寫分析程序 為分析目標(biāo)生成報表,趨勢圖等 大數(shù)據(jù)采集 大數(shù)據(jù)存儲 大數(shù)據(jù)處理 大數(shù)據(jù)可視化 可擴展數(shù)據(jù)采集框架 元數(shù)據(jù)管理 分布式大數(shù)據(jù)存儲 大數(shù)據(jù)并行處理引擎 圖表生成工具 大數(shù)據(jù)分析平臺大數(shù)據(jù)分析平臺 云展大數(shù)據(jù)機軟件架構(gòu) 可視化工具 大數(shù)據(jù)知識庫 文本分
2、析工具 結(jié)構(gòu)化數(shù)據(jù) 分析工具 E3編程接口 MapReduce接口 SQL接口 E3大數(shù)據(jù)并行處理框架 元數(shù)據(jù)管理 數(shù)據(jù)收集框架 基于分布式文件系統(tǒng)的數(shù)據(jù)存儲 云展大數(shù)據(jù)機硬件架構(gòu) ? 標(biāo)準(zhǔn)機架式設(shè)計 每個機架可容納40臺節(jié)點機 節(jié)點機通過千兆以太網(wǎng)連接 節(jié)點機采用標(biāo)準(zhǔn)PC服務(wù)器 可擴展到20個機架 原型機:awan(2個機架,76臺節(jié)點機) 3云展關(guān)鍵技術(shù)E 引擎 ?E3將數(shù)據(jù)處理過程描述為一個線性工作流,工作流中每一個節(jié)點稱為一個階段,每階段包含若干處理單元,每個處理單元對數(shù)據(jù)進行部分處理。 E3按照工作流的順序,并行地調(diào)度處理單元在計算節(jié)點上運行,自動在處理單元之間傳遞中間運算結(jié)果,最終
3、完成整個數(shù)據(jù)處理過程。 pu1 pu2 pu4 pu5 云數(shù)據(jù) 存儲服務(wù) pu1 pu2 pu4 pu5 pu1 pu3 pu5 pu1 PU processing unit (處理單元) 云 數(shù)據(jù)存儲服務(wù) 3E 與阿帕奇Hadoop的性能比較 ? Grep任務(wù):每個節(jié)點535M ? Select任務(wù):每個節(jié)點1G Grep任務(wù) Select任務(wù) 混合式數(shù)據(jù)分析工具 ? 同時支持非結(jié)構(gòu)化的文本分析和結(jié)構(gòu)化的數(shù)據(jù)庫分析 ? 建立在統(tǒng)一的E3引擎之上,能夠進行交互和聯(lián)合分析 ? 支持對海量數(shù)據(jù)的快速分析,發(fā)現(xiàn)其中隱藏的知識、行為模式等 ? 提供描述語言,支持用戶進行自定義的數(shù)據(jù)分析 文本分析工具
4、結(jié)構(gòu)化數(shù)據(jù) 分析工具 非機構(gòu)化分析工具 ?分布式存儲和處理模型 無需定義表結(jié)構(gòu) 數(shù)據(jù)直接存儲與分布式文件系統(tǒng)中 自動錯誤處理和恢復(fù) ?基本的數(shù)據(jù)訪問接口 put/get: 隨機的文檔數(shù)據(jù)讀取 scan: 批量數(shù)據(jù)掃描 tokenize: 將文檔組織成單詞組以提供給上層分析處理 ?分析數(shù)據(jù)接口 Extract operator ?: 提供基于正則表達式和字典的匹配操作 Select operator : 提供基于用戶選擇條件的過濾操作 Join operator ?: 將來自多個數(shù)據(jù)源的文檔 /文字流進行合并 Consolidate operator : 去重操作 ?提供類似于SQL的文本處理分
5、析語言: EPQL 非結(jié)構(gòu)化處理流程 ? 每一個EPQL將對特定集合的文檔進行處理 ? 每個文檔將通過4個操作的處理,然后中間結(jié)果傳給連接操作和去重操作 ? 結(jié)果將是符合用戶要求的文檔或統(tǒng)計內(nèi)容,比如: 查找所有包含關(guān)鍵詞:Cloud Computing,在2012年產(chǎn)生的網(wǎng)頁 統(tǒng)計近一個月內(nèi),出現(xiàn)包含釣魚島的文檔與包含日本車銷量內(nèi)容的文檔的關(guān)聯(lián)度 文本分析示例:用戶反饋信息分析 ? 在電子商務(wù)網(wǎng)站,如京東等,用戶購買結(jié)束后,會對產(chǎn)品購買過程及產(chǎn)品本身進行評價,通過分析用戶的反饋信息,可以發(fā)現(xiàn)其中的問題 關(guān)鍵問題:發(fā)貨速度慢,關(guān)鍵問題:發(fā)貨速度慢,需要更換物流公司需要更換物流公司 結(jié)構(gòu)化數(shù)據(jù)分
6、析 ? 結(jié)構(gòu)化數(shù)據(jù)分析通過維護并定期更新data cube的方式來提供高效的分析查詢結(jié)果 ? 根據(jù)時間戳來實現(xiàn)同時支持實時事務(wù)處理和分析查詢 分析查詢E3引擎更新Cube事務(wù)處理查詢元數(shù)據(jù)鍵值存儲系統(tǒng)實時數(shù)據(jù)DataCube數(shù)據(jù)分片 分布式文件系統(tǒng)分布式索引技術(shù) ?在結(jié)構(gòu)化分析工具中,系統(tǒng)建立多維的分布式索引以支持高效的并行查找 分布式索引技術(shù) 建立分布式二級索引 支持并發(fā)地在多節(jié)點上同時查詢 可以和本地數(shù)據(jù)庫索引連接 例如:分布式 B樹索引結(jié)構(gòu), 可視化工具 ? 將分析結(jié)果以報表的形式展現(xiàn)給用戶 支持線圖、餅圖、柱裝圖、趨勢圖等常用的圖表格式 標(biāo)簽云以及數(shù)據(jù)關(guān)聯(lián)挖掘 云展大數(shù)據(jù)機與其他大數(shù)據(jù)
7、分析平臺的比較 云展大數(shù)據(jù)機 是否一體機 硬件架構(gòu) 大數(shù)據(jù)收集 是 標(biāo)準(zhǔn) 框架式設(shè)計 Greenplum HD 是 標(biāo)準(zhǔn) 手工 IBM BigInsights 否 N.A. 手工 元數(shù)據(jù)管理 大數(shù)據(jù)存儲 大數(shù)據(jù)處理引擎 大數(shù)據(jù)處理接口 支持 HDFS E3 E3,MapReduce,SQL 支持 Elephant DB,支持檢索、外部應(yīng)用訪問接口 不支持 HDFS Hadoop MapReduce,HiveQL 不支持 HDFS Hadoop MapReduce,Jaql 大數(shù)據(jù)可視化 如何處理分析結(jié)果 不支持 需要倒入Greenplum Database數(shù)據(jù)倉庫 不支持 文件存儲,無外部應(yīng)用
8、訪問接口 分析案例:95598客服服務(wù) ? 主要功能包括客戶檔案查詢、電量電費查詢、業(yè)務(wù)辦理進度查詢,以及業(yè)務(wù)受理、故障報修、咨詢受理、投訴舉報、消息訂閱 ? 主要業(yè)務(wù)流程 客戶電話記錄 用戶電話 語音記錄 客戶電話記錄 ? 由客服人員手工錄入,包括: 電話起止時間 客戶身份信息 原因(歸類為:電費查詢、投訴、保修等幾大類) 簡單內(nèi)容概述(不完整,客戶人員匆匆記錄) ? 當(dāng)前的處理方式簡單的統(tǒng)計信息: 平均電話時常 客戶分布信息 每種電話的統(tǒng)計百分比 ? 缺乏深度的分析 用戶因為什么而投訴,這種投訴是否是普遍存在的 每個用戶是否通過撥打955598電話完成了他的請求 語音記錄 ? 用戶和客服之
9、間的對話會被完整記錄為語音文件 ? 語音文件包含了豐富的信息: 用戶打電話的主要原因 客服的服務(wù)態(tài)度 客服的服務(wù)能力 用戶的滿意度 ? 因為缺少相關(guān)工具,當(dāng)前采用人員采樣收聽的策略,效率低,覆蓋率低 針對客服信息的大數(shù)據(jù)分析 關(guān)聯(lián) 翻譯 混合數(shù)據(jù)分析 導(dǎo)入 云展數(shù)據(jù)倉庫 用戶數(shù)據(jù) 產(chǎn)生新的數(shù)據(jù) 改進業(yè)務(wù)流程 關(guān)鍵技術(shù)非結(jié)構(gòu)化語音分析 客服信息 內(nèi)容分割: 按照音色音域 用戶信息 記錄了用戶的投訴內(nèi)容和對服務(wù)的滿意度 語音語調(diào)分析,看是否按照規(guī)定的態(tài)度服務(wù) 分析結(jié)果用戶滿意度 ? 用戶撥打客服電話都是有一定的目的,目的達到與否則表示了客服的成功率 ? 通過對用戶的語義、情緒分析,符合下列模型的,
10、分析認(rèn)為是正確滿足用戶需求的 不滿 憤怒 疑問 稱贊 感謝 釋疑 平靜 分析結(jié)果客服質(zhì)量 ? 客服質(zhì)量定義為:單位時間內(nèi)滿足的用戶數(shù)量 ? 對某一特定客服人員: 服務(wù)效率 ?滿意的用戶數(shù)總服務(wù)時間 服務(wù)質(zhì)量統(tǒng)計服務(wù)質(zhì)量統(tǒng)計 滿意的用戶數(shù)服務(wù)質(zhì)量 ?總用戶數(shù)分析結(jié)果熱點分析 ? 通過整理分析用戶通話內(nèi)容得到用戶投訴的主要目的 ? 使用數(shù)據(jù)挖掘和數(shù)據(jù)可視化來統(tǒng)計關(guān)鍵問題 ? 支持海量數(shù)據(jù)的快速處理 ? 分析客戶通話內(nèi)容,按照詞頻構(gòu)造標(biāo)簽云: 關(guān)鍵技術(shù)分結(jié)構(gòu)化數(shù)據(jù)分析 ? 系統(tǒng)支持按照關(guān)鍵詞(一個或多個)將錄音電話切片分類 比如,要查找關(guān)于“電費”相關(guān)的記錄中主要的投訴內(nèi)容 ? 通過索引和分布式處理
11、機制,可以快速的生成新的統(tǒng)計數(shù)據(jù)(類似于在數(shù)據(jù)倉庫中做切片操作): 關(guān)鍵技術(shù)結(jié)構(gòu)化/分結(jié)構(gòu)化混合分析 ? 客服內(nèi)容由兩部分:關(guān)于電話基本信息的關(guān)系數(shù)據(jù),具體的語音信息 ? 關(guān)聯(lián)分析將兩者結(jié)合起來進行深度分析: 電話耗時10分鐘以下和10分鐘以上的用戶滿意度統(tǒng)計 分布在不同區(qū)域的用戶滿意度統(tǒng)計 收入在不同范圍的用戶關(guān)心的主要問題 客服填寫的簡要信息是否和用戶錄音記錄一致 客戶電話主要集中來電時間分布,以及和滿意度的關(guān)聯(lián)度 客服的效率和時間的關(guān)系 其他案例 ? 網(wǎng)易私有云平臺網(wǎng)易私有云平臺 推進企業(yè)內(nèi)數(shù)據(jù)共享、全局信息挖掘與商業(yè)智能 數(shù)據(jù)共享 IP城市庫、樂庫、書庫 圖像處理、文本分析(分詞、標(biāo)簽、擴展分類)、數(shù)據(jù)挖掘(聚類、關(guān)聯(lián)規(guī)功能 則)、語音處理、GIS 應(yīng)用平滑遷移 配額與計費 應(yīng)用架構(gòu) 數(shù)據(jù)管理 應(yīng)用托管 Web App Engine for Java 負(fù)載均衡(LVS、反向代理)、DNS、消息隊列 DDB、對象存儲、文件中心、關(guān)系數(shù)據(jù)存儲、全文檢索、并行分析、Timeline、NewSQL、緩存服務(wù) 用戶管理與監(jiān)控平臺 管理員運維平臺 虛擬化 硬件 虛擬機、網(wǎng)絡(luò)、云硬盤 IDC、服務(wù)器、存儲、網(wǎng)絡(luò) epiC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院老人家庭溝通制度
- 數(shù)碼產(chǎn)品租賃合同(2篇)
- 2024年物業(yè)設(shè)施管理合同3篇
- 2025年平頂山貨運駕駛員從業(yè)資格證考試題庫答案
- 2025年林芝貨運從業(yè)資格證模擬考試下載
- 2025年懷化經(jīng)營性道路客貨運輸駕駛員從業(yè)資格考試
- 《催眠治療》課件
- 2024年教育設(shè)施融資租賃擔(dān)保合同示例2篇
- 2025年東莞a2駕駛證貨運從業(yè)資格證模擬考試
- 2024年版礦業(yè)開發(fā)合同
- 2023年北京國家公務(wù)員行測考試真題及答案-行政執(zhí)法類
- 2023輸電工程項目規(guī)范
- 初中信息技術(shù)課程課件《初識Python》
- 頻譜儀N9020A常用功能使用指南
- “雙減”背景下初中數(shù)學(xué)高效課堂實施策略研究 論文
- 天津高考英語詞匯3500
- 木本園林植物栽培技術(shù)
- 拋石護腳施工方案
- 英文技術(shù)寫作-東南大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 模擬電子技術(shù)課程設(shè)計-BS208HAF調(diào)頻調(diào)幅兩波段收音機組裝與調(diào)試
- 精裝修投標(biāo)技術(shù)標(biāo)書模板
評論
0/150
提交評論