版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
理解大數(shù)據(jù),實踐大數(shù)據(jù)施水才北京拓爾思信息技術(shù)股份有限公司2012年5月31日內(nèi)容對大數(shù)據(jù)的理解拓爾思大數(shù)據(jù)產(chǎn)品布局和應(yīng)用實踐反對派認(rèn)為,我們現(xiàn)在處在一個盲目的大數(shù)據(jù)崇拜時代大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)的爆發(fā)式增長和社會化趨勢,新摩爾定律大數(shù)據(jù)已經(jīng)成為一種自然資源機器數(shù)據(jù)日益重要大數(shù)據(jù)不被利用就是成本大數(shù)據(jù)產(chǎn)生的背景現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復(fù)雜性
獲取(capture)存貯(storage)搜索(search)分享(sharing)分析(analysis)可視化(visualization)奧巴馬大數(shù)據(jù)戰(zhàn)略2012年3月29日,白宮發(fā)布美國政府的大數(shù)據(jù)計劃通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強國家安全,并改變教學(xué)研究大數(shù)據(jù)的4V特性體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效對大數(shù)據(jù)的理解大數(shù)據(jù)比云計算更為落地大數(shù)據(jù)不僅僅是“大”軟件是大數(shù)據(jù)的引擎大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營銷管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”1、大數(shù)據(jù)比云計算更為落地商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式2、大數(shù)據(jù)不僅僅是“大”多大?PB級比大更重要的是數(shù)據(jù)的復(fù)雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值3、軟件件是大大數(shù)據(jù)據(jù)的引引擎和數(shù)據(jù)據(jù)中心心(DataCenter)一樣,,軟件件是大大數(shù)據(jù)據(jù)的驅(qū)驅(qū)動力力,軟軟件改改變世世界大數(shù)據(jù)生生態(tài)::軟件件是引引擎4、大數(shù)數(shù)據(jù)的的應(yīng)用用不僅僅僅是是精準(zhǔn)準(zhǔn)營銷銷通過用用戶行行為分分析實實現(xiàn)精精準(zhǔn)營營銷是是大數(shù)數(shù)據(jù)的的典型型應(yīng)用用,但但是大大數(shù)據(jù)據(jù)在各各行各各業(yè)特特別是是公共共服務(wù)務(wù)領(lǐng)域域具有有廣闊闊的應(yīng)應(yīng)用前前景消費行行業(yè)金融服服務(wù)食品安安全醫(yī)療衛(wèi)衛(wèi)生軍事交通環(huán)環(huán)保電子商商務(wù)氣象5、管理理大數(shù)數(shù)據(jù)““易””理解解大數(shù)數(shù)據(jù)““難””雖然大大數(shù)據(jù)據(jù)是一一個重重大問問題,,真正正的問問題是是讓大大數(shù)據(jù)據(jù)更有有意義義目前大大數(shù)據(jù)據(jù)管理理多從從架構(gòu)構(gòu)和并并行等等方面面考慮慮,解解決高高并發(fā)發(fā)數(shù)據(jù)據(jù)存取取的性性能要要求及及數(shù)據(jù)據(jù)存儲儲的橫橫向擴擴展,,但對對非結(jié)結(jié)構(gòu)化化數(shù)據(jù)據(jù)的內(nèi)內(nèi)容理理解仍仍缺乏乏實質(zhì)質(zhì)性的的突破破和進進展,,這是是實現(xiàn)現(xiàn)大數(shù)數(shù)據(jù)資資源化化、知知識化化、普普適化化的核核心非結(jié)構(gòu)構(gòu)化海海量信信息的的智能能化處處理::自然然語言言理解解、多多媒體體內(nèi)容容理解解、機機器學(xué)學(xué)習(xí)等等拓爾思思大數(shù)數(shù)據(jù)產(chǎn)產(chǎn)品布布局TRS機器數(shù)數(shù)據(jù)挖挖掘引引擎TRSSMAS輿情云云服務(wù)務(wù)TRS大數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)V7.0TRS大數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)發(fā)展展歷程程TRS全文數(shù)數(shù)據(jù)庫庫TRS非結(jié)構(gòu)化化數(shù)據(jù)庫TRS大數(shù)據(jù)管理系統(tǒng)統(tǒng)TRS大數(shù)據(jù)管管理系統(tǒng)統(tǒng)V7.0TRS大數(shù)據(jù)管管理系統(tǒng)統(tǒng)V7.0分布式并并行計算算、多副副本機制制、沒有有單點的的高可靠靠體系架架構(gòu),兼兼容Hadoop標(biāo)準(zhǔn)支持結(jié)構(gòu)構(gòu)化、半半結(jié)構(gòu)化化、非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)的管管理和搜搜索支持實時時及用戶戶行為數(shù)數(shù)據(jù)的高高效管理理和分析析支持PB級的海量量數(shù)據(jù)管管理支持海量量用戶的的高并發(fā)發(fā)訪問((千萬級級用戶、、萬級并并發(fā))充分釋放放硬件的的潛力((多核、、大內(nèi)存存等)大規(guī)模部部署的自自動化和和運行狀狀態(tài)監(jiān)控控創(chuàng)新的多多檢索引引擎機制制,提供供開放的的二次開開發(fā)接口口數(shù)據(jù)備份份大數(shù)據(jù)管管理系統(tǒng)統(tǒng)數(shù)據(jù)存儲儲開發(fā)接口口基于Hadoop的數(shù)據(jù)分分析CKM文本挖掘掘與數(shù)據(jù)據(jù)挖掘關(guān)聯(lián)規(guī)則則與序列列模式挖挖掘推薦引擎擎的離線線分析MapReduce數(shù)據(jù)庫監(jiān)監(jiān)控機器數(shù)據(jù)據(jù)搜索引引擎用戶行為為挖掘與與推薦引引擎基于時間間分段的的大數(shù)據(jù)據(jù)檢索與與索引接接口搜索引擎擎日志采集集監(jiān)控數(shù)據(jù)存儲儲層數(shù)據(jù)分析析層日志發(fā)送送節(jié)點Angent1Angent2Angent3……Angentn日志接收收集群Collector1Collector2Collector3……CollectornMaster管理集群Master1Master2Mastern日志采集TRS機器數(shù)據(jù)挖挖掘引擎TRS機器數(shù)據(jù)挖挖掘引擎特特點支持主流格格式機器數(shù)數(shù)據(jù)的實時時采集、解解析、管理理和搜索。。基于時間分分段和負(fù)載載均衡的大大數(shù)據(jù)索引引與檢索機機制?;赪eb的機器數(shù)據(jù)據(jù)搜索與分分析界面。。兼容Hadoop平臺的日志志挖掘和用用戶行為分分析?;诙喾N推推薦模型的的在線推薦薦引擎大規(guī)模部署署的自動化化和運行狀狀態(tài)監(jiān)控TRSSMAS功能能框框架架圖圖輿情管理服務(wù)共享信息挖掘信息來源新聞?wù)搲┛退阉饕嫖⒉﹚iki自動排重、自動動分類、自動動摘要、自動動分析輿情分類熱點跟蹤熱點統(tǒng)計微博分析人物分析微博運營趨勢分析整合統(tǒng)計關(guān)聯(lián)圖譜動態(tài)走勢興趣圖譜未知探索熱點變化意見領(lǐng)袖傳播圖譜關(guān)系分類個性展示敏感預(yù)警自由分布數(shù)圖導(dǎo)出圖表切換多維檢索探針追蹤元搜索外網(wǎng)微博論壇SNS網(wǎng)媒官網(wǎng)提高銷量用戶滿意度用戶設(shè)計趨勢分析競爭分析質(zhì)量缺陷設(shè)計缺陷使用缺陷KOL維護聲譽管理危機預(yù)警事件評估行為分析產(chǎn)品公關(guān)營銷SMAS用戶感知研發(fā)情緒感知及時服務(wù)口碑監(jiān)測媒介監(jiān)測S-CRM廣義服務(wù)TRSSMAS作用于企業(yè)2.0TRS在大數(shù)據(jù)領(lǐng)域域的應(yīng)用實踐踐新華社多媒體體數(shù)據(jù)庫國家知識產(chǎn)權(quán)權(quán)局專利檢索索系統(tǒng)某部信息監(jiān)控控系統(tǒng)TRSSMAS云服務(wù)(大數(shù)數(shù)據(jù)服務(wù))國家質(zhì)監(jiān)局國家藥監(jiān)局北京市環(huán)保局局國家氣象局每日微博熱點點分析新華社多媒體體數(shù)據(jù)庫系統(tǒng)統(tǒng)是新華社的核核心業(yè)務(wù)支撐撐,典型的非非結(jié)構(gòu)化數(shù)據(jù)據(jù)管理應(yīng)用場場景,持續(xù)IT投資已經(jīng)超過過6億人民幣以新華社遍布布全球的新聞聞信息及采集集網(wǎng)絡(luò)為依托托,全面整合合新華社的文文字、圖片、、圖表、音視視頻、報刊等等全部資源和和社會上有價價值的新聞信信息資源,擁擁有包括中、、英、法、俄俄、西、阿及及中文繁體在在內(nèi)的6個文種,數(shù)據(jù)據(jù)量超PB最早采用文件件系統(tǒng),后來來改為Oracle,效率很低,,再改為Oracle+TRS,持續(xù)服務(wù)至至今從大型機改為為PC服務(wù)器集群1.5億條原創(chuàng)新新聞資資訊26000小時權(quán)威原原創(chuàng)視視頻700萬張圖圖片27000家注冊用用戶8000多種資源分分類PB級數(shù)據(jù)量量多語種種數(shù)據(jù)據(jù)新華社社多媒體體數(shù)據(jù)據(jù)庫數(shù)據(jù)流流轉(zhuǎn)圖圖新華社社多媒媒體庫庫的技技術(shù)特特點非結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)和和結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)統(tǒng)統(tǒng)一管管理TRS多語言言檢索索引擎擎全面采采用TRS文本挖挖掘技技術(shù)良好的的集群群擴展展能力力索引服服務(wù)器器讀寫寫分離離國家知知識產(chǎn)產(chǎn)權(quán)局局專利利檢索索服務(wù)務(wù)系統(tǒng)統(tǒng)1998年專利利局引引進了了歐洲EPOQUE系統(tǒng),基于于大型型機的的專利利檢索索系統(tǒng)統(tǒng),每每年的的系統(tǒng)統(tǒng)維護護費用用就達達數(shù)千千萬元元2005年開始始建設(shè)設(shè)自主主可控控可持持續(xù)發(fā)發(fā)展的的專利利檢索索和服服務(wù)系系統(tǒng),,采用用大量量的PC服務(wù)器器典型的的非結(jié)結(jié)構(gòu)化化/半結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)應(yīng)應(yīng)用場場景目前公公共檢檢索和和審查查員檢檢索系系統(tǒng)全全部使使用TRS檢索引引擎專利檢檢索系系統(tǒng)的的需求求特點點數(shù)據(jù)多多樣性性結(jié)構(gòu)化化、半半結(jié)構(gòu)構(gòu)化和和非結(jié)結(jié)構(gòu)化化數(shù)據(jù)據(jù)的結(jié)結(jié)合申請人人、申申請?zhí)柼?、名名稱等等著錄錄項很很多;權(quán)利要要求書書、說說明書書等全全文數(shù)數(shù)據(jù)規(guī)規(guī)模大大各庫數(shù)數(shù)據(jù)結(jié)結(jié)構(gòu)差差異大大查詢要要求高高嚴(yán)格的的查全全和查查準(zhǔn)要要求基于領(lǐng)領(lǐng)域知知識的的智能能檢索索結(jié)構(gòu)化化和非非結(jié)構(gòu)構(gòu)化信信息聯(lián)聯(lián)合查查詢相關(guān)專專利推推薦專利檢檢索與與服務(wù)系系統(tǒng)的的數(shù)據(jù)據(jù)種類與與規(guī)模模6億多條條專利記錄多渠道道異構(gòu)構(gòu)資源整整合100%查全率率<1秒響應(yīng)時時間700-1000并發(fā)7×24穩(wěn)定可可靠1萬注冊冊用戶專利檢檢索引引擎數(shù)據(jù)流流轉(zhuǎn)圖圖專利檢檢索與與服務(wù)務(wù)系統(tǒng)統(tǒng)-外觀圖圖像檢檢索專利圖像外外觀檢索局部檢索形狀檢索紋理檢索不變性特征征檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關(guān)反反饋的檢索索跨語言檢索索600萬幅專利圖圖片查詢性能從從原來的分分鐘級提高高到秒級索引性能從從原來的天天級提高到到現(xiàn)在的小小時級某部網(wǎng)監(jiān)智智能搜索和和挖掘系統(tǒng)統(tǒng)系統(tǒng)特點::巨大的數(shù)據(jù)據(jù)量多樣性數(shù)據(jù)據(jù)數(shù)據(jù)極快速速增長系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)數(shù)千臺服務(wù)務(wù)器,滿足足了業(yè)務(wù)需需求挑戰(zhàn)性能和可擴擴展性整合和調(diào)度度數(shù)據(jù)量遠(yuǎn)超超過互聯(lián)網(wǎng)網(wǎng),目前部部署TRS系統(tǒng)2000多套SMAS的用戶國家質(zhì)檢總局局2012.1蒙牛致癌門門2012.2蘇泊爾質(zhì)量量門2012.3遼源注水肉肉2012.3315質(zhì)量報告2012.4含氯可口可可樂2012.4蜜餞質(zhì)量問問題2012.5菲律賓香蕉蕉質(zhì)量2012僅在2012年上半年,,拓爾思運營團隊隊就為質(zhì)檢檢總局在產(chǎn)產(chǎn)品質(zhì)量、、食品安全全方面提供供超過40余項服務(wù),借助助數(shù)據(jù)中心的大大數(shù)據(jù)與云云服務(wù)平臺臺,進行全全面的整合合、統(tǒng)計與與分析。國家質(zhì)檢總總局質(zhì)檢總局的服服務(wù)依托云云服務(wù)平臺臺(SMAS),從媒體體調(diào)性、平平臺分布、、網(wǎng)民意見見、趨勢發(fā)發(fā)展等多種種角度進行行解析,結(jié)結(jié)合系統(tǒng)的的自動分析析與分析團團隊的整合合,最終以以專題報告告的方式,,第一時間間呈現(xiàn),為為質(zhì)檢總局局在公共服服務(wù)的決策策提供重要要參考。國家藥監(jiān)局局2012年4月15日央視曝光光的“毒膠膠囊”事件件掀起藥品品行業(yè)的巨巨大波瀾,,SMAS運營團隊對該事事件進行了了長時間的的跟蹤與分分析,并用用一系列的的數(shù)據(jù)、圖圖表和報告告捕獲了網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)里里的真相與與民意。國家藥監(jiān)局局關(guān)鍵人物傳播趨勢主流觀點關(guān)鍵地區(qū)SMAS分析團隊連連續(xù)30天跟蹤毒膠膠囊事件,,從整體傳傳播趨勢、、觀點、人人物、地區(qū)區(qū)等視角,,還原了這這起頗具影影響力的公公共事件。。-----毒膠囊事件件-------北京市環(huán)保保局PM2.5分析報道道量量排排行行高低兩會代表委委員熱議PM2.5“京V”排放標(biāo)準(zhǔn)首首規(guī)定PM限值珠三角成首首個公布PM2.5城市群珠三角PM2.5嚴(yán)重超標(biāo)環(huán)保局回應(yīng)應(yīng)PM2.5數(shù)據(jù)質(zhì)疑借助數(shù)據(jù)中心的大大數(shù)據(jù)與云云服務(wù)平臺臺,從區(qū)域分布的角度對PM2.5的相關(guān)信息息進行歸類類,進行全全面的整合合、統(tǒng)計與與分析,得得到上圖分分析內(nèi)容。。北京市環(huán)保保局PM2.5分析PM2.5均勻分布,,監(jiān)測點點為何不均勻分布布?PM2.5監(jiān)測不能背背離公公眾感受PM2.5監(jiān)測,關(guān)鍵詞是““真實”20億元清單,,能能否換換來清新??微博TOP10意見領(lǐng)袖排排行鄭淵潔微博原文作家通過SMAS平臺的抽樣樣分析,提提取網(wǎng)民熱熱點話題內(nèi)內(nèi)容,得到到TOP10意見領(lǐng)袖排排行。對意意見領(lǐng)袖的的代表性微微博進行傳傳播鏈分析析,可知““意見領(lǐng)袖袖”巨大的的傳播影響響力。第一層第二層第三層第四層第五層第六層傳播了712次占占轉(zhuǎn)發(fā)數(shù)數(shù)百分比比:54.39%傳播了432
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教新起點四年級語文上冊階段測試試卷含答案
- 2025年人教新起點必修1地理上冊月考試卷含答案
- 2025年冀少新版七年級數(shù)學(xué)上冊階段測試試卷含答案
- 幼兒園冬季滑雪安全教育
- 2025年上教版必修3物理上冊階段測試試卷
- 商務(wù)禮儀職業(yè)形象培訓(xùn)
- 企業(yè)員工職業(yè)生涯規(guī)劃模板
- 二手房交易特別約定合同版B版
- 2024版:鋼結(jié)構(gòu)建筑施工合同3篇
- 《外科護理》第二十章第四節(jié)化膿性骨髓炎病人的護理
- 中醫(yī)基礎(chǔ)學(xué)考試題(附答案)
- 2025貴州建筑安全員B證考試題庫附答案
- 2024年杭州師范大學(xué)附屬醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 2024-2025學(xué)年八年級歷史上冊期末復(fù)習(xí)課件
- 2025年云南省大理州事業(yè)單位招聘339人歷年高頻重點提升(共500題)附帶答案詳解
- 《鐵路旅客運輸規(guī)程》考試復(fù)習(xí)題及答案
- 2024初中數(shù)學(xué)競賽真題訓(xùn)練(學(xué)生版+解析版)(共6個)
- 規(guī)培結(jié)業(yè) 臨床基本技能操作考核評分表
- 2024-2025學(xué)年度第一學(xué)期三年級數(shù)學(xué)寒假作業(yè) 有答案
- 大型起重機械現(xiàn)場管理手冊
- 2023年考研(英語一)真題與答案解析
評論
0/150
提交評論