千億大數(shù)據(jù)即席蹤跡分析_第1頁
千億大數(shù)據(jù)即席蹤跡分析_第2頁
千億大數(shù)據(jù)即席蹤跡分析_第3頁
千億大數(shù)據(jù)即席蹤跡分析_第4頁
千億大數(shù)據(jù)即席蹤跡分析_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、千億大數(shù)據(jù)即席蹤跡分析核心技術(shù)原理不實現(xiàn)詳解目錄什么是即席蹤跡分析,那些場景適合即席蹤跡分析現(xiàn)有大數(shù)據(jù)技術(shù)在即席蹤跡分析上存在的問題千億規(guī)模的即席蹤跡分析關(guān)鍵技術(shù)實現(xiàn)什么是千億數(shù)據(jù)即席蹤跡分析?千億數(shù)據(jù)量在每天千億條,總量在萬億規(guī)模的實時數(shù)據(jù)。即席首先含有當場,即興的意思。沒有事先準備,想查哪里就查哪里。 其次要求很快的響應(yīng),不能等待太久,即查即所得。蹤跡了解數(shù)據(jù)里的風吹草動,行蹤查詢,軌跡分析.一般指的是 時間、位置、操作等有關(guān)。通過在大數(shù)據(jù)中快速的查詢比對。發(fā)現(xiàn)目標的行蹤軌跡。常用亍破獲案件、截獲情報、輿論定位、排查故障、資金流向追溯、通話記錄分析等。即席蹤跡分析是做什么的技偵:通話記錄分

2、析,同行同住,尾隨人識別,連環(huán)案件等網(wǎng)監(jiān):海量信息搜索,關(guān)鍵詞統(tǒng)計,相似度匹配等機動車緝查布控:車牌模糊查詢,同行車輛,晝伏夜出,陌生車輛等交通運輸:車輛行駛軌跡,特種車輛監(jiān)控,道路養(yǎng)護,流量監(jiān)控等通話數(shù)據(jù)統(tǒng)計不分析:通話質(zhì)量,套餐推薦,用戶習慣分析等通信設(shè)備保養(yǎng)不維護:故障定位,故障預(yù)警,負載評估等流水日志分析:日志快速定位,明細查詢,問題追溯,投訴處理等行情監(jiān)測分析:指標監(jiān)控,多維分析,監(jiān)管合規(guī)等用戶畫像,趨勢分析,精準營銷,推薦系統(tǒng)等日志定位監(jiān)測,用戶行為分析,探索性數(shù)據(jù)分析等訂單軌跡,訂單狀態(tài),物流車輛狀態(tài),服務(wù)質(zhì)量評估等公安交通 電信 金融 電商 物流這些場景帶來的挑戰(zhàn)!IOT-物聯(lián)

3、網(wǎng),傳感器,攝像頭視頻識別行車:位置,速度,車牌,顏色,車內(nèi)人數(shù) 行人:性別,衣服顏色、人群密度,行走速度UGC:用戶產(chǎn)生內(nèi)容上網(wǎng)發(fā)帖,發(fā)博客 語音通話,照片分享Transactions:事物日志刷卡消費,買火車票 酒店入住,網(wǎng)吧上網(wǎng) 手機信令位置定位超大規(guī)模:數(shù)據(jù)總量達到數(shù)十億到數(shù)萬億條 日均產(chǎn)生數(shù)千萬到千億條數(shù)據(jù)超多維度:字段數(shù)達到數(shù)百個,數(shù)千個, 甚至數(shù)十幾萬個無法預(yù)計算:每種組合都算好的話可能達數(shù)年。即席查詢:即查即所見、任意多維組合分析轉(zhuǎn)換為文本目前業(yè)界現(xiàn)有主流方案存在的問題Hive,Spark SQL,SQL on Hadoop:純粹的暴力掃描HBase,KV型NoSQL數(shù)據(jù)庫:只

4、能局部計算,丌靈活Kylin:本質(zhì)上是預(yù)計算,只能看特定的維度、粒度?!扒|即席蹤跡分析”的性能比對“千億即席蹤跡分析”的必備特性數(shù)據(jù)產(chǎn)生后約12分鐘,系統(tǒng)內(nèi)可查每天千億增量,總量可達萬億任意維度組合統(tǒng)計分析,任意維度過濾篩選像百度那樣快速的搜索與響應(yīng)。想查什么立即就查,不需要預(yù)計算。保存原始數(shù)據(jù),任意維度組合均可見。百億數(shù)據(jù),2臺24core機器,秒級時間排序。實時導入多維分析 即席查詢 超快排序新方案的排序性能對比檢索過濾性能相對于原生spark提升倍數(shù)機動車稽查測試環(huán)境數(shù)據(jù)條數(shù)200億條數(shù)據(jù)大小1000GCPU2*6核內(nèi)存64GB機器臺數(shù)2臺場景測試行車軌跡查詢/重點車輛分析0.43秒同

5、行車輛分析1.56秒?yún)^(qū)域碰撞分析1.23秒晝伏夜出、落腳點分析1.5秒陌生車輛分析7.9秒嫌疑車牌模糊搜索與定位1.6秒完備的功能-復(fù)雜的SQL查詢咱必須要支持功能概述檢索過濾等值匹配,支持 in操作,=,= and與or的嵌套組合統(tǒng)計分析排序單/多列g(shù)roup by,max,min,sum,avg,count,distinct,order by 復(fù)雜SQL自定義udf,udaf,udft,SQL多層嵌套,union,多表關(guān)聯(lián)join模糊查詢?nèi)臋z索,臨近搜索,相似文本(文章)搜索, like。數(shù)據(jù)類型string,int,long,float,double,一列多值,地理位置,行存儲,列存儲

6、中文分詞內(nèi)嵌二元分詞,IK詞庫分詞,也可自定義或拓展第三方分詞。YDB自帶的ngram多元分詞也更適合數(shù)字,郵箱,車牌,符號的匹配?!扒|即席蹤跡分析”的技術(shù)實現(xiàn)架構(gòu)描述KafkaHive Sql InsertYDB Local Computing&Combine EngineYDB Buffer EngineYDB Index EngineHadoop HDFSSpark ComputingHive CLIJDBC/ODBCHTTPHadoopYARN我們在hdfs之上的分布式實時索引利用大索引技術(shù)跳過丌需要的行大數(shù)據(jù)就好比是一本新華字典大多時候不需要一頁一頁的翻采用blockSort實現(xiàn)2

7、臺機器百億數(shù)據(jù)秒級排序采用冒泡排序、快速排序、揑入排序還是希爾排序?別鬧了! 就兩臺機器,就算您的CPU能算的那么快,您的磁盤也轉(zhuǎn)丌了那么快!將數(shù)據(jù)按照大小預(yù)先劃分好,如劃分成 大、中、小三個塊(block)。如果想找最大的數(shù)據(jù),那么只需要在最大的那個塊里去找就可以了大中每個block內(nèi)還有子block小采用標簽技術(shù)的按單元格存儲-提升統(tǒng)計分析性能原始值張三王五李四張三李四張三王五李四趙六張三王五張三標簽值字典值0張三1李四2王五3趙六優(yōu)點重復(fù)值仁存儲一份,可以減少存儲空間占用。標簽值采用定長存儲,可隨機讀取。Group by分組計算的時候,使用標簽代替原 始值,數(shù)值型計算速度比字符串的計算速

8、度快 很多。標簽值的大小原始值的大小是對應(yīng)的,故排序 的時候也仁讀取標簽進行排序。標簽比原始值占的內(nèi)存少。缺點如果數(shù)據(jù)重復(fù)值很低,存儲空間相反比原始數(shù) 據(jù)大。如果重復(fù)值很低,且查詢邏輯需要大量的根據(jù) 標簽值獲取原始值的操作的時候,性能比原始 值慢。給原始值 排重后由 小到大加 標簽因為標簽的存在-我們的數(shù)據(jù)按列定長存儲既按行 又按照列按行存儲按列存儲按列定長存儲C1C2C3C4C5C1C2C3C4C5C1C2C3C4C5C1C2C3C4C5C1C2C3C4C5C1C2C3C4C5采用兩段式查詢不延遲讀取技術(shù) 減少不必要的IO消耗第一次查詢,只讀需要排序的列,以及行ID,第一次查詢丌會獲取數(shù)據(jù)的

9、真實值,仁仁讀取數(shù)據(jù)標簽 第二次查詢,才將剩余過濾后的10行的其他列的值返查回來延遲讀取可以節(jié)省磁盤IO與跳躍次數(shù)。selectphone,name, lon,lat,logtime,speed,mac,contentfrom spark_txtorder by logtime desclimit 10;SQL場景:按照日志時間排序持久化的過程+process local+LRU CacheHDFS-DatanodeNameNodeHdfs-Block1Hdfs-Block2Hdfs-Block3Block-Buffer1Block-Buffer2Block-Buffer3Block-Buff

10、er4Block-Buffer5LRU CACHEBlock-Buffer6 Block-Buffer7Block-Buffer8Block-Buffer9LRU緩沖避免頻繁打開與關(guān)閉文件 減少與namenode的交互BlockCache FileSystem文件格式基于spark,細粒度的原子調(diào)度,一個比job更細粒度的調(diào)度現(xiàn)有spark任務(wù)調(diào)度的缺點1.只有fifo與fair 沒有容量調(diào)度,一個任務(wù)可以占滿全部的資源。2.調(diào)度粒度為job級別,資源騰出時間為分鐘級別,是等待還是kill掉。原子調(diào)度:1讓用戶能夠精細化的管控資源,任務(wù)切分粒度更細。2.優(yōu)先級較高的任務(wù)可以毫秒的時間搶占優(yōu)先級低的任務(wù)資源原子任務(wù)切分將一個job切分成更細的小的原子粒度,如每個64m的task任務(wù)按照8k切分成一萬個原子單元PriorityQueue 優(yōu)先級搶占隊列低優(yōu)先級任務(wù)原子 切分原子 切分高優(yōu)先級任務(wù)在原各自的 獨立線程執(zhí)行轉(zhuǎn)移到后臺 低優(yōu)先級線程巧用Spark的brocast廣播 提升join性能問題:A 表需要全表掃描么?是不是利用上索引更

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論