聯(lián)通大數(shù)據(jù)公安情報應(yīng)用技術(shù)研究方案說明_第1頁
聯(lián)通大數(shù)據(jù)公安情報應(yīng)用技術(shù)研究方案說明_第2頁
聯(lián)通大數(shù)據(jù)公安情報應(yīng)用技術(shù)研究方案說明_第3頁
聯(lián)通大數(shù)據(jù)公安情報應(yīng)用技術(shù)研究方案說明_第4頁
聯(lián)通大數(shù)據(jù)公安情報應(yīng)用技術(shù)研究方案說明_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

./聯(lián)通"大數(shù)據(jù)"公安情報應(yīng)用技術(shù)方案中國聯(lián)通XX省分公司2015年11月目錄第1章概述51.1項目背景51.2項目建設(shè)目標51.3項目建設(shè)內(nèi)容6第2章系統(tǒng)總體架構(gòu)6第3章系統(tǒng)網(wǎng)絡(luò)及硬件環(huán)境7第4章數(shù)據(jù)能力開發(fā)84.1聯(lián)通總部大數(shù)據(jù)平臺能力介紹84.2數(shù)據(jù)采集9實時數(shù)據(jù)采集9定時數(shù)據(jù)采集9網(wǎng)頁數(shù)據(jù)〔非結(jié)構(gòu)化數(shù)據(jù)采集94.3實時數(shù)據(jù)加工和處理104.3.1Spark平臺104.3.2SparkStreaming實時數(shù)據(jù)加工104.4定時數(shù)據(jù)存儲及加工11數(shù)據(jù)存儲策略114.4.2Hadoop存儲與加工124.4.3Oracle數(shù)據(jù)展現(xiàn)17第5章應(yīng)用功能開發(fā)185.1數(shù)據(jù)查詢18號碼位置查詢18詳單查詢模塊19號碼軌跡查詢模塊20基站信息查詢21機主信息查詢模塊225.2數(shù)據(jù)推送23用戶基本信息推送23手機標記信息推送23數(shù)據(jù)接口245.3監(jiān)控告警24標記管理24號碼位置告警255.4統(tǒng)計分析25區(qū)域熱力25關(guān)鍵詞熱力265.5數(shù)據(jù)分析27號碼碰撞分析27聯(lián)系人分析27關(guān)系人分析28外來人員分析29網(wǎng)上異動分析30第6章項目實施316.1人員組織安排316.2項目實施步驟32平臺搭建32功能開發(fā)33應(yīng)用及優(yōu)化336.3項目投入估算34附件1.大數(shù)據(jù)平臺相關(guān)技術(shù)原理說明341.Hadoop基礎(chǔ)平臺341.1.HDFS341.2.Yarn361.3.Zookeeper372.Hbase高速即時查詢382.1.Hbase基礎(chǔ)組件382.2.Hbase封裝組件403.Spark實時數(shù)據(jù)處理42附件2.可對外提供數(shù)據(jù)合作的數(shù)據(jù)431.用戶位置數(shù)據(jù)432.用戶特征數(shù)據(jù)〔標簽443.網(wǎng)上搜索關(guān)鍵詞數(shù)據(jù)46概述項目背景2014年中國聯(lián)通集團大數(shù)據(jù)平臺建設(shè)完成,平臺具備2000個計算節(jié)點和20PB數(shù)據(jù)量,形成了全國性的數(shù)據(jù)中心,能夠基于全國用戶數(shù)據(jù)加工數(shù)據(jù)應(yīng)用產(chǎn)品。2015年XX公安廳計劃將大數(shù)據(jù)應(yīng)用在數(shù)據(jù)查詢、預(yù)警分析、綜合分析、治安管理、指揮調(diào)度等公安情報應(yīng)用上。為此雙方將聯(lián)通公司的大數(shù)據(jù)進行開發(fā)利用,為公安情報應(yīng)用服務(wù)。項目建設(shè)目標建設(shè)聯(lián)通"大數(shù)據(jù)"公安情報應(yīng)用平臺,服務(wù)XX公安情報應(yīng)用,具體包括八類公安情報應(yīng)用需求:電子地圖、人員布控:劃定某一區(qū)域?qū)崟r查詢號碼個數(shù)和明細,調(diào)取通話記錄;當(dāng)特定號碼進出某一區(qū)域進行實時預(yù)警,并顯示號碼活動軌跡。預(yù)警分析〔涉恐類:設(shè)定敏感號碼關(guān)注,對號碼進入/離開預(yù)定區(qū)域進行預(yù)警;設(shè)定涉恐敏感詞、網(wǎng)頁、APP,對發(fā)送、訪問、使用涉恐敏感詞、網(wǎng)頁、APP的號碼進行預(yù)警。預(yù)警分析〔涉穩(wěn)類:對號碼進行標簽管理,進入限定區(qū)域預(yù)警;群體性事件人員分別熱力圖;網(wǎng)上串聯(lián)異動分析。綜合分析〔案件偵查類:對前科人員號碼進行標簽管理,進入某個地市預(yù)警;查詢犯罪嫌疑人上網(wǎng)數(shù)據(jù)、寬帶數(shù)據(jù)、上網(wǎng)行為習(xí)慣、網(wǎng)上關(guān)系人等;對上網(wǎng)詳單、短信詳單文本進行關(guān)鍵字過濾;找出在逃人員的各種關(guān)系人數(shù)據(jù);綜合分析〔個案分析:對人員和區(qū)域標記管理;號碼位置查詢、號碼碰撞分析,目標號碼進出固定區(qū)域告警;檢索異常人群關(guān)鍵詞;分析出目標號碼使用的新手機號碼;服務(wù)治安管理:區(qū)域內(nèi)人員熱力分布;外來人員信息獲取。服務(wù)指揮調(diào)度:警員手機號的定位,群發(fā)信息。戰(zhàn)略分析:長期上網(wǎng)行為分析;網(wǎng)上特定信息分析;全國話單調(diào)取服務(wù);群體"遷徙"分析。項目建設(shè)內(nèi)容利用中國聯(lián)通全國大數(shù)據(jù)優(yōu)勢,搭建聯(lián)通"大數(shù)據(jù)"公安情報應(yīng)用平臺,服務(wù)XX公安情報應(yīng)用。平臺及網(wǎng)絡(luò)環(huán)境搭建:建設(shè)大數(shù)據(jù)應(yīng)用平臺,具備數(shù)據(jù)計算與存儲環(huán)境,打通與用戶單位的網(wǎng)絡(luò)連接。數(shù)據(jù)采集:具備對移動網(wǎng)絡(luò)信令、詳單、業(yè)務(wù)日志等數(shù)據(jù)采集功能。數(shù)據(jù)實時計算:開發(fā)對用戶位置和軌跡、區(qū)域熱力、實時告警等功能的數(shù)據(jù)加工處理能力。數(shù)據(jù)定時加工存儲:實現(xiàn)通信行為、通信內(nèi)容、號碼軌跡、用戶特征的數(shù)據(jù)存儲和高速查詢;實現(xiàn)分析模型、統(tǒng)計匯總、應(yīng)用模型的開發(fā);為應(yīng)用功能加工所需數(shù)據(jù)。應(yīng)用功能開發(fā):開發(fā)數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計分析、數(shù)據(jù)分析應(yīng)用功能。系統(tǒng)總體架構(gòu)系統(tǒng)總體架構(gòu)分為三層架構(gòu),硬件平臺、數(shù)據(jù)能力、應(yīng)用功能。系統(tǒng)硬件平臺位于聯(lián)通網(wǎng)絡(luò),服務(wù)器由X86服務(wù)組成,用于搭建Hadoop集群環(huán)境和Oracle數(shù)據(jù)環(huán)境。網(wǎng)絡(luò)交換機統(tǒng)一采用萬兆交換機。數(shù)據(jù)能力由數(shù)據(jù)采集、實時數(shù)據(jù)加工、定時數(shù)據(jù)存儲加工組成。應(yīng)用功能由數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計分析、數(shù)據(jù)分析五大模塊組成。系統(tǒng)網(wǎng)絡(luò)及硬件環(huán)境"大數(shù)據(jù)"公安情報應(yīng)用平臺位于聯(lián)通網(wǎng)絡(luò),公安用戶通過專線訪問大數(shù)據(jù)應(yīng)用平臺?!?服務(wù)器統(tǒng)一由X86服務(wù)組成,X86服務(wù)器硬件如下:2路*8核雙線程CPU,內(nèi)存128G,硬盤16TB,網(wǎng)卡6千兆;〔2大數(shù)據(jù)應(yīng)用平臺硬件組成:Hadoop集群20臺X86服務(wù)器;Speak實時計算平臺8臺X86服務(wù)器;傳統(tǒng)Oracle平臺2臺X86服務(wù)器;FTP接口機1臺X86服務(wù)器;WEB應(yīng)用服務(wù)2臺X86服務(wù)器;ETL流程控制1臺X86服務(wù)器;萬兆交換機3臺;數(shù)據(jù)能力開發(fā)聯(lián)通總部大數(shù)據(jù)平臺能力介紹〔一總部大數(shù)據(jù)系統(tǒng)每日采集并處理全國31省生產(chǎn)數(shù)據(jù)。數(shù)據(jù)量B/M域170多億條,O域2700多億條,其中涉及數(shù)據(jù)源:BSS域18個總部橫向系統(tǒng),包括集中結(jié)算,集中渠道等;BSS域省經(jīng)分系統(tǒng)將31個不同版本的BSS系統(tǒng)按照統(tǒng)一接口規(guī)范加工上傳總部。MSS域13個總部集中系統(tǒng),包括ERP核心系統(tǒng)等。〔二上線設(shè)備整體配備存儲容量6.78PB,X86存儲服務(wù)器共1301臺,分別搭建了Greenplum和Hadoop環(huán)境。Oracle數(shù)據(jù)庫:3*2節(jié)點RAC數(shù)據(jù)庫。數(shù)據(jù)采集實時數(shù)據(jù)采集〔一采集內(nèi)容采集內(nèi)容包括手機信令數(shù)據(jù)、手機短信日志。1、手機信令數(shù)據(jù):MC口手機信令采集數(shù)據(jù)包含手機號碼、基站LAC、基站CELLID、觸發(fā)時間字段。2、手機短信日志:從短信平臺手機短信發(fā)送日志采集數(shù)據(jù)包含手機號碼、發(fā)送時間、被叫號碼、短信內(nèi)容字段。〔二采集方式1、手機信令數(shù)據(jù):通過文件接口聯(lián)機采集,即MC口系統(tǒng)將信令數(shù)據(jù)轉(zhuǎn)為TXT文本,每5分鐘接口生成一次接口文件,FTP到接口機上。2、手機短信日志:通過文件接口聯(lián)機采集。短信平臺從短信發(fā)送日志中生成接口數(shù)據(jù)文件,FTP到接口機上。定時數(shù)據(jù)采集〔一采集內(nèi)容1、詳單數(shù)據(jù):移動網(wǎng)語音詳單、流量詳單、短信詳單。語音詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、主/被叫號碼、呼叫時間、呼叫時長、長途類型、漫游類型、基站LAC和ID。流量詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、通信時間、通信時長、上行流量、下行流量、訪問URL地址、基站LAC和ID。短信詳單采集數(shù)據(jù)內(nèi)容包括電話號碼、發(fā)送時間、接收號碼。2、用戶信息:包括用戶基本信息,用戶標簽。用戶基本信息有用戶號碼、姓名、證件號碼、聯(lián)系地址、性別、年齡。用戶標簽包括用戶業(yè)務(wù)標簽和互聯(lián)網(wǎng)標簽。網(wǎng)頁數(shù)據(jù)〔非結(jié)構(gòu)化數(shù)據(jù)采集網(wǎng)頁數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲〔又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。爬蟲系統(tǒng)有四個存儲結(jié)構(gòu):待抓取URL庫、原始網(wǎng)頁庫、鏈出URL庫和xml庫。這四個存儲結(jié)構(gòu)都是存在于Hadoop的分布式文件系統(tǒng)以HDFS為載體?!?待抓取URL庫:存放當(dāng)前層需要抓取的URL集合,實際上就是一個記錄著待抓取URL的文本文件,其中URL之間以"\n"為分隔符。在第一層抓取之前,這個文本文件是用戶提交的URL種子集合作為爬蟲進入互聯(lián)網(wǎng)的入口。<2>原始網(wǎng)頁庫:存放每一層抓取下來的原始網(wǎng)頁。這里的網(wǎng)頁是未經(jīng)過任何處理的HTML信息,其存放形式是key值為URL,value值為URL對應(yīng)的網(wǎng)頁HTML信息。<3>鏈出URL庫:存放每一層解析出來的鏈出鏈接,其存放形式是key值為URL,value值為URL對應(yīng)網(wǎng)頁包含的鏈出鏈接集合。<4>xml庫:存放所有層抓取下來的網(wǎng)頁經(jīng)過轉(zhuǎn)化的XML信息。這里的轉(zhuǎn)化相當(dāng)于對HTML信息的預(yù)處理。其存放形式是key值為URL,value值為URL對應(yīng)的網(wǎng)頁的XML信息。實時數(shù)據(jù)加工和處理Spark平臺實時計算平臺采用Spark組件替換Hadoop的MapReduce,數(shù)據(jù)存在HDFS上,計算時讀入內(nèi)存進行運算,運算結(jié)果輸出至HDFS?!?信令數(shù)據(jù),在HDFS上存儲數(shù)據(jù)包含手機號碼、基站LAC、基站CELLID、觸發(fā)時間字段。存儲方式是文本,壓縮存儲。〔2短信日志,在HDFS上存儲數(shù)據(jù)包含手機號碼、發(fā)送時間、被叫號碼、短信內(nèi)容字段。存儲方式是文本,壓縮存儲。SparkStreaming實時數(shù)據(jù)加工Sparkstreaming是構(gòu)建在spark上的實時流計算框架,擴展了spark流式大數(shù)據(jù)處理能力。本項目中Sparkstreaming具體完成工作如下:〔一基站下用戶信息查詢〔人數(shù)統(tǒng)計、號碼明細提取。1、基站與用戶對應(yīng)關(guān)系口徑:當(dāng)用戶與該基站發(fā)生信令交互時,用戶在此時歸屬該基站。如用戶未與其他基站發(fā)生信令交互,則一直歸屬該基站,直到用戶與另一個基站發(fā)生信令交互后,才歸入另一個基站。2、基站用戶統(tǒng)計口徑:先統(tǒng)計歸屬該基站的聯(lián)通用戶,并根據(jù)用戶來源地的聯(lián)通市場份額占比,反推出該位置的全量人數(shù)。計算所涉及的數(shù)據(jù)字段:用戶號碼、用戶歸屬地市、基站LAC和ID、基站經(jīng)緯度、全國各地市聯(lián)通市場份額占比?!捕柎a當(dāng)前位置和號碼今日軌跡。1、號碼當(dāng)前位置計算口徑:按該號碼最近一次交互的基站位置作為號碼當(dāng)前位置。2、號碼今日軌跡計算口徑:從凌晨0時起,根據(jù)信令數(shù)據(jù),按基站與用戶對應(yīng)關(guān)系口徑記錄號碼與基站發(fā)生交互的變化順序,號碼與基站對應(yīng)關(guān)系不重復(fù)記錄。號碼軌跡記錄字段包括手機號碼、日期、位置經(jīng)緯度、進入時間、退出時間、停留時間。〔三區(qū)域熱力〔人流聚集分布。1、區(qū)域熱力計算。按5分鐘一次時間間隔,根據(jù)基站用戶統(tǒng)計口徑,匯總統(tǒng)計區(qū)域內(nèi)基站用戶數(shù),形成人流聚集區(qū)域熱力圖。2、區(qū)域熱力動態(tài)計算。根據(jù)基站人流量變化趨勢,計算區(qū)域內(nèi)人員流向及動態(tài),形成人員數(shù)量動態(tài)變化的預(yù)判,并通過區(qū)域熱力圖告警實現(xiàn)。例如有100人正向區(qū)域中心聚集。計算所涉及的數(shù)據(jù)字段:用戶號碼、日期及時間、基站LAC和ID、基站經(jīng)緯度?!菜膶崟r告警。1、號碼位置告警。已經(jīng)標記的號碼進入或離開限定區(qū)域,系統(tǒng)實時告警。進入告警時間在標記的號碼進入限定區(qū)域內(nèi)的第一個基站范圍時產(chǎn)生。離開告警時間在在標記的號碼進入限定區(qū)域外的第一個基站范圍時產(chǎn)生。計算所涉及的數(shù)據(jù)字段:用戶號碼、日期及時間、基站LAC和ID、基站經(jīng)緯度、限定區(qū)域經(jīng)緯度。定時數(shù)據(jù)存儲及加工數(shù)據(jù)存儲策略根據(jù)數(shù)據(jù)重要性、訪問頻率、訪問性能要求、數(shù)據(jù)量等指標對HDFS、Hive、HBase的數(shù)據(jù)進行分類,并制定相應(yīng)的存儲策略??紤]本項目的實際情況,主要從數(shù)據(jù)周期、數(shù)據(jù)訪問情況、數(shù)據(jù)粒度等幾個方面考慮數(shù)據(jù)分級存儲策略,其中數(shù)據(jù)周期作為管理的主要關(guān)注點。在線級別采集來源數(shù)據(jù)詳單明細數(shù)據(jù)分析及統(tǒng)計數(shù)據(jù)匯總數(shù)據(jù)<DM>日月日月日月日月在線區(qū)1個月2個月2個月6個月6個月12個月長期近線區(qū)3-6個月7-12個月6-12個月1-2年歸檔區(qū)1-5年2-5年銷毀大于5年大于五年在線存儲:在線存儲又稱工作級的存儲,存儲設(shè)備和所存儲的數(shù)據(jù)時刻保持隨時響應(yīng)狀態(tài),可以實時讀寫的,可滿足計算平臺對數(shù)據(jù)訪問的速度要求。近線存儲:近線存儲定位于在線存儲和離線存儲之間的應(yīng)用,對性能要求相對來說并不高,但又提供相對較好的讀取性能。歸檔存儲:數(shù)據(jù)歸檔是將不再經(jīng)常使用的數(shù)據(jù)移到一個單獨的存儲設(shè)備來進行長期保存的過程,對涉及的數(shù)據(jù)進行離線存儲,以備非常規(guī)查詢等。Hadoop存儲與加工基于Hadoop+Hbase的大數(shù)據(jù)平臺,可實現(xiàn)海量數(shù)據(jù)存儲和高速數(shù)據(jù)查詢。通信行為數(shù)據(jù)在XX省內(nèi)聯(lián)通用戶〔包括XX省本地用戶和外省漫入用戶產(chǎn)生的通信行為數(shù)據(jù),即O域預(yù)處理詳單。1、語音詳單數(shù)據(jù)。字段包括電話號碼、主/被叫號碼、呼叫時間、呼叫時長、長途類型、漫游類型、基站LAC和ID。數(shù)據(jù)量1.5GB/天。2、流量詳單數(shù)據(jù)。字段包括電話號碼、通信時間、通信時長、上行流量、下行流量、訪問URL地址、基站LAC和ID。數(shù)據(jù)量3GB/天。3、短信詳單數(shù)據(jù)。字段包括電話號碼、發(fā)送時間、接收號碼。數(shù)據(jù)量0.5GB/天。通信內(nèi)容數(shù)據(jù)1、短信日志。手機短信平臺發(fā)送日志包含手機號碼、發(fā)送時間、被叫號碼、短信內(nèi)容字段。數(shù)據(jù)量1GB/天。2、上網(wǎng)URL關(guān)鍵詞。數(shù)據(jù)來源O域流量詳單,字段包括電話號碼、通信時間、訪問URL地址、基站LAC和ID、URL關(guān)鍵詞。數(shù)據(jù)量3GB/天。3、網(wǎng)頁內(nèi)容識別。數(shù)據(jù)來源對互聯(lián)網(wǎng)網(wǎng)頁的爬蟲抓取,字段包括網(wǎng)頁URL、關(guān)鍵詞。數(shù)據(jù)量10GB/天。號碼軌跡數(shù)據(jù)1、手機信令〔MC口數(shù)據(jù)。字段包括電話號碼、通信時間、基站LAC和ID,數(shù)據(jù)量15GB/天。2、號碼軌跡數(shù)據(jù)。從手機信令數(shù)據(jù)加工得到。字段包括電話號碼、到達時間、離開時間、位置經(jīng)緯度、停留時間。數(shù)據(jù)量1GB/天。用戶特征數(shù)據(jù)1、基本信息。字段包括用戶姓名、開戶地、證件號、證件地址、性別、年齡、業(yè)務(wù)類型、品牌套餐等信息。數(shù)據(jù)量1GB/天。2、上網(wǎng)行為特征。數(shù)據(jù)內(nèi)容包括上網(wǎng)流量、主要的上網(wǎng)地點、上網(wǎng)時間段、喜歡訪問的網(wǎng)站排名。數(shù)據(jù)量1GB/天。3、活動軌跡特征。數(shù)據(jù)內(nèi)容包括主要的活動地點〔經(jīng)緯度、活動時間段;從早到晚的主要活動軌跡。數(shù)據(jù)量1GB/天。4、朋友圈。手機號碼的交際圈,從長期〔如三個月的語音詳單中對手機號碼的主被號碼分析,按叫呼叫時長和次數(shù)排序,確定常用聯(lián)系人清單,即朋友圈。數(shù)據(jù)量1GB/天。5、標記信息。主動標記,通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,主動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機號碼,并給予標記。被動標記,對涉穩(wěn)人員、各類犯罪前科人員手機號碼打標記。數(shù)據(jù)小于1GB/天。分析模型數(shù)據(jù)1、交際圈分析模型。交際圈用于機主關(guān)系分析,手機號碼之間的交際緊密程度和交際對象,如下圖:交際圈分析按月從語音詳單中對手機號碼的主被叫情況統(tǒng)計分析,無論主被叫都記為一次接觸,并按接觸進行排序。數(shù)據(jù)字段:手機號碼、接觸號碼、接觸次數(shù)、接觸次數(shù)占比。數(shù)據(jù)量約2GB/月。2、呼叫指紋分析模型。呼叫指紋分析模型用于關(guān)系人分析,即分析出老手機號碼用戶使用的新手機號碼。呼叫指紋分析通過目標號碼的語音呼叫范圍特征、上網(wǎng)行為特征判斷相似的目標號碼。〔1語音呼叫范圍特征:主叫號碼排序被叫號碼排序〔2上網(wǎng)行為特征:訪問網(wǎng)站排序使用APP排序〔3短信行為特征:主叫號碼排序被叫號碼排序數(shù)據(jù)字段:手機號碼、關(guān)聯(lián)手機號碼、匹配度。數(shù)據(jù)字段:數(shù)據(jù)量約2GB/月。3、號碼碰撞分析模型。號碼碰撞分析用于個案分析,根據(jù)號碼活動軌跡,分析限定時段的幾個區(qū)域內(nèi)或某個區(qū)域多個時段內(nèi),找出同時出現(xiàn)的手機號碼頻率??膳渲脳l件按出現(xiàn)次數(shù)進行過濾。數(shù)據(jù)字段:區(qū)域、日期時段,手機號碼,出現(xiàn)次數(shù)。數(shù)據(jù)量約1GB/月。4、外來人員分析模型。外來人員分析模型服務(wù)治安管理。對進入XX省停留達30日的外省手機號碼進行標記為外來人員。將用戶信息推送到派出所開展暫住人口登記核查。停留地市按30天內(nèi)手機號碼停留最多的地市進行計算。數(shù)據(jù)字段:手機號碼、來源省份、停留地市。數(shù)據(jù)量約1GB/月。5、網(wǎng)上異動分析模型。網(wǎng)上異動分析用于涉穩(wěn)預(yù)警。通過對目標號碼的流量大小和通話次數(shù)和范圍變化,判斷異動行為?!?語音呼叫異動條件:主叫范圍突增300%;被叫范圍突增300%;主叫時長突增300%;被叫時長突增300%;〔2上網(wǎng)行為特征:訪問特定網(wǎng)站流量突增;使用特定APP流量突增;〔3短信行為特征:主叫范圍突增300%;被叫范圍突增300%;數(shù)據(jù)字段:異動手機號碼、異動時間、異動原因。數(shù)據(jù)量約1GB/月。統(tǒng)計匯總數(shù)據(jù)1、關(guān)鍵詞熱力數(shù)據(jù)。1從手機上網(wǎng)內(nèi)容URL中的關(guān)鍵詞進行匯總計算。數(shù)據(jù)字段:日期、關(guān)鍵詞、手機號碼數(shù)據(jù)量。手機號碼數(shù)據(jù)量按聯(lián)通市場占比進行推算,得出全量人數(shù)。數(shù)據(jù)量約1GB/月。2設(shè)定關(guān)鍵詞庫,對微博等網(wǎng)頁爬取數(shù)據(jù),進行分詞統(tǒng)計,獲取對政策的評價。數(shù)據(jù)字段:日期、關(guān)鍵詞、網(wǎng)上發(fā)布數(shù)量。數(shù)據(jù)量約30GB/月。2、區(qū)域熱力數(shù)據(jù)。通過手機號碼、基站ID和經(jīng)緯度,計算出區(qū)域內(nèi)的號碼個數(shù)。通過基站熱力圖反映區(qū)域內(nèi)人流熱度。計算頻率為每5分鐘按基站用戶統(tǒng)計口徑,對全省基站進行一次匯總統(tǒng)計。數(shù)據(jù)字段:日期、時間、位置經(jīng)緯度、人數(shù)。人數(shù)按聯(lián)通市場占比進行推算,得出全量人數(shù)。數(shù)據(jù)量約10GB/月。應(yīng)用模型數(shù)據(jù)1、標記計算模型。通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,主動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機號碼,并給予標記。數(shù)據(jù)字段:異動手機號碼、異動時間、異動原因。數(shù)據(jù)量約1GB/月。Oracle數(shù)據(jù)展現(xiàn)告警信息及分發(fā)1、標記管理數(shù)據(jù)。1對特定人員進行標記,給手機號碼打上標記〔涉恐、涉穩(wěn)等。數(shù)據(jù)字段:手機號碼、標記信息、標記時間。2對特定區(qū)域進行標記,按經(jīng)緯度給劃定區(qū)域打上黨政機關(guān)、加油站等標記。數(shù)據(jù)字段:區(qū)域、標記信息、標記時間。3對特定時間進行標記,按日期打上兩會等標記,按時間打上上下班高峰等標記。數(shù)據(jù)字段:日期、標記信息、標記時間。數(shù)據(jù)字段:時間、標記信息、標記時間。2、號碼位置告警數(shù)據(jù)。1當(dāng)標記的特定號碼進入特定區(qū)域后,系統(tǒng)自動報警。數(shù)據(jù)字段:日期和時間、告警號碼、告警位置、告警方式〔進入特定區(qū)域。2當(dāng)標記的特定號碼離開特定區(qū)域后,系統(tǒng)自動通知。數(shù)據(jù)字段:日期和時間、告警號碼、告警位置、告警方式〔離開特定區(qū)域。統(tǒng)計分析結(jié)果統(tǒng)計分析結(jié)果數(shù)據(jù)是指在Hadoop平臺加工完成的分析模型數(shù)據(jù)、統(tǒng)計匯總數(shù)據(jù)、應(yīng)用模型數(shù)據(jù)等。統(tǒng)計分析結(jié)果數(shù)據(jù)直接用于界面展現(xiàn)。配置與管理1、關(guān)鍵詞庫配置數(shù)據(jù)針對涉案、涉毒、涉恐、涉穩(wěn)等應(yīng)用方向,配置和管理關(guān)鍵詞及分類信息。2、手機號碼標記管理數(shù)據(jù)〔1主動標記的手機號碼數(shù)據(jù)。即系統(tǒng)通過用關(guān)鍵詞庫<涉案、涉毒、涉恐>過濾上網(wǎng)流量詳單和短信日志內(nèi)容,自動匹配出發(fā)送或使用過相關(guān)關(guān)鍵詞的手機號碼,并給予標記?!?被動標記的手機號碼數(shù)據(jù)。即民警對涉穩(wěn)人員、各類犯罪前科人員手機號碼打標記。應(yīng)用功能開發(fā)聯(lián)通"大數(shù)據(jù)"公安情報應(yīng)用平臺功能包括數(shù)據(jù)查詢、數(shù)據(jù)推送、監(jiān)控告警、統(tǒng)計分析、數(shù)據(jù)分析五個模塊。數(shù)據(jù)查詢號碼位置查詢[業(yè)務(wù)功能]1、劃定一個位置〔區(qū)域,查詢其中電話號碼。2、手機號碼查詢實時位置。[功能設(shè)計]1、通過手機實時信令數(shù)據(jù)中手機號碼、基站ID并關(guān)聯(lián)基站經(jīng)緯度,計算出區(qū)域內(nèi)的號碼個數(shù)。2、輸入手機號碼,通過手機實時信令數(shù)據(jù)手機號碼、基站ID并關(guān)聯(lián)基站經(jīng)緯度,找出手機號碼的最近一次基站交互記錄,將基站位置作為手機號碼的位置。[應(yīng)用場景]1、基礎(chǔ)功能〔電子地圖。查詢特定號碼位置。2、綜合分析〔個案分析。劃定區(qū)域查詢手機號和有關(guān)信息。3、服務(wù)指揮調(diào)度。警員手機號的定位。詳單查詢模塊[業(yè)務(wù)功能]1、根據(jù)電話號碼調(diào)取用戶通信詳單;2、對設(shè)定的敏感詞、網(wǎng)頁、APP進行過濾,找出相關(guān)號碼。[功能設(shè)計]1、通過手機號碼調(diào)取詳單??捎脝蝹€號碼或多個號碼批量查詢;查詢結(jié)果可以導(dǎo)出。語音詳單顯示電話號碼、主/被叫號碼、呼叫時間、呼叫時長。流量詳單顯示電話號碼、通信時間、通信時長、上行流量、下行流量。2、根據(jù)已經(jīng)設(shè)置的關(guān)鍵詞庫,上網(wǎng)詳單對URL中的關(guān)鍵詞進行敏感詞過濾,根據(jù)網(wǎng)頁URL庫和APP庫進行特點網(wǎng)頁、小眾APP過濾。[應(yīng)用場景]1、基礎(chǔ)功能<電子地圖>。話單調(diào)取。2、預(yù)警分析<涉恐類>。對手機短信和上網(wǎng)數(shù)據(jù)涉恐敏感詞過濾。3、綜合分析<案件偵查類>。上網(wǎng)、短信、社交軟件涉毒品、涉案件分析。4、綜合分析<個案分析>。檢索異常人群關(guān)鍵詞檢索。5、戰(zhàn)略分析。全國話單調(diào)取服務(wù)。號碼軌跡查詢模塊[業(yè)務(wù)功能]1、查詢手機號碼的位置軌跡;[功能設(shè)計]通過手機信令和基站數(shù)據(jù),按天繪制手機號碼的活動位置軌跡。以一次基站切換表示一次位置移動,在電子地圖上顯示。號碼軌跡顯示內(nèi)容包括手機號碼、日期、位置經(jīng)緯度、進入時間、退出時間、停留時間。[應(yīng)用場景]1、基礎(chǔ)功能<人員布控>,顯示人員活動軌跡,。2、預(yù)警分析<涉恐類>,特定號碼活動軌跡展示。3、戰(zhàn)略分析,群體"遷徙"分析?;拘畔⒉樵僛業(yè)務(wù)功能]1、展現(xiàn)基站位置圖層,并可導(dǎo)出和進行疊加;[功能設(shè)計]基站數(shù)據(jù)〔基站名稱、經(jīng)緯度、基站編號在地圖上展現(xiàn)。點擊可顯示具體基站編號和名稱。[應(yīng)用場景]基礎(chǔ)功能<電子地圖>,基站地圖圖層。機主信息查詢模塊[業(yè)務(wù)功能]1、單個或批量手機號碼查詢用戶信息;2、查詢用戶上網(wǎng)行為習(xí)慣、交際圈、關(guān)系人等。[功能設(shè)計]1、通過輸入手機號碼〔單個或多個查詢用戶資料,包括用戶姓名、證件號、證件地址、性別、年齡等信息,并可擴展查詢用戶特征刻畫數(shù)據(jù),如上網(wǎng)行為習(xí)慣、交際圈、關(guān)系人等。例如交際圈顯示與目標號碼有通信關(guān)系人際圈,并標記出相互之間的聯(lián)系頻度,如下圖。[應(yīng)用場景]基礎(chǔ)功能<電子地圖>,電話號碼用戶信息的批量查詢。綜合分析<案件偵查類>,針對犯罪嫌疑人的數(shù)據(jù)分析。數(shù)據(jù)推送用戶基本信息推送[業(yè)務(wù)功能]1、通過數(shù)據(jù)接口,定時向公安內(nèi)網(wǎng)提供用戶手機號、用戶基本信息;[功能設(shè)計]1從數(shù)據(jù)平臺獲取用戶號碼、姓名、證件號、地址、性別、年齡等信息,生成接口文件并推送至接口機。2接口方式采用FTP方式,使用FTP服務(wù)器,主動定時生成接口文件,由公安數(shù)據(jù)使用者下載。3推送頻率,每天1次全量數(shù)據(jù)。[應(yīng)用場景]綜合分析<個案分析>,向公安內(nèi)網(wǎng)提供用戶手機號、用戶基本信息。手機標記信息推送[業(yè)務(wù)功能]1、發(fā)送手機標記信息〔使用敏感軟件、發(fā)送過涉恐關(guān)鍵詞等短信、訪問涉恐音視頻等;[功能設(shè)計]1當(dāng)大數(shù)據(jù)平臺進行用戶手機標記計算之后,從大數(shù)據(jù)平臺獲取用戶手機標記信息,生成接口文件并推送至接口機。推送的手機標記信息包括手機號碼、標記信息、標記時間。2接口方式采用FTP方式,使用FTP服務(wù)器,主動定時生成接口文件,由公安數(shù)據(jù)使用者下載。3推送頻率,每天1次全量數(shù)據(jù)。[應(yīng)用場景]綜合分析<個案分析>,向公安內(nèi)網(wǎng)提供用戶手機號、用戶基本信息。數(shù)據(jù)接口[業(yè)務(wù)功能]1、使用FTP服務(wù)器,主動定時生成接口文件,由公安數(shù)據(jù)使用者下載;[功能設(shè)計]由FTP文件接口機實現(xiàn)數(shù)據(jù)文件推送。[應(yīng)用場景]綜合分析<個案分析>。監(jiān)控告警標記管理[業(yè)務(wù)功能]1、對特定人員進行標記,給手機號碼打上標記〔涉恐、涉穩(wěn)等;2、對特定區(qū)域進行標記,按經(jīng)緯度給劃定區(qū)域打上黨政機關(guān)、加油站等標記;3、對特定時間進行標記,按日期打上兩會等標記,按時間打上上下班高峰等標記;[功能設(shè)計]對標記數(shù)據(jù)進行維護。手機號碼標記、特定區(qū)域標記、日期和時間標記,由公安民警通過系統(tǒng)界面進行配置,數(shù)據(jù)實時生效。[應(yīng)用場景]基礎(chǔ)功能<人員布控>預(yù)警分析<涉恐類>預(yù)警分析<涉穩(wěn)類>綜合分析<案件偵查類>綜合分析<個案分析>號碼位置告警[業(yè)務(wù)功能]1、當(dāng)標記的特定號碼進入特定區(qū)域后,系統(tǒng)自動報警;2、當(dāng)標記的特定號碼離開特定區(qū)域后,系統(tǒng)自動通知;[功能設(shè)計]1手機信令和基站數(shù)據(jù)實時計算,通過手機號碼、基站ID和經(jīng)緯度,實時得出號碼經(jīng)緯度。2與標記信息進行比對后告警。告警內(nèi)容包括告警時間、告警區(qū)域/位置、手機號碼、告警內(nèi)容〔進入/離開。[應(yīng)用場景]基礎(chǔ)功能<人員布控>,區(qū)域布控。預(yù)警分析<涉恐類>,設(shè)定關(guān)注〔敏感區(qū)域號碼入黔來對某區(qū)域的人員進行關(guān)注。預(yù)警分析<涉穩(wěn)類>,涉穩(wěn)人員預(yù)警。綜合分析<案件偵查類>,前科人員異動分析預(yù)警。綜合分析<個案分析>,目標號碼進出固定區(qū)域告警。統(tǒng)計分析區(qū)域熱力[業(yè)務(wù)功能]1、信號熱度,統(tǒng)計一個區(qū)域內(nèi)的人數(shù);2、區(qū)域內(nèi)的號碼查詢;[功能設(shè)計]1手機信令和基站數(shù)據(jù)實時計算。通過手機號碼、基站ID和經(jīng)緯度,計算出區(qū)域內(nèi)的號碼個數(shù)。通過基站熱力圖反映區(qū)域內(nèi)人流熱度。顯示內(nèi)容為區(qū)域內(nèi)的人數(shù)。2通過區(qū)域內(nèi)的基站查找在基站下的號碼明細。點擊基站顯示當(dāng)前在這個基站下的號碼明細。[應(yīng)用場景]預(yù)警分析<涉穩(wěn)類>,群體性事件處置。服務(wù)治安管理,信號熱度分布。關(guān)鍵詞熱力[業(yè)務(wù)功能]1、長期上網(wǎng)行為分析,對網(wǎng)上搜索的景區(qū)、餐飲、購物、交通路線等進行分析匯總,提供數(shù)據(jù)參考;2、政策出臺前的網(wǎng)上信息分析,對網(wǎng)上針對該政策的反饋進行分析,提供數(shù)據(jù)參考;[功能設(shè)計]1從手機上網(wǎng)記錄URL中的關(guān)鍵詞進行匯總計算。能夠?qū)﹃P(guān)鍵詞進行分類,例如按地州市進行分類,顯示一個地州市的關(guān)鍵詞排行,如下圖,也可以按XX省匯總顯示。2設(shè)定關(guān)鍵詞庫,對微博等網(wǎng)頁爬取數(shù)據(jù),進行分詞統(tǒng)計,獲取對政策的評價。[應(yīng)用場景]戰(zhàn)略分析,長期上網(wǎng)行為分析、網(wǎng)上信息分析。數(shù)據(jù)分析號碼碰撞分析[業(yè)務(wù)功能]1、幾個區(qū)域,某個區(qū)域多個時段的號碼進行碰撞分析,得出目標號碼;[功能設(shè)計]1通過手機信令進行計算,碰撞出限定區(qū)域或時段內(nèi)的高頻出的號碼信息。能夠分析限定時段的幾個區(qū)域內(nèi)或某個區(qū)域多個時段內(nèi),找出同時出現(xiàn)的手機號碼頻率。顯示的內(nèi)容有區(qū)域、日期時段,手機號碼,出現(xiàn)次數(shù)。2可配置條件按出現(xiàn)次數(shù)進行過濾。[應(yīng)用場景]綜合分析〔個案分析,固定區(qū)域固定時段查詢目標號碼。聯(lián)系人分析[業(yè)務(wù)功能]1、分析出目標號碼的常用聯(lián)系人;[功能設(shè)計]從手機語音詳單,找出目標號碼的主被號碼按叫呼叫時長和次數(shù)排序,確定常用聯(lián)系人。常用聯(lián)系人界面展示前8位用戶號碼及接觸次數(shù)占比,前1-3位距離最近;前4-6位距離適中;后7-8位距離最遠,如下圖:[應(yīng)用場景]綜合分析〔案件偵查類,在逃人員及其關(guān)系人的數(shù)據(jù)分析。綜合分析〔個案分析,生成朋友圈信息。關(guān)系人分析[業(yè)務(wù)功能]1、分析出目標號碼的新手機號碼;[功能設(shè)計]1、通過目標號碼的語音呼叫范圍特征、上網(wǎng)行為特征判斷相似的目標號碼,由數(shù)據(jù)分析模型加工計算。2、顯示新號碼與舊號碼的匹配程度〔百分比。[應(yīng)用場景]綜合分析〔個案分析,分析出目標人員使用的新手機號碼。外來人員分析[業(yè)務(wù)功能]1、找出進入我省停留達30日的外省人員;[功能設(shè)計]通過手機信令進行計算,找出停留30天的外省號碼。界面顯示外省人員手機號碼、來源省份、停留地市。[應(yīng)用場景]服務(wù)治安管理,外來人員信息獲取。網(wǎng)上異動分析[業(yè)務(wù)功能]1、對涉穩(wěn)人員手機號碼打標簽,對串聯(lián)的行為進行分析和預(yù)警;[功能設(shè)計]通過對目標號碼的流量大小和通話次數(shù)和范圍變化,判斷異動行為。由數(shù)據(jù)分析模型加工計算,界面展現(xiàn)分析結(jié)果。[應(yīng)用場景]預(yù)警分析〔涉穩(wěn)類,網(wǎng)上串聯(lián)異動分析。項目實施人員組織安排按照項目管理方法,采取自上而下,統(tǒng)一組織,分期實施,嚴格劃分項目系統(tǒng)階段目標,確保如期完成,并保證前后系統(tǒng)無縫銜接,達到系統(tǒng)總體功能一致。在有關(guān)負責(zé)人的領(lǐng)導(dǎo)下,成立項目領(lǐng)導(dǎo)小組,直接指揮協(xié)調(diào)。項目組織機構(gòu)可用下圖表示:〔一項目領(lǐng)導(dǎo)小組項目領(lǐng)導(dǎo)小組為項目實施的最高決策機構(gòu)。職責(zé):批準該系統(tǒng)總體設(shè)計方案和實施計劃,決定項目重大投資決策,認定系統(tǒng)實施中的重要業(yè)務(wù)范圍和技術(shù)標準,協(xié)調(diào)工程實施過程中XX省公安廳和承建方之間的關(guān)系。運作方式:通過定期和不定期地協(xié)調(diào)會的方式,即在項目進展的每個階段定期召開協(xié)調(diào)會,研究協(xié)調(diào)下一階段的工作和在項目實施過程中遇到要協(xié)調(diào)問題時召開領(lǐng)導(dǎo)成員參加的協(xié)調(diào)會,產(chǎn)生協(xié)調(diào)會紀要,用紀要來指導(dǎo)項目建設(shè)。組成:項目領(lǐng)導(dǎo)小組由XX省公安廳〔或其領(lǐng)導(dǎo)機關(guān)人員與承建方人員共同組成?!捕椖繉嵤┬〗M職責(zé):按照項目設(shè)計指標、進度安排和協(xié)調(diào)會紀要的要求,按期保質(zhì)地完成項目建設(shè)。運作方式:實行項目經(jīng)理負責(zé)制,項目經(jīng)理技術(shù)要求和進度制定各階段的項目實施計劃和相應(yīng)的財務(wù)管理,監(jiān)督項目各部分的實施。組成:由承建方及有關(guān)的產(chǎn)品供貨商組成,下劃三個功能小組:即專家組、開發(fā)組、測試組。1、專家組職責(zé):提供專業(yè)咨詢意見,協(xié)助總體設(shè)計。人員組成:大數(shù)據(jù)技術(shù)專家、熟悉公安業(yè)務(wù)專家、對軟件開發(fā)工程有豐富管理工作經(jīng)驗的專家。2、軟件開發(fā)組職責(zé):具體承擔(dān)信息系統(tǒng)的開發(fā)任務(wù)。人員組成:數(shù)據(jù)開發(fā)員、數(shù)據(jù)分析員、程序員。3、測試組職責(zé):對各種設(shè)備進行進貨、安裝、測試檢驗;對軟件各子系統(tǒng)模式的功能、可靠性進行測試,并寫出測試報告。人員組成:熟悉公安業(yè)務(wù)的工作人員、大數(shù)據(jù)技術(shù)專家、承建方有關(guān)技術(shù)人員。項目實施步驟通過平臺搭建、功能開發(fā)、應(yīng)用及優(yōu)化三個階段逐步完成"大數(shù)據(jù)"公安情報應(yīng)用平臺建設(shè),滿足八類公安情報應(yīng)用需求。平臺搭建平臺搭建主要工作內(nèi)容是搭建平臺網(wǎng)絡(luò)及硬件環(huán)境,實現(xiàn)數(shù)據(jù)采集存儲?!惨黄脚_搭建基于X86服務(wù)器的實時計算平臺搭建:完成服務(wù)器硬件安裝,建立好Speak計算平臺軟件環(huán)境。Hadoop大數(shù)據(jù)集群環(huán)境搭建:完成服務(wù)器硬件安裝,完成Hadoop集群軟件安裝,正常運行大數(shù)據(jù)集群。完成網(wǎng)絡(luò)連接:完成大數(shù)據(jù)集群網(wǎng)絡(luò)環(huán)境,與接口機、WEB應(yīng)用服務(wù)器網(wǎng)絡(luò)連接。打通與XX省公安廳專線網(wǎng)絡(luò)連接?!捕?shù)據(jù)采集存儲詳單數(shù)據(jù)采集:實現(xiàn)在XX省內(nèi)聯(lián)通用戶〔包括XX省本地用戶和外省漫入用戶產(chǎn)生的通信詳單采集,即O域預(yù)處理詳單采集。信令和業(yè)務(wù)日志數(shù)據(jù)采集:實現(xiàn)移動網(wǎng)絡(luò)MC口信令數(shù)據(jù)采集,實現(xiàn)短信日志數(shù)據(jù)采集。功能開發(fā)功能開發(fā)主要包括開發(fā)數(shù)據(jù)加工處理能力開發(fā)和開發(fā)應(yīng)用系統(tǒng)界面功能開發(fā)兩個方方面。〔一數(shù)據(jù)加工、計算實時數(shù)據(jù)加工和計算:開發(fā)實時數(shù)據(jù)加工程序,完成區(qū)域熱力、實時告警、位置軌跡等實時計算功能。定時數(shù)據(jù)加工和計算:開發(fā)定時數(shù)據(jù)加工程序,完成分析模型、統(tǒng)計分析、標記計算等數(shù)據(jù)加工和計算功能?!捕?yīng)用功能開發(fā)開發(fā)數(shù)據(jù)查詢、數(shù)據(jù)告警、數(shù)據(jù)推送功能界面。開發(fā)統(tǒng)計分析、數(shù)據(jù)分析功能界面。應(yīng)用及優(yōu)化大數(shù)據(jù)應(yīng)用功能優(yōu)化主要工作內(nèi)容是數(shù)據(jù)模型優(yōu)化和應(yīng)用功能優(yōu)化?!惨粩?shù)據(jù)模型優(yōu)化積累歷史數(shù)據(jù):積累最新三個月數(shù)據(jù),為數(shù)據(jù)計算和模型驗證提供基礎(chǔ)數(shù)據(jù)。模型配置優(yōu)化,模型效果評估:驗證數(shù)據(jù)模型加工結(jié)果,反復(fù)調(diào)整模型參數(shù),優(yōu)化模型效果?!捕?yīng)用功能優(yōu)化選擇試點單位,推廣8類應(yīng)用需求。優(yōu)化應(yīng)用功能:根據(jù)試點單位試用結(jié)果,反復(fù)優(yōu)化、完善界面功能。項目投入估算本期項目建設(shè)需投入X86服務(wù)器、交換機以及配套設(shè)施,應(yīng)用軟件開發(fā)。硬件資源投入包括X86服務(wù)器、交換機以及配套設(shè)施。大數(shù)據(jù)機房及網(wǎng)絡(luò)環(huán)境選擇中國聯(lián)通貴安大數(shù)據(jù)基地。應(yīng)用軟件開發(fā)投入主要是聯(lián)通"大數(shù)據(jù)"公安情報應(yīng)用平臺建設(shè)。大數(shù)據(jù)平臺相關(guān)技術(shù)原理說明Hadoop基礎(chǔ)平臺HDFSHDFS概述HadoopDistributedFileSystem,簡稱HDFS。分布式文件系統(tǒng),設(shè)計之初用來存儲大文件,將大文件分散成很多塊存儲至多臺服務(wù)器。HDFS是整個Hadoop生態(tài)圈的基礎(chǔ)。技術(shù)原理HDFS的服務(wù)角色分為Namenode和Datanode。Namenode:主要負責(zé)存儲一些metadata信息,主要包括文件目錄、block和文件對應(yīng)關(guān)系,以及block和datanote的對應(yīng)關(guān)系。Datanode:負責(zé)存儲數(shù)據(jù)。Block:大文件的存儲會被分割為多個block進行存儲。默認為64MB,每一個block會在多個datanode上存儲多份副本,默認為3份,多個副本避免硬件故障帶來的文件丟失。HDFS提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。HDFS結(jié)構(gòu)圖:HDFS讀流程結(jié)構(gòu)圖:HDFS寫流程結(jié)構(gòu)圖:YarnYarn概述為了實現(xiàn)一個Hadoop集群的集群共享、可伸縮性和可靠性。設(shè)計人員采用了一種分層的集群框架方法。具體來講,特定于MapReduce的功能已替換為一組新的守護程序,將該框架向新的處理模型開放。

回想一下,由于限制了擴展以及網(wǎng)絡(luò)開銷所導(dǎo)致的某些故障模式,MRv1JobTracker和TaskTracker方法曾是一個重要的缺陷。這些守護程序也是MapReduce處理模型所獨有的。為了消除這一限制,JobTracker和TaskTracker已從YARN中刪除,取而代之的是一組對應(yīng)用程序不可知的新守護程序。技術(shù)原理Yarn作為第二代計算架構(gòu),用ResourceManager將一代架構(gòu)JobTracker兩個主要的功能分離成單獨的組件,這兩個功能是資源管理和任務(wù)調(diào)度/監(jiān)控,即ApplicationManager和ResourceScheduler。ResourceManager負責(zé)作業(yè)與資源的調(diào)度。接收JobSubmitter提交的作業(yè),按照作業(yè)的上下文<Context>信息,以及從NodeManager收集來的狀態(tài)信息,啟動調(diào)度過程,分配一個Container作為ApplicationMaster。NodeManager負責(zé)Container狀態(tài)的維護,并向RM保持心跳。ApplicationMaster負責(zé)一個Job生命周期內(nèi)的所有工作。如果這里的Application是MapReduceApplication,那么這里的ApplicationMaster相當(dāng)于只負責(zé)一個Job的JobTracker。每一個應(yīng)用的ApplicationMaster是一個詳細的框架庫,它結(jié)合從ResourceManager獲得的資源和NodeManager協(xié)同工作來運行和監(jiān)控任務(wù)。Container是YARN為了將來作資源隔離而提出的一個框架,NodeManager節(jié)點上的資源單位,用于支撐MapReduce子任務(wù)的執(zhí)行。ResourceManager對應(yīng)于NameNode。NodeManager對應(yīng)于DataNode。DataNode和NameNode是針對數(shù)據(jù)存放來而言的。ResourceManager和NodeManager是對于Yarn運行而言的。Yarn架構(gòu)圖:ZookeeperZookepper概述ZooKeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),它包含一個簡單的原語集,分布式應(yīng)用程序可以基于它實現(xiàn)同步服務(wù),配置維護和命名服務(wù)等。Zookeeper是hadoop的一個子項目,其發(fā)展歷程無需贅述。在分布式應(yīng)用中,由于工程師不能很好地使用鎖機制,以及基于消息的協(xié)調(diào)機制不適合在某些應(yīng)用中使用,因此需要有一種可靠的、可擴展的、分布式的、可配置的協(xié)調(diào)機制來統(tǒng)一系統(tǒng)的狀態(tài)。技術(shù)原理Zookeeper的核心是原子廣播,這個機制保證了各個Server之間的同步。實現(xiàn)這個機制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式,它們分別是恢復(fù)模式〔選主和廣播模式〔同步。當(dāng)服務(wù)啟動或者在領(lǐng)導(dǎo)者崩潰后,Zab就進入了恢復(fù)模式,當(dāng)領(lǐng)導(dǎo)者被選舉出來,且大多數(shù)Server完成了和leader的狀態(tài)同步以后,恢復(fù)模式就結(jié)束了。狀態(tài)同步保證了leader和Server具有相同的系統(tǒng)狀態(tài)。為了保證事務(wù)的順序一致性,zookeeper采用了遞增的事務(wù)id號〔zxid來標識事務(wù)。所有的提議〔proposal都在被提出的時候加上了zxid。實現(xiàn)中zxid是一個64位的數(shù)字,它高32位是epoch用來標識leader關(guān)系是否改變,每次一個leader被選出來,它都會有一個新的epoch,標識當(dāng)前屬于那個leader的統(tǒng)治時期。低32位用于遞增計數(shù)。每個Server在工作過程中有三種狀態(tài):LOOKING:當(dāng)前Server不知道leader是誰,正在搜尋LEADING:當(dāng)前Server即為選舉出來的leaderFOLLOWING:leader已經(jīng)選舉出來,當(dāng)前Server與之同步Hbase高速即時查詢Hbase基礎(chǔ)組件Hbase概述HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于FayChang所撰寫的Google論文"Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)"。就像Bigtable利用了Google文件系統(tǒng)〔FileSystem所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。技術(shù)原理Hbase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。ZookeeperQuorum中除了存儲了-ROOT-表的地址和HMaster的地址,HRegionServer也會把自己以Ephemeral方式注冊到Zookeeper中,使得HMaster可以隨時感知到各個HRegionServer的健康狀態(tài)。此外,Zookeeper也避免了HMaster的單點問題。HMaster沒有單點問題,HBase中可以啟動多個HMaster,通過Zookeeper的MasterElection機制保證總有一個Master運行,HMaster在功能上主要負責(zé)Table和Region的管理工作:1.管理用戶對Table的增、刪、改、查操作2.管理HRegionServer的負載均衡,調(diào)整Region分布3.在RegionSplit后,負責(zé)新Region的分配4.在HRegionServer停機后,負責(zé)失效HRegionServer上的Regions遷移HRegionServer主要負責(zé)響應(yīng)用戶I/O請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是HBase中最核心的模塊。HRegionServer內(nèi)部管理了一系列HRegion對象,每個HRegion對應(yīng)了Table中的一個Region,HRegion中由多個HStore組成。每個HStore對應(yīng)了Table中的一個ColumnFamily的存儲,可以看出每個ColumnFamily其實就是一個集中的存儲單元,因此最好將具備共同IO特性的column放在一個ColumnFamily中,這樣最高效。HStore存儲是HBase存儲的核心了,其中由兩部分組成,一部分是MemStore,一部分是StoreFiles。MemStore是SortedMemoryBuffer,用戶寫入的數(shù)據(jù)首先會放入MemStore,當(dāng)MemStore滿了以后會Flush成一個StoreFile〔底層實現(xiàn)是HFile,當(dāng)StoreFile文件數(shù)量增長到一定閾值,會觸發(fā)Compact合并操作,將多個StoreFiles合并成一個StoreFile,合并過程中會進行版本合并和數(shù)據(jù)刪除,因此可以看出HBase其實只有增加數(shù)據(jù),所有的更新和刪除操作都是在后續(xù)的compact過程中進行的,這使得用戶的寫操作只要進入內(nèi)存中就可以立即返回,保證了HBaseI/O的高性能。當(dāng)StoreFilesCompact后,會逐步形成越來越大的StoreFile,當(dāng)單個StoreFile大小超過一定閾值后,會觸發(fā)Split操作,同時把當(dāng)前RegionSplit成2個Region,父Region會下線,新Split出的2個孩子Region會被HMaster分配到相應(yīng)的HRegionServer上,使得原先1個Region的壓力得以分流到2個Region上。Hbase架構(gòu)圖:Hbase封裝組件概述Hbase有其強大之處,但用戶使用相當(dāng)不方便,沒有類似sql的接口可以操作。東方國信擁有跨庫高速查詢的U-cloud行云數(shù)據(jù)庫,完全滿足大數(shù)據(jù)量高速跨庫查詢分析。技術(shù)原理行云采用類似虛擬數(shù)據(jù)庫<VirtualDatabase–VDB>的技術(shù),來延伸用戶查詢數(shù)據(jù)進行關(guān)連的物理范疇。在行云系統(tǒng)中,可以透過通過一致的API來將一個或多個異質(zhì)物理數(shù)據(jù)源組合起來以,這些組件用來集成不同數(shù)據(jù)源的數(shù)據(jù)。這些物理數(shù)據(jù)源包括:JDBC數(shù)據(jù)源、CSV文本文件、數(shù)據(jù)表,甚至可以是Webservices。用戶可透過類似DBLink的預(yù)先設(shè)定,將其他廠商的異質(zhì)數(shù)據(jù)庫〔如:Oracle、DB2,以JDBC/ODBC連線的方式,對異質(zhì)數(shù)據(jù)庫進行系統(tǒng)元數(shù)據(jù)的訪問,并在行云系統(tǒng)元數(shù)據(jù)引擎內(nèi)建立與保存對應(yīng)的表格相關(guān)信息。當(dāng)用戶需要進行跨數(shù)據(jù)庫的多表關(guān)連查詢時,行云的SQL解析引擎會針對用戶發(fā)起的SQL語句中,識別并解析特定字符〔@DBXXX,進一步在行云元數(shù)據(jù)引擎中找尋該異質(zhì)數(shù)據(jù)庫的虛擬表與字段定義。之后,在產(chǎn)生的分布式執(zhí)行計劃中,標示以特定的連接方式進行該虛擬表的掃瞄與過濾。再將過濾出的結(jié)果集,組裝成行云內(nèi)部的數(shù)據(jù)處理單元〔MDP,MemoryDataPack。轉(zhuǎn)換為MDB的異質(zhì)數(shù)據(jù)庫表結(jié)果集,將被行云的查詢執(zhí)行引擎〔QueryExecutor以一視XX的方式進行處理,不論是關(guān)連操作、聚集操作或子查詢過濾,均與行云本地端的數(shù)據(jù)處理方式一致,直到最終結(jié)果集產(chǎn)生為止。透過針對異質(zhì)數(shù)據(jù)庫的遠端接口,實現(xiàn)異質(zhì)數(shù)據(jù)庫的元數(shù)據(jù)掃瞄與行云虛擬表格元數(shù)據(jù)建立。透過行云數(shù)據(jù)處理單元〔MDP的定義,封裝與隔離異質(zhì)數(shù)據(jù)庫中表格數(shù)據(jù)與行云的差異。使得遠端數(shù)據(jù)的讀取,與行云自有的數(shù)據(jù)無異,簡化行云查詢執(zhí)行引擎的數(shù)據(jù)處理復(fù)雜度。得以完全屏蔽SQL關(guān)連查詢時,不同數(shù)據(jù)源所造成的特例處理與數(shù)據(jù)轉(zhuǎn)換干擾,發(fā)揮最佳的查詢執(zhí)行效率。Spark實時數(shù)據(jù)處理近線計算平臺采用Spark技術(shù),Spark是基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。Spark和ApacheHadoop協(xié)同并讓開發(fā)工作變得更加快速、容易。Spark可以讓大數(shù)據(jù)與快數(shù)據(jù)應(yīng)用結(jié)合在一起,可以通過流數(shù)據(jù)處理讓所有的數(shù)據(jù)進行交互式分析。不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論