流量運(yùn)營(yíng)項(xiàng)目sca整體介紹培訓(xùn)_第1頁(yè)
流量運(yùn)營(yíng)項(xiàng)目sca整體介紹培訓(xùn)_第2頁(yè)
流量運(yùn)營(yíng)項(xiàng)目sca整體介紹培訓(xùn)_第3頁(yè)
流量運(yùn)營(yíng)項(xiàng)目sca整體介紹培訓(xùn)_第4頁(yè)
流量運(yùn)營(yíng)項(xiàng)目sca整體介紹培訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目概 項(xiàng)目背 內(nèi)容語(yǔ) 用戶行為軌跡增 系統(tǒng)架 流量經(jīng)營(yíng)系 SCA系 邊界與接 內(nèi)部流 Hadoop生態(tài)系 Hadoop中的job運(yùn)行機(jī) socket接口模 概 服務(wù)端保留的客戶端連接信 服務(wù)端接收到分類請(qǐng)求消息調(diào)用URL分類器分 服務(wù)端保留的客戶端連接信 關(guān)于同步SOCKET與異步SOCKET的啟動(dòng)參 5爬蟲(chóng)模 概 主流 Nutch原始流 Nutch改造后的流 流程步驟實(shí) 合并排序步驟URLMerger的實(shí) 抓取步驟fetcher調(diào)整過(guò)的內(nèi) 網(wǎng)頁(yè)關(guān)鍵字(K2: 內(nèi)容識(shí)別模 URL規(guī)則分 網(wǎng)頁(yè)內(nèi)容分 實(shí)例庫(kù)更新與DMZ傳輸模 實(shí)例庫(kù)更 DMZ傳 打包部 概 本地打 開(kāi)發(fā)環(huán)境搭 手工調(diào)整內(nèi)網(wǎng)包結(jié) 手工調(diào)整包結(jié) 業(yè)務(wù)內(nèi)容分析(SCA)BI1.0的組成部分,提供了內(nèi)容語(yǔ)析、用戶行為軌跡增強(qiáng)兩個(gè)功能。項(xiàng)目背景內(nèi)容語(yǔ)上網(wǎng)日志包括:WAP網(wǎng)關(guān)日志、GPRS日志、WLAN日志。流量經(jīng)營(yíng)系統(tǒng)SCA系統(tǒng)邊界與接口內(nèi)部流程并將URL字段移至末尾技術(shù)背景介紹——Hadoop生態(tài)系統(tǒng)Hadoop是一個(gè)開(kāi)源的可運(yùn)行于大規(guī)模集群上的分布式并行編程框架,擅長(zhǎng)于在廉價(jià)機(jī)器搭建的集群上進(jìn)行海量數(shù)據(jù)(非結(jié)構(gòu)化)的與并行處理。 Pig、Mahout等Hadoopjob運(yùn)行機(jī)制socket接口模塊socket是為了完成網(wǎng)頁(yè)分類查詢對(duì)外提供的服務(wù)接口,這兩個(gè)接口目前都是提供給NBS的C3模塊使用。分類結(jié)果通過(guò)socketsend給NBS涉及到URL分類器的詳細(xì)描述,欲了解URL分類器可咨詢。

此模塊源碼所在 SCA/branches/3.0/aiomni3rm/aibi-sca/aibi-sca-SOCKET的實(shí)現(xiàn)邏輯ApacheMINAMINA的什么接口,其主要擴(kuò)展了當(dāng)已連接的客戶端往服務(wù)端write數(shù)據(jù)時(shí)messageReceived方被當(dāng)接口中其他方法拋出異常未獲時(shí)觸發(fā)exceptionCaught方被完成相關(guān)業(yè)務(wù)功能,MINA相關(guān)細(xì)節(jié)可參考網(wǎng)上資料。SOCKET整個(gè)SOCKET服務(wù)的啟動(dòng)類是:com.asiainfo.biframe.sca.newsocket.mainmainSocketServer里實(shí)現(xiàn)的start上一章節(jié)提到的,我們?cè)O(shè)置的處理類是com.asiainfo.biframe.sca.newsocket.server.SocketServerHandler,當(dāng)有客戶連接創(chuàng)建時(shí),會(huì)觸發(fā)方法sessionCreated,傳遞進(jìn)來(lái)的有客戶會(huì)話ID程序使用sessionMap來(lái)會(huì)話ID與SessionThreadInfo對(duì)象的對(duì)應(yīng)關(guān)系,sessionMap因?yàn)閱?dòng)時(shí)只構(gòu)造一個(gè),所以其是全局唯一實(shí)例的,它全局著進(jìn)程內(nèi)的所有會(huì)話ID與我們就可以根據(jù)messageReceived的傳遞過(guò)來(lái)的會(huì)話ID獲取服務(wù)端的對(duì)應(yīng)連接的SessionThreadInfo對(duì)象,如下圖:行數(shù)據(jù)處理,此dataProcessor對(duì)象的第一次構(gòu)造來(lái)自自定義握手,如下圖:URL(因?yàn)檫@里說(shuō)明的是同步SOCKET,所以使用的是MultiLineUrlDataProcessor而不是里實(shí)現(xiàn)的,MultiLineUrlDataProcessorURL分類器時(shí)使用的是多線程處理的方式,注意多個(gè)MultiLineUrlDataProcessorMultiLineUrlDataProcessor第一個(gè)實(shí)例構(gòu)造時(shí)構(gòu)造,如下圖:URLURL個(gè)數(shù)由客戶端確定上面文檔格式來(lái)自SVN:設(shè)計(jì)文檔/4.其他設(shè)計(jì)/SCA產(chǎn)品系統(tǒng)結(jié)構(gòu)設(shè)計(jì)V1.2- SOCKET的實(shí)現(xiàn)邏輯SOCKET2.12.2完全基本相同,唯一不同的地方是構(gòu)造的數(shù)據(jù)處理類是PageDataProcessor而不是MultiLineUrlDataProcessor,下章節(jié)將對(duì)PageDataProcessor進(jìn)行說(shuō)明。PAGE分類器分類PageDataProcessorsokcet客戶端將分類結(jié)果發(fā)送給NBS的C3模塊,如下圖畫(huà)圈部分:URLPageDataProcessor(因?yàn)檫@里說(shuō)明的是異步SOCKET,所以使用的是PageDataProcessor而不是MultiLineUrlDataProcessor)對(duì)象來(lái)處理分類,調(diào)用flare查詢分類器的過(guò)程都在PageDataProcessor里實(shí)現(xiàn)的,PageDataProcessorflare查詢分類器時(shí)使用的是多線程處理的方式,注意多個(gè)PageDataProcessor實(shí)例共享這同一個(gè)線程池,線程池會(huì)在PageDataProcessor第一個(gè)實(shí)例構(gòu)造時(shí)構(gòu)造,如下圖:URLURL個(gè)數(shù)由客戶端確定上面文檔格式來(lái)自SVN:設(shè)計(jì)文檔/4.其他設(shè)計(jì)/SCA產(chǎn)品系統(tǒng)結(jié)構(gòu)設(shè)計(jì)V1.2- URLSOCKETSOCKET的啟動(dòng)參數(shù)SOCKET共用的是同一套程序代碼,只是通過(guò)啟動(dòng)的配置參數(shù)來(lái)區(qū)分,JVM的參數(shù)如:-turljJVM的參數(shù)如:-tpagej 爬蟲(chóng)模進(jìn)行描述,Nutch的信息可網(wǎng)上查找相關(guān)資料或走讀其源代碼進(jìn)行了解。所有擴(kuò)展改造源碼所在目錄Nutch原始流程N(yùn)utch改造后的流程流程步驟實(shí)現(xiàn)合并排序步驟URLMerger的實(shí)現(xiàn)實(shí)現(xiàn)類是HadoopM/R程序,MergerSort,它們對(duì)應(yīng)的mapreduce接口實(shí)現(xiàn)在URLMergerURLMerger合計(jì)相同URL的次將封裝的對(duì)象(對(duì)象包括URL及頻次等)作為KEY輸出,目的按fetcherFetcherNutch原生的抓取類,我們有對(duì)其中的部分功能進(jìn)行了改進(jìn)優(yōu)化,包括下面 修改了 內(nèi)容分類步驟CrawlClassifier的實(shí)現(xiàn).其中的上圖中的小紅圈部分的代碼 classifyByContent(content,reporter)便是調(diào)用網(wǎng)頁(yè)分類的主。網(wǎng)頁(yè)關(guān)鍵字(K2: 網(wǎng)頁(yè)關(guān)鍵字(K2: com.asiainfo.biframe.sca.classifier.universal.UniversalClassifier,調(diào)用classifyByUniversal方法內(nèi)調(diào)用的是抽取實(shí)現(xiàn)類ExtractW 的類com.asiainfo.biframe.sca.classifier.universal.ExtractWge 方法extractContents的邏輯是先嘗試提取網(wǎng)頁(yè)中<metaname=" "content="XXXX"/>里的XXXX的部分,如果能提取到則此XXXX有內(nèi)容,那么此內(nèi)容作為網(wǎng)頁(yè),如果沒(méi)有那么嘗試使用網(wǎng)頁(yè)的title作為網(wǎng)頁(yè),如下圖:URL規(guī)則分類網(wǎng)頁(yè)內(nèi)容分類文本分類其中的文本分類器對(duì)應(yīng)的實(shí)現(xiàn)類,見(jiàn)下圖(內(nèi)部詳細(xì)邏輯咨詢(c.aa.rae.ca.cae.Geeraaer分類器才是可用的,裝載的位置見(jiàn)ExtractTemteProcessor的實(shí)現(xiàn):回到方法extractPcessWge的調(diào)用,這個(gè)是模板分類關(guān)鍵的,當(dāng)XML注意上圖的紅圈部分的while循環(huán)的含義,指的是首先嘗試通過(guò)完整獲取模板,如果獲取不到則取此的上一級(jí)(如 的上一級(jí)是)作為host重新找一次,依次如此循環(huán)直到頂級(jí)或找到模板為止。更新新的同義詞的過(guò)程,此部分邏輯可咨詢及。DMZ傳輸模塊實(shí)例庫(kù)更新進(jìn)程啟動(dòng)時(shí)從main為入口運(yùn)行,內(nèi)部通過(guò)輪詢UPDATE的輸入目錄 mons\config.xml)下是否存在mapM/R作業(yè),reduce執(zhí)行的是一個(gè)系統(tǒng)默認(rèn)的單一reduce過(guò)程,如下圖:flareK-V數(shù)據(jù)庫(kù),falreMemcached協(xié)議的,所以對(duì)flare的操作并沒(méi)有用到flare提供的客戶端API,讀寫(xiě)操作使用的是Memcached協(xié)議的操作的通用包xmemcached-1.3.6.jar里的API,MapMemcachedAPI將數(shù)據(jù)更新到flare庫(kù)中,如下圖:DMZ傳輸DMZGetDatahadoopDMZ傳輸程序的主實(shí)現(xiàn)類是 里的代碼,使用的都是VFSAPI,如下:部署相關(guān)文檔直接參考已經(jīng)發(fā)出過(guò)的《江西移動(dòng)流量經(jīng)營(yíng)1.0SCA產(chǎn)品升級(jí)部署方案 .docx10產(chǎn)品升級(jí)部署方案_V1 本地打開(kāi)發(fā)環(huán)境搭建JDKMaven1SVNbuild-all.bat20分鐘~30分鐘,運(yùn)行完成后在此工程的所有子工程目錄下可以找到很多已經(jīng)打出的target里的內(nèi)容,這就是我們需要的包,如下圖: -module-1.0.4-all.tar.gz壓縮文件里的lib包解壓出來(lái)全部拷貝到目 將 直接拷貝到目 將 將包%eclispse32bit3.7%\workspace\aibi-sca\ mmons-module-1.0.4-dmz.tar.gz壓縮包里的lib下的所有包解壓出來(lái)直接拷貝到%sca_home%\app\dbrmi\lib\下;config目錄下只有一個(gè)文件perties,從%eclispse32bit3.7%\workspace\aibi-sca\ s-module-1.0.4-dmz.tar.gz壓縮包里的config下的perties文件解壓拷貝到此下。%sca_home%\newsocket\page\lib\*.jar及%sca_home%\newsocket\url\lib\*.jar的文將包%eclispse32bit3.7%\workspace\aibi-sca\aibi-sca-socket-3\target\aibi-sca-socket-module-1.0.4-all.tar.gzlib包解壓出來(lái)全部拷貝到目錄%sca_home%\newsocket\page\lib\*.jar及%sca_home%\newsocket\url\lib\*.jar下;config目錄下只有一個(gè)文件perties,從%eclispse32bit3.7%\workspace\aibi-sca\ s-module-1.0.4-dmz.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論