用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū)_第1頁(yè)
用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū)_第2頁(yè)
用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū)_第3頁(yè)
用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū)_第4頁(yè)
用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 信利SensitiView寬帶用戶(hù)行為分析系統(tǒng)技術(shù)建議書(shū) 西安信利軟件科技有限公司(版權(quán)所有)目 錄1、簡(jiǎn)介3 1.1. 開(kāi)發(fā)背景3 1.2. 術(shù)語(yǔ):32. 項(xiàng)目概述4 2.1. 產(chǎn)品簡(jiǎn)介4 2.2. 商業(yè)機(jī)會(huì)4 2.3. 系統(tǒng)組成5 2.4. 子系統(tǒng)功能描述5 2.5. 運(yùn)行環(huán)境83. 系統(tǒng)總體架構(gòu)9 3.1. 系統(tǒng)目標(biāo)9 3.2. 技術(shù)方案說(shuō)明9 3.3. 網(wǎng)絡(luò)拓?fù)鋱D10 3.4. 網(wǎng)絡(luò)拓?fù)湔f(shuō)明11 3.5. 系統(tǒng)整體結(jié)構(gòu)圖11 3.6. 系統(tǒng)中各服務(wù)器介紹12 3.7. 模塊清單134. 各模塊說(shuō)明14 4.1. 數(shù)據(jù)采集模塊144.1.1 功能概述144.1.2 模塊設(shè)計(jì)要素說(shuō)明15

2、4.1.3 結(jié)構(gòu)154.1.4 詳細(xì)功能說(shuō)明16 4.2. 數(shù)據(jù)匯總存儲(chǔ)模塊174.2.1 模塊功能概述174.2.2 模塊設(shè)計(jì)要素說(shuō)明174.2.3 結(jié)構(gòu)174.2.4 詳細(xì)功能說(shuō)明18 4.3. 數(shù)據(jù)分析處理模塊184.3.1 模塊功能概述184.3.2 模塊設(shè)計(jì)要素說(shuō)明184.3.3 詳細(xì)功能說(shuō)明184.3.4 程序邏輯流程19 4.4. 數(shù)據(jù)展示模塊194.4.1 功能描述194.4.2 模塊設(shè)計(jì)要素說(shuō)明214.4.3 結(jié)構(gòu)21用戶(hù)信息管理:對(duì)用戶(hù)信息進(jìn)行查詢(xún)、統(tǒng)計(jì)等。224.4.4 程序邏輯224.4.5 系統(tǒng)頁(yè)面設(shè)計(jì)225. 其他接口說(shuō)明241、簡(jiǎn)介1.1. 開(kāi)發(fā)背景 互聯(lián)網(wǎng)應(yīng)用紛

3、呈,市場(chǎng)空間快速擴(kuò)張。電信運(yùn)營(yíng)商在獲取寬帶接入收入之外,需要進(jìn)一步參與互聯(lián)網(wǎng)市場(chǎng)價(jià)值分配,不斷開(kāi)發(fā)出能夠發(fā)揮電信運(yùn)營(yíng)商優(yōu)勢(shì)的互聯(lián)網(wǎng)業(yè)務(wù)。而這需要電信運(yùn)營(yíng)商及時(shí)掌握互聯(lián)網(wǎng)用戶(hù)的需求特點(diǎn)。 面對(duì)龐大的互聯(lián)網(wǎng)用戶(hù)群體、廣泛多樣的用戶(hù)需求,針對(duì)性營(yíng)銷(xiāo)成為提升營(yíng)銷(xiāo)效率、改善營(yíng)銷(xiāo)效果,達(dá)成營(yíng)銷(xiāo)制勝的必選手段。而為了能夠有效的實(shí)現(xiàn)針對(duì)性營(yíng)銷(xiāo),需要首先獲得目標(biāo)用戶(hù)的范圍。1.2. 術(shù)語(yǔ):HOST:特指HTTP協(xié)議中的HOST信息,如訪問(wèn)某一頁(yè)面 則對(duì)應(yīng)的HOST信息為 :URL:特指訪問(wèn)WEB站點(diǎn)的地址信息,如訪問(wèn)某一頁(yè)面 則對(duì)應(yīng)的URL信息為: 一級(jí)域名:特指訪問(wèn)WEB站點(diǎn)的一級(jí)域名信息,如訪問(wèn)某一頁(yè)面 則

4、對(duì)應(yīng)的一級(jí)域名信息為: 應(yīng)用分類(lèi):指按照預(yù)先建立好的分類(lèi)模型,將用戶(hù)的行為信息進(jìn)行分類(lèi),例如訪問(wèn),進(jìn)行應(yīng)用分類(lèi)則為 新聞 類(lèi)。用戶(hù)分類(lèi):根據(jù)用戶(hù)的網(wǎng)絡(luò)行為信息及信息對(duì)應(yīng)的應(yīng)用分類(lèi)的結(jié)果,將用戶(hù)進(jìn)行分類(lèi),每個(gè)用戶(hù)可以在多個(gè)分類(lèi)中,如新聞?lì)愑脩?hù)等。用戶(hù)聚類(lèi):根據(jù)用戶(hù)的網(wǎng)絡(luò)行為及分類(lèi)結(jié)果進(jìn)行數(shù)據(jù)挖掘和各類(lèi)關(guān)聯(lián),從而可以獲得用戶(hù)的相關(guān)聚類(lèi)信息。例如喜歡新聞?lì)惖挠脩?hù)一般也喜歡某類(lèi)。2. 項(xiàng)目概述2.1. 產(chǎn)品簡(jiǎn)介該產(chǎn)品通過(guò)對(duì)用戶(hù)的網(wǎng)絡(luò)相關(guān)行為進(jìn)行有效分析,根據(jù)提取出的應(yīng)用特征對(duì)用戶(hù)進(jìn)行有效分群,細(xì)致把握用戶(hù)互聯(lián)網(wǎng)應(yīng)用需求,為實(shí)現(xiàn)基于分群的針對(duì)化營(yíng)銷(xiāo)提供有效支持。2.2. 商業(yè)機(jī)會(huì)目前電信擁有大量的寬帶用

5、戶(hù),使用的大多是簡(jiǎn)單包月+物理帶寬為基礎(chǔ)的粗放型業(yè)務(wù)發(fā)展模式;然而該模式無(wú)法真實(shí)的反應(yīng)用戶(hù)的潛在需求,網(wǎng)絡(luò)消耗率日益增長(zhǎng),隨之?dāng)U容的頻率也越來(lái)越高,不符合集約化,精細(xì)化的發(fā)展趨勢(shì),無(wú)法給電信帶來(lái)更大的收益。另外電信在向信息超市的提供者與管理者的角色轉(zhuǎn)型過(guò)程中,缺少“叫好又叫座”的SP/CP業(yè)務(wù),同時(shí)電信本身所推出的綠色上網(wǎng)、在線服務(wù)等增值業(yè)務(wù)對(duì)用戶(hù)也缺少足夠的吸引力。為了實(shí)現(xiàn)寬帶業(yè)務(wù)的精耕細(xì)作,推進(jìn)SP/CP業(yè)務(wù)以及多樣增值業(yè)務(wù)的快速、健康發(fā)展,目前電信急需對(duì)寬帶用戶(hù)的上網(wǎng)行為進(jìn)行了解,從而能夠及時(shí)獲知整體用戶(hù)的網(wǎng)絡(luò)行為或傾向、從而推出相關(guān)的業(yè)務(wù),更好的吸引用戶(hù),進(jìn)而提高自身的收益,促進(jìn)寬帶業(yè)

6、務(wù)的健康發(fā)展。同時(shí)面對(duì)龐大的互聯(lián)網(wǎng)用戶(hù)群體、廣泛多樣的用戶(hù)需求,針對(duì)性營(yíng)銷(xiāo)成為提升營(yíng)銷(xiāo)效率、改善營(yíng)銷(xiāo)效果,達(dá)成營(yíng)銷(xiāo)制勝的必選手段。而為了能夠有效的實(shí)現(xiàn)針對(duì)性營(yíng)銷(xiāo),需要首先獲得目標(biāo)用戶(hù)的范圍。2.3. 系統(tǒng)組成用戶(hù)行為分析系統(tǒng)由四大模塊組成:信息采集,信息匯總存儲(chǔ),信息挖掘統(tǒng)計(jì),系統(tǒng)展現(xiàn)、輸出:ID名稱(chēng)功能描述08PN03-SRS-BHCOLLECT信息采集模塊采集用戶(hù)行為數(shù)據(jù),負(fù)責(zé)用戶(hù)行為數(shù)據(jù)的來(lái)源。目前主要通過(guò)星空極速客戶(hù)端,采集用戶(hù)行為信息,主要包括訪問(wèn)的網(wǎng)站、搜索的關(guān)鍵字、計(jì)算機(jī)進(jìn)程、電腦硬件信息、網(wǎng)頁(yè)收藏夾等信息。采集到的數(shù)據(jù)上傳給數(shù)據(jù)存儲(chǔ)匯總模塊。08PN03-SRS-BHSTORE

7、信息匯總存儲(chǔ)模塊匯總并存儲(chǔ)采集插件上傳的數(shù)據(jù)。匯總后的數(shù)據(jù)輸出到原始數(shù)據(jù)庫(kù)中。08PN03-SRS-BHANALYSIS信息挖掘統(tǒng)計(jì)模塊系統(tǒng)的核心模塊,定期從原始數(shù)據(jù)庫(kù)中提取出數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)、挖掘和分析。包括簡(jiǎn)單的排名統(tǒng)計(jì)、用戶(hù)行為分類(lèi)、用戶(hù)分類(lèi)、用戶(hù)聚類(lèi)等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫(kù)中。08PN03-SRS-BHPRESENT系統(tǒng)展現(xiàn)、輸出模塊展示用戶(hù)行為分析的結(jié)果。從結(jié)果數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),以web、列表、統(tǒng)計(jì)圖、報(bào)表等形式展現(xiàn)出來(lái)。08PN03-SRS-BHOTHER其他模塊系統(tǒng)后續(xù)相關(guān)功能的完善,如增值業(yè)務(wù)使用情況,用戶(hù)自然屬性信息等相關(guān)功能。2.4. 子系統(tǒng)功能描述各個(gè)模塊對(duì)應(yīng)的子系統(tǒng)功

8、能如下:模塊名稱(chēng)功能點(diǎn)ID實(shí)現(xiàn)版本核心價(jià)值工作內(nèi)容其他重點(diǎn)跟進(jìn)信息采集模塊采集用戶(hù)計(jì)算機(jī)主要配置信息08PN03-SRS-BHCOLLECT-F011.0了解用戶(hù)計(jì)算機(jī)配置情況獲得用戶(hù)計(jì)算機(jī)的硬件、軟件配置信息,如CPU、內(nèi)存、已安裝軟件等信息。部分信息也可以從星空極速后臺(tái)直接獲取。采集用戶(hù)上網(wǎng)基本信息08PN03-SRS-BHCOLLECT-F021.0反映用戶(hù)基本上網(wǎng)行為獲得用戶(hù)上網(wǎng)的基本信息,如上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)流量等信息部分信息也可以從星空極速后臺(tái)直接獲取。采集用戶(hù)訪問(wèn)URL信息08PN03-SRS-BHCOLLECT-F031.0反映用戶(hù)頁(yè)面訪問(wèn)行為獲得用戶(hù)進(jìn)行WEB訪問(wèn)的有用URL,過(guò)

9、濾掉圖片等無(wú)用信息,并能夠支持進(jìn)行過(guò)濾,同時(shí)可以進(jìn)行信息簡(jiǎn)單統(tǒng)計(jì),上傳指定數(shù)量信息(TOP N 機(jī)制)過(guò)濾條件可變,TOP N值可支持動(dòng)態(tài)給定采集用戶(hù)搜索關(guān)鍵字信息08PN03-SRS-BHCOLLECT-F041.0可以獲知用戶(hù)所關(guān)心信息獲得用戶(hù)使用baidu、google,yahoo等主要搜索引擎進(jìn)行搜索的關(guān)鍵字信息,并且需要進(jìn)行相關(guān)字符的解碼處理先僅記錄頁(yè)面搜索信息,其他分類(lèi)搜索暫不考慮采集用戶(hù)使用進(jìn)程信息08PN03-SRS-BHCOLLECT-F051.0可以獲知用戶(hù)日常使用程序的信息獲得用戶(hù)機(jī)器中啟動(dòng)的進(jìn)程名稱(chēng)和使用時(shí)長(zhǎng)過(guò)濾掉系統(tǒng)相關(guān)的進(jìn)程采集用戶(hù)收藏夾信息08PN03-SRS-B

10、HCOLLECT-F061.0可以獲知用戶(hù)喜愛(ài),同時(shí)可驗(yàn)證用戶(hù)分類(lèi)正確性獲取用戶(hù)收藏夾相關(guān)信息采集用戶(hù)對(duì)應(yīng)的郵箱地址信息08PN03-SRS-BHCOLLECT-F071.0為針對(duì)性營(yíng)銷(xiāo)提供目的地采集獲取用戶(hù)所對(duì)應(yīng)的軟件、WEB等郵箱地址信息WEB郵箱可以?xún)H選常用郵箱其他采集信息08PN03-SRS-BHCOLLECT-F081.0其他反映用戶(hù)行為信息例如用戶(hù)訪問(wèn)網(wǎng)站是否收費(fèi),訪問(wèn)流量較多的前多少I(mǎi)P,P2PVOIP信息等可以逐步添加細(xì)化采集信息上傳08PN03-SRS-BHCOLLECT-F091.0將用戶(hù)信息上傳,進(jìn)行匯總、分析將用戶(hù)信息上傳,進(jìn)行匯總、分析上傳過(guò)程需要進(jìn)行加密,防止采集行

11、為被用戶(hù)感知,同時(shí)盡量做到壓縮上傳,減少通訊數(shù)據(jù)量信息匯總存儲(chǔ)采集信息接收08PN03-SRS -BHSTORE-F011.0接收采集信息獲得采集插件上傳信息 如果上傳前壓縮,則接收到數(shù)據(jù)之后需要解析。采集行為信息入庫(kù)08PN03-SRS -BHSTORE-F021.0保存行為信息將接收到的采集信息進(jìn)行保存信息挖掘統(tǒng)計(jì)分類(lèi)模型建立08PN03-SRS -BHANALYSIS-F011.0為分類(lèi)提供前提根據(jù)行為特征劃分不同的類(lèi)別參見(jiàn)附錄中的用戶(hù)行為分析模型設(shè)計(jì)文檔分類(lèi)相關(guān)特征庫(kù)形成08PN03-SRS -BHANALYSIS-F021.0為用戶(hù)分類(lèi)、行為統(tǒng)計(jì)等提供數(shù)據(jù)依據(jù)根據(jù)分類(lèi)模型,形成URL

12、,搜索關(guān)鍵字,進(jìn)程等各類(lèi)的特征庫(kù),為進(jìn)行自動(dòng)分類(lèi)提供依據(jù)。特征庫(kù)需要長(zhǎng)時(shí)間逐步完善。數(shù)據(jù)清洗轉(zhuǎn)換08PN03-SRS -BHANALYSIS-F031.0丟棄無(wú)用信息數(shù)據(jù)根據(jù)已過(guò)濾庫(kù)、網(wǎng)頁(yè)標(biāo)題等信息將原始行為數(shù)據(jù)進(jìn)行過(guò)濾,并以特定的格式進(jìn)行保存。應(yīng)用分類(lèi)08PN03-SRS -BHANALYSIS-F041.0對(duì)用戶(hù)行為進(jìn)行分類(lèi)依據(jù)分類(lèi)特征庫(kù),對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行分類(lèi)并保存分類(lèi)結(jié)果用戶(hù)分類(lèi)08PN03-SRS -BHANALYSIS-F051.0對(duì)用戶(hù)進(jìn)行分類(lèi)根據(jù)用戶(hù)的行為數(shù)據(jù)及其分類(lèi),將用戶(hù)進(jìn)行分類(lèi)并保存分類(lèi)結(jié)果用戶(hù)聚類(lèi)分析08PN03-SRS -BHANALYSIS-F061.0判定用戶(hù)類(lèi)別

13、根據(jù)用戶(hù)行為信息和類(lèi)別,挖掘用戶(hù)其他感興趣類(lèi)別相關(guān)熱門(mén)統(tǒng)計(jì)08PN03-SRS -BHANALYSIS-F071.0獲得整體以及每個(gè)用戶(hù)的熱門(mén)信息根據(jù)用戶(hù)行為信息和分類(lèi)結(jié)果,統(tǒng)計(jì)獲得整網(wǎng)及各用戶(hù)的熱門(mén)信息模型訓(xùn)練驗(yàn)證08PN03-SRS -BHANALYSIS-F081.0驗(yàn)證整個(gè)模型的有效性通過(guò)一定時(shí)間內(nèi),根據(jù)大量數(shù)據(jù)統(tǒng)計(jì)的結(jié)果驗(yàn)證模型的正確、有效性。需要不斷逐步改進(jìn)系統(tǒng)展現(xiàn)、輸出WEB展現(xiàn)08PN03-SRS -BHPRESENT-F011.0以web形式展現(xiàn)統(tǒng)計(jì)信息以web頁(yè)面的形式將系統(tǒng)統(tǒng)計(jì)信息進(jìn)行展現(xiàn)自動(dòng)生成報(bào)表08PN03-SRS -BHPRESENT-F021.0以報(bào)表的形式展現(xiàn)

14、統(tǒng)計(jì)信息以報(bào)表的形式將系統(tǒng)統(tǒng)計(jì)信息進(jìn)行展現(xiàn)提供對(duì)外接口08PN03-SRS -BHPRESENT-F031.1為其他系統(tǒng)提供接口為其他系統(tǒng)提供接口其他衍生業(yè)務(wù)分析08PN03-SRS-BHOTHER-F011.1了解現(xiàn)有增值業(yè)務(wù)使用情況獲得用戶(hù)試用現(xiàn)有增值業(yè)務(wù)的使用情況用戶(hù)相關(guān)屬性等信息收集08PN03-SRS-BHOTHER-F021.1獲得用戶(hù)基本信息,便于分類(lèi)統(tǒng)計(jì)獲得用戶(hù)自然、社會(huì)、網(wǎng)絡(luò)等屬性從電信相關(guān)服務(wù)器獲得定期營(yíng)銷(xiāo)調(diào)研08PN03-SRS-BHOTHER-F031.1更深入了解用戶(hù)情況由市場(chǎng)營(yíng)銷(xiāo)人員進(jìn)行完成、開(kāi)發(fā)上可能需要提供輸入、報(bào)表生成等接口2.5. 運(yùn)行環(huán)境n 操作系統(tǒng)采集插

15、件Windows XP及以上中文簡(jiǎn)體操作系統(tǒng)服務(wù)器WINDOWS2003 或linux系統(tǒng)數(shù)據(jù)庫(kù)DB2或ORACLEn 系統(tǒng)支持語(yǔ)言中文3. 系統(tǒng)總體架構(gòu)3.1. 系統(tǒng)目標(biāo)本系統(tǒng)的主要目標(biāo)是,通過(guò)分析用戶(hù)的計(jì)算機(jī)行為(主要是上網(wǎng)行為),來(lái)確定用戶(hù)的類(lèi)型(喜好、興趣等),從而實(shí)現(xiàn)對(duì)用戶(hù)進(jìn)行群分,并可將具有相同喜好的用戶(hù)進(jìn)行聚類(lèi),對(duì)不同類(lèi)型的用戶(hù)進(jìn)行定向的營(yíng)銷(xiāo)和廣告推送等商業(yè)活動(dòng)。用戶(hù)的行為主要包括用戶(hù)計(jì)算機(jī)安裝軟件、訪問(wèn)的URL、搜索的關(guān)鍵詞、經(jīng)常使用的軟件等等,系統(tǒng)的采集模塊采集到這些數(shù)據(jù)后,由分析處理模塊進(jìn)行聚類(lèi)、分類(lèi)等的處理后,再將用戶(hù)劃分為不同的群體,并由系統(tǒng)的展示模塊展示分群結(jié)果。3.

16、2. 技術(shù)方案說(shuō)明本系統(tǒng)的特點(diǎn)是以數(shù)據(jù)為中心,進(jìn)行相關(guān)的采集、分析處理工作。因此數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)的分析處理,都是要重點(diǎn)考慮的技術(shù)問(wèn)題。下圖為相關(guān)的數(shù)據(jù)流圖:系統(tǒng)主要由信息采集、信息匯總存儲(chǔ)、信息挖掘統(tǒng)計(jì)、系統(tǒng)展現(xiàn)輸出幾大部分組成,各部分相關(guān)描述為:l 數(shù)據(jù)采集:以插件(動(dòng)態(tài)鏈接庫(kù))的方式內(nèi)嵌到星空極速撥號(hào)客戶(hù)端中,在用戶(hù)上網(wǎng)過(guò)程中采集用戶(hù)相關(guān)的行為數(shù)據(jù)。上網(wǎng)行為數(shù)據(jù)采集基于網(wǎng)絡(luò)嗅探的方式進(jìn)行實(shí)現(xiàn),利用WinpCap抓取用戶(hù)的上網(wǎng)數(shù)據(jù),如訪問(wèn)URL,搜索關(guān)鍵字等信息用戶(hù)其他行為信息,如包括進(jìn)程快照,硬件、軟件配置等信息,則利用Windows相關(guān)的API進(jìn)行獲取。l 信息匯總存儲(chǔ):借助T

17、CP/IP協(xié)議,信息采集插件在用戶(hù)每次上線后,將上次上網(wǎng)的相關(guān)行為信息以XML的形式組織上傳;信息匯總存儲(chǔ)部分,將采集插件上傳的信息進(jìn)行解析,并按照內(nèi)容存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的不同表中,供后續(xù)的統(tǒng)計(jì)挖掘使用。同時(shí)出于系統(tǒng)容量的考慮,系統(tǒng)會(huì)定期的清理無(wú)用的歷史數(shù)據(jù),從而減少整體數(shù)據(jù)量,提供系統(tǒng)的分析、處理性能。l 系統(tǒng)展現(xiàn)輸出該部分的主要目的是將系統(tǒng)相關(guān)的統(tǒng)計(jì)分析數(shù)據(jù)簡(jiǎn)單直觀的展現(xiàn)給用戶(hù),展現(xiàn)方式有WEB、報(bào)表等形式,展現(xiàn)相關(guān)數(shù)據(jù)主要從數(shù)據(jù)倉(cāng)庫(kù)中提取。3.3. 網(wǎng)絡(luò)拓?fù)鋱D 3.4. 網(wǎng)絡(luò)拓?fù)湔f(shuō)明 裝有采集插件的客戶(hù)端在使用過(guò)程中進(jìn)行信息采集,并會(huì)在適當(dāng)時(shí)間將采集的信息上報(bào)給后臺(tái)業(yè)務(wù)服務(wù)器,業(yè)務(wù)服務(wù)器接

18、收到采集信息之后,會(huì)進(jìn)行簡(jiǎn)單處理,然后將行為數(shù)據(jù)放入到數(shù)據(jù)倉(cāng)庫(kù)中。 統(tǒng)計(jì)服務(wù)器根據(jù)數(shù)據(jù)倉(cāng)庫(kù)和行為特征庫(kù)定期將用戶(hù)的行為數(shù)據(jù)進(jìn)行分類(lèi),并根據(jù)應(yīng)用分類(lèi)的結(jié)果對(duì)用戶(hù)進(jìn)行分類(lèi),同時(shí)進(jìn)行一定的熱門(mén)統(tǒng)計(jì)、數(shù)據(jù)挖掘等工作。發(fā)布服務(wù)器以web、報(bào)表、接口等多種方式將用戶(hù)分群、匯總統(tǒng)計(jì)、模型輸出等相關(guān)數(shù)據(jù)信息進(jìn)行呈現(xiàn)。3.5. 系統(tǒng)整體結(jié)構(gòu)圖 該結(jié)構(gòu)圖中信息采集包括了旁路分光采集、客戶(hù)端插件采集和其他來(lái)源,在現(xiàn)階段,僅僅考慮客戶(hù)端插件采集的方式。3.6. 系統(tǒng)中各服務(wù)器介紹 系統(tǒng)中的服務(wù)器主要有信息匯總服務(wù)器,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,信息統(tǒng)計(jì)分析服務(wù)器,信息發(fā)布服務(wù)器等服務(wù)器組成。各服務(wù)器介紹如下:l 信息匯總服務(wù)器該

19、服務(wù)器主要作用是將插件采集的信息進(jìn)行匯總、保存。l 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 該服務(wù)器主要作用是運(yùn)行數(shù)據(jù)倉(cāng)庫(kù),由于數(shù)據(jù)量很大,因此數(shù)據(jù)庫(kù)選擇是DB2或ORACLE。l 信息統(tǒng)計(jì)分析服務(wù)器 該服務(wù)器主要作用是定期對(duì)匯總之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、應(yīng)用分類(lèi)、用戶(hù)分群、數(shù)據(jù)挖掘、保存到數(shù)據(jù)倉(cāng)庫(kù)等操作。l 信息發(fā)布服務(wù)器 該服務(wù)器主要作用是以web等方式呈現(xiàn)用戶(hù)分群、匯總統(tǒng)計(jì)、模型輸出等相關(guān)數(shù)據(jù)信息。 各服務(wù)器間的關(guān)系如下:3.7. 模塊清單SRS IDHLD ID名稱(chēng)功能描述08PN03-SRS-BHCOLLECT08PN03-HLD-BHCOLLECT信息采集模塊采集用戶(hù)行為數(shù)據(jù),負(fù)責(zé)用戶(hù)行為數(shù)據(jù)的來(lái)源。目前主

20、要通過(guò)星空極速客戶(hù)端,采集用戶(hù)行為信息,主要包括訪問(wèn)的網(wǎng)站、搜索的關(guān)鍵字、計(jì)算機(jī)進(jìn)程、電腦硬件信息、網(wǎng)頁(yè)收藏夾等信息。采集到的數(shù)據(jù)上傳給數(shù)據(jù)存儲(chǔ)匯總模塊。08PN03-SRS-BHSTORE08PN03-HLD-BHSTORE信息匯總存儲(chǔ)模塊匯總并存儲(chǔ)采集插件上傳的數(shù)據(jù)。匯總后的數(shù)據(jù)輸出到原始數(shù)據(jù)庫(kù)中。08PN03-SRS-BHANALYSIS08PN03-HLD-BHANALYSIS信息挖掘統(tǒng)計(jì)模塊系統(tǒng)的核心模塊,定期從原始數(shù)據(jù)庫(kù)中提取出數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)、挖掘和分析。包括簡(jiǎn)單的排名統(tǒng)計(jì)、用戶(hù)行為分類(lèi)、用戶(hù)分類(lèi)、用戶(hù)聚類(lèi)等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫(kù)中。08PN03-SRS-BHPRESENT08

21、PN03-HLD-BHPRESENT系統(tǒng)展現(xiàn)、輸出模塊展示用戶(hù)行為分析的結(jié)果。從結(jié)果數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),以web、列表、統(tǒng)計(jì)圖、報(bào)表等形式展現(xiàn)出來(lái)。08PN03-SRS-BHOTHER08PN03-HLD-BHOTHER其他模塊系統(tǒng)后續(xù)相關(guān)功能的完善,如增值業(yè)務(wù)使用情況,用戶(hù)自然屬性信息等相關(guān)功能。4. 各模塊說(shuō)明以下從各個(gè)子模塊的功能、結(jié)構(gòu)、與其他模塊的接口等方面對(duì)各個(gè)子模塊進(jìn)行較詳盡說(shuō)明介紹:4.1. 數(shù)據(jù)采集模塊4.1.1 功能概述該模塊的主要功能是采集并保存用戶(hù)上網(wǎng)過(guò)程中的相關(guān)行為信息,并在用戶(hù)每次上線之后,將上次上線的行為數(shù)據(jù)信息進(jìn)行組織合并,以XML的方式上傳給信息匯總存儲(chǔ)模塊。4.

22、1.2 模塊設(shè)計(jì)要素說(shuō)明 由于該模塊是以插件(DLL)的方式內(nèi)嵌在星空極速撥號(hào)客戶(hù)端中,并在用戶(hù)撥號(hào)上網(wǎng)過(guò)程中,對(duì)用戶(hù)的相關(guān)行為信息進(jìn)行采集、上傳,整個(gè)過(guò)程對(duì)用戶(hù)隱蔽,不希望被用戶(hù)發(fā)覺(jué)該模塊的存在,因此模塊設(shè)計(jì)、開(kāi)發(fā)、測(cè)試等過(guò)程中需要充分考慮以下因素。l 穩(wěn)定、可靠性由于插件是DLL方式內(nèi)嵌,因此如果采集插件出現(xiàn)問(wèn)題(崩潰、資源占用較大等),會(huì)導(dǎo)致星空極速客戶(hù)端也受到影響,對(duì)用戶(hù)造成不良影響,因此需要特別保證采集插件模塊的開(kāi)發(fā)質(zhì)量。l 隱蔽性由于采集插件在數(shù)據(jù)采集過(guò)程中,對(duì)用戶(hù)不可見(jiàn),因此需要在配置信息保存、數(shù)據(jù)采集、采集數(shù)據(jù)臨時(shí)保存、采集信息上傳等各個(gè)階段,進(jìn)行加密等相關(guān)操作,從而實(shí)現(xiàn)對(duì)用戶(hù)

23、的不可見(jiàn)。l 小流量上傳由于該模塊僅采集用戶(hù)的行為數(shù)據(jù),并在用戶(hù)上網(wǎng)過(guò)程中上傳該信息,出于隱蔽性,以及盡量減少資源消耗的考慮,需要在上傳數(shù)據(jù)前對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的匯總,以及壓縮處理,從而縮小上傳的信息量。l 可擴(kuò)展性隨著模型的不斷完善,采集部分后續(xù)可能會(huì)不斷添加新的功能,為了盡量減少采集插件的升級(jí)過(guò)程,同時(shí)降低開(kāi)發(fā)的復(fù)雜度和工作量,需要系統(tǒng)設(shè)計(jì)、開(kāi)發(fā)過(guò)程中盡量考慮可擴(kuò)展性。為了滿(mǎn)足上訴的各個(gè)要素,需要相關(guān)的開(kāi)發(fā)人員在開(kāi)發(fā)過(guò)程中,更加合理的設(shè)計(jì)軟件,提高代碼質(zhì)量、強(qiáng)化開(kāi)發(fā)過(guò)程中的單元測(cè)試力度;同時(shí)相關(guān)測(cè)試人員需要對(duì)上述各個(gè)因素進(jìn)行著重測(cè)試,爭(zhēng)取更早的發(fā)現(xiàn)問(wèn)題。4.1.3 結(jié)構(gòu) 該模塊可以劃分為數(shù)據(jù)采

24、集、數(shù)據(jù)記錄、數(shù)據(jù)上報(bào)和采集管理幾個(gè)部分,具體說(shuō)明如下:l 數(shù)據(jù)采集:采集用戶(hù)上網(wǎng)行為信息和計(jì)算機(jī)配置等信息;l 數(shù)據(jù)記錄:將采集到的信息臨時(shí)保存在文件中,在用戶(hù)下次上線之后進(jìn)行上傳。l 數(shù)據(jù)上報(bào):將采集到的信息進(jìn)行組織、壓縮、加密等處理,上傳給匯總存儲(chǔ)模塊;l 采集管理:負(fù)責(zé)相關(guān)采集配置等信息的接收。4.1.4 詳細(xì)功能說(shuō)明詳細(xì)功能相關(guān)說(shuō)明使用技術(shù)采集用戶(hù)計(jì)算機(jī)主要配置信息獲得用戶(hù)計(jì)算機(jī)的硬件、軟件配置信息,如CPU、內(nèi)存、已安裝軟件等信息。讀取注冊(cè)表相關(guān)信息采集用戶(hù)上網(wǎng)基本信息獲得用戶(hù)上網(wǎng)的基本信息,如上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)流量等信息基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集用戶(hù)訪問(wèn)URL信息獲得用

25、戶(hù)進(jìn)行WEB訪問(wèn)的有用URL,過(guò)濾掉圖片等無(wú)用信息,并能夠支持進(jìn)行過(guò)濾 基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集用戶(hù)搜索關(guān)鍵字信息獲得用戶(hù)使用baidu、google,yahoo等主要搜索引擎進(jìn)行搜索的關(guān)鍵字信息,并且需要進(jìn)行相關(guān)字符的解碼處理基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)。同時(shí)涉及到解碼相關(guān)技術(shù)采集用戶(hù)使用進(jìn)程信息獲得用戶(hù)機(jī)器中啟動(dòng)的進(jìn)程名稱(chēng)和使用時(shí)長(zhǎng)WINDOWS API等采集用戶(hù)收藏夾信息獲取用戶(hù)收藏夾相關(guān)信息WINDOWS API等采集用戶(hù)對(duì)應(yīng)的郵箱地址信息采集獲取用戶(hù)所對(duì)應(yīng)的軟件、WEB等郵箱地址信息基于winpcap,使用網(wǎng)絡(luò)嗅探技術(shù)采集信息上傳將用戶(hù)信息以XML形式,進(jìn)行壓

26、縮,加密之后,上傳給信息匯總存儲(chǔ)模塊 XML技術(shù)、壓縮、加密、套接字等技術(shù)4.2. 數(shù)據(jù)匯總存儲(chǔ)模塊4.2.1 模塊功能概述該模塊主要負(fù)責(zé)接收數(shù)據(jù)采集模塊上傳的行為數(shù)據(jù),并對(duì)該信息進(jìn)行解密、解壓等操作,然后將操作之后的數(shù)據(jù)根據(jù)內(nèi)容存入到原始數(shù)據(jù)庫(kù)中的不同表中。4.2.2 模塊設(shè)計(jì)要素說(shuō)明 由于該模塊需要同時(shí)接收多個(gè)客戶(hù)端上傳的采集信息、并需要對(duì)該信息進(jìn)行解密、解壓、入庫(kù)存儲(chǔ)等操作,因此該模塊的設(shè)計(jì)、開(kāi)發(fā)等過(guò)程需要考慮以下因素:l 效率隨著進(jìn)行采集用戶(hù)的增多,服務(wù)器需要處理的上傳量會(huì)不斷增大,為了能夠有效處理并存儲(chǔ)所有的行為數(shù)據(jù),服務(wù)器需要較高的效率,必要時(shí)可以增加硬件設(shè)備的投入l 穩(wěn)定性作為一

27、個(gè)接收、處理服務(wù)器,為了保證數(shù)據(jù)的完整性,需要充分考慮模塊的穩(wěn)定性。4.2.3 結(jié)構(gòu)4.2.4 詳細(xì)功能說(shuō)明詳細(xì)功能相關(guān)說(shuō)明使用技術(shù)采集信息接收接收數(shù)據(jù)采集模塊上傳的用戶(hù)行為數(shù)據(jù)套接字等技術(shù)采集信息解密、解壓對(duì)接收到的信息進(jìn)行解密、解壓等操作解密、解壓相關(guān)技術(shù)采集行為信息入庫(kù)將接收到的信息根據(jù)內(nèi)容的不同存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)不同的表中JDBC相關(guān)技術(shù)采集配置下發(fā)將采集相關(guān)的配置信息以XML形式進(jìn)行下發(fā)套接字等技術(shù)4.3. 數(shù)據(jù)分析處理模塊4.3.1 模塊功能概述 數(shù)據(jù)分析處理模塊:系統(tǒng)的核心模塊,分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。對(duì)匯總的數(shù)據(jù)做統(tǒng)計(jì)、挖掘和分析。包括簡(jiǎn)單的排名統(tǒng)計(jì)、用戶(hù)行為分類(lèi)、用戶(hù)分類(lèi)、用戶(hù)聚類(lèi)

28、等;分析結(jié)果輸出到統(tǒng)計(jì)數(shù)據(jù)庫(kù)中。4.3.2 模塊設(shè)計(jì)要素說(shuō)明由于該模塊設(shè)計(jì)到對(duì)行為數(shù)據(jù)進(jìn)行分類(lèi),以及用戶(hù)分類(lèi)等過(guò)程,因此在設(shè)計(jì)、編碼過(guò)程中需要考慮以下幾個(gè)要素:l 準(zhǔn)確性 為了能夠保證分類(lèi)結(jié)果的準(zhǔn)確性,需要在分類(lèi)特征庫(kù)建立、分類(lèi)方法等過(guò)程中,保證分類(lèi)的準(zhǔn)確性,準(zhǔn)確率應(yīng)該在80以上。l 效率由于隨著用戶(hù)數(shù)的增長(zhǎng),和時(shí)間的延長(zhǎng),系統(tǒng)的數(shù)據(jù)會(huì)較大,從而導(dǎo)致分類(lèi)過(guò)程時(shí)間較長(zhǎng),因此設(shè)計(jì)、開(kāi)發(fā)等過(guò)程需要考慮效率問(wèn)題。4.3.3 詳細(xì)功能說(shuō)明該模塊詳細(xì)功能列表為:詳細(xì)功能相關(guān)說(shuō)明使用技術(shù)分類(lèi)模型建立根據(jù)行為特征劃分不同的類(lèi)別統(tǒng)計(jì)、營(yíng)銷(xiāo)等相關(guān)理論分類(lèi)相關(guān)特征庫(kù)形成根據(jù)分類(lèi)模型,形成URL,搜索關(guān)鍵字,進(jìn)程等各

29、類(lèi)的特征庫(kù),為進(jìn)行自動(dòng)分類(lèi)提供依據(jù)ADO、網(wǎng)絡(luò)爬蟲(chóng)、拆詞等數(shù)據(jù)清洗轉(zhuǎn)換根據(jù)已過(guò)濾庫(kù)、網(wǎng)頁(yè)標(biāo)題等信息將原始行為數(shù)據(jù)進(jìn)行過(guò)濾,并以特定的格式進(jìn)行保存ADO、數(shù)據(jù)挖掘相關(guān)技術(shù)(ETL)應(yīng)用分類(lèi)依據(jù)分類(lèi)特征庫(kù),對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行分類(lèi)并保存分類(lèi)結(jié)果 ADO、拆詞,自動(dòng)分類(lèi)技術(shù)用戶(hù)分類(lèi)根據(jù)用戶(hù)的行為數(shù)據(jù)及其分類(lèi),將用戶(hù)進(jìn)行分類(lèi)并保存分類(lèi)結(jié)果 ADO、自動(dòng)分類(lèi),聚類(lèi)等技術(shù)用戶(hù)聚類(lèi)分析根據(jù)用戶(hù)行為信息和類(lèi)別,挖掘用戶(hù)其他感興趣類(lèi)別相關(guān)熱門(mén)統(tǒng)計(jì)根據(jù)用戶(hù)行為信息和分類(lèi)結(jié)果,統(tǒng)計(jì)獲得整網(wǎng)及各用戶(hù)的熱門(mén)信息ADO等模型訓(xùn)練驗(yàn)證通過(guò)一定時(shí)間內(nèi),根據(jù)大量數(shù)據(jù)統(tǒng)計(jì)的結(jié)果驗(yàn)證模型的正確、有效性。4.3.4 程序邏輯流程 4.

30、4. 數(shù)據(jù)展示模塊4.4.1 功能描述提供預(yù)定義用戶(hù)行為分析價(jià)值數(shù)據(jù)展現(xiàn)功能,可自定義統(tǒng)計(jì)、匯總、分群條件,從基礎(chǔ)數(shù)據(jù)以列表、統(tǒng)計(jì)圖、報(bào)表等形式提供自定義結(jié)果。主要包括 分群信息管理,定制分群,自定義分群, 數(shù)據(jù)匯總信息 ,用戶(hù)信息查詢(xún), 系統(tǒng)管理,宣傳支撐,競(jìng)爭(zhēng),分析模塊,合作選擇/談判支撐,自有產(chǎn)品營(yíng)銷(xiāo),產(chǎn)品或業(yè)務(wù)開(kāi)發(fā)方向,用戶(hù)權(quán)限管理等, 具體功能模塊規(guī)劃如下:功能名稱(chēng)功能描述備注網(wǎng)絡(luò)行為分群(一級(jí)) 管理統(tǒng)計(jì)查詢(xún)網(wǎng)絡(luò)行為一級(jí)類(lèi)別分群的用戶(hù)比例,用戶(hù)流動(dòng)特征。網(wǎng)絡(luò)行為分群(二級(jí))管理統(tǒng)計(jì)查詢(xún)網(wǎng)絡(luò)行為二級(jí)類(lèi)別分群的用戶(hù)比例,用戶(hù)流動(dòng)特征。商業(yè)價(jià)值分群根據(jù)系統(tǒng)自定義商業(yè)級(jí)別查詢(xún)統(tǒng)計(jì)寬帶用戶(hù)分

31、布數(shù)據(jù),以及各級(jí)別寬帶用戶(hù)流動(dòng)特征和群組資料。用戶(hù)計(jì)算機(jī)水平分群根據(jù)系統(tǒng)自定義計(jì)算機(jī)水平等級(jí)統(tǒng)計(jì)分析寬帶用戶(hù)計(jì)算機(jī)水平,以及各等級(jí)用戶(hù)群組資料。用戶(hù)安全意識(shí)分群依據(jù)系統(tǒng)自定義用戶(hù)安全意識(shí)統(tǒng)計(jì)分析寬帶用戶(hù)安全意識(shí),以及各級(jí)別用戶(hù)流動(dòng)特征和群組資料。用戶(hù)購(gòu)買(mǎi)力分群根據(jù)系統(tǒng)自定義用戶(hù)購(gòu)買(mǎi)力級(jí)別統(tǒng)計(jì)分析寬帶用戶(hù)購(gòu)買(mǎi)力,以及各級(jí)別用戶(hù)群流動(dòng)特征和群組資料。用戶(hù)可引導(dǎo)性分群根據(jù)系統(tǒng)自定義用戶(hù)消費(fèi)能力統(tǒng)計(jì)分析寬帶用戶(hù)消費(fèi)能力,以及各級(jí)別用戶(hù)群組資料。自定義分群 可自定義網(wǎng)絡(luò)行為類(lèi)別、種類(lèi)、商業(yè)價(jià)值、可引導(dǎo)性等用戶(hù)分群信息創(chuàng)建自定義分群以及分群用戶(hù)資料。全網(wǎng)匯總信息自定義條件統(tǒng)計(jì)查詢(xún)?nèi)W(wǎng)用戶(hù)熱門(mén)網(wǎng)站、關(guān)鍵詞、

32、熱門(mén)軟件信息,以及全網(wǎng)排名。網(wǎng)絡(luò)行為熱門(mén)信息自定義網(wǎng)絡(luò)分類(lèi)條件,根據(jù)類(lèi)別統(tǒng)計(jì)查詢(xún)?nèi)W(wǎng)用戶(hù)站點(diǎn)訪問(wèn)數(shù)據(jù)以及站點(diǎn)全網(wǎng)排名。筆記本電腦用戶(hù) 自定義檢索條件,根據(jù)檢索條件查詢(xún)?nèi)W(wǎng)寬帶用戶(hù)計(jì)算機(jī)配置信息。流行病毒 自定義檢索條件,根據(jù)檢索條件查詢(xún)?nèi)W(wǎng)寬帶用戶(hù)計(jì)算機(jī)中毒信息,以及病毒發(fā)作排名。流行殺毒軟件 自定義查詢(xún)條件,根據(jù)查詢(xún)條件統(tǒng)計(jì)查詢(xún)?nèi)W(wǎng)寬帶用戶(hù)殺毒軟件安裝情況以及殺毒軟件使用排行。寬帶用戶(hù)檢索提供精確或模糊檢索功能,查詢(xún)用戶(hù)基礎(chǔ)信息,統(tǒng)計(jì)分析該用戶(hù)寬帶行為數(shù)據(jù)。宣傳支撐將與產(chǎn)品宣傳所相關(guān)的頁(yè)面進(jìn)行組合,并按照給定的流程逐步給予展示。競(jìng)爭(zhēng)分析將與產(chǎn)品競(jìng)爭(zhēng)(web以及增值產(chǎn)品)所相關(guān)的頁(yè)面進(jìn)行組合,并按照給定的流程逐步給予展示。產(chǎn)品推廣包括網(wǎng)絡(luò)安全產(chǎn)品推廣和電腦服務(wù)推廣,將用戶(hù)工作流與系統(tǒng)相關(guān)分群以及部分信息相聯(lián)系,為產(chǎn)品推廣準(zhǔn)確定位目標(biāo)客戶(hù)群。網(wǎng)絡(luò)應(yīng)用目標(biāo)客戶(hù)識(shí)別針對(duì)二級(jí)網(wǎng)絡(luò)應(yīng)用相關(guān)分群,結(jié)合用戶(hù)所關(guān)注的相關(guān)信息,如地區(qū)、時(shí)間、偏好等,準(zhǔn)確定位目標(biāo)客戶(hù)群,并展現(xiàn)該目標(biāo)群的常用web訪問(wèn)、搜索等相關(guān)信息。用戶(hù)權(quán)限管理可以支持對(duì)用戶(hù)設(shè)計(jì)權(quán)限,不同組下的用戶(hù)進(jìn)入頁(yè)面后僅能看到其權(quán)限允許下的相關(guān)頁(yè)面操作員管理提供系統(tǒng)操作員管理功能。系統(tǒng)日志管理提供系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論