通話數(shù)據(jù)分析_第1頁
通話數(shù)據(jù)分析_第2頁
通話數(shù)據(jù)分析_第3頁
通話數(shù)據(jù)分析_第4頁
通話數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、A題通話數(shù)據(jù)分析摘要: 概率統(tǒng)計知識與我們的實際生活息息相關。由于客觀事物內部規(guī)律的復雜性及人們認識程度的限制,無法分析實際對象內在的因果關系,因此我們需 要在大量的數(shù)據(jù)基礎上,基于對數(shù)據(jù)的統(tǒng)計分析建立合乎機理規(guī)律的模型,來解 決日常生活中的一些實際問題。本論文將利用概率統(tǒng)計知識來解決對通話數(shù)據(jù)的 分析問題從而對用戶進行分類,推出新業(yè)務,改建基站位置。首先,對于問題一針對用戶通話記錄數(shù)據(jù)進行分類,對用戶在十天內的通話 時長及通話次數(shù)做了統(tǒng)計并對其進行相關性分析,然后對主叫者通話時長建立了 正態(tài)分布的概率模型,并“3?!痹瓌t將用戶進行分類。問題二與問題一承上啟下,對用戶及用戶通話時長采用正態(tài)分布

2、建立模型分 析,據(jù)此挑選適合用戶群體,并提出類似“打一返一”的優(yōu)惠政策,另外,對基 站的使用情況進行統(tǒng)計,將用戶根據(jù)區(qū)域進行劃分,提出“局域網”內的優(yōu)惠政 策,兩種方案分析對象不同,卻都是以提高公司利益擴展客源為目的提出的。模型三的建立首先時將基站依據(jù)用戶在十天內對每個基站的使用次數(shù)及基 站的使用時間分別做出統(tǒng)計模型,對每個基站使用率及分布地域分析,由此考慮 基站建設的合理與否給出優(yōu)化建議。我們主要用Matlab處理本問題的相關數(shù)據(jù)。關鍵詞:概率統(tǒng)計模型正態(tài)分布 3。原則基站利用率 線性回歸殘差分析參數(shù)估計一、問題重述及要求:(一)問題背景通信技術的不斷發(fā)展拉近了人與人之間的距離。電話作為主要

3、的通信工具之 一悄無聲息地將我們聯(lián)系在一起,形成一個巨大的社交網絡。這個巨大的社交網 絡對當前的通信設備和業(yè)務提出了更高的要求。如何利用現(xiàn)有的通話記錄數(shù)據(jù)進行概括分析,以便作出合理的決策,進而改 善通信設施、拓展新的通信業(yè)務,依然是很多通信公司所面臨的一個難題。(二)問題提出附件給出了一家通信公司公布的2009年6月份某地300個用戶10天內的通 話記錄,試完成以下問題。請根據(jù)這些通話記錄信息建立數(shù)學模型以對用戶分類。如果需要推出一款新的通信業(yè)務,如何合理選擇部分用戶作為首選推廣人群。 說明你的理由,并撰寫一份不超過兩頁的給公司經理的建議。該地現(xiàn)有的通信設施(如基站等)建設情況是否合理。如需改

4、進,請給出合 理的建議。二、模型基本假設:1、被調查的三百用戶可以反映本地區(qū)的總體情況;2、用戶在此十天之內的通話記錄,可以反映用戶平時的通話記錄情況;3、用戶的通話時長與移動公司的利益成正相關;4、不同地域的基站的建站成本和覆蓋范圍一樣;5、調查地區(qū)以圖中柵格進行劃分,將面積接近一個柵格面積的相鄰區(qū)域當作整 體,其它占整個柵格面積的區(qū)域單獨作為一個整體。三、符號變量及說明:i=1,2,3300代表用戶編號;j=1,2,36221代表300個用戶十天之內打的6221個電話按時間排序后對應的序號;k=1,2,330代表30個基站;a(j)=1,2,3300代表第j次電話對應的用戶編號;b(j)代

5、表第j次電話的電話時長;s(i)代表第i個用戶通話總次數(shù);t(i) 代表第i個用戶通話總時長;三、模型的建立及求解:1)、問題一模型的建立及求解:1、建立算法對用戶通話時長及次數(shù)統(tǒng)計:主叫者總通話次數(shù)統(tǒng)計圖對通話次數(shù)及通話時長作線性回歸分析可得:利用Mat lab處理數(shù)據(jù)可得 b = 181.9923bint = 180.8284 183.1561由y = P 0 利用Mat lab處理數(shù)據(jù)可得 b = 181.9923bint = 180.8284 183.1561stats =1.0e+004 *0.0001 NaN NaN 5.0063圖一圖一從上圖可知,用戶通話時長與通話次數(shù)近似成正比

6、。因此,下面只對通話時長進 行分析。我們可以根據(jù)通話時長對用戶進行分類。對于時間區(qū)域的確定,從如下 模型得出:1)首先對不同時長段用戶進行統(tǒng)計,并作圖;首先對主叫者通話數(shù)據(jù)進行正態(tài)分布估計,由圖可知圖形顯示出直線性形態(tài),所 以主叫者通話總時長數(shù)據(jù)來自于正態(tài)分布,這時因為而其它概率分布函數(shù)顯示出 曲線形態(tài).主叫者通話數(shù)據(jù)正態(tài)分布檢驗(圖二)由圖可知,不同通話時長段內人數(shù)分布總體呈正態(tài)分布。據(jù)圖可以估計出其概率 密度圖。3.532.523.532.521.510.50010002000300040005000600070008000900010000X io-4主叫者通話時長概率密度圖圖四)根據(jù)正

7、態(tài)分布的特征屬性提示:68%的觀察對象落在均數(shù)1標準差 之內。在均數(shù)土 1.96倍標準差內含有9 5%的觀察值。換句話說,在 正態(tài)分布中的,觀察對象值在均數(shù)2倍標準差之外的頻數(shù)低于5%。 為了研究和討論的方便,我們把-。至。之間的區(qū)域稱為基區(qū)(占 60%強以上),-a 至-2、58a 及以下之間的區(qū)域稱為負區(qū)(占20% 強以上),a至2、58a及以上之間的區(qū)域稱為正區(qū)(占20%強以上)。 為了需要也可以更細致的劃分區(qū)域。聯(lián)系到黃金分割、20/80法則, 我們從數(shù)字上可以看到他們之間的驚人相似。當然也可以更抽象的 依據(jù)定性劃分主區(qū)、負區(qū)、正區(qū),但定量關系應保持基本不變,即 60%,2 0%,20

8、%的基本比例。所以基于此題,我們可以根據(jù)以上準則 將三百個用戶人數(shù)分成60; 18 0; 60三部分。相應的可以確定時間 段 為 02 60 0 ; 2 60 049 00 ; 4 90 070 00,因此,可 由時間段對用戶分類,艮叭時間段通話人數(shù)02 60060260049 00180490070 00602)、問題二模型的建立及求解:方案一:根據(jù)模型一,可知用戶按時間段分為三類。為了發(fā)展新客戶穩(wěn)定已有客戶優(yōu)惠老客戶,由上圖分析,每人每天通話時間平均為370分鐘,因 此我們可以根據(jù)時間累積量采取優(yōu)惠政策,例如超過2600分鐘的用戶每次打 電話時實行“打十(分鐘)返十(分鐘”超過4900分鐘

9、的實行“打二十(分 鐘)返二十(分鐘)”,以此可以根據(jù)總人群類推,打得越多送的越多。這樣不 僅加長了總體通信時間,給公司帶來了利益,同時也吸引了大批客戶。另外我 們可以發(fā)現(xiàn)用戶通話時長集中在26004900分鐘,因此可以將這個區(qū)域內的 人群作為首選推廣人群。方案二:通過統(tǒng)計不同時長內的基站累計個數(shù),用matlab作圖將時長大 致分為三段。再根據(jù)數(shù)據(jù)確定出不同時長段內的具體基站,由上述表格發(fā)現(xiàn)大 部分基站使用時間是在40000分鐘內。通話時間長的基站主要分布在中心城市 以及周邊相對集中地區(qū)。因此,我們可以以中心城市為區(qū)域的一定范圍內推出 “局域網政策,例如在該范圍內的用戶每月可以撥打比正常收費情

10、況下更長 的時間。以此來吸引更多的客戶加長通信時間,從而擴寬局域網的范圍使他們 享受到優(yōu)惠政策達到雙贏目的。不同通話時長 內基站個數(shù)累 計(圖五)通話時長(104)所屬基站(紅體為中心城市)041,2,3,4, 5,6,7,8, 9,10,12,14,17, 18, 19, 20, 21, 23, 24, 25, 26, 274913, 15, 16, 2291411, 28, 29, 303)、問題三模型的建立及求解通信的性能可以通過基站覆蓋率來表現(xiàn),以此我們將該調查地區(qū)以圖中柵格 進行劃分,將面積接近一個柵格面積的相鄰區(qū)域當作整體,其它占整個柵格 面積的區(qū)域單獨作為一個整體。(假設一個柵格

11、面積為單位1)統(tǒng)計表格如下:占地面區(qū)域基站積11 30122133 4145 615716817918101通話次數(shù)占地面積/通話次數(shù)863863515111111111211266667171147147135135911 28 291202720271012 13 143420140111513743741216125025013171134134141811041041519198981620115015017211140140182214454451923 24 25338712920261292921271107107基站占地面 積通話時 長通話時長/占地面 積11 30115929

12、81592982219606960633 41205842058445 61192971929757112126121266811308013080791269692696981012415424154911 28 2913700253700251012 13 1437482624942111516879968799121614570845708131712418324183141811822218222151911703517035162014495444954172112550225502182218208782087區(qū)域23 2419 25369889232962026155175517

13、212711789017890由以上統(tǒng)計數(shù)據(jù)繪圖如下:單位基站次數(shù)通話率ooz H對基站通話次數(shù)及時長統(tǒng)計作圖8007006005004003002001000160000各基站通話時長長時話通4網84長時話通4網84啊5100000-_ _ _ _820878000060000291130 2822151613 20921251710 23 2412182761948714226135基站對基站的通話次數(shù)及通話時長作線性回歸分析可得:我們可從通話次數(shù)與通話時長圖可知;基站通話次數(shù)與時長成正比由單位基站時長和次數(shù)通話率圖可知:無論是從通話次數(shù)還是通話時長考慮,基 站的使用情況并不均衡,對大部分

14、基站來說都能在一個相對平衡的水平發(fā)揮作 用。對1,11,15,22這樣的中心城市,基站的通話率較高因而基站的負載比較高。 所以現(xiàn)有的通訊設施存在部分不合理。又因為這些中心城市中15,22的使用率相 對一致。而基站1和11處的通話率則很明顯的偏離于平均水平,尤其是基站11, 因此,在該處應相應的多建基站進行“分流”使基站的利用率處于相對平衡的狀 態(tài)。而從各個基站通話時長和次數(shù)圖可以看出每個基站的通話時長和通話次數(shù)成 正相關,而1的通話時長和次數(shù)明顯不具有線性關系。猜測其原因可能是統(tǒng)計方 面出現(xiàn)誤差,但不影響整體的數(shù)據(jù)分析。四、模型的優(yōu)缺點及改進:針對此次建模的三個問題,我們都一一建立了不同的模型

15、。對于問題一,分 類有很多種,我們根據(jù)用戶的通話時長和次數(shù)進行分析得出二者呈正相關,因此 簡化模型只把通話時長作為對用戶分類的主要指標。通過matlab作圖將數(shù)據(jù)進 行分類統(tǒng)計,通過圖形直觀的建立起正態(tài)分布模型并采用“3a”原則對用戶進 行分類。本題分類原則較為科學,對數(shù)據(jù)的分析也較為合理,結論的得出有一定 的參考意義。對于問題二,我們應該從公司盈利角度出發(fā)同時又給顧客帶來優(yōu)惠為目的建 立模型。所以模型的建立應該從兩方面考慮,一是承接第一問從用戶角度出發(fā), 按時長提出優(yōu)惠政策,采取不同時間段優(yōu)惠不同來激發(fā)更多潛在客戶。二是以基 站為出發(fā)點,通過對基站使用情況統(tǒng)計,將用戶劃分成局域網,對于局域網

16、內的 人實行優(yōu)惠,從而通過擴寬局域網范圍提高公司收益。本題的思路較為豐富, 但在一定程度上主觀意識較強,因而只分析了數(shù)據(jù)背后可以提供哪些政策卻缺乏 相關的理論依據(jù),對于具體政策提出的原因也沒有給予準確意見。對于問題三,我們認為一個基站建設的合理與否,需要從通信的覆蓋率,一 個地區(qū)的基站的密集度及基站的承受通信能力等方面考慮。對密集度定義產生的 模型能很好的放映通信設施建設是否合理。但由于是人為將區(qū)域進行劃分,并且 在面積估計方面為方便起見均設成單位一,缺乏一定實際意義,所以定量的分析 方面做得不是很精確。五、參考文獻:【1】趙靜,但琦,嚴尚安,楊秀文,數(shù)學建模與數(shù)學實驗,高等教育出版社, 20

17、08 年:【2】石博強,趙金,MATLAB數(shù)學計算與工程分析范例教程,中國鐵道出版社, 2005 牛:【3】姜啟源,數(shù)學模型,高等教育出版社2000年:【4】沈恒范概率論與數(shù)理統(tǒng)計教程,高等教育出版社,2006年:六、附錄:部分程序:(1)用戶通話時長統(tǒng)計直方圖首先將“通話1.Xls”導入Mat lab建立 data double 文件1)用戶通話時長統(tǒng)計直方圖a=(data(1:6221,2);%調入主叫者通話編號數(shù)據(jù)b=(data(1:6221,5);%調入主叫者通話時長s=zeros(300,1); for i=1:300for j=1:6221;if (a(j)=i);s(i)=s(i

18、)+b(j);endendends%導出每個主叫者通話總時長d=zeros(14,1);for i=1:300for n=1:14if (n-1)*500s(i)&s(i)n*500)d(n)=d(n)+1;endendendd%對主叫者通話總時長統(tǒng)計排序r=500:500:7000bar(r,d)%畫頻率直方圖bar(r,d)2)主叫者正態(tài)分布均值方差及概率密度函數(shù)程序計算對主叫者進行正態(tài)分布估計a=(data(1:6221,2);b=(data(1:6221,5); s=zeros(300,1); for i=1:300for j=1:6221;if (a(j)=i);圖二s(i)=s(i

19、)+b(j); end end ends;%對主叫者通話數(shù)據(jù)進行正態(tài)分布檢驗normplot(s)a=(data(1:6221,2);b=(data(1:6221,5); s=zeros(300,1);for i=1:300for j=1:6221;if (a(j)=i);s(i)=s(i)+b(j);endendends;%求平均值%求期望%求平均值%求期望%對統(tǒng)計量估計正態(tài)分布函數(shù)%畫正態(tài)分布函數(shù)圖象d=std(s);m,v=normstat(e,d);y=normpdf(x,e,d);plot(x,y)3.7757e+0031.6010e+006(3)對主叫者通話時長及次數(shù)作線性回歸分析:a=(data(1:6221,2);%調入主叫者數(shù)據(jù)b=(data(1:6221,5);%調入主叫者通話時長s=zeros(300,1); n=zeros(300,1);for i=1:300for j=1:6221;if (a(j)=i);圖一程序%畫主叫者通話次數(shù)及通話時長散點圖s(i)=s(i)+b(j);圖一程序%畫主叫者通話次數(shù)及通話時長散點圖n(i)=n(i)+1;endendends;n;plot(n,s,o)%比例系數(shù)%置信區(qū)間%檢驗回歸模型的統(tǒng)計量三個數(shù)值:相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論