數(shù)學(xué)建模-第二章-概率統(tǒng)計(jì)模型課件_第1頁
數(shù)學(xué)建模-第二章-概率統(tǒng)計(jì)模型課件_第2頁
數(shù)學(xué)建模-第二章-概率統(tǒng)計(jì)模型課件_第3頁
數(shù)學(xué)建模-第二章-概率統(tǒng)計(jì)模型課件_第4頁
數(shù)學(xué)建模-第二章-概率統(tǒng)計(jì)模型課件_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章 概率統(tǒng)計(jì)模型一個(gè)例子二戰(zhàn)時(shí)期,為了提高飛機(jī)的防護(hù)能力,英國的科學(xué)家、設(shè)計(jì)師和工程師決定給飛機(jī)增加護(hù)甲. 為了不過多加重飛機(jī)的負(fù)載,護(hù)甲必須加在最必要的地方,那么是什么地方呢? 統(tǒng)計(jì)學(xué)家將每架中彈但仍返航的飛機(jī)的中彈部位描繪在圖紙上,然后將這些圖重疊,形成了一個(gè)密度不均的彈孔分布圖. 統(tǒng)計(jì)學(xué)家拿著這張分布圖,指著那些沒有彈孔的地方說,這就是要增加護(hù)甲的地方,因?yàn)檫@地方中彈的飛機(jī)都沒能返回。例子的背后上面的例子可以領(lǐng)略到統(tǒng)計(jì)學(xué)的精彩之處。統(tǒng)計(jì)模型是數(shù)學(xué)模型的重要組成部分,尤其對(duì)具有大量數(shù)據(jù)的對(duì)象,統(tǒng)計(jì)建模具有極其重要的作用。大量的數(shù)據(jù)挖掘工作,就其本質(zhì)而言,就是對(duì)于這些海量數(shù)據(jù)的統(tǒng)計(jì)處理。

2、概率統(tǒng)計(jì)模型2.1概率統(tǒng)計(jì)模型的基本理論2.1.1蒙特卡洛方法的一般原理蒙特卡洛方法解題的基本步驟() 確定所要模擬的目標(biāo)以及實(shí)現(xiàn)這些目標(biāo)的隨機(jī)變量,一般情況下,目標(biāo)就是這些隨機(jī)變量的期望;() 找到原問題中隨機(jī)變量的分布規(guī)律;() 大量抽取隨機(jī)樣本(在如今的計(jì)算機(jī)時(shí)代, 一般是利用計(jì)算機(jī)抽取相應(yīng)分布的偽隨機(jī)數(shù)來作為隨機(jī)樣本)以模擬原問題的隨機(jī)量;() 求出隨機(jī)樣本的樣本均值.2.1.2馬爾科夫方法的一般原理馬爾科夫過程現(xiàn)實(shí)中很多問題都可以看作馬爾科夫過程:如布朗運(yùn)動(dòng)、傳染病爆發(fā)過程、車站候車人流量等。馬爾科夫模型也在網(wǎng)站流量分析、教學(xué)質(zhì)量評(píng)估、股票期權(quán)等方面得到了廣泛的應(yīng)用。馬爾科夫過程的特

3、性在于未來的演變不依賴于它過去的演變。例如明天是否會(huì)下雨不依賴于昨天是否下雨。這種性質(zhì)被稱作無后效性。馬爾科夫鏈轉(zhuǎn)移概率矩陣遍歷性與極限分布平穩(wěn)分布平穩(wěn)分布與遍歷性關(guān)系當(dāng)馬爾科夫鏈具有遍歷性時(shí),極限分布必定存在且唯一。當(dāng)馬爾科夫鏈不具有遍歷性時(shí),極限分布必定不存在,而平穩(wěn)分布可能存在且不唯一。當(dāng)有限馬爾科夫鏈具有遍歷性,極限分布必定是平穩(wěn)分布;當(dāng)無限馬爾科夫鏈具有遍歷性,如果極限分布存在,則極限分布必定是平穩(wěn)分布。2.1.3邏輯回歸方法的一般原理邏輯回歸實(shí)際問題中,我們經(jīng)常需要探討變量之間的關(guān)系。當(dāng)兩個(gè)變量之間或者多個(gè)變量之間具有較高的相關(guān)關(guān)系,而又需要我們通過某個(gè)(些)變量 的變化來解釋另一

4、個(gè)(些)變量 的變化情況,則我們會(huì)先嘗試采用線性回歸的方法探討解釋變量對(duì)響應(yīng)變量的影響。當(dāng)響應(yīng)變量為定性變量時(shí),相應(yīng)回歸方法的改進(jìn)就稱為LOGISTIC回歸模型,中文稱為邏輯回歸模型。logit 變換一元Logistic回歸方程設(shè)有一個(gè)自變量,用logit(p)與建立起回歸關(guān)系為這里的 為回歸系數(shù), 為隨機(jī)誤差。用回歸方法求出回歸系數(shù),代入上式,經(jīng)過簡(jiǎn)單運(yùn)算可得下式:多元Logistic回歸方程如果解釋變量不止一個(gè),則可以將一元logistic回歸推廣到多元logistic回歸,得到模型如下:即可類似求得Y=1的概率:參數(shù)檢驗(yàn)回歸系數(shù)的檢驗(yàn),即檢驗(yàn)每個(gè)解釋變量對(duì)響應(yīng)變量的影響是否有統(tǒng)計(jì)學(xué)上的意

5、義。若有m個(gè)回歸系數(shù) ,假設(shè)檢驗(yàn)為:常用的回歸系數(shù)檢驗(yàn)方法有Wald統(tǒng)計(jì)量:式中分子為解釋變量的參數(shù)估計(jì)值,分母為參數(shù)估計(jì)值Wald的標(biāo)準(zhǔn)誤。模型評(píng)價(jià)一般情況下,Wald檢驗(yàn)的結(jié)果趨向于保守。當(dāng)樣本量較小時(shí),可能會(huì)產(chǎn)生一個(gè)很大的標(biāo)準(zhǔn)誤,從而導(dǎo)致Wald值變得很小,增加犯第二類錯(cuò)誤的可能。這種情況下采用似然比檢驗(yàn)更為可靠。當(dāng)Wald檢驗(yàn)與似然比檢驗(yàn)結(jié)果出現(xiàn)不一致時(shí),一般似然比檢驗(yàn)結(jié)果更為可取。模型估計(jì)完成后,要評(píng)價(jià)模型有效匹配觀測(cè)數(shù)據(jù)的程度。若模型的預(yù)測(cè)值與對(duì)應(yīng)的觀測(cè)值有較高的一致性,則認(rèn)為該回歸模型擬合數(shù)據(jù),即所謂“擬合優(yōu)”,否則需重新估計(jì)模型,這就是擬合優(yōu)度檢驗(yàn)。2.1.4聚類分析方法的一般

6、原理聚類分析過程面對(duì)大量的數(shù)據(jù)和變量,如何快速將具有相近特質(zhì)的樣本或變量分在一類,從而達(dá)到降維和尋找共性的目的就成為一個(gè)重要的研究方向。聚類分析正是這樣一種快速將大量數(shù)據(jù)分類的統(tǒng)計(jì)方法,有很強(qiáng)的應(yīng)用價(jià)值。宗旨:根據(jù)數(shù)據(jù)樣本的性質(zhì),將具有相近特質(zhì)的樣品或變量分在一組,既可以根據(jù)不同組的特性進(jìn)行不同的處理,也可以對(duì)同組數(shù)據(jù)進(jìn)行更進(jìn)一步的分析。Q型聚類對(duì)樣品進(jìn)行分類處理,距離由樣品相似性來度量。R型聚類對(duì)變量進(jìn)行分類處理,距離由變量相似性來度量。樣品相似性度量樣品相似性的度量包括閔可夫斯基距離、馬氏距離和蘭氏距離等等。閔可夫斯基距離當(dāng)q=1,稱絕對(duì)距離,當(dāng)q=2,稱歐氏距離。馬氏距離馬氏距離又稱為廣

7、義歐幾里得距離。變量相似性度量相關(guān)系數(shù)相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。 代表第i個(gè)變量xi的平均值,則第i個(gè)變量和第j個(gè)變量的相關(guān)系數(shù)定義為分析采用不同的距離公式,會(huì)得到不同的聚類結(jié)果。在聚類分析時(shí),可以根據(jù)需要選擇符合實(shí)際的距離公式。在樣品相似性度量中,歐氏距離具有非常明確的空間距離概念,馬氏距離有消除量綱影響的作用;如果對(duì)變量作了標(biāo)準(zhǔn)化處理,通常可以采用歐氏距離。聚類分析方法分類系統(tǒng)聚類系統(tǒng)聚類按照距離的遠(yuǎn)近,把距離接近的數(shù)據(jù)一步一步歸為一類,直到數(shù)據(jù)完全歸為一個(gè)類別為止。第一步 將每個(gè)樣品獨(dú)自聚成一類,共有n類;第二步 根據(jù)所確定的樣品“距離”公式,把距離較近的樣品聚合成一類,其他的

8、樣品仍各自為一類;第三步 將“距離”最近的類進(jìn)一步聚成一類;以上步驟一直進(jìn)行下去,直至最后將所有的樣品聚成一類。K均值聚類K均值聚類首先人為確定分類數(shù),起步于一個(gè)初始的分類,然后通過不斷的迭代把數(shù)據(jù)在不同類別之間移動(dòng),直到最后達(dá)到預(yù)定的分類數(shù)為止。第一步 將所有的樣品分成K個(gè)初始類;第二步 逐一計(jì)算每一樣品到各個(gè)類別中心點(diǎn)的距離,把各個(gè)樣品按照距離最近的原則歸入各個(gè)類別,并計(jì)算新形成類別的中心點(diǎn)。第三步 按照新的中心位置,重新計(jì)算每一樣品距離新的類別中心點(diǎn)的距離,并重新進(jìn)行歸類,更新類別中心點(diǎn)。第四步 重復(fù)第三步,直到達(dá)到一定的收斂標(biāo)準(zhǔn),或者達(dá)到分析者事先指定的迭代次數(shù)為止。類間距離類間距離:

9、類與類之間的距離由類間距離定義的不同會(huì)產(chǎn)生不同的系統(tǒng)聚類法。常用的類間距離定義有最短距離法、最長距離法、中間距離法、重心法、類平均法、可變法和離差平法和法。最短距離法:兩個(gè)類別中距離最短的樣品距離為類間距離。最長距離法:兩個(gè)類別中距離最長的樣品距離為類間距離。方法選擇當(dāng)數(shù)據(jù)量不大的時(shí)候,一般會(huì)利用系統(tǒng)聚類法,從而達(dá)到最佳聚類結(jié)果。如果要聚類的數(shù)據(jù)量很大,則利用系統(tǒng)聚類法會(huì)消耗太多計(jì)算時(shí)間,一般選擇K均值法,可以大大減少計(jì)算時(shí)間。2.2蒙特卡洛模型應(yīng)用2.2.1 投針?biāo)銏A周率問題蒲豐問題早在1777年,蒲豐提出求解圓周率的一個(gè)另類思路:其過程是首先在紙上畫一組間距為a的平行橫線,然后隨機(jī)往里投針

10、,針長b(bu。假定u=50米/分鐘,道口寬度50米;3.紅燈時(shí)間為c,綠燈時(shí)間為d(在模擬例子中,假設(shè)c=1分鐘, d=5分鐘);4.黃燈時(shí)間忽略,假定車子看到紅燈后可以立即停車;5.開始模擬時(shí)間沒有候車。6.開始模擬時(shí)間為剛由綠燈轉(zhuǎn)為紅燈;7.暫不考慮出現(xiàn)交通事故的可能。分析: 在綠燈期間,車子以速度v正常駛過路口,不會(huì)擁堵。紅燈期間,車子停在路口,車子到達(dá)按泊松分布,即在紅燈等候時(shí)間c里,到達(dá)路口并停下等候的車為n輛的概率為:這里a是到達(dá)強(qiáng)度,需要根據(jù)路口情況事先確定。假如a=2,c=1,那么在紅燈時(shí)間段,到達(dá)道口等紅燈的車輛數(shù)的概率如下表:模型求解: 1.抽取0,1之間均勻分布的隨機(jī)數(shù)

11、,確定這次模擬路口停紅燈的車數(shù),例如,抽到0.732,則這個(gè)數(shù)落在區(qū)間(0.671,0.857)的范圍里,所以這次模擬停車數(shù)為3;2.計(jì)算紅燈轉(zhuǎn)為綠燈后,在綠燈延續(xù)期間d(如題設(shè)5分鐘)內(nèi),這部車以速度u通過道口共需時(shí)間t=(50/50)*3(分鐘),如果td,那么道口發(fā)生堵塞,在本次模擬中t=3分鐘,沒有發(fā)生堵塞; 3.抽取隨機(jī)數(shù)很多次,如10000次,記下其中多少次發(fā)生堵塞,從而估算出道口發(fā)生堵塞的概率。2.2.3 電梯問題問題高層商務(wù)樓中一般配備了多臺(tái)電梯,如何安排好各臺(tái)電梯的運(yùn)行方式,既能保證大樓內(nèi)各公司員工的正常工作和出行,又能降低能耗,節(jié)約成本。在一般高層商務(wù)樓中,經(jīng)常采用的是分層

12、次或單雙層的運(yùn)行方式,或者某部電梯直達(dá)某高層以上的方法,試建立一個(gè)適合的電梯運(yùn)行方案(高峰時(shí)),并具體評(píng)價(jià)這些方案的優(yōu)劣。分析: 評(píng)價(jià)電梯運(yùn)行方案往往以電梯高峰期運(yùn)行時(shí)間為依據(jù)。一般來說,可以預(yù)估電梯可能??繕菍訑?shù)、電梯運(yùn)載次數(shù)、電梯??繒r(shí)間等參數(shù)來計(jì)算電梯高峰期運(yùn)行總時(shí)間。但這種估計(jì)的方法十分粗略,可能與實(shí)際結(jié)果相差巨大。我們的目的是模擬電梯一次循環(huán)所需的平均時(shí)間,并設(shè)計(jì)電梯停靠方案以使這個(gè)時(shí)間最短。這里的主要隨機(jī)量是各樓層乘客的到達(dá)數(shù)。可以考慮采用蒙特卡羅方法對(duì)電梯上下樓的方案進(jìn)行隨機(jī)模擬。假定: 1.高層商務(wù)樓一共有fl層,每層有people人上班;一共有n臺(tái)電梯,每臺(tái)電梯最多承載elv

13、n人;2.假設(shè)1到4層為商場(chǎng),顧客上下樓不通過商務(wù)電梯,即認(rèn)為1到4樓沒有人等電梯;3.上下班時(shí),一段時(shí)間內(nèi)等電梯的員工數(shù)服從泊松分布,設(shè)平均每分鐘到達(dá)poisson人;4.因?yàn)閯偵习鄷r(shí)選擇下樓的人數(shù)很少,可以忽略下樓人數(shù)對(duì)電梯運(yùn)營的影響。上班時(shí)認(rèn)為不會(huì)有人下樓,同理,下班時(shí)認(rèn)為不會(huì)有人上樓;5.電梯從啟動(dòng)到勻速需要時(shí)間,電梯加速比勻速多用的時(shí)間記為elva,而電梯勻速經(jīng)過一層樓需要elvrun秒,電梯加速需要elvrun-elva秒;6.電梯開關(guān)門需要時(shí)間。假設(shè)電梯開關(guān)門時(shí)間一樣,為elvclose秒。員工進(jìn)入電梯需要時(shí)間,假設(shè)每個(gè)人進(jìn)入電梯需要elvout秒;7.不會(huì)有兩臺(tái)以上的電梯同時(shí)抵

14、達(dá)同一層接員工;8.上班時(shí),當(dāng)電梯運(yùn)載超過90%人上樓后認(rèn)為高峰期結(jié)束,下班同理。三種電梯運(yùn)行方案方案一為層層停: n部電梯每層樓都能抵達(dá);方案二為單雙層運(yùn)行: 部分電梯只停單層,部分電梯只停雙層;方案三為高低層電梯: 部分電梯只達(dá)某高層以上,部分電梯只能到達(dá)某高層以下。方案一框圖方案一 基本編程思路由于電梯在上下行的過程存在兩種狀態(tài):??炕蜻\(yùn)行,所以以電梯改變狀態(tài)為循環(huán)依據(jù)。如果某電梯的狀態(tài)即將發(fā)生改變,則一次循環(huán)結(jié)束。以此為思想,首先計(jì)算每個(gè)電梯到其狀態(tài)改變所需要的時(shí)間,找出最短的時(shí)間p以及對(duì)應(yīng)的電梯k;其次計(jì)算電梯i到新的改變狀態(tài)需要的時(shí)間,其余電梯到其狀態(tài)改變的時(shí)間要減去時(shí)間p。按以上

15、方法進(jìn)行循環(huán),對(duì)電梯運(yùn)載進(jìn)行模擬,此外還需要考慮電梯載滿客后去一樓等特殊情況,停止準(zhǔn)則為電梯運(yùn)載超過90%的員工進(jìn)入電梯。結(jié)果解讀用MATLAB 進(jìn)行3次模擬,每次模擬對(duì)3種方案各模擬10000次后取平均,單位為分鐘,結(jié)果如下表所示:顯然,對(duì)題設(shè)數(shù)據(jù),方案三運(yùn)行時(shí)間最少,電梯分高低層的方法值得采納。2.3馬爾科夫模型應(yīng)用2.3.1 疾病健康問題問題描述人的健康狀態(tài)隨著時(shí)間的推移會(huì)隨機(jī)地發(fā)生轉(zhuǎn)變,保險(xiǎn)公司要對(duì)投保人未來的健康狀態(tài)作出估計(jì),以制訂保險(xiǎn)金和理賠金的數(shù)額。人的健康狀況分為健康和患病兩種狀態(tài),設(shè)對(duì)特定年齡段的人,今年健康、明年保持健康狀態(tài)的概率為0.8,今年患病、明年轉(zhuǎn)為健康狀態(tài)的概率為

16、0.7。若某人投保時(shí)健康, 問10年后他仍處于健康狀態(tài)的概率?模型建立模型計(jì)算1、設(shè)投保時(shí)健康,即a1(0)=1,a2(0)=0,由此得到2、設(shè)投保時(shí)患病,即a1(0)=0,a2(0)=1,由此得到實(shí)際意義 若患病病人平均理賠金額為2,000元,投保期為10年,投保人數(shù)為10人,則由穩(wěn)態(tài)概率可近似計(jì)算每年每人的投保金額x(未考慮利息理論)為:10*10*x=2000*2/9*10,從而得:x=44.4(元)2.3.2 疾病健康死亡問題模型計(jì)算依此,可得每一時(shí)刻的狀態(tài)與狀態(tài)轉(zhuǎn)移概率,如下表:實(shí)際意義 從上表看出,無論初始狀態(tài)是哪種情形,當(dāng)投保年份越來越多時(shí),最終投保人都會(huì)轉(zhuǎn)到狀態(tài)3,即投保人死亡

17、。一旦a1(k)= a2(k)=0, a3(k)=1, 則對(duì)于nk, 恒有:a1(n)=0,a2(n)=0,a3(n)=1,即從狀態(tài)3不再會(huì)轉(zhuǎn)移到其它狀態(tài)。轉(zhuǎn)換公式如下:2.3.3 汽車工況問題問題描述汽車工廠要了解某一類重型汽車的行駛狀況(工況),來研究如何降低汽車油耗。需要模擬并在實(shí)驗(yàn)室重現(xiàn)能夠代替實(shí)際汽車道路行駛的工況。如何構(gòu)造一定時(shí)間的汽車行駛工況,且其能代表重型汽車長時(shí)間的實(shí)際行駛狀況從而可以在實(shí)驗(yàn)室對(duì)汽車發(fā)動(dòng)機(jī)進(jìn)行各種配置以找到最優(yōu)配置?思路分析重型汽車在公路上行駛常常會(huì)因?yàn)槁窙r、避讓等原因造成速度間歇性地不均勻變化,需要消除這些不必要的行駛狀態(tài),為行駛實(shí)驗(yàn)提供穩(wěn)定的行駛狀態(tài),但同

18、時(shí)還需要讓重組的行駛狀態(tài)能代替汽車實(shí)際行駛狀況,這是非常關(guān)鍵的一點(diǎn)。重型汽車行駛的速度變化圖是不規(guī)則的曲線。首先將這條曲線按照一定規(guī)則切割成無數(shù)小段,再通過提取和重組,構(gòu)建出具有代表性的一段光滑曲線,以此代表汽車的工況,這是重型汽車行駛狀況構(gòu)建的基本思想。模型建立1、將行駛劃分為各個(gè)片段;2、聚類為多個(gè)大類;片段隨時(shí)間變化在各個(gè)大類中轉(zhuǎn)移,可以將這個(gè)過程看成馬爾科夫鏈。3、設(shè)定片段拼接優(yōu)化指標(biāo)D;4、根據(jù)馬爾科夫鏈的性質(zhì)和指標(biāo)D確定片段重組標(biāo)準(zhǔn)5、最后檢驗(yàn)重組的片段是否能代表實(shí)際行駛狀況。根據(jù)速度切分片段根據(jù)加速時(shí)段、減速時(shí)段和勻速時(shí)段這三大類情況進(jìn)行切割。例如汽車加速到頂點(diǎn)的時(shí)段記為片段1;

19、隨后勻速行駛一段時(shí)間記為片段2;之后一直減速的時(shí)段記為片段3;如此切割下去,如下圖所示。片段聚類采用系統(tǒng)聚類法將片段分為合適類(本例共五類):根據(jù)片段在大類之間轉(zhuǎn)移的頻數(shù)可以寫出狀態(tài)轉(zhuǎn)移概率矩陣。聯(lián)合概率分布根據(jù)速度和加速度可以寫出聯(lián)合概率分布。重組思路片段重組的4個(gè)步驟:1、計(jì)算所有行駛片段的速度加速度概率分布,每個(gè)片段計(jì)算出D值,選擇D值最小的片段作為初始片段;2、選擇下一個(gè)片段的起始速度與前一片段的末速度相差必須保持在可達(dá)范圍之內(nèi),即試驗(yàn)數(shù)據(jù)中允許的加速度范圍之內(nèi);3、前一片段與后一片段所屬的狀態(tài)轉(zhuǎn)移概率要大于0,能夠轉(zhuǎn)移才能進(jìn)行片段重組;4、每選擇一次片段,對(duì)于新合成的工況,都要使D值

20、相對(duì)最小。片段重組的基本思想是局部最優(yōu)法,要求每拼接一個(gè)新的片段,要該新片段的D值相較其他未拼接片段最小,且前后拼接處的速度、加速度變化符合實(shí)際發(fā)動(dòng)機(jī)工作原理。結(jié)果比對(duì)按上述標(biāo)準(zhǔn)得到重組后的簡(jiǎn)化工況,和簡(jiǎn)化前的工況進(jìn)行對(duì)比,得到結(jié)果如下圖:簡(jiǎn)化后的工況相比簡(jiǎn)化前的工況更加平滑,也非常接近于簡(jiǎn)化前的工況。用簡(jiǎn)化后的工況代表汽車在公路上的行駛狀態(tài),從而為研究如何降低重型汽車耗油量提供幫助。2.4邏輯回歸模型應(yīng)用2.4.1優(yōu)惠券的精準(zhǔn)投放問題問題描述一家連鎖超市推出優(yōu)惠券活動(dòng),如果顧客購買200元以上的商品,將給予50元的優(yōu)惠。為了精準(zhǔn)投放,超市只愿意將優(yōu)惠券贈(zèng)送給最有可能使用優(yōu)惠券的顧客。思路分析

21、研究人員認(rèn)為,顧客是否使用優(yōu)惠券會(huì)與顧客在這家連鎖超市的年消費(fèi)支出和顧客是否擁有會(huì)員卡有關(guān)。顧客的年消費(fèi)支出可以從積分卡上獲得;如果顧客擁有會(huì)員卡則記為1,否則記為0。模型建立現(xiàn)在超市把優(yōu)惠券贈(zèng)送給隨機(jī)抽取的100名有積分的顧客,在調(diào)查結(jié)束時(shí),研究人員記錄下顧客是否使用了優(yōu)惠券(使用了優(yōu)惠券記為1,否則記為0)。其中抽取10個(gè)數(shù)據(jù)如下表所示,建立logistic模型分析年消費(fèi)支出和是否擁會(huì)員卡對(duì)使用優(yōu)惠券的影響。樣例部分?jǐn)?shù)據(jù)模型求解變量定義如下選擇二元logistic回歸方程,代入數(shù)據(jù),得到回歸方程為:結(jié)果說明可以利用上式估計(jì)特定類型的顧客使用優(yōu)惠券的概率例如,估計(jì)年消費(fèi)支出為1000元并且沒

22、有會(huì)員卡的顧客使用優(yōu)惠券的概率,為此我們將x1=1,x2=0代入logistic回歸方程,得到E(Y)=0.1416.估計(jì)年消費(fèi)支出為1000元和擁有會(huì)員卡的顧客使用優(yōu)惠券的概率,為此我們將x1=1,x2=1代入logistic回歸方程,得到E(Y)=0.3305.結(jié)果顯示:年消費(fèi)支出為1000元的顧客,擁有會(huì)員卡會(huì)比沒有會(huì)員卡的顧客使用優(yōu)惠券的概率大1倍多。ROC 曲線受試者工作特征曲線(receiver operating characteristic curve),簡(jiǎn)稱ROC曲線,是以特異性為橫坐標(biāo),敏感性為縱坐標(biāo)繪制而成。曲線下方面積越大,或者說曲線越靠近左上方,則logistic回歸

23、預(yù)測(cè)的準(zhǔn)確性越高。制定活動(dòng)策略由邏輯回歸模型,可以根據(jù)年消費(fèi)支出和是否擁有會(huì)員卡對(duì)使用優(yōu)惠券的概率做出預(yù)測(cè):據(jù)此,超市指定的活動(dòng)策略為:擁有會(huì)員卡的顧客:對(duì)年消費(fèi)支出在2000元以上的顧客贈(zèng)送優(yōu)惠券;沒有會(huì)員卡的顧客:對(duì)年消費(fèi)支出在5000元以上(0.3921非常接近0.4,超市認(rèn)為也可以將這一類顧客包括進(jìn)來)的顧客贈(zèng)送優(yōu)惠券。2.4.2 投保客戶加??赡苄詥栴}問題描述在保險(xiǎn)業(yè)務(wù)中,常常需要計(jì)算投??蛻舻募颖?赡苄源笮?,并對(duì)加??赡苄源笮〔煌目蛻暨M(jìn)行分類和區(qū)別處理。如何計(jì)算加??赡苄?思路分析在保險(xiǎn)業(yè)務(wù)的客人加保分析中,常常通過證據(jù)權(quán)重法, 將邏輯回歸模型所得的結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)評(píng)分卡的形式,

24、方便保險(xiǎn)公司對(duì)于加保可能性大小不同的客戶進(jìn)行分類和區(qū)別處理。模型建立表2.9所示是共分為r類的名義變量x和被分為正常和違約兩類的違約變量的雙向頻數(shù)表.使用這些符號(hào),xi類的WOE值可以表示為:根據(jù)WOE轉(zhuǎn)換,可以將名義變量x的WOE重新表述為:模型建立(續(xù))模型建立(續(xù))評(píng)分卡設(shè)定的分值刻度可以通過將分值表示為比率對(duì)數(shù)的線性表達(dá)式來定義:其中和是常數(shù).模型計(jì)算將新模型代入分值刻度,得到結(jié)果解讀可以看到,變量對(duì)應(yīng)的值都小于0.0001,說明這些變量與是否加保都有明顯關(guān)系。結(jié)果解讀(續(xù))可以看到,預(yù)測(cè)加保率非常接近實(shí)際加保率,大部分差距都在2以內(nèi),說明模型的結(jié)果非常好。根據(jù)該模型,還可以對(duì)未來進(jìn)行

25、預(yù)測(cè)。2.5聚類分析模型應(yīng)用2.5.1空氣質(zhì)量分類問題(Q型)問題描述隨著霧霾的增多,空氣質(zhì)量逐漸成為人們關(guān)注的熱點(diǎn)??諝馕廴疚镏邪ǘ喾N不同種類和來源的污染物,如劃分顆粒物大小標(biāo)準(zhǔn)的PM2.5指標(biāo)、SO2和NO2的含量等等。氣象部門會(huì)對(duì)城市的空氣質(zhì)量進(jìn)行分類,如何根據(jù)這些指標(biāo)對(duì)空氣質(zhì)量進(jìn)行比較準(zhǔn)確的分類?模型建立模型求解結(jié)果解讀根據(jù)聚類圖和實(shí)際情況可以將31個(gè)城市分為四類:1、嚴(yán)重污染城市:蘭州、西安、石家莊和太原 重工業(yè)內(nèi)陸城市,少雨少風(fēng),污染非常嚴(yán)重,且不易緩解。2、重度污染城市:沈陽、哈爾濱、西寧、呼和浩特、濟(jì)南、成都、北京、天津、鄭州、拉薩和銀川 污染程度比較高,屬于重度污染。3、中

26、度污染城市,重慶、合肥、杭州、南京、武漢、南昌、長沙、廣州、上海、長春和烏魯木齊 污染程度相比較輕,屬于中度污染。4、輕度污染城市,福州、南寧、貴陽、昆明和???環(huán)境優(yōu)美,屬于沿海城市或旅游城市,工業(yè)污染少,污染相對(duì)較輕。 2.5.2 食品分類問題(R型)問題描述某食堂需要制定食品采購策略,因而希望針對(duì)不同食品,進(jìn)行分類,從而幫助制定相應(yīng)的采購策略?,F(xiàn)有2012到2016年20個(gè)品種食品的每月價(jià)格數(shù)據(jù),試用聚類分析對(duì)這20個(gè)食品進(jìn)行分類。模型求解這是對(duì)變量的聚類,可以采用pearson相關(guān)系數(shù)作為變量間的聚類距離,使用類平均法定義類間距離,采用spss軟件對(duì)變量進(jìn)行聚類,得到結(jié)果如右:結(jié)果解讀

27、根據(jù)聚類的結(jié)果和人為的需要,一共可以分為四類:1、包括白素雞、豆奶、老豆腐、香干、厚百葉,這一類都是豆制品;2、包括大白菜、花菜、卷心菜、光萵筍、青菜,這一類都是蔬菜;3、包括凍碎肉、凍大排、豬爪、凍小排、腿肉、帶皮方肉,這一類都是豬肉;4、包括雞全腿、半片鴨、雞翅根、箱雞蛋,這一類都是禽蛋類??梢钥闯龇诸惤Y(jié)果和食品的種類非常接近,也和它們的價(jià)格走勢(shì)非常接近,聚類結(jié)果有很好的指導(dǎo)意義。2.5.3 電商客戶問題(RFM模型)問題描述每年雙十一都是百姓消費(fèi)的一次大狂歡。屆時(shí),早就計(jì)劃好久的人們?cè)诟鞣N購物平臺(tái)上選擇購買看中的折價(jià)商品,每年這個(gè)時(shí)候的消費(fèi)金額驚人!在這狂歡之中,細(xì)心的商家會(huì)保持冷靜,思考如何讓自己盈利最大化。這其中包括如何刺激老客戶在雙十一繼續(xù)購買?如何吸引新客戶的購買?如何留存住在雙十一偶然購買的客戶?思路分析在對(duì)客戶關(guān)系的管理分析中,RFM模型是經(jīng)常使用的一種類聚類分析方法。RFM指如下三個(gè)指標(biāo):最近一次消費(fèi)(Recency)消費(fèi)頻率(Frequency)消費(fèi)金額(Monetary)RFM模型是將這三個(gè)重要指標(biāo)作為評(píng)判用戶購買潛力的。RFM分析側(cè)重對(duì)客戶行為的分析,客戶在做些什么?他們的這些行為會(huì)對(duì)將來的購買產(chǎn)生什么樣的影

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論