計(jì)量經(jīng)濟(jì)學(xué)知識(shí)點(diǎn)講解1_第1頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)知識(shí)點(diǎn)講解1_第2頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)知識(shí)點(diǎn)講解1_第3頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)知識(shí)點(diǎn)講解1_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)江湖,回歸5式

今天要跟大家分享的主題叫做:數(shù)據(jù)江湖,回歸5式!

如今啊,大數(shù)據(jù)時(shí)代,群雄割據(jù),天下大亂。各位童鞋,闖蕩江湖,兇險(xiǎn)難測(cè)。沒一些

必備的看家的本領(lǐng),就想從數(shù)據(jù)出發(fā),直達(dá)價(jià)值的彼岸,恐怕很難。

為此呢,熊大教大家?guī)渍蟹郎斫^技,叫做:回歸5式!簡(jiǎn)單的說,就是5種最常見的

回歸模型。這5個(gè)招式,看似簡(jiǎn)單,卻是熊大行走江湖的看家本領(lǐng)?!究蓺w5式,就如同少

林長(zhǎng)拳,看似平淡無奇,但是如果輔以深厚的內(nèi)力,就能威力無比。

所以呀,今天除了要教給大家這回歸5式以外,熊大還要跟大家說道說道這內(nèi)力的修

為。沒有深厚的內(nèi)力修為,任何絕妙的功夫,都是花拳繡腿。

好了,閑話少說,先從回歸5式開始。

回歸分析第1式:線性回歸,或者更嚴(yán)格地說,是普通線性回歸。

前面我們說了,什么是回歸分析?回歸分析就是關(guān)于XY相關(guān)性的分析。那么具體到

線性回歸,它的主要特征是什么呢?

普通線性回歸的主要特征就是:它的因變量必須是連續(xù)型數(shù)據(jù)。什么是連續(xù)型數(shù)據(jù)呀?

簡(jiǎn)單通俗的講,就是得是連續(xù)的。例如:身高、體重、價(jià)格、溫度都是典型的連續(xù)型數(shù)據(jù)。

但是,在實(shí)際工作中,由于所有的計(jì)算機(jī),實(shí)際上都只能存儲(chǔ)有限位有效數(shù)字,因此,在真

實(shí)的數(shù)據(jù)江湖里,不存在嚴(yán)格的連續(xù)數(shù)據(jù),只有近似的。接下來,我們討論一下,普通線性

回歸在數(shù)據(jù)江湖中,有哪些重要應(yīng)用?太多了!隨便說幾個(gè)。

先說一個(gè)簡(jiǎn)單刺激的:股票投資。

這里的因變量Y是某只股票或者資產(chǎn)組合的未來收益率。這是一個(gè)連續(xù)型的因變量。

如果我們能夠建立Y和一系列X的相關(guān)關(guān)系,例如X可以是該股票背后企業(yè)的財(cái)務(wù)特

征,我們就可以通過X云預(yù)測(cè)Y,然后通過合理的交易策略,實(shí)現(xiàn)超額收益率,俗稱:發(fā)

大財(cái)!

其次,再考慮一個(gè)關(guān)于消費(fèi)者的案例:客戶終身價(jià)值。

這里的因變量Y是一個(gè)目標(biāo)客戶,從現(xiàn)在開始,到未來無限遠(yuǎn)時(shí)間,所能夠給企業(yè)創(chuàng)

造的收入,經(jīng)過一定的利率折現(xiàn)到現(xiàn)在的價(jià)值。如果我們能夠建立Y和一系列X的相關(guān)

關(guān)系,例如X可以是這些消贄者的人口統(tǒng)計(jì)特征以及過去的消贄記錄,我就可以通過X去

預(yù)測(cè)Y。這樣可以幫助我們識(shí)別潛在的高價(jià)值客戶。

大家都知道,高血壓是一個(gè)非常普遍的慢性疾病,是個(gè)人或者社保醫(yī)療支出中的一大塊。

而血壓這個(gè)Y也是一個(gè)連續(xù)型數(shù)據(jù)。深刻理解?個(gè)人的血壓Y,同各種相關(guān)因素X(例如:

飲食習(xí)慣、服藥習(xí)慣)之間的關(guān)系,對(duì)于改進(jìn)健康、降低醫(yī)療開支,有重要的意義。

總結(jié)一下,在我們通往價(jià)值的坎坷道路上,一定會(huì)遇到各種各樣的數(shù)據(jù)挑戰(zhàn)。他們中

絕大多數(shù),都可以被規(guī)范成為回歸分析問題。而只要這個(gè)問題的Y是連續(xù)型數(shù)據(jù),那么回

歸分析第1式“線性回歸”,基本能搞定!

回歸分析第2式:0-1回歸。

如果我的因變量不是連續(xù)的怎么辦?例如:是0-1型數(shù)據(jù)。什么是“0-1型數(shù)據(jù)”?0-

1型數(shù)據(jù)就是說呀,這個(gè)數(shù)據(jù)只可能有兩個(gè)取值。

例如:性別,只有“男”、“女”兩個(gè)取值;消費(fèi)者的購(gòu)買決策,只有“買”或者“不買”

兩個(gè)取值:病人的癌癥診斷,只有“得癌癥”或者“不得癌癥”兩個(gè)取值。類似地,大家可

以給出很多0-1型數(shù)據(jù)的例子來。

碰到這種數(shù)據(jù)挑戰(zhàn)的時(shí)候,線性回歸就不好使了。你需要的是回歸分析第2式:0-1回

歸。0-1回歸主要砍的就是0-1型因變量的問題。()-1型的因變量又包含了很多很多的招數(shù),

我個(gè)人認(rèn)為,其實(shí)大同小異,最常見的有兩招就可以了。一招是:邏輯回歸,也叫做Logistic

Regression;另外一招是:ProbitRegressiono

具體想學(xué)的同學(xué),大家可以去杳“廣義線性模型”眉關(guān)的武林秘籍,我就不再這里贅述

了。我主要想跟大家分享的是:“0-1回歸''是一個(gè)非常重要的回歸模型,你要不會(huì)這招,休

想行走數(shù)據(jù)江湖,永遠(yuǎn)不可能到達(dá)價(jià)值的彼岸。

為什么這么說?因?yàn)橄嚓P(guān)的重要應(yīng)用太多了,咱們說幾個(gè)時(shí)鬃有趣的。

第一個(gè)例子。現(xiàn)在征信特別火,尤其是互聯(lián)網(wǎng)征信。

征信是啥?征信就是對(duì)某個(gè)體的信譽(yù)做評(píng)估。啥是信譽(yù)?就是如果我借錢給你,你按時(shí)

還錢的概率有多大?所以,對(duì)于這個(gè)業(yè)務(wù)而言,因變量就是一個(gè)借款人是否會(huì)還錢。而0/

回歸的主要使命,就是評(píng)價(jià)該借款人未來還錢的可能性。是一個(gè)介于0和I之間的概率。

如果產(chǎn)品經(jīng)理愿意,就可以把這個(gè)概率經(jīng)過一定的單調(diào)變換,變成一個(gè)具體的征信得分。你

看,0-1回歸重要不?

再跟大家看一個(gè)例子,大家都喜歡網(wǎng)上購(gòu)物,什么淘寶、京東、天貓啥的。每一次登陸

進(jìn)自己的賬戶,我們看到了什么?是不是總能看到一些被推薦的商品,“猜你喜歡”,對(duì)不?

這些商品是怎么被推薦出來的?這個(gè)背后啊,也是一個(gè)0-1回歸的問題。

舉個(gè)例子,咱先找一堆X]描述消費(fèi)者的特征(什么性別啦、年齡啦、購(gòu)物習(xí)慣啦等等),

然后咱們?cè)僬乙欢训腦2描述商品特征(什么品類呀、價(jià)格呀、品牌呀、型號(hào)呀等等)。咱把這

兩堆X放在一起,問一個(gè)問題:說您會(huì)買嗎?丫二。表示不會(huì),Y=1表示會(huì)。這就是一個(gè)標(biāo)

準(zhǔn)的0-1回歸問題了。

有了這個(gè)模型,我們可以知道:對(duì)于什么樣的消費(fèi)者,推薦什么樣的商品,會(huì)產(chǎn)生什么

樣的購(gòu)買概率。然后在所有的待選商品中,挑選概率最大的(例如5個(gè)),呈現(xiàn)在您的眼前。

這就成就了個(gè)性化推薦。

有人說了:“王老師,您說的不對(duì),我們用的模型可不是邏輯回歸那么簡(jiǎn)單,老復(fù)雜了」

這個(gè)木有問題,真正的工程實(shí)踐,所用的模型,有可能更簡(jiǎn)單,也有可能更復(fù)雜。但是,都

逃離不了0-1回歸的本質(zhì)所在。

最后,再分享一個(gè)有趣的例子。現(xiàn)在啊,這社交網(wǎng)絡(luò)特別火,什么Facebook>Twiner、

QQ、微信、微博、陌陌筆等。

對(duì)于社交平臺(tái)而言,幫助用戶發(fā)現(xiàn)好友、建立豐富緊密的好友關(guān)系,非常重要。為此啊,

幾乎所有的社交平臺(tái)都有“推薦好友”這個(gè)功能。這個(gè)功能從人質(zhì)上講,跟個(gè)性化推薦商品

一樣,也是一個(gè)0-1回歸的問題。稍微有點(diǎn)區(qū)別,可能是,在社交平臺(tái)上做推薦,我僅多了

一大類全新的X,就是社交關(guān)系。

例如,在我們考慮是否要給張三推薦李四的時(shí)候,一個(gè)重要的X變量就是“他僅之間

有多少共同好友”,或者“在張三的關(guān)注中,有多少人關(guān)注了李四“,這些重要的X變量是

根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)推算出來的,對(duì)于預(yù)測(cè)“張三是否會(huì)真的關(guān)注李四“,幫助巨大。

總結(jié)一下,在數(shù)據(jù)的江湖里,你一定會(huì)碰到“0-1數(shù)據(jù)”的挑戰(zhàn)。如果沒有0-1回歸分

析護(hù)身,通往價(jià)值的道路一定是坎坷無比。

回歸分析第3式:定序回歸。

什么是定序回歸?就是因變量是定序數(shù)據(jù)的回歸分析。那么,什么乂是定序數(shù)據(jù)呢?定

序數(shù)據(jù)就是關(guān)乎順序的數(shù)據(jù),但是又沒有具體的數(shù)值意義。

考慮一個(gè)特別常見的例子。例如,咱公司出一款新的礦泉水,叫做“狗熊山泉,有點(diǎn)不

甜”。我想知道消費(fèi)者對(duì)它的喜好程度。因此啊,我決定請(qǐng)人來品嘗一下,然后呢,根據(jù)他

的喜好程度,給出一個(gè)打分。I表示非常不喜歡,2表示有點(diǎn)不喜歡,3表示一般般,4表

示有點(diǎn)喜歡,5表示非常喜歡。這就是我關(guān)心的因變量。

這種數(shù)據(jù)常見嗎?非常常見!有什么特點(diǎn)?

第一、它沒有數(shù)值意義,不能做任何代數(shù)運(yùn)算。例如,您不能做加法。我不能說:1(很

不喜歡)加上一個(gè)2(有點(diǎn)不喜歡)居然等于了3(表示一般般)。這顯然不對(duì)。這就是該數(shù)據(jù)的

第一個(gè)特點(diǎn),沒有具體的數(shù)值意義。

第二,這個(gè)數(shù)據(jù)的第二個(gè)特點(diǎn)是它的順序很重要。例如:1(很不喜歡)就?定要排在2(有

點(diǎn)不喜歡的前面),而2(有點(diǎn)不喜歡)就必須要排在3(一般般的前面)。這個(gè)順序呀,很重要!

這就是為什么人們管它叫做“定序數(shù)據(jù)

我們說了,定序數(shù)據(jù)沒有具體的數(shù)值意義。因此,我們不能確信:2(有點(diǎn)不喜歡)和1(很

不喜歡)的差距,是否正好等于5(超級(jí)喜歡)和4(有點(diǎn)喜歡)之間的差距。事實(shí)上,基本上不

可能相等,因?yàn)闆]那么巧!

既然這些取值之間的間距到底是多少,誰(shuí)也說不清楚。那么,把很不喜歡定義為SY=1$,

還是$Y=1.5$,還是說$Y=3$,都無所謂。同樣的,加何定義有點(diǎn)不喜歡,也隨意。但是

只要這個(gè)定義,不破壞順序就可以了。這就是定序數(shù)據(jù)的核心要義。

定序回歸應(yīng)用的常見的戰(zhàn)場(chǎng)有哪些?前面說了,消費(fèi)者調(diào)查,請(qǐng)大家表達(dá)自己的偏好。

在線下,這就是最普通的市場(chǎng)調(diào)研;在線上,就可能是豆瓣上人們對(duì)一個(gè)電影的打分評(píng)級(jí);

在醫(yī)學(xué)應(yīng)用中,有些重要的心理相關(guān)的疾?。ɡ纾阂钟舭Y)也會(huì)涉及到定序數(shù)據(jù)。這就是回

歸分析第三式:定序回歸。

回歸分析第4式:計(jì)數(shù)回歸。

什么是計(jì)數(shù)回歸?就是因變量是計(jì)數(shù)數(shù)據(jù)的回歸分析。那么,什么又是計(jì)數(shù)數(shù)據(jù)呢?就

是數(shù)數(shù)的數(shù)據(jù)。例如,誰(shuí)家有幾個(gè)孩子,養(yǎng)了幾條狗。

有什么特點(diǎn)?既然是數(shù)數(shù),它就必須是非負(fù)的整數(shù).不能是負(fù)數(shù),說誰(shuí)家有負(fù)3個(gè)孩

子,沒這事。不能是小數(shù),例如說誰(shuí)家養(yǎng)了L25只狗,也沒這說法。

計(jì)數(shù)數(shù)據(jù)在哪些地方常見?例如:客戶關(guān)系管理中,有一個(gè)經(jīng)典的RFM模型,其中這

個(gè)F,就是frequency,說的是一定時(shí)間內(nèi),客戶到訪的次數(shù)??梢允?次,也可以是1次、

2次、很多次。但是,不能是-2次,更不能是2.3次。這樣清楚嗎?

計(jì)數(shù)數(shù)據(jù)還出現(xiàn)在醫(yī)學(xué)研究中。一個(gè)癌癥病人體內(nèi)腫瘤的個(gè)數(shù):0是沒有,也可以是1

個(gè)、2個(gè)、或者很多個(gè)。

計(jì)數(shù)數(shù)據(jù)還出現(xiàn)在社會(huì)研究中。例如,二胎政策放開,一對(duì)夫妻最后到底如何選擇要生

育多少個(gè)孩子呢?可以是0個(gè)、1個(gè),也可以是2個(gè)。但是,不能是-2個(gè),也不能是0.7

個(gè)。

要應(yīng)對(duì)計(jì)數(shù)型因變量,咱就需要回歸分析第4式:計(jì)數(shù)回歸。計(jì)數(shù)回歸也有很多招數(shù)。

最常見的是泊松同歸、負(fù)二項(xiàng)回歸、零膨脹泊松I可歸等方法。欲知詳情,請(qǐng)參見各路統(tǒng)計(jì)學(xué)

秘籍。

回歸分析第5式:生存回歸。

生存回歸是生存數(shù)據(jù)回歸的簡(jiǎn)稱。而生存數(shù)據(jù)回歸就是因變量是生存數(shù)據(jù)的回歸分析。

什么是生存數(shù)據(jù)?生存數(shù)據(jù)就刻畫的一個(gè)現(xiàn)象或個(gè)體,存續(xù)生存了多久,也就是我們常說的

生存時(shí)間。

因此,我們要清晰定義兩個(gè)東西。一個(gè)是出生,一個(gè)是死亡。以人的自然出生為出生,

以人的自然死亡為死亡,就定義了一個(gè)人的壽命,這就是一個(gè)典型的生存數(shù)據(jù)。該數(shù)據(jù),對(duì)

(例如)壽險(xiǎn)精算非常重要。

如果以一個(gè)電子產(chǎn)品[例如:燈泡)第一次使用為出生,到最后報(bào)廢為死亡,就決定了產(chǎn)

品的使用壽命。

如果以一個(gè)消費(fèi)者的注冊(cè)成為我家的網(wǎng)站為出生,到某天離我而去,再也不登陸為死亡,

這定義了一個(gè)消費(fèi)者的生命周期。

如果,以一個(gè)企業(yè)的工商注冊(cè)為出生,到破產(chǎn)注銷為死亡,這刻畫的是企業(yè)的生命周期。

如果,以一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)獲得A輪融資為出生,到創(chuàng)業(yè)板上市為死亡(請(qǐng)注意呀,這是一

個(gè)開心的死亡),這刻畫的是風(fēng)險(xiǎn)投資回報(bào)的周期。

由此可見,生存數(shù)據(jù)無處不在啊。要分析這種數(shù)據(jù),您就需要I可歸分析第5式:生存

回歸。這樣清楚嗎?

諛,且慢。細(xì)心的同學(xué)一定會(huì)問:埃,這聽起來生存數(shù)據(jù)不就是一個(gè)連續(xù)型的數(shù)據(jù)嗎?

為什么不用線性回歸呢?咱把數(shù)據(jù)做一個(gè)對(duì)數(shù)變換,線性回歸它就搞不定r嗎?啊哈,您可

真是問到點(diǎn)子上了。您說的一點(diǎn)都沒錯(cuò),本來啊,線性回歸是可以搞定生存數(shù)據(jù)的,如果生

存數(shù)據(jù)是被精確觀察到的。

什么?有可能生存數(shù)據(jù)沒有被精確觀測(cè)到嗎?是的呀,考慮一個(gè)具體的例子。

咱以人的壽命為例,我們關(guān)心一個(gè)問題:一個(gè)人是芬學(xué)習(xí)統(tǒng)計(jì)學(xué)(這個(gè)X),是否會(huì)影響

得到他的壽命(Y)?看,這是?個(gè)典型的回歸分析問題吧.為此,我們調(diào)查了很多數(shù)據(jù),隔

壁老王不幸被抽中,為此我們想知道老王到底能活多久。

老王今年60,身體倍兒棒,吃飯倍兒香,核心問題是他還沒掛呢,我們?cè)趺粗浪?/p>

活多久呢?咋辦呢?要不再等個(gè)幾十年,等老王掛了,知道他的精確壽命了,咱們?cè)僮龇治觯?/p>

這怎么能行呢,萬(wàn)一,我先掛了怎么辦!誰(shuí)來做分析?所以,老王的壽命,這個(gè)Y到底應(yīng)

該怎么辦呢?我們對(duì)它不是一無所知,因?yàn)樗呀?jīng)虛度春秋60載了,所以,我們知道老王

的Y一定比60大。這是一個(gè)寶貴的信息,但是,大多少,我不知道。所以,在數(shù)據(jù)上我

們是怎么記錄這個(gè)事情呢?我們把Y記作60+,看到這個(gè)神奇的沒。只要一個(gè)數(shù)據(jù)后

面跟著一個(gè)“+”,這表明真實(shí)的數(shù)據(jù)比這個(gè)大,但是,大多少不知道。

這種數(shù)據(jù)叫什么?這種數(shù)據(jù)叫作CensoredData,中文被稱作截?cái)嗟臄?shù)據(jù)。

如果,咱們的生存數(shù)據(jù),沒有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論