下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)江湖,回歸5式
今天要跟大家分享的主題叫做:數(shù)據(jù)江湖,回歸5式!
如今啊,大數(shù)據(jù)時(shí)代,群雄割據(jù),天下大亂。各位童鞋,闖蕩江湖,兇險(xiǎn)難測(cè)。沒一些
必備的看家的本領(lǐng),就想從數(shù)據(jù)出發(fā),直達(dá)價(jià)值的彼岸,恐怕很難。
為此呢,熊大教大家?guī)渍蟹郎斫^技,叫做:回歸5式!簡(jiǎn)單的說,就是5種最常見的
回歸模型。這5個(gè)招式,看似簡(jiǎn)單,卻是熊大行走江湖的看家本領(lǐng)?!究蓺w5式,就如同少
林長(zhǎng)拳,看似平淡無奇,但是如果輔以深厚的內(nèi)力,就能威力無比。
所以呀,今天除了要教給大家這回歸5式以外,熊大還要跟大家說道說道這內(nèi)力的修
為。沒有深厚的內(nèi)力修為,任何絕妙的功夫,都是花拳繡腿。
好了,閑話少說,先從回歸5式開始。
回歸分析第1式:線性回歸,或者更嚴(yán)格地說,是普通線性回歸。
前面我們說了,什么是回歸分析?回歸分析就是關(guān)于XY相關(guān)性的分析。那么具體到
線性回歸,它的主要特征是什么呢?
普通線性回歸的主要特征就是:它的因變量必須是連續(xù)型數(shù)據(jù)。什么是連續(xù)型數(shù)據(jù)呀?
簡(jiǎn)單通俗的講,就是得是連續(xù)的。例如:身高、體重、價(jià)格、溫度都是典型的連續(xù)型數(shù)據(jù)。
但是,在實(shí)際工作中,由于所有的計(jì)算機(jī),實(shí)際上都只能存儲(chǔ)有限位有效數(shù)字,因此,在真
實(shí)的數(shù)據(jù)江湖里,不存在嚴(yán)格的連續(xù)數(shù)據(jù),只有近似的。接下來,我們討論一下,普通線性
回歸在數(shù)據(jù)江湖中,有哪些重要應(yīng)用?太多了!隨便說幾個(gè)。
先說一個(gè)簡(jiǎn)單刺激的:股票投資。
這里的因變量Y是某只股票或者資產(chǎn)組合的未來收益率。這是一個(gè)連續(xù)型的因變量。
如果我們能夠建立Y和一系列X的相關(guān)關(guān)系,例如X可以是該股票背后企業(yè)的財(cái)務(wù)特
征,我們就可以通過X云預(yù)測(cè)Y,然后通過合理的交易策略,實(shí)現(xiàn)超額收益率,俗稱:發(fā)
大財(cái)!
其次,再考慮一個(gè)關(guān)于消費(fèi)者的案例:客戶終身價(jià)值。
這里的因變量Y是一個(gè)目標(biāo)客戶,從現(xiàn)在開始,到未來無限遠(yuǎn)時(shí)間,所能夠給企業(yè)創(chuàng)
造的收入,經(jīng)過一定的利率折現(xiàn)到現(xiàn)在的價(jià)值。如果我們能夠建立Y和一系列X的相關(guān)
關(guān)系,例如X可以是這些消贄者的人口統(tǒng)計(jì)特征以及過去的消贄記錄,我就可以通過X去
預(yù)測(cè)Y。這樣可以幫助我們識(shí)別潛在的高價(jià)值客戶。
大家都知道,高血壓是一個(gè)非常普遍的慢性疾病,是個(gè)人或者社保醫(yī)療支出中的一大塊。
而血壓這個(gè)Y也是一個(gè)連續(xù)型數(shù)據(jù)。深刻理解?個(gè)人的血壓Y,同各種相關(guān)因素X(例如:
飲食習(xí)慣、服藥習(xí)慣)之間的關(guān)系,對(duì)于改進(jìn)健康、降低醫(yī)療開支,有重要的意義。
總結(jié)一下,在我們通往價(jià)值的坎坷道路上,一定會(huì)遇到各種各樣的數(shù)據(jù)挑戰(zhàn)。他們中
絕大多數(shù),都可以被規(guī)范成為回歸分析問題。而只要這個(gè)問題的Y是連續(xù)型數(shù)據(jù),那么回
歸分析第1式“線性回歸”,基本能搞定!
回歸分析第2式:0-1回歸。
如果我的因變量不是連續(xù)的怎么辦?例如:是0-1型數(shù)據(jù)。什么是“0-1型數(shù)據(jù)”?0-
1型數(shù)據(jù)就是說呀,這個(gè)數(shù)據(jù)只可能有兩個(gè)取值。
例如:性別,只有“男”、“女”兩個(gè)取值;消費(fèi)者的購(gòu)買決策,只有“買”或者“不買”
兩個(gè)取值:病人的癌癥診斷,只有“得癌癥”或者“不得癌癥”兩個(gè)取值。類似地,大家可
以給出很多0-1型數(shù)據(jù)的例子來。
碰到這種數(shù)據(jù)挑戰(zhàn)的時(shí)候,線性回歸就不好使了。你需要的是回歸分析第2式:0-1回
歸。0-1回歸主要砍的就是0-1型因變量的問題。()-1型的因變量又包含了很多很多的招數(shù),
我個(gè)人認(rèn)為,其實(shí)大同小異,最常見的有兩招就可以了。一招是:邏輯回歸,也叫做Logistic
Regression;另外一招是:ProbitRegressiono
具體想學(xué)的同學(xué),大家可以去杳“廣義線性模型”眉關(guān)的武林秘籍,我就不再這里贅述
了。我主要想跟大家分享的是:“0-1回歸''是一個(gè)非常重要的回歸模型,你要不會(huì)這招,休
想行走數(shù)據(jù)江湖,永遠(yuǎn)不可能到達(dá)價(jià)值的彼岸。
為什么這么說?因?yàn)橄嚓P(guān)的重要應(yīng)用太多了,咱們說幾個(gè)時(shí)鬃有趣的。
第一個(gè)例子。現(xiàn)在征信特別火,尤其是互聯(lián)網(wǎng)征信。
征信是啥?征信就是對(duì)某個(gè)體的信譽(yù)做評(píng)估。啥是信譽(yù)?就是如果我借錢給你,你按時(shí)
還錢的概率有多大?所以,對(duì)于這個(gè)業(yè)務(wù)而言,因變量就是一個(gè)借款人是否會(huì)還錢。而0/
回歸的主要使命,就是評(píng)價(jià)該借款人未來還錢的可能性。是一個(gè)介于0和I之間的概率。
如果產(chǎn)品經(jīng)理愿意,就可以把這個(gè)概率經(jīng)過一定的單調(diào)變換,變成一個(gè)具體的征信得分。你
看,0-1回歸重要不?
再跟大家看一個(gè)例子,大家都喜歡網(wǎng)上購(gòu)物,什么淘寶、京東、天貓啥的。每一次登陸
進(jìn)自己的賬戶,我們看到了什么?是不是總能看到一些被推薦的商品,“猜你喜歡”,對(duì)不?
這些商品是怎么被推薦出來的?這個(gè)背后啊,也是一個(gè)0-1回歸的問題。
舉個(gè)例子,咱先找一堆X]描述消費(fèi)者的特征(什么性別啦、年齡啦、購(gòu)物習(xí)慣啦等等),
然后咱們?cè)僬乙欢训腦2描述商品特征(什么品類呀、價(jià)格呀、品牌呀、型號(hào)呀等等)。咱把這
兩堆X放在一起,問一個(gè)問題:說您會(huì)買嗎?丫二。表示不會(huì),Y=1表示會(huì)。這就是一個(gè)標(biāo)
準(zhǔn)的0-1回歸問題了。
有了這個(gè)模型,我們可以知道:對(duì)于什么樣的消費(fèi)者,推薦什么樣的商品,會(huì)產(chǎn)生什么
樣的購(gòu)買概率。然后在所有的待選商品中,挑選概率最大的(例如5個(gè)),呈現(xiàn)在您的眼前。
這就成就了個(gè)性化推薦。
有人說了:“王老師,您說的不對(duì),我們用的模型可不是邏輯回歸那么簡(jiǎn)單,老復(fù)雜了」
這個(gè)木有問題,真正的工程實(shí)踐,所用的模型,有可能更簡(jiǎn)單,也有可能更復(fù)雜。但是,都
逃離不了0-1回歸的本質(zhì)所在。
最后,再分享一個(gè)有趣的例子。現(xiàn)在啊,這社交網(wǎng)絡(luò)特別火,什么Facebook>Twiner、
QQ、微信、微博、陌陌筆等。
對(duì)于社交平臺(tái)而言,幫助用戶發(fā)現(xiàn)好友、建立豐富緊密的好友關(guān)系,非常重要。為此啊,
幾乎所有的社交平臺(tái)都有“推薦好友”這個(gè)功能。這個(gè)功能從人質(zhì)上講,跟個(gè)性化推薦商品
一樣,也是一個(gè)0-1回歸的問題。稍微有點(diǎn)區(qū)別,可能是,在社交平臺(tái)上做推薦,我僅多了
一大類全新的X,就是社交關(guān)系。
例如,在我們考慮是否要給張三推薦李四的時(shí)候,一個(gè)重要的X變量就是“他僅之間
有多少共同好友”,或者“在張三的關(guān)注中,有多少人關(guān)注了李四“,這些重要的X變量是
根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)推算出來的,對(duì)于預(yù)測(cè)“張三是否會(huì)真的關(guān)注李四“,幫助巨大。
總結(jié)一下,在數(shù)據(jù)的江湖里,你一定會(huì)碰到“0-1數(shù)據(jù)”的挑戰(zhàn)。如果沒有0-1回歸分
析護(hù)身,通往價(jià)值的道路一定是坎坷無比。
回歸分析第3式:定序回歸。
什么是定序回歸?就是因變量是定序數(shù)據(jù)的回歸分析。那么,什么乂是定序數(shù)據(jù)呢?定
序數(shù)據(jù)就是關(guān)乎順序的數(shù)據(jù),但是又沒有具體的數(shù)值意義。
考慮一個(gè)特別常見的例子。例如,咱公司出一款新的礦泉水,叫做“狗熊山泉,有點(diǎn)不
甜”。我想知道消費(fèi)者對(duì)它的喜好程度。因此啊,我決定請(qǐng)人來品嘗一下,然后呢,根據(jù)他
的喜好程度,給出一個(gè)打分。I表示非常不喜歡,2表示有點(diǎn)不喜歡,3表示一般般,4表
示有點(diǎn)喜歡,5表示非常喜歡。這就是我關(guān)心的因變量。
這種數(shù)據(jù)常見嗎?非常常見!有什么特點(diǎn)?
第一、它沒有數(shù)值意義,不能做任何代數(shù)運(yùn)算。例如,您不能做加法。我不能說:1(很
不喜歡)加上一個(gè)2(有點(diǎn)不喜歡)居然等于了3(表示一般般)。這顯然不對(duì)。這就是該數(shù)據(jù)的
第一個(gè)特點(diǎn),沒有具體的數(shù)值意義。
第二,這個(gè)數(shù)據(jù)的第二個(gè)特點(diǎn)是它的順序很重要。例如:1(很不喜歡)就?定要排在2(有
點(diǎn)不喜歡的前面),而2(有點(diǎn)不喜歡)就必須要排在3(一般般的前面)。這個(gè)順序呀,很重要!
這就是為什么人們管它叫做“定序數(shù)據(jù)
我們說了,定序數(shù)據(jù)沒有具體的數(shù)值意義。因此,我們不能確信:2(有點(diǎn)不喜歡)和1(很
不喜歡)的差距,是否正好等于5(超級(jí)喜歡)和4(有點(diǎn)喜歡)之間的差距。事實(shí)上,基本上不
可能相等,因?yàn)闆]那么巧!
既然這些取值之間的間距到底是多少,誰(shuí)也說不清楚。那么,把很不喜歡定義為SY=1$,
還是$Y=1.5$,還是說$Y=3$,都無所謂。同樣的,加何定義有點(diǎn)不喜歡,也隨意。但是
只要這個(gè)定義,不破壞順序就可以了。這就是定序數(shù)據(jù)的核心要義。
定序回歸應(yīng)用的常見的戰(zhàn)場(chǎng)有哪些?前面說了,消費(fèi)者調(diào)查,請(qǐng)大家表達(dá)自己的偏好。
在線下,這就是最普通的市場(chǎng)調(diào)研;在線上,就可能是豆瓣上人們對(duì)一個(gè)電影的打分評(píng)級(jí);
在醫(yī)學(xué)應(yīng)用中,有些重要的心理相關(guān)的疾?。ɡ纾阂钟舭Y)也會(huì)涉及到定序數(shù)據(jù)。這就是回
歸分析第三式:定序回歸。
回歸分析第4式:計(jì)數(shù)回歸。
什么是計(jì)數(shù)回歸?就是因變量是計(jì)數(shù)數(shù)據(jù)的回歸分析。那么,什么又是計(jì)數(shù)數(shù)據(jù)呢?就
是數(shù)數(shù)的數(shù)據(jù)。例如,誰(shuí)家有幾個(gè)孩子,養(yǎng)了幾條狗。
有什么特點(diǎn)?既然是數(shù)數(shù),它就必須是非負(fù)的整數(shù).不能是負(fù)數(shù),說誰(shuí)家有負(fù)3個(gè)孩
子,沒這事。不能是小數(shù),例如說誰(shuí)家養(yǎng)了L25只狗,也沒這說法。
計(jì)數(shù)數(shù)據(jù)在哪些地方常見?例如:客戶關(guān)系管理中,有一個(gè)經(jīng)典的RFM模型,其中這
個(gè)F,就是frequency,說的是一定時(shí)間內(nèi),客戶到訪的次數(shù)??梢允?次,也可以是1次、
2次、很多次。但是,不能是-2次,更不能是2.3次。這樣清楚嗎?
計(jì)數(shù)數(shù)據(jù)還出現(xiàn)在醫(yī)學(xué)研究中。一個(gè)癌癥病人體內(nèi)腫瘤的個(gè)數(shù):0是沒有,也可以是1
個(gè)、2個(gè)、或者很多個(gè)。
計(jì)數(shù)數(shù)據(jù)還出現(xiàn)在社會(huì)研究中。例如,二胎政策放開,一對(duì)夫妻最后到底如何選擇要生
育多少個(gè)孩子呢?可以是0個(gè)、1個(gè),也可以是2個(gè)。但是,不能是-2個(gè),也不能是0.7
個(gè)。
要應(yīng)對(duì)計(jì)數(shù)型因變量,咱就需要回歸分析第4式:計(jì)數(shù)回歸。計(jì)數(shù)回歸也有很多招數(shù)。
最常見的是泊松同歸、負(fù)二項(xiàng)回歸、零膨脹泊松I可歸等方法。欲知詳情,請(qǐng)參見各路統(tǒng)計(jì)學(xué)
秘籍。
回歸分析第5式:生存回歸。
生存回歸是生存數(shù)據(jù)回歸的簡(jiǎn)稱。而生存數(shù)據(jù)回歸就是因變量是生存數(shù)據(jù)的回歸分析。
什么是生存數(shù)據(jù)?生存數(shù)據(jù)就刻畫的一個(gè)現(xiàn)象或個(gè)體,存續(xù)生存了多久,也就是我們常說的
生存時(shí)間。
因此,我們要清晰定義兩個(gè)東西。一個(gè)是出生,一個(gè)是死亡。以人的自然出生為出生,
以人的自然死亡為死亡,就定義了一個(gè)人的壽命,這就是一個(gè)典型的生存數(shù)據(jù)。該數(shù)據(jù),對(duì)
(例如)壽險(xiǎn)精算非常重要。
如果以一個(gè)電子產(chǎn)品[例如:燈泡)第一次使用為出生,到最后報(bào)廢為死亡,就決定了產(chǎn)
品的使用壽命。
如果以一個(gè)消費(fèi)者的注冊(cè)成為我家的網(wǎng)站為出生,到某天離我而去,再也不登陸為死亡,
這定義了一個(gè)消費(fèi)者的生命周期。
如果,以一個(gè)企業(yè)的工商注冊(cè)為出生,到破產(chǎn)注銷為死亡,這刻畫的是企業(yè)的生命周期。
如果,以一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)獲得A輪融資為出生,到創(chuàng)業(yè)板上市為死亡(請(qǐng)注意呀,這是一
個(gè)開心的死亡),這刻畫的是風(fēng)險(xiǎn)投資回報(bào)的周期。
由此可見,生存數(shù)據(jù)無處不在啊。要分析這種數(shù)據(jù),您就需要I可歸分析第5式:生存
回歸。這樣清楚嗎?
諛,且慢。細(xì)心的同學(xué)一定會(huì)問:埃,這聽起來生存數(shù)據(jù)不就是一個(gè)連續(xù)型的數(shù)據(jù)嗎?
為什么不用線性回歸呢?咱把數(shù)據(jù)做一個(gè)對(duì)數(shù)變換,線性回歸它就搞不定r嗎?啊哈,您可
真是問到點(diǎn)子上了。您說的一點(diǎn)都沒錯(cuò),本來啊,線性回歸是可以搞定生存數(shù)據(jù)的,如果生
存數(shù)據(jù)是被精確觀察到的。
什么?有可能生存數(shù)據(jù)沒有被精確觀測(cè)到嗎?是的呀,考慮一個(gè)具體的例子。
咱以人的壽命為例,我們關(guān)心一個(gè)問題:一個(gè)人是芬學(xué)習(xí)統(tǒng)計(jì)學(xué)(這個(gè)X),是否會(huì)影響
得到他的壽命(Y)?看,這是?個(gè)典型的回歸分析問題吧.為此,我們調(diào)查了很多數(shù)據(jù),隔
壁老王不幸被抽中,為此我們想知道老王到底能活多久。
老王今年60,身體倍兒棒,吃飯倍兒香,核心問題是他還沒掛呢,我們?cè)趺粗浪?/p>
活多久呢?咋辦呢?要不再等個(gè)幾十年,等老王掛了,知道他的精確壽命了,咱們?cè)僮龇治觯?/p>
這怎么能行呢,萬(wàn)一,我先掛了怎么辦!誰(shuí)來做分析?所以,老王的壽命,這個(gè)Y到底應(yīng)
該怎么辦呢?我們對(duì)它不是一無所知,因?yàn)樗呀?jīng)虛度春秋60載了,所以,我們知道老王
的Y一定比60大。這是一個(gè)寶貴的信息,但是,大多少,我不知道。所以,在數(shù)據(jù)上我
們是怎么記錄這個(gè)事情呢?我們把Y記作60+,看到這個(gè)神奇的沒。只要一個(gè)數(shù)據(jù)后
面跟著一個(gè)“+”,這表明真實(shí)的數(shù)據(jù)比這個(gè)大,但是,大多少不知道。
這種數(shù)據(jù)叫什么?這種數(shù)據(jù)叫作CensoredData,中文被稱作截?cái)嗟臄?shù)據(jù)。
如果,咱們的生存數(shù)據(jù),沒有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作服選購(gòu)合同范本
- 長(zhǎng)期醫(yī)藥配送合同
- 幼兒園物資選購(gòu)協(xié)議范本
- 柴油購(gòu)銷合同范本示例
- 焊錫絲采購(gòu)合同簽訂后的履行
- 乳膠漆產(chǎn)品代理協(xié)議
- 地方特色月餅銷售合同
- 標(biāo)準(zhǔn)投資理財(cái)合同樣本
- 地址租賃協(xié)議
- 小學(xué)生科學(xué)繪本故事解讀
- 低血糖暈厥應(yīng)急演練預(yù)案
- 四川省成都市某中學(xué)2024-2025學(xué)年高一年級(jí)上冊(cè)11月期中考試 英語(yǔ)試卷(含答案)
- Unit 1 Making friends Part B(說課稿)-2024-2025學(xué)年人教PEP版(2024)英語(yǔ)三年級(jí)上冊(cè)
- 《涉江采芙蓉》 課件高中語(yǔ)文統(tǒng)編版必修上冊(cè)
- 2024年事業(yè)單位考試職業(yè)能力傾向測(cè)驗(yàn)試題與參考答案
- 保定學(xué)院《自然語(yǔ)言處理》2022-2023學(xué)年第一學(xué)期期末試卷
- 北京市西城區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期數(shù)學(xué)期末試卷(含答案)
- 2024年考研英語(yǔ)(二)真題及參考答案
- 2024年水稻種項(xiàng)目可行性研究報(bào)告
- 供應(yīng)商質(zhì)量管理培訓(xùn)課程
- 阿膠的課件教學(xué)課件
評(píng)論
0/150
提交評(píng)論