統(tǒng)計(jì)學(xué)習(xí)精要.docx

上傳人：q*** IP屬地：河南上傳時(shí)間：2020-04-11 格式：DOCX 頁(yè)數(shù)：13 大小：53.56KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記系列課程教材：The Elements of Statistical Learning/tibs/ElemStatLearn/授課人：復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院吳立德教授統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記（一）前兩天微博上轉(zhuǎn)出來(lái)的，復(fù)旦計(jì)算機(jī)學(xué)院的吳立德吳老師在開?統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)?這門課，還在張江.大牛的課怎能錯(cuò)過，果斷請(qǐng)假去蹭課.為了減輕心理壓力，還拉了一幫同事一起去聽，eBay浩浩蕩蕩的十幾人殺過去好不壯觀！總感覺我們的人有超過復(fù)旦本身學(xué)生的陣勢(shì)，五六十人的教室坐的滿滿當(dāng)當(dāng)，壯觀啊。這本書正好前陣子一直在看，所以才會(huì)屁顛屁顛的跑過去聽。確實(shí)是一本深入淺出講data mining models的好書。作者網(wǎng)站上提供免費(fèi)的電子版下載，爽！/tibs/ElemStatLearn/從這周開始，如無(wú)意外我會(huì)每周更新課堂筆記。另一方面，也會(huì)加上自己的一些理解和實(shí)際工作中的感悟。此外，對(duì)于data mining感興趣的，也可以去coursera聽課貌似這學(xué)期開的machine learning評(píng)價(jià)不錯(cuò)。我只在coursera上從眾選了一門 Model Thinking，相對(duì)來(lái)說比較簡(jiǎn)單，但是相當(dāng)?shù)膬?yōu)雅！若有時(shí)間會(huì)再寫寫這門課的上課感受。筆記我會(huì)盡量用全部中文，但只是盡量.-課堂筆記開始-第一次上課，主要是導(dǎo)論，介紹這個(gè)領(lǐng)域的關(guān)注興趣以及后續(xù)課程安排。對(duì)應(yīng)本書的第一章。1. 統(tǒng)計(jì)學(xué)習(xí)是？從數(shù)據(jù)中學(xué)習(xí)知識(shí)。簡(jiǎn)單地說，我們有一個(gè)想預(yù)測(cè)的結(jié)果(outcome)，記為Y，可能是離散的也可能是連續(xù)的。同時(shí)，還有一些觀察到的特征(feature)，記為X，X既可能是一維的也可能是多維的。對(duì)于每一個(gè)觀測(cè)個(gè)體，我們都會(huì)得到一個(gè)行向量(x1,.,xp)，對(duì)應(yīng)它的p個(gè)特征的觀測(cè)值，以及一個(gè)觀測(cè)到的結(jié)果值y。如果總共有N個(gè)個(gè)體，那么我們對(duì)于每個(gè)個(gè)體都會(huì)得到這些值，則有(y1,.,yn)T為觀測(cè)結(jié)果的列向量以及X (n*p)矩陣。這樣的數(shù)據(jù)稱之為訓(xùn)練數(shù)據(jù)集（training set）。這里更多是約定一些notation。2. 統(tǒng)計(jì)學(xué)習(xí)分類？一般說來(lái)，我們有個(gè)觀測(cè)到的結(jié)果Y，然后找到一個(gè)適合的模型根據(jù)X預(yù)測(cè)Y，這樣的稱之為有監(jiān)督的學(xué)習(xí)（supervised learning）。而有些時(shí)候，Y是無(wú)法觀測(cè)到的，那么只是通過X來(lái)學(xué)習(xí)，稱之為無(wú)監(jiān)督的學(xué)習(xí)（unsupervised learning）。這本書主要側(cè)重有監(jiān)督的學(xué)習(xí)。3. 回歸和分類器。這個(gè)主要和Y有關(guān)。如果Y為離散，比如紅黃藍(lán)不同顏色，則稱之為分類器（學(xué)習(xí)模型）；反之，若Y為連續(xù)，比如身高，則稱之為回歸（學(xué)習(xí)模型）。這里更多只是稱謂上的區(qū)別。4. 統(tǒng)計(jì)學(xué)習(xí)的任務(wù)？預(yù)測(cè)。通過什么來(lái)預(yù)測(cè)？學(xué)習(xí)模型（learning models）。按照什么來(lái)學(xué)習(xí)？需要一定的準(zhǔn)則，比如最小均方誤差MSE，適用于分類器的0-1準(zhǔn)則等?；谶@些準(zhǔn)則、優(yōu)化過的實(shí)現(xiàn)方法稱之為算法。5. 統(tǒng)計(jì)學(xué)習(xí)舉例？分類器：依據(jù)郵件發(fā)信人、內(nèi)容、標(biāo)題等判斷是否為垃圾郵件；回歸：前列腺特異抗原(PSA)水平與癌癥等因素的關(guān)系；圖形識(shí)別：手寫字母的識(shí)別；聚類：根據(jù)DNA序列判斷樣本的相似性，如親子鑒定。6. 課程安排順序？第二章，是對(duì)于有監(jiān)督的學(xué)習(xí)模型的概覽。第三章和第四章將討論線性回歸模型和線性分類器。第五章將討論廣義線性模型（GLM）。第六章涉及kernel方法和局部回歸。第七章是模型評(píng)價(jià)與選擇。第八章是測(cè)側(cè)重算法，比如最大似然估計(jì)，bootstrap等。本學(xué)期預(yù)計(jì)講到這里。所以后面的我就暫時(shí)不列出了。目測(cè)第二節(jié)開始將變得越來(lái)越難，前陣子自學(xué)第二章痛苦不已啊.一個(gè)LASSO就折磨了我好久。當(dāng)時(shí)的讀書筆記見：降維模型若干感悟-10.15補(bǔ)充-上周寫的時(shí)候只是憑著記憶，筆記沒在身邊。今天重新翻了翻當(dāng)時(shí)記下的課堂筆記，再補(bǔ)充一些吧。第九章是可加模型，即f(x1,.,xp)=f(x1)+.+f(xp)第十章是boosting模型第十一章討論神經(jīng)網(wǎng)絡(luò)第十二章討論支持向量機(jī) (Support Vector Machine)第十三章設(shè)計(jì)原型方法(Prototype)第十四章從有監(jiān)督的學(xué)習(xí)轉(zhuǎn)到無(wú)監(jiān)督的學(xué)習(xí)（即有X有Y-有X無(wú)Y）第十五章討論隨機(jī)森林模型（Random Forest）第十六章是集群學(xué)習(xí)第十七章結(jié)構(gòu)圖模型第十八章高維問題（我最近一直念叨的curse of dimensionality.今年搞笑諾貝爾獎(jiǎng)也多少與此有關(guān)，見/article/344117/，還有一篇相關(guān)的paper）ps. 吳老師對(duì)于隨機(jī)森林等等模型的評(píng)論也挺有意思的，大致是，大家都沒搞清隨機(jī)森林為什么效果這么好.而且這一類模型都是computatoinal intensive的，即有一個(gè)非常簡(jiǎn)單的idea然后借助大量的計(jì)算來(lái)實(shí)現(xiàn)。此外，這類方法更多有“猜”的感覺，無(wú)法知道來(lái)龍去脈，在現(xiàn)實(shí)中顯得不那么intuitive.（不像econometrics那般致力于causality呢）。統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記（二）繼續(xù)一周一次的課堂筆記:D昨天去晚了站著聽講，感覺好好啊，注意各種集中。想想整個(gè)教室里面就是我和老師是站著的，自豪感油然而生。第二次課講的東西依舊比較簡(jiǎn)單，是這本書第二章的前半部分。作為一個(gè)好久之前已經(jīng)預(yù)習(xí)過的孩子，我表示萬(wàn)分的得意（最小二乘法難道不是三四年前就學(xué)過的？話說以后我再面人的時(shí)候，就讓他推導(dǎo)最小二乘估計(jì)量，嘻嘻.考驗(yàn)一下基本功）。-原諒我的廢話，筆記開始-簡(jiǎn)單預(yù)測(cè)方法：最小二乘法（以下沿用計(jì)量經(jīng)濟(jì)學(xué)的習(xí)慣，簡(jiǎn)稱OLS）OLS實(shí)在是太普遍了，我就不贅述細(xì)節(jié)了。OLS的思想就是，基于已有的樣本信息，找出一條直線，讓預(yù)測(cè)值與真實(shí)值之間的殘差平方和最小，即n(yy)2最小。其中，y為真實(shí)的樣本觀測(cè)值（已有樣本），而y是OLS的預(yù)測(cè)值。用圖來(lái)講的話，X為一維向量的時(shí)候，就是用一條直線來(lái)最好的擬合各個(gè)樣本點(diǎn)。這里就很明顯了，首先OLS假設(shè)是一條直線。那么就是一個(gè)參數(shù)模型，即我們需要假設(shè)一個(gè)未知的參數(shù)，構(gòu)成一個(gè)線性方程y=x，然后再去估計(jì)的值。然后呢，直線會(huì)有很多條，所以我們要找到一個(gè)目標(biāo)比如這里，就是最小化殘差平方和RSS。換言之，我們尋找的就是最優(yōu)的向量使得RSS最小。解這個(gè)最優(yōu)化問題很簡(jiǎn)單，我就不重復(fù)了。最后解得的最優(yōu)估計(jì)量為：=(XX)1XY這里寫成矩陣形式，比較簡(jiǎn)單。X為一維向量的時(shí)候，可以改寫成形式，我個(gè)人不大喜歡，就不展開了。簡(jiǎn)單預(yù)測(cè)方法：K近鄰（k nearest neighbor）K近鄰的思想就更簡(jiǎn)單了。不就是想預(yù)測(cè)某個(gè)點(diǎn)x對(duì)應(yīng)的y么？那么就把它的鄰居都找來(lái)，平均一下好了。不是有句話叫做什么“一個(gè)人的收入就大概是他的圈子收入的平均值么？”所以y=mean(yi|xiNk(x)，這里Nk(x)表示點(diǎn)x的K近鄰。至于這個(gè)近鄰怎么定義嘛，嘻嘻，很簡(jiǎn)單啊，歐幾里德距離就可以嘛評(píng)語(yǔ)：吳老師對(duì)于這兩個(gè)算法的直觀評(píng)價(jià)是，OLS呢就是勤奮的學(xué)生，預(yù)測(cè)前先做足功課，預(yù)測(cè)的時(shí)候只要知道X，噼里啪啦一下子y就估計(jì)出來(lái)了。然而knn則是一個(gè)臨時(shí)抱佛腳的學(xué)生，預(yù)測(cè)的時(shí)候開始找自己的k近鄰，然后把它們平均一下就好了。哈哈，大意如此，大家可以體會(huì)一下這種精神。我個(gè)人感覺呢，OLS屬于以不變應(yīng)萬(wàn)變的，而knn則是見機(jī)行事的。統(tǒng)計(jì)決策理論(Statistical Decision Theory)說了這么多，這個(gè)模型好不好到底怎么判讀呢？凡事總得有個(gè)標(biāo)準(zhǔn)呢。這一系列的標(biāo)準(zhǔn)或者說準(zhǔn)則，就是統(tǒng)計(jì)決策理論了。首先呢，大致我們需要對(duì)X,Y有個(gè)分布上的描述：用P(X,Y)記作向量(X,Y)的聯(lián)合分布，然后p(X,Y)為其對(duì)應(yīng)的密度函數(shù)。之后為了估計(jì)Y，我們會(huì)有很多很多模型，即各種f(X)，而這些f(X)組成的函數(shù)空間記為F。然后我們定義一個(gè)損失函數(shù)，比如在均方誤差意義下，L(Y,f(X)=(Yf(X)2，這樣就有了一個(gè)選擇的標(biāo)準(zhǔn)使得損失函數(shù)的期望最?。篍PE(f)=E(Yf(X)2=yf(x)2P(dx,dy)。接下來(lái)就是，到底在F空間里面，哪一個(gè)f最符合這個(gè)標(biāo)準(zhǔn)呢？首先自然是把聯(lián)合分布變?yōu)闂l件分布。這個(gè)idea顯而易見我們總是知道X的（原諒我吧，全中文確實(shí)比較難寫，偶爾穿插英文一下 _）。所以conditional on X，我們就有了EPE(f)=yf(x)2P(dx,dy)=xyyf(x)2p(y|x)dyp(x)dx去解最小化問題，最終我們得到的就是在每個(gè)點(diǎn)X上，f(X)=E(y|X=x)。通俗的講就是，對(duì)于每個(gè)點(diǎn)預(yù)測(cè)，把和它X向量取值一樣的樣本點(diǎn)都找出來(lái)，然后取他們的平均值就可以了。很直觀的不是么？這里也有點(diǎn)最大似然的想法呢比如預(yù)測(cè)一個(gè)男孩的身高，最保險(xiǎn)的就是把和它同齡的其他男孩的身高平均一下，不是么？但是說來(lái)簡(jiǎn)單啊，很多時(shí)候P(X,Y)都是未知的，根本無(wú)法計(jì)算嘛。所以只能近似：回憶一下knn，就是放松了兩點(diǎn)：1)xk取的是x的近鄰，而不一定是x； 2)用樣本平均數(shù)代替了期望而OLS呢，也是最后在E()=E(XX)1XY這里，用樣本平均代替了期望。近似嘛，自然有好的近似和不好的近似。很顯然的，當(dāng)樣本比較大、尤其是比較密集的時(shí)候，x的鄰居應(yīng)該都離x很近，所以這個(gè)誤差可以減小；此外，當(dāng)樣本很大的時(shí)候，根據(jù)大數(shù)定律，平均數(shù)收斂于期望。所以，這兩種算法應(yīng)該說，都在大樣本下會(huì)有更好的效果。模型選擇、訓(xùn)練誤差與測(cè)試誤差、過擬合這里講的比較簡(jiǎn)單。模型選擇就是F的選擇，即選擇哪一類函數(shù)空間F，然后再其中找/估計(jì)最優(yōu)的f(X)。很顯然，如果只有若干個(gè)有限的樣本，我們總能把各個(gè)樣本用直線或者曲線依次連起來(lái)，這樣的話就有無(wú)數(shù)個(gè)f可以作為此問題的解。顯然這不是我們想要的這樣的稱為“不設(shè)定問題”，即可能無(wú)解、可能多個(gè)解、還可能因?yàn)橐稽c(diǎn)點(diǎn)X的變化導(dǎo)致整個(gè)解的解答變化。因此我們需要先設(shè)定一個(gè)解的類別。訓(xùn)練誤差：預(yù)測(cè)模型估計(jì)值與訓(xùn)練數(shù)據(jù)集之間的誤差。RSS就是一個(gè)典型的訓(xùn)練誤差組成的殘差平方和。測(cè)試誤差：用訓(xùn)練集以外的測(cè)試數(shù)據(jù)集帶來(lái)的誤差，顯然我們更關(guān)心的是測(cè)試誤差訓(xùn)練總能訓(xùn)練的很好，讓損失函數(shù)期望最小，然而測(cè)試集則不一定這樣。一般說來(lái)，測(cè)試誤差訓(xùn)練誤差。過擬合：選擇一個(gè)很復(fù)雜的f，使得訓(xùn)練誤差很小，而實(shí)際的測(cè)試誤差不一定小。最極端的就是剛才說的，把訓(xùn)練集的點(diǎn)一個(gè)個(gè)依次連起來(lái).訓(xùn)練誤差肯定是0是不是？我們關(guān)心的自然是怎么降低測(cè)試誤差。顯然這東西會(huì)跟訓(xùn)練誤差有關(guān)，但是它還跟f的復(fù)雜度有關(guān)。最最棘手的就是，f的復(fù)雜度是一個(gè)難以衡量的問題。早期的研究有用自由度來(lái)衡量這個(gè)復(fù)雜度的，但是也不是那么的靠譜.后面的有人鼓搗出來(lái)PAC(使得近似正確的概率最大吳老師原話)，還有一個(gè)VC來(lái)衡量復(fù)雜度但幾乎實(shí)踐中無(wú)法計(jì)算，沒幾個(gè)計(jì)算出來(lái)的。嗯，水很深哇。統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記（三）照例文章第一段跑題，先附上個(gè)段子（轉(zhuǎn)載的哦）：I hate CS people. They dont know linear algebra but want to teach projective geometry. They dont know any probability but want to use graphical models. They dont understand stats at all but still do machine learning like crazy.喵，最近被問了好幾次machine learning 和statistical learning的區(qū)別在哪里，我覺得大致如上吧。這也是為什么，對(duì)后面這個(gè)詞我的好感稍稍好于前面那個(gè)的原因.科學(xué)總是有意義的嘛，不能總是依靠強(qiáng)力亂猜是不是嘛。免責(zé)聲明：以下個(gè)人見解部分局限于我個(gè)人的見識(shí)和思考范圍，不適用于所有場(chǎng)景。請(qǐng)大家棄糟粕取精華，不可一言全信之。-筆記+隨想開始-高維空間問題這一段主要是說大名鼎鼎的維數(shù)災(zāi)難。我們都知道有兩個(gè)數(shù)字決定著OLS中X矩陣的大小，這就是觀測(cè)數(shù)目N 和觀測(cè)變量的個(gè)數(shù)p 。一般說來(lái)，我們都喜歡N比較大，這樣可以很容易的應(yīng)用大數(shù)定律什么的。然而對(duì)于p，卻是既愛又恨我們當(dāng)然喜歡可以觀察到個(gè)體的很多個(gè)特征，但是所謂亂花漸欲迷人眼，特征越多噪音也越多，搞不好預(yù)測(cè)的時(shí)候就會(huì)有麻煩（關(guān)于變量的選擇問題，應(yīng)該是下一節(jié)課的內(nèi)容。心急的可以先看看我以前的一篇自學(xué)筆記）。為什么維數(shù)增多的時(shí)候會(huì)麻煩呢？這里主要是隨著維數(shù)增多帶來(lái)的高維空間數(shù)據(jù)稀疏化問題。簡(jiǎn)單地說： p=1，則單位球(簡(jiǎn)化為正值的情況）變?yōu)橐粭l0,1之間的直線。如果我們有N個(gè)點(diǎn)，則在均勻分布的情況下，兩點(diǎn)之間的距離為1/N。其實(shí)平均分布和完全隨機(jī)分布的兩兩點(diǎn)之間平均距離這個(gè)概念大致是等價(jià)的，大家可稍微想象一下這個(gè)過程。 p=2，單位球則是邊長(zhǎng)為1的正方形，如果還是只有N個(gè)點(diǎn) ，則兩點(diǎn)之間的平均距離為1N。換言之，如果我們還想維持兩點(diǎn)之間平均距離為1/N，那么則需N2個(gè)點(diǎn)。以此類題，在p維空間，N個(gè)點(diǎn)兩兩之間的平均距離為N1/p，或者需要Np個(gè)點(diǎn)來(lái)維持1/N的平均距離。由此可見，高維空間使得數(shù)據(jù)變得更加稀疏。這里有一個(gè)重要的定理：N個(gè)點(diǎn)在p為單位球內(nèi)隨機(jī)分布，則隨著p的增大，這些點(diǎn)會(huì)越來(lái)越遠(yuǎn)離單位球的中心，轉(zhuǎn)而往外緣分散。這個(gè)定理源于各點(diǎn)距單位球中心距離的中間值計(jì)算公式：d(p,N)=(121/N)1/p當(dāng)p時(shí)，d(p,N)1。（很顯然，當(dāng)N變大時(shí)，這個(gè)距離趨近于0。直觀的理解就是，想象我們有一堆氣體分子，p變大使得空間變大，所以這些分子開始遠(yuǎn)離彼此；而N變大意味著有更多氣體分子進(jìn)來(lái)，所以兩兩之間難免更擠一些?？催^三體的，大概會(huì)覺得這個(gè)很熟悉的感覺吧.四維空間下的水滴再也不完美的無(wú)懈可擊，而一張一維的紙片就毀滅了整個(gè)地球呢。）這個(gè)距離公式的推導(dǎo)就暫時(shí)不寫了，好麻煩.大致是利用了各個(gè)點(diǎn)獨(dú)立同分布的特性（完全隨機(jī)情況下），把median距離變?yōu)橐?/2概率大于中位數(shù)的概率集合公式，再進(jìn)一步展開為單點(diǎn)距離累乘公式。比如當(dāng)p=10, N=500的時(shí)候，d(p,N)約為0.52，也就意味著有一半多的點(diǎn)離中心的距離大于1/2。高維問題為什么是問題呢？回顧一下K近鄰算法，我們用x的鄰居來(lái)代替x，這樣就希望他的鄰居們不要離他太遠(yuǎn)。顯然高維空間使得點(diǎn)和點(diǎn)之間越來(lái)越遠(yuǎn)。所以說，knn更適合小p大N即低維多觀測(cè)量的情況，而在高維空間下可能會(huì)變得很麻煩。這樣，statistical learning的主要兩個(gè)問題就總結(jié)完了：過擬合：為了控制預(yù)測(cè)誤差，我們要選擇適合的函數(shù)類。高維空間：隨著維數(shù)的增多，我們面臨著維數(shù)災(zāi)難。這對(duì)很多算法都有波及，主要體現(xiàn)在高維數(shù)據(jù)稀疏化?；貧w的線性方法這里主要是一些linear regression的東西，作為被計(jì)量經(jīng)濟(jì)學(xué)折磨了這么多年的孩子，我表示很淡定.此外還加上我們俗稱的generalized linear models，即GLM。一些線性變換而已，無(wú)傷大雅。這里一定要強(qiáng)調(diào)的是，在這里我們親愛的X居然不是隨機(jī)變量！多大的一個(gè)坑啊，我就華麗麗的掉下去了還問老師為什么無(wú)偏性不需要假設(shè)均值獨(dú)立什么的. X不是隨機(jī)變量意味著什么呢？X是人為設(shè)定或者決定的，比如我一天澆200 ml 或者500 ml水，然后看對(duì)于植物生長(zhǎng)的影響。當(dāng)時(shí)我真的是想一口老血噴出來(lái)，這也太舒服了吧！要知道大多數(shù)情況下X也是隨機(jī)變量哇，比如身高體重什么的。如果它不是隨機(jī)變量而只有擾動(dòng)項(xiàng)是獨(dú)立的隨機(jī)變量的話，整個(gè)計(jì)量經(jīng)濟(jì)學(xué)怕是要?jiǎng)h掉好多篇幅了呢。我想說的只有，這群搞statistical learning的好幸福.X不是隨機(jī)變量的時(shí)候，為了滿足無(wú)偏性的假設(shè)，只需要擾動(dòng)項(xiàng)不相關(guān)且期望方差存在就可以了。期望不為0不要緊，回歸的時(shí)候放進(jìn)去常數(shù)項(xiàng)就可以了。此外，對(duì)于任意一個(gè)正定陣W，我們都可以直接在回歸方程兩邊乘以W，從而=(XWWX)1XWY。也就是說，我們可以給X進(jìn)行加權(quán)處理，加權(quán)矩陣W之后可以進(jìn)行新的OLS估計(jì)，且可能會(huì)有對(duì)應(yīng)的優(yōu)良性質(zhì)。加權(quán)最小二乘法我就不在這里復(fù)習(xí)了，學(xué)過計(jì)量的應(yīng)該很熟悉，比如處理異方差什么的。再就是我們可以給加上一些約束條件，這樣的話最小化問題后面就可以簡(jiǎn)單的使用拉格朗日乘子法來(lái)解。這次的收獲之一就是OLS估計(jì)量的計(jì)算。在實(shí)踐中，我們計(jì)算OLS估計(jì)值并不是直接使用=(XX)1XY，而是會(huì)事先進(jìn)行QR分解（利用特征值來(lái)算）。即，我們把X分解為化為正交（酉）矩陣Q與實(shí)（復(fù)）上三角矩陣R的乘積。這樣一來(lái)，=(XX)1XY=(RQQR)1RQY=R1(QY)這樣可解R=QY，計(jì)算時(shí)候的穩(wěn)定性比直接求逆矩陣來(lái)的好很多，因?yàn)橛?jì)算機(jī)必竟有數(shù)字長(zhǎng)度的限制，各種位數(shù)帶來(lái)的精度損耗最后會(huì)累積到估計(jì)量上。最后就是高斯-馬爾科夫定理，就是我們常說的BLUE估計(jì)量。我就直接拷貝這個(gè)定理了：在誤差零均值，同方差，且互不相關(guān)的線性回歸模型中，回歸系數(shù)的最佳無(wú)偏線性估計(jì)（BLUE）就是最小方差估計(jì)。一般而言，任何回歸系數(shù)的線性組合的最佳無(wú)偏線性估計(jì)就是它的最小方差估計(jì)。在這個(gè)線性回歸模型中，誤差既不需要假定正態(tài)分布，也不需要假定獨(dú)立（但是需要不相關(guān)這個(gè)更弱的條件），還不需要假定同分布進(jìn)一步的，如果假設(shè)擾動(dòng)項(xiàng)服從正態(tài)分布，比如白噪聲，那么的估計(jì)值也服從正態(tài)分布，y的預(yù)測(cè)值也服從正態(tài)分布，因此可以直接做一系列基于正態(tài)分布的假設(shè)檢驗(yàn)。特別的，在大樣本情況下，就算擾動(dòng)項(xiàng)不是正態(tài)分布，我們也還是可以利用大數(shù)定律和中心極限定理.事實(shí)上一般也是這么做的。本節(jié)課到此結(jié)束。老師沒有一一推導(dǎo)無(wú)偏性最小方差這些性質(zhì)，我倒是覺得對(duì)回歸方法感興趣的還是直接去看計(jì)量經(jīng)濟(jì)學(xué)吧。這東西水還是蠻深的。統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記（四）照例繼續(xù)本周筆記。這次我沒啥廢話了.-筆記開始-投影矩陣與消滅矩陣首先是上次沒證的若干OLS性質(zhì)。基本都是公式。我就照抄原來(lái)econometrics做的筆記了。權(quán)當(dāng)復(fù)習(xí)了.對(duì)計(jì)量有興趣的、線性代數(shù)還不錯(cuò)的，建議去看Microeconometrics- Methods and Applications（?A. Colin Cameron / Pravin K. Trivedi ）。先定義兩個(gè)矩陣，這兩個(gè)矩陣會(huì)在某種程度上save your life while learning econometrics.投影矩陣和消滅矩陣。復(fù)習(xí)一下，OLS估計(jì)量是=(XX)1XY，然后對(duì)應(yīng)的Y估計(jì)量是Y=X=X(XX)1XY。所以，我們定義投影矩陣P為P=X(XX)1X，這樣就有了Y=PY。也就是說，我們對(duì)Y進(jìn)行了一次投影，然后得到了一個(gè)估計(jì)值。當(dāng)然定義投影矩陣并不僅僅是寫起來(lái)比那堆X簡(jiǎn)單，而是投影矩陣本身有著一系列良好的性質(zhì)。我們先來(lái)看把P投在X上會(huì)怎么樣。顯然，PX=X(XX)1XX=X，也就是說P不會(huì)改變X的值（本來(lái)就是把一個(gè)東西投到X上嘛自己投自己怎么會(huì)有變化的嘛）。然后呢，對(duì)P進(jìn)行轉(zhuǎn)置，則P=(X(XX)1X)=P，所以接下來(lái)P2=PP=X(XX)1XX(XX)1X=P。再定義消滅矩陣M。很簡(jiǎn)單，我們定義M為M=IP=IX(XX)1X，其中I為單位陣（對(duì)角線元素為1，其他為0）。這樣M又有什么性質(zhì)呢？顯然MY=(IP)Y=YY=，也就是說M對(duì)Y的效果是得到誤差項(xiàng)。而與此同時(shí)，M對(duì)于X的作用就是MX=(IP)X=XX=0，所以稱為消滅矩陣嘛。繼續(xù)，進(jìn)行轉(zhuǎn)置，則M=(IP)=IP=M，所以我們還有M2=MM=(IP)(IP)=IPP+P=IP=M。OLS估計(jì)值的方差再次友情提醒，X不是隨機(jī)變量，所以不要跟我糾結(jié)為什么沒有條件期望公式之類的東西.擾動(dòng)項(xiàng)服從N(0,)時(shí)，或者大樣本下，OLS估計(jì)量的方差為：Var()=E()()=E(XX)1X(XX)1X=(XX)1E()=s21(XX)1這里=s21為樣本方差，所以其分布為：N(,s21(XX)1)。這樣一來(lái)，就有了一個(gè)t檢驗(yàn)：t=0s21(XX)1tNK1。大樣本下，就直接用正態(tài)檢驗(yàn)好了。此外，如果我們進(jìn)一步的有更多的同時(shí)檢驗(yàn)的約束條件，那就是聯(lián)合檢驗(yàn)F。這個(gè)就不贅述了.高斯-馬爾可夫定理順便還證了一下高斯-馬爾可夫定理.這個(gè)不像OLS，每次我可記不住他的證明，每次都是現(xiàn)翻書.我就直接抄wiki了。選擇另外一個(gè)線性估計(jì)量=CY，然后C可以寫為(XX)1X+D，則D為k*n的非空矩陣。那么這個(gè)估計(jì)量的期望是：E(CY)=E(XX)1X+D)(X+)=(XX)1X+D)X+(XX)1X+D)E()0=(XX)1XX+DX=(Ik+DX).(1)(2)(3)(4)所以，為了保證無(wú)偏，則必有DX=0.繼續(xù)求方差：V()=V(CY)=CV(Y)C=2CC=2(XX)1X+D)(X(XX)1+D)=2(XX)1XX(XX)1+(XX)1XD+DX(XX)1+DD)=2(XX)1+2(XX)1(DX0)+2DX0(XX)1+2DD=2(XX)1V()+2DD.(5)(6)(7)(8)(9)DD是一個(gè)半正定矩陣，V()肯定要比V()大得證。變量選擇與收縮方法為了降低測(cè)試誤差（減少函數(shù)的復(fù)雜度），有時(shí)候會(huì)放棄無(wú)偏性而進(jìn)行變量選擇。這里首先就是Ridge OLS（嶺回歸）。還是算一下這個(gè)東西好了。嶺回歸就是對(duì)估計(jì)量另外加一個(gè)約束條件，所以很自然的想到拉格朗日乘子法。ridge regression的目標(biāo)函數(shù)為，=argmin(yy)2s.t.2k可以重寫為=argmin(yy)2+(2k)記L=(yy)2+(2k)這樣我們就得到兩個(gè)一階條件：L=X(XY)+=0和L=2k=0，所以有：=(XX+I)1XY這里還可以看出，的取值都是對(duì)應(yīng)k的。Lasso則是把L2改成L1，已經(jīng)沒有解析解了.至于為什么叫收縮方法，可以將X進(jìn)行奇異值分解，然后可以得出Yridge的方差將變小.我就不寫證明了，感覺這一塊兒講的也不是很透徹。統(tǒng)計(jì)學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記（五）鑒于我上周寫的筆記（四）讓很多人反映太枯燥、太無(wú)聊（全是公式.可是這就是筆記嘛，又不是寫科普文），我努力讓這周的筆記除了公式之外多一點(diǎn)直覺和應(yīng)用層面的點(diǎn)評(píng)。其實(shí)筆記（一）到（二）中說了很多回歸和分類器的不同了，那么在經(jīng)歷了線性回歸方法之后，就來(lái)說說分類器好了。我原來(lái)一直覺得回歸和分類器沒有什么本質(zhì)不同的.主要是最常用的分類器logit和probit都是我在學(xué)計(jì)量的時(shí)候?qū)W的，那個(gè)時(shí)候老師只是簡(jiǎn)單的說，這兩個(gè)和OLS都是一致的，只是我們想讓預(yù)測(cè)值在01之內(nèi)所以做一下變換。而且我們那個(gè)時(shí)候也不叫他們分類器，而是叫他們“離散被解釋變量模型”。前幾個(gè)月的時(shí)候，看data mining的東西，看得暈暈乎乎的，就跑去問精通此類模型的同事MJ，讓他跟我科普了一下午為什么這兩個(gè)模型大家更經(jīng)常稱之為分類器.汗顏啊，那個(gè)時(shí)候我才知道原來(lái)machine learning是先分supervised learning and unsupervised learning，然后才是 regression v.s. classification, and clustering.疏通了脈絡(luò)之后，再看The Elements of Statistical Learning這本書，就覺得順暢多了。以前只是零零散散的接觸一個(gè)個(gè)孤立的模型，沒有找出一個(gè)脈絡(luò)串起來(lái)過，自然也就不知道分別適用于什么場(chǎng)景。其實(shí)我挺想說的是，從econometrics到data mining，遠(yuǎn)遠(yuǎn)沒有想象的那么簡(jiǎn)單。數(shù)學(xué)工具上或許很順暢，但是思維上的轉(zhuǎn)變還是需要時(shí)間和實(shí)踐的。真是為難壞了我這個(gè)學(xué)經(jīng)濟(jì)學(xué)出身的孩子（其實(shí)話說回來(lái)，我好好的不去研究經(jīng)濟(jì)學(xué)，好奇什么data mining呀只能聊以一句“殊途同歸”來(lái)搪塞自己，對(duì)嘛，反正都是doctor of philosophy, 只要是科學(xué)，本質(zhì)的思考方式應(yīng)該是相通的）。不過搞清楚之后，還是覺得很好玩的以前是霧里看花，覺得什么都漂亮；現(xiàn)在漸漸的能夠分清楚這些美麗之間的差異了，也算是個(gè)小進(jìn)步吧。再有個(gè)小廢話.記得上小學(xué)的時(shí)候，老師問大家“長(zhǎng)大了想做什么呀？”，我們總是會(huì)特別有出息的回答“科學(xué)家”。那個(gè)時(shí)候有門課叫做自然，老師總給我們講各種各樣的發(fā)明，讓我們一度覺得這個(gè)世界上的問題都被解決完了，還當(dāng)什么科學(xué)家啊。然后老師就給我們講哥德巴赫猜想，大意是世間還有那么幾個(gè)懸而未決的皇冠問題，等待大家長(zhǎng)大了去攻克。后來(lái)，越讀書越發(fā)現(xiàn)，有那么多問題人們是不知道答案的，只是從 ambiguity - uncertainty - possibility - probability - certainty (law)一步步的走下去。有那么多問題，其實(shí)都是懸而未決的哲學(xué)問題，等待著聰明的大腦去回答。這也是越讀書越覺得興奮的緣故吧，越來(lái)越多的時(shí)候老師會(huì)被問倒，然后說“不知道”.然后好奇心就又開始勃勃生長(zhǎng).然后又發(fā)現(xiàn)更多的很好玩但沒有答案的問題.周而復(fù)始，有意思的很。-滿足大家的八卦之心之后，筆記開始-線性分類器對(duì)應(yīng)原書第四章。先是來(lái)一點(diǎn)直覺上的東西：分類器顧名思義，就是把一堆樣本歸到不同的類別中去。那么這類模型的幾何直覺是什么呢？很簡(jiǎn)單，空間分割嘛。最直白的，我們有一群人，組成了一個(gè)大的群體。然后現(xiàn)在要把大家歸為男女兩類，那么空間自然就是被分割為兩個(gè)子空間男和女了。線性分類器是什么呢？分割男和女的時(shí)候，可能分割是三個(gè)一群，五個(gè)一簇的，所以非要畫分割的界限的話，八成是山路十八彎的.我們以前說過，這類的模型問題就是可能復(fù)雜度比較高（比如參數(shù)的個(gè)數(shù)較多），導(dǎo)致就算訓(xùn)練誤差小，測(cè)試誤差不一定小。所以呢，我們希望這個(gè)分割界限是直線的（二維平面下）、或者平面的（三維空間中），或者超平面的（高位空間中），這樣就比較清晰明了的感覺了。線性分類器：logit模型（或稱logistic regression）這里也不完全是按照吳老師上課講的東西了，因?yàn)榛仡^再看這本書會(huì)發(fā)現(xiàn)書中還有一些很好玩的直覺很強(qiáng)的東西。錯(cuò)過不免可惜，一并收納。首先換一下記號(hào)我們?cè)谇懊娑加肶代表被解釋變量，從現(xiàn)在開始對(duì)于分類問題，我們改用G。logit模型下，考慮最簡(jiǎn)單的分為兩類，我們有Pr(G=1|X=x)=exp(X)1+exp(X)Pr(G=2|X=x)=11+exp(X)所以有l(wèi)ogPr(G=1|X=x)Pr(G=2|X=x)=X這樣，分別屬于這兩組之間的比例就可以找到一個(gè)線性的邊界了（注：log為單調(diào)變換不影響結(jié)果）。這樣變換的目的其實(shí)無(wú)非是，保證Pr(G=1|X=x)+Pr(G=2|X=x)=1，而且兩個(gè)比例之間存在著一種線性的、或者可以通過單調(diào)變換成為線性的關(guān)系。類似的當(dāng)然是大名鼎鼎的probit模型，思路是類似的。損失函數(shù)顯然線性分類器下，在有很多類的情況中，損失函數(shù)定義為OLS的殘差平方和是沒有多大意義的分類取值只是一個(gè)名義量。所以，這里用0-1損失函數(shù)：如果G=f(x)=G，那么損失函數(shù)=0；否則，就是沒預(yù)測(cè)準(zhǔn)，損失函數(shù)=1。寫為數(shù)學(xué)形式，就是損失函數(shù)L定義為：L(G,f(x)=01G=f(x)Gf(x)所以我們的目標(biāo)就是，最小化損失函數(shù)的期望：minE(L)=ExEG|x(L(G,f(x)|x)=1Pr(G|x)(條件期望迭代)。

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 金融證券

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)習(xí)精要.docx

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔