![智能金融 課件全套 張寧 第1-12章 交叉的目的是融合:導(dǎo)論 - 源源不斷的新思想_第1頁(yè)](http://file4.renrendoc.com/view8/M03/2A/3F/wKhkGWcQ9wiAHZtNAAHQTy1xiQ8929.jpg)
![智能金融 課件全套 張寧 第1-12章 交叉的目的是融合:導(dǎo)論 - 源源不斷的新思想_第2頁(yè)](http://file4.renrendoc.com/view8/M03/2A/3F/wKhkGWcQ9wiAHZtNAAHQTy1xiQ89292.jpg)
![智能金融 課件全套 張寧 第1-12章 交叉的目的是融合:導(dǎo)論 - 源源不斷的新思想_第3頁(yè)](http://file4.renrendoc.com/view8/M03/2A/3F/wKhkGWcQ9wiAHZtNAAHQTy1xiQ89293.jpg)
![智能金融 課件全套 張寧 第1-12章 交叉的目的是融合:導(dǎo)論 - 源源不斷的新思想_第4頁(yè)](http://file4.renrendoc.com/view8/M03/2A/3F/wKhkGWcQ9wiAHZtNAAHQTy1xiQ89294.jpg)
![智能金融 課件全套 張寧 第1-12章 交叉的目的是融合:導(dǎo)論 - 源源不斷的新思想_第5頁(yè)](http://file4.renrendoc.com/view8/M03/2A/3F/wKhkGWcQ9wiAHZtNAAHQTy1xiQ89295.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)與智能金融第一章
融合創(chuàng)造價(jià)值導(dǎo)論本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國(guó)人工智能的發(fā)展三人工智能與金融的結(jié)合:智能金融場(chǎng)景與價(jià)值四課程實(shí)踐環(huán)境五機(jī)器學(xué)習(xí)的概念人工智能的概念模式識(shí)別的概念概念辨析1.1
概念辨析對(duì)于某類(lèi)任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么我們稱(chēng)這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E中學(xué)習(xí)。<P,T,E>機(jī)器學(xué)習(xí)的含義與理解人工智能(Artificial
Intelligence):它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。1956年由約翰.麥卡錫首次提出,當(dāng)時(shí)的定義為“制造智能機(jī)器的科學(xué)與工程”。人工智能目的就是讓機(jī)器能夠像人一樣思考,讓機(jī)器擁有智能。Artificialintelligence(AI)istheabilityofthemachineorprogramtothink,learn,andmakedecisionsfromsimulatinghumanbehaviorand
experience.人工智能的含義與理解模式識(shí)別是人類(lèi)的一項(xiàng)基本智能。模式識(shí)別以圖像處理與計(jì)算機(jī)視覺(jué)、語(yǔ)音語(yǔ)言信息處理、腦網(wǎng)絡(luò)組、類(lèi)腦智能等為主要研究方向,研究人類(lèi)模式識(shí)別的機(jī)理以及有效的計(jì)算方法。所謂模式識(shí)別的問(wèn)題就是用計(jì)算的方法根據(jù)樣本的特征將樣本劃分到一定的類(lèi)別中去。模式識(shí)別的含義與理解人工智能是制造“智能”的“機(jī)器”。模式識(shí)別的目的是能夠最大程度實(shí)現(xiàn)“人類(lèi)智能”中的“模式識(shí)別”,把對(duì)應(yīng)“事務(wù)”劃分到特定“分類(lèi)中”,目前,它使用的主要手段是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是程序?qū)崿F(xiàn)人類(lèi)智能中的學(xué)習(xí)能力,借助經(jīng)驗(yàn)(數(shù)據(jù))不斷提升自己的“性能”。010203總結(jié)數(shù)據(jù)集、Data
set訓(xùn)練樣本(trainingdata),
測(cè)試樣本(testing
data),驗(yàn)證樣本(verifyingdata)樣本(sample)屬性/特征(attributes,feature),標(biāo)記(label)樣本空間、屬性空間、標(biāo)記空間任務(wù)(task)分類(lèi)(classification),回歸(regression)評(píng)價(jià),預(yù)測(cè)評(píng)估泛化,穩(wěn)健,效率1.2
機(jī)器學(xué)習(xí)基本概念課后練習(xí):查找、學(xué)習(xí)并理解如下概念精度,accuracy誤差,(模型輸出與樣本輸出差距),error訓(xùn)練誤差,trainingerror,empiricalerror泛化誤差,generalizationerror測(cè)試誤差,testing
error過(guò)擬合,overfitting欠擬合,underfitting查準(zhǔn)率,precision查全率
召回率,recall1.3
人工智能路徑和分類(lèi)給出了人工智能的定義:“人工智能是利用數(shù)字計(jì)算機(jī)或者由數(shù)字計(jì)算機(jī)控制的機(jī)器,模擬、延伸和擴(kuò)展人類(lèi)的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)和應(yīng)用系統(tǒng)?!币粫?shū)中將已有的人工智能分為了四類(lèi):像人一樣思考的系統(tǒng)、像人一樣行動(dòng)的系統(tǒng)、理性思考的系統(tǒng)、理性行動(dòng)的系統(tǒng);在達(dá)特矛斯會(huì)議(DARTMOUTHCONFERENCE)上提出:人工智能就是要讓機(jī)器的行為看起來(lái)就像是人所表現(xiàn)出的智能行為一樣;1956年,人工智能先驅(qū)約翰·麥卡錫(JOHNMCCARTHY)我國(guó)《人工智能標(biāo)準(zhǔn)化白皮書(shū)(2018年)》著名的人工智能教材《人工智能——一種現(xiàn)代方法》本課程定義英文縮寫(xiě)為AI,它是將智能以及依靠人的能力實(shí)現(xiàn)智能作為研究對(duì)象,是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)等的一門(mén)學(xué)科。人工智能(ArtificialIntelligence)總的說(shuō)來(lái)人工智能研究的一個(gè)主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類(lèi)智能才能完成的復(fù)雜工作。當(dāng)然,在不同的時(shí)代不同的人對(duì)這種“復(fù)雜工作”的理解是不同的。弱人工智能 強(qiáng)人工智能 超人工智能不同實(shí)現(xiàn)途徑(派系)結(jié)構(gòu)主義符號(hào)主義(Symbolism)統(tǒng)計(jì)主義行為主義仿真主義人工智能方法的分類(lèi)數(shù)據(jù)類(lèi)型視角數(shù)據(jù)標(biāo)注視角方法構(gòu)建邏輯的視角方法可解釋性視角本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國(guó)人工智能的發(fā)展三人工智能與金融的結(jié)合:智能金融場(chǎng)景與價(jià)值四課程實(shí)踐環(huán)境五故事:古代西周的偶人《列子·湯問(wèn)》偃師以假亂真、能歌善舞、千變?nèi)f化、善挑逗人偃師造人唯難于心唐代機(jī)器僧
楊務(wù)廉
杭州工匠《朝野僉載》唐張鷟故事:近代EnigmaBombe1950年,阿蘭·圖靈在那篇名垂青史的論文《計(jì)算機(jī)械與智力》的開(kāi)篇說(shuō):“我建議大家考慮這個(gè)問(wèn)題:‘機(jī)器能思考嗎?’”故事:現(xiàn)代,誕生與狂熱,達(dá)特茅斯會(huì)議1958年,H.
A.
Simon,Allen
Newell:“十年之內(nèi),數(shù)字計(jì)算機(jī)將成為國(guó)際象棋世界冠軍?!?、“十年之內(nèi),數(shù)字計(jì)算機(jī)將發(fā)現(xiàn)并證明一個(gè)重要的數(shù)學(xué)定理。”1965年,H.
A.
Simon:“二十年內(nèi),機(jī)器將能完成人能做到的一切工作?!?967年,Marvin
Minsky:“一代之內(nèi)……創(chuàng)造‘人工智能’的問(wèn)題將獲得實(shí)質(zhì)上的解決?!?970年,Marvin
Minsky:“在三到八年的時(shí)間里我們將得到一臺(tái)具有人類(lèi)平均智能的機(jī)器?!?956,新罕布什爾州,達(dá)特茅斯(Dartmouth)會(huì)議“首次”提出人工智能發(fā)展說(shuō)明:三者關(guān)系人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國(guó)人工智能的發(fā)展三人工智能與金融的結(jié)合:智能金融場(chǎng)景與價(jià)值四課程實(shí)踐環(huán)境五起步1978年3月1980年20世紀(jì)50年代-70年代全國(guó)科學(xué)大會(huì)在北京召開(kāi)。吳文俊院士提出的利用機(jī)器證明與發(fā)現(xiàn)幾何定理的新方法——幾何定理機(jī)器證明也獲得全國(guó)科學(xué)大會(huì)重大科技成果獎(jiǎng)。中國(guó)電子學(xué)會(huì)計(jì)算機(jī)學(xué)會(huì)(中國(guó)計(jì)算機(jī)學(xué)會(huì)的前身)在吉林大學(xué)組織召開(kāi)“計(jì)算機(jī)科學(xué)暑期討論會(huì)”,王湘浩院士負(fù)責(zé)組織,在此次會(huì)議中,人工智能成為主要討論方向。全體會(huì)議中報(bào)告的4名演講者分別是吳文俊、陸汝鈐、吳允增、張鳴華。起步1981年9月1982年1980年王湘浩在中國(guó)計(jì)算機(jī)學(xué)會(huì)下建立了人工智能學(xué)組并擔(dān)任組長(zhǎng)。中國(guó)人工智能學(xué)會(huì)(CAAI)在長(zhǎng)沙成立,秦元?jiǎng)桩?dāng)選第一任理事長(zhǎng)。中國(guó)人工智能學(xué)會(huì)刊物《人工智能學(xué)報(bào)》在長(zhǎng)沙創(chuàng)刊,成為國(guó)內(nèi)首份人工智能學(xué)術(shù)刊物。發(fā)展1985年1986年起1984年下半年全國(guó)智能計(jì)算機(jī)及其系統(tǒng)學(xué)術(shù)討論會(huì),重點(diǎn)研討人工智能相關(guān)主題。召開(kāi)了全國(guó)首屆第五代計(jì)算機(jī)學(xué)術(shù)研討會(huì)。把智能計(jì)算機(jī)系統(tǒng)、智能機(jī)器人和智能信息處理等重大項(xiàng)目列入國(guó)家高技術(shù)研究發(fā)展計(jì)劃,即著名的863計(jì)劃。1987年新的人工智能期刊《模式識(shí)別與人工智能》雜志創(chuàng)刊。1989年我國(guó)首次召開(kāi)了中國(guó)人工智能聯(lián)合會(huì)議(CJCAI)。發(fā)展2009年2022年9月13日2006年8月中國(guó)人工智能學(xué)會(huì)聯(lián)合其他學(xué)會(huì)和有關(guān)部門(mén),在北京舉辦了“慶祝人工智能學(xué)科誕生50周年”大型慶?;顒?dòng)。中國(guó)人工智能學(xué)會(huì)牽頭組織,向國(guó)家學(xué)位委員會(huì)和國(guó)家教育部提出設(shè)置“智能科學(xué)與技術(shù)”學(xué)位授權(quán)一級(jí)學(xué)科的建議。教育部發(fā)布《研究生教育學(xué)科專(zhuān)業(yè)目錄(2022年)》,智能科學(xué)與技術(shù)正式成為交叉學(xué)科門(mén)類(lèi)中的一級(jí)學(xué)科。人工智能最高獎(jiǎng)2011年1月6日,由中國(guó)人工智能學(xué)會(huì)發(fā)起,以吳文俊先生命名、依托社會(huì)力量捐資的“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”
經(jīng)國(guó)家科學(xué)技術(shù)部核準(zhǔn)、國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)工作辦公室(國(guó)科獎(jiǎng)社證字第0218號(hào))公告正式設(shè)立。被譽(yù)為“中國(guó)智能科學(xué)技術(shù)最高獎(jiǎng)”,代表人工智能領(lǐng)域的最高榮譽(yù)象征。政策中共中央政治局就人工智能發(fā)展現(xiàn)狀和趨勢(shì)舉行第九次集體學(xué)習(xí)。中共中央總書(shū)記習(xí)近平在主持學(xué)習(xí)時(shí)強(qiáng)調(diào),人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。為搶抓人工智能發(fā)展的重大戰(zhàn)略機(jī)遇,構(gòu)筑我國(guó)人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國(guó)家和世界科技強(qiáng)國(guó),國(guó)務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》。2017年7月2018年10月31日下午位置與對(duì)比本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國(guó)人工智能的發(fā)展三人工智能與金融的結(jié)合:智能金融場(chǎng)景與價(jià)值四課程實(shí)踐環(huán)境五技術(shù)視角人工智能技術(shù)機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺(jué)/圖像智能自然語(yǔ)言處理(NLP)/自然語(yǔ)言理解(NLU)知識(shí)圖譜與圖數(shù)據(jù)分析語(yǔ)音與時(shí)間序列因果智能強(qiáng)化學(xué)習(xí)AIGC等例子:AIGC例子:AIGC例子:AIGC例子:AIGC銀行業(yè)預(yù)測(cè)性分析業(yè)務(wù)自然語(yǔ)言理解計(jì)算機(jī)視覺(jué)保險(xiǎn)業(yè)智能核保理賠與反欺詐智能定損智能客服精準(zhǔn)定價(jià)信托業(yè)智能金融有助于加快形成個(gè)人畫(huà)像、企業(yè)畫(huà)像和產(chǎn)業(yè)畫(huà)像的數(shù)據(jù)基礎(chǔ)和建模能力,推動(dòng)依托“數(shù)據(jù)+科技”的大類(lèi)資產(chǎn)選擇、投融資、前中后臺(tái)的智能化管理能力建設(shè)。智能金融有助于精準(zhǔn)營(yíng)銷(xiāo)、精準(zhǔn)人群營(yíng)銷(xiāo)和服務(wù)生態(tài)圈建設(shè),加快推動(dòng)資金端由產(chǎn)品銷(xiāo)售向財(cái)富管理轉(zhuǎn)型。資金端的財(cái)富管理智能化資產(chǎn)端覆蓋范圍證券業(yè)智能財(cái)報(bào)核驗(yàn)、信息提取智能文檔審核、驗(yàn)證以及比對(duì)運(yùn)營(yíng)管理自動(dòng)化智能投研基金業(yè)細(xì)分用戶和預(yù)測(cè)模型估值業(yè)務(wù)流水化預(yù)警金融突發(fā)事件分析新聞與輿情案例與場(chǎng)景:投資分類(lèi)人類(lèi)量化投資程序人工智能平均收益8.9%7.6%16.3%風(fēng)險(xiǎn)控制能力8510051極端風(fēng)險(xiǎn)次數(shù)6/1003最大損失-13.7%-7.2%-18.1%偏好周期短期-中期短期中期-長(zhǎng)期大局觀8060100案例與場(chǎng)景:欺詐識(shí)別案例與場(chǎng)景:財(cái)務(wù)與管理團(tuán)隊(duì)案例案例與場(chǎng)景:健康及金融風(fēng)險(xiǎn)偏好領(lǐng)域:
醫(yī)學(xué),健康,運(yùn)動(dòng)等例如:
精準(zhǔn)推測(cè)客戶的需求智能金融價(jià)值智能金融是金融科技的一個(gè)階段,而金融科技是金融業(yè)的知識(shí)經(jīng)濟(jì),其價(jià)值路徑以及價(jià)值作用方式與知識(shí)經(jīng)濟(jì)相同。智能金融所產(chǎn)生的價(jià)值體現(xiàn)在數(shù)據(jù)的作用、信用的作用以及風(fēng)險(xiǎn)的作用上,通過(guò)這些要素的智能化,智能金融將在宏觀、中觀以及微觀層面產(chǎn)生價(jià)值。按照知識(shí)經(jīng)濟(jì)框架根據(jù)定義提升金融行業(yè)效率加速普惠金融發(fā)展促進(jìn)金融體系健康提升個(gè)人金融服務(wù)幸福感助力監(jiān)管本講主要內(nèi)容基礎(chǔ)概念的理解一人工智能的歷史與發(fā)展二中國(guó)人工智能的發(fā)展三人工智能與金融的結(jié)合:智能金融場(chǎng)景與價(jià)值四課程實(shí)踐環(huán)境五實(shí)踐建議環(huán)境案例及示范代碼的編程語(yǔ)言:Python常用的機(jī)器學(xué)習(xí)庫(kù):Scikit-learn(sk-learn)常用的人工智能庫(kù):Tensorflow(keras)
或
pyTorch使用的算力:CPU或者GPU使用的數(shù)據(jù)說(shuō)明:框架與標(biāo)準(zhǔn)化說(shuō)明:移動(dòng)端深度學(xué)習(xí)推理框架TF-Lite(Google)TensorRT(Nvidia)CoreML(Apple)OpenVINO(Intel)MNN(Alibaba)NCNN(Tencent)THANKS謝 謝 聆 聽(tīng)機(jī)器學(xué)習(xí)與智能金融第二講
經(jīng)典而永恒線性方法主講人:張欣然學(xué)校:中央財(cái)經(jīng)大學(xué)回歸類(lèi)分析方法及其運(yùn)用場(chǎng)景概述一本講內(nèi)容回歸模型的選擇、正則化與降維二多元定性響應(yīng)變量的回歸模型三回歸類(lèi)分析方法在金融領(lǐng)域的運(yùn)用四回歸類(lèi)分析方法及其運(yùn)用場(chǎng)景概述01回歸分析(Regression
Analysis):確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸模型的一般形式:回歸分析的定義y??=??????,
????;
?? (1)腳標(biāo)??∈??={1,2,…,??}表示第i個(gè)個(gè)體或觀測(cè)響應(yīng)變量y??特征變量????′=(1,????,2,…,????,??)參數(shù)向量??=(??1,??2,…,????)誤差項(xiàng)????回歸模型依賴于函數(shù)的形式??(?)和參數(shù)??的大小回歸分析的分類(lèi)分類(lèi)標(biāo)準(zhǔn)類(lèi)別特征變量的個(gè)數(shù)一元回歸模型、多元回歸模型特征變量與響應(yīng)變量的關(guān)系線性回歸模型、非線性回歸模型回歸方程的個(gè)數(shù)單方程回歸模型、聯(lián)立方程回歸模型數(shù)據(jù)類(lèi)型的特點(diǎn)橫截面模型、時(shí)間序列模型、面板模型多元線性回歸模型(Multiple
Linear
Regression
Model)多元線性回歸模型回顧????=??1????1+??2????2+?+??????????+????,(??=1,…
,
??) (2)??=(??1,??2,…,????)′為待估計(jì)的未知參數(shù),回歸系數(shù)如果方程(2)中有常數(shù)項(xiàng)(即截距項(xiàng)),則通常令第
1
個(gè)變量恒等于
1,即????1=1,
???該回歸模型也可表示為矩陣形式(更常用)′ ′其中??=(??1,??2,…,????)′,X=(??1′,??2′,…,???? )′,
??=(??1,??2,…,????)Y=X??
+?? (3)多元線性回歸模型回顧????=1最小二乘法(OLS)估計(jì)多元線性回歸的參數(shù)向量??OLS原理:找到使得模型殘差平方和最小的參數(shù)向量???????????????
=
??????
??????
?
????
?
??′??
2
(4)估計(jì)量的性質(zhì)小樣本:在經(jīng)典線性回歸假設(shè)下,
?????????具有無(wú)偏性和有效性大樣本:在大數(shù)定律和中心極限定理保證下,
?????????還具有一致性和漸進(jìn)正態(tài)性擬合優(yōu)度??2
或者調(diào)整??2為比較所含解釋變量個(gè)數(shù)不同的多元回歸模型的擬合優(yōu)度,還可使用赤池信息準(zhǔn)則(AIC)、貝葉斯信息準(zhǔn)則(BIC)和施瓦茨準(zhǔn)則(SC)多元線性回歸模型回顧最小二乘法(OLS)估計(jì)多元線性回歸的參數(shù)向量??一元線性回歸殘差:e??
≡
????
????
?
???????殘差平方和:σ?? ??2
=
σ?? (????????
?
???????)2i=1 ?? ??=1最小二乘法就是選擇???,
???,使得殘差平方和最小化???,???i=1????min?
??2=???=1??(????????
????????)2多元線性回歸模型回顧最小二乘法(OLS)估計(jì)多元線性回歸的參數(shù)向量??二元線性回歸最小化問(wèn)題的一階條件:如果(??′
??)可逆(數(shù)據(jù)矩陣X滿列秩,rank(X)=p),則:???
≡??′??
?????′???????=1????min
? ??2=??′??=(????????)′(????????)=??′???2??′?????+???′??′????????(??′???2??′?????+???′??′?????)????=?2??′??+2??′?????=
0??′?????
=??′??多元線性回歸模型回顧最小二乘法(OLS)估計(jì)多元線性回歸的參數(shù)向量??如果數(shù)據(jù)矩陣X不滿列秩,則存在嚴(yán)格多重共線性
,????????(??)≤??<??
(矩陣X的秩小于或等于其行數(shù)n),此時(shí)不存在(??′
??)?1,OLS沒(méi)有唯一解OLS一般不適用高維數(shù)據(jù),其變量個(gè)數(shù)大于樣本容量,即??>??。須進(jìn)行“正則化”處理,即在損失函數(shù)中加入“懲罰項(xiàng)”,進(jìn)行“懲罰回歸”回歸分析:計(jì)量經(jīng)濟(jì)學(xué)
vs 機(jī)器學(xué)習(xí)領(lǐng)域計(jì)量經(jīng)濟(jì)學(xué)重視統(tǒng)計(jì)推斷(包括參數(shù)的點(diǎn)估計(jì)、區(qū)間估計(jì)以及假設(shè)檢驗(yàn))尤其重視如何借助回歸模型推斷變量之間的因果關(guān)系機(jī)器學(xué)習(xí)更重視模型的預(yù)測(cè)準(zhǔn)確率(accuracy)和解釋力(interpretation)預(yù)測(cè)準(zhǔn)確率指在訓(xùn)練集上得到的回歸模型在測(cè)試集上的預(yù)測(cè)表現(xiàn)模型解釋力指回歸系數(shù)能否直觀簡(jiǎn)潔描繪特征變量對(duì)響應(yīng)變量的影響回歸分析在金融領(lǐng)域的應(yīng)用場(chǎng)景實(shí)現(xiàn)對(duì)不同類(lèi)型客戶的精準(zhǔn)營(yíng)銷(xiāo)用戶畫(huà)像與精準(zhǔn)營(yíng)銷(xiāo)多分類(lèi)Logistic回歸模型量化投資,預(yù)測(cè)未來(lái)資產(chǎn)價(jià)格和收益率價(jià)格與收益率預(yù)測(cè)采用系數(shù)壓縮、變量篩選等方法對(duì)回歸模型改進(jìn)信用風(fēng)險(xiǎn),市場(chǎng)風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)、流動(dòng)性風(fēng)險(xiǎn)、管理風(fēng)險(xiǎn)等風(fēng)險(xiǎn)評(píng)估與識(shí)別二分類(lèi)Logistic
/
Probit回歸模型,Cox比例風(fēng)險(xiǎn)回歸模型回歸模型的選擇、正則化與降維02選擇回歸模型的動(dòng)機(jī)1、多重共線性完全多重共線性導(dǎo)致OLS方法的失效,無(wú)法得到唯一的參數(shù)估計(jì)不完全的多重共線性雖然不會(huì)對(duì)參數(shù)估計(jì)的無(wú)偏性產(chǎn)生影響,但其有效性會(huì)大大減弱,即參數(shù)估計(jì)的方差會(huì)變得很大選擇回歸模型的動(dòng)機(jī)1、多重共線性檢驗(yàn)多重共線性簡(jiǎn)單方法是看特征變量的相關(guān)系數(shù)矩陣:如果該矩陣中有絕對(duì)值較大的數(shù)字,說(shuō)明該對(duì)特征變量之間存在較強(qiáng)的線性相關(guān)性更嚴(yán)格的檢測(cè)方法為方差膨脹因子(variance
inflation
factor)檢驗(yàn),也稱(chēng)VIF檢驗(yàn)。依照經(jīng)驗(yàn)而言,當(dāng)VIF值超過(guò)5或者10時(shí)就表明模型有比較嚴(yán)重的共線性問(wèn)題當(dāng)模型具有這類(lèi)問(wèn)題時(shí),我們有必要對(duì)特征變量進(jìn)行篩選和剔除選擇回歸模型的動(dòng)機(jī)2、過(guò)擬合問(wèn)題過(guò)擬合:模型對(duì)訓(xùn)練集的擬合程度比對(duì)真實(shí)總體的擬合程度更好,導(dǎo)致該模型在預(yù)測(cè)集上表現(xiàn)較差選擇回歸模型的動(dòng)機(jī)2、過(guò)擬合問(wèn)題過(guò)擬合體現(xiàn)在兩個(gè)方面:引入過(guò)多無(wú)關(guān)特征變量引入過(guò)多特征變量的高次項(xiàng)(因而模型高度非線性化)因此,為了避免過(guò)擬合問(wèn)題所導(dǎo)致的預(yù)測(cè)能力降低,模型形式的設(shè)定(線性/非線性)和特征變量的選擇就顯得尤其重要選擇回歸模型的動(dòng)機(jī)尤其是當(dāng)特征變量的個(gè)數(shù)大于觀測(cè)數(shù)時(shí)(p>n),回歸分析將得不到唯一的參數(shù)估計(jì)即使p<n時(shí),特征變量具有過(guò)高的維數(shù)也會(huì)導(dǎo)致多重共線性與過(guò)擬合問(wèn)題的出現(xiàn),進(jìn)而大大削弱回歸系數(shù)的解釋力與模型的預(yù)測(cè)能力3、維數(shù)災(zāi)難交叉檢驗(yàn)法為了解決上述問(wèn)題帶來(lái)的困擾,必須對(duì)回歸模型進(jìn)行選擇或約束(也即對(duì)特征變量進(jìn)行選擇或約束),然后在不同模型之間進(jìn)行比較,進(jìn)而選出最優(yōu)的模型。雖然這些指標(biāo)均可用于最優(yōu)模型的選擇,但它們都對(duì)訓(xùn)練集和預(yù)測(cè)集的變化比較敏感。一旦換一組訓(xùn)練集樣本,可能會(huì)得到完全不同的模型調(diào)整R2、AIC準(zhǔn)則、BIC準(zhǔn)則等以及ROC曲線、AUC指標(biāo)等,還有模型在預(yù)測(cè)集上的均方誤差(即Mean-Square
Error,MSE)模型評(píng)價(jià)指標(biāo)問(wèn)題交叉檢驗(yàn)法k折交叉檢驗(yàn)法(k-fold
cross-validation,簡(jiǎn)記CV)選擇最優(yōu)模型對(duì)訓(xùn)練集進(jìn)行(同一)回歸模型的擬合,然后用該模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并計(jì)算測(cè)試集上的均方誤差。將總觀測(cè)集隨機(jī)地分為k個(gè)樣本數(shù)量基本一致的折(fold),找其中一折作為預(yù)測(cè)集,剩下的作為訓(xùn)練集。第一步第二步選擇另一折作為測(cè)試集,重復(fù)第一步和第二步,直到所有折都曾作過(guò)測(cè)試集(即重復(fù)k次)。第三步交叉檢驗(yàn)法k折交叉檢驗(yàn)法(k-fold
cross-validation,簡(jiǎn)記CV)選擇最優(yōu)模型k折交叉檢驗(yàn)法的平均均方誤差:???? ??=1???? =1
σ??????????(20)當(dāng)折數(shù)k等于觀測(cè)樣本總數(shù)量n時(shí),為留一交叉檢驗(yàn)法(leave-one-out CV)在如何選擇折數(shù)k的問(wèn)題上,需要考慮“偏差—方差”的權(quán)衡。一般而言,留一交叉檢驗(yàn)法的方差要比k折交叉檢驗(yàn)法(k<N)的方差更大。從經(jīng)驗(yàn)上講,選擇k=5或是k=10比較合適的(N>>10)交叉檢驗(yàn)法k折交叉檢驗(yàn)法(k-fold
cross-validation,簡(jiǎn)記CV)選擇最優(yōu)模型對(duì)不同回歸模型進(jìn)行交叉檢驗(yàn)后,我們會(huì)得到關(guān)于不同模型的CV值,這些值可以構(gòu)成測(cè)試誤差估計(jì)值曲線例子:假設(shè)現(xiàn)在我們考慮回歸模型中特征變量個(gè)數(shù)的選擇問(wèn)題(也即“不同回歸模型”是指“包含特征變量數(shù)不同的回歸模型”)方法1:子集選擇的回歸模型回歸模型選擇中一個(gè)直觀的想法是對(duì)特征變量的集合進(jìn)行篩選,篩選出合適的特征變量子集來(lái)構(gòu)建回歸模型。這類(lèi)模型統(tǒng)稱(chēng)為子集選擇的回歸模型(subsetselectionregression
model)最優(yōu)子集選擇模型向前逐步選擇模型向后逐步選擇模型方法1:子集選擇的回歸模型① 這種方法簡(jiǎn)單直觀,但計(jì)算效率低需檢索模型數(shù)量隨特征變量個(gè)數(shù)的增加而迅速增加② 該方法也只適用于樣本量N>K的情況一旦特征變量個(gè)數(shù)超過(guò)樣本量,方法失效1、最優(yōu)子集選擇模型最優(yōu)子集選擇模型是對(duì)個(gè)特征變量的所有可能組合分別進(jìn)行回歸擬合,其算法步驟如下表:這種方法需要檢索的回歸模型的總個(gè)數(shù)為:方法1:子集選擇的回歸模型優(yōu)勢(shì)在于計(jì)算量要遠(yuǎn)小于最優(yōu)子集選擇模型② 但是仍需要保證特征變量個(gè)數(shù)小于樣本量(即N>K),否則模型將無(wú)法進(jìn)行參數(shù)估計(jì)2、向后逐步選擇模型原理:以包含全部特征變量的回歸模型(又稱(chēng)全模型????)作為起點(diǎn),逐次疊代,每次都剔除一個(gè)對(duì)模型結(jié)果最不利的變量,最后得到最優(yōu)回歸模型。其算法步驟見(jiàn)下表:① 這種方法需要檢索的回歸模型的總個(gè)數(shù)為:方法1:子集選擇的回歸模型3、向前逐步選擇模型原理:以不包含任何特征變量的回歸模型(又稱(chēng)零模型??0)作為起點(diǎn),逐次往模型中添加特征變量,直至所有的變量均被納入回歸模型。其算法步驟見(jiàn)下表:①
這種方法需要檢索的模型個(gè)數(shù)與向后逐步選擇模型相同因此其計(jì)算量也要遠(yuǎn)遠(yuǎn)小于最優(yōu)子集選擇模型② 這種方法也適用于樣本量小于特征變量數(shù)的情況,即N<K,因此它要優(yōu)于向后逐步選擇模型。具體而言,當(dāng)出現(xiàn)N<K的情況時(shí),該算法會(huì)在回歸模型特征變量數(shù)等于N的時(shí)候停止,然后從備選模型中進(jìn)行挑選。方法2:回歸模型的正則化嶺回歸(ridge
regression)套索回歸(lasso
regression)彈性網(wǎng)絡(luò)回歸(elastic-net
regression)另一類(lèi)解決維數(shù)災(zāi)難(以及可能衍生的多重共線性和過(guò)擬合問(wèn)題)的回歸方法統(tǒng)稱(chēng)為正則化回歸(regression
with
regularization)或者壓縮估計(jì)方法(shrinkagemethod)這類(lèi)方法的原理是在回歸分析的RSS目標(biāo)函數(shù)基礎(chǔ)上增加懲罰項(xiàng)方法2:回歸模型的正則化矩陣??′??幾乎不可逆,導(dǎo)致(??′??)?1變得很大,使得OLS的估計(jì)量?????????≡ ??′??
?1??′??的方差也很大在矩陣??′??的主對(duì)角線上都加上某個(gè)常數(shù)??>0,以緩解多重共線性,使得所有矩陣(??′??
+
????)變得“正?!睅X回歸的估計(jì)量為:嶺回歸是在OLS表達(dá)式中加入“山嶺”????而得名?????????????≡ ??′??+
?????1??′??1、嶺回歸嶺回歸(Ridge
Regression)出發(fā)點(diǎn)正是為了解決多重共線性方法2:回歸模型的正則化其中,約束條件還可以寫(xiě)為??22≤??,
??2表示向量??的L2范數(shù)(L2-norm)??=1????????
? ???????0?
?????=1???1????,??????2(19)??.
??. ???=1???1????2≤
??(20)1、嶺回歸嶺回歸方法是將OLS無(wú)約束最優(yōu)化問(wèn)題轉(zhuǎn)化為如下有約束的最優(yōu)化問(wèn)題:方法2:回歸模型的正則化????=1????????
????1???????0?
???=1????,??????2+
?? ??22(21)該式的第一項(xiàng)是RSS,第二項(xiàng)是??2懲罰項(xiàng)(penalty
term),調(diào)節(jié)參數(shù)??被稱(chēng)為壓縮參數(shù)(shrinkageparameter)由于嶺回歸的目標(biāo)函數(shù)會(huì)對(duì)過(guò)大的參數(shù)施以很大的懲罰,所以嶺回歸的參數(shù)估計(jì)也被稱(chēng)作壓縮估計(jì)量。1、嶺回歸如果將上述問(wèn)題的拉格朗日方程列出,嶺回歸的目標(biāo)函數(shù)還可以等價(jià)地寫(xiě)成:方法2:回歸模型的正則化嶺回歸的幾何意義:在嶺回歸中,RSS函數(shù)的等高線會(huì)與懲罰約束所代表的球形等高線相切(大概率情況下二者不會(huì)切于坐標(biāo)軸),進(jìn)而使得OLS估計(jì)量收縮至嶺回歸估計(jì)量。1、嶺回歸方法2:回歸模型的正則化?????????????= ??′??
?
????
?1??′?? (22)嶺回歸估計(jì)量在小樣本下是有偏估計(jì)量(因?yàn)镺LS估計(jì)量在一定假設(shè)下是無(wú)偏估計(jì)量),但是它使得參數(shù)估計(jì)的方差大大縮小。然而,由于嶺回歸中很難將參數(shù)估計(jì)嚴(yán)格限制到0,因此這個(gè)方法并不能起到篩選變量的目的。在高維問(wèn)題中,嶺回歸仍不是最優(yōu)選擇。1、嶺回歸嶺回歸的參數(shù)估計(jì)性質(zhì)通過(guò)目標(biāo)函數(shù)的一階條件可以求解嶺回歸的參數(shù)估計(jì)滿足下式:方法2:回歸模型的正則化2、套索回歸在進(jìn)行高維回歸時(shí),希望從大量的特征變量中,篩選出真正對(duì)y有影響的少數(shù)變量。例如,從2萬(wàn)個(gè)基因中,找到真正影響疾病的少數(shù)基因。希望真實(shí)模型(true
model),或數(shù)據(jù)生成過(guò)程(data
generating
process),為稀疏模型(sparse
model):即需要一個(gè)估計(jì)量,能挑選出那些真正有影響的(基因)變量,而使其他無(wú)影響或影響微弱的(基因)變量的回歸系數(shù)變?yōu)?。方法2:回歸模型的正則化其中,約束條件還可以寫(xiě)為
??1≤??
,??
1表示向量的L1范數(shù)(L1-norm)????=1????????
????1???????0?
???=1????,??????2(23)??.
??. ???=1???1???? ≤
??(24)2、套索回歸與嶺回歸類(lèi)似,套索回歸下的約束最優(yōu)化問(wèn)題為:方法2:回歸模型的正則化同樣,套索回歸的目標(biāo)函數(shù)還可以寫(xiě)成:該式的第一項(xiàng)仍是RSS,第二項(xiàng)是L1懲罰項(xiàng)??????
?????=1?????????0?
???=1???1????,??????2+
?? ??1(25)2、套索回歸方法2:回歸模型的正則化套索回歸幾何意義:套索回歸中RSS的等高線與約束條件的八面體等高線很容易相切于坐標(biāo)軸。這樣一來(lái),某一個(gè)特征變量的參數(shù)就會(huì)完全變成0,進(jìn)而達(dá)到篩選變量的目的。2、套索回歸方法2:回歸模型的正則化2、套索回歸由于Lasso的約束集為帶尖角的菱形(而菱形的頂點(diǎn)恰好在坐標(biāo)軸上),故等值線較易與約束集相切于坐標(biāo)軸的位置,導(dǎo)致
Lasso
估計(jì)量的某些回歸系數(shù)嚴(yán)格等于0,從而得到“稀疏解”(sparse
solution)Lasso的這種獨(dú)特性質(zhì),使得它具備“篩選變量”(variable
selection)的功能由于Lasso為“絕對(duì)值收縮”
(absolute
shrinkage),故合稱(chēng)為“最小絕對(duì)值收縮與篩選算子”
(least
absolute
shrinkage
and
selection
operator),簡(jiǎn)記LASSO。在英文中,Lasso一詞的原意為“套索”方法2:回歸模型的正則化2、套索回歸Lasso與嶺回歸孰優(yōu)孰劣?從預(yù)測(cè)的角度,如果真實(shí)模型(或數(shù)據(jù)生成過(guò)程)確實(shí)是稀疏的,則Lasso一般更優(yōu)。但如果真實(shí)模型并不稀疏,則嶺回歸的預(yù)測(cè)效果可能優(yōu)于
Lasso。在實(shí)踐中,
一般并不知道模型是否稀疏,
可用“交叉驗(yàn)證”(cross-validation)進(jìn)行選擇。從模型易于解釋(interpretability)的角度,則Lasso顯然是贏家,因?yàn)閹X回歸一般只是收縮回歸系數(shù),并不具備變量篩選的功能方法2:回歸模型的正則化′min
??
?
???? ??
?
???? +
??1
??
1
+
??2
????22其中,??1≥
0與??2
≥
0都是調(diào)節(jié)參數(shù)3、彈性網(wǎng)絡(luò)回歸Lasso雖然具有篩選變量的功能,但此功能并不完美幾個(gè)變量高度相關(guān),Lasso可能隨意選擇其中一個(gè)彈性網(wǎng)(Elastic
Net)估計(jì)量將Lasso與嶺回歸相結(jié)合,同時(shí)包含??1與??2懲罰項(xiàng)方法2:回歸模型的正則化??′min
??
?
???? ??
?
???? +
??[??
??
1
+ 1
?
?? ??22]其中,??≥0與0≤??≤1為調(diào)節(jié)參數(shù)由于調(diào)節(jié)參數(shù)??的取值局限于區(qū)間[0,1],故便于通過(guò)交叉驗(yàn)證選擇其最優(yōu)值如果??=0,則彈性網(wǎng)退化為嶺回歸如果??=1,則彈性網(wǎng)退化為L(zhǎng)asso如果0<??<1,則彈性網(wǎng)為嶺回歸與Lasso之間折衷3、彈性網(wǎng)絡(luò)回歸由于??1與????的取值范圍均為無(wú)窮,不便于使用交叉驗(yàn)證選擇其最優(yōu)值。定義??≡??1+??2,??≡??1/??,可以將損失函數(shù)寫(xiě)為:方法2:回歸模型的正則化′min??
?
???? ???
??????2??.
??.
?? ??
1
+ 1
?
?? ?? 2≤
??其中,??≥0為調(diào)節(jié)參數(shù)仍以二元回歸為例,展示幾何解釋
??=(??1,??2)′則彈性網(wǎng)估計(jì)量的約束集為:?? ??1 +
??2 + 1
?
?? ??2
+
??2 ≤
??1 23、彈性網(wǎng)絡(luò)回歸可等價(jià)寫(xiě)為以下約束極值問(wèn)題方法2:回歸模型的正則化彈性網(wǎng)(??=0.5),Lasso及嶺回歸的約束集3、彈性網(wǎng)絡(luò)回歸方法2:回歸模型的正則化3、彈性網(wǎng)絡(luò)回歸彈性網(wǎng)的約束集介于Lasso與嶺回歸約束集之間與Lasso類(lèi)似,彈性網(wǎng)的約束集也在坐標(biāo)軸上有四個(gè)尖角,故彈性網(wǎng)也具有篩選變量的功能與嶺回歸的圓形約束集類(lèi)似,彈性網(wǎng)的約束集在四個(gè)象限也呈弧形,故彈性網(wǎng)具有類(lèi)似于嶺回歸的收縮參數(shù)之功能優(yōu)勢(shì):當(dāng)若干特征變量之間高度相關(guān)時(shí),彈性網(wǎng)傾向于將這些高度相關(guān)的變量都選上彈性網(wǎng)可通過(guò)交叉驗(yàn)證選擇最優(yōu)的調(diào)節(jié)參數(shù)??,其預(yù)測(cè)能力不差于前二者方法3:降維回歸方法在處理高維問(wèn)題時(shí),我們還可以對(duì)特征變量進(jìn)行降維在回歸分析中,主成分分析的思想仍可以得到應(yīng)用本小節(jié)介紹兩種常見(jiàn)方法:主成分回歸(principal
component
regression,簡(jiǎn)稱(chēng)PCR)與偏最小二乘法(partial
least
square,簡(jiǎn)稱(chēng)PLS)注意:雖然這兩種方法可能會(huì)在某種程度上提高模型在預(yù)測(cè)集上的預(yù)測(cè)準(zhǔn)確度(緩解過(guò)擬合問(wèn)題),但在對(duì)模型進(jìn)行解釋時(shí),維數(shù)的壓縮可能會(huì)導(dǎo)致每個(gè)主成分的經(jīng)濟(jì)含義變得更加模糊,模型的解釋力減弱方法3:降維回歸方法??=
?????
+
??? (28)Z是??×??的主成分矩陣???是??×1的參數(shù)向量???是??×1的回歸殘差向量與普通OLS回歸方法相比,特征向量的維數(shù)從P降到了M1、主成分回歸主成分回歸利用特征變量X的信息構(gòu)造前M個(gè)主成分??=(??1,…,????),然后以這些主成分作為新特征變量,對(duì)響應(yīng)變量y進(jìn)行回歸:方法3:降維回歸方法1、主成分回歸優(yōu)點(diǎn):可處理樣本量N<P的情況缺點(diǎn):在主成分的選擇過(guò)程中,選出“能夠最大程度代表特征變量X”的線性組合(或方向)但是,這些方向是通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法得到的,響應(yīng)變量y在主成分選擇時(shí)沒(méi)有起到任何作用弊端是:我們無(wú)法保證那些很好地代表特征變量X的主成分同樣可以很好地預(yù)測(cè)響應(yīng)變量y方法3:降維回歸方法2、偏最小二乘回歸偏最小二乘法是一種有監(jiān)督學(xué)習(xí)方法在提取每一個(gè)成分(如????)時(shí),都應(yīng)該滿足以下兩點(diǎn)要求:主成分????應(yīng)攜帶特征變量中盡可能多的變異信息????與響應(yīng)變量????的相關(guān)系數(shù)取得最大這兩點(diǎn)要求說(shuō)明:主成分不僅要能很好地反映特征變量的信息,而且對(duì)響應(yīng)變量的解釋力還必須很強(qiáng)方法3:降維回歸方法2、偏最小二乘回歸當(dāng)成分??1提取出來(lái)之后,分別將特征X和響應(yīng)變量????關(guān)于??1作OLS回歸,并記錄兩個(gè)回歸的殘余信息。倘若回歸方程實(shí)現(xiàn)了所要求的精度,則成分提取完畢;若未實(shí)現(xiàn)精度要求,則繼續(xù)用兩組殘余信息進(jìn)行新一輪的成分提取。依此類(lèi)推,直到實(shí)現(xiàn)了所要求的精度為止。多元定性響應(yīng)變量的回歸模型03多元定性響應(yīng)變量的回歸模型在很多金融場(chǎng)景下,人們并不太關(guān)心響應(yīng)變量的絕對(duì)數(shù)值大小,而更在乎某些定性特征在銀行或互聯(lián)網(wǎng)信貸領(lǐng)域,機(jī)構(gòu)會(huì)通過(guò)一系列算法來(lái)評(píng)估是否為個(gè)體發(fā)放貸款(“貸款”vs“不貸款”)在投資決策中,人們往往會(huì)關(guān)心是否買(mǎi)入或賣(mài)出相應(yīng)資產(chǎn)(
“買(mǎi)入”vs“不買(mǎi)入”
)債券評(píng)級(jí)、借款人信用評(píng)分等(響應(yīng)變量取值也可大于兩種)多元線性回歸模型的缺陷假設(shè)響應(yīng)變量具有二值離散的分布特征(即????=0或者????=1),那么普通的多元線性回歸模型對(duì)參數(shù)的估計(jì)將不滿足有效性當(dāng)定性響應(yīng)變量有m個(gè)種類(lèi)時(shí)(m>2),通常會(huì)給各個(gè)種類(lèi)進(jìn)行編號(hào)排序,但這些種類(lèi)僅在邏輯上僅具有平行關(guān)系,并不具有順序關(guān)系。但是編號(hào)本身則天然代表了某種大小關(guān)系或順序關(guān)系,不同的排序方式會(huì)產(chǎn)生完全不同的線性模型及參數(shù)估計(jì),給人們帶來(lái)混淆。變量的無(wú)意義排序參數(shù)估計(jì)的有效性不再滿足多元線性回歸模型的缺陷預(yù)測(cè)值的經(jīng)濟(jì)含義模糊在響應(yīng)變量為二元離散取值的情況下,如果我們使用普通的多元線性回歸模型進(jìn)行建模,預(yù)測(cè)的結(jié)果則可能大于1或小于0,這樣的結(jié)果與現(xiàn)實(shí)相悖。需要找到一種把預(yù)測(cè)概率控制在【0,1】區(qū)間內(nèi)的建模方法。二分類(lèi)多元
Logistic
/
Probit
回歸廣義線性模型(generalized
linear
model)為使y的預(yù)測(cè)值總是介于【0,1】之間,在給定x的情況下,考慮y的兩點(diǎn)分布概率:P??=
1
?? =??(??,??)?????=
0
?? =1???(??,
??)g(??,??)稱(chēng)為連接函數(shù),將特征向量x與響應(yīng)變量y連接起來(lái),選擇合適的連接函數(shù)g(??,??),可保證0
≤
???
≤
1在給定x的情況下,y的條件期望為:??
??
?? =1?????=
1
?? +0?????=
0
?? =????=1
??將模型的擬合值(預(yù)測(cè)值)理解為事件“y=1”的發(fā)生概率二分類(lèi)多元
Logistic
/
Probit
回歸廣義線性模型(generalized
linear
model)隨機(jī)部分、系統(tǒng)部分(或線性部分)以及聯(lián)系函數(shù)隨機(jī)部分是指響應(yīng)變量與其概率分布(例如正態(tài)分布、二項(xiàng)分布或逆高斯分布)假定響應(yīng)變量在各個(gè)觀測(cè)之間相互獨(dú)立,其條件期望??(????|??)i系統(tǒng)部分是指以線性形式進(jìn)入模型的特征變量,記為????
=
??′??聯(lián)系函數(shù)將模型的隨機(jī)部分與系統(tǒng)部分聯(lián)接起來(lái),用函數(shù)??(?)來(lái)表示????
????
?? =
??′?? (??)??當(dāng)聯(lián)系函數(shù)為??(??)=??時(shí),廣義線性回歸模型退化為普通線性回歸模型。普通線性模型可以看作廣義線性模型的一個(gè)特例二分類(lèi)多元
Logistic
/
Probit
回歸二分類(lèi)響應(yīng)變量的多元
Logistic/Probit
模型在利用廣義線性模型做二分類(lèi)建模時(shí),這兩類(lèi)函數(shù)可以將系統(tǒng)部分給出????的轉(zhuǎn)化為在0到1之間的變量??
????
??
,使得模型可以更好地?cái)M合二項(xiàng)分布的數(shù)據(jù)對(duì)于Logistic函數(shù)(即Sigmoid函數(shù)),此轉(zhuǎn)換過(guò)程可表示為:對(duì)于Probit函數(shù)(即標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)),則有:??????=
1
?? =??
????
?? =??????????????
???????????=1+???????
∈0,1 (6)??????=
1
?? =??
????
?? =
?????? =
?0????12????2???
2
????
∈ 0,1 (7)二分類(lèi)多元
Logistic
/
Probit
回歸Logistic函數(shù)與Probit函數(shù)圖像Logistic函數(shù)和Probit
函數(shù)都是具有階躍函數(shù)(step
function)性質(zhì)的非線性函數(shù),能夠?qū)⒆兞考s束在范圍內(nèi)二分類(lèi)多元
Logistic
/
Probit
回歸經(jīng)濟(jì)學(xué)含義二分類(lèi)多元Logistic回歸模型:??????????=1
????????=0
??′??=??
??(8)等式左邊稱(chēng)為對(duì)數(shù)幾率(log
odds),幾率為??_??=1與??_??=0的條件概率的比值,表示給定特征變量,響應(yīng)變量??_??=1的相對(duì)可能性回歸系數(shù)????的經(jīng)濟(jì)含義:在其他特征變量不變的情況下,變量??_??的一單位變化所引發(fā)的對(duì)數(shù)幾率的平均變化?;蛘呓忉尀椋涸谄渌卣髯兞坎蛔兊那闆r下,變量??_??對(duì)對(duì)數(shù)幾率的邊際影響(marginal
effect)同理,二分類(lèi)多元Probit回歸模型可以寫(xiě)為:???1
??
????
=
1
?? =
??′?? (9)??二分類(lèi)多元
Logistic
/
Probit
回歸數(shù)值優(yōu)化算法來(lái)求得數(shù)值解,如梯度下降法和牛頓法????=1參數(shù)估計(jì)非線性最小二乘法(nonlinear
least
square)使離差平方和最小化以Probit模型為例,參數(shù)估計(jì)量:???????????????=??????
??????
? ???????
??′??2(10)極大似然估計(jì)法(maximum
likelihood
estimation)Logistic模型為例,參數(shù)估計(jì)量:?????????=????????????
?????=1???? ??′???????????1+
????′??
??(11)二分類(lèi)多元
Logistic
/
Probit
回歸分類(lèi)模型的模型評(píng)估特征變量的顯著性檢驗(yàn)與擬合優(yōu)度評(píng)估模型單個(gè)特征變量系數(shù)的顯著性可構(gòu)建統(tǒng)計(jì)量進(jìn)行雙側(cè)檢驗(yàn)(大樣本下)預(yù)測(cè)準(zhǔn)確度評(píng)估機(jī)器學(xué)習(xí)中的分類(lèi)問(wèn)題通常用混淆矩陣來(lái)表示分類(lèi)結(jié)果真實(shí)值????=
??????=
??預(yù)測(cè)值?????
=
1真陽(yáng)性(TP)假陽(yáng)性(FP)?????
=
0假陰性(FN)真陰性(TN)二分類(lèi)多元
Logistic
/
Probit
回歸模型評(píng)估根據(jù)混淆矩陣,可計(jì)算相應(yīng)指標(biāo)來(lái)評(píng)估分類(lèi)結(jié)果(或預(yù)測(cè)結(jié)果)的準(zhǔn)確性預(yù)測(cè)結(jié)果的靈敏度(sensitivity)或真陽(yáng)率(true
positive
rate):??????????=????+
????(12)??????=1
?=???? ????????+????
????+????(13)預(yù)測(cè)結(jié)果的假陽(yáng)率(false
positive
rate):二分類(lèi)多元
Logistic
/
Probit
回歸模型評(píng)估接收器工作特征曲線(Receiveroperatingcharacteristic
curve
,ROC曲線),該曲線越靠近坐標(biāo)系的左上角則說(shuō)明該模型的預(yù)測(cè)準(zhǔn)確率越高。ROC曲線下方的面積被定義為AUC(area
under
the
curve),該面積越大,模型的預(yù)測(cè)能力越強(qiáng)。多類(lèi)別Logistic模型如果響應(yīng)變量的取值大于兩類(lèi)時(shí),可以使用多類(lèi)別Logistic模型多類(lèi)別的響應(yīng)變量分為兩種:名義響應(yīng)變量(nominal
response)和定序響應(yīng)變量(ordinal
response)定序響應(yīng)變量則代表了種類(lèi)之間的某種大小順序名義響應(yīng)變量的種類(lèi)之間在邏輯上具有平行關(guān)系基線Logistic模型定序Logistic模型多類(lèi)別Logistic模型??1????
????=??1,1+??2,1??2+??3,1??3+?+
????,1??????2????
????=??1,2+??2,2??2+??3,2??3+?+
????,2?????????????1?????=??1,???1+??2,???1??2+?+
????,???1????(14)基線Logistic模型名義響應(yīng)變量采用基線(baseline-category)Logistic回歸模型假設(shè)響應(yīng)變量的種類(lèi)空間為??
=
{??1,
…
,
????}
,且服從概率空間為Π
=
{??1,
…
,
????}的多項(xiàng)分布,其中??1
+??2
+?
+
????=1不失一般性,選定最后一個(gè)種類(lèi)????作為基準(zhǔn)(或參照類(lèi)別)回歸模型由下列???1個(gè)方程表示多類(lèi)別Logistic模型????,1
?
????,2表示在其他特征變量不變的情況下,????變化一單位對(duì)關(guān)于??1和??2的對(duì)數(shù)幾率(或理解為對(duì)數(shù)相對(duì)風(fēng)險(xiǎn))的邊際影響??2????
??1
= ??1,1?
??1,2+
?
+ ????,1?
?? ????,2
??(15)基線Logistic模型名義響應(yīng)變量采用基線(baseline-category)Logistic回歸模型多類(lèi)別Logistic模型定序Logistic模型定序響應(yīng)變量在金融領(lǐng)域中十分常見(jiàn)穆迪投資服務(wù)有限公司通常把長(zhǎng)期債券的風(fēng)險(xiǎn)分為Aaa、Aa、A、Baa、Ba、B、Caa、Ca和C九個(gè)等級(jí)美國(guó)P2P借貸平臺(tái)Lending
Club將借款人的信用分為A1~A5、B1~B5……和E1~E5共25個(gè)級(jí)別響應(yīng)變量種類(lèi)之間存在某種邏輯上的大小關(guān)系或順序關(guān)系定序Logistic模型(累積比數(shù)模型)多類(lèi)別Logistic模型????=??1,1+??2??2+??3??3+?+
??????????????11?
??1??21?
??2=??1,2+??2??2+??3??3+?+
??????????????????11?
?????1=??1,???1+??2??2+??3??3+?+
????????(16)定序Logistic模型假設(shè)響變量的種類(lèi)可以按某種順序排列,取值空間記為??
=
{??1,
…
,
????}且滿足??1
<
??2<?<
????定義響應(yīng)變量的概率空間為Π
=
{??1,
…
,
????}
,其中???
≡
P
????
≤
???
??回歸模型由下列???1個(gè)方程表示多類(lèi)別Logistic模型定序Logistic模型定序Logistic回歸模型依賴于一個(gè)很強(qiáng)的“均等斜率”假設(shè)在現(xiàn)實(shí)問(wèn)題中,該假設(shè)不一定滿足,使用應(yīng)盡量謹(jǐn)慎,或使用其他替代方法對(duì)定序響應(yīng)變量進(jìn)行建模第一類(lèi)替代方法有:?jiǎn)为?dú)估計(jì)每一個(gè)二分類(lèi)的Logistic回歸模型;或者直接忽略響應(yīng)變量的定序特征,采取基線Logistic回歸模型第二類(lèi)較為前沿的替代方法有:偏比例幾率模型、連續(xù)比例模型和相鄰類(lèi)別模型等回歸類(lèi)分析方法在金融領(lǐng)域的運(yùn)用04案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估不論傳統(tǒng)商業(yè)銀行業(yè)還是現(xiàn)代互聯(lián)網(wǎng)金融企業(yè),借款人違約行為作為一種信用風(fēng)險(xiǎn)被受關(guān)注。多年來(lái),學(xué)界和業(yè)界都在為準(zhǔn)確預(yù)測(cè)這種風(fēng)險(xiǎn)而努力,試圖減小其帶來(lái)的巨大損失?;诖吮尘埃咐幌Mㄟ^(guò)借款人的某些特征變量,來(lái)預(yù)測(cè)他們的違約行為,進(jìn)而對(duì)其違約風(fēng)險(xiǎn)進(jìn)行評(píng)估。案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估1、數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)數(shù)據(jù)來(lái)源:美國(guó)網(wǎng)絡(luò)借貸平臺(tái)Lending
Club,橫截面數(shù)據(jù),樣本量39萬(wàn)余響應(yīng)變量y為借款人的違約情況(“ChargedOff”
表示已違約,“Fully
Paid”表示未違約)案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估1、數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)9個(gè)特征變量變量名稱(chēng)內(nèi)容單位gradeLending
Club平臺(tái)給出的信用評(píng)級(jí)(分為A~G七個(gè)等級(jí)),A表示信用極好,G表示信用極差?!猯oan_amnt借款人申請(qǐng)的借款數(shù)量美元term貸款期限(分為36個(gè)月和60個(gè)月)—home_ownership借款人住房情況(分為3類(lèi))—annual_inc借款人年收入美元dti債務(wù)收入比
=
月債務(wù)總額/月收入%delinq_2yrs借款人過(guò)去兩年內(nèi)的違約次數(shù)次inq_last_6mths借款人過(guò)去六個(gè)月被信用調(diào)查的次數(shù)次total_acc借款人總賬戶數(shù)個(gè)案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估1、數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)已違約(觀測(cè)數(shù):66510)未違約(觀測(cè)數(shù):325237)均值標(biāo)準(zhǔn)差均值標(biāo)準(zhǔn)差loan_amnt15731.78374.00114397.448247.615annual_inc68735.3550832.3575911.3954839.61dti19.067.8817.157.75delinq_2yrs0.320.860.290.81inq_last_6mths0.911.100.761.02total_acc25.2811.6725.4211.55已違約的借款人個(gè)體往往會(huì)申請(qǐng)更多借款具有更低的年收入、更高的債務(wù)收入比他們兩年內(nèi)違約的次數(shù)要比未違約的借款人更多六個(gè)月內(nèi)接受信用調(diào)查的次數(shù)也要更多案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估1、數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)信用評(píng)級(jí)指標(biāo)分組分布圖(左:已違約樣本;右:未違約樣本)案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估變量名稱(chēng)模型1:Logistic模型2:Probitdti-0.0164***-0.0095***(0.001)(0.000)delinq_2yrs-0.0278***-0.0159***(0.006)(0.003)inq_last_6mths-0.0652***-0.037***(0.005)(0.003)total_acc0.0016***0.001***(0.000)(0.000)偽R20.077200.07699對(duì)數(shù)似然值-131570-1316002、基于訓(xùn)練集的回歸模型結(jié)果由于本案例中的響應(yīng)變量為定性二分類(lèi)變量,首先應(yīng)考慮采用二分類(lèi)多元
Logistic/
Probit
回歸模型進(jìn)行建模訓(xùn)練該模型中,已違約樣本的響應(yīng)變量為0未違約樣本的響應(yīng)變量為1因此從回歸結(jié)果中可以看出負(fù)債收入比越高兩年內(nèi)違約次數(shù)越多六個(gè)月內(nèi)接受信用調(diào)查越多賬戶數(shù)量越少的個(gè)體其違約的可能性越大案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估3、樣本外預(yù)測(cè)能力評(píng)估與樣本分類(lèi)非平衡問(wèn)題ROC曲線幾乎緊貼45度線,說(shuō)明之前構(gòu)造的Logistic回歸模型并不具有很好的預(yù)測(cè)能力現(xiàn)這種情況的原因主要在于響應(yīng)變量具有非平衡的分類(lèi)。描述性統(tǒng)計(jì)顯示,已違約樣本有6萬(wàn)多個(gè),未違約的樣本量超過(guò)了30萬(wàn)即使模型把預(yù)測(cè)集上的樣本全部預(yù)測(cè)為未違約樣本其平均預(yù)測(cè)準(zhǔn)確率也約等于30/36
=
5/6而Logistic模型本身的預(yù)測(cè)能力可能無(wú)法達(dá)到該數(shù)值案例1:個(gè)人違約風(fēng)險(xiǎn)評(píng)估3、樣本外預(yù)測(cè)能力評(píng)估與樣本分類(lèi)非平衡問(wèn)題為了解決這個(gè)問(wèn)題,本案例將刪除部分未違約樣本,使得分類(lèi)變得較為平衡調(diào)整后的樣本中,已違約和未違約的個(gè)體均大約有2700個(gè)左右再次將該樣本分為訓(xùn)練集和預(yù)測(cè)集,并在訓(xùn)練集上進(jìn)行建模在預(yù)測(cè)集上進(jìn)行樣本外預(yù)測(cè)ROC曲線如左圖(AUC=0.57)案例2:原油價(jià)格預(yù)測(cè)原油價(jià)格是影響國(guó)際宏觀經(jīng)濟(jì)運(yùn)行的重要指標(biāo)之一。對(duì)原油價(jià)格的預(yù)測(cè)也逐漸成為了眾多經(jīng)濟(jì)學(xué)家和政策制定者所關(guān)注的對(duì)象。案例二希望通過(guò)找到合適的特征變量,構(gòu)建相應(yīng)的回歸模型以預(yù)測(cè)原油價(jià)格。1.數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)數(shù)據(jù):時(shí)間序列數(shù)據(jù)(月度數(shù)據(jù)),樣本量從1987年1月至2021年10月(共418個(gè)觀測(cè)樣本)響應(yīng)變量為美國(guó)西德克薩斯中質(zhì)原油(WTI)的時(shí)點(diǎn)價(jià)格,取自美國(guó)能源信息部門(mén)(EIA),時(shí)間趨勢(shì)圖如下:案例2:原油價(jià)格預(yù)測(cè)1.數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)案例2:原油價(jià)格預(yù)測(cè)1.數(shù)據(jù)簡(jiǎn)介與描述性統(tǒng)計(jì)變量名稱(chēng)內(nèi)容單位TBR美國(guó)三個(gè)月國(guó)庫(kù)券當(dāng)期利率%LTY美國(guó)十年期政府債券當(dāng)期利率%IF美國(guó)通貨膨脹率(由城市居民CPI計(jì)算得到)%EPU美國(guó)經(jīng)濟(jì)政策不確定性指數(shù)—KI全球?qū)嶓w經(jīng)濟(jì)活動(dòng)Kilian指數(shù)—GOP美國(guó)原油生產(chǎn)增長(zhǎng)率%GOS美國(guó)原油儲(chǔ)蓄增長(zhǎng)率%GOI美國(guó)原油進(jìn)口增長(zhǎng)率%MS美國(guó)貨幣供應(yīng)量M2十億美元UR美國(guó)失業(yè)率%CU美國(guó)產(chǎn)能利用率%MA移動(dòng)平均策略指標(biāo)布爾值MOM動(dòng)量策略指標(biāo)布爾值特征變量X共包含45個(gè),其中宏觀經(jīng)濟(jì)指標(biāo)33個(gè),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 提高銷(xiāo)售管理能力的培訓(xùn)課程
- 2025天津市農(nóng)資買(mǎi)賣(mài)合同范文
- 家居裝飾設(shè)計(jì)與施工方案
- 勞動(dòng)合同知識(shí)產(chǎn)權(quán)保密條款
- 房屋中介買(mǎi)賣(mài)服務(wù)合同范本
- 2025《代理企業(yè)所得稅年度納稅申報(bào)合同》(合同模版)
- 的買(mǎi)賣(mài)合同范本
- 社工勞動(dòng)合同
- 2025工程外包合同模板
- 農(nóng)業(yè)機(jī)械設(shè)備采購(gòu)安裝合同
- JTGT H21-2011 公路橋梁技術(shù)狀況評(píng)定標(biāo)準(zhǔn)
- 賣(mài)花生混聲合唱簡(jiǎn)譜
- 【永輝超市公司員工招聘問(wèn)題及優(yōu)化(12000字論文)】
- 柴油加氫裝置知識(shí)培訓(xùn)課件
- 汽油安全技術(shù)說(shuō)明書(shū)(MSDS)
- 中國(guó)直銷(xiāo)發(fā)展四個(gè)階段解析
- 2024屆浙江省寧波市鎮(zhèn)海區(qū)鎮(zhèn)海中學(xué)高一物理第一學(xué)期期末質(zhì)量檢測(cè)試題含解析
- 部編版語(yǔ)文四年級(jí)下冊(cè) 教材解讀
- 《一次函數(shù)與方程、不等式》說(shuō)課稿
- 動(dòng)火作業(yè)安全管理要求及控制措施
- 詩(shī)豪劉禹錫一生部編教材PPT
評(píng)論
0/150
提交評(píng)論