版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
摘要2016年,印度破產(chǎn)委員會為陷入財務困境并尋求償付能力或解決方案的印度公司制定了《破產(chǎn)法》。根據(jù)IBC2016年的數(shù)據(jù),自那以后大約有300家公司在印度申請破產(chǎn)。本研究對在孟買證券交易所(BSE)上市的印度公司的財務困境進行了均衡樣本研究,將最先進的機器學習技術應用于預測任務,如邏輯回歸、套索回歸、決策樹、bagging、boosting和支持向量機,并選擇了18個企業(yè)層面的變量作為解釋變量,其中市值/債務比率是所有模型中最關鍵的變量,并在Altman的z-score模型中建議將其用來度量杠桿。關于市值/負債比率的顯著性的發(fā)現(xiàn)與已有文獻一致。財務狀況不佳的公司的債務預計會高于財務狀況良好的公司。此外,由于投資者可能對投資陷入困境的公司不感興趣,這可能會導致財務困境公司的市值進一步下降。隨機森林套袋模型在模型的性能上獲得了最高的準確率、召回率和接收者工作特征曲線下面積(AUC),將模型的準確性提升到了新的高度。Ⅰ.研究背景在審計中應用數(shù)據(jù)分析的好處是可以提高審計工作者財務困境是公司可能無法履行其財務義務的一種情況,會影響整體經(jīng)濟。例如,對業(yè)務的低效管理可能導致失敗,同時,外部商業(yè)環(huán)境方面也面臨著衰退的壓力,或者競爭性競爭可能會迫使一家公司滅亡。然而,無論出于何種原因,企業(yè)破產(chǎn)都會影響到許多利益相關者——股東,銀行,債權(quán)人。因此,財務危機預測問題對管理者、利益相關者、金融機構(gòu)、貸款人、政府和銀行至關重要。最近,由于不良資產(chǎn)(NPA)的增加,印度的銀行遭受了巨大損失。根據(jù)印度儲備銀行(RBI)的數(shù)據(jù),不良貸款率(銀行貸款組合中不良貸款量與銀行持有的未償還貸款總額的比率)呈上升趨勢(圖1)。圖1:不良貸款率早些年印度的沒有一個單一的實體來管理財務困難公司的破產(chǎn)法律,在2016年,印度通過了統(tǒng)一的《破產(chǎn)法》(IBC),通過之后破產(chǎn)程序加快了,陷入困境的公司的清盤也變得更加便捷。自上世紀60年代以來,人們對財務困境和破產(chǎn)預測進行了大量研究。隨著計算和技術領域的進步,許多監(jiān)督機器學習技術被用于各種分類任務,其中預測破產(chǎn)是其中之一?,F(xiàn)有文獻記錄了公司可能陷入財務困境的諸多原因,從內(nèi)部因素資產(chǎn)管理不善到外部因素全球經(jīng)濟衰退。在現(xiàn)有的關于財務困境的文獻中,許多變量被用來預測財務困境。大多數(shù)論文認為,沒有一套單一的財務比率是足夠的,但提倡將它們與其他比率結(jié)合使用,以捕捉企業(yè)的不同方面,即償付能力,流動性,盈利能力,效率等。隨著神經(jīng)網(wǎng)絡和來自監(jiān)督機器學習的各種新的數(shù)據(jù)挖掘方法的出現(xiàn),可以分析的變量數(shù)量增加了,因為這些先進的技術可以處理許多變量。一項關鍵的調(diào)查仍然是確定有助于預測財務困境事件的重要變量。對企業(yè)財務困境進行評估,無論是對從業(yè)者還是對學者都具有重要意義。Ⅱ.研究設計2.1數(shù)據(jù)根據(jù)IBC2016年的規(guī)定,在印度的公司必須在IBBI提起訴訟處理清算和破產(chǎn)事宜。本研究考察了向IBBI提交的破產(chǎn)和決議相關案件,從IBBI網(wǎng)站上獲得了這些數(shù)據(jù),其中包括262家在孟買證券交易所(BSE)上市的公司,這些公司在2016年至2019年期間向IBBI提交了破產(chǎn)和解決方案。本研究的目標是確定預測公司危機事件的財務比率。因此,本研究還收集了262家財務健康的公司的數(shù)據(jù),這些公司屬于同一行業(yè),與陷入困境的公司規(guī)模相同。規(guī)模是由三年內(nèi)收入和資產(chǎn)的平均值來定義的。本研究從印度經(jīng)濟監(jiān)測中心(CMIE-Prowess)維護的Prowess數(shù)據(jù)庫中收集了這524家公司的企業(yè)層面財務數(shù)據(jù)。最終數(shù)據(jù)集包含524行和20列,包括公司名稱和目標列,財務困難和健康的公司的條目分別為1和0。財務比率有18個自變量。這些比率主要可以分為四個重要類別:流動性、償付能力、盈利能力和效率。數(shù)據(jù)集的目標變量是通過將處于財務困境的公司標記為1而將其他公司標記為0來創(chuàng)建的。在建模階段之前需要對數(shù)據(jù)進行預處理。由于一些公司沒有提供一些指標,一些比率為0或沒有定義。因此,在進一步處理數(shù)據(jù)之前需要進行數(shù)據(jù)清理。最初,大約有300家公司陷入財務困境。在檢查了缺失值和零之后,缺失10項以上指標的公司被剔除,最終數(shù)據(jù)庫中有262家陷入困境的公司。在這262家公司中,通過行業(yè)映射從相同規(guī)模的十分位數(shù)中選擇了另外262家健康公司。在使用該數(shù)據(jù)進行最終建模之前,進一步檢查該數(shù)據(jù)是否存在異常值和缺失值,并在R軟件中進行規(guī)范化。本研究根據(jù)大量關于破產(chǎn)和財務困境的文獻中的運用頻率程度選擇了一些變量,如表1所示。表1:變量列表2.2研究方法本研究的主要目標是使用表1中列出的定量比率來預測走向財務困境的公司。其中企業(yè)可以分為二分類,即“有財務困難”和“沒有財務困難”。機器學習技術可以用于處理分類任務。機器學習方法分析同一類型觀測的趨勢,并識別將數(shù)據(jù)點與特定類別區(qū)分開來的特征。在本研究中,公司必須根據(jù)各種流動性,償付能力,盈利能力和效率變量來區(qū)分為兩個給定的類別。該方法基于可能的可區(qū)分因素的概念和統(tǒng)計公式中使用的權(quán)重選擇,這些權(quán)重可能有助于區(qū)分這兩類。機器學習模型嚴格遵循GIGO原則,意思是“垃圾進垃圾出”;因此,在建模階段之前需要對數(shù)據(jù)進行預處理,以使所使用的模型得到更好的結(jié)果。數(shù)據(jù)預處理包括探索性數(shù)據(jù)分析、對變量進行歸一化、去掉相關性較高的變量等。這些將在后面的段落中詳細討論。本研究使用524家公司和18個變量的總樣本比較了財務困境的各種分類算法。用于給定任務的算法如下:a)邏輯回歸,b)lasso正則化,c)決策樹,d)隨機森林套袋算法,e)增強算法(XgBoost),f)支持向量機。數(shù)據(jù)預處理是機器學習模型的重要組成部分,因為數(shù)據(jù)需要具有可接受的質(zhì)量,以供機器學習算法的相關結(jié)果使用。檢查了缺失的值后,發(fā)現(xiàn)數(shù)據(jù)集中缺少48個值。這些缺失值是使用缺失值的相應類的中位數(shù)來估算的。大多數(shù)算法對異常值的魯棒性不強,因此應該對這些異常值進行處理,并將其控制在限制范圍內(nèi)。由于異常值,像邏輯回歸這樣的算法不會收斂,對異常值高度敏感。對于異常值處理,本研究使用R中的squishlibrary函數(shù),高于99個百分位數(shù)的值用第99個百分位數(shù)來計算,低于1個百分位數(shù)的值用第1個百分位數(shù)來計算。繪制箱形圖以查看兩類數(shù)據(jù)的分布并識別異常值。有些特征具有非常高的相關性,因此建議從兩個高度相關的特征中刪除一個特征。本研究使用R中的corrplot函數(shù)繪制相關矩陣,為了完成這項任務,基于它們在文獻中的流行程度,很少刪除特征。Ⅲ.研究結(jié)果分析3.1數(shù)據(jù)的描述性統(tǒng)計表2給出了所有變量的描述性統(tǒng)計。通過檢查變量的描述性統(tǒng)計,本研究可以看到一些變量具有非常高的極值,這表明數(shù)據(jù)中存在異常值。這些異常值可能會在建模階段引起問題,因此使用Squish函數(shù)對它們進行處理,該函數(shù)允許將超過99個百分點的值用第99個百分點進行估算,將低于1個百分點的數(shù)值用第1個百分點估算。表2:描述性統(tǒng)計3.2變量的相關性在建模之前,應該檢查變量的相關性,因為模型中高度相關的變量會導致對變量的錯誤解釋,因為如果本研究談論邏輯回歸,相關變量會增加變量的權(quán)重。因此,在擬合模型之前,從每對相關變量中刪除一個變量。相關圖如圖2所示。圖2:變量間的相關性變量留存收益/總資產(chǎn)(X2)和凈收入/總資產(chǎn)(X8)的相關性為1,這是合理的,因為凈收入是稅后利潤,留存收益是股息后利潤。由于留存收益和凈收入可以相互表示為線性函數(shù),分母相同,因此可以預期相關性為1。變量EBIT/銷售額額(X6)和凈收入/銷售額額(X11)也具有0.89的高相關性,這可以再次通過EBIT和凈收入之間幾乎線性的關系來理解。EBIT是息稅前收益,而凈收入是稅后收益,所以這兩個變量表明收益和分母相同,顯示出高度的相關性?,F(xiàn)金/流動負債(X15)和債務/總資產(chǎn)(X16)也高度相關。從相關變量對中,根據(jù)其在文獻中的受歡迎程度選擇變量(參見Altman(1968)和Ohlson(1980))。這里刪除的變量是凈收入/總資產(chǎn)(X8)、經(jīng)營現(xiàn)金流/債務(X10)、凈收入/銷售額額(X11)、營運資金/銷售額額(X14)和現(xiàn)金/流動負債(X15)。3.3邏輯回歸采用logistic回歸模型進行分類,logit模型總結(jié)如表3所示。由此可以推斷,有6個顯著變量的置信區(qū)間大于95%,分別是營運資金/總資產(chǎn)、留存收益/總資產(chǎn)、市值/總負債、銷售額額/總資產(chǎn)、經(jīng)營現(xiàn)金流量/總資產(chǎn)和流動資產(chǎn)/總資產(chǎn)。在6個顯著變量中,有4個與Altman(1968)在z-score模型中使用的相同。表3:Logistic回歸結(jié)果除了流動資產(chǎn)/總資產(chǎn)外,所有重要變量的系數(shù)都是負的,這是預期的保留收益/總資產(chǎn)、銷售額額/總資產(chǎn)和經(jīng)營現(xiàn)金流量/總資產(chǎn)可以被視為盈利能力的衡量標準。對于健康的公司,這些措施應該比那些陷入困境的公司更高。所以,這些系數(shù)可以是負的。營運資本/總資產(chǎn)是衡量流動性的一個指標,這可能也是負的。然后,市值/債務,杠桿的衡量標準,預計對健康的公司具有高價值,因為它們應該具有低債務和高市值。對于流動資產(chǎn)/總資產(chǎn),系數(shù)是正的。3.4Lasso正則化Lasso正則化用于懲罰邏輯回歸的代價函數(shù),減少少量系數(shù),并為邏輯回歸創(chuàng)建稀疏解。在logistic回歸總結(jié)中本研究可以看到,與其他特征相比,留存收益/總資產(chǎn)的系數(shù)是極端的,因此變量可能主要是推動解決方案。從帶有l(wèi)ogλ的系數(shù)圖((圖3))可以明顯看出,該系數(shù)在沒有正則化的情況下表現(xiàn)得像一個離群值。圖3:系數(shù)與logλ曲線圖這兩個系數(shù)比其他沒有正則化的系數(shù)更大,它們是留存收益/總資產(chǎn)和經(jīng)營現(xiàn)金流量/總資產(chǎn)。這些系數(shù)可以正則化,其他不重要的特征系數(shù)可以通過選擇合適的λ值降為零。這里λ是一個超參數(shù),是在交叉驗證的幫助下選擇的。交叉驗證圖如圖4所示。圖4:誤差和logλ曲線圖圖上的兩條垂直線分別是λmin和λmin加一個標準誤差。λ的選擇是邏輯回歸模型的偏差-方差權(quán)衡。偏差會增加,但方差會減少,并且任何模型的總誤差等于((偏差))2+方差。此外,該模型將更精簡,功能更少。圖頂部的值是在λ的特定值處選擇的系數(shù)的數(shù)量。選取λmin+1標準誤差作為建立稀疏解的套索,選取8個特征。這八個特征包含了邏輯回歸的所有六個顯著特征。這8個變量的正則化系數(shù)見表4。表4:套索系數(shù)3.5決策樹使用R中的rpart庫對任務使用決策樹。決策樹圖如圖5所示。決策樹的優(yōu)點之一是易于解釋。這就是為什么它是一個廣泛使用的算法。在下面的圖中,在根節(jié)點,本研究有419個觀測值,其中202個是1秒。因此,0.48是在這個節(jié)點上得到1的概率,100%表示所有的觀測值都在這個節(jié)點上,因為它是根節(jié)點。第一個分割變量是X4,即市值/債務,該變量的截止值為0.283。這一分裂獲得的信息最多,甚至在這一分裂中,數(shù)據(jù)也被分配到56%和44%。其他的分裂也可以用同樣的方式來解讀。圖5:決策樹的輸出決策樹可以看作是一個嵌套的if-else算法;因此,規(guī)則可以總結(jié)。首先,如果市值/債務≥0.28,息稅前利潤/總資產(chǎn)≥-0.023,則該企業(yè)可被歸類為健康企業(yè)。其次,如果市值/總負債<0.28,銷售額額/資產(chǎn)≥1.6,經(jīng)營現(xiàn)金流量/總資產(chǎn)≥0.099,則可以將企業(yè)歸類為健康企業(yè),而如果后一個條件不滿足,只要前兩個條件都滿足,企業(yè)就可以被歸類為陷入困境的企業(yè)。第三,如果市值/債務<0.28,銷售額額/資產(chǎn)<1.6,則該公司可被歸類為陷入困境的公司。最后,少數(shù)市值/債務≥0.28,息稅前利潤/總資產(chǎn)<-0.023的企業(yè)可被歸類為不良企業(yè)。使用終端節(jié)點中的概率值來決定分類的截止點,該截止點由r中的信息值包來完成。對于給定的訓練數(shù)據(jù)決策樹,分類的截止點可能為0.09,因為大多數(shù)0在0.09處被分類,如左下角節(jié)點所示。決策樹也被用來查看特征的重要性,這是通過減少基尼雜質(zhì)在任何特定節(jié)點計算。將變量重要性縮放到100,如圖6所示。在總共14個變量中,有10個變量在模型中減少了一定數(shù)量的基尼雜質(zhì)。根據(jù)決策樹,市值/債務是最關鍵的變量,決策樹的前3個變量包括Altman變量。第四個變量,債務/總資產(chǎn),是一個償付能力變量。圖6:決策樹的變量重要性3.6隨機森林套袋算法本研究使用隨機森林套袋算法,并通過反復交叉驗證來調(diào)整超參數(shù)。調(diào)優(yōu)的超參數(shù)是基本模型中使用的特征的數(shù)量和要使用的樹的數(shù)量。交叉驗證的超參數(shù)調(diào)優(yōu)圖如圖7所示。選擇的調(diào)諧度量是精度,使用不同的模型和不同的超參數(shù)集,并繪制了準確度圖。在本研究的訓練集中,最好的模型有150棵樹和5個特征。圖7:隨機森林的超參數(shù)整定隨機森林還通過基尼雜質(zhì)的平均減少來說明變量的重要性。變量重要性圖如圖8所示。根據(jù)隨機森林,最重要的變量是市值/債務。對于決策樹和隨機森林來說,前4個變量是相同的,可以看出,相同的變量在不同的數(shù)據(jù)樣本下表現(xiàn)更好,其中3個是奧特曼變量。圖8:隨機森林的變量重要性3.7增強算法(XGboost)增強的決策樹也有不同的超參數(shù)需要調(diào)整。調(diào)優(yōu)的超參數(shù)包括要采樣的列的比例、迭代次數(shù)、學習率和樹的最大深度。經(jīng)過20輪優(yōu)化后的最佳模型,學習率為0.1,子樣本比為0.6,最大樹深度為5(圖9)。圖9XGBoost的超參數(shù)調(diào)優(yōu)XGboost算法的變量重要性如圖10所示。XGboost還表明,市值/債務是最好的變量。這個變量在所有三個模型中都被標記為最重要的。奧特曼用這個變量來反映杠桿。這一變量的重要性表明,高負債和低市值的公司很可能陷入財務困境。根據(jù)XGBoost的說法,其他重要變量包括息稅前利潤/資產(chǎn)、運營現(xiàn)金流/總資產(chǎn)和流動資產(chǎn)/總資產(chǎn)。圖10:XGBoost的變量重要性3.8支持將訓練數(shù)據(jù)擬合到所有模型后,在新數(shù)據(jù)上對模型進行檢驗,并根據(jù)不同的度量進行比較。對于分類模型,有許多性能度量。研究中比較了所有模型的準確度、精密度和召回率。精確度的定義是,在所有預測的陽性結(jié)果中,有多少是實際陽性的,召回率的定義是在實際的陽性事件中,有多少被正確歸類為陽性事件。根據(jù)問題的需要,精確度和召回率可能都很重要。對于一家愿意了解其財務狀況的公司來說,召回是至關重要的。另一方面,對于想要投資某家公司的投資者來說,精確度同樣重要,因為如果本研究的模型預測某家公司在沒有陷入財務困境的情況下陷入財務困境,投資者就會損失機會成本。因此,這兩種措施同等重要。另一個性能指標是接收器工作特性((ROC))曲線下面積((AUC)),圖11。對所有模型計算了這些度量,列于表5中。不同模型的混淆矩陣如下表所示。所有模型的混淆矩陣如表6所示。圖11:模型的ROC曲線
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 低維雜化鈣鈦礦的設計、合成及X射線探測性能研究
- 乳牙疾病的治療與預防
- 用于微波加熱的能量輻射控制技術研究
- 二零二五年度企業(yè)內(nèi)部管理授權(quán)委托書模板與字號規(guī)范9篇
- 二零二五年度高端離婚協(xié)議書模板(含子女撫養(yǎng)及財產(chǎn)分割)2篇
- 二零二五年度健身貸款押證不押車合同助力健身行業(yè)騰飛6篇
- 二零二五版寵物服務行紀委托居間服務合同2篇
- 學會正確理解命題意圖
- 二零二五版施工現(xiàn)場環(huán)保責任追究與賠償協(xié)議3篇
- 二零二五版同居協(xié)議樣本:同居伴侶共同生活及財產(chǎn)權(quán)益保障合同18篇
- 漢語言溝通發(fā)展量表(長表)-詞匯及手勢(8-16月齡)
- 高速公路相關知識講座
- 兒科關于抗生素使用的PDCA
- 商務服務業(yè)的市場細分和定位策略
- 財政學論文我國財政支出存在的問題及改革建議
- 2022年湖南高速鐵路職業(yè)技術學院單招數(shù)學模擬試題及答案解析
- 小學生必備古詩
- 手術室護理實踐指南2023年
- 移動商務內(nèi)容運營(吳洪貴)任務六 結(jié)合熱度事件的內(nèi)容傳播
- 新人教版六年級下冊數(shù)學全冊課件
- 江蘇對口單招英語考綱詞匯總結(jié)
評論
0/150
提交評論