前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機器學習模型下企業(yè)信用風險淺析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文基于大數(shù)據(jù)和機器學習方法,探索構建企業(yè)信用風險預警模型,并對公司信用類債券發(fā)行人的違約風險進行監(jiān)測。在1000余個指標中,通過信息值和隨機森林指標重要度計算等方法,篩選出14個對信用風險有顯著影響的指標,構建機器學習模型,計算企業(yè)的違約概率,并利用ROC曲線確定預警閾值,將高于閾值的企業(yè)列入預警名單。經(jīng)實際違約企業(yè)情況檢驗,模型預警效果良好。
關鍵詞:機器學習;信用債券;風險監(jiān)測
引言
在經(jīng)濟增速放緩影響企業(yè)盈利、金融去杠桿加大再融資難度、前期債務快速增長加重當期還款壓力等多重因素影響下,我國貸款不良率和債券違約率有所攀升,企業(yè)債務風險已成為值得關注的金融風險之一。2014—2021年,我國債券市場違約金額逐年攀升,累計達6369.9億元,違約主體涉及中央國有企業(yè)、地方國有企業(yè)、民營企業(yè)等。近年來,國家高度重視金融風險防范工作,將防范化解金融風險列為“三大攻堅戰(zhàn)”之一,多次強調(diào)要夯實金融穩(wěn)定的基礎,深化信用體系改革。因此,對企業(yè)債務風險進行實時動態(tài)監(jiān)測預警,是當前形勢下貫徹落實防范化解重大金融風險工作部署的重要舉措。企業(yè)債務風險監(jiān)測預警可前置風險管控端口,是防控市場信用風險的重要抓手。相對于亡羊補牢式的風險處置而言,未雨綢繆式的風險監(jiān)測預警可實現(xiàn)風險的早預警、早發(fā)現(xiàn)、早防范、早處置,有利于減緩企業(yè)債務風險發(fā)生后對經(jīng)濟社會造成的沖擊,降低風險防范化解的成本。本文的主要創(chuàng)新點包括以下三方面。一是創(chuàng)新實證方法,充分挖掘大數(shù)據(jù)信息。傳統(tǒng)研究主要選擇企業(yè)財務數(shù)據(jù),且數(shù)據(jù)頻率以年度為主,難以準確、及時監(jiān)測信用風險。本文創(chuàng)新性地應用機器學習模型,發(fā)揮大數(shù)據(jù)優(yōu)勢,通過機器對大量財務和非財務數(shù)據(jù)進行自我學習,挖掘海量、多維、動態(tài)數(shù)據(jù)信息,提高監(jiān)測預警準確性、及時性和前瞻性。二是采用集成學習(Ensemble)算法,解決正負樣本不均問題。我國剛性兌付打破時間較晚,違約樣本出現(xiàn)的時間較短,時間序列數(shù)據(jù)較少,難以使用傳統(tǒng)的實證方法進行風險監(jiān)測。本文創(chuàng)新性地采用基于套袋法(Bagging,全稱為Bootstrapaggregating,意為自助聚合)的Ensemble算法,有效解決正負樣本嚴重不均衡問題。三是計算每家企業(yè)的預測違約概率,提升信用區(qū)分度。傳統(tǒng)信用評級方法是將企業(yè)信用風險分為若干檔,相同檔內(nèi)的企業(yè)信用風險缺乏區(qū)分度。本文采用機器學習模型,計算每家企業(yè)的預測違約概率,并轉換為信用評分,這樣可以直觀反映企業(yè)信用風險狀況,顯著區(qū)分不同企業(yè)之間的信用差異。
一、樣本選擇、指標篩選及模型擬合
(一)樣本選擇
筆者選取截至2021年6月末歷史上有公募信用債發(fā)行記錄的5521家企業(yè)作為建模樣本,其中,含有歷史違約記錄1的企業(yè)有133家。對于已違約企業(yè)、無違約無存續(xù)債企業(yè)、無違約有存續(xù)債企業(yè),觀測日分別為首次違約日、最后一筆信用債到期日、2021年6月30日。自變量為樣本截至觀測日可獲取的財務及非財務數(shù)據(jù)指標;因變量為樣本歷史上是否發(fā)生違約,違約記為1,未違約記為0。
(二)指標篩選
在指標方面,基于數(shù)據(jù)情況和業(yè)務理解,筆者加工1000余個指標,包括財務基礎指標132個、財務衍生指標171個,通過均值、方差、變異系數(shù)加工財務分析指標903個、非財務指標152個,均已刪除缺失率較高的指標。其中,財務指標基于樣本觀測日近三年的財報數(shù)據(jù)(含季報、半年報和年報共12個時點的財報數(shù)據(jù))進行加工;非財務指標包含工商信息、主體評級、審計意見、法律訴訟、成交價格、地方經(jīng)濟財政等。在進行指標篩選時,首先,區(qū)分定性指標和定量指標,將其進行變量分箱并計算信息值(IV),其中,定性指標依據(jù)變量取值進行分箱,定量指標基于分類決策樹進行最優(yōu)分箱。另外,利用隨機森林算法計算指標重要度,經(jīng)初步篩選,得到IV值較高或者重要度較高的指標共219個。其次,對初篩指標進行更細化的分箱調(diào)整和證據(jù)權重(WOE)轉換,進行分箱調(diào)整時關注各指標分箱個數(shù)、每個分箱中的樣本數(shù)、分箱中違約率單調(diào)性、可解釋性等因素,使得各個指標分箱更加合理。最后,計算WOE轉換后各指標的相關系數(shù),對于共線性較強的一組指標,僅保留IV值較高或更加符合業(yè)務邏輯的一個指標,得到65個候選指標。
(三)模型擬合
在模型擬合方面,違約樣本比例僅為2.41%,存在較嚴重的正負樣本不均衡情況?;谔状ǖ腅nsemble算法提供了一種簡單有效的改進方法,即利用套袋法在原始訓練集的隨機子集上構建某一種分類器的多個實例,然后集成這些分類器,形成最終預測結果。實踐中,筆者采用套袋法先對未違約樣本進行欠采樣,即每次有放回地隨機選取1/5的未違約樣本,與違約樣本分別組成5組訓練樣本。再將每組訓練樣本的85%劃定為訓練集,其余15%劃定為測試集,采用逐步回歸方法對65個候選指標進行篩選并擬合邏輯回歸模型。擬合結果顯示,由5組訓練樣本得到的5個邏輯回歸子模型入模指標有較高的一致性。最后,選取5個子模型中顯著性檢驗p值均小于0.05的14個指標入模,重新擬合每個子模型的回歸系數(shù),取每個子模型中回歸系數(shù)的平均值,得到最終邏輯回歸模型:其中,p'為基于欠采樣訓練樣本計算的違約概率,x1至x14為各入模指標經(jīng)WOE轉換之后的指標,具體含義見表1。在模型結果方面,根據(jù)擬合的模型計算違約概率p',將其調(diào)整為與原始樣本分布相吻合的違約概率p。然后,按照以下設置對模型進行轉換:當違約幾率2(odds)即p/(1-p)為1時,對應的信用評分設為600分(此時違約概率p為50%)。同時,違約幾率每翻一番,設對應的信用評分降低20分;違約幾率每降低一半,設對應的信用評分提高20分。轉換后得到每個樣本的總體信用評分以及在每個入模指標上的得分,信用評分越低表示違約風險越高。將所有樣本的信用評分進行等頻分箱,共分為20檔,即每個信用評分區(qū)間中大約有5%的樣本,各檔的信用評分分布如表2所示??梢钥吹?,87.22%的違約樣本的信用評分位于信用評分最低一檔,說明模型對違約樣本和未違約樣本有較好的區(qū)隔能力。
二、閾值選取和訓練效果
閾值選取是影響二分類模型效果的重要因素。筆者根據(jù)模型預測違約概率,計算不同閾值下模型對應的假陽率和真陽率并繪制散點圖,形成ROC曲線3。在ROC曲線上找出使假陽率盡可能低、真陽率盡可能高的點。這里通過ROC曲線確定的最優(yōu)預警閾值為違約概率2.6%(對應的信用評分為705),即違約概率大于等于2.6%(信用評分小于等于705)的企業(yè)預測為高信用風險。通過比較樣本的預測違約概率與選取的閾值的大小,筆者對每個建模樣本進行“違約”“未違約”的分類預測。將每個建模樣本的模型預測情況與實際違約情況進行比較,統(tǒng)計模型在建模樣本上的訓練效果。結果顯示,模型整體靈敏度(召回率)4為94.74%,即94.74%的違約企業(yè)被正確識別;特異度5為93.75%,即93.75%的未違約企業(yè)被正確識別;準確率6為93.77%,即全部企業(yè)中93.77%被正確識別;精確率7為27.21%,即在模型識別的違約企業(yè)中27.21%是正確的(見表3)。模型精確率相對不高的原因是進行企業(yè)信用風險監(jiān)測的主要目的在于發(fā)現(xiàn)高風險企業(yè),因此更關注模型的靈敏度,即模型命中實際違約企業(yè)的比例越高就越好,而擴大命中比例相應會降低精確率。從通常用來檢驗二分類模型效果的指標來看,模型的F1分數(shù)8為0.42,AUC9為0.96,KS值10為0.87。以上各指標表明模型對違約樣本的預測能力較好,對違約樣本和非違約樣本有較強的區(qū)隔能力,模型效果良好。
三、模型實證效果檢驗
依據(jù)模型,筆者對截至2021年6月末有存續(xù)且未違約公募信用類債券的3504家企業(yè)進行預測,并將企業(yè)按信用評分由低到高排序,將預測違約概率大于等于2.6%定義為高風險企業(yè),共得到165家企業(yè)。跟蹤其后續(xù)違約情況,實際預測效果如表4矩陣所示。數(shù)據(jù)顯示,模型預警到2021年7月1日至12月31日違約的28家企業(yè)中的26家,命中率11為92.86%,且命中的26家違約企業(yè)均在高風險前100名內(nèi),說明模型對違約企業(yè)具有良好的監(jiān)測預警效果。從目前來看,使用本文模型可起到提前預警企業(yè)信用風險的作用。未來,一方面,隨著實際違約企業(yè)的不斷積累,應持續(xù)跟蹤和評估模型效果,不斷對模型進行優(yōu)化迭代。另一方面,企業(yè)處于動態(tài)發(fā)展中,應以一定的頻率獲取企業(yè)最新的數(shù)據(jù)并代入模型,更新計算結果,實現(xiàn)對企業(yè)債務風險的動態(tài)監(jiān)測預警。
作者:周雙雙 張子鵬 單位:中央結算公司深圳分公司