午夜成人A片在线观看,十八禁黄色网站

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了談個人信用風(fēng)險評估模型比較范文，希望能給你帶來靈感和參考，敬請閱讀。

談個人信用風(fēng)險評估模型比較

摘要：信用卡自20世紀(jì)60年代，在歐美發(fā)達(dá)國家出現(xiàn)至今已經(jīng)成為主流支付手段之一。但由于信用卡持有人的極大的不確定性，可能出現(xiàn)違約或者壞賬。針對這些問題，本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ)，采用線性判別分析、CART分類樹和AdaBoost算法建立個人信用風(fēng)險評估模型，并從預(yù)測準(zhǔn)確率、第二錯誤率和誤判成本3個方面比較這3種模型違約概率的預(yù)測準(zhǔn)確性。結(jié)果表明，AdaBoost算法預(yù)測效果最好，線性判別效果最差。

關(guān)鍵詞：信用評估模型；線性判別分析；CART分類樹；AdaBoost算法

在市場經(jīng)濟(jì)社會中，法律制度，信用，財產(chǎn)權(quán)和風(fēng)險是市場經(jīng)濟(jì)的四個關(guān)鍵。信用對個人，社會和國家特別重要，是現(xiàn)代社會的基石[1]。盡管隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等金融科技的發(fā)展，征信業(yè)將面臨新的發(fā)展機遇，但是信用卡市場仍然是中國個人金融服務(wù)市場成長最快的產(chǎn)品系列之一。因此，建立一個合理的個人信用評估模型對個人信用進(jìn)行評估就十分必要。一個較好的信用評估模型能給銀行的決策提供合理的建議，從而能降低信用卡的不良率，減少由于違約對銀行造成的損失。個人信用評估主要分為兩類，第一種是統(tǒng)計學(xué)的方法，如logistic回歸方法、線性回歸方法、決策樹方法、最近鄰方法等。第二種是人工智能的方法，如神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、支持向量機（SVM）方法等[2]。除此之外，在信用評估的領(lǐng)域依然很多方法。建立信用風(fēng)險評估模型的過程，實質(zhì)上是評估方法對信用預(yù)測效果的對比過程。然而，在進(jìn)行對個人信用違規(guī)的情況預(yù)測時，對于商業(yè)銀行而言，可以選擇很多種的模型，選擇的指標(biāo)和建立模型的方法也大不相同?；谝陨显?，本文在征信的基本理論和實踐的基礎(chǔ)上，建立不同的信用評估模型，并進(jìn)行對比，明確各種模型的優(yōu)劣情況，讓商業(yè)銀行在進(jìn)行個人信用評估模型的構(gòu)建時能夠有所參考。

一、數(shù)據(jù)預(yù)處理

（一）數(shù)據(jù)來源與變量設(shè)置本文所用數(shù)據(jù)來自數(shù)據(jù)集來自Kaggle公開數(shù)據(jù)源平臺，數(shù)據(jù)包括30000名貸款者及其相關(guān)人口特征和信用記錄數(shù)據(jù)，其中，人口信息的特征主要是年齡、受教育程度、婚姻狀況、性別，信用記錄數(shù)據(jù)包括信貸金額（包括個人和家庭/補充信貸）、還款情況、賬單金額和支付金額等相關(guān)信息（詳見表1）。

（二）數(shù)據(jù)處理本文將原始數(shù)據(jù)中連續(xù)性數(shù)值變量進(jìn)行標(biāo)準(zhǔn)化處理，消除各變量取值水平不同帶來的量綱影響。并將樣本劃為測試集（25%）和訓(xùn)練集（75%）兩部分，利用訓(xùn)練集的數(shù)據(jù)制作個人信用評價模型，使用測試集合數(shù)據(jù)評價模型的預(yù)測效果。本文采取留出法分割法分割數(shù)據(jù)，保證訓(xùn)練集和測試集中違約狀況的比例基本一致，從而提高預(yù)測的精度。

（三）研究方法選擇本文基于統(tǒng)計學(xué)和人工智能方法進(jìn)行分析，選用線性判別方法，CART分類樹和集成模型adaboost方法分別建立模型，并從預(yù)測準(zhǔn)確率、第二類錯誤率和誤判成本對建立的3個模型進(jìn)行比較。本文使用R軟件對數(shù)據(jù)進(jìn)行描述性的分析，建立模型并得出實證結(jié)果，所用程序為R軟件中自帶程序包或自己編寫的程序。

二、數(shù)據(jù)的描述性分析

通過數(shù)據(jù)分析發(fā)現(xiàn)，在30000人中，違約率高達(dá)22.12%，相當(dāng)于每五個人中有一個人違約還款（一般而言大銀行信用卡的違約率為1%～3%），表明當(dāng)時臺灣爆發(fā)的信用卡債務(wù)危機十分嚴(yán)峻。從信貸額度看，信用卡客戶的信貸額度大多數(shù)集中在20萬以下，并且隨著信貸額度的提高，違約率降低。這是因為當(dāng)時各大銀行機構(gòu)之間的競爭十分激烈，為了營銷活動而放寬信貸標(biāo)準(zhǔn)，讓一些信用水平和償還能力低的人也能夠輕松地獲得貸款，從而增加了違約風(fēng)險。從年齡上看，信用卡客戶年輕的客戶群體占比最大，21～40歲的客戶比例超過了70%，但是隨著年齡的增加，違約率也在增加。從性別上看，男性客戶與女性客戶的比例約為2:3，但是女性客戶的違約率（20.78%）要比男性的違約率（24.17%）低。從受教育程度看，大學(xué)與研究生學(xué)歷的客戶群體占比最多，并且學(xué)歷越高，違約還款的可能性越小。從婚姻狀況看，單身人士多于已婚人士，并且單身客戶的違約率低于已婚客戶。

三、實證分析

（一）線性判別分析基于觀察事物的特定數(shù)據(jù)特征，判別分析是對它們進(jìn)行分類確定事物的類型，對各個類型的各種樣本的分類規(guī)則進(jìn)行總結(jié)并建立判別函數(shù)，用在未來出現(xiàn)的新事物上判斷新事物所屬的類型。判別分析也是第一個適用于個人信用評價的統(tǒng)計學(xué)模式，被認(rèn)為是分類模型領(lǐng)域最廣泛的統(tǒng)計技術(shù)之一[3]。其基本原理是根據(jù)特征變量的屬性值，找出特征變量的最佳線性組合，建立判別函數(shù)。而且，通過這些函數(shù)來區(qū)分觀察的樣本特征，可以準(zhǔn)確的劃分為幾種不同的類型。本文的建模思想如下：總體客戶分為兩類，一類是“履約客戶”，另一類是“違約客戶”?？蛻舻奶卣髯兞吭谟?xùn)練集中是知道的，并且每個客戶的類別（即是履約客戶還是違約客戶）也是知道的。訓(xùn)練樣本的作用是根據(jù)新申請人的特征變量，能夠從中建立判別函數(shù)，并用其來判斷申請人的信用等級，即履約客戶還是違約客戶。建模完成后，我們將使用已經(jīng)建立好的模型對剩下的訓(xùn)練集進(jìn)行驗證，并確認(rèn)該判別函數(shù)是否可用。本文使用R軟件中MASS包中的Ida函數(shù)，參數(shù)均保持默認(rèn)的設(shè)置，通過分析得出的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.08%。

（二）CART分類樹分類樹是一種非參數(shù)統(tǒng)計方法。其基本思想是：根據(jù)特征變量的數(shù)值，將樣本分為兩個組，最大限度地使同組的樣本發(fā)生的概率一致，產(chǎn)生不同組的樣本的概率最大，在這個過程中，連續(xù)重復(fù)上述過程，劃分獲得的子組，直到達(dá)到設(shè)置的要求為止，最終獲得結(jié)果。最后，按照規(guī)則將所有的終端節(jié)點分為不同類型。在建立分類樹模型時，首先要考慮如何將整體分為不同的子類（怎么分），以及何時停止劃分（如何修剪），如何判斷最終產(chǎn)品類型，最后如何判斷最終節(jié)點類型。常用分支和剪枝的算法有：CART、ID3、C4.5等。本文使用CART算法，其判斷界定信息的有序無序的方法是Gini系數(shù)。則概率分布的Gini系數(shù)的表達(dá)式如下：其中，K表示一共有幾個類別，P_k表示第K個類別的概率。模型的不純度用基尼系數(shù)反應(yīng)，不純度越低，基尼系數(shù)越小，特征也就越好。本文使用R軟件中rpart包中的rpart函數(shù)，所得模型的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.83%。

（三）AdaBoost模型Boosting，也稱為強化學(xué)習(xí)或增強方法，是一種相對重要的集成學(xué)習(xí)方法，可以將預(yù)測準(zhǔn)確性僅比隨機猜測稍強的弱學(xué)習(xí)者增強為具有較高預(yù)測準(zhǔn)確性的強學(xué)習(xí)者。AdaBoost是英語中“AdaptiveBoosting”（自適應(yīng)增強）的縮寫。它的自適應(yīng)性體現(xiàn)在：被先前的基本分類器誤分類的樣本的權(quán)重值將增加，而正確分類的樣本的權(quán)重值將降低。并且將再次用于訓(xùn)練下一個基本分類器。在每輪迭代中添加新的弱分類器，直到達(dá)到預(yù)定且足夠小的錯誤率或達(dá)到預(yù)先指定的迭代次數(shù)為止，最后形成一個強分類器。本文使用R軟件中adabag包中的bosting函數(shù)，設(shè)置權(quán)重更新系數(shù)為Freund，其計算公式為α=ln((1-err)/err)所得模型的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.85%。使用上文的三個模型，對測試集的數(shù)據(jù)進(jìn)行預(yù)測，預(yù)測結(jié)果如下（詳見表2）。

四、模型比較

本文將從預(yù)測準(zhǔn)確率，第二錯誤率和誤判成本三個方面對信用評估模型進(jìn)行評價。

（一）預(yù)測準(zhǔn)確率對于一個分類模型，本文將樣本數(shù)據(jù)分為訓(xùn)練集和測試集，而在訓(xùn)練集中，樣本的預(yù)測能力體現(xiàn)了一個模型的精度，而測試集的預(yù)測準(zhǔn)確率則反映了該模型除了對生成模型以外的樣本進(jìn)行預(yù)測的能力，即泛化能力[4]。并且從風(fēng)險管理的角度來看，預(yù)測的違約概率的準(zhǔn)確性可以用來對可信的或不可信的客戶進(jìn)行分類。三個模型的測試集的預(yù)測準(zhǔn)確率均高于訓(xùn)練集的預(yù)測準(zhǔn)確率，表明三個模型的穩(wěn)健性或泛化能力比較好。從訓(xùn)練集預(yù)測的準(zhǔn)確度來看，三個模型的預(yù)測精度差別并不大，但是從測試集的準(zhǔn)確性看，AdaBoost方法建立的信用評估模型的準(zhǔn)確度明顯比其余兩種方法要高，達(dá)到了82.61%。并且三個模型在測試集和訓(xùn)練集中的預(yù)測能力都比較接近，表明它們是較為均衡的模型。

（二）第二錯誤率本文將履約用戶誤判為違約客戶定義為第一類錯誤，將違約客戶誤判為違約客戶定義為第二類錯誤。對于銀行機構(gòu)而言，犯第二類錯誤的損失將遠(yuǎn)遠(yuǎn)大于第一類錯誤，因而較好的預(yù)測模型應(yīng)該有較小的第二類錯誤率。從表2中可以看出AdaBoost建立的信用評估模型測試集對違約判定的準(zhǔn)確率為36.48%，比其余兩種模型高，也即第二類錯誤率較低。

（三）誤判成本在信用貸款業(yè)務(wù)中，把違約客戶誤認(rèn)為是履行合同的客戶對銀行造成的損失更大。因此，評價模型的預(yù)測效果時，應(yīng)該考慮錯誤分類的成本。誤判代價的計算公式如下：1表示客戶履約，2表示客戶違約；π1和π2分別表示客戶履約和違約的先驗概率；n1/N1表示第一類錯誤；n2/N2表示第二類錯誤的概率；c(2/1)和c(1/2)分別表示第一類錯誤和第二類錯誤對應(yīng)的錯誤分類的成本。本文將使用West[5]文章中使用方式，將c(1/2)設(shè)置為1，c(2/1)設(shè)置為5，即第二類錯誤成本為第一類錯誤成本的5倍，同時將客戶履約和違約的先驗概率均設(shè)為0.5。從表2中可以看出AdaBoost建立的信用評估模型的誤判成本最低為43.92%，明線由于線性判別（45.22%）和CART分類樹（44.03%）。

五、結(jié)語

本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ)，使用相同的訓(xùn)練集與測試集，分別使用線性判別分析、CART分類樹和AdaBoost算法3種方法建立個人信用風(fēng)險評估模型，對同一測試集測試客戶違約率，并從預(yù)測準(zhǔn)確性、第二錯誤率和誤判成本三個方面比較這三個模型的預(yù)測能力。分析結(jié)果表明，無論是從預(yù)測準(zhǔn)確率、第二錯誤率還是誤判成本這三方面，AdaBoost算法的預(yù)測效果最好，線性判別預(yù)測效果最差。在我國，信用風(fēng)險的研究還并不成熟，各方面仍有許多值得討論的問題，但各方面條件的缺乏在一定程度上限制了這一領(lǐng)域的研究。由于缺乏條件，本文模型仍然存在一定的缺陷，有待于進(jìn)一步完善和完善。首先，指標(biāo)體系的建立有待進(jìn)一步完善。由于沒有完全開放的數(shù)據(jù)庫，使得研究中樣本的選擇更加困難。其次，模型的算法還有進(jìn)一步改進(jìn)，雖然本文中AdaBoost算法的分類準(zhǔn)確率比較高，但是可能存在由于數(shù)據(jù)不平衡導(dǎo)致分類精度下降，弱分類器的數(shù)目也不太好設(shè)定。最后，在實際中，由于我國是一個大國，各地的經(jīng)濟(jì)發(fā)展不均衡，區(qū)域特征有顯著的差異，因而在構(gòu)建個人風(fēng)險評估模型時，應(yīng)考慮到上述差異，針對不同地區(qū)的人群構(gòu)建不同的模型。

參考文獻(xiàn)：

[1]王富全.個人信用評估與聲譽機制研究[M].濟(jì)南:山東大學(xué)出版社,2010.

[2]謝霖銓,趙楠,徐浩.個人信用風(fēng)險評估模型發(fā)展研究[J].河南科技,2018(02):13-16.

作者：熊梁程單位：上海對外經(jīng)貿(mào)大學(xué)

談個人信用風(fēng)險評估模型比較

相關(guān)期刊推薦

個人電腦