公務(wù)員期刊網(wǎng) 論文中心 正文

電商企業(yè)信用風(fēng)險預(yù)警模型缺失值探究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電商企業(yè)信用風(fēng)險預(yù)警模型缺失值探究范文,希望能給你帶來靈感和參考,敬請閱讀。

電商企業(yè)信用風(fēng)險預(yù)警模型缺失值探究

摘要:電子商務(wù)信用風(fēng)險評估是建設(shè)信用體系的重要環(huán)節(jié)。在企業(yè)電子商務(wù)數(shù)據(jù)采集存在缺失值的情況下,本文比較了BP神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、極限學(xué)習(xí)機以及對應(yīng)的集成模型在含缺失值預(yù)測樣本的魯棒性。實證數(shù)據(jù)分析結(jié)果顯示,極限學(xué)習(xí)機及其集成模型在上述情況下優(yōu)于其他模型。

關(guān)鍵詞:信用風(fēng)險預(yù)警;缺失值;機器學(xué)習(xí)

1引言

2019年中國電子商務(wù)報告數(shù)據(jù)顯示,我國的電子商務(wù)逐年穩(wěn)步增長,在國民經(jīng)濟中的比重越來越大,發(fā)揮著重要的經(jīng)濟和社會作用[1]。但是另一份報告指出信用風(fēng)險破壞著健康的電子商務(wù)交易環(huán)境[2],阻礙了電子商務(wù)的進一步快速發(fā)展。構(gòu)建信用管理體系,將信用風(fēng)險納入體系有助于規(guī)范和推動電子商務(wù)市場。有效的信用風(fēng)險評估可以提升交易主體的信心,加速商務(wù)活動的過程,從而為電商創(chuàng)造更有利的發(fā)展環(huán)境。電商信用評估模型的建立一般通過指標(biāo)設(shè)計及數(shù)據(jù)采集、指標(biāo)篩選以及模型訓(xùn)練和評估3個基本步驟。目前國內(nèi)外已有研究顯示[2-7],在電商數(shù)據(jù)樣本少、維度高以及類別不平衡的情況下,基于機器學(xué)習(xí)方法的電商信用風(fēng)險評估模型效果優(yōu)于傳統(tǒng)的統(tǒng)計方法,能夠有效地評估信用風(fēng)險。然而建立好的模型僅能在待測樣本所有指標(biāo)數(shù)據(jù)完整的情況下工作。在實際情況中,由于數(shù)據(jù)采集受到企業(yè)制度、隱私規(guī)范等情況的限制,難以為待評估的企業(yè)收集到完整指標(biāo)數(shù)據(jù)。此時模型的應(yīng)用就受到了極大的限制。一個很自然的解決方法就是為含缺失值的樣本補全缺失數(shù)據(jù),然后再進行評估。因此,研究待測樣本在常規(guī)的缺失值補全方式下模型的魯棒性可以為模型的應(yīng)用提供有價值的參考,具有重要的實踐意義。現(xiàn)有研究在電商信用風(fēng)險預(yù)測模型中常用的機器學(xué)習(xí)技術(shù)包括反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(SVM)、決策樹(DT)以及上述模型的同質(zhì)集成和異質(zhì)集成模型。一些研究人員使用神經(jīng)網(wǎng)絡(luò)模型進行信用風(fēng)險預(yù)警等級的預(yù)測[2-4],不同的是王新輝使用誤差反向傳播來進行優(yōu)化[2],ZhangX使用粒子群算法進行優(yōu)化[3],HuangXB使用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和概率神經(jīng)網(wǎng)絡(luò)(PNN)[4]。一些研究人員使用SVM作為同質(zhì)集成模型的基分類器[5-6],不同的是陳云等通過隨機子集模型(RSM)方法集成[5],而周可瀅通過Bagging方法來集成[6]。XuYZ等綜合評估了DT分別與邏輯回歸(LR)、動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)及神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型性能[7],提出了決策樹-神經(jīng)網(wǎng)絡(luò)的組合模型。對樣本缺失數(shù)據(jù)的填補除了傳統(tǒng)方法外,還有基于統(tǒng)計學(xué)習(xí)和深度學(xué)習(xí)的方法。金勇進歸納和介紹了均值填補、回歸填補、多重填補、隨機估計填補和演繹估計填補等傳統(tǒng)的缺失數(shù)據(jù)填補方法[8]。樸范玉使用自動編碼器通過完整數(shù)據(jù)學(xué)習(xí)了待填補的數(shù)據(jù)特征[9],再通過學(xué)習(xí)好的自動編碼器完成數(shù)據(jù)的填補。孟杰使用隨機森林模型來完成調(diào)查問卷缺失數(shù)據(jù)的填補[10]。曹衛(wèi)權(quán)研究了機器學(xué)習(xí)中的數(shù)據(jù)特征[11],提出了一種近似填補方法。張網(wǎng)娟則在卷積神經(jīng)網(wǎng)絡(luò)模型的背景下研究了缺失數(shù)據(jù)的填補方法[12]。由于基于統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)的方法需要獲得數(shù)據(jù)分布的先驗假設(shè),直接應(yīng)用在電商數(shù)據(jù)少量樣本的場景下容易造成嚴重的數(shù)據(jù)偏差,因此本文擬采用最常用和傳統(tǒng)的均值填補方法。與以往為了改善模型性能的缺失數(shù)據(jù)填補不同,本文研究訓(xùn)練好的模型對含缺失值待測樣本的影響?,F(xiàn)有的機器學(xué)習(xí)算法在超參數(shù)的選擇下幾乎都可以達到良好的一致的效果,但是在預(yù)測樣本含缺失值的情況下可能造成不同的性能下降,即對含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機器學(xué)習(xí)模型,使用常規(guī)均值填補的缺失值預(yù)測樣本情況下的魯棒性。

2對比模型及缺失值填補方法

2.1對比模型

在電商信用評估中常用的機器學(xué)習(xí)模型有BPNN、SVM和DT。為了進一步評估不同的模型,本文將極限學(xué)習(xí)機(ELM)加入對比模型。除了以上四種模型以外,考慮到集成學(xué)習(xí)可以降低模型的偏差,進一步增強模型在不同場景下的泛化能力,更加準(zhǔn)確和公正地評估模型的性能[13],本文將以上四個模型作為基分類器進行同質(zhì)的集成學(xué)習(xí),對多個基分類器的結(jié)果使用相對多數(shù)投票法的結(jié)合策略,然后進一步比較性能。BPNN是一種分層的非線性映射網(wǎng)絡(luò)結(jié)構(gòu)[14]。其輸入數(shù)據(jù)通過網(wǎng)絡(luò)權(quán)重的線性變換后,再由具備非線性能力的激活函數(shù)映射后輸出,根據(jù)輸出預(yù)測值與真值之間的誤差逆向傳播來更新網(wǎng)絡(luò)權(quán)重達到優(yōu)化模型的目的。BPNN可用于回歸和分類,在分類任務(wù)中通常在輸出層使用Softmax函數(shù)進行歸一化,誤差由交叉熵來表達。SVM通過尋找能使二類樣本間的最大間隔超平面來建立模型[15],一般通過SMO等優(yōu)化技術(shù)來求解。SVM可以將樣本經(jīng)過核函數(shù)映射到希爾伯特空間后再計算超平面以獲得非線性的類決策邊界。SVM經(jīng)過“一對多”、“一對一”等訓(xùn)練方式拓展后可以應(yīng)用于多分類任務(wù)。DT依據(jù)屬性值的不同來以樹狀結(jié)構(gòu)按樣本屬性劃分樣本類別[16]。劃分屬性的選擇基準(zhǔn)為信息熵、基尼系數(shù)等信息度量。當(dāng)樹狀結(jié)構(gòu)的葉子結(jié)點類別一致或?qū)傩灾狄恢聲r停止算法。ELM使用的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)相似[17],在求解方法和思想上有較大的區(qū)別。ELM首先通過線性變換結(jié)合非線性的激活函數(shù)將訓(xùn)練樣本隨機投影到新的空間,在新的空間內(nèi)直接求解使得投影后的樣本與真值之間最小誤差的線性變換矩陣。由于投影的隨機性和直接計算解析解,ELM求解速度快,其泛化能力在一定程度上優(yōu)于BPNN。

2.2無類別先驗均值填補方法

使用類均值補全缺失值,即使用該樣本所屬類別在該屬性值上的均值代替缺失值,并以此參與模型訓(xùn)練和預(yù)測。但是在本文的場景中缺失值的樣本為待測樣本,未知其類別,也就無法使用對應(yīng)類別的屬性均值代替缺失值。因此,本文使用各個類別的均值分別替代缺失值后,再對補全缺失值的樣本進行預(yù)測。即若模型為k分類問題,則每一個待測樣本需要使用k個類的均值分別代替補全,每一個待測樣本會產(chǎn)生k個補全后的樣本。通過補全后的測試集樣本數(shù)量為原測試集樣本的k倍。由于補全缺失值后的樣本受到所填補的非所屬類均值數(shù)據(jù)的干擾,會造成原有模型在測試準(zhǔn)確率上的下降,因此可以通過模型在補全后的樣本測試集上測試準(zhǔn)確率來判斷模型對缺失值預(yù)測樣本的魯棒性。

3實證研究及其分析

3.1數(shù)據(jù)來源及其指標(biāo)體系

本文采用王新輝建立的指標(biāo)體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[2],使用該體系中的全部19個指標(biāo)作為研究的數(shù)據(jù)來源。王新輝首先根據(jù)19個指標(biāo)間的相關(guān)系[2],使用主成分分析法選擇出13個重要指標(biāo),然后根據(jù)這些指標(biāo)和專家打分劃分出不同的信用風(fēng)險等級,最后使用BPNN訓(xùn)練得到模型。本文為了降低類別不平衡問題對模型魯棒性造成的影響,綜合考慮實踐的信用風(fēng)險預(yù)警等級情況,將數(shù)據(jù)集重新劃分為以下3個等級,對應(yīng)的預(yù)警等級和分值范圍為:無風(fēng)險預(yù)警A(70-100),低風(fēng)險預(yù)警B(40-69),風(fēng)險預(yù)警C(0-39)。此時原始數(shù)據(jù)中的18家企業(yè)信用風(fēng)險分值和風(fēng)險預(yù)警等級如表1所示。根據(jù)表1,本文取前13家企業(yè)為訓(xùn)練樣本,后5家為測試樣本。然后對5個測試樣本假設(shè)為缺失值樣本,為了平衡對比模型各個屬性上的差異,樣本中的各個屬性都假設(shè)為缺失值,這樣每一個待測樣本都產(chǎn)生19個測試樣本。這19個樣本分別對應(yīng)著19個屬性缺失值。按照上述的假設(shè),測試集共有5*19=95個樣本,在每一個屬性上缺失值樣本各5個。對這95個含缺失值的預(yù)測樣本使用無先驗的類均值填補方法,每一個預(yù)測樣本需要分別填補3次,對應(yīng)3個類別的預(yù)警級別,最終在類別上無先驗,屬性值上均衡的測試集樣本數(shù)量共有95*3=285個測試樣本。

3.2模型參數(shù)選擇及實驗設(shè)置

模型中的各個參數(shù)選擇通過交叉驗證來選擇。在BPNN模型中,使用單隱層結(jié)構(gòu),隱層的結(jié)點數(shù)量為5個,激活函數(shù)為Sigmoid函數(shù),優(yōu)化方法采用L-BFGS算法,收斂條件為誤差小于0.001或迭代達到最大次數(shù)。在SVM模型中,使用RBF徑向基函數(shù)為核函數(shù),其核寬度參數(shù)為1/19,懲罰因子C為1,收斂條件為誤差小于0.001或迭代達到最大次數(shù)。若在集成時,則參數(shù)C和核寬度在一定范圍內(nèi)隨機抽樣以增加多樣性。在DT模型中,使用信息熵增益。在ELM模型中,隱層結(jié)點數(shù)選擇為7個結(jié)點,激活函數(shù)同樣設(shè)置為Sigmoid函數(shù)。在檢測基分類器的效果時,每個模型各運行500次取測試準(zhǔn)確率平均值作為比較;在檢測集成模型的效果時,使用500個基學(xué)習(xí)器進行相對多數(shù)投票法來預(yù)測最終分類結(jié)果,每個集成模型運行10次,取準(zhǔn)確率均值作為度量比較模型效果。

3.3實驗結(jié)果及分析

不同的基分類器運行500次后準(zhǔn)確率的平均值如圖1所示。每組數(shù)據(jù)左邊代表原始數(shù)據(jù)集上的準(zhǔn)確率,右邊代表含缺失值的預(yù)測樣本準(zhǔn)確率??梢悦黠@地發(fā)現(xiàn),含缺失值的預(yù)測樣本準(zhǔn)確率明顯低于原始數(shù)據(jù)集。同時還可以發(fā)現(xiàn)以下結(jié)論:SVM分類器的準(zhǔn)確率明顯高于其他分類器;ELM對缺失值的魯棒性最好,模型準(zhǔn)確率下降的幅度最少。這說明SVM在小規(guī)模的數(shù)據(jù)集上訓(xùn)練得到的模型具備更好的泛化能力,而ELM由于進行了隨機投影,因此更不容易受到缺失值的影響。使用不同數(shù)量的基分類器進行集成的模型效果如圖2所示。圖2所展示的是含缺失值預(yù)測數(shù)據(jù)集的準(zhǔn)確率。從圖中可以明顯看出,ELM為基分類器的集成模型明顯高于其他模型。當(dāng)基分類器的數(shù)量達到一定程度時,模型的預(yù)測效果較為穩(wěn)定。根據(jù)圖2的結(jié)論,集成分類器的數(shù)量設(shè)置為500。使用500個基分類器的集成模型運行10次后,以及單個基分類器運行500次后的原始數(shù)據(jù)集準(zhǔn)確率和含缺失值樣本的測試數(shù)據(jù)集準(zhǔn)確率的平均值如圖3所示。從圖中展示的結(jié)果可以看出:(1)以ELM為基分類器的集成模型無論在原始測試集和含缺失值的測試集中都具備最高的準(zhǔn)確率,表明在小樣本高維度的情況下,ELM的隨機投影能夠充分挖掘數(shù)據(jù)內(nèi)部聯(lián)系,提高模型的泛化能力。(2)以ELM為基分類器的集成模型在原始測試集和含缺失值測試集上的準(zhǔn)確率一致,沒有下降,表明集成的ELM模型對含缺失值測試集具備良好的魯棒性。(3)除了SVM外的其他模型,通過集成后都提高了其模型在原始測試集和含缺失值測試上的準(zhǔn)確率。(4)SVM在集成后幾乎沒有提高準(zhǔn)確率。這可能是在小樣本情況下,不同基分類器所學(xué)習(xí)到的支持向量幾乎一致,因此難以在集成學(xué)習(xí)下進一步提高準(zhǔn)確率。

4結(jié)語

本文以電子商務(wù)企業(yè)信用風(fēng)險預(yù)警為背景,研究了基于BPNN、SVM、DT以及ELM模型的分類器在含缺失值的預(yù)測樣本情況下的魯棒性。實證分析顯示,ELM在魯棒性方面表現(xiàn)優(yōu)于其他類型的分類器。以ELM為基分類器的集成模型不僅在魯棒性方法同樣優(yōu)于其他模型,在集成后的模型中也達到了最好的準(zhǔn)確率。本文所設(shè)計的無類別先驗的均值補全方法所生成的測試集與實際情況下的含缺失值樣本還存在著差異,今后考將慮從實際情況出發(fā)進一步驗證不同模型的魯棒性。

作者:陳艷 蔣偉杰 單位:福州大學(xué)至誠學(xué)院經(jīng)濟管理系 福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院