个人信用评估GA神经网络模型的构建与应用
第9卷第4期2007年8月
武汉科技大学学报(社会科学版)
J.ofWuhanUni.ofSci.&Tech.(SocialScienceEdition)
Vol.9,No.4Aug.2007
个人信用评估GA神经网络模型的构建与应用
姜明辉 袁绪川
(哈尔滨工业大学管理学院,黑龙江哈尔滨150001)
摘要:个人信用评估对于商业银行规避消费信贷风险具有重要意义。为了构建更优的个人信用评估模型,提出了利用遗传算法(GA)优化神经网络的信用评估方法,并通过GA适应度函数的设置控制信用评估中给商业银行造成损失较大的第二类误判的发生。模型的应用结果与BP神经网络进行对比表明,GA神经网络能够有效地控制第二类误判的发生,模型的稳健性高,具有更好的适用性。关键词:个人信用评估;神经网络;遗传算法;BP算法
中图分类号:TP183;F830.589 文献标志码:A 文章编号:100923699(2007)0420368205
一、引言
随着我国消费信贷市场的快速发展,个人信用评估的重要性逐渐凸现。对于商业银行来说,个人信用评估就是通过考察反映消费信贷申请者的各种指标,对其按时还款的可能性进行全面的判断和评估,从而作出是否放贷的决定,这对于规避信用风险具有重要意义。在西方发达国家,对个人信用评估方法的研究不断发展,而且日趋成熟,许多方法被应用到个人信用评估领域
[1]
类精度下降幅度较大,则该模型的稳健性较
差[5]),以及在信用评估中存在的两类误判的情况并没有给予过多的考虑。而模型的稳健性以及控制给商业银行造成更大损失的第二类误判,在目前动态变化的信用环境下,对于商业银行控制信用风险的意义更为重要。
遗传算法[6](GeneticAlgorithm,GA)是人工智能领域中的一种优化计算方法。利用个体的适应度函数,通过遗传算子的操作,遗传算法能够在复杂空间进行全局搜索,相比BP算法而言,它是一种全局优化算法,已经被广泛地应用于函数优化、模式识别等领域。
基于以上的考虑,本文将GA与神经网络进行结合,构建个人信用评估GA神经网络模型,通过GA适应度函数的设置来控制第二类误判率的发生,并与BP神经网络进行对比,考察模型的稳健性。
,包括
以Logistic回归分析[2]和判别分析[3]为代表的统计模型,以及以神经网络为代表的人工智能模型。统计模型应用于信用评估领域的优点,就在于得到的模型具有可解释性,而其最大的缺陷在于统计模型对数据的分布要求比较严格[4],个人信用数据由于其高维、定性变量较多等特点,往往不能满足这些要求。在信用评估的神经网络模型中,BP网络具有广泛的应用,但容易陷入局部极小、过度训练导致网络的泛化能力降低等固有缺陷,使得BP算法在应用中的效果并不理想。因此,利用神经网络的非线性映射能力,构建更优的个人信用评估模型,具有重要的实践意义。同时,在目前信用评估模型的构建和应用当中,更多考虑的是模型的分类精度,而对于模型的稳健性,即一种模型对于训练样本以外的其余样本的适用情况(如果一种模型在训练样本外的其余样本上的分
收稿日期:2006212208
二、理论背景与模型构建思路
(一)神经网络模型与BP算法
神经网络根据神经元之间的连接方式具有多种结构,其中前向连接型的网络模型具有广泛的应用,以一个具有单隐层的三层前向神经网络为例,网络的输出可以表示为:
yi=f2(W2f1(W1Xi+b1)+b2)
(1)
式中:f,W,b———网络每层的传递函数、权值和阈
基金项目:国家哲学社会科学创新基地资助项目(编号:NCTPM200408).
作者简介:姜明辉(19672),男,黑龙江牡丹江人,哈尔滨工业大学管理学院副教授,博士,主要从事商业银行风险管理和国际技术转移研究.
值;Xi———输入向量。
神经网络就是通过不同的算法,在确定的目标函数下,对网络连接权值和阈值进行优化,使网络输出和目标输出尽可能相互匹配。在这些算法中,BP算法得到了广泛的应用,已成为大多数神经网络算法的基础。BP算法的性能函数采用均方误差函数MSE(MeanSquareError),即
1
N
N0
MSE(w)=
2N
∑ki
-^yki)
2
(2)
k=1
i∑(y
=1
式中:yki、^yki———输出层第k个节点的实际输出和期望输出;N0———输出节点的个数;N———训练样本的个数。
BP算法通过梯度下降法对网络的参数进行
优化,其权值改变公式如下:
wlji(k+1)=ww)lji(k)-μ
5MSE(5w|
w(k)
(3)
lji
式中:wlji———连接第l-1层第i个节点与第l层第j个节点的权重;μ———正常数,称为学习速率,是控制算法收敛速度的参数,一般取较小的正数;
k———训练次数。
(二)GA与模型构建思路
GA最初由Holland于20世纪70年代提出,是一种基于自然选择和基因遗传学原理的优化搜索方法。它将“优胜劣汰,适者生存”的生物进化原理引入待优化参数形成的编码串群体中,按照一定的适应度函数及一系列遗传操作对个体进行筛选,从而将适应度高的个体保留下来,组成新的群体,新群体中个体适应度不断提高,直至满足一定的极限条件。此时,群体中适应度最高的个体即为待优化参数的最优解。GA具有自适应性、全局优化性和隐含并行性等特点,体现出很强的解决问题的能力[7],能够在复杂空间进行全局优化搜索,并且具有较强的鲁棒性,即GA适应的范围广、抗干扰性强、获得的解具有稳定性等特点。GA在应用过程中,主要包括编码机制、适应度函数的确定、遗传算子(选择、交叉和变异)的选择、初始种群的选择、进化次数等方面。由于GA解的进化特性,在解的搜索中不需要了解问题的内在性质,GA可以处理任意形式的目标函数和约束,无论是线性的还是非线性的、连续的还是离散的[8]。
在信用评估的实践中,通常存在两类误判:第一类误判,统计学中称为“拒真”,是将信用好的客户判为信用差,从而拒绝其贷款申请;第二类误判,统计学中称为“纳伪”,是将信用差的客户判为信用好从而接受其贷款申请。一般来说,后者给
银行造成的损失较大。考虑到这一因素,本文将GA与神经网络进行结合,利用GA的全局搜索能力对网络的参数进行优化。模型构建的基本思路是:首先利用GA随机产生一组以神经网络的参数构成的染色体初始种群,并进行进化;然后通过GA适应度函数的设置引导种群向使第二类误判降低的方向进化;最后将GA优化的最优个体分解为神经网络的权值和阈值,并对训练后的GA神经网络模型加以应用。
三、样本数据及预处理
(一)变量及样本的选择
本文所使用的数据来自深圳某商业银行的信
贷数据库。个人是否违约的判断标准是通过对原始数据中的“违约次数”项设定一个分割点,在一定时间内通过对“违约次数”的累计来推断。在本文所用的数据中,“违约次数”是指分期偿付贷款时,还款滞后或还款金额不足的次数。在国外的实践中,一般认为在上一年中违约次数超过4次,则认为该客户具有较强的违约倾向。本文采用相对严格的分类方法,即只要该客户发生违约,不管违约次数多少,就定义该客户为违约。此外,对于数据缺失较严重的指标,本文将其剔出,最终选择的数据中包含10个解释指标,选择的指标及量化方法列于表1。
表1 指标、变量及量化
是否违约y是=0,否=1
受教育程度x1初等=1,中等=2,高等=3本人月均收入
x2
实际值
国家机关=1,科教文卫=2,商业贸易=3,邮单位性质x电通讯=4,金融保险=5,社会服务=6,水电3
气供应=7,工业交通=8,房地产建筑=9,其他=10
职业x管理人员=1,技术人员=2,职员=3,无职业4人员=4,其他=5婚姻状况x5未婚=0,已婚=1贷款金额x6实际值贷款期限x7实际值
还款方式x8等额=1,等本金=2
担保方式x9保证=1,质押=2,其他=3年龄
x10
实际值
对于这些数据,首先进行分层抽样,即将样本分为违约和未违约两类;在样本的比率方面,为了防止由于样本不均衡造成模型分类效果的偏差,选择使违约类与未违约类个数近似相等。最后对样本数据进行稳健性处理,选用三倍标准差检验法进行异常数据的剔出。按照上述处理步骤,最终本文选择1057个数据用于神经网络模型的训
练和检验,并将其随机分为两部分:一部分528个样本,包括257个违约样本和271个未违约样本用于训练模型;另一部分529个样本,包括248个违约样本和281个未违约样本,用于检验模型的分类效果。
(二)数据的归一化处理
为了加快模型的收敛以及降低数据不均衡对网络分类能力的影响,首先将训练数据和检验数据进行归一化处理。对于本文所采用的10个解释指标,将其分成离散型变量和连续型变量两组。
对于离散型变量(包括x1,x3,x4,x5,x7,x8
和x9),采用最小—最大归一化方法进行处理,即
Y=
X-Xmin
X(4)
max-Xmin
式中:Y∈[0,1]———归一化后的变量值;Xmin和
Xmax———变量X的最小值和最大值。
对于连续型变量(包括x2,x6,x10),通过对变量值的分布状况进行考察,发现这3个变量近似
服从正态分布,即X~N(μ,σ2
),因此选择如下的归一化方法进行处理,即
Y=Φ
X-μ
σ
(5)
x
式中:Φ(x)=∫
1
t2
-
∞
e-2
2π
dt———累积正态分布
概率。
四、模型的构建及应用
(一)神经网络的结构
选择单隐层的三层前向神经网络;在隐层神经元数的选择方面,根据经验公式[9]:
Lk≤
P(O+3)+1
(6)
式中:P和O———神经网络的输入层和输出层节点数;Lk———隐层节点数的上限。
输入层节点数为10,代表10个解释变量;输出层节点数为1,因此隐层节点数选择为7。此外,输入层与隐层、隐层与输出层之间的传递函数
分别选择tansig和logsig。
(二)GA神经网络模型的应用
根据本文所选择的神经网络结构,需要优化的权值和阈值的个数为10×7+7×1+7+1=
85,因此将染色体初始种群设为100。考虑到参
数个数较多,本文在GA的编码方式上选择实数编码方法,GA中的染色体位串与权值和阈值的编码映射关系如表2所示。W1和W2分别表示输入层与隐层、隐层与输出层之间的连接权值,B1和B2分别表示隐层和输出层的阈值。
表2 染色体位串与权值和阈值的映射关系
W1
W2
B1B2w11…w17,w21…w10,7w1…w7
b1…b7
b
GA通过个体的适应度大小进行筛选,适应度高的个体在下一代中存活的概率大,从而保证了随着进化代数的增加,群体中个体的适应度不断增加,最终求得的具有最高适应度的个体作为问题的最优解。考虑到为了控制第二类误判,将GA的适应度函数设置成如下形式:
nfitness=M
[1-1
1
ni
-^yi)
2
-1
i∑(y
=1
k
1
n2
ny
j
-^yj)2]
(7)
2
j∑(=1
式中:n1和n2———未违约和违约样本总数;y和
^y———网络的实际输出和期望输出;M———放大系
数,为了保证适应度的变化比较明显,这里取为100;k———变量,为了控制个人信用评估中造成损失较大的第二类误判,将其设置为大于1的常数,引导种群向降低第二类误判的方向进化,如果k取值过大,虽然会降低第二类误判,但会使第一类误判增加,从而造成总的误判增加,甚至出现过度
训练降低模型的稳健性。通过对不同数值的试验和对比,在最终模型中将k取为10。
选择算子采用比率选择方法,即,首先计算每一个个体的适应度值,并将其排序;按下式概率值选择网络个体:
pi=
fi
N(8)
i∑f
i
=1
式中:fi———个体i的适应度;pi———每个个体被选择的概率。
交叉运算选择算术交叉,即
Xt+1αXtα)XtA=B+(1-A
XB
t+1
=αXt
A+(1-α
)Xt(9)
B式中:α———参数,可以是常数,也可以是一个由进化代数所决定的变量,本文选择0.95。
变异算子选择非均匀变异,这种变异方法能够重点搜索原个体附近的微小区域。在进行由X
=x1x2ΛxkΛxl向X′=x1x2Λx′kΛxl的非均匀变异操作时,若变异点xk处的基因值的取值范围为
[Umink
,Umaxk
],则新的基因值x′k由下式确定:k
x′xk+Δ(t,Umin-vk)ifrandom(0,1)=0
k=
xk
k-Δ(t,vk-Umin)ifrandom(0,1)=0
(10)
式中:Δ(t,y)(y代表Umakx-vk或vk-Uk
min)———[0,y]范围内符合非均匀分布的一个随机数,要
2007年第4期姜明辉,等:个人信用评估GA神经网络模型的构建与应用
371
求随着进化代数t的增加,Δ(t,y)接近于0的概率也逐渐增加。变异概率的大小影响着种群的多样性以及进化结果,变异概率太大会导致适应度
高的个体被破坏,太小会影响种群的多样性以及抑制早熟现象的能力。一般建议的取值范围为0.0001~0.1。本文中的变异概率选择0.08。此外,将GA的进化代数设为1000,参数搜索的范围设为[-10,10],算法终止的条件为达到最大进化代数。
将经过归一化处理的训练样本输入利用MATLAB编制的程序中,模型在训练样本上的最优个体的适应度函数变化如图1所示。将训练
图1 GA最优个体的适应度曲线
后的GA神经网络用于检验样本的分类,并以0.5作为分类界限,即如果网络输出大于0.5,则将其判为未违约类,否则判为违约类,得到的模型在训练样本和检验样本上的分类结果列于表3。
表3 两种神经网络模型的分类结果
模型
训练样本检验样本第一类误判
第二类误判
分类精度
第一类误判
第二类误判
分类精度
GA神经
网络(28
10.33%)(0.00%)94.70%(269.25%)(62.42%)93.95%BP神经网络
(6)(2
2.21%0.78%)98.86%
(176.05%)
(124.84%)
94.52%
(三)BP神经网络模型的应用
为了对比GA神经网络在个人信用评估中的应用结果,本文利用BP神经网络对相同的训练样本和检验样本进行了训练和检验。采用MAT2
LAB神经网络工具箱进行BP网络的设计[10],结构设置与GA神经网络相同,训练迭代次数设为1000,性能函数采用均方误差函数MSE。为了克服传统BP算法的缺陷,在训练算法上采用“附加动量法”和“自适应学习速率”法相结合的改进BP算法,即
w(k+1)=w(k)-
μ5MSE(w)5w
+αw(k)
(11)
式中:α———动量因子(本文中取为0.9);μ———学
习速率。学习速率μ的设置如下:
1.05μkMSEk
μk+1=
0.7μkMSEk>1.04MSEk-1(12)
μk
其他
BP神经网络在训练样本上的均方误差变化曲线如图2所示。将训练后的BP神经网络用于检验样本的分类,并以0.5作为分类的界限,得到的分类结果列于表3。
图2 BP神经网络的训练误差曲线
五、结果分析
从表3可以看出:在训练样本上,GA神经网
络的分类精度为94.70%,低于BP网络的98.86%;在检验样本上,GA神经网络的分类精度为93.95%,同样低于BP网络94.52%的结果。可见,从分类精度的角度,GA神经网络不如BP神经网络。当从两类误判的角度,特别是给商业银行造成损失更大的第二类误判来看,通过适应度
函数的设置,GA神经网络在训练样本上的第二类误判为0,实现了对违约样本的全部正确的分类;在检验样本上也只有BP神经网络的一半。可见本文构建的GA神经网络对于控制第二类误判是有效的,这对于规避信用风险的意义更为重要。
从模型在两组样本上的分类结果的变化趋势可以看出:GA神经网络在检验样本上的分类精度比在训练样本上的分类精度降低了0.75%,可以说几乎没有变化;BP神经网络在检验样本上的分类精度比在训练样本上的分类精度降低了4.34%,可见变化幅度较大。因此,从模型的稳健性角度来考虑,GA神经网络的表现更好。
六、结语
实证研究表明,GA神经网络在分类精度上
虽然不如BP网络,但通过适应度函数的设置,GA神经网络得到了更低的第二类误判率。在个
372
武汉科技大学学报(社会科学版)2007年第4期
人信用评估中,一种稳健性好的模型对于商业银行规避信用风险、提高消费贷款的积极性意义更为重要。此外,GA神经网络表现出比后者更好的稳健性。因此,从规避信用风险以及个人信用数据随着信用环境动态变化的角度考虑,GA神经网络具有更好的适用性。
参考
文
献
行信用风险评估[J].系统工程理论与实践,1999
(9):24232.
[5] 石庆焱.一个基于神经网络———Logistic回归的混
合两阶段个人信用评分模型研究[J].统计研究,
2005(5):45249.
[6] JHolland.Adaptationinnaturalandartificialsys2
tems[M].AnnArbor:TheUniversityofMichiganPress,1975.
[7] 周明,孙树栋.遗传算法原理及应用[M].北京:国
[1] LynCThomas.Asurveyofcreditandbehavioral
scoring:forecastingfinancialriskoflendingtocon2sumers[J].InternationalJournalofForecasting,2000(16):1492172.
[2] WigintonJC.Anoteonthecomparisonoflogitand
discriminantmodelsofconsumercreditbehaviour[J].JournalofFinancialandQuantitativeAnalysis,1980(15):7572770.
[3] GrablowskyBJ,TalleyWK.Probitanddiscrimi2
nantfunctionsforclassifyingcreditapplicants:acomparison[J].JournalofEconomicsandBusi2ness,1981(33):2542261.
[4] 王春峰,万海晖,张维.基于神经网络技术的商业银
防工业出版社,1999:4254.
[8] 李根义,朱学愚,钱家忠,等.实数编码遗传算法优
化的神经网络模型在岩溶水水位预报中的应用
[J].南京大学学报:自然科学版,2001(3):3232327.
[9] 惠晓峰,胡运权,胡伟.基于遗传算法的BP神经网
络在汇率预测中的应用研究[J].数量经济技术经济研究,2002(2):80283.
[10]许东,吴铮.基于MATLAB6.x的系统分析与设
计———神经网络:第二版[M].西安:西安电子科技大学出版社.2002:38243.
Constructionandapplicationofpersonalcreditassessment
GAneuralnetworkmodel
JiangMinghui YuanXuchuan
(SchoolofManagement,HarbinInstituteofTechnology,Harbin150001,China)
Abstract:Personalcreditassessmentisofgreatsignificanceforcommercialbankstoavoidcreditrisk.Forabetterpersonalcreditassessmentmodel,thisarticleproposestousegeneticalgorithm(GA)tooptimizetheneuralnetworkcreditevaluationandtostayoff,bysettingadaptivefunctionwithGA,thesecondcategoryofmisjudgmentincreditevaluationthatoftencausesseverelosstocommercialbanks.Theapplicationofthemodelshowsthat,comparedwithBPneuralnetwork,GAneuralnet2workismoreeffectiveincontrollingtheoccurrenceofthesecondcategoryofmisjudgment.Themodelisstableandhasbetterapplicability.
Keywords:personalcreditassessment;neuralnetwork;GA;BPalgorithm
[责任编辑 李丹葵]
论点摘编
媒介传播中的文化差异与文化意识
谭诚训在《中国青年政治学院学报》2007年第2期中撰文指出,传者与受者的文化差异产生传播的意义,文化意识也需要在这种差异中构建和保持。在文化质差中,传者需要保持明确的主流文化意识;在文化位差中,传者需要树立一定的精英文化意识;在文化时差中,传者则需要具备较强的大众文化意识。传受双方如果不存在任何文化差异,那么传者的文化意识也可以淡化乃至取消。