• 连接人,信息和资产

    和百万人一起成长

银行内评模型构建的全流程指导:违约损失率模型

LGD模型构建一直是银行的难点,关键障碍在于LGD的数据缺失相当严重。

作者:相信未来

来源:泓策投研手札(ID:FinanceBao)

评级是艺术,但你废掉另一只腿科学,直接和我开聊艺术和分析框架我就难以信服了,两者不矛盾,你为什么不和我聊聊科学?前述文章中谈及了数据治理问题(大数据信用风险管理操作手册),以及内评模型验证问题(内部评级模型验证方法全解析),本文则详细叙述银行内评模型建模的全流程(债券评级模型有自身特征),欢迎来怼。

违约损失率,也就是当客户发生违约后,债项损失的程度,等于1-回收率。《巴塞尔协议》强调“估计违约损失率的损失是指经济损失”,而不是会计上的账面损失。经济损失要考虑回收成本和资金的时间价值,也就是利用合适的折现率计算祸首现金流的现值。所以《巴塞尔协议》下的违约损失率(LGD)为:

计算历史LGD的三个关键:回收现金流(有效催收窗口)、回收成本、折现率。

  • 数据收集和变量构造

LGD模型构建一直是银行的难点,关键障碍在于LGD的数据缺失相当严重。LGD建模所需要数据可分为两部分:因变量和自变量计算所需要的数据。违约概率(PD)模型的数据缺失主要为自变量计算所需要数据的缺失,因变量(即违约与否的判断)数据质量相对较好,而LGD模型这两方面的数据缺失都相当严重。

历史LGD的计算数据,重点在于回收现金流、回收成本、折现率。关于回收现金流,各行都有催收台账,但是很少有银行在IT系统记录了详细准确的交易明细,成本分摊更是商业银行的软肋,准确地估计某个机构、某个时段、某个产品的回收成本几乎是不可能的。大型商业银行已经上线了标准催收、ERP等系统,这方面的情况有所改善。

自变量数据,包括债项类型、债项的优先级别、抵(质)押品、抵债资产的优先求债权、破产相关法律因素、行业因素、违约概率、商业周期、信贷历史、宏观经济等方面,其中,商业银行对于抵(质)押品的管理一直比较薄弱,数据积累也非常差,各大商业银行已经开始已经建设抵(质)押品市值重估和管理系统,数据情况得到改善。

穆迪的LossCalc™模型(Guptonand Stein, 2002)包括了债务类型和优先级、资本结构、行业、宏观经济四个方面的九个自变量。

         穆迪LossCalc(TM)模型变量

变量类型

变量名称

变量数目

债务类型和优先级别

债务类型优先级别对应的LGD历史平均值

X1

资本结构

债务的相对级别

资产负债率

X2

X3

行业因素

行业回收率平均值

银行业指标

X4

X5

宏观经济因素

RiskCal模型计算的上市公司1年期违约概率中位数

穆迪破产企业债券指数

投机级债券12个月平均违约率

经济领先指数

X6

X7

X8

X9

  • 模型分组和样本选择

违约损失率LGD模型的分组基本上与客户违约概率评级模型的分组原则比较类似,一般可以从行业、规模、区域、产品等维度进行分组,具体应该选择几个维度,在每个维度如何分组,应该考察经济学直觉、业务管理情况、数据来源、统计分析等几个方面的情况。

违约损失率LGD模型必须要进行非违约账户和违约账户的分组,因为已经违约的客户包括了逾期后回收的更新数据,信息量远大于非违约账户,可以构造更多的自变量,预测也更为准确。

在非违约账户和违约账户分组中,LGD模型建设都只使用违约样本,但是观察期和表现期的构造不一致。非违约账户分组中,所有样本在观察点之前还没有发生违约,而在表现期内都发生违约,发生违约的账户回收率取决于有效催收窗口的分析,所以LGD模型的建设对于历史数据的时间长度要求比较高。

 

违约账户分组中,所有样本在当前观察点之前都已经发生违约,有效催收窗口在观察点之前已经开始,需要三年数据。

  • LGD分布特征

    1、Beta 分布

2、穆迪通过实证认为回收率服从Beta分布。

首先,回收率分布区间为[0,1]

Beta分布的形状随着两个参数的变化而呈现很大的差异,也能很好地拟合偏峰厚尾的情况。


Moody公司1970-2002年第二季度间所有

债券和贷款回收率

LGD呈现的双峰分布(Bimodal Distribution),商业银行的信贷业务,双峰的情况比较严重。直觉上也比较容易理解,如果债务人主观上愿意还钱,无论时间长短,最终回归换大部分的借款,即违约损失率LGD比较低,呈现为低端的峰;如果债务人主观上没有意愿还钱,既然是违约,不如违约彻底,即违约损失率LGD比较高,呈现高端的峰。

特别对于中国商业银行,因为受国内坏账核销等法规和信用环境的影响,双峰分布更为极端,LGD取值0和1的情况占比非常大,也就是说,很多债务在催收后能全额还款,而有些债务则一分钱都没能回收。

双Beta函数的密度函数为

对于中国的商业银行,因为受到国内坏账核销等法规的影响,双峰分布更为极端,LGD取值为0和1的情况占比非常大:很多债务在催收后能全额还款,有些债务则分文收不回来。

  • 模型方法论

理论上,没有绝对最优的模型方法论,其选择依赖于研究对象的数据结构和数据特性。违约损失率LGD数据的特点是:

1. LGD取值局限于[0,1],实证研究表明其分布为贝塔分布或双峰分布,总之不是正态分布,不适合使用线性回归模型。客户评级模型常用的Logistic回归是半参数方法,对于分布要求并不要个,能否使用LGD模型呢?

2. LGD取值在[0,1]连续,Logistic回归应用于分类问题,需要因变量离散变量,无法直接应用。

根据违约损失率LGD数据的特点,介绍三种模型方法:穆迪LossCalc™模型、构造样本Logistic回归、决策树。

(1)     穆迪的LossCalc™模型

穆迪的违约损失率LossCalc™模型基于回收率为因变量展开,由于回收率=1-LGD,所以无论是LGD还是回收率为因变量,没有什么本质区别。

(1-1)  logistic模型

穆迪的违约损失率LossCalc™模型中迷你模型类似穆迪违约概率模型RiskCal的处理,即通过单变量分析得到自变量到历史平均LGD的转化函数。

(1-2)   分布转化

在回收率符合贝塔分布的情况下,可以通过分布转化函数将贝塔空间下的回收率R转化成正态空间下的回收率

在正态空间下,可以采用线性回归:

其中,Betadist(R)代表Beta分布函数

      为迷你模型的输出结果作为回归模型的输入

(2)     构造样本Logistic回归

LossCalc™模型方法在LGD取值比较连续的时候比较有效,但是对于中国的商业银行业LGD分布在1和0点过多的情况,适用性有限。

如果LGD取值0和1比重非常高,可以采用Logistic回归方法,对于其中在区间(0,1)的值,可以采用如下构造样本的处理方法:

(2-1)   四舍五入法。顾名思义,就是LGD取值大于等于0.5的时候取值1,小于0.5的时候取值0.

(2-2)  样本权重法。四舍五入法的处理有点粗糙,只有双峰现象明显,LGD在区间(0,1)取值很少的时候才使用。样本权重法则精细一些,例如对于LGD取值为0.6的样本,构造LGD分别等于1和0的两个样本与其对应,然后在模型训练中,LGD=1的样本权重为0.6,LGD=0的权重为0.4。

(2-3)  虚拟样本法。例如对于LGD取值为0.6的样本,分别构造自变量形同的6个LGD等于1,4个LGD等于0的样本;对于LGD取值为1和0的样本,则需要负值10倍,以保证合理的样本权重。虚拟样本方法效果与样本权重法一致。

(3)     决策树

决策树属于非参数法,对于数据分布、数据类型都没有严格要求,比较适合处理LGD模型这种特殊情况。而且决策树方法也非常直观,逻辑判断过程在树结构中一目了然,易于业务人员接受。

注:文章为作者独立观点,不代表资产界立场。

题图来自 Pexels,基于 CC0 协议

本文由“泓策投研手札”投稿资产界,并经资产界编辑发布。版权归原作者所有,未经授权,请勿转载,谢谢!

原标题:

【盛会邀请】2024大连·特殊资产管理高峰论坛报名开启(11.15-11.16)

年卡会员

加入特殊资产交流群

好课推荐
热门评论

还没有评论,赶快来抢沙发吧~