1.样本数据筛选与获取
信用积分下设有两类指标,包括一级指标与二级指标。本文将以申请记分为例,全面阐述这两类指标,其中一级指标主要包含个人相关信息,即年龄、收入状况、性别等;二级指标主要是对一级指标的进一步分解,并设定相应的记分区间。(1)确定信用记分的时间点,以相应的信息为依据对未来可能发生的风险予以预测,以此初步判断办卡申请人日后发展为坏客户还是好客户;(2)结合以往的状况,对未来可能发生的风险进行假设。同时立于征信系统、申请资料等多个渠道广泛搜集办卡申请人相关数据信息。从现有的账户资料中挖掘一些样本数据信息,如违约的客户信息,以这些数据信息为依据对好客户与坏客户进行区分。同时,通过比较行为数据信息以准确反映好客户与坏客户的人群特征,之后对其进行变量描述。根据相关统计数据发现,对于逾期超过90天的账户来说,其95%以上的账户均会发生向更高违约程度的转移,因此可将逾期90天确定为客户是否发展为坏账户的重要衡量指标。现阶段,国内各银行机构常用的信息记分方法主要有每月账户分析法与滑动分析法,具体内容如下:
每月账户分析法。每月账户分析法最适用于对资产组织成熟度周期的测量,资产组织成熟度周期是指账户自导入期至成熟账户这一过程中发生违约所需的时间。其中运用每月账户分析法既能够准确反映出违约率与各账户开立时间之间关系的相关信息,又能够准确描述出个账户开立时的交易状况及违约率。
滑动分析法。滑动分析法也是重要的信用记分方法,其主要依据账户违约状态的迁移状况判定是坏账户还是好账户。若账户违约,则表明坏账户难以转变为好账户,此形势下可对坏账户进行重新定义:“坏账户是指由坏的状态难以转变为好的状态,极易转移为更高违约状态的账户。”
2.数据清理与分类
数据清理实质上是通过剔除有偏性与不确定的数据,以保证计分卡开发样本准确反映出办卡申请人的实际状况。其中主要涉及到两大类账户:(1)申请排除的数据。即以相关政策规定为依据,对不符合规定的客户样本拒绝其申请;(2)结果的排除,针对于为导入期的账户、休眠的账户及卡片丢失的账户。银行机构应依照共同识别标准比较样本数据和需要分析的数据,如账户号码、客户编号等信息数据,结合对比结果进行建模,从而预测办卡申请人日后是发展为好账户还是坏账户。
国内银行机构常用精细分类与粗糙分类两种方法进行数据分类,对于精细分类法而言,其常用于检验办卡申请人申请报告中原始数据是否真实、可靠,若原始数据不符合情理预料,则需将其直接剔除;若原始数据的集中度过高,也需将其剔除。对于粗糙分类法而言,其在不违背相关标准之下,促使信息价值丢失最小化、组群数据差异最小化及各指标分组数量最大化。
3.指标剔除
因记分卡模型既要求具备稳定性,又要求具备预见性。所以银行机构在设定指标时,应将那些数据影响的指标剔除;另一方面,那些不符合审批政策的指标也应直接剔除。因此要求银行机构在选择与设定指标时需要保证所筛选的指标既具稳定性,又具预见性。
4.构建多元统计的模型
筛选、分类数据,确定变量指标,运用二元回归法或残值分析法或阶梯式法构建多元统计的模型。其中线性回归法运用原理:依托于大量的点确定最合适的线,模拟分析367条数据,验证非线性函数的适用性。若将θ视为预计坏账户的函数,此时F(θ)将为账户变坏的可能性,结合二元线性函数可得到下述等式:
5.回归分析
对模型实施回归分析原理:运用某一关系等式将所选定的指标生成数学的组合,之后着重探究单一、非独立结果怎样受多个独立变量影响作用,其中回归分析主要包含三大阶段:KGB阶段(已知好坏的模型)、AR阶段(进行拒绝推断)、KIGB阶段(开发已知与推断模型)。
银行机构应将接收到的办卡申请报告置于已知好坏的模型中予以统计,之后便可得到一个得分,该得分通常被作为衡量账户是否变化的重要指标。如,将表1中的数据置于已知好坏的模型中进行统计便可得到相对应的分值,如表2所示,而表2中分值便可作为账户变坏的概率。通过测算发现,分值的临界线为400分,低于400分需人工审核,而高于400分将自动通过。
6.模型检验
检验与校准模型的量化能力,并依据基尼系数衡量坏账户与好账户的区分度。同时,洛伦茨曲线对累计的好账户的数量与累计的坏账户的数量予以对照分布,之后偏差分析。本文通过测量样本稳定性指数(PSI),得到显示表(见表3):其中大于0.25为不可接受,介于0.10与0.25之间的为不好,介于0与0.1之间的为可接受。值得注意的是指标5、9、11、13均为不稳定的指标因素。