风控建模流程

2024-05-06 00:59

1. 风控建模流程

        以下以申请评分卡(A卡)建模为例,描述模型开发的基本流程:
   1.数据准备:定义目标变量,整合样本特征;划分数据集:训练集、验证集与测试集,由于金融业务中的样本的积累周期比较长,因此测试集有必要划分为两种,一种为训练集时间跨度内,一种为训练集时间跨度之外,用时间外的测试集验证模型特征的稳定性。
   2.探索性数据分析:统计每个特征取值的分布;统计每个特征的覆盖率,去掉覆盖率较低的特征;处理样本的异常值和缺失值。
   3.数据预处理:根据经验对特征作预筛选,筛除于目标变量无关的特征;特征分箱;WOE转换。
   4.特征选择:计算IV值,特征选择。
   5.模型开发:常用逻辑回归模型进行拟合。
   6.模型评估:模型常见的评估指标有AUC,ROC,KS,Gani-chat,Lift-chat,特征稳定性的评估指标psi。
   7.生成评分卡。
   流程示意图如下所示:
                                          
         不同的评分模型需要的数据是不同的,在建模之前需要对对要解决的问题建立明确的数学定义。
   1.排除一些特定的建模用户
           用于建模的用户必须是日常审批中接触到的用户,不能是异常情况,比如欺诈等。
   2.明确用户的属性
           用户的基本属性,比如学历、年龄、收入情况等;征信机构的数据和其他外部数据,比如芝麻分。
   3.目标变量的确立
           评分模型是利用历史的数据预测未来的行为,需要明确定义正负样本的标签。不能出现歧义,重叠等。
   4.划分数据集
           通常训练模型需要划分训练集、验证集与测试集。信贷业务中样本成熟的经历的时间比较长,因此测试集需要时间内和时间外的数据,时间内外是相对训练集的时间跨度而言,避免经过一段时间后特征波动或失效的发生。
  
 EDA的实施主要包括:
   1.描述性统计
           描述性统计是用一些统计量来对变量分析,如:平均值,标准差,最小值,最大值等。
   2.统计每个变量值的分布、特征覆盖率及检验正态分布
           通常使用直方图绘制变量不同取值的样本分布,以及变量在样本中的覆盖率,筛除样本中有值特别少的变量。
   3.极值的识别与处理
           每个变量需要设定一个正常的取值范围。对数量较少的超出正常范围的极端值作替换处理,若极端值的数量超过10%,则说明数据的生成机制不止一个。
   4.缺失值的处理
   4.1缺失值机制
  
 1.特征初筛
           根据业务经验预先筛除掉与目标变量无关的变量。
   2.特征分箱
   1)对于连续变量可以使用等频分箱、等距分箱、卡方分箱与最优分箱;
   2)对于离散变量,可以卡方分箱,对离散变量取值合并分箱。
   3.特征编码
   1)特征分箱离散化后可计算每个bin的woe值,形成每个bin的woe编码
   2)one-hot编码
   3)dummy编码,与one-hot编码类似
  
 1.计算IV值与psi值
           IV(Information Value):信息价值。IV可以用来衡量自变量的预测能力;WOE(Weight of Evidence,证据权重)和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。PSI可以用来衡量特征的稳定性。
           在训练模型时,挑选特征是一个比较复杂的过程,要考虑的因素有很多,比如,变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务中的可解释性。其中变量的预测能力可以通过IV值衡量。IV的计算是以WOE为基础的。
  
         要对一个变量进行WOE编码,必须对变量离散化(分箱),分箱后,第i组的woe值得计算公式为:
     
   其中,  为这个组中响应客户(风险模型中为违约客户,正样本)的,占总体正样本的比例,  为负样本所占比例,  为该分组中正样本数量,  为该组负样本数量,  代表总体样本中的正负样本数量,WOE实际代表该分组中的正负样本比例的差异,值越大,差异越大,该分组越能区分正负样本。第i组的IV 值为:
     
   整个变量的IV值为(n个分组  值得嘉和):
     
  
 2.特征筛选
   选择IV值高,PSI值低,覆盖率高的特征入模。
  
 1.模型拟合
   常用lr逻辑回归模型进行分类。
   2.step-wise模型优化
   根据p值筛选模型变量,原假设(变量不重要,与目标变量无光),在此假设基础上计算chi-square,若chi-square值大,则p值小,p值<0.01说明变量很重要。
  
         模型拟合之后,需要评估模型的好坏。好的模型一般要有以下三个基本要求:
   1.精确性。模型在预测时,要有一定的精确性;2.稳健性。模型必须对从总体样本中抽取的所有样本都有效;3.有意义
   以下介绍几个常用的评价指标:
   1.混淆矩阵
   2.KS曲线
   3.AUC曲线
   4.ROC指标
   5.Gini系数
   6.Lift-chart提升图
  
         一个事件发生的几率(Odds),是指该事件发生的概率与该事件不发生概率的比值。若一个客户违约概率为p,则其正常的概率为1-p,由此可得:
     
   此时,客户违约的概率p可以表示为:
     
   评分卡表达式为:
     
   其中A、B为常数。由于log函数在(0→+∞)单调递增,所以当用户违约几率Odds越大时,Score评分越低。通过给定 :
   (1)某特定Odds时的Score值S0;
   (2)该特定Odds值翻倍时Score增加值PD0;
   通过给定值S0与PD0带入评分卡表达式,可求得A、B。
  
 (未完待续。。。)

风控建模流程

2. 怎么构建风险管控模型

风险识别与可能性预测:
要全面分析公司所处的环境和内外部特点,列出公司可能面临的所有风险因素,即列出风险清单。

评估各种风险如何影响公司的价值:风险成本:
在实施整合风险管理的过程中,管理人员不仅要估计出每一种风险对公司价值的影响,而且还必须了解每一种风险是如何作用于整个公司的风险组合,以及减少每一种风险所需要的成本。由于风险管理产生的效益(以及成本)在每个企业之间有所不同,风险管理策略必须量体裁衣,适应每个公司的具体情况。

分析风险管理方式:
管理人员必须考虑对已经列明的风险以何种方式进行管理,特别是要从转变经营方式、调整资本结构、使用各种金融工具等三方面入手进行分析。在这个过程中,关键问题是分析清楚不同风险管理方式是如何相互作用的。

建立公司价值模型:
在掌握了公司面临的各种风险因素、风险组合、管理风险的不同方式及其成本之后,管理人员就可以着手分析计算能够使得公司价值最大化的风险管理策略。为实现这一目标,管理人员必须构建一个公司价值模型,将其掌握的有关公司风险的各种信息和知识——包括这些风险如何影响公司价值——都纳入到这个模型中。通过改变模型的输入变量,就可以发现不同风险的变化是如何影响公司价值的。

3. 风控模型的简介

风控模型,是风险控制模型的简称。常见于信贷担保公司,用来对业务进行风险控制。风控模型当下国内主要有:工商银行开发的风控模型。

风控模型的简介

4. 风控模型的详细内容

在高度精细化的风险控制模型中,很重要的一个环节就是用先进的统计计量模型来更加准确的描述多种金融资产价格波动的关联性。在现实的金融交易中,我们将面对成百上千的金融资产,所以我们需要一个理论上十分灵活、现实中应用有效的统计模型能够同时对大量的风险因子的相关性进行描述、估测和模拟。在科研中,在不断探索,力图在现有的模型基础上,找到更加灵活的模型准确高效描述各高维的金融风险因子之间的相依性。当然,高度量化的数量风险模型,还要在业界实际应用中能够运算相对迅速,这样才能对各种金融组合进行实时的风险预测和监控。这种高度量化的风控模型,将无时无刻不为交易所、清算所和各大券商经纪公司,实时计算未来各种资产组合的风险度,从而始终将各种金融交易的市场风险控制在合理的范围内,使衍生品市场交易能够稳定运行,最大可能的减少巨大价格波动给市场带来的危机。

5. 风控管理模型作用有哪些

风控管理模型具有企业信息、财务数据、贸易数据三大类数据,基于统计模型和专家法,动态反映评级对象的最新现状,并定期检验模型计算结果的妥适性而对模型进行修正。

企业信息:包含行业、地域、成立年限、历史交易情况、经营者属性等。

财务数据:风控管理模型包含流动比率、负债比率、总资产周转率、应收账款周转率、库存周转率、相关同比环比等作用。

贸易数据:风控管理模型包含销售商品的名称和分类、最近周期(如日、周、月、季等)销售数量和金额明细和汇总、最近周期进货数量和金额明细和汇总、最近周期库存数量和金额明细和汇总、商品结构分析、相关同比环比等作用。

除此之外,风控管理模型能够帮助业务进行精准的数据对接及供应链事件、付款时间异常提醒,还可以进行大型交易警戒值设定等等。充分展现出融资方的还款风险系数,对企业今后更好的发展打下坚实的基础。

风控管理模型作用有哪些

6. 风控规则或模型拒绝严重么

您好,很高兴为您解答,根据相关信息查询,风控规则或模型拒绝严重:风控拒绝简单来说,就是用户情况触发平台风险机制,因而无法通过贷款审核被拒绝。而造成这种情况的原因有很多,比如说用户有当前逾期、有“连三累六”严重逾期、查询次数过多存在“多头借贷”的可能、负债过高超出还款能力范围等。

用户若想继续申请,需得解决自身风险问题,然后等待一段时间之后再来尝试,否则立即申请还是会被拒。希望我的回答能够帮助到您!【摘要】
风控规则或模型拒绝严重么【提问】
您好,您的问题我已经看到了,正在整理答案,请稍等一会儿哦~【回答】
您好,很高兴为您解答,根据相关信息查询,风控规则或模型拒绝严重:风控拒绝简单来说,就是用户情况触发平台风险机制,因而无法通过贷款审核被拒绝。而造成这种情况的原因有很多,比如说用户有当前逾期、有“连三累六”严重逾期、查询次数过多存在“多头借贷”的可能、负债过高超出还款能力范围等。

用户若想继续申请,需得解决自身风险问题,然后等待一段时间之后再来尝试,否则立即申请还是会被拒。希望我的回答能够帮助到您!【回答】

7. 开发风控系统模型的公司哪些靠谱?

开发风控系统模型的公司有不少,布尔数据是值得推荐的一个。
布尔数据是杭州首新网络科技有限公司的品牌,致力于智能风控这一块,拥有业内专业的AI风控引擎技术,将机器学习的有监督和无监督算法融合为了契合国内市场实际情况的全监督算法。与同行相比具有很明显的产品优势:
全方位风险画像:通过多维度数据之间的关联等全方位刻画客户风险画像。
精细化客户分层:整合多维度特征,模型分等,客户分层,提升精细化风控管理水平。
智能风控策略:适配不同业务场景,提供智能决策参考,快速审查欺诈、申请风险。
定制化需求:实现产品自定义组合,以高灵活行满足各类型机构对风控的不同需求。

开发风控系统模型的公司哪些靠谱?

8. 风控数据分析中的规则与模型

风控数据分析里面有两种方法(我自己划分的不知道对不对),就两类方法,我做了一个大致的总结,如下
  
 1.规则:某个用户的某个行为,一天最多20次,一小时最多10次,类似这种。
   优点:数据分析工作较为简单,短平快,在接口防刷,批量行为
   等类场景性价比高
   缺点:1)这种策略容易被试出来并绕过
   2)往往为了解决精确率的问题而无法兼顾召回率
  
 2.模型(数学/机器学习):
   优点:分类效果往往更好,解决复杂场景更有优势
   缺点:依赖大量的数据标注和较为复杂的数据分析工作,需要一定的数据分析基础,收益慢更新迭代不及前者。
  
 个人认为,如果只会第一种方法,并不能很好的解决所有的尤其是复杂的数据分析问题。因为这种规则的局限性非常大(可以认为是把线性回归模型的系数矩阵置为0,只有常数项的数学模型,也就是模型的极端特例。既然是特例解决的问题肯定不是特别好)。最大的一个问题是,为了解决精准率的问题没法同时保证召回率,如下图的例子:
                                          
 上图的黑色虚线是规则的效果,橙色实线是模型效果,我们可以看到,规则为了保证最上方的红色圆点不被误伤,阈值选择非常靠上,导致大量蓝色圆点无法被召回,也就是为了保证精准率牺牲了召回率。但是模型就好一些,因为它可以通过复杂的矩阵运算在二维甚至多维空间内分出出相对复杂的两部分。
   当然两者也并不是泾渭分明的,比如大名鼎鼎的决策树模型其实就是一系列复杂的阈值规则组成的,随机森林模型又是由决策树模型投票产生的。
   在处理相对复杂的数据分析问题时我更倾向于通过模型来解决,而相对简单快捷的阈值规则也有其一定的用武之地。