风控模型的详细内容

2024-05-05 18:42

1. 风控模型的详细内容

在高度精细化的风险控制模型中,很重要的一个环节就是用先进的统计计量模型来更加准确的描述多种金融资产价格波动的关联性。在现实的金融交易中,我们将面对成百上千的金融资产,所以我们需要一个理论上十分灵活、现实中应用有效的统计模型能够同时对大量的风险因子的相关性进行描述、估测和模拟。在科研中,在不断探索,力图在现有的模型基础上,找到更加灵活的模型准确高效描述各高维的金融风险因子之间的相依性。当然,高度量化的数量风险模型,还要在业界实际应用中能够运算相对迅速,这样才能对各种金融组合进行实时的风险预测和监控。这种高度量化的风控模型,将无时无刻不为交易所、清算所和各大券商经纪公司,实时计算未来各种资产组合的风险度,从而始终将各种金融交易的市场风险控制在合理的范围内,使衍生品市场交易能够稳定运行,最大可能的减少巨大价格波动给市场带来的危机。

风控模型的详细内容

2. 笔记:内容业务风控的业务模型

一、背景
  
 ● 内容平台,无论是自媒体、社交博客、视频直播类,在流量充足后面临更多的问题监管审查,头条、微博、知乎等UGC平台均被约谈乃至整顿过,严重的诸如内涵段子等责备关停。
  
 ● 繁荣的UGC下面深藏危机乱象丛生,受利益驱使,黑产自然不会放过内容平台这块肥肉,平台成了间接作恶工具,自然给企业带来源源不断的麻烦、损失。
  
 二、来自内容的风险主要有两类
  
 2.1监管风险
                                            
 2.2用户体验损害
  
 ● UGC平台充斥大量广告导流、欺诈广告,导致用户体验变差、用户流失、平台受损。
  
 三、内容风控的四个发展阶段
  
 ● 对于内容风控的进化阶段
  
 
  
                                          
 A、无人监管,面临极大的监管风险
  
 B、全部人工审核,人工成本高,难以应对数据大幅增长、响应速度慢
  
 C、机器审核+人工审核,人工成本稍高,数据处理量大,响应较快、机审准确率低。
  
 D、AI审核,响应快、准确率高
  
 ● 由于AI还在发展阶段,大规模应用不成熟,所以现阶段大多公司推行机器审核+人工审核的形式。本文也威少机审+人审的模型进行产品说明。
  
 
  
  
 四、风控的原则
  
 
  
                                          
 轻管控:在出现风险,需要阻断用户操作时,阻断动作宜轻不宜重。能仅自己可见就不要阻止用户发布内容。同时被阻断后文案,下一步出口都需要照顾用户感受。看似简单,其实背后涉及到对用户风控行为以及对用户风控阻断动作的分层管理。
  
 重检测:通过尽可能多的获取用户信息(包括静态及动态数据),由规则引擎进行实时或离线计算,来动态分析每个用户及采取行为的风险程度。这里需要尽量全的数据来源,以及非常强大的规则引擎,才可以实现良好的检测效果。
  
 快响应:是指在检测出用户存在的风险后,如何快速的进行阻挡。这里的重点是快,则意味着对业务的理解要细,提前在关键动作进行布局,才可以做到尽可能减少损失。
  
 
  
  
 ● 业务风控的业务模型主要分为六层,分别为数据输入层,数据计算层,数据输出层,运营管控层,业务接入层以及用户触达层。
  
 
  
                                          
 ● 上面三层,是偏向于数据,研发的;下面三层,是偏向于业务,运营,产品的。做风控其实就是做数据,因此数据的接入、技术、处理是其中最核心的模块;但现阶段,由于算法模型的限制,还需要有人为的因素进行规则模型的校正,以及特殊样本的审理,因此会有运营层的存在;最上面的触达层,是拿结果的一层,产品的部分工作也在于对此进行良好的设计。
  
 
  
  
 一、数据输入层
  
 ● 通过主动采集、业务方送审的原始数据
  
 1.1内容主体:
  
 ● 内容审核业务起始层,梳理审核系统需要的全部数据局,以及可以通过业务端采集的数据,数据越详细对后期数据计算越有利。
  
 注意点:1、不同送审内容之间存在群组关联,如帖子下可能包含:名称文本、内容文本、图片、视频、投票文本。2、不同内容间存在映射关联,如商品与评论的关系。3、不同内容间存在组合关联,内容单独出现无违规、组合起来违规的情况。
  
 1.2内容环境:
  
 ● 审核方在审核平台为每一个业务(区分文字、图片、视频)生成唯一识别码,用于区分各送审业务,业务方在业务唯一识别码的基础上随机生成唯一的送审码,用于区分送审内容。除送审内容外,审核方需要采集包括且不限于送审类型(用于区分图文)、用户类型、用户ID、城市、IP、设备号、时间戳、业务ID、内容ID、客户端区分等。历史批量数据送审应与日增数据分开低优先级送审,确保日常数据正常处理。对送审的qps进行限制,避免造成服务器压力。
  
 ● 除送审数据外,其他获取包括用户信息、关联内容信息、发布者违规历史、前端操作事件(文字粘贴、截图上传),结合送审数据进行综合判别。
  
 1.3离线数据
  
 ● 用户风险评级:根据用户历史行为,对独立用户进行风险系数评级。0-100之间的分数,分数越高表示用户在相应业务场景下越为可信。分数将用户划分为多个等级,在使用中可以根据业务场景选择不同等级的用户或不同分数区间的用户进行针对性策略放过或打击,实现策略的精细化运营。通过有效搜索浏览路径、可信内容发布历史、内容违规历史等维度进行违规(考虑细分维度,比如涉黄分值)计算,充分考虑时间衰减与权重比例、设置扣分门槛与限制。并需要防止对新用户、沉睡用户的误伤。
  
 ● 账号、设备、IP、地域近期行为等风险评级:根据账号、设备、近期行为,对时间段内账号行为进行风险评级,分属越高代表分享程度越低。由于账号被盗、黑产账号(刷评论)、推广账号、养号等违规账号类型,对内容本身较大具有威胁。风险评级基于多渠道、多场景数据,以及时间段内关键行为,并关联分析手机、设备、IP、紧急联系人等实体数据,锁定欺诈风险并进行对账号、设备、IP的风险识别。采用聚类分析、GBM、设备相似性识别,等构建设备识别模型,有效识别虚拟机和设备农场等高风险设备。基于机器操作、异常操作识别等技术,识别机器注册、机器养号、撞库攻击、账号盗用等风险行为。基于手机、设备、IP等实体数据关联分析,锁定欺诈风险并进行风险识别。
  
 二、数据计算层
  
 通过机器或者人工进行过滤的环节
  
 2.1机器审核
  
 ● 规则引擎:提供规则集、决策表、交叉决策表(决策矩阵)、决策树、评分卡、复杂评分卡、规则流等八种类型的业务规则设计工具
  
 ● 打击规则:分类型对打击策略进行分类与分级,类目明确清晰。前期应该考虑到业务使用范围场景复杂度与误伤场景,细分粒度。比如在按摩休娱下,涉及的性感的图片可能有性暗示、性交易的企图,但是在泳装类目下,性感存在即是合理的。有比如,在管弦乐器业务下,图片容易受到枪支策略的误伤,需要在此业务下对枪支策略进行个性化调整。
  
 ● 离线任务:由于打击存在频繁更新,以及其他不可力抗的修改。未避免业务多次送审,离线任务主要记录存储业务已经送审数据,进行二次审核,再次返回结果。业务方需要支持接收多次结果,并以最新一次为准。
  
 ● 机器学习:深度学习图片识别技术 + 数亿级实时更新的图像样本库极速智能解决平台四大问题
  
 文字类型,过滤垃圾广告、导流信息、恶意营销、违法欺诈广告等内容与变体内容。识别淫秽、辱骂等色情低俗内容,基于深度模型同步客户审核标准,进行程度分级。基于海量文本特征库,识别涉政、恐、暴、毒、违禁品等存在监管风险的违规内容。检测内容语义环境,拦截无意义垃圾内容。
  
 图片类型,采用OCR识别等技术,对图像中文本提取识别。基于NLP自然语言处理技术与深度模型,识别色情内容并进行程度分级。基于深度学习技术与海量样本机器学习,对色情、违法违规内容进行鉴别与评级。基于人脸识别技术与机器学习,对漫画、恶搞、负面涉政人物的违规信息识别。文本语义环境检测,高效拦截水贴刷屏无意义内容恶意灌水等行为。
  
 其他视频与语音均于ai技术,转换成
  
 2.2人工审核
  
 ● 人工审核平台用户运营部门对内容进行日常的审核,并可实时处理违法违规内容。平台应满足审核区、回收站、历史审核、黑名单管理、信息清理、业务数据查询等常用能力。可对内容按照内容形式(如图片、评价)、按照机审处理规则(如色情)等维度分类,帮助运营部门快速审核。可提供相应的用户、商户等辅助信息数据,协助运营部门对内容进行快速决断。
  
 三、数据输出
  
 ● 通过结果返回业务方本次送审内容本身最终审核(通过/驳回)结果与原因,以及因其他原因诸如行为异常等参考信息;随着业务场景的不断壮大、业务需求也会越来越细分,随着策略层面打击结果随之越来越细分。诸如,增加新策略、老策略拆分、违规程度、危险分级等。前期做好调研,在接口设计上保留充足的拓展性十分重要。毕竟作为服务方,推业务方迁移成本比较高。
  
 四、运营管控层
  
 ● 运营部门对审核对接、审核过程、审核结果的协助操作;对各环节数据监控等
  
 4.1业务运营
  
 ● 接入管理:对已经接入的业务进行增删改查等才做
  
 ● 回扫管理:由于审核的标准处于不断更新的状态,新的策略上线后对已经审核过的内容不能进行覆盖。就需要进行自动或者手动的回扫行为
  
 ● 处罚处置:未防止违规内容的不断滋生,相对应的处罚行为可以震慑不良用户,对危险用户从账号层面直接处理。
  
 ● 风险大盘:策略在审核过程中依赖业务方的送审信息,除了内容主体外其他辅助信息对风险等级的判定也极为重要、送审频率的异常波动也作为策略审核的重要依据,为确保送审时间保质保量稳定的送审,对数据层面进行校验,监测数据完整、稳定程度,对异常送审及时发出警告。
  
 ● 名单与标签管理,对以用户、设备等维度的黑白名单、标签进行管理
  
 4.2人审运营
  
 ● 包含对人工审核的质量、工单流水、审核员管理、审核结果抽样等职能
  
 4.3策略管理
  
 ● 打标平台:对样本内容进行打标,用以训练模型精准度
  
 ● 策略管理:用来配置打击策略的系统
  
 ● 特征管理: 模型管理、即管理特征与模型的系统
  
 ● 词库管理:对策略中黑词、白词、灰词进行集中管理
  
 4.4用户运营
  
 ● 反作弊调查:对漏过、误杀的案例进行回访,收集用户需求
  
 ● 案件中心:对漏过、误杀的案例进行归类,引导策略优化模型再训练
  
 五、接入层
  
 ● 主要面向接入业务方,让业务方知晓接入进度、拦截与误杀情况,引导业务优化前端交互
  
 5.1业务管理
  
 ● 自助接入:业务方自助提交接入需求信息,形成审批工单状态流转
  
 ● 服务配置:对已有业务进行需求变更
  
 ● 统计报表:针对各自业务进行报表统计,反向推动业务方优化交互形式
  
 ● case查询:由于业务方是对接case第一人,提供case查询工具,让业务明确case产生原因与结果
  
 ● 个性词库:各业务场景不一,除统一词库外,还应对各自场景下的特殊违规词进行处理
  
 ● 申诉通道:对漏过误杀case的申诉通道
  
 六、触达层,面向普通c/b用户
  
 6.1风控动作,即内容通过审核最终的结果反馈,需要与业务方共同完成。
  
 ● 从审核方以及业务方的角度,为了对违规评价提供最合理的处理方式(删除、下线、正常显示、隐藏、置地等),降低对用户伤害;对评价违规类型分级,并根据其级别进行对应分级处理。包括评价对用户等级、前端展示以及评价权益等。根据违规程度、用户主观恶意程度,对内容发布者进行分级处理。显示分级:全网可见、仅自己可见、全网不可见。内容产品赠送的积分、星级等进行逐步减少与扣罚。其他严重处罚诸如禁言、禁访、注销账号等。并发出提醒(审核结果与处罚、申诉、举报结果的反馈),明确用户发布状态与惩罚因果。
  
 6.2风控补救,即举报、申诉。
  
 ● 由于风控不可能100%准确,对于误伤、漏过的case,需要提供用户直接申诉的渠道
  
 6.3教育
  
 ● 事前宣传,对用户/商户进行宣传,告知拦击基本规则,减少商户及用户的尝试作弊行为,并提供更优的用户体验,引导用户避免发布与规则冲突的内容。 事后引导,对进行拦截打击的内容,引导用户修改,确保内容既合规,又不影响用户体验

3. 风控管理模型作用有哪些

风控管理模型具有企业信息、财务数据、贸易数据三大类数据,基于统计模型和专家法,动态反映评级对象的最新现状,并定期检验模型计算结果的妥适性而对模型进行修正。

企业信息:包含行业、地域、成立年限、历史交易情况、经营者属性等。

财务数据:风控管理模型包含流动比率、负债比率、总资产周转率、应收账款周转率、库存周转率、相关同比环比等作用。

贸易数据:风控管理模型包含销售商品的名称和分类、最近周期(如日、周、月、季等)销售数量和金额明细和汇总、最近周期进货数量和金额明细和汇总、最近周期库存数量和金额明细和汇总、商品结构分析、相关同比环比等作用。

除此之外,风控管理模型能够帮助业务进行精准的数据对接及供应链事件、付款时间异常提醒,还可以进行大型交易警戒值设定等等。充分展现出融资方的还款风险系数,对企业今后更好的发展打下坚实的基础。

风控管理模型作用有哪些

4. 风控建模是什么

风控建模是什么?模型分为两种:



1、一刀切,大于这个阀值的通过,小于这个阀值的拒绝。

2、分级,不确定的人工干预。



一刀切这种模型,首先声明一点,在我的理解,应该没有一家公司有种到,就靠一个模型就完全判定客户好坏,给他放款与否,如果有这家公司的存在,请收下我的膝盖,请大神收我为徒。毕竟我所在的公司不敢这么干。



一般这种一刀切的模型是放在很多的策略规则,反欺诈规则,各种验证规则差不多最后一步步骤的模型,模型给客户一个评分,利用评分划分一个阀值,高于阀值的通过(假设越高分的客户质量越高),低于阀值的拒绝。



这时候还需要提及一点就是,风控,全名是风险控制,风险控制的意思就是控制风险,但是并非完全没有风险,所以阀值的划分上,中心思想是:我能让坏客户进入造成的损失,是可以用好客户的收益除去人工,数据,获客各种杂七杂八的成本覆盖以外,还可以获得一个接受的收益的前提下,我去画下这个阀值。这就意味着,阀值的确定并非高于阀值的客户就一定是好客户,你要都是好客户,那你100个人进来,你就取那个最高分的,那么逾期率肯定低的,但是这样子你们市场部肯定跟你翻脸,老子拉100个客户,你就给一个过,什么意思,搞我啊!为了避免这种风控和市场的斗争,你就需要找到一个权衡客户以及效益的阀值。



客户涉及的成本:(具体数字需要根据自己公司的数据做调整。)



获客成本:你们在该产品渠道投放的获客成本,这估计要跟市场部询问,你也可以估算,这不是精算,并非需要精细到真真切切的具体一个客户的获客成本,大概就可以了,应该你的阀值还会调整的。



资金成本:就是你借出去的钱,是属于那种渠道的资金,需要支付对方的利息,这个可以询问领导。因为每个客户的金额可能不同,无需统计你这批客户的放款金额,可以取一个平均贷款金额再乘以总的放款人数,毕竟你这些客户都是放款,模型要针对的是正在申请的客户。(资金渠道有多个,可以取平均值,或者你想保守一些,平均值取上一些可是可以的。)



人力成本:你都一个阀值确定好坏了,所以这个人力成本,tan90°啊



数据成本:每个客户都要多多少少接入你一些外部数据,客户接入的外部数据,估算一下外部数据的成本。(也可以问下你的领导)



如果以上的成本数据你拿不到,那你就不要做这个利润最大化的活了。我是说真的,毕竟我不知道你们公司这些信息是否可以告诉你。

5. 风控数据分析中的规则与模型

风控数据分析里面有两种方法(我自己划分的不知道对不对),就两类方法,我做了一个大致的总结,如下
  
 1.规则:某个用户的某个行为,一天最多20次,一小时最多10次,类似这种。
   优点:数据分析工作较为简单,短平快,在接口防刷,批量行为
   等类场景性价比高
   缺点:1)这种策略容易被试出来并绕过
   2)往往为了解决精确率的问题而无法兼顾召回率
  
 2.模型(数学/机器学习):
   优点:分类效果往往更好,解决复杂场景更有优势
   缺点:依赖大量的数据标注和较为复杂的数据分析工作,需要一定的数据分析基础,收益慢更新迭代不及前者。
  
 个人认为,如果只会第一种方法,并不能很好的解决所有的尤其是复杂的数据分析问题。因为这种规则的局限性非常大(可以认为是把线性回归模型的系数矩阵置为0,只有常数项的数学模型,也就是模型的极端特例。既然是特例解决的问题肯定不是特别好)。最大的一个问题是,为了解决精准率的问题没法同时保证召回率,如下图的例子:
                                          
 上图的黑色虚线是规则的效果,橙色实线是模型效果,我们可以看到,规则为了保证最上方的红色圆点不被误伤,阈值选择非常靠上,导致大量蓝色圆点无法被召回,也就是为了保证精准率牺牲了召回率。但是模型就好一些,因为它可以通过复杂的矩阵运算在二维甚至多维空间内分出出相对复杂的两部分。
   当然两者也并不是泾渭分明的,比如大名鼎鼎的决策树模型其实就是一系列复杂的阈值规则组成的,随机森林模型又是由决策树模型投票产生的。
   在处理相对复杂的数据分析问题时我更倾向于通过模型来解决,而相对简单快捷的阈值规则也有其一定的用武之地。

风控数据分析中的规则与模型

6. 风控建模流程

        以下以申请评分卡(A卡)建模为例,描述模型开发的基本流程:
   1.数据准备:定义目标变量,整合样本特征;划分数据集:训练集、验证集与测试集,由于金融业务中的样本的积累周期比较长,因此测试集有必要划分为两种,一种为训练集时间跨度内,一种为训练集时间跨度之外,用时间外的测试集验证模型特征的稳定性。
   2.探索性数据分析:统计每个特征取值的分布;统计每个特征的覆盖率,去掉覆盖率较低的特征;处理样本的异常值和缺失值。
   3.数据预处理:根据经验对特征作预筛选,筛除于目标变量无关的特征;特征分箱;WOE转换。
   4.特征选择:计算IV值,特征选择。
   5.模型开发:常用逻辑回归模型进行拟合。
   6.模型评估:模型常见的评估指标有AUC,ROC,KS,Gani-chat,Lift-chat,特征稳定性的评估指标psi。
   7.生成评分卡。
   流程示意图如下所示:
                                          
         不同的评分模型需要的数据是不同的,在建模之前需要对对要解决的问题建立明确的数学定义。
   1.排除一些特定的建模用户
           用于建模的用户必须是日常审批中接触到的用户,不能是异常情况,比如欺诈等。
   2.明确用户的属性
           用户的基本属性,比如学历、年龄、收入情况等;征信机构的数据和其他外部数据,比如芝麻分。
   3.目标变量的确立
           评分模型是利用历史的数据预测未来的行为,需要明确定义正负样本的标签。不能出现歧义,重叠等。
   4.划分数据集
           通常训练模型需要划分训练集、验证集与测试集。信贷业务中样本成熟的经历的时间比较长,因此测试集需要时间内和时间外的数据,时间内外是相对训练集的时间跨度而言,避免经过一段时间后特征波动或失效的发生。
  
 EDA的实施主要包括:
   1.描述性统计
           描述性统计是用一些统计量来对变量分析,如:平均值,标准差,最小值,最大值等。
   2.统计每个变量值的分布、特征覆盖率及检验正态分布
           通常使用直方图绘制变量不同取值的样本分布,以及变量在样本中的覆盖率,筛除样本中有值特别少的变量。
   3.极值的识别与处理
           每个变量需要设定一个正常的取值范围。对数量较少的超出正常范围的极端值作替换处理,若极端值的数量超过10%,则说明数据的生成机制不止一个。
   4.缺失值的处理
   4.1缺失值机制
  
 1.特征初筛
           根据业务经验预先筛除掉与目标变量无关的变量。
   2.特征分箱
   1)对于连续变量可以使用等频分箱、等距分箱、卡方分箱与最优分箱;
   2)对于离散变量,可以卡方分箱,对离散变量取值合并分箱。
   3.特征编码
   1)特征分箱离散化后可计算每个bin的woe值,形成每个bin的woe编码
   2)one-hot编码
   3)dummy编码,与one-hot编码类似
  
 1.计算IV值与psi值
           IV(Information Value):信息价值。IV可以用来衡量自变量的预测能力;WOE(Weight of Evidence,证据权重)和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。PSI可以用来衡量特征的稳定性。
           在训练模型时,挑选特征是一个比较复杂的过程,要考虑的因素有很多,比如,变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务中的可解释性。其中变量的预测能力可以通过IV值衡量。IV的计算是以WOE为基础的。
  
         要对一个变量进行WOE编码,必须对变量离散化(分箱),分箱后,第i组的woe值得计算公式为:
     
   其中,  为这个组中响应客户(风险模型中为违约客户,正样本)的,占总体正样本的比例,  为负样本所占比例,  为该分组中正样本数量,  为该组负样本数量,  代表总体样本中的正负样本数量,WOE实际代表该分组中的正负样本比例的差异,值越大,差异越大,该分组越能区分正负样本。第i组的IV 值为:
     
   整个变量的IV值为(n个分组  值得嘉和):
     
  
 2.特征筛选
   选择IV值高,PSI值低,覆盖率高的特征入模。
  
 1.模型拟合
   常用lr逻辑回归模型进行分类。
   2.step-wise模型优化
   根据p值筛选模型变量,原假设(变量不重要,与目标变量无光),在此假设基础上计算chi-square,若chi-square值大,则p值小,p值<0.01说明变量很重要。
  
         模型拟合之后,需要评估模型的好坏。好的模型一般要有以下三个基本要求:
   1.精确性。模型在预测时,要有一定的精确性;2.稳健性。模型必须对从总体样本中抽取的所有样本都有效;3.有意义
   以下介绍几个常用的评价指标:
   1.混淆矩阵
   2.KS曲线
   3.AUC曲线
   4.ROC指标
   5.Gini系数
   6.Lift-chart提升图
  
         一个事件发生的几率(Odds),是指该事件发生的概率与该事件不发生概率的比值。若一个客户违约概率为p,则其正常的概率为1-p,由此可得:
     
   此时,客户违约的概率p可以表示为:
     
   评分卡表达式为:
     
   其中A、B为常数。由于log函数在(0→+∞)单调递增,所以当用户违约几率Odds越大时,Score评分越低。通过给定 :
   (1)某特定Odds时的Score值S0;
   (2)该特定Odds值翻倍时Score增加值PD0;
   通过给定值S0与PD0带入评分卡表达式,可求得A、B。
  
 (未完待续。。。)

7. 揭秘点滴身边大数据风控模型构造

揭秘点滴身边大数据风控模型构造
近日来,继央行及地方政府的几个指导意见的下发与征求之后,一度火热的互联网金融又被推举至舆论的风口浪尖,一时间有关第三方支付与互联网金融平台的资金托管问题成了热议焦点。其实,不论是第三方托管还是银行存管,这些方式的转换无非只是为互联网金融平台平添了一层信用背书、丰富了整个风控体系的外在表现形式而已,论其根本,决定互联网金融稳健运营的真正基础其实是大数据风控体系构建。
  大数据风控必然性
  当下社会,数据即是资产,如果可以广而深的获取数据、处理数据、分析数据、应用数据,那么便可以在激烈的商场鏖战中脱颖而出。互联网的快速发展一方面为我们生活提供了便利,引导我们任何行为动作都在互联网的辅助下快速进行,另一方面也为企业积攒了海量数据,机构方只要对数据进行适当分析并将其应用在合适领域,即可激发巨大的商业价值,而互联网金融正是其中一隅。另外,从多年征信体系构建情况来看,传统风控模式发展速度慢、审核效率低、时空两界覆盖面窄,以及掺杂许多人为主观性,而利用大数据契机不仅可以使效率大大提高,而且可以使审查结果更为精准,因此,大数据风控时代来临是为必然!
  大数据风控的成功运用
  中国的互联网金融有其名而无其意,迫于长期以来的观念影响以及大数据技术人才的短缺,风控审核仍然是依托传统线下。但也有机构已经开始布局大数据风控,近期以来,一家名为点滴身边的互联网金融平台吸引了大众眼球,而且作为一家近期运营的平台,一经上线便引起各界关注,颇受投资者喜好,究其原因,这一方面正是基于其完善的大数据风控体系构建,另一方面也是基于其独特的产品框架。
  于大数据风控模型构造而言:
  首先,自创鹰眼风控系统。整个模型基于对中国实际信用情况的深入研究和多维度的可信数据分析,结合团队多年实地信审经验,在FICO评分模型和信用卡打分卡基础上构建而成。
  其次,多渠道数据收集、挖掘用户信息。采用用户授权、合作接入及网络公开数据抓取等多种手段,掌握借款人的淘宝、京东、信用卡消费及还款、跨平台借款和投资、水电煤缴费、社保、学信、职业资格、通讯、住址等多维度数据,并接入中国人民银行征信系统、居民身份系统等多个官方数据系统。
  最后,数据分析与评估计算。通过已设置好参数与维度,对借款人触网过程中的34类近2000项变量进行筛选及智能比对,分析其在购物网站、社交网站、日常生活网站上的行为和关系,计算出借款人的信用等级,从而给出授信额度。
  与产品而言:
  第一,产品独特,期限短,利率高。主要有新手标、短期标、高收益标三种产品,新手标期限为15天左右,利率8%以上,完胜宝宝类产品;短期标期限为1个月,利率为14%左右;高收益标期限为3个月左右,利率18.4%左右,且借款金额普遍在1000元左右,借款者还款能力强,此外,预计8月中旬点滴身边将上线T+N模式活期产品,随存随取。
  第二、安全性能高。不仅有完善的大数据风控体系,还有风险准备金,使得投资者可以安心投资。
  此外,点滴身边上线初期的送钱揽客活动力度也是非常大。新手注册即送20元投资红包,首次投资再送30元现金红包。短期标的再加上红包奖励,100元起投,门槛低,操作便捷,这促使该平台能够很快一周内吸引了近上万粉丝,总成交额也呈高歌猛进之势。
以上是小编为大家分享的关于揭秘点滴身边大数据风控模型构造的相关内容,更多信息可以关注环球青藤分享更多干货

揭秘点滴身边大数据风控模型构造

8. 互联网金融风控模型都有哪些

以P2P网贷为例

一、销售环节

了解客户申请意愿和申请信息的真实性,适用于信贷员模式,风控关键点。

风控关键点:不同类型的借款申请调用不同的信用评分规则引擎。

二、贷后存量客户管理环节

存量客户授信调整是存量客户管理中的重要一环

风控关键点:

1、违约情况观察,比如是否发生早期逾期,连续多期不还欠款、联系方式失效等
2、信息关联排查,比如存量客户中是否有与新增的黑名单、灰名单数据匹配

三、贷后逾期客户管理环节

还款意愿差和还款能力不足是客户逾期的主要原因,这个环节主要涉及逾期客户管理与失联客户管理

风控关键点:

1、催收模型、策略优化。
2、失联客户识别与修复失联客户信息。

四、资金流动性管理环节

流动性风险是P2P网贷平台的主要风险,跑路P2P网贷平台的一个重要原因就是发生了挤兑。大数据下的流动性管理其实是实时BI的一个应用。传统BI数据T+1,大数据是实时BI。

风控关键点:

1、资金维度
2、业务维度