登录注册
夸客动态

夸客金融决策科学部总监陈曦:案例演示大数据风控建模

2016-01-14
  近日,夸客金融决策科学部总监陈曦做客《中国经营报》旗下新媒体平台琥珀金融帮,以嘉宾讲师身份参与琥珀公开课,为平台学员讲解大数据与金融风控。
夸客金融决策科学部总监陈曦
  在公开课上,陈曦对比了传统金融和新兴金融服务对大数据的诉求,分享了国内大数据的前沿运用,并从实际案例出发,严谨的展示了如何利用大数据建立金融风控模型。

  同时,陈曦强调,建模的核心思路是以史为鉴的意思。如果你不相信历史事件会重复,那就没有建模的必要。但如果你相信历史事件会百分之百的被复制,那么你的模型就一定是错的。

  陈曦本次授课实录整理


  2015年在国内融资的大数据创业公司达到51家(有两家公司一年融资两次)总融资金额超过50亿人民币。

  针对大数据行业应用的创业公司占52%,其中提供营销和金融风控数据服务的创业公司最多。

  金融+大数据究竟改变了什么?


  传统金融:追求绝对安全。银行申请贷款虽然有贷款成本低的优势,但是银行风险运营模式的缺点也很明显:客户需要提供很多纸质材料原件及复印件、审批时间长、甚至要接受信审员的多个电话照会及实地考察。这样的模式能做到对每个放贷个案风险评估的精益求精,但却不适用于小微金融、个人消费金融等新兴金融服务业。
金融+大数据究竟改变了什么
  新兴金融服务:客户体验至上。要做到不让客户为了申请十万不到的小额贷款甚至一万不到的消费贷款提供太多证明材料和等待更长时间。同时,传统风控运营模式对信贷员的风险判断能力也有要求,如果用这种模式去应对大量的小额分散的个人金融服务申请进件,必然会导致风险运营团队规模过于庞大,运营成本无法被覆盖的问题。

  风险审批的信息化、数据化、系统化和自动化成了新兴金融服务的必然发展趋势,新兴金融服务业的竞争也集中在为在产品能力、互联网技术、数据技术、客户体验等方面的竞争。

  大数据技术应用于金融服务可以使金融服务的核心——风险控制获得多方面的技术革新。

  1 数据驱动的机器学习方法相较于人为判断——具有迭代频率高、善于获取隐性信息以及无学习惰性和瓶颈等优势

  2 在风控运营中引入数据模型作为判断依据——最大程度上避免因个人差异化导致的风险政策执行上的偏差,降低操作风险。

  3 互联网数据采集技术—--客户信息、行为数据不再通过纸质化申请材料提交,机构在极短时间内自动实现信息对称,降低运营成本。

  市场契机:2015年中国人民银行开放8家个人征信公司试运营,为正式下发个人征信牌照做准备工作。个人征信公司的起步,丰富了大数据的种类和来源。

  市场现状:目前应用比较成熟多见的金融大数据包括“征信及验证数据”(政府,行业信息互通共享)。

  “传统金融数据”:银联卡线下消费行为,目前也涌现出了用手机号匹配个人金融行为全画像的产品)。

  “互联网大数据”:主要采用互联技术采集客户行为,在客户的现场多重授权下,获取手机通信记录、线上购物支付画像以及学历学位等信息)。

  解决了这些痛点:贷款联系人的真实性——现在可以通过手机通信记录中与联系人的通信频次、网上购物送货人记录、线上支付转账收款人记录等维度,进行很大比例上的自动判断,无需每个联系人都一一电话照会,通过交叉问题试探真实性。客户家庭住址、工作地址等信息的真实性,也可以此类数据作为辅助判断的依据,只有对用数据判断不准的部分客户,才酌情需要人工参与。
新兴金融服务
  另外,线上消费、支付行为与线下银行卡消费信息相结合,才能越来越全面地衡量现代人的金融需求、还款能力以及还款意愿等,才能制定出更反应“互联网+”时代特征的个人金融风险政策。

  非面签服务中身份验证——伪冒身份证对于不要求面签的新兴金融服务业而言,一直是反欺诈中的痛点。骗贷份子通过购买他人身份信息,配以自己的照片伪造假身份证,在不配备二代身份证刷卡器的场合进行欺诈。人脸识别技术可以自动抓取身份证照片中的人像,与公安部档案中的该身份证存档照片进行自动相似度比对,用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来。

  客户位置真实性风控——自填居住地址和工作地址对于贷款风控而言也是一大痛点。实地调查成本高企,且效率低下,一般只有大额贷款才会用到。对于小微金额,可以采用地址搜索技术获取客户自填居住或工作地址的大致经纬度。

  地理信息技术引入与其在使用某些互联网产品时留下的常见位置经纬度相比较,可以得出客户自填居住或工作地址的置信度。

  简单地说,如果数据是原材料的话,建模就相当于厨师做的工作。

  之前介绍了很多大数据征信、互联网技术背景下,能提供到新兴金融服务业做风险识别的大数据。但是要真正用好这些多维度的大数据,还需要风险建模技术,或者更广义一些——机器学习技术。

  机器学习技术是指,从历史数据的已知信用好坏客户分类人群中,学得好坏客户的特点和行为模式,并用数据模型表达出来,供实际生产中的新业务做贷前风险评估和预测。

  机器学习建模基于两点假设:


  1 历史经验是值得学习的,即历史中发生过、存在过的因果关系,在未来还有相当的借鉴意义和参考价值;

  2 历史经验中发生过、存在过的因果关系,是可以用数学模型被主要地描述出来的。

  从这一点也可以看出,学习建模有点以史为鉴的意思。如果你不相信历史事件会重复,那就没有建模的必要。但如果你相信历史事件会百分之百的被复制,那么你的模型就一定是错的。

  大数据互联网金融应用案例展示

大数据互联网金融应用案例展示
  当一个风险模型被正确地做出来以后,就可以达到自动化筛选的效果。假设一批申请人中有好客户3650人,坏客户613人,则初始bad%为16.8%。用模型过滤后分为两组。第一组共1100人直接拒绝,其中好客户745人,坏客户355人,bad%为32.3%,比总体的16.8%几乎翻倍;第二组共3163人,其中好客户2905人,坏客户258人,bad%为8.9%,约为总体的一半。

  于是人工风险运营的资源就可以优化配置了:对于接受的第二组,可以用反欺诈、风险运营等人工进一步筛选,需要人工处理的案子减少了1/4;对于拒绝的第一组,可以要求客户补件以重新证明其风险没有那么高,如果风险定价、运营成本上认为不具有经济性,则可以直接拒绝。衡量模型的好坏指标主要有Approval%,Catch%,Hit%以及FPR。

  模型的选择会考虑共线性和解释度,确保每一个变量符合业务逻辑,防止出现过拟合现象。P2P的数据相对信用卡相比不足,通过技术手段去解决,但导致模型过拟合,所以会对业务场景、因果性等会进行严格分析论证。由此看来,模型一定会存在一定的误差,模型实际是与概率的博弈。

  大数据应用问答


  提问: 怎么能判断有人重复借贷?同时找几个公司借贷?可以从大数据中解决么?

  这个问题提得很好(鼓掌)。现在我们基本上采用抱团取暖的方式,有些平台会提供系统对接,查多头申请和借贷。还有通过一些APP埋点技术,可以侦测该设备在最近有没有安装、打开过借款类APP,作为一个侧面侦测

  提问: 美国的三大征信机构,Experian、Equifax,他们之间有定期的信用交换,所以能够形成一个比较一致的评分标准,国内前期获得准备做征信工作的8家公司的数据源,有的在社交领域比较强,有的在电商领域比较强,有的可能在支付领域比较强,您看来这些数据怎么进行开放和共享?

  中国个人征信行业基本还处在一个乱战时代,只有少量的公司认识到了合作共赢。所以一般现在各家都只能反映风险的某些方面,就像盲人摸象。我们作为用户就是接入多家数据,力求摸得全。

  提问: 请问夸客金融等平台及8家个人征信机构是否会向央行征信中心接受或报送相关数据?是以什么样的形式报送?报送和使用数据是否有收费机制呢?

  八家个人征信目前是民间征信公司,央行只是监管它们,央行与它们之间不存在任何数据交互。因为目前如p2p,小贷等这些民间的金融行业对于欺诈名单,黑名单在矩阵材料齐备这方面做的还不够好,所以央行一般不接受非银行的黑名单或者逾期名单。

  提问: 您说到“人脸识别技术可以自动抓取身份证照片中的人像,与公安部档案中的该身份证存档照片进行自动相似度比对,用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来。”请问,公安部档案的信息该如何调用?

  公安部的照片目前是开放的,只要有一定资产的公司都可以去查询,而且可以实现自动化的人脸识别。

  提问: 我们在建模的时候有几个困扰。一个是历史数据的数量不足,另外一个是历史数据中记录的没有那么详细。您是怎么解决的?

  P2P的数据量确实存在着与信用卡或者与在线支付相比远远不足的一个情况,在这个当中我们其实是在采用了一些技术手段去解决它,但是用这些技术手段确实会导致模型的一些过拟合的情况。所以我们会严格论证每一个变量对于特定业务风险类型的区分度,确保存在合理的因果性或关联性。

21
返回顶部