首页 > 编程学习 > 从数据回溯中的领悟|着手做风控的数据分析,应该将这些业务流程都画清楚

今天是九月的最后一天,有多少风控的同学仍在坚守岗位,有多少的风控童鞋踏上回家狂奔的路途。

节前,我们希望仍给大家分享日常风控中经常遇到的问题:
数据分析里经常会涉及的数据回溯内容!
数据回溯常见于我们对外部三方数据做测试的时候使用。比如我们希望回溯客户两年前的数据,某些三方数据公司居然就用现在节点的数据来忽悠人。这在数据分析的人员眼中,简直就是不能容忍的存在。另一类,需要用到回溯就是做建模的时候,经常需要去回溯某些特征的数据截面数据。
总之,数据回溯是一个很重要很有意思的内容,也是数据分析处理中经常会遇到的问题。
数据回溯非常实用,处理起来有点小技巧,下面我们详细介绍下数据回溯。

一.什么情况下我们需要做数据回溯?
如上所述:我们认为在以下场景下,经常会遇到数据回溯的问题:
1.常见的三方数据效果测试,这个时候我们经常会遇到回溯的问题;
2.数据建模过程中,我们经常需要回溯样本在某个时间段的内容,这个时候会用到数据回溯;

数据回溯有点类似:你从现在时点回看历史事件,你当然知道过去的事情最终状态是什么。
但有时候,我只需要你返回给我截取时间切片时刻的数据。

如果我的表述还不足够清晰,那直接上个干货,分析一下:

一.案例分享

假设今天是2019年06月18日,
那我想回溯下历史事件2018年11月1日的时候,客户A在这一天的逾期天数的情况,假如客户每个扣款都是每个月的20日,那距离11月1日最近的上个扣款日就是2018年10月20日,但客户在12月1日才还钱。
在这里插入图片描述

这个真实的场景案例,就涉及数据回溯的了。

假如在11月1日来看,那客户A是逾期状态,逾期11天;

如果事件站在12月2日来看,客户当前没有逾期的;

这是个最简单的数据回溯的例子。

当然真实的业务场景比这个维度要更多点,也更复杂一下。

二.问题思考时间
有个问题需要思考下:
首先,我们为什么需要站在11月1日这个时点来看客户的逾期情况?

因为我们卡11月1日这点的时间窗口的,就是想用它来作为观察期来观察客户是否在接下来的时间里,逾期可能性。
比如在催收建模里,应该说在任何数据的模型里都这样,在回溯时点,把当前的已知当未知,然后去预测回溯时点的未来。在信贷业务中的催收业务里,涉及处理逾期信息的时候,就需要用到数据回溯了。当然其他的评分模型,也是一样的逻辑。

三.真实的业务场景
我在清洗的数据时候,卡了一个历史的时间。这里我们以一个逾期评分卡的数据回溯来举例。我需要整理对应客户的逾期情况,下面是真实的几个数据回溯的场景:
1.有坏账的,统计日期在坏账日期前的,逾期时间应该从统计日期计算到理应还款日的时点;

2.有坏账的,统计日期在坏账日期后的,逾期时间应该从坏账时点算到理应还款时点;
3.无坏账的,统计日期在还款日前,算逾期情况,应该是统计节点算至理应还款日的时点;
4.无坏账的, 统计日期在还款日后,算逾期情况, 应该是还款日算至理应还款日的时点
……
其实还有至少是有5-6种形式。理清楚业务逻辑,才能书写正确的代码,这段宝贵的代码花了些时间才写了出来,头都炸了,不容易啊!

四.最后为什么有时数据回溯比较困难
1.历史的数据会不断被覆盖跟更新,新的数据总会覆盖旧的历史数据,所以当有合并这些数据时候,前一次的数据一定记得要备份更新,而且这部分数据存放量也比较大,拉起来比较困难
2.如果你是自建报表,不存在报表被覆盖的问题,但是需要每天都更新备份,这个比较考验公司服务器的内存,但是日积月累的数据总在超出你想象

3.如果是IT帮忙做的基础表,某些后期能用到的字段、标签,都要尽量想好,不然有可能后期需要时再找IT。IT可能会告知你,生产库内存不足,多早之前的数据已经删除。这时你连找都找不回来

4.最后是不同数据库之间的对接问题,这方面就比较考验公司大数据部门的功力,但是我知道某些传统的公司,不使用hive或者存储的,都是直接在oracle里建个视图的,导致类似其他数据库比如mysql的部分字段无法映射过来,也是让人崩溃。

五.常规上的三方数据测试的数据回溯
另外在回溯上,最常见的一种回溯形式便是金融机构对外部三方数据的数据引用。因为并不是对所有的三方数据都会进行引入,在引入三方数据之前会先和厂商进行谈判沟通,发送一批已有表现期的测试样本给三方厂商,对返回的结果进行测试评估。
这里常用的三方数据的回溯就有:贷前黑名单数据、贷前欺诈类数据、社保/薪资类数据、学历类数据、贷中欺诈类数据等数据。

而对这一类的数据回溯,我们在进行三方测试的时候,为了防止数据外漏,也为了三方数据测试的合规性,需要准备一批测试样本给各个三方数据厂商,由于每个厂商对四要素的加密方式各有认定要求,这就需要准备要求密文发送,其中前三者需要做加密处理,通常MD5用法更为广泛。
另外对于数据回溯的内容,我们有一套更系统性的方法进行测试和校验,有兴趣的童鞋可关注:


在这里插入图片描述

~原创文章

Copyright © 2010-2022 mfbz.cn 版权所有 |关于我们| 联系方式|豫ICP备15888888号