风控,全称风险控制,英文名 risk management。风控的研究起于二战结束后,主要集中在个人或企业的商业保险领域,用于减少突发事物带来的损失。金融行业的核心,乃是风险控制。

但今天,我们这里不谈金融的风控。金融风控已经演化了多年,众多顶尖学者已对其进行了研究,各种模型层出不穷,自有人去分析。我们这里说一说,互联网的风控。

风控的核心

如果你在网上检索,一定会发现很多人,谈到风控,必加智能,似乎不智能就不风控了一般。有人说,风控的核心是智能;也有人说,风控的核心是数据。这些老生常谈,将数据智能看成了银弹,看成了哆啦A梦的百宝袋,能解决一切问题,但其实这种说法忽略了现实。

那现实是什么呢?如果你问,风控的核心是什么。很多人可能回答不上。但你问,为什么你要买保险,很多人的回答会是,不怕一万、就怕万一,保险能够兜底未来可能的大额支出。用小额保费对冲小概率但大支出的以外,换而言之,就是一场成本核算。

成本控制的两个方面

风控对于成本的控制,在互联网主要体现在两个方面。一个是资金成本。搞活动,不能被薅羊毛的搞破产了。或者搞个特牛的模型,能识别所有的风险,有且只有一个缺点,要用上全球一半的计算机(费钱)。另一方面,是体验成本。互联网风控,免不了嵌入业务,但如果过于突兀,很可能影响用户体验。这方面的典型,极端就是恶搞的12306验证码识别。

风控与信息安全的异同

风控这个业务,和信息安全中的加密很像。当破译的难度大于潜在的收益时,加密方式其实就安全了。没有不计成本的密码破译,也没有不计成本的风险控制。风控要做的,也是某种程度的平衡。

但同时,风控和信息安全也有不同之处。

在互联网业务中,风控的对象一般会有两种形式存在。一类是静态的账号,比如恶意的初始号,或者是盗用、冒用的他人账号。另一类,是其动态的活动。具体表现为账号主题生产的内容,或是其参与的活动。而信息安全,主要是软硬件的漏洞,再加上社会工程中人性的漏洞。

风控的挑战与应对

最明显的挑战在于,敌在明我在暗,同时由于对抗手段的加码,对方会找到规避的手段,或是找到风控的系统漏洞。

风控策略与技术

在传统风控中,应对风险有4种基本思路。

  1. 回避风险。即如果我知道你有风险,我就回避掉你。这会带来一定的损失,俗话说,风险伴随着收益,回避风险,在互联网业务中,有些能回避,有些则不能。对于政策风险,法律风险,该回避的则回避。对于不能回避的风险,我们采取下面的措施。
  2. 控制风险。这是互联网风控的主要内容。如果控制风险,从风险的酝酿、到风险的暴露,再到风险的控制,每一个环节都有可为。
  3. 转移风险。这个措施更靠近业务。通过将风险转嫁,或是共摊,来实现风险的控制。举个例子:平台将风险分散到平台与商家之间,或是将风险在声明中转移到UGC内容的用户上。
  4. 风险承受。最后这个措施,是风险的兜底措施。即承担风险带来的损失。这一般要求有资金的预留或是退路的预留。

策略

互联网的风控策略,可分为两部分。一部分是业务侧,通过一系列手段,去削弱风险。另一方面,则是宏观侧,通过数据监控整体的业务情况,进行风险的宏观判断。

在嵌入业务的一侧,可按风险行为分为前、中、后三个阶段进行。

  • 风险发生前:通过技术手段或用户引导,完善用户资料。同时对用户的基本信息进行分析,将明显特征的账号进行标记。该部分,成本和复杂度都较低,适合作为风控策略的主要部分。同时,可通过关联分析,将问题范围缩小,从账号、自然人、到工作室,集中处理。
  • 风险进行中:这部分一般和用户的行为有关,也常常嵌入业务中。常见的如 UGC 的违规内容,色情、暴恐信息等。这部分,像豆瓣,在检测到关键词后,会进行先审在放行。另一个例子则是,12306的验证码,通过人机验证,规避机器人。
  • 风险已发生:尽管手段丰富,但仍有“漏网之鱼”。一旦风险成为既定事实,则需要采取措施应对。一方面,是做好风险的应对,另一方面,则是及时复盘,对现有体系进行审视,避免机制上再出问题。

最后的,无论无论风控做得多好,总会有黑天鹅发生。做好应急预案,有兜底的策略,都十分重要。小概率事件必然发生。风险的发生是常态,无风险其实才是少有的异常状态。要做的就是,在风险发生后,减少风险造成的损失,让系统及时重上线。

技术

策略看起来很简单,但实际操作起来,困难重重。很重要的一个原因是,信息不对等。举个例子,知道该对问题账号处理,但是不知道哪些是问题账号。这里就需要技术来消除信息不对等。

这里就要请出用户画像。一般的,用户画像被用来理解用户,做更好(更上瘾)的视频推荐,做更精准的广告投放。而在风控领域,用户画像的作用,同样显著。

用户画像背后的技术,除了实打实的工程技术外,产品引导也十分重要。对于冷启动策略,通过引导,完善用户信息。更一般的,则是通过标签规则,通过一系列 if else 判断,生成用户标签。同时,对于社交产品,还会有好友关系链,通过社交图网络的挖掘,也可得到有用的信息。

在风险进行中,采用嵌入业务的干预手段,需要实时流计算,这方面有很多好的开源软件,或者是采用像 Prometheus 一类的开源监控软件。如果资源允许,还可做一些时序上的预测。对未来一段时间的数据,给出预测的上下区间,一旦超过,即调起报警。

在风险发生后,对样本的复盘,实际是异常检测。异常检测一般分为两类,孤立状态的点或块异常,或者是上下文相关的时序异常。其核心,是不平衡样本下的分类。这里的检测可以是对用户行为数据的检测,也可以是用户产出内容的检测,如图片检测、文本检测,这方面的技术已经很成熟,数据量足够,质量够高,即可保证高的准确率和召回率。

最后,在泛化能力外,技术还应注意其可解释性,以及可更新的能力。即模型越简单越好,如奥卡姆剃刀所言:“如无必要,勿增实体”。同时,减少数据中的噪声。在上模型或规则前,探索数据、剔除常变量、剔除离群点,通过xgboost等获得特征有效性、对关键有效特征进行筛选。

总结

互联网风控,是风控的一处延申。除风控的基本特点外,也带有其自身的特点。策略上,需要嵌入整个业务流程,同时准备兜底策略。技术上,有数据挖掘的手段,增加风控的效力。

以上总结来自于工作实践和阅读思考,难免受自身局限,如有疏漏,还请读者批判指正。

互联网风控思维导图

关于作者


参考资料:

  • QCon 阿里毫秒级实时风控引擎

  • Risk Management: History, Definition, and Critique – Georges Dionne

  • 风控算法大赛解决方案–不得仰视本王