本文要点
- 欺诈检测技术基本上起源于数据科学中的异常检测分支。
- 如果数据集拥有数量足够多的欺诈样例,则用于分类的监督机器学习算法(如随机森逻辑回归等)可用于欺诈检测。
- 如果数据集没有欺诈样例,我们可以使用使用隔离森林技术的偏离值检测方法,或使用神经自动编码器进行异常检测。
- 在机器学习模型训练完成后,使用灵敏度、特异性或Cohen的Kappa等指标在测试集上进行评估。
随着全球范围内信用卡欺诈损失不断增加,银行及电子商务企业在欺诈交易完成之前检测出它们的能力也愈加重要。
根据尼尔森报告(涵盖信用卡和移动支付行业的出版物),2016年全球信用卡欺诈损失达228亿美元,比2015年增长4.4%。这也证明在信用卡欺诈交易初期就发现它们是很关键的。
信用卡交易中的欺诈检测是一个涉及范围非常广泛且复杂的领域。多年来业界诞生了众多检测技术,主要源于数据科学的异常检测分支。具体来说,这些技术大都可以根据数据集的可用情况简化为两大方案类别:
- 场景1:数据集中有数量足够多的欺诈样例。
- 场景2:数据集没有欺诈样例(或数量可忽略不计)。
在第一个场景中,我们可以通过使用经典的机器学习或基于统计的技术来处理欺诈检测问题。我们可以训练一个机器学习模型或计算两个种类(合法交易和欺诈交易)的一些概率,并将模型应用到新的交易上以推测其是否合法。所有用于分类问题的机器学习监督算法这里都能用,例如随机森林、逻辑回归等。
在第二个场景中我们没有欺诈交易的样例,因此我们需要更灵活一些。由于我们只有合法交易的样例,所以需要充分利用它们。有两种选择:我们可以将欺诈视为异常或偏离值,并采用一种一致性的方法。偏离值检测方法的一个例子就是隔离森林,异常检测方法的典型例子是神经自动编码器。