• 快捷搜索
  • 全站搜索

机器学习在寿险反欺诈领域的应用

2017-09-29 14:35:29作者: 中国人寿保险股份有限公司研发中心总经理 钱维章编辑:金融咨询网
最近几年来,随着技术的进步和海量的数据积累,保险公司通过技术手段甄别欺诈案件已经成为可能。笔者将介绍中国人寿利用人工智能相关技术探索理赔反欺诈工作的实践思考。

欺诈是保险行业长期存在的行业性问题,严重制约了保险业的健康发展。为了应对这一问题,保险公司投入了大量的人力和物力展开反欺诈工作。最近几年来,随着技术的进步和海量的数据积累,保险公司通过技术手段甄别欺诈案件已经成为可能。笔者将介绍中国人寿利用人工智能相关技术探索理赔反欺诈工作的实践思考。

无标题.jpg
中国人寿保险股份有限公司研发中心总经理 钱维章

保险反欺诈的现状及技术应用前景

        伴随着保险业的蓬勃发展,保险欺诈也呈高发态势。据国际保险监督官协会的测算,全球每年约有20%~30%的保险赔款涉嫌欺诈。另一方面,我国公民信息管理较为碎片化,社会信用体系建设也相对滞后,常规调查手段虽然可以有效消除保险公司与投/被保人之间的信息不对称,但是投入大、耗时长、成本高。

        信息技术的快速发展,尤其是最近几年机器学习技术的日趋成熟以及保险公司数据的海量积累,为保险反欺诈工作的展开带来了新契机。通过建立相关模型,将欺诈案件中的特征通过系统化的方法,以一种定量方式来评估案件欺诈风险的高低,可以有效消除反欺诈调查过程中的人为不确定因素,提升识别的准确性。同时,降低风险排查成本,节省大量的人力资源。可以预见,利用信息技术手段防范保险反欺诈将是未来的主流趋势。

        通过对历史数据的研究,我们发现在人身保险欺诈中,重大疾病险、意外险和短期健康险欺诈发案率较高。从件均涉案金额看,重大疾病险、两全保险、定期寿险相对较高。因此,重大疾病险有着发案频率高和件均涉案金额高的双重特点,是反欺诈的重点关注领域。我们以重大疾病保险的理赔反欺诈做为切入点,开展相关工作。

技术准备

        我们从工具、算法和数据三方面展开相关技术准备。在工具层面,我们选取Spark ML作为模型训练工具。在算法层面,经过详细比较分析,我们选取随机森林算法作为模型训练的算法。在数据层面,我们通过与相关业务人员的详细讨论,设计了上百个变量作为模型训练的基础数据。最终通过模型训练实现反欺诈模型,并据此在初审阶段对报案做欺诈评分,从而指导下一步调查工作。

        1.工具选择

        机器学习工具随着技术的发展而不断涌现。除了传统的SAS、SPSS等商业产品外,新兴的开源软件如Spark、Mahout、R和Python等逐步普及,为数据建模提供了丰富的选择。

        其中,Spark是加州大学伯克利分校所开源的类Hadoop MapReduce的通用并行框架。Spark拥有与Hadoop MapReduce相同的分布式、运算能力强等优点。由于每个中间输出结果都保存在内存中,因此对于需要反复迭代的机器学习算法效率更高。Spark ML是Spark的机器学习库,支持回归、分类、协同过滤、聚类等多种算法,并不断丰富和优化出更多新的特性。在下表中,我们从分布式、开源、算法、运算速度以及与现有环境的兼容度等角度,简单比较各种机器学习工具。经过多方面评估后,我们选择Spark ML作为数据建模工具。

无标题1.jpg

        2.算法选择

        算法是归纳各种复杂数据中的规律,找出关键变量并系统预测一个目标的过程。通过机器学习算法,模型可以对复杂的问题进行分析,提供对数据处理和评估的“公式”。在实际应用中,需要根据模型的应用场景、数据的特点、建模的软硬件环境等多种情况选择建模的算法。目前业界主流的算法包括无监督学习和有监督学习两类。

        无监督学习:通过对海量数据共同特征的分析,能够自主地、无需通过外部或人工数据回馈地,对据进行模式侦测。无监督算法可用于分析理赔案件的孤立点或特殊案件,用这些案件和普遍案件的差异,预测其欺诈风险概率。常用算法有聚类分析、神经网络分析和关联规则等。

        有监督学习:在有效人工标注数据的基础上,此算法可利用人工标注展开训练集学习,找到针对不同标注的最有效模型,预测样本的目标变量。基于已有的理赔案件数据,通过分析人工标注的欺诈案件,探索其中规律。常用算法有回归模型、决策树模型和随机森林模型等。

        经过大量研究分析,我们选取有监督算法中的随机森林算法构建保险反欺诈模型,相较其他算法,随机森林在以下几个方面更加适合我们的场景。

        ① 相比决策树有更好的泛化能力,降低过拟合风险。② 在数据维度和类型上包容度高,简化特征工程。③ 实现方式成熟度高,且能够评估特征重要性排序,对业务有一定参考价值。④ 支持并行计算。

        3.数据准备

        数据对建模至关重要。在建模前,需要全面梳理保险欺诈相关因素,包括保单信息、报案信息、客户信息、营销员信息等,并分析和筛选设计最终变量。在这里,我们强调两个数据准备的关键因素。一是在整体建模过程中,数据准备耗时最长,占据整体建模过程的大部分时间。二是需要充足的样本以支撑模型训练。也就是说,需要有足够多的赔案以及足够多的阳性案件才能训练出一个有效且稳定的模型。

模型建立及部署

        我们选取重大疾病险理赔阶段的案件数据作为基础,通过Spark ML实现随机森林算法,构建保险反欺诈模型。将欺诈样本设为1,非欺诈样本设为0。模型以欺诈行为作为目标变量进行训练,并预测某一样本目标变量为1的可能性。

        1.模型建立的流程

        模型的建立过程主要由训练阶段和测试阶段两部分组成。通过训练阶段的拟合,我们得出基于训练数据的最优解,即为模型训练结果。而在测试阶段,我们基于测试数据和特定指标评价模型泛化性能,并据此调整模型参数,反复迭代,得到模型最终结果,过程如图1所示。 

图2.jpg
图1 模型建立流程

        2.模型的建立和验证

        我们将所有样本分两部分,一部分是训练集,另一部分是测试集。在模型训练阶段结束后,建模将进入测试阶段,使用测试数据集验证模型。模型要将测试数据视为“没有目标变量的数据”展开预测。通过比较预测结果和实际结果,评估模型效能。如果预测结果与实际结果偏离大于一定程度,便确定为失败模型,需要重新调整参数再次建模。

        在模型评估中,采用ROC曲线下面积(AUC)这一指标来评估模型的预测结果与实际结果是否相差很大。AUC取值越接近1,可以认为模型的表现越优秀,当AUC取值小于0.85时,则需要对模型重新训练。

无标题3.jpg
图2 ROC曲线

        3.模型部署

        在对模型反复训练和调整后,我们最终确定了一个用于生产的随机森林模型。为了实现在理赔过程中的实时评分,我们将模型导出并进行Web Service封装,最终无缝集成到业务系统中。在每个赔案的初审环节,业务人员会看到一个分值,并将其作为开展后续工作的重要依据。经过持续优化,当前的模型可以在1秒内计算出评估分值,真正实现及时、高效、准确的保险反欺诈预测。

模型应用及展望

        在该模型投产后的几个月内,相关业务的欺诈识别率显著提升,人工调查工作量大幅下降,达到了预期目标。在后续工作中,我们着重在两方面推动人工智能技术在保险公司的应用。一是继续扩大模型的业务适用范围,将范围延展到整个健康险领域。二是继续加强新技术研究,将人工智能等技术引入核保、保全等领域,努力提高业务处理的自动化、智能化水平,持续降低人工成本,提升保险公司经营效益。

        近期,牛津大学研究人员发布了机器对人类工作的可替代性报告《THE FUTURE OF EMPLOYMENT: HOW SUSCEPTIBLE ARE JOBS TO COMPUTERISATION?》。该报告列式了702个工作岗位被机器替代的可能性,与保险公司相关的岗位排名如下表所示。

无标题4.jpg       

        从上述研究结论可以看出,机器学习技术不仅可在保险公司的风险控制领域,在运营和销售等领域,同样可以发挥重要作用。我们坚信,人工智能技术在保险业必将充分释放潜能,大幅提升行业经营效率、经营水平和经营能力。

(文章来源:金融电子化杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章