• 快捷搜索
  • 全站搜索

保险行业大数据应用系统建设

2016-05-31 08:56:34作者:中国人寿股份有限公司研发中心 贾旸编辑:金融咨询网
海量数据的快速产生和积累使“大数据”成为当下最流行的IT词汇。本文首先介绍了大数据概念及其主要特点,然后结合保险行业大数据的应用分析实践,重点介绍了几种下应用场景,同时介绍了保险公司在大数据应用中构建的集中系统架构,并对大数据应用建设提出了相关建议。

随着互联网技术的发展,自2009年开始全球数据量每年增长50%,每两年数据量翻倍,目前世界上90%以上的数据是在最近几年产生的。海量数据的快速产生和积累使“大数据”成为当下最流行的IT词汇。大数据概念在商业领域引发了一系列营销、管理和思维变革,在互联网、金融、电信、政府等行业也得到越来越多的应用,如亚马逊基于用户行为分析推出个性化营销,百度和腾讯分别依托搜索和社交数据分析实现精准营销,阿里巴巴根据用户信用分析实现自动小额信贷服务等。在保险行业,大数据应用为保险企业带来新的发展契机,也带来更大的竞争压力,保险企业要尽快加入到这场现代科技竞赛中,赢得优势。

一、大数据概念及技术特点

        研究机构Gartner对“大数据”的定义是,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。百度对“大数据”的定义是巨量资料,所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的主要特征体现在四个方面:一是海量化,目前全球数据总量已经达到ZB级,企业级数据正在从TB级发展至PB级,数据容量的增速远远超过摩尔定律;二是多样化,数据类型已从传统的结构化数据拓展到半结构化和非结构化数据,后者开始占据主流地位,如文本、音频、视频、点击流量、记录文件等,上述数据占全球数据总量的80%以上;三是快速化,数据分析和处理速度快,如1秒定律,一般要在秒级时间范围内给出分析结果,时间太长就会失去价值;四是价值化,价值密度低但商业价值高,以视频为例,连续不间断监控过程中可能有用的数据仅仅有一两秒,但此类信息大量汇集分析后所带来的经济价值将是巨大的。

        面对大数据的出现,传统数据仓库技术在处理方法上存在诸多不足,主要包括以下几方面。

        1.数据移动代价高

        传统的数据仓库数据应用需要4个步骤:数据源经过ETL(抽取、转换、装载)后进入数据仓库;数据在数据仓库中被组织成星型或雪花型模型;0LAP工具将数据生成多维立方体;数据被提供给查询分析使用。随着数据规模的增大,数据在各阶段的移动时间将可能呈数量级增长,传统的数据仓库数据模式无法满足大规模数据处理需求。

        2.快速适应变化难

        传统的数据仓库需要相对稳定的数据模型,任何模型的变化都需要重新加载和计算数据,数据处理周期长、应变速度慢。在大数据时代,数据分析广泛应用于各个业务场景,业务需求响应速度要求高,传统数据仓库模式难以满足需求快速变化的要求。

        3.数据类型支撑有限

        目前关系型数据库主要支持结构化数据,对于半结构化和非结构化数据无法有效支持,限制了可利用和挖掘的数据的范围。

        4.投入成本较大

        数据量迅猛增加,需要传统数据库具有良好的线性扩展能力和MPP架构,而提供该种能力的数据仓库产品价格高昂,当服务器节点随数据量不断增多时,成本急剧上升。

        近年来,新的大数据技术不断涌现,其中最具代表性的是Hadoop。Hadoop是由Apache基金会所开发的一个分布式系统架构,具有线性扩展、高可靠性、高容错性等特点.能够在低廉硬件设备上支撑海量数据处理。Hadoop技术包括诸多元素,其中最为主要的有以下几个:①HDFS,是分布式文件系统(Hadoop Distributed File systern),用于存储数据,提供高容错性、高传输率访问数据,适合超大数据集应用;②MapReduce,是一种计算模型,用于大数据量计算,通过Map和Reduce两个步骤实现数据处理;③Hbase,是针对结构化数据、面向列的动态模式数据库,提供对大规模数据的随机、实时读写访问;④Hive,是建立在Hadoop之上的数据仓库架构,提供ETL、数据存储管理和大型数据集的查询和分析能力;⑤Pig,是对大型数据集进行分析、处理和评估的工具,类似传统数据库中的执行计划步骤内容。

二、大数据在保险行业的应用场景分析

        大数据主要应用于客户洞察、市场洞察、运营洞察等方面。在客户洞察方面,可以通过对海量客户服务信息流数据的捕捉及分析,提高服务质量,同时可利用各种服务交付渠道的客户数据开发新的预测分析模型,实现对客户消费行为模式分析,提高客户转化率。在市场洞察方面,大数据可以帮助分析历史数据,寻找其中的创新机会。在运营方面,大数据可协助提高风险透明度,加强风险的可审性和管理力度,同时也能帮助优化业务流程、提高业务效率、降低业务成本。本文结合保险行业大数据的应用分析实践,重点介绍如下几个应用场景。

        1.客户发现

        运用大数据技术有利于全面了解客户保险需求,发现更多的营销机会和更准确的目标客户。影响客户保险需求的因素主要包括四个方面:一是客户面临的风险,通过客户年龄、职业、爱好、习惯、家庭结构、医疗、养老、子女教育基金储备等信息,分析客户面临的风险及风险程度,形成客户风险数据集;二是客户的风险偏好,通过客户对待风险的态度、行为等信息,分析客户的风险偏好,形成客户风险偏好数据集;三是客户的收入水平,通过客户的网络交易、消费行为等信息,分析客户的收入水平,形成客户收入水平数据集;四是客户的保险认知程度,通过客户的职业、学历、教育背景、爱好、保险状况等数据,形成客户的保险认知度数据集。每个数据集背后都有未被发现的潜在价值,数据集间的交集情况反映了客户的保险需求程度。在上述过程中,客户数据获取是难度较大、复杂性较高的部分,需要保险公司拓宽客户接触的渠道和机会,为大数据应用奠定数据基础。

        2.产品定价

        保险公司可以根据客户风险等级实现产品差异定价,对风险级别低的客户收取较低保费,对风险级别高的客户收取较高保费。差异化的产品定价一方面可提高保险产品的市场吸引力和竞争力;另一方面将有助于提高保险公司的盈利水平。如淘宝的运费保险,起初采用统一定价模式,导致亏损严重,之后根据每笔交易的买家习惯、卖家习惯、商品品种、商品价值、促销活动等信息确定保费价格,使风险和保费相匹配,亏损局面得到扭转。

        3.理赔加速

        保险公司可通过大数据技术进行预测分析,提高欺诈监测能力,实现理赔快速处理。为减少欺诈损失,一般情况下,保险公司至少需要数天时间进行理赔处理,一些信誉良好的客户无法获得快速理赔服务。通过大数预测据分析,可以对不同赔案的理赔风险等级进行识别,从而使低风险赔案得到快速处理,高风险赔案被有效识别,降低诈骗损失。如南非最大的短期保险提供商Santam成功利用大数据技术将理赔时效从3天降低到l小时内,并及时发现了保险诈骗团伙的欺诈行为。

        4.语音服务

        呼叫中心的录音数据是典型的非结构化数据,也是典型的“大数据”。除了存储备用和人工质检调听外,海量数据几乎成为沉没数据。目前通过将语音识别技术与大数据技术相结合,海量语音数据的处理和分析正在为呼叫中心的录音自动质检、话务量结构分析、话务异常原因分析、客户流失原因分析、业务热点趋势分析等提供全面支撑。

三、大数据应用系统架构

        目前,保险公司在支持结构化数据的分析应用方面基本建立起了一套数据服务架构。为实现支持半结构化和非结构化数据类型、支撑海量数据分析,保险公司还需要结合大数据相关技术,对现有技术架构进行改造调整。保险公司现有数据服务架构与调整后架构对比如图1所示。
图片1.jpg

        调整前后的架构主要区别在于引入了Hadoop技术,在数据存储方面增加了HDFS对分布式文件数据的存储管理以及Hbase对海量结构化数据的存储管理,在数据分析方面增加了MapReduce、Hive和Pig等对上述存储数据的计算和分析。具体为:一是数据源范围扩大,增加了半结构和非结构化数据来源,包括呼叫中心记录的语音数据、客户社交数据、各类文档数据等,尽可能充分利用公司各类数据产生商业价值;二是数据存储增加了HDFS、Hbase等工具,实现管理能力随数据量增长线性扩展:三是数据分析过程发生了变化,采用MapReduce、Hive、Pig等技术对Hadoop数据进行分析计算。调整后的架构将采用Hadoop与传统数据库技术相结合的方式共同支撑公司数据应用,结合模式可视实际需要灵活掌握,如不同数据类型采用不同的处理技术,传统技术处理结构化数据,Hadoop技术处理其他类型数据;或者两种技术混合使用,将传统数据库数据导入Hadoop中,借助Hadoop提升大规模数据的处理能力等。

四、大数据建设方法思考

        保险公司拥有大规模数据,结构化数据达数百TB,再加上语音、文档、网站等各类数据以及每日不断产生的新数据,数据规模将快速突破PB级。面对大量的数据资产,保险公司需要紧跟技术发展步伐,充分挖掘数据中蕴涵的商业价值,应对日益严峻的市场竞争。笔者对保险公司的大数据应用建设方法,提出以下几方面思考。

        1.大数据应用不仅需要大数据处理技术,更需要公司整体布局,建立数据生态

        在大数据时代,企业驾驭大数据的能力不仅体现在数据处理技术的应用,更体现在数据思维意识和方式上。数据正在成为重要的生产资料、巨大的经济资产、新世界的矿产与石油。保险公司需要顺应趋势转变思维,建立大数据驱动发展的思维模式,从战略高度关注大数据布局,建立从数据获取、数据整合到数据使用的完整链路,这需要业务、数据、服务部门的协同配合,通过扩大业务范围搜集更多的客户数据;通过提升数据组织和处理能力整合更多的可用数据;通过将数据分析结果充分运用到服务中提升客户体验,创造更大价值。因此,保险公司大数据战略布局需要将业务、数据、服务结合起来统筹考虑、整体规划,打造大数据生态圈。

        2.大数据应用作为新兴技术,从研究到使用需要一个过程,应按照循序渐进的方式开展相关工作

        IBM研究指出,大数据应用建设分为四个阶段:一是教育,让大数据的重要性和必要性得到充分认识;二是探索,探索大数据的应用方法;三是接触,从实际应用的角度思考大数据;四是执行,真正把大数据与业务流程相结合。大数据应用的建设不是一蹴而就,重在实践和迭代发展,在起步阶段可以结合具体痛点问题展开,在不断积累经验后逐步扩大应用范围。

        3.大数据应用建设的关键是高质量的数据基础,没有数据质量就没有一切,只有高质量的数据才能为企业带来价值

        面对数据来源广、信息种类杂、质量参差不齐的情况,需要在建设大数据应用的同时关注数据治理。一是建立数据规范化标准、数据分类标准、数据定义标准、质量衡量标准等;二是建立用于监控数据从获取、存储、分析,到运用的质量监控体系;三是建立数据问题从检查、反馈到修改的质量改进流程,使问题能够得到及时发现和根本解决。

        4.大数据应用从数据获取、挖掘到运用是一个复杂的、跨部门、跨领域的过程,需要各类专业人员共同协作完成

        保险公司可考虑组建由多个部门联合参与的大数据研究团队,专门研究大数据带来的销售创新和服务创新,提供大数据应用服务。在人才队伍建设方面,一是要加快现有人员的培养,提高从业人员在业务、大数据技术、统计方法上的技能;二是加强与大数据技术领先的互联网公司合作,借鉴先进经验加快人员经验积累;三是加快人才引进,吸引市场上高端的数据人才加入公司团队,有利于快速构建起大数据队伍,并为团队内其他人员的成长提供辅导帮助,带动整个团队的持续进步。

(文章来源:《中国金融电脑》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章