• 快捷搜索
  • 全站搜索

商业银行客户智能数据挖掘技术应用

2018-01-29 13:34:14作者:中国民生银行 王彦博 周学春Q编辑:金融咨询网
在大数据价值掘金的时代,商业银行拥有多少数据量已经不是重点,能够有效地利用数据进而挖掘出具有业务价值的信息才是关键。本文从商业银行大数据挖掘应用实践出发,构建客户智能数据挖掘应用体系,并对数据挖掘相关技术工具予以介绍。

随着信息技术飞速发展,Web2.0和云技术兴起,数据存储成本下降,商业环境中的数据量呈现爆炸性增长。在大数据价值掘金的时代,商业银行拥有多少数据量已经不是重点,能够有效地利用数据进而挖掘出具有业务价值的信息才是关键。本文从商业银行大数据挖掘应用实践出发,构建客户智能数据挖掘应用体系,并对数据挖掘相关技术工具予以介绍。

客户智能数据挖掘应用体系

        金融脱媒和利率市场化促使商业银行改变经营策略,使营销哲学从“产品中心”向“客户中心”转变。同时,商业银行数据仓库经过长期积累拥有了大量的客户特征与行为数据,为运用数据挖掘技术进而实现“客户中心”经营和客户智能应用创造了条件。

        我们理解客户智能是指通过数据挖掘建模技术,进行客户细分、识别潜在流失客户、判断客户提升可能性,并抓住一切机会对客户进行交叉销售。商业银行客户智能应用体系(见图1)包括以下模块:客户全景画像、客户价值评价、客户科学细分、客户业务提升、客户流失预测、客户产品响应、客户关系网络、客户行为轨迹。

1.jpg
图1 商业银行客户智能应用体系

        1.客户全景画像

        客户全景画像本质上是一个关于客户属性、特征、标签的宽表,是数据挖掘建模的基础。客户全景画像一般包含以下内容:人口统计特征(年龄、性别、受教育水平、职业、收入等),资产相关特征(储蓄余额、理财余额、基金余额、国债余额、保险余额、资产偏好、开户时长等),负债相关特征(贷款类型、余额、历史贷款笔数、未结清笔数、最近一笔贷款时间、平均贷款时长、担保类型、逾期情况、不良情况等),结算相关特征(不同交易渠道的交易量、交易频次、不同渠道占比、渠道采用偏好等),社交特征(交易关系网络、担保关系网络、家庭关系网络、股东关系网络等),行为轨迹特征(基于地址信息的分析,如家庭地址、公司地址、经营地址、消费地址等),消费偏好特征(基于文本分析,如旅游达人、美食专家、商务差旅、奢侈消费等)。

        2.客户价值评价

        管理学定律表明,20%的客户创造了80%的利润。银行需要建立一套客户综合价值评价体系,有效识别高价值客户。客户综合价值评价体系包括(但不限于)以下维度:经济价值、成长价值、潜力价值、风险价值、忠诚价值、网络价值、活跃价值、创新价值、稳定价值,具体的测量指标项见图2。

2.jpg
图2 商业银行客户综合价值评价体系

        3.客户科学细分

        客户科学细分属于一种探索性建模过程,主要采用数据挖掘聚类算法,选择银行业务所关心的特征和变量,将客户划分为几种类型,从而勾勒出不同客户群体的特征,为后续针对不同客群开发与之匹配的产品服务和营销策略指明方向。

        4.客户业务提升

        客户业务提升主要是指对银行客户金融资产的提升,通常采用数据挖掘分类技术,旨在分析一定时间段内,具备什么样特征的客户其金融资产提升的概率较高。识别出高提升概率的客户后,银行一般会进一步使用数据挖掘关联规则模型,对不同类型的客户配置不同的产品,从而有效引导客户业务提升。

        5.客户流失预测

        商业银行对于客户流失预测主要关注三类客户群体:无贷户、有贷户、结算户。不同客户群体的流失定义存有显著差异。具体而言,定义无贷户流失一般使用客户金融资产下降到期初的一定比例或一定差额;定义有贷户流失一般使用客户贷款到期后在一定时间内是否发生续贷;定义结算户流失一般使用客户在一段时间内特定结算工具(如POS机具)是否交易量急剧下降。

        客户流失预测采用生存分析的技术,重点关注在未来某时点的客户流失情况,针对存在流失倾向的客户,将名单交由客户经理进行回访,了解客户流失原因,例如贷款流失可能是因为利率较高、贷款额度较低、服务质量较差、经营地址发生变动、暂时没有资金需求等。另外,针对存在资金流失倾向的客户,客户经理可向客户推送一些高收益的中收或理财产品,或通过回访了解客户需求,设计有针对性的产品,实现客户挽留。

        6.客户产品响应

        客户产品响应通常使用分类技术中的逻辑回归或决策树模型,计算出客户对某种产品的响应概率。例如,当银行计划推广一些能够获取中收利润的产品时(如基金、保险、结售汇等),这时需要通过模型寻找可能对相关产品感兴趣的客户,生成相应的客户营销名单,然后通过电话营销等方式,激活潜在客户需求,达成真实的购买和交易行为。

        7.客户关系网络

        实际上,每名客户都处于不同的社会关系网络中,都或多或少与他人发生联系。以往社交网络研究表明,客户在网络中所处的位置、网络自身的一些特征(网络大小、网络密度)等会影响新产品的扩散和客户的流失等。商业银行客户关系网络包含(但不限于)以下几种类型:客户交易网络(刻画客户间资金转账等交易关系)、担保网络(刻画客户间交叉担保情况)、股东网络(刻画企业间交叉持股和关联关系)、同事和朋友网络(刻画客户同事圈、朋友圈)、家庭网络(刻画客户配偶、亲戚等关系圈)等。

        8.客户行为轨迹

        客户行为轨迹来源于两类地址:静态地址和动态地址。前者指客户在办理各种业务时填录的家庭地址、公司地址和账单地址等;后者是客户刷卡、取现、消费时遗留下的位置信息和行动轨迹。客户和银行的每一次接触(柜台、ATM、手机银行APP、自助网点、POS刷卡等)都会留下行为痕迹。例如:客户通过ATM取现,银行可以通过后台ATM交易系统获取客户取现位置;客户在不同的地方使用APP登陆手机银行,银行可以通过GPS跟踪到客户位置和移动轨迹;客户刷卡消费时,银行通过POS地址发现客户在哪些商场超市或4S店有过消费行为。

客户智能数据挖掘应用实践

        1.客户关系网络应用与价值

        客户关系网络以图挖掘技术为传统数据建模带来新的解读视角,相关应用和价值介绍如下:一是识别核心客户,基于网络核心客户特征(如点度中心度、接近中心度和居间中心度)来识别网络中的意见领袖,并通过其进行业务拓展,效果往往是基于随机客户的数倍甚至数十倍;二是判断风险传染,基于客户间强关系(如交易关系、担保关系)构建关系网络图谱,当发现一个圈子中存在违约或不良客户时,根据圈子内群体行为相似性,银行有理由相信风险会在圈子内蔓延;三是识别交叉担保风险,商业银行可基于担保关系勾勒出客户间的交叉担保情况,并在担保网络中快速发现客户存在过度担保的情况,从而提前防范风险;四是客户间产品推荐,产品推荐的一个重要原则是考虑用户间的相似性,比如他们是否同属一个关系圈(即物以类聚、人以群分),银行基于客户关系圈将客户划分为不同群体,然后将各群体中持有占比较高的产品推向该群体内还未持有相关产品的客户,以实现精准产品推荐。

        2.基于地址的客户行为轨迹应用

        通过收集整理客户地址,银行能够勾勒出客户的行为轨迹,围绕轨迹数据的相关客户智能应用包括以下方面:一是勾勒客户地理分布热力图谱,银行基于客户地址信息可描绘出客户的生活圈、工作圈和消费圈等热力图谱,从宏观全局了解客户在某个城市的地理分布;二是判断客户的潜力和价值,例如基于客户家庭地址可以判断客户住宅的高档性,基于客户消费地址可以判断客户消费出入场所的高档性;三是联合商家进行营销,比如联合星巴克营销——银行基于客户地址信息(办公地址、家庭地址和消费地址)整理出距离该星巴克一定范围内的银行客户,并联合星巴克促销,如推送星巴克折扣券等,并收取一定的中介服务费,从而实现银企客三方共赢。

数据挖掘技术工具

        为有效实现客户智能数据挖掘应用,银行应掌握相关技术工具,大致归纳为以下三类。

        1.图形界面类工具

        典型的工具有SAS EM、IBM SPSS Modeler、Weka等,工具中嵌入较为经典的算法(如逻辑回归、决策树、K均值等)。图形界面操作支持用户通过鼠标对相关算法节点进行拖拉拽和点击,快速完成数据处理和模型运算,从而实现数据挖掘建模。该类工具的优点是上手快、易操作、可视化程度高;但相关工具中模型、算法的参数标准化程度较高,一般不支持个性化修改,也难以支持对模型的批量运算,工具的灵活性较弱。此外,该类工具多为单机部署,数据分布式并行计算能力较弱。

        2.脚本语言类工具

        典型的工具有R语言和Python。前者是统计学家开发的,后者是计算机科学家开发的。两个开源工具都包含一些较为成熟的模块和算法包(如逻辑回归、支持向量机、K最近邻等),便于用户直接调用。此外,用户还可以根据个性化需求,对既有算法包进行修改调整,工具较为灵活,可扩展性较高。对于一些较为前沿的算法和应用,如社交网络分析、文本挖掘、数据可视化等,两者均有很好的表现。

        3.大数据类工具

        大数据时代对商业银行的数据分布式存储与并行计算提出了更高要求,银行需要在传统数据挖掘工具的基础上引入大数据技术。以Hadoop为核心的大数据平台与传统数据挖掘平台相结合已经成为银行应对海量数据处理的最佳解决路径,主要包括Mahout和Spark两类工具。Mahout主要提供了一个可伸缩的数据挖掘与机器学习算法集,通过MapReduce模式加以实现,可针对海量数据集实现频繁模式挖掘、聚类、分类、推荐引擎等算法。Spark建立在统一抽象的RDD之上,以一致的方式应对不同的大数据处理场景,实现了分布式并行计算从“大硬盘”向“大内存”的提升。其内置的机器学习类库MLlib,可适用于各类常见的数据挖掘任务,尤其擅长机器学习中的迭代类算法。大数据类工具以Java、Scala等开发语言为主,同时也兼顾与各类脚本语言的整合,经典的如R语言与Hadoop的结合包括RHadoop和SparkR两种方式:前者是一个R与Hadoop的集成编程环境,包含了rmr、rhdfs,对应于Hadoop平台中的MapReduce、HDFS;后者是一个R包,提供了在R语言中使用Spark的轻量级方式,从Spark1.4版本后被内置到Spark发行版中,目前在最新版Spark2.0中得到进一步丰富和完善,实现了分布式DataFrame,支持查询、过滤以及聚合的操作,可实现对大规模数据集的挖掘处理。

(文章来源:金融电子化杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章