• 快捷搜索
  • 全站搜索

Logistics回归算法在证券业的应用

2013-08-21 14:06:09作者:海通证券股份有限公司 吴斌 应力编辑:
在证券客户流失的预测模型建立环节,关键是对现有各类算法中的自变量、模型参数进行选择和调整。在自变量、参数的选择过程中,需要以业务指标为指导,以已流失客户的流失前特征做参考。

本文以Logistjcs回归算法为基础,结合证券行业经纪业务的特点,选择了总资产比例、交易次数比例、总资产连续下降等12个指标建立证券客户流失预测模型;并通过历史数据计算,确定了模型的常变量及回归变量。相关理论方法评估及真实数据验证表明,该模型的预测准确度较高,可以基于客户历史行为反应其流失倾向。

一、客户流失预测的基础模型简介

  一般而言,“客户流失”被定义为客户中断与公司的联系。证券公司的客户流失从根本上说是指与公司解除交易指定关系。但有时,长时间的零资产也可以认为是客户流失。本文的客户流失定义为:客户的日均资产萎缩至近一年最高月日均资产的15%以下(部分流失)或中断与公司的关系(全流失,如销户)。
  
  常用的客户流失预测算法有Logistic回归、神经网络、决策树等。Loqistic回归模型是一种对数线性回归模型,通过对自变量值的拟合,判断应变量的响应度。自变量的取值可以是连续型的,也可以是非连续、二分类型的。
  
  Logistic回归模型可以用公式表示:

基于Logistics回归算法的证券客户流失预测模型及应用公式1.jpg

        其中:

  ·响应变量可以分为二元响应变量和多元响应变量,二元响应变量的值通常由0和1组成,例如:客户生命周期中的客户流失、非流失:多元响应变量的值通常由多个数值组成。
αβΣΣ

  ·E(Y):响应变量Y=0的期望概率。对二元loqistic回归来说,0为目标响应变量。

        ·α:logistic回归的常系数。

        ·βi:logistic回归的变量回归系数。

        在证券客户流失的预测模型建立环节,关键是对现有各类算法中的自变量、模型参数进行选择和调整。在自变量的选择、参数的选择过程中,需要以业务指标为指导,以已流失客户的流失前特征做参考。

二、证券客户流失预测模型的建立

        1.选择基础变量及衍生变量

        根据客户在证券公司的基本属性及行为特点,本模型从资产、佣金、仓位、交易活跃度、流入流出、盈亏、基本信息等7个方面生成基础变量49个。

        2.数据预处理规则

        在数据处理过程中,有些数据存在一定的缺失或异常。例如市值/资产=仓位。这里资产一般不会为0,但出现这种情况,就需要进行处理。本模型中,对于缺失值和异常值使用如下方法进行处理。

        分箱:通过考察“邻居”(即周围的值)来平滑存储数据的值。

        聚类:将类似的值组织成群。落在聚类集合之外的值被视为局外者。

        分位数:当一些变量的取值出现异常值时,如果其值大于某个较大的阈值(内限或外限),则该变量的值用这个较大的阈值替代,如果该变量的值小于某个较小的阈值(内限或外限),则该变量的值用这个较小的阈值替代。

        在数据抽样方面,选择201 1年12月和2012年1月实际流失的客户数共44629位。为了增加目标样本的浓度,提高目标样本的行为表现,随机抽取了44629位非流失客户,流失客户与非流失客户的比例为1:1。
   
        3.衍生变量的筛选

        在所确定的354个衍生变量中,并非所有的变量都适用于客户的行为分析。部分变量的表现甚至与客户流失的状态不相关。这就需要以已经流失的客户数据为基础,对变量进行分析、筛选。

        (1)第一次筛选:相关性筛选变量。相关性筛选用于验证两个变量间的线性关系,从而判断两个变量是否呈线性关系、线性关系的强弱、以及是正相关还是负相关。在本模型中,要求模型变量和响应变量是线性相关,所以我们删掉非线性相关、0相关(指无相关性)的两类变量。初次筛选选择了相关性最高50%~75%,的衍生变量,约200个左右。

        (2)第二次筛选:单变量AR值筛选变量。做单变量AR值比较是为了找出单变量对模型的提升率比较高的变量。累积准确曲线(CAP)及准确性比率(AR)用于检验模型对客户流失概率进行正确排序的能力。

        在单变量AR值筛选中,利用Sas对200个单变量分别做loqistic回归,得出单变量回归和每个客户的单变量流失概率;然后将流失概率排序后,得到前n%的客户累计流失占比m%,n=1...100,得到n%与m%的一条曲线;通过计算得出每个变量的AR值,从中选择AR值比较高的变量。同时,根据经验删除掉AR值小于0.1的变量。
  
        (3)第三次筛选:loglistic逐步回归变量筛选、相关性方向和回归系数方向变量筛选。如果将目标变量的流失定义为1,那么,

 
基于Logistics回归算法的证券客户流失预测模型及应用公式2.jpg

        当回归系数β为正时,变量x越大,P流失越小;反之,β为负时,变量x越大,P流失越大。因此,回归系数的正负与流失概率的大小呈负向关系。

        当变量与响应变量的相关性系数为正时,变量越大,流失概率越高;反之,当变量与响应变量的相关性系数为负时,变量越大,流失概率越小。所以对剩下的变量,必须保证回归系数方向和相关性方向相反,并删除回归系数与相关性系数乘积为正的变量。经过这个步骤,得到43个变量。

        (4)第四次筛选:业务相关性方向变量筛选、共线性变量筛选。相关性方向是从数据的角度上表现出的变量和响应变量之间的关系。从业务角度,客户流失与响应变量也是正相关或负相关联系的。例如,T6月的仓位越大,该客户越不容易流失。从业务角度,“T6月的仓位”这个变量和响应变量是负向关系。模型最终的变量应保证业务方向与相关性方向一致,并且业务相关性方向和回归方向需保持相反。

        经过筛选,剩下31个变量,都是从资产累计流出量的角度来描述的。这其中,部分变量之间也具有很大的相关性,称为共线性变量。对共性变量我们只选择其中之一。最终选择了日均资产量比、统计月日均资产连续两个月下降、统计月期末资产相对统计月日均资产的比例、统计月最低资产相对统计月日均资产的比例、日均市值量比、T6月总市值相对于T5月总市值的波动绝对值、统计月最高最低资产之差相对统计月日均资产的比例等12个变量作为模型的最终变量。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章