• 快捷搜索
  • 全站搜索

大数据可视化与可视分析

2016-08-12 15:22:04作者:浙江大学计算机学院 陈为编辑:金融咨询网
可视化是一门利用人眼的感知能力和人脑智能对数据进行交互的可视表达以增强认知的学科。它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,增强识别效率,高效传递有用信息。本文介绍了它的三个主要作用,并概述了大数据可视化分析技术在金融业的应用以及未来会遇到的机遇及挑战。

 人们获取、存储、传输、理解、分析和应用大数据时,需要一种便捷的信息交流通道,以便快速、有效、准确地理解和驾驭这个过程。可视化是一门利用人眼的感知能力和人脑智能对数据进行交互的可视表达以增强认知的学科。它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,增强识别效率,高效传递有用信息。它的作用主要体现在三个方面:

图片1.jpg

      作者简介:陈为,浙江大学计算机学院教授,大数据可视分析方向。发表国际一流学术期刊论文50余篇,担任多个期刊编委及国际学术大会主席,出版数据可视化方向著作2部。与华为、阿里巴巴等企业密切合作。个人主页:http://www.cad.zju.edu.cn/home/chenwei

        ●信息展示。例如在商业智能领域广泛使用的仪表盘,图1展示了Facebook和Twitter等社交平台的监控,包括流量监控、地理监控、来源监控等;

图片2.jpg

 

        ●信息推理和分析。引导用户基于已有的可视表达通过交互操作引入用户的领域知识,从数据中获取更深层次的分析和信息,例如基于大数据的网络安全越来越倾向于采用可视化方法,提高检测、决策和预测的效率和精度;

        ●信息传播与协同。利用可视化手段加速信息的传播,以众包的形式收集人类智能等,例如一款名为Fold.It的多用户在线游戏让玩家根据简单规则扭曲蛋白质结构成为理想的形状,以众包的形式分析蛋白质结构,结果表明这种方式远比算法更高效。

        大数据时代,已有的可视化技术已难以应对海量、高维、多源、动态数据的分析挑战,需综合可视化、图形学、数据挖掘理论与方法,研究新的可视分析理论模型、高效的可视化方法和敏捷的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息以便做出有效决策。一个可视分析系统应是和数据、任务、使用者高度耦合的,其设计需要考虑三个主要问题:如何针对复杂数据,定义和构建易于可视化、挖掘和交互的数据模型;如何实现分析驱动的数据模型的高效可视化;如何通过对数据模型的建模、更新与交互,为决策者提供一个信息完备的可视化分析环境,实现人机智能的深度耦合。

一、大数据可视化分析技术在金融业的应用

        随着金融行业电子化和数字化的进展,几乎所有的金融活动都体现为数据驱动的业务。大数据可视化分析技术在金融业重点的应用环境和场合有三大类。

        ●在金融大数据的构建、证券市场分析、期货市场走势预测等应用场合,目前并不存在可信的自动分析方法。例如,美国金融分析软件Palantir的核心技术路线是通过可视化界面,分析各类碎片化、时空断裂稀疏、语义模糊的数据。

        ●在海量金融数据的特征分析、客户信用风险分析、汇率波动分析等场合,具体的数据分析任务没有良好的定义,甚至不知道任务是什么。此时,需要通过可视化预先理解数据的全貌,定位感兴趣的部分,并做出分析与推理。

        ●在金融反欺诈、反洗钱电子交易异常检测等场合,态势因时因地变化,条件与环境复杂,与人对抗时需要应急反应。此时,人的智能有效并可靠,需要通过可视化界面将人的经验、顿悟和直觉融入。美国Paypal的反欺诈软件采用的就是可视分析的思想。

        如今,网络多用户交互产生了如电子商务中的买卖家交易日志、微博中的消息转发和回复日志等记录用户交互行为的数据。每笔交易日志包含的维度有买家账号、卖家账户、买家和卖家所在地、交易类目、交易数量、付款方式等。为了找出交易中频繁出现的模式(如促销与虚假交易),常规方法是使用决策树等数据挖掘方法。浙江大学设计并开发的VAET方法和系统,结合了数据挖掘和非结构化数据可视化,允许分析师对时间显著度图中所选的数据使用多层结构进行组织,帮助分析师分析用户交互的重要属性以及不同交互之间关联信息。VAET可视分析系统主要由以下三个重要部分组成。

        1.定义和构建易于可视化、挖掘和交互的数据模型。我们要处理的数据集相当复杂:单条电商交易日志记录有买家、卖家的相关信息,交易的时间、类目、数量、价格、金额等。对这些数据,既要关注用户的总体时序行为趋势或者关系网络结构,又要分析单个用户的特征以及大量交互间的时序关联和上下文关联信息。为此,首先需要定义和构建一个抽象的数据模型,用于刻画分析师感兴趣的交易对象以及感兴趣程度。

        多用户交易数据显著度的计算取决于任务的定义,并且是上下文相关的。在很多任务已经确定的情况下,交易数据的显著度值仍然不能直接由交易的属性直接得到。在分析师寻找异常交易的情况下,他们需要考虑与这笔交易关联较紧密的一系列交易,比如时间相近或来自相同用户的交易。因此,多笔交易的关联需要在分析的过程中被考虑进去。同时,分析师手动指定海量数据中每笔交易的显著度值也是不可行的。

        针对以上问题,本文提出了一种定义交易属性的各种特征,并计算每笔交易的显著度的方法。我们把计算交易的显著度的问题概括为概率估计的问题,使用经典的概率决策树来判断每笔交易属于分析师感兴趣的概率,并使用分析师指定的训练数据的特征来训练决策树。构建好的决策树对每笔交易进行分类并输出其属于感兴趣一类的概率,这个概率被当作其“显著度值”。在后续分析过程中,被分析师标记为显著的交易被重新加入到训练数据集中,帮助完善训练数据,并在下次训练的时候被使用。

        模型由两部分组成:抽象地表达所有交易随时间演化的状态;每笔交易的具体细节。构建过程分为两步:首先采用金融分析师常用的训练决策树并对每条记录进行分类,从而计算“显著度”,以之表征分析师对特定用户交易所感兴趣的概率。

        2.分析驱动的数据模型的高效可视化。在得到每笔交易的显著度值后,为了方便分析师在大量的数据中探索其感兴趣的显著交易数据,系统使用“时序显著度TOS(Time-Of-Saliency)图”基于像素的可视化方式展现了所有交易的显著度值(如图2(a)所示)。TOS图的横轴编码了时间信息,其纵轴使用商品交易的类目来组织。在水平方向上将TOS图均匀划分为不同的行,每一行代表一个类目,图中最右侧彩色条指示了数值方向上不同类目的顺序,不同类目用不同颜色表示。对于图中每一个类目对应的行,按照时间单元将其划分为许多长条型区域,每条交易按照时间和类目就被投影在一个这样的长条型区域中。被投影到所有条型区域的显著度值被累计起来,并且按照某一种特定的配色方案映射为该区域的颜色。图中从浅色到深蓝色的像素点表示累计的显著度值的从低到高的变化。交易数据的显著度随时间的演变以及其与销售类目的关系。深色区域表示可能存在显著交易的区域。特别的,水平方向连续出现的深色区域可能暗示某个类目在一段时间持续出现显著交易的事件(见图2(a)中被选中的部分)。

图片3.jpg

 

        TOS图的交互数据的时间粒度可以由分析师来调整,选定需要被可视化的数据的时间范围,便于进一步的研究和细粒度的数据查看。此外,分析师可以点击在类目索引上以选择需要放大的类目。对于图中不规则的区域的选取,TOS提供套索工具以选取任意形状的感兴趣的区域。当一块区域被选定,图中会出现提示该区域信息的浮框。被选择的数据的细节信息可以通过音符隐喻编码进一步可视化和分析。

        进一步地,使用者在TOS图中所选的数据使用多层结构进行组织,并使用特别设计的音符隐喻的方法可视化,帮助分析师分析用户交互的重要属性以及不同交互之间关联信息。如图2(b)所示,我们使用一个节点来表示一组交易,相连的符点代表出自同一个卖家,节点与音符中的符头相似。这组交易中的属性使用一组视觉通道来编码。节点的颜色编码了交易的商品类目,并与TOS图中的商品类目的颜色编码方案保持一致。节点的大小表示交易的数量,交易数越多,节点半径越大。某些交易包含了一些分析师关注的特征,比如交易地点的异常,本文使用空心的节点状态来提示分析师关注这样的异常。

        一组交易中不同的节点放置在一个符干的末端,节点和符干组合被称作“节点束”。符干的横向位置由该时间单元的发生时间决定,符干的长度表示这组交易的金额总和。如果数据集中的金额浮动较大,那么本文将金额取对数进行处理,再将其映射到节点束的符干上。本文将来自同一个用户的节点束的顶端使用一条符尾相连接,并且他们的横向位置按照每个节点束发生的时间单元来排布。链接多组交易的符尾形成了一条折线,符尾的波动趋势表示了该买家或卖家在一段时间内的交易趋势的起伏。在图2(b)中,紫色音符表示一个频繁交易的卖家所进行的一组交易,分析师鉴定这一组存在刷信誉的嫌疑。

        3.支持对数据模型的建模、更新与交互,为决策者提供信息完备的可视化分析环境。分析电子交易数据的目的在于找出交易中频繁出现的商业模式,设计的可视分析系统既要关注用户的总体时序行为趋势或者关系网络结构,又要支持分析单个用户的交互特征以及大量交互间的时序关联和上下文关联信息。系统测试了包含2600万条交易记录、930万买家和卖家的数据集,实验验证表明该系统可以协助他们很好地发现动态的在线交互模式,如促销,刷信誉等。实验邀请了10位参与者,在训练过程中,先用25分钟的演示解释了系统的工作流程、可视设计和基本功能。演示结束后,每个参与者有5分钟的时间自由练习使用系统。在正式的用户研究阶段,每个参与者被要求完成11个练习,这些练习与分析师时间分析中遇到的场景相似。完成练习后,参与者被要求完成一组问卷。总体上,答题准确率达94.4%,完成练习的时间为5.1 4~44.22秒。

        在某分析案例中,分析师通过检查不同类目交易量的柱状图,发现在某段时间内,“Electronics Accessories”类目中商品的销售量比其他商品大。分析师认为这可能是因为这段时间内该类目的商品进行了一次促销。他进一步点击了音符隐喻视图以验证自己的想法。但是视图中并没有发现任何交易包含了“Electronics Accessories”类目下频繁出现的节点。分析师通过在TOS图中的划选交互过滤掉其他无关的类目,进一步选择了该包含类目的交易。通过仔细检查音符隐喻视图中过滤后所剩下的节点,发现了一个半径极大但是符干极短的节点。该节点显示的交易包含了极大的商品数量,但是成交价格却相当少。通过查看细节视图,分析师发现该节点表现了一笔22万件商品的交易,但是总体价格只有0.1元。通过对历史统计数据的观察,分析师发现该卖家在这段时间内只有为数不多的几次交易,并未进行频繁交易。因此,分析师排除了卖家在进行促销的可能,认为这很可能是由于卖家想提高自己的卖出数量从而进行的虚假交易。虽然历史交易数量并不能够提升买家交易信誉,但是在网站的商品查询搜索结果中,卖家是按照其交易件数从大到小来排序的。分析师这一次同样将其标记为显著的交易并加入到训练数据集中。

二、发展趋势与挑战

        复杂环境和各种社会活动每时每刻都在产生大量的多源异构数据,有效处理它们的挑战不仅在于数据量越来越大、高维、多源、多态,还在于数据获取的动态性、数据内容的噪声和互相矛盾、数据关系的异构与异质性等。人工智能、机器学习和统计分析技术处于大数据技术的核心和前沿,但其大部分方法基于先验模型,在处理动态变化和异构数据时,需要全新的研究思路。最新发展的技术,如深度学习和神经形态工程学,其目标侧重为一个特定类型的问题。当面临常识性推理和语义分析等问题时,难以得到满意的结果。

        新时期科学发展和工程实践的历史表明,智能数据分析所产生的知识与人类掌握的知识的差异正是导致新的知识发现的根源,而表达、分析与检验这些差异需要人脑智能的参与。另外,自动数据分析的结果通常带有噪声,必须人工干预。为了有效结合人脑智能与机器智能,一个必经途径是以视觉感知为通道,通过可视交互界面,形成人脑和机器智能的双向转换,将人的智能,特别是“只可意会,不能言传”的人类知识和个性化经验可视地融入到整个数据分析和推理决策过程中,使得数据的复杂度逐步降低到人脑和机器智能可处理的范围。

        我们可以认为,“可视化”与“数据分析”将是大数据时代不可缺少的利器。但面临复杂高维数据,当前的软件系统以统计和基本分析为主,分析能力不足,主要体现在:数据的大尺度已经超越了单机、外存模型甚至小型计算集群处理能力的极限,需探索全新思路解决数据大尺度的挑战;数据获取和处理过程中,不可避免会产生数据质量的问题,特别需要关注数据的不确定性;同时,数据快速动态变化,对流数据的实时分析与可视化是急需解决的问题;多源数据的类型和结构各异,已有方法在非结构化和异构数据方面支持不足。网络数据可视化和分析是分析和推理异构数据内在关系的最重要方法。

        同时,真实世界与虚拟世界已经密不可分,信息的产生和流动瞬息万变,不断累积形成了大规模的物理信息空间(Cyber—Physical System,CPS),包含海量的三维时空数据、视频影像数据、地理信息数据、传感器网络数据、社交网络数据、网络日志数据等。分析CPS大数据的关键是融合线上和线下数据,结合领域需求和任务,设计符合用户习惯的行业性可视分析方法与系统。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章