何谓洗钱?实际上的意思就是让手里非法来源的金钱,经过多重转手,最后回到自己手上,并且最后一笔交易的性质是合法的。
我们把去参加了的人都看作一个点,每一笔交易都会通过一条边连接两个人,整个洗钱过程,就形成了一个闭环。
我们假设监测对象的交易都记录在一张表格上,事实上,给你一台计算机,加上一个表格数据处理系统,也不一定能够解决这一个问题。
互联网时代的支付行为,早已不再局限于一个几十万人口的小小城镇,,而是跨越了城市、省份、国家,形成了拥有亿级节点的巨大网络。很多黑产和犯罪行为,就隐蔽在复杂的支付链条背后。
为了在这张网络上找到涉嫌洗钱行为的闭环,我们应该把它进行切割,在大量服务器组成的集群里分别存储,并高效地进行计算。为此我们应该大数据技术的支持,也就是将大量廉价计算机连接起来同时运行的能力。
表格数据是一种关系型数据,其数据往往是同质的,一张雇员表记录的就是所有雇员的信息,一张设备表记录的就是所有设备表的信息。
这种数据形式的每一项数据如果都是独立的,就能很好地存储和表示。但如果涉及了数据项之间的相互作用,就会变得复杂。
比如在表格数据中,对于A的邻居和A的邻居的邻居的查询,就很在大多数情况下要非常不同的代码来实现,因为这里面涉及到的邻居、邻居的邻居等关系的表示,在表格形式上的呈现是非常不同的。同时随着邻居的增加,访问数据量是指数增加的,其性能也指数级降低。
所以,在人员跨度很大的洗钱行为中,因为交易数量的剧增,表格计算很可能永远检测不出来。
其实在我们的思维中,从一个节点连续跳到其它节点时,每一步都是相同的过程。很自然地,我们也希望能有一种新的数据形式可以很直观地表示这种过程。
针对图的数学即图论。图论起源于18世纪欧拉对哥尼斯堡七桥问题的研究,当时欧拉在这些桥上散步的时候想到了一个数学问题:如何不重复地走过七座桥。
图论经历了两百多年的发展,经由众多数学家乃至计算机科学家不遗余力的发展,成为了我们解决很多实际问题的强力武器。诸如计算机芯片设计、语言数据库、分子计算、社交网络谣言传播等问题,都可以建模为一个图论问题。
图数据是一种非关系型数据,也就是说,其存储对象也就是顶点可以是非同质的。对于反洗钱问题,我们不但可以记录人的信息,还可以记录企业的信息,以及人与人、企业与企业、人与企业之间的关交易信息。
在图数据中,只需要用查询A的邻居的代码,再迭代一次,就可以查询A的邻居的邻居。
这是一个典型的图计算过程,图计算是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。
在数学形式上,图计算也带来了非常直观简洁的理解。由于图和矩阵天然的对偶关系,因此线性代数自然地成为了图计算的数学语言。
云计算提供了分布式、大规模的计算机集群能力,图计算是在大数据上再提升了一层,处理的不再是二维的表格数据,而是一个复杂的图。
就像深度学习可以直接处理图像数据一样,图计算正在引领一种新的计算范式,甚至是新的数学、逻辑范式,其飞跃性不亚于在多媒体时代,我们的交流从序列化语言到二维图像的转变。
自18世纪的哥尼斯堡七桥问题以来,图计算一直局限于纯人工的学术、理论研究,或在单机上的工程研究。
事实上,如果是简单的反洗钱问题,确实可以用一台计算机和一个表格数据处理系统来解决。
这里有一个重要的节点,也就是谷歌在2003、2004年相继发表了GFS、MapReduce论文。
通过这两篇论文,人们明白了我们在处理大规模计算任务时,不是必须依靠单个昂贵的服务器的技术升级,还可以用多个廉价的服务器搭建出有很强大计算能力的分布式计算系统,进而用于处理海量数据。
这不仅支持了谷歌的核心业务即搜索引擎的发展,后来基于这两篇论文,人们还开发出了Hadoop开源数据库系统。
如今,几乎每一个互联网公司,乃至许多开始大数据转型的传统企业,都用Hadoop支撑着他们的大数据处理系统。
同样,在大型集群的支撑下,图计算也成为了一个极其庞大的系统,涉及的每一个领域:图存储、图数据库、图计算、图深度学习等等,都是一门大学问。
总体而言,一个图要先通过图存储引擎写入存储在图数据库中,然后被在图计算引擎中通过图算法模型读取、计算,最后输出计算结果。而这个图算法模型可能是人工编程的,也可能是通过数据训练得到的图深度学习模型。
我们以一个图计算全栈系统GeaGraph来展开。蚂蚁集团计算存储首席架构师何昌华介绍道,“GeaGraph包含了7个组件,基本都由蚂蚁集团自主研发,包括图存储引擎PhStore、图数据库GeaBase、图计算引擎GeaFlow、图深度学习系统GeaLearning,它们能串联起一个完整的技术链路。除此以外还有单机版本的图数据库GeaBase Lite,可以在单台计算机上运行,用于离线图计算的GeaComputing系统,以及图研发平台GeaMaker。”
当然,分布式+图计算并不能一劳永逸地解决反洗钱问题。由于问题本身的大规模和动态属性,我们将面临几个主要的难题。
在一个图里面,某个人新增了一笔交易,会影响图里面的好多条边。这种情况下,需要保证数据相同,包括如何保证数据的事务性。
所谓事务性是指,比如一个银行账户里本来有100元,不应该出现两个人各来取走100元的情况,否则就违反了事务性。而取钱的两个人的账户信息可能分布在不同的服务器上,这就涉及到服务器的通讯。
在将图数据来进行了大规模的分布式化以后,如何高效地进行图数据的存储和通讯,这是图数据库领域的一个普遍性难题。
具体来说,我们应该将一个大规模的图分割成多段,也就是多个子图,然后放到多台计算机上,每台计算机单独只能对子图进行计算,当要计算全图的某些性质的时候,比如反洗钱分析,可能不止涉及一台计算机上的子图,这些子图之间是需要通讯的。若无法保证事务性,那么计算结果出错就在所难免。
“尽管还没有完全上线,但我们基本上算是解决了这样的一个问题,这个在业内我们是唯一的。”何昌华说道。
这得益于GeaBase的数据强一致性和分布式事务能力。GeaBase是一个金融级分布式图数据库,可以在一定程度上完成对超大规模关系网络毫秒级的复杂查询及变更,具有金融级高可用性。
GeaBase单集群能支撑万亿边规模的图数据,写入和查询吞吐量超过每秒百万次,99.9%查询和写入延时小于20ms。
GeaBase Lite则是GeaBase的单机版本,是一个支持事务处理和强隔离性的单机图数据库,可以单机支持百亿边的图数据,而且集成了全图迭代分析能力,可以同时使用户得到满足对图的复杂分析、快速查询和可视化的需求。
PhStore是GeaBase背后的存储引擎。它基于完美哈希(Perfect Hashing)技术,属于业界首创,在图的读取性能上能够达到常数时间复杂度。单个集群可存储PB级别的数据,比业界通用的HBase 吞吐率提高5倍以上。
反洗钱是一个博弈问题,道高一尺、魔高一丈,问题本身也是动态的,在不断演变。
如果一个人的欺诈行为容易被发现,人们就会想到用团伙欺诈去提高隐蔽性和监测难度。
除了让闭环的跨越性变大,甚至这些图的顶点背后,有很大的可能是正常用户,从而极大提高了顶点的潜在数量。
“有很多洗钱团伙通过跑分平台,租借一些合法账户,使得很多正常账户被动参与到这种黑灰产交易中。在这种情况下,反洗钱的难度更大。”
团伙欺诈的特点不仅在于规模,它还会不停变化,针对这类问题的图计算被称为持续图计算。
如果能把握演变规律,也能带来一定的好处。在观察团伙演变的过程中,可以识别出团伙中的不变元素,也即是关键角色,从而能够快速精准地定位团伙核心,实现更有效的防范。
博弈永不停息,反洗钱问题在未来或许会经历更大的演变。对于变化无穷的数据,数据学习的方式自然更合适。何昌华说,针对反洗钱问题的图深度学习已有探索。支持图深度学习的系统是GeaLearning。
GeaLearning是以图为核心的超大规模分布式深度学习系统。其主要特征包括:支持多种灵活图模型训练方法(不限于global-batch和mini-batch),不限制图神经网络层数和节点邻居个数,以模型并行为核心的混合并行执行方式等。
分布式的欺诈行为,或者说分散账户和长链条的资金分散、聚集行为,使得洗钱行为涉及的顶点数大幅度的增加,为经验测试出逐步扩大的闭环,就势必要增加图计算的深度。
六度空间是一个很知名的概念,也就是你能够最终靠平均六个人的联系链条认识世界上任何一个人。
在这个问题中,可以估算一下,每增加一个度,可联系的人会增长多少倍。当度为1的时候,这个数量范围大概为从人类的邓巴数(一个人维持紧密联系的上限)即150,到社交APP朋友数量即数千人。而只需增加到6度,这个人数就变成了78亿(当前世界总人口)。因此,这样的一个过程必然至少是指数级增长的。
“过去不基于图来进行反欺诈、反洗钱的时候,挖掘的关系深度非常有限,计算也很低效。”
另外,有些团伙会在自己的大量正常交易中混入部分洗钱行为,比如艺术品拍卖等等。这些人可能有多重身份(大量账号),同时违法交易也很低频,交易路径复杂。“障眼法”和稀疏性进一步增加了监测的难度。
“要实现这样的检测,需要非常深层的图计算能力,传统方法很难做到,或者策略过于复杂导致难以推广。”
在GeaGraph上,部分图计算问题能达到10度以上的深度,比如反洗钱问题。“然而,如果要采用图深度学习方法,就会变得很困难。目前几乎所有的图深度学习所探索的图深度只达到了2度,能够探索到3度的技术非常稀有。”何昌华说,蚂蚁集团的图技术目前已能做到10度下探,目标是无限制下探。
为了支持这样的探索,蚂蚁集团研发了GeaMaker平台。GeaMaker是一站式图计算研发探索平台,融合了GeaGraph的底层系统的能力,为用户更好的提供了具备探索、仿真、性能评估等功能,集在线查询,近线计算,离线分析和图学习于一体。
监测洗钱行为是为了防范,为了可以及时遏制这类事件的发展,必须及时有效地发现。因此,图计算系统的实时性是不可或缺的。
但在大规模的图计算场景中,延时问题是非常严苛的考验。“同一个人如果要在短时间里做两笔交易,第一笔交易就必须非常快地完成,通常得是数十毫秒级别的响应水平。”
另外,如果优化做的不够好,检测到一个洗钱闭环常常要一天的时间。“但在理想情况下,我们大家都希望能够实现秒级检测。”
举个更简单的例子,你在社交应用上做的一个简单的交互行为,就涉及到了跨越服务器的实时通讯。“比如在蚂蚁森林中,收集了朋友的能量后,对方立刻就能实时看到,这对时效性以及数据一致性的要求非常高,但这两个人的节点信息原本很可能存储在不同的服务器上。”
在微积分中,y(x+Δx)-y(x)其实是一个无穷级数,但我们大家可以只保留第一个项,来近似地通过已知的y(x)的值,来计算y(x+Δx),即y(x+Δx)=y(x)+AΔx。
流计算就是事件检测,增量图计算就是性质检测。“比如在进行欺诈检测的时候,我们不会对每一笔交易都做一次图计算,这会造成极大浪费。而是会先检测交易中的额度,当交易额超过一些范围的时候,系统判断存在可疑行为,就会引入欺诈检测的图计算模型,来看看涉及大交易额的几个账户是不是真的涉嫌欺诈行为。这需要将流计算和图计算深度地融合才能做到。”
要使得流式图计算能够实时进行,还需要将全图计算转换成增量图计算。也就是说,增量图的计算结果对于全图计算的改变也只是一个微小的增量。
支持流式图计算的是GeaFlow,GeaFlow是蚂蚁集团自研的流式图计算引擎,支持秒级6度以上的流式子图匹配和秒级全图时序增量图计算。
全图计算要比较长时间,可以离线完成,增量计算因为涉及子图的规模小很多,从而能够实时进行。
这就要依赖于离线图计算系统GeaComputing,GeaComputing是由蚂蚁集团在清华大学研制的Gemini和ShenTu离线图计算系统上进一步优化的分布式图计算平台,支持万亿级图数据,能够为用户提供高效的复杂图分析能力。
GeaComputing通过使用块式划分策略,流式消息处理等手段降低内存需求。其性能优于业界通用的GraphX系统百倍以上,内存占用仅为其十分之一。
要使得流式计算能够实时进行,还需要将全图计算转换成增量子图计算。也就是说,增量的计算结果对于全图计算的改变也只是一个微小的增量。而全图计算需要较久,可以离线完成,增量计算因为涉及子图的规模小很多,也能够实时进行。
蝴蝶效应是指在一个动态系统中,初始条件的微小变化,将能带动总系统长期且巨大的链式反应,是一种混沌的现象。
增量的影响本身也是非常难以把握的事情,可控性很难保证。“一个数据更新后,可能会影响到图里的很多个顶点;或者多个数据同时更新时,还会互相影响,这时候在多个服务器上如何保证数据一致是个难题,有时候我们甚至会以数据不一致作为妥协手段。”
从2018年开始,蚂蚁集团在基于资金网络、中介网络上的典型欺诈检测上已经能做到百万吞吐量下的毫秒级响应,“相比之下,传统方法在大多数情况下要几个小时或一天才能输出结果。”
到2019年,蚂蚁集团在实现个体挖掘的基础上,延伸到了欺诈团伙的检测,而且是实时的。
性能和速度的权衡是技术优化的一个永恒主题,不同的权衡适应了不同的应用场景,背后是成本的考虑。偏向性能的一般是专用技术,偏向速度的一般是通用技术。
尽管内存加载的图计算很快,但大规模的图数据难以全部加载到昂贵的内存资源上,因此将图数据加载到便宜的外存(比如SSD)上,就成了很重要的探索方向。“当然,这也会带来数据访问上的速度限制问题(也就是吞吐量),以及图计算逻辑的修改和优化方面的额外工作。”
另外一个权衡是适配性方面,典型的就是计算和通讯的权衡。如果图的关联比较强和密集,就不太适合做太细的分割,反之亦然。另外,若需要灵活性更好的可扩展性,则必须偏重通讯方面。
比如在反洗钱过程中,我们大家可以将全量数据存放在SSD上,只将频繁访问的数据存储在内存里,进而达到成本和性能的平衡;另外,对于内存需求量不大的图算法,我们就将它运行在单机上以提高效率,只有单机无法运行的算法才使用分布式,这样就达到规模和性能的平衡。
通过克服上述困难,蚂蚁集团保证了反洗钱过程中的数据事务性和一致性,能够识别团伙洗钱,并且不受深度问题带来的计算量爆炸困扰,得以实时监测和防范洗钱行为。
2020年起,GeaStack应用于蚂蚁集团支付业务,在已有策略模型的基础上,通过引入图模型,反欺诈稽核资金额增加了6%。
2021年,GeaStack应用于蚂蚁集团反洗钱分析,覆盖支付宝全部资金交易,每天计算8亿客户过去180天大约200亿左右边关系,将客户资金流向和关系可视化,对疑似团伙类犯罪风险识别能力提高94倍多,风险审理分析效率提升90%。
支付涉及到了每个人,以及人与人之间的关系,这些事件能很自然地构成一张张图。蚂蚁集团的核心业务是大数据金融,天然和图计算有着密切联系。
蚂蚁集团从2015年初开始组建图数据库团队,2016年初发布第一个图数据库版本GeaBase。
接下来几年,从支付宝大改版到新春红包再到双11,GeaBase迎来了业务的绽放期,到2019年双11,GeaBase双11主链路上单集群规模突破万亿边,点边查询突破800万QPS,平均时延小于10毫秒,成为支付宝核心链路上很重要的一环。
“在GeaBase的基础上,通过全栈技术系统GeaGraph,蚂蚁集团解决了图数据分析面临的大数据量、高吞吐率和低延迟等重大挑战。”
GeaGraph支撑了蚂蚁集团的支付、数金等众多关键应用场景,单集群达到百亿个节点、万亿条边的海量数据规模,为蚂蚁集团的风险控制、反洗钱、反套现、金融案件审理、信用分数等业务提供稳定的决策能力。
搜索推荐涉及社交网络的购买行为的关联,比如能够准确的通过你的朋友的购买喜好,推测出你的购买喜好,这类问题也有非常强的图属性,很适合应用图计算技术。
但蚂蚁集团并没有在这样的领域布局。为何要深耕金融,而不是先在搜索推荐等应用上大规模落地?
何昌华表示:“这类问题通常涉及的深度不大,一般是1-2度。而在金融风控、电网规划中,经常能遇到对深度要求非常高的问题。这对我们的技术锤炼是非常好的场景。同时,在这些“炼狱”场景锤炼出来的技术,也能很容易地应用到简单的场景里去。”
如此高难度业务场景的考验,正是蚂蚁集团的图计算拥有大数据量、高吞吐率、低延时的计算能力的秘密。其中在低延迟方面,GeaGraph一般能支持5、6度深度的毫秒级计算。
得益于这种攻关精神,蚂蚁集团还在图数据库性能测试的LDBC基准上,以及斯坦福图深度学习推理基准(OGB)上拿到了世界第一。
“到目前为止,可以说,无论在图计算规模、图数据库规模,以及涉及的图计算问题的复杂度,和在这之上支撑的业务量,GeaGraph都是世界第一水平的。”
在刚刚结束的2021世界互联网大会上,蚂蚁集团大规模图计算系统GeaGraph获得世界互联网领先科技成果奖。这个奖项代表着全球范围内最新科技的最高水平。
从点到图,布局图计算的企业也形成了一张图网络,已有百家争鸣之势,建立标准自然势在必行。
工信部、国家标准化管理委员会通过全国标准信息公共服务平台公布,《信息技术图数据库系统技术方面的要求》的国家标准正式立项,这也是国内首个图数据库方面的国家标准立项。
此国家标准由TC28(全国信息技术标准化技术委员会)归口,由蚂蚁集团牵头制定。
基于蚂蚁集团的标准贡献,在近日召开的全国信标委大数据标准工作组会议上,蚂蚁集团当选为2019年优秀成员单位。
据了解,全国信标委大数据标准工作组由中国科学院院士梅宏担任组长,负责全国大数据方面的国家标准制定。
除了本次立项的图数据库国家标准,基于自身在图智能领域的产业实践经验,蚂蚁还在浙江互联网金融联合会牵头制定和发布了《互联网金融分布式架构技术应用指南》的团体标准;在全国金融标准化技术委员会牵头立项了《金融IT基础设施 存储应用实施指南》的行业标准;在CCSA TC601,参与信通院牵头的《图数据库白皮书》和《大数据图数据库技术方面的要求与测试方法》团体标准;在ISO/IEC JTC1 SC32参与《ISO/IEC 39075 : Graph Query Language》的国际标准。
蚂蚁集团与LDBC也正在合作,将其认证范围从社交网络领域扩展到金融领域。
何昌华介绍,“在中国,图数据库是一个正在蓬勃兴起的非常热门的领域,国家也慢慢的开始制定各种各样的技术标准,希望在统一的标准之下,促进技术交流和全面发展。”
谷歌用两篇论文将分布式计算技术普及全世界,蚂蚁集团也在通过企业合作,让技术赋能社会。“我们跟国网全球能源互联网研究院合作进行电网拓扑分析,来解决他们在电力规划中碰到的技术问题,取得了比较好的效果。”
在当今的社会生活中,能源是必须品,稳定、持续、充沛的能源,是工作生活的保障。当遭遇设备检修、更换时,一定会采用波及方案。
国家电网的目标就是最大力度保障供能的稳定,但原有系统的分析效率很难快速分析出数亿节点中任意单个或多个节点调整,对整体系统所带来的影响。因此,每次哪怕微小的设备检修,都需要提前充足准备,影响工作效率。
后来,通过和蚂蚁集团团队合作,他们用图计算技术来管理数亿设备节点,将每个供电设备节点作为一个顶点绘制设备关系图,可以很容易的在图上找到需要调整的设备,并分析其节点关闭带来的影响,从图数据库中预演,即可合理规划设备调整并提前预警,最大限度保持稳定持续的电力输出,保障民生。
何昌华介绍,“目前。蚂蚁集团图计算技术已规模应用于反欺诈、反洗钱等领域,保护金融安全。同时,也在能源、电信行业有广泛应用前景。从蚂蚁集团的角度,在支持好内部业务,不断锤炼技术的前提下,我们也会积极地把图计算的技术开放出来,用到更广泛的领域中,尤其是对国计民生更有用的领域。这也是我们开放技术背后的思考。”
从结绳记事、象形文字,到现代语言,经历数千年的演变,人类的交流符号中包含的信息越来越丰富,维度也慢慢变得高。
这不禁令人怀疑,机器会不会比人类更早实现用感知数据直接交流?这或许激发了人类的好奇或嫉妒,成为急着寻找深度学习和图深度学习可解释性的心理动因之一。
一图胜千言。任何数据都不是对真实世界的完整呈现,所以不可避免会出现天然的缺陷,使其不能很方便地呈现我们在现实世界中很自然的交互。
如今的时代注重数据的两个方面,即数据量和数据维度。传统方法适合低维、稀疏数据,大数据方法适合低维、稠密数据,深度学习方法适合高维、稠密数据,而图深度学习、图计算方式则很适合高维、稀疏数据。因此,图很可能是下一代的大数据。
图数据相对于表格数据实现了一次世界表征的飞跃,图像数据也从另一个层面借助深度学习在进行着一场革命。
数据不再只是一张表格,要处理图这样的数据,很多底层的逻辑都要推倒重来,包括思维模式。
何昌华介绍,“过去30年的关系型数据库给大家构建了这样的思维模式,也就是表格思维。与外部进行协同推进图计算技术的时候,怎么样做思维上的“急转弯”,也将是我们长期面临的一大难题。”
理性质疑之外,技术革新亦不可避免带来变革前夕的迷茫和担忧,人们最先会从个人方面出发,质问用户隐私问题。
蚂蚁集团作为如此庞大的应用,必然涉及非常多的用户个人隐私信息,在技术应用的过程中,团队如何避免个人隐私信息的泄露呢?
何昌华回应道,“我们所有数据经过了用户授权,和数据脱敏,比如数据传输、计算过程中需要保障数据是加密的。同时,蚂蚁集团的图计算是建立在隐私保护基础之上,有一套很前沿的隐私计算技术在底层做基础。”
硬核技术让变革一往无前,安全保障也让团队无需瞻前顾后,持续瞄准下一个难关。今年,蚂蚁集团已不再满足于被动的识别,而开始探索主动的做法,也就是预测——在一个欺诈行为实行之前检测出来。