清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/高绮、韩思齐、刘宇峰、王晨宇、朱紫陌、杨辰、曾沁杉、张沁楠、唐黎阳

1  引言

随着互联网技术的普及和发展,人工智能(AI)、区块链(Blockchain)、云计算(Cloud computing)、大数据(Big data)成为信息技术产业最受关注的研究及应用领域。目前人类社会正从信息技术时代向人工智能时代转变,数据被称为人工智能发展的“燃料”,推动了人工智能技术前进的车轮,但是也带来了一系列的数据治理难题。一方面由大数据本身特性导致,大量数据以小规模、分散化、碎片化的形式存在不同行业和机构中,形成数据孤岛。另一方面是数据合规化挑战,面对数据隐私泄露,各国纷纷出台数据治理法规,整治数据滥用问题。例如,针对交通拥堵问题、医疗领域的病例信息和检测报告信息非系统化管理问题等,目前已经出现了智慧交通和电子病历等解决方案。由于这些方案方案用到了涉及个人隐私的位置信息、健康信息,因而在应用和普及的过程中,越来越多的用户开始担心隐私保护以及数据滥用等问题。然而,数据孤岛和数据隐私之前存在对立关系,如何在保障数据隐私的前提下,挖掘数据潜在价值,实现数据价值融合是当下产业界和学术界共同关注的研究问题。

在此次抗疫过程中,不难看出城市各领域、各部门之间的数据不打通、不协同是一个巨大问题。比如说,基层人员大量时间花费在了无穷无尽的填表上;居民进出公共场所,要处处扫码填表;相关部门想要获悉和应用其他领域的最新动态数据,更是难上加难。这里暴露出的问题就是 “城市数据孤岛现象”。每个部门都可能建设一套自己的系统和数据,沿用不同的数据表现形式,积累下来就会造成层层叠叠的孤立数据,对智慧城市的打造造成了巨大障碍。然而每个部门的日常工作方式、数据需求和数据保密等级不同,彻底打通既缺乏操作性,也不利于真实工作的开展。对于这些问题的解决,就涉及到了数据融合。

(1)数据价值融合

数据融合指的是将来自多个传感器和数据库的相关信息结合起来,以获得比单一传感器数据更高的精度和更具体的判断(Hall and Llinas, 1997) 。传统数据挖掘通常处理的是来自单一领域的数据。在大数据时代,组织和个人面临的是来自不同领域的数据集,这些数据包含多种模式,每种模式具有不同的分布、规模、密度等。如何从多数据中释放潜在的知识力量,就要求使用先进的技术来将多数据集的知识有机地融合到机器学习和数据挖掘的任务中(见图1)。立足于隐私保护和交易匿名两大痛点,我们重点关注了联邦学习技术。联邦学习是一种多节点协作式的机器学习框架,参与节点协作训练并共享联合模型。

图 1 数据融合示意图

(2)联邦学习

联邦学习(Federated Learning)是一种协作式的机器学习框架,参与节点协作训练并共享预测模型。联邦学习自2017年被Google提出之后,成为解决数据孤岛问题的利器。2019年被业界称为“联邦学习元年”,吸引了产学研界学者的广泛关注。随着移动通讯技术和智能终端的不断发展和普及,联邦学习已产生了基于手机端的toC模式,以及面向企业对象的toB模式,并与大数据、云计算、区块链、边缘计算深度融合,成为产学研界应用的重要研究对象。

联邦学习最初被定义为一种借助多个用户数据来训练一个中心模型的分布式机器学习方法(Konečný et al.,2019)。从广义的角度上来说,联邦学习指的是拥有方不用上传数据即可结合多方数据进行统一模型训练的方法,得到的模型效果和直接整合数据后进行训练得到的模型效果足够接近,同时也较好地避免了隐私泄露的风险(Yang et al.,2019)。在具体类别上,根据用户数据维度间的分布方式,联邦学习可被分为横向联邦学习、纵向联邦学习和联邦迁移学习3类(Yang et al.,2019)。在运行步骤上,联邦学习可大致分为以下三步:第一,联系和学习通过加密而不是用户数据本身来交换所有参与这的用户标识符。第二,参与联邦学习的双方可以根据用户标识符找到同类参与者,并以这些参与者的不同特征作为输入,迭代训练模型和交换参数,在此过程中,任何一方无法破解对方具有但己方没有的特征,因此可以保护数据隐私(Bhowmick et al.,2018)。值得一提的是,联邦学习共享模型参数更新(例如梯度信息、参数特征等),而不是客户端设备中的原始数据(终端设备中的原始数据依然储存在终端设备中),因此在数据隐私保护方面,联邦学习优于其他分布式学习方法(Nikham et al.,2019)。第三,联邦学习的参与者可以在不共享己方数据的前提下,利用多方数据优势来实现自己的模型赋能(Kairouz et al.,2019)。

目前联邦学习的适用场景主要包括简化通信机制、增强隐私安全、优化联邦算法及适配各种应用场景等(Li et al.,2019)。Bonawitz et al.(2019)描述了联邦学习在生产系统中涉及的设计、挑战和解决方法,并指出了未来相关的研究方向,为联邦学习可解释性的研究具有重要的借鉴价值。Wei et al.(2019)则是针对多人赛车游戏场这一具体的应用场景设计了一种多智能体可视化系统,用于辅助联邦学习基本原理的教学。在国内的具体应用场景中,联邦学习已被运用在电力计量、校园疫情防控、5G云边协同、通信诈骗识别以及泛在电力物联网人工智能领域等方面。郑楷洪等(2020)提出了基于联邦学习的分布式框架,并利用这一框架对电力计量数据进行分析,旨在保证各个本地电力数据信息安全的前提下,构建去中心化数据的集合并联合多方数据,同时基于加密后的中间参数完成多数据源对联合模型的共同训练。徐萍等(2020)基于联邦学习技术设计出了针对高管新冠肺炎疫情防控措施的管理模型,可以在保证每位师生信息安全的前提下,快速分析高校所收集的师生数据,从而及时安排针对性的防疫措施,避免疫情的进一步扩散。刘耕等(2020)则是分析了联邦学习在5G云边协同场景中应用的可行性。陈国润等(2020)构建了基于联邦学习的通信诈骗识别模型,论证联邦学习在电信运营商和公安机关的数据集上实现联合建模的可能性。此外,谢丰等(2019)基于泛在电力物联网架构,设计出了各种应用场景下使用联邦学习的策略和基本流程。王春凯和冯键(2019)根据不同的业务场景,考察了联邦学习在保险行业的商业化应用和可行性方案。

综合上述文献,我们发现,联邦学习作为解决数据“孤岛”问题、促进数据融合的方法之一,已经开始被运用在一些场景中。由此可引申出的一个问题是,联邦学习能否较好地运用在阿里大健康的商业场景中?

2  研究价值

2.1 多维应用场景

1、联邦车险定价

我国保险行业已进入快速发展阶段。但日益激烈的市场竞争环境、快速发展的新产品种类,对保险业的风险识别、精准定价能力提出了更高的要求,传统的保险风险识别不能完全满足业务需求,甚至影响产品盈利能力。

以车险为例,传统车险的定价方式是从车定价,根据车的品质来确认保费,但实际上,车辆使用情况、行车区域环境等方面的内容也是影响保期内赔付风险的重要因素,对车险保费定价有着至关重要的影响。因此,从车定价到从人定价,是消费者市场的大趋势。但对强监管的保险行业而言,影响定价精确性的数据分布分散,只有垂直场景的交易数据,新客数据表现也较少,缺乏有效机制将数据链接整合起来,难以实现精准定价。

图2

资料来源:《联邦学习的交通违章保险案例》

车险定价方面,针对从人、从车、从行为等数据分散在不同的公司,数据无法出库,无法直接进行聚合并建模的症结,引入联邦学习机制建模,在保护各合作机构企业用户隐私数据不出库的前提下,安全合规接入多方数据源,打破数据壁垒。其中,面对产品同质化严重导致定价僵硬问题,着重引入多维度多标签的互联网行为数据,完善用户画像,提供个性化定价服务,推动智能营销决策。而针对新用户道德风险把控等场景,引入安全大数据,有效识别恶意用户和欺诈骗保行为。

基于联邦学习建立的数据模型具有丰富的风险特征体系,能有效判别风险、预测赔付成本,并提供个性化定价服务。行业定价准确率大幅提升,总比例超90%。此外,方案通过符合隐私保护条例的大数据模型,进一步升级智能营销服务体系,提升更加精准化、定制化的综合金融服务能力,精准挖掘高潜客户,从而协助保险机构及企业解决新客覆盖问题。

图3

资料来源:《联邦学习的交通违章保险案例》

如图所示,联邦模型的收入和利润都比传统方式增长更快,相比原来提升50%。此外,根据新引入的数据,个性化定价模型(基于微众银行开源项目FATE)可以覆盖98%以上的用户,而开始时这一数字仅为10%,这意味着可以量化几乎所有用户的风险。

2、联合精准营销

精准营销是近十年带动互联网行业飞速发展的一个重要的技术革命领域,“让平台更懂客户的需求,然后在合适的时间推荐给客户,从而创造更好地服务”,是精准营销要实现的共识目标。较为传统的精准营销存在如下特征:银行需要通过第三方的数据公司和流量渠道更加精准地获得信用卡客户,它的储蓄卡流失用户需要去识别客户风险和其他偏好从而通过CRM或者理财活动重新促活;电商平台在某信息流平台投放,每天将效果用户ID反刍到信息流平台,进行投放优化;保险公司为了激活存量用户,从某SDK厂商购买用户画像标签,推荐相关性高的保险产品。这三种是营销里面很常见的合作模式,但不可避免涉及到一系列客户信息隐私问题。例如,客户数据要从A公司流到B公司,可能面临不合规等问题。

图4

资料来源:《行业革命:安全计算加持大数据精准营销》

若运用基于联邦学习的解决方案,在建模的过程中,通过联邦学习和匿踪查询等技术,在数据共建和画像的过程中,通过算法来保证数据不出库、用户不被缓存的数据安全。

图5

资料来源:《行业革命:安全计算加持大数据精准营销》

整个传统的精准营销结合数据安全计算技术,就演化成如下的安全营销解决方案:

图6

资料来源:《行业革命:安全计算加持大数据精准营销》

3、当前联邦学习商业应用面临的问题

经典的联邦学习问题基于存储在数千万至数百万远程客户端设备上的数据学习全局模型。在训练过程中,客户端设备需要周期性地与中央服务器进行通信。目前,联邦学习面临的难点主要包括四个方面:

(1)高昂的通信代价。在联邦学习问题中,原始数据保存在远程客户端设备本地,必须与中央服务器不断交互才能完成全局模型的构建。通常整个联邦学习网络可能包含了大量的设备,网络通信速度可能比本地计算慢许多个数量级,这就造成高昂的通信代价成为了联邦学习的关键瓶颈。

(2)系统异质性。由于客户端设备硬件条件(CPU、内存)、网络连接(3G、4G、5G、WiFi)和电源(电池电量)的变化,联邦学习网络中每个设备的存储、计算和通信能力都有可能不同。网络和设备本身的限制可能导致某一时间仅有一部分设备处于活动状态。此外,设备还会出现没电、网络无法接入等突发状况,导致瞬时无法连通。这种异质性的系统架构影响了联邦学习整体策略的制定。

(3)统计异质性。设备通常以不同分布方式在网络上生成和收集数据,跨设备的数据数量、特征等可能有很大的变化,因此联邦学习网络中的数据为非独立同分布(Non-indepent and identically distributed, Non-IID)的。目前,主流机器学习算法主要是基于 IID 数据的假设前提推导建立的。因此,异质性的 Non-IID 数据特征给建模、分析和评估都带来了很大挑战。

(4)隐私问题。联邦学习共享客户端设备中的模型参数更新(例如梯度信息)而不是原始数据,因此在数据隐私保护方面优于其他的分布式学习方法。然而,在训练过程中传递模型的更新信息仍然存在向第三方或中央服务器暴露敏感信息的风险。隐私保护成为联邦学习需要重点考虑的问题。

2.2 联邦学习最新商业案例及竞品分析

1、Owkin公司

(1)公司基本情况介绍

Owkin 于 2016 年由医学博士托马斯·克洛泽尔(Thomas Clozel)和生物学人工智能领域的学术先驱 Gilles Wainrib 博士共同创立。他们本着医学研究应该是协作、包容和隐私保护的信念创建了Owkin,并使用联邦学习技术构建一个全球研究网络,将数据科学家、临床医生、研究人员和制药公司连接到一个研究平台上,确保数据安全并保护隐私的同时可以共享研究成果。

根据Owkin官网公布的信息,公司目前员工100人,其中博士24人,且高级管理团队中博士的比例接近50%。公开信息显示,2020年5月9日,Owkin获得了2500万美元融资,投资者包括MACSF(法国临床医生养老基金)在内的6家投资机构,累计融资总额超7000万美元。公司目前正在与欧洲和美国最大的癌症中心和制药公司合作。

(2)联邦学习的应用

在医学研究中的困难与挑战之一在于在研究中需要基于不同的患者群体、治疗计划以及不同的数据模式(如组织学切片和基因组数据)训练预测模型。从多个中心集中数据的标准方法是以牺牲患者隐私和数据保护为代价的,联邦学习在不移动数据的情况下跨多个医疗机构大规模训练机器学习模型的能力是解决此问题的关键技术。

图 7  Owkin联邦学习的基本原理

资料来源:Owkin官网

使用联邦学习后,患者数据保留在医院内,在法规日益严格的今天,可以有效的应对患者数据泄露的风险,这一技术同时满足了数据所有者更严格的控制和治理要求和训练算法及使用数据更高更透明的要求。此外,在某些情况下,例如从美国和欧洲访问敏感数据,建立集中的数据中心来汇集数据将非常困难。在这种情况下,联合数据是唯一的选择。同时与中心化训练的预测性能相比,联邦学习的准确率总体是高于中心化的。平台同时基于私有区块链打造了平台的完全透明且不可伪造的可追溯性。

图 8  Owkin联邦学习的优势

资料来源:Owkin官网

(3)应用实例

在2018年和2019年,Owkin与莱昂贝拉德癌症中心生物病理学系合作,确定了可预测恶性间皮瘤患者生存的新组织学特征。这一研究成果发表在《自然医学》上,目前这一合作正在继续研究寻找新的靶点,以更好地治疗恶性间皮瘤。

在今年5月,Owkin与两家机构合作开发了机器学习模型,通过最初的CT扫描和临床变量预测新冠肺炎感染的严重程度。结果表明,除人工智能建模外,将所选放射测量与相关临床和生物变量相结合的复合分数可提供最准确的预测,并可迅速成为严重性预测的参考。

第三个应用案例是通过深度学习模型强有力地并一致地预测了在不同癌症类型中表达的基因的子集,包括参与免疫细胞激活状态和免疫细胞信号传导的基因。该模型由《自然通讯》出版,具有许多高影响力的应用,范围从直接评估免疫反应到通过预测基因表达扩增现有病理学队列。

图9 Owkin联邦学习的应用案例

资料来源:Owkin官网

2、 腾讯安全联邦学习应用服务产品介绍

(1)腾讯安全联邦学习应用服务

企业在AI技术应用方面,面临的三大难点有:第一,数据隐私和保护的安全要求高;第二,数据孤岛和数据割裂现象严重;第三,建模成本高,缺乏技术人力储备。腾讯安全联邦学习同时兼顾了数据保护与建模成效,在保护参与方隐私的同时,提供低成本的快速迭代联合建模服务。腾讯安全联邦学习应用服务技术分为“纵向联邦学习”和“横向联邦学习”两种。应用服务场景包括:金融业务智能化管理、金融风控、营销风控、智能终端。

图 10 腾讯安全联邦学习应用服务综合优势

资料来源:《腾讯安全联邦学习应用服务白皮书》

(2)腾讯横向联邦学习应用服务

横向联邦学习应用服务主要针对拥有同构数据的大量终端客户。例如,基于互联网APP用户数据,在经用户授权后,对用户体验数据进行AI联合建模。在建模过程中,用户个人隐私不出个人终端设备,以此保障隐私安全。例如,个人相册类业务精细化管理。

图 11 “端-云”横向联邦学习应用服务框架

资料来源:《腾讯安全联邦学习应用服务白皮书》

(3)腾讯安全纵向联邦学习应用服务

纵向联邦学习应用服务主要针对有异构数据的机构,目前主要聚焦于银行、消费金融、互联网金融等金融机构等信贷审批问题。

图 12 腾讯安全纵向联合学习应用服务架构

资料来源:《腾讯安全联邦学习应用服务白皮书》

纵向联邦学习合作案例一:金融风控领域

金融风控领域,金融机构采用的直接接入第三方通用数据的痛点:第一,业务匹配度不高;第二,效果不理想。纵向联邦学习用于金融风控领域的多场景如图所示:

图 13 金融分控领域应用场景

资料来源:《腾讯安全联邦学习应用服务白皮书》

江苏银行与腾讯公司在2018年签署战略合作协议,共同探索“社交+金融”的合作模式,并在人工智能领域、云计算领域、大数据领域等展开合作。2020年4月17日,江苏银行与腾讯安全宣布围绕“联邦学习”展开合作,“智能化信用卡管理联合实验室”,将联邦学习技术应用于联合信贷风控和信用卡智能化。双方合作的联邦学习应用模式如图。

第一,解决双方合作中的痛点:数据孤岛、数据隐私和特征变量共享矛盾。

第二,技术应用:腾讯生态特征变量与江苏银行信用卡特征变量相融合、信用卡接入规模化、盈利规模化、江苏银行信用卡智能化管理。

第三,其他功能:双方人员线上分析与建模,低成本快速迭代联合建模,节约人力成本与财务成本。

图14 纵向联邦学习应用

资料来源:《腾讯安全联邦学习应用服务白皮书》

此外,腾讯还与济宁银行开展合作,协助其建设线上信贷业务系统,联合构建反欺诈模型、画像模型。在与湖北消金、玖富数科、嘉银金科等机构合作中,利用联邦学习进行反欺诈模型协同训练。

纵向联邦学习合作案例二——医疗领域

腾讯天衍实验室联合微众银行研发医疗联邦学习,以实现在融合多家医院数据以及不公开各参与节点数据,确认双方的共有患者,且不暴露非重叠患者信息,从而联合这些患者信息的特征进行建模及数据训练,预测脑卒中发病。整个技术实现简单来说,假设医院 A 和 B 想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院 B 还拥有模型需要预测的标签数据如脑卒中发病标签。出于数据隐私保护和安全考虑,医院A 和 B 无法直接进行数据交换。联邦学习系统则可以利用基于加密的患者样本对齐技术,在医院A 和 B 不公开各自数据的前提下确认双方的共有患者,并且不暴露不互相重叠的患者,以便联合这些用户的特征进行建模,在确定共有用户群体后,就可以利用这些数据训练疾病预测模型。

通过使用来自就诊记录数量前五的医院真实就诊数据验证,联邦学习模型和集中训练模型表现几乎一致,同时基于联邦学习的联合模型效果优于任意一家医院独立建模结果。

图 15 腾讯医疗联邦学习示意图

资料来源:智东西及天衍-微众投稿人工智能会议IJCAI 2020论文

2.3 政策环境分析

2018年,欧盟颁布了《通用数据保护条例》(General Data Protection Regulation, GDPR)规范化数据的使用。我国国家互联网信息办公室也相应起草了《数据安全管理办法(征求意见稿)》,因此数据必须在安全合规下进行交易。另一方面,数据作为一种生产要素具有巨大的潜在价值,由于行业竞争、隐私安全、利益的复杂关系,企业数据往往以孤岛形式出现。

联邦学习满足数据使用的合规,并且解决了数据孤岛的问题。联邦学习将数据训练分散在各节点进行训练,各节点可以控制私有数据,无需将数据上传第三方。每轮训练结束后,将中间梯度训练结果上传第三方参数服务器,经过整合处理后,返回给各节点,开始新一轮的训练。这种分布式的学习模式,省去了不必要的数据传输,并且可以集合更广泛的数据进行学习训练,在提升训练数据源的同时保护数据隐私。联邦学习模式避免了因数据收集而引起的数据泄露问题,但是仍然存在数据安全隐患。首先不可靠的数据收集者可能滥用或泄露数据;其次利益诱惑会引发攻击者的主动攻击来窃取数据。群体智能引发的数据多元化必然会对协同模式、交互计算带来新的挑战。所以,数字经济背景下,如何在保护数据隐私的情况下实现数据价值融合成为当前研究的热点。

(本文为节选内容,点击链接阅读全文

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。