清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/杨希希、任柯蓁、范楚璇、于洋、苏阳、谢玉章、温志彦、石涛

1 研究问题与探索方向

随着数字经济的深入发展,大数据作为一种具有不易分割和共享的特殊资源,也逐渐成为资源交换的重要客体。

1.1 研究问题

深处大数据海洋与信贷时代,我们认为以下几个问题尤为重要,故在本文进行研究探讨。

1) 现在的数据交易有什么定价方法?

2) 数据平台方如何更高效的达成合作?

3) 我们如何优化定价策略与设定更好的激励机制?

1.2 提出的解决方案

我们组提出以下解决方案:我们分析了一个基于联邦学习的定价框架。同时,对于不同场景下的数据交易构造出博弈论模型,进行分析,初探定价激励机制。

2 数据定价的研究综述与现实痛点

2.1 数据定价的概念及其研究现状

为发挥市场在数据资源配置中的决定性作用,就需要对数据定价机制进行理论模型和实践案例的抽象概括和总结分析。当前,国内外数据交易定价无论是理论或实践层面都进行了有益的探索。

具体到定价上,目前有以下三种主流定价模型:

1) 基于数据特征的第三方定价模型

该模型的实质是可信第三方定价。如Azure、Datamarket、上海、贵阳大数据交易所等数据交易平台均可根据平台自有的数据质量评价指标,对数据进行定价。通过第三方定价方法,每个数据集的价格都将根据数据属性因素和数据集的数据量进行计算。数据卖方可基于此价格区间在交易前对交易数据进行定价,并通过后面多轮的协商博弈环节进行复杂合作。

2) 基于博弈论的协议定价模型

该模型是目前应用最广泛的一类,这里的“交易”是指数据分析的结果而不是数据本身,该分析结果通过数据的清洗、分析、建模、可视化等处理,从而保障隐私。但其存在信息不对称和对数据价值认识不一致,因此无法准确评估数据价值背后的价格。

3) 基于查询的定价模型

由于待交易数据往往是存储在结构化或非结构化的数据库中,用户需要从数据库中查询获得,因此就诞生了基于查询的定价模型。该模型允许卖方指定一些视图的价格,允许买方根据自身需要进行任意查询来购买需要的数据,同时模型能够通过指定视图的价格生成其他任意视图的价格。

2.2 数据定价的痛点分析

相较于一般产品,数据定价机制仍存在诸多困难和不足。

首先,信息不对称导致的第三方非法套利,影响了交易秩序;其次,用户隐私保护的约束,以及数据的易复制性,导致了高固定成本和低可变成本,也始得相关方在分享、交易数据过程中缺乏足够的激励。最后,数据资源的无处不在和巨大的价值潜力,使得交易情景多元,单一的交易机制无法适应快速变化的交易环境和需求。这些都导致了传统的要素定价方法在数据交易方面产生了失灵。

部分收益法(包括知识产权定价)过于偏重主观因素,且不同场景下存在博弈情,使得简单的协商机制可能存在缺陷。这就需要在传统三类的定价法基础上,通过进一步细化博弈模型,并引入新的技术,确保合作及交易机制的顺畅运行。

3 合作激励的解决方案与真实案例

本节将介绍基于博弈论模型,对AB双方进行数据合作和数据定价机制的分析。首先,引入AB不同视角下的客户收益联合分布矩阵,然后分别从是否存在利益冲突、是否存在信息不对称三种情况进行讨论。

3.1 客户群划分

A、B利用自身的模型看到的客户群分为好用户和差用户,他们认为好用户能够给他们带来收益,而坏用户会给他们带来损失。但是利用模型识别出来的用户分布和实际的用户分布会存在不同。下面仅给出一种离散情况下的客户收益的联合分布矩阵(此矩阵将作为我们下面分析的基础),连续情况可拓展。

表 1 离散情况下的客户收益矩阵

利用更好的数据可以识别到更多的好用户,从而在好用户群体上的期望收益能够总体提高,如图1:

图 1 模型改进前后的客户和收益分布

3.2 基于博弈论的数据定价和合作建模

3.2.1 不存在利益冲突

假设A从事信贷,B不从事信贷,则没有利益冲突。由于A是需求方,所以B是供给方。

由于B供给对A不会造成自身业务的损失,所以是0成本,但他0成本供给的动机为0。为解决数据不出域问题,可以用联邦学习将A和B的数据聚合起来,保证B数据可用不可见,A利用B数据来优化自己的模型。

为给数据定价,我们提出两种策略:

1) A模型的提升只有自身知道,故需要一个第三方平台,例如腾讯的云御或平安的蜂巢平台,作为可信第三方来在他们平台上跑出新旧模型的差别,从而得到相应的数据价格,从而定价;

2) 对历史样本做的模型可能在新的样本上预测效果不佳,因此另一个定价思路是利用互联网公司常用的AB test进行随机双盲实验,得到新旧模型的差别,从而定价。

3.2.1.1 双方不存在利益冲突时案例分析

国内的大数据平台,目前处于较为融洽的合作状态,数据交易双方就数据的可信度以及数据的价格上确认一致后,交易行为才会发生。一方面,政府对数据交易的关注度高,在强监管背景下,数据欺诈鲜有发生,另一方面,数据产品较为单一,尚未进行进一步的挖缺,数据产品本身不具有隐藏欺骗的属性。

1. 国内数据交易平台的分类与数据类型

整体上来看,目前国内多数大数据交易平台创立建成后还处于生命周期的成长初期阶段,市场规范并没有得到同意,交易模式、业务类型等也处于探索过程中,但也向稳定的成熟期逐步过渡。

数据平台成立于运营的主导者来看,国内的数据交易平台可以分为三类:一是政府主导,以贵阳大数据交易所为代表,包括湖北长江大数据交易所、华中大数据交易所、陕西西咸新区大数据交易所等均是在地方政府的支持下建立的;二是自身拥有大量数据资源或者本身以技术为优势的企业以市场需求为导向建立的交易平台,比如数据堂是一家专注于互联网综合服务的交易平台;三是目前具有产业联盟性质的交易平台,以中关村大数据产业联盟为主,但是产业联盟类的数据交易平台,其数据交易模式较为局限于其联盟内部成员,对外公开的数据产品以其对数据发展的研究报告为主。

大数据交易平台的数据来源多来自政府公开,企业内部,网络采集和数据供应商等渠道,用于交易的数据类型则各有不同。比如贵阳大数据交易所明确规定了其数据交易只能使用脱敏后的数据,而其他类型的交易所会提供非敏感的原始数据,也会提供一些定制化的数据服务。政府主导的大数据交易平台的产品类型主要是API和数据包,而企业和个人导向的大数据交易平台的类型更加多样化,除了API和数据包,还包括数据定制服务,解决方案和数据产品。关于这些大数据交易平台所涉及的数据领域并没有一个整齐划一的划分,不过大部分交易平台都包括:政府,经济,人文,交通。

2. 交易流程介绍与定价方式

(1)公开标价的数据交易模式

京东万象、聚合数据等商业平台,多以标准化商业数据为其主要交易产品,涵盖地理、金融、人口等多方位数据,形成可以供数据需求方直接挑选的“数据超市”。数据的价格并不存在相应的议价空间,由数据提供方单方面确定。数据提供方需要填写《京东万象平台入驻协议》,并在京东云上进行注册与企业认证。

图2 京东万象交易平台数据交易版块

数据来源:京东万象 https://wx.jdcloud.com/packet_1

(2)企业定制化服务

企业定制化服务依据服务不同,可以大致分为两类,一类为八爪鱼为代表的网页爬虫数据交易平台,一类为数据堂为代表的服务平台。

以八爪鱼为代表的网页爬虫数据交易平台,可以基于用户的要求,为其定制化爬取相关网页信息,并为企业提供相应的商业分析,如评论分析、引流效果分析、产品关注度分析、用户关注点分析、潜在竞品分析、客服效率提升,进而提高服务质量,降本增效。

数据堂为代表的服务平台,可以帮助企业进行私人化的数据标注平台部署,通过对图片、文本等的标注,提升企业平台的数据化运营能力,帮助企业实现智能化建设的升级。

图3 数据堂平台数据标注升级流程

数据来源:数据堂 https://www.datatang.com/privatePlatform

(3)密封递价进行竞价

密封递价(sealed bids)拍卖又称招标式拍卖。采用这种方法时,先由拍卖人公布数据的具体情况和拍卖条件等,然后由各竞买方在规定时间内将自己的出价密封递交拍卖人,以供拍卖人进行审查比较,决定将该数据卖给哪一个竞买者。

当前根据已有的大数据交易平台相关资料的收集,目前上海大数据交易中心采用经过数据供应方密封递价进行竞价,需求方择优选定之后,生成数据商品订单。生成订单后,就进入了数据配送环节。

3.2.2 利益存在冲突

当双方利益存在冲突时,分两种情况:

1)A/B信息对称;

2)A/B信息不对称。

在此我们提出假设:

1)当双方在同一个客户群上竞争时,双方平分市场;

2)当不存在非正当竞争时,A、B对每个单元格的成本为1。

3.2.2.1 A/B信息对称

AB模型识别出的客户收益矩阵如表1所示。当双方都不分享数据,则各自获得0.8的市场和一半的1.4的市场,则各自的收益为0.8+1.4/2-1.5=0。当双方都选择分享数据,则同时识别出只有1.4这部分客户是可以盈利的,那么他们平分在1.4市场上的收益,因此各自的收益为(1.4-1)/2=0.2。

在此我们提出两种合作方式:

双方免费分享数据

当只有一方分享数据时(假设为A),另一方B能够通过它的数据直接锁定1.4的客户群(假设A的反应有时滞),这时B可以通过提高贷款额度全部获得这部分客户(相当于提高了自己的成本,假设这个成本为1.1)。此时A有两种策略应对:一是跟随B的策略,也提高成本在1.4的市场上竞争;二是不跟随B的策略,仍旧沿用原有贷款政策,成本为1,这时由于竞争他会丧失1.4的这部分全部的市场。

当A 跟随B的策略时,B只在1.4的市场上投入和收益,其利润为(1.4-1.1)*0.5=0.15,而由于B不分享数据,A区分不了0.8和1.4两个客户群体的区别,他会在这两个市场上各自投入1.1和1.1*0.5,其收益为0.8-1.1+1.4/2-1.1*0.5=-0.15。表2展示了跟随策略下的收益矩阵。根据收益矩阵,我们知道存在两个纯策略nash均衡(表2涂灰部分),当存在双策略nash均衡时,只需要双方在事前进行协商,就可以同时收获集体最优(0.2,0.2)。

当A 不跟随B策略时,B收获1.4的全部市场,其收入为1.4-1.1=0.3。但由于A没有获得B的数据,且不改变自己的贷款政策,则他将丧失1.4的全部市场,只能在0.8的市场上做贷款业务,其收入为0.8-1=-0.2。这时,均衡为(0,0),即数据合作失败。

所以当策略为免费分享时,A的最好策略是跟随B策略在好用户市场上竞争,并提前协商清楚都会免费分享。但这种情况的均衡是不稳定的,一旦A有风险厌恶或保守(害怕B不分享使得它损失),则合作就失败。因此免费分享数据在信息对称的时候并不是一种最好的选择

为数据定价

由于信息对称,我们假设双方为获得对方的数据付出0.5。这时AB不合作的收益仍旧是(0,0),合作的收益仍旧为(0.2,0.2),区别在于A为B的数据支付0.5,B也为A的数据支付0.5,两者之间进行了费用的转移。

假设B不分享,A有偿分享,这时B首先要想A支付一个0.5的费用,而A不用。假设A跟随B的策略,共同分享1.4的市场,则A的收益为0.8+1.4/2-1.1*1.5+0.5=0.35,而B的收益为(1.4-1.1)/2-0.5=-0.35;假设A不跟随B的策略,则B直接全部锁定1.4的市场,其收益为1.4-1.1-0.5=-0.2,但A只能在0.8的市场上贷款,其收益为0.8-1+0.5=0.3。

A跟随B的策略时,nash均衡同样为(0,0)和(0.2,0.2),但这时由于如果一方不分享,其收入一定是负的,由于没有人会愿意亏本做生意,所以只要一开始协商分享,则均衡将会陷入(0.2,0.2),而非(0,0),因此共享定价-联合贷款是有效的。

3.2.2.2 A/B信息不对称

1. 博弈模型 Ⅰ

假设A在信息价值上高于B,即其利用其数据建模可以识别出更多的好用户,获得更多的收益,则假设信息不对称情况下的客户分类矩阵为表6。

表 6 信息不对称情况下的客户分类矩阵

当双方都不分享信息时,A的收益为0.9-1+(1.5-1)/2=0.15,B的收益为0.8-1+(1.5-1)/2=0.05。

当双方都分享信息时,两者同时发现只有1.5的市场是值得争取的 ,其共同收益为1.5-1=0.5,相比于各自放贷的净收益为-.5-0.15-0.05=0.3。假设双方平分这0.3的收益,则各自实际收益为A=0.15+0.15=0.3,B=0.05+0.15=0.2。

假设B不共享信息,而A共享了信息,则B能够完全锁定1.5的市场。若A不跟随B策略,B获得1.5的全部市场,B的收益为1.5-1.1=0.4,则A只能收获0.9的这部分市场,其收益为0.9-1=-0.1。若A跟随B策略,则B收获1.5一半的市场,其利润为(1.5-1.1)/2=0.2,A的收益为(1.5-1.1)/2+0.9-1.1=0。

假设A不共享信息,而B共享了信息,则A能够完全锁定1.5的市场。若B不跟随A策略,则A获得1.5的全部市场,A的收益为1.5-1.1=0.4,B的收益为0.8-1=-0.2。若B跟随A策略,则A的收益为(1.5-1.1)/2=0.2,B的收益为(1.5-1.1)/2+0.8-1.1=-0.1。

跟随策略下,由于在A分享的情况下,B是否分享的收益相同,所以B更倾向于free ride,考虑到B会free ride,A会选择不分享,意味着合作失败。不跟随策略下同理。

因此当存在极大信息不对称的情况下,小企业更倾向于搭便车。故大企业有更少动机进行数据合作。

2. 博弈模型 Ⅱ

在另一种博弈情形下,我们细分A/B识别到的客户市场,A和B各自能够识别出来最差、中等、最好三种客户,新的客户收益矩阵如表9所示。

同上,我们假设A的信息比较好。我们假设新识别出模型后,双方平分好市场(1.4和1.5)上的收益(各得50%),这时的收益矩阵如表10所示,A知道B的信息比较差,所以A会给出全部信息,否则集合的信息质量还是不高,不足以指导发放贷款。预期到A会给出全部信息,B倾向于free ride,B只给出其模型识别出的中等客户的信息(即收益为1.4的客群),而对于那些最佳的企业(1.5)就留着自己享用,A预计到B会搭便车,则他不会分享,合作失败。

为了激励B把这部分企业分享出来,A更倾向于给B的提高分成,例如B享有好市场上的60%收益,而A只有40%,这时B分享全部信息的总收益为0.585,而只分享第二组企业的收益为0.56,所以合作可以成功。

表9 信息不对称下的另一种客户群体分布

表10 第二种情况下的收益矩阵

图4给出了不同分成比例下,AB双方各自的在B共享中等及最好信息时的收益 和 B仅共享中等信息时的收益差。可以发现,B的分成比例提高到0.6以上时,B诚实分享能带来更多收益。因此,为了防止B搭便车,A更倾向于提高B的分成来促成合作。

图 4 不同分成比例下各方的收益差

3.2.2.3 双方利益存在冲突时的案例分析

2000年,高盛发起了一个与IFE基金的联合贷款,用于支持一项收购案。高盛的审计报告显示该收购对象经营不善,并给出了该贷款项目的风险为4(1-5,5代表风险最高)。高盛觉得这种信息不利于促成联合贷款,因此未向IFE分享这份报告。收购照常进行,结果确实这项投资是一个灾难。IFE基金事后起诉高盛,但最高法院以高盛在合作中对最终风险有免责权,拒绝了这项起诉。

在这项联合贷款中,高盛和IFE存在信息不对称。高盛明知这不是其好的投资项目,但依旧伪装成是好的投资项目。如果高盛在合作中获得的收益分成提高,即其风险承担也提高,那么可以促使其分享真实信息,准确评估项目风险。

4 现实案例分析

4.1 一种基于联邦学习生态的多参与者激励定价框架

逻辑汇的创始人丛明舒在2020CCF-GAIR会议上提出了一种基于联邦学习生态的多参与者激励定价框架,如图3所示。此框架包括数据供给者和模型需求者两种参与方以及一个联邦学习组织者。

基于此框架,激励机制企图优化包括激励相容、个体理性在内的7个目标(如表12),虽然这7个目标不能同时实现,存在此消彼长的关系,在真实实践中需要选择对相关利益者最重要的几个指标实现。

联邦学习组织者通过决定4个决策变量来实现系统最优。对于数据供给端,联邦组织者要确定:

1) 一个数据提供者是否提供数据以及提供多少数据;

2) 为每个数据提供者分配多少报酬。

对于模型需求方,联邦组织者要确定:

1) 一个模型需求者是否有权使用模型;

2) 使用模型需要支付多少费用。

框架基于以下假设和原则展开:

1) 理性人原则:组织者可以预计数据提供者与模型使用者会遵循个人利益最大化原则选择自身策略;

2) 信息不对称原则:平台设计人和理性人之间的信息不对称包含3种情况:1)unaware,平台完全不知道会发生某事,例如完全不知道数据提供者会不会提供数据,会不会对对成本或收益撒谎;2)uncertain,平台知道某件事会发生,但不知道发生的概率,例如平台知道数据提供者会提供数据,但不知道提供的数据量呈现什么样的 分布;3)unknown,平台知道某件事情发生的概率,但不知道具体发生了哪些事件。例如平台知道提供者的数据量可能会服从某种分布,但不知道数据量的取值范围或具体概率参数。

3) 拟线性环境(Quasi-linearity):假设参与者的效用对于付出的钱是线性的。因此,我们可以利用这个假设调节给不同参与者的支付来调节他的效用。

4) 数据供给与模型需求分开。一个参与者不可以既是数据提供方,又是模型的需求方,因此不会存在数据提供方和模型需求方在同一市场上的利益冲突。

5) 存在外生资本市场,可以跨期调节现金流。由于联邦学习项目一开始要在计算、加密等硬件设备上投入巨大的现金流,而收入可能在很久以后才产生,因此成本投入和收入在时间上不一定能够匹配。这时可以利用外生的资金,例如在成本投入期借入资金,在项目收割时再还款。

表 10 联邦学习激励博弈论框架优化目标

根据图5,我们可以将整个框架的过程描述为以下五个步骤:

图 5 联邦学习激励机制的博弈论框架

基于以上方案,逻辑汇又提出了两大机制:

1) 在需求侧,使用改进了的Cremer-McLean机制减少计算复杂度,去最大化联邦收入;

2) 在供给侧,使用PVCG机制在优化的神经网络中加入一个调整项解决谎报数据成本的激励问题。

但该框架的缺陷在于其假设数据提供者和需求者的角色是分离的,当一方同时在需求端和供给端,数据分享多少除了影响成本,还影响提供者在需求端的收益,也就是说没有讨论3.2中双方存在利益冲突的情况。

4.2 联邦平台监督下的统一供求的VCG机制

4.2.1 VCG机制设定

4.2.2 机制设计

4.2.2.1 机制设计的目标

1)  信息利用效率最大化,即所有数据公司都上报所有数据,实现最大化的数据利用;

2)  激励兼容,即每个数据公司都发现参与且上报所有数据是它的最佳选择。

4.2.2.2 机制设计的目标问题

1)  Vi(x)这个函数是企业的私有信息,需要企业上报给第三方平台,但企业可能谎报;

2)  企业不一定会提交所有信息到这个第三方平台。

4.2.2.3 解决方案

以下机制,可以解决问题(1)和(2),实现目标(1)和(2)。

定义:

5 数据合作激励机制的总结

5.1 重要性与意义

1)  利用大数据风控热潮,深挖小微信贷市场;

2)  最大化合作者的收益,实现多头利益共存;

3)  初探尝试解决合作的利益冲突,优化定价方式;

4)  为金融机构监管提供理论范式。

5.2 展望与未来研究计划

未来,我们希望继续深挖这些真实案例,以及思考如何落实到实践。同时我们将会利用真实交易数据,进行我们模型的验证和模拟,比如研究数值模拟,把模型一般化。通过这些结果,结合更具体的例子,进行机制矫正,再继续优化。

6 参考文献

[1]彭慧波,周亚建.数据定价机制现状及发展趋势[J].北京邮电大学学报,2019,42(01):120-125.

[2]李成熙,文庭孝.我国大数据交易盈利模式研究[J].情报杂志,2020,39(03):180-186+179.

[3]张鹏,蒋余浩.政务数据资产化管理的基础理论研究:资产属性、数据权属及定价方法[J/OL].电子政务:1-15[2020-08-20].

[4]阿里数据经济研究中心《中国数据经济发展关键问题探索》(2015)

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。