清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

在社会网络中,一个著名的理论是:

最多通过六个人,你就能够认识世界上的任何一个陌生人。如果把每个人看作实体,找出人与人之间的联系,其中涉及的就是建设知识图谱的技术。

通过知识图谱的图形化展示,可以很直观地呈现人们错综复杂的社交关系。据说,这种技术曾经用于情报部门反恐,并取得了良好的效果。今天,知识图谱已经从007的神秘技能演变为金融黑科技。这项金融黑科技真正应用的起点在2012年,谷歌公司将其引入搜索引擎,用于改善搜索体验。简单地说,就是通过对网页信息的爬取和分析,找出不同种类信息的内在联系,从“关系”的角度突破信息碎片化壁垒,提供包含关联关系的搜索结果。

值得注意的是,金融领域由于对数据强烈的依赖性,被认为是人工智能最适合落地的领域之一。海量的数据为人们更好地掌握与认知事物规律,提供了越来越丰富的来源。

但是,由于非结构化数据的急剧增长,对数据的分析与理解的要求已经远远超过人类的生理极限,这对我们的分析手段提出了新的要求与挑战。传统的数据储存方式将数据分门别类的存放,已经很难适应现实瞬息万变的市场行情,无法满足金融分析的实时性和全局性的要求。

金融知识图谱是金融行业语义理解和知识搜索的关键性基础技术,可以为舆情监控、知识发现和推理决策等提供技术支撑。因此,越来越多的金融机构及企业在探索构建金融领域的知识图谱研究,将海量非结构化信息自动化利用起来,为金融领域应用决策提供更精准可靠的依据。下面,我们做个详细介绍。

什么是知识图谱?

知识图谱本质上是一种语义网络,是基于图的数据结构,以图的方式存储知识并向用户返回经过加工和推理的知识。它由“节点”和“边”组成,节点表示现实世界中的“实体”,边表示实体之间的“关系”。

一般来说,知识图谱分为通用知识图谱和领域知识图谱。其中,通用知识图谱主要由各大搜索引擎公司研究,以提高搜索准确率,争取直接给出目标答案;而领域知识图谱可根据领域特定的情况,提供各种针对性的应用。

具体到金融领域,因为涉及到各行各业,包含了经济、产业、公司等众多方面的知识,所以金融知识图谱相对于其他领域比较特别。具体来说,金融知识图谱常见的实体包括:公司、产品、证券和人员等。实体间的关系包括:股权关系、任职关系、担保关系、供应商关系、竞争对手关系、生产关系、采购关系和上下游关系等(参见下图)。其中,有些实体和关系,可以自动抽取生成,如股权关系和任职关系等,均可在工商局注册登记平台得到公开信息。而产品间的上下游关系则需要有系统性的数据源,这就给信息获取和识别带来了巨大的挑战。

知识图谱有什么特点?

知识图谱可以最有效、最直观地表达出实体间的关系。简单地说,就是把大量不同种类的信息连接在一起而得到一个关系网络,为人们提供了从“关系”的角度分析问题的能力。

相对于传统的描述方式,知识图谱具有一些自身的特点:

(1)多维度,需要从大量的信息源中抽取多维度的特征信息,为后续算法拓展深度关联关系提供必要的素材;

(2)深加工,在信息素材的基础上,通过智能推理实现从数据到智慧的深加工;

(3)可视化,深加工的结果以可视化的方式展现给用户,并与用户交互,直观易懂。

假设我们用知识图谱来描述一个事实:“李四是张三的朋友”。这里的实体是张三和李四,关系是“朋友”。当然,张三和李四也可能会跟其他人存在着某种类型的关系(如王五)。如果把电话号码也作为节点加入到知识图谱(电话号码也是实体),人和电话之间也可以产生一种关系,即某个电话号码是属于某人。

由此可见,知识图谱是基于图的数据结构,它的存储方式主要有两种形式:图数据库和RDF存储格式。在此,可以使用专业的工具进行相关的工作。比如,neo4j在整个图存储领域里占据着重要的地位,在RDF领域里Jena是目前最为流行的存储框架。

当然,如果需要描述的实体维度较少,而且查询时仅仅需要知道实体间简单的关联关系,那么使用传统的关系型数据库即可满足要求。但是对于复杂的关系网络,知识图谱的优点非常显著。首先,在关联查询的效率上,比传统的存储方式有显著的提高,查询效率甚至会高出几千倍甚至几百万倍。其次,基于图的存储在设计上比关系型数据库灵活,比如新的数据源只需在已有的图谱上插入即可。

用知识图谱可以做什么?

目前,知识图谱的应用在国内还处于初始阶段,但已经在金融、医疗和电商等行业得到了广泛的探索。特别在金融行业中,知识图谱是一个重要的反欺诈手段。例如,基于大数据的分析把不同来源的各类数据整合在一起,有效地识别出团体欺诈、身份造假、代办包装等欺诈行为。此外,还可应用于行业风险预测、对客户的精准营销以及可视化展示等一些典型的领域。相信随着研究的深入,还会有越来越多的应用场景被发掘出来。下面,我们对已有应用场景做一个详细介绍。

(1) 风控反欺诈

反欺诈是风控中非常重要的一道环节,也是知识图谱适合应用的场景。反欺诈的核心是人,这就要求把与借款人相关的数据源打通,然后抽取该借款人的特征标签,从而将相关的信息整合成结构化的知识图谱。其中,不仅可以处理记录借款人的基本信息,还可以把借款人日常生活中的消费记录、行为记录、关系信息、网上浏览记录等整合到知识图谱里。在此基础上,对该借款人的借贷风险进行分析和评估。

反欺诈的应用不仅体现在贷前阶段,还可以应用在贷中阶段,通过构建已知的主要欺诈要素(如手机、设备、账号和地域等)的关系图谱,全方位了解借款人风险数据的统计分析,对潜在的欺诈行为作出及时的反应。当然,这要求能够获得借款人全方位的各种类型的信息,并且利用机器学习和自然语言处理技术从数据中提取出符合图谱规格的数据。

相比虚假身份的识别,组团欺诈的发现难度更大。一般来说,团体欺诈往往隐藏在非常复杂的关系网络里,很难识别。只有把其中隐含的关系网络梳理清楚,才有可能去分析出其中潜在的风险。知识图谱,因为天生用来描述关系网络,因而具备了分析组团欺诈的便捷手段。

(2) 风险预测

基于多维度的数据,从而建立起客户、企业和行业间的知识图谱,从行业关联的角度预测行业或企业面临的风险。例如,通过对行业进行细分,根据贷款信息、行业信息建立行业间的关系模型;通过机器学习,可发现各个行业间的关联度,如果某一行业发生了行业风险或高风险事件,根据关联关系可以及时预测有潜在风险的其他行业。从而可以帮助金融机构做出预判,尽早地规避风险。

除此以外,通过知识图谱,也可以将行业和企业之间数据进行连接,借助对行业的潜在风险的预测,能够及时发现与该行业风险或系统性风险相关联的企业客户。例如,某地区某行业连续出现了多笔逾期贷款,通过对行业和客户的知识图谱进行分析,可以及时发现该地区相关行业存在潜在风险的客户。

(3) 精准营销

优秀的企业可以比竞争对手更有效地挖掘潜在客户,其中起关键作用的是分析用户和理解用户。知识图谱综合了多个数据源,挖掘出实体之间的关系,从而对用户的行为有更好的理解,能更好、更深入地理解用户的需求,挖掘已有客户的潜在需求,针对性地推送相关产品,更好地为客户提供营销服务。比如,市场经理可以用知识图谱来分析用户之间的关系,发现共同的喜好,从而有针对性的对某一类人群制定营销策略;如果对知识图谱扩展(如增加车辆信息、个人爱好、行为等),可以更加精准地分析客户行为,进行精准推送。

同样,挖掘潜在客户也是金融行业重点关注的工作。如果能够通过全方位的数据,精准、迅速地找到相关业务的潜在客户,对于提升银行的业务会有很大的帮助。基于银行客户建立社交网络知识图谱,根据各种社交行为(如交往方式、频次等)发现图谱的关系模型,对客户社交网中的相关主体(如亲属、朋友、同事、同学、陌生人等)进行挖掘,评估关系紧密度。

以上的业务不仅可以针对个人客户,还可以针对企业级客户。例如,分析企业客户的资金关系、法人关系、上下游投资关系、相似企业业务关系等,为企业推荐合适产品、服务。

(4) 智能搜索和可视化

基于知识图谱,我们也可以提供智能搜索和数据可视化服务。智能搜索的功能指的是,知识图谱能够在语义上扩展用户的搜索关键词,从而返回更丰富、更全面的信息。比如,搜索某个人的身份证号,可以返回与这个人相关的所有历史借款记录、联系人关系和其他相关的标签(如黑名单等)。这些结果可以用图形网络的方式展示,从而把复杂的信息以直观明了的图像呈现出来,让使用者对隐藏信息的来龙去脉一目了然。

如何建设企业应用的知识图谱?

如果想要针对特定行业或企业建立知识图谱,首先,需要分析行业特点,创建统一的数据模型和视图;然后,要对收集的各类行业数据进行整合,并通过关联计算找出数据间的关系,再使用图数据库保存及展示;最后,建立业务模型对数据进行机器学习,挖掘有价值的信息支撑业务场景。

具体到金融行业,建立知识图谱通常要经历三个主要步骤:

从海量的结构化、非结构化数据中识别金融实体;

根据业务需要,定义并识别金融实体间的各种关系,进而生成知识图谱;

定义并表达业务逻辑,通过在知识图谱上实现各种具体任务来体现数据价值,如推理等,实现数据到智能的升华。

先来看第一个步骤:实体的识别是从文本中抽取出特定的实体信息,如时间、人物、地点、公司、产品等等,由此确定了知识图谱中的点。

再来看第二个步骤:关系的识别则是指实体间的各种关系,如地理位置关系、雇佣关系、股权关系等等,这些关系确定了点与点之间的边。需要说明的是,常用的抽取关系的方法有基于专家知识库和基于机器学习等类型。其中,基于专家知识库的方法是由行业专家构筑大规模的领域知识库,需要专家参与,一般耗时费力,但是质量相对比较可靠;机器学习的方法需要构造特征向量形式的训练数据,使用机器学习算法自动构造。需要特别指出的是,对于非结构化文本,实体识别和关系抽取需要基于自然语言处理算法,以及深度学习算法(例如,用词向量的方式寻找近义词,提高实体模糊识别的准确度),这是一个反复迭代、不断精进的过程。

最后来看第三个步骤:推理能力是人类智能的重要特征,是由一个或几个已知的前提推出结论的过程,也可以从已有的知识中发现隐含的知识。在推理的过程中,往往需要一些规则的支持,例如:从“某人甲”既是“企业A”的法人也是“企业B”的法人,可以推测出“企业A”和“企业B”之间的关联关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,如何把这些信息有效地与推理算法结合在一起是最关键、最有挑战性的工作。常用的推理算法包括基于逻辑和基于分布式表示的方法。随着深度学习在人工智能领域取得的突破,基于分布式表示的方法已成为目前研究的热点。

此外,金融知识图谱还包含了很多其他的形式,例如:A股的公司、港股和美股的公司,各种基本面的数据、行情的数据都在逐渐的知识图谱化,还有公告数据、研报数据、以及工商数据等都是金融知识图谱的分支。

知识图谱应用面临哪些困难?

知识图谱在工业界还没有形成大规模的应用,很多仍处于调研阶段,主要原因在于很多企业对知识图谱并不了解,或者理解不深。但从目前的趋势可以预测,知识图谱在未来几年内必将成为工业界的热门工具。当然,知识图谱在实际应用中仍然将面对很多的挑战。

(1)数据的可访问性。数据处理的最大烦恼常常是无法得到数据。由于种种原因,数据往往无法得到充分的公开,被封闭在数据孤岛上;或者仅仅被用书面的方式保存,无法用电子形式读取处理,可访问性不好。提高可访问性的主要手段是把数据电子化和网络化,可以方便地通过网络链接和访问。其中涉及的技术有:网络爬虫、PDF格式转文本、图片中的字符识别和文本清理等。最后,使用大家广泛接受的传输协议,提供不同平台间的兼容。

(2)数据的可发现性。原始数据中往往存在很多的噪声,例如,数据本身在收录时有错误,必须被纠正;再如,数据会有冗余,同一家公司的名称可能会有全名、缩写名等形式,处理时被当作不同的公司对待等。这些都会对后继的数据处理造成干扰,降低数据的可发现性。

(3)数据的深层关系。因为海量的数据已经远远超出人类的处理能力,依靠人力无法发现在数据中隐藏的众多关系。人类也许能从数据中最多找出几百个维度,但是机器使用自然语言处理的技术可以识别成千上万个维度,特别是关系抽取。此外,各种推理的方法也非常重要,通过推理规则可以发现隐藏得很深的联系。

(4)领域知识的集成。金融涉及多个行业,可以分为上百个领域,这些领域都多少需要集成领域的专业知识。不管是投资还是制造,其中的主要概念、产品分类、市场竞争情况等都需要通过行业专家收集整理,并反映到领域知识库中。其中需要的主要技术为:文档篇章分割、中文分词、实体提取及消歧、关系提取、规则库建设等。金融领域中的征信、融资、资管、二级市场交易等都有具体的业务场景,都需要业务逻辑,这些逻辑在数据之上表现为模型,需要在基础数据和领域知识的基础上实现。

(5)策略的生成。现有阶段,机器在业务场景中还无法完全替代人类的作用,而是辅助人类作出价值判断、风险判断,通过过往的案例或者既定的逻辑,为人类推荐可行的策略。在此,涉及到人工智能的方方面面:对用户交互而言,有意图理解、语言生成、用户画像匹配等;在业务层面,有逻辑生成、投资模型、风险模型等;涉及的数据处理有规则提取、知识库建设,语义检索、逻辑推理等。

最后,我们必须看到,金融和所有其他领域一样,正在逐渐被人工智能渗透,人类将会越来越多地依靠机器的帮助,更加科学地决策。今天的金融辅助工具已经可以提供大量的帮助,让投资人更容易地获得数据和分析层面的支持,大大提高工作的效率。而在整个技术链中,知识图谱居于核心地位,这是自金融报表电子化以来又一次质的飞跃。知识图谱是金融数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,把经验逐步变成可重用、可演化、可验证、可传播的知识模型,从而实现数据到智能的升华。

微信公众号:苏宁财富资讯,作者:沈春泽 苏宁金融研究院高级研究员

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。