扫描分享
本文共字,预计阅读时间。
文/西南证券股份有限公司李鲁川、高健、向林泓
(本文为“证券机构数字化转型与证券科技创新”征文活动入围文章。)
一、 研究背景
1.1 大数据技术的发展和本质
数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。“大数据”作为一种概念和思潮从计算机领域发展而来,之后逐渐延伸到科学和商业领域。大数据技术于2014年后逐渐形成体系,其相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善。
大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。在拥有充足的计算能力和高效的数据分析方法的前提下,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。
1.2 大数据技术的现状与趋势
随着信息技术的高速发展,世界范围内各行各业都在进行信息化变革,几乎每个行业都在努力发现和利用大数据的价值。为了充分利用大数据带来的机遇,同时有效应对大数据带来的挑战,中国产业界、科技界和政府部门也在积极布局、制定战略规划。
目前,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。Hadoop是一个由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理大规模数据的分布式程序,充分利用集群的威力高速运算和存储。
虽然Hadoop提供了很多功能,但仍然应该把它归类为多个组件组成的Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。图1 展示了Hadoop 的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成,另外还包括Sqoop、Flume等框架,用来与其他企业融合。同时,Hadoop 生态系统也在不断增长,新增Mahout、Ambari、Whirr、BigTop 等内容。
图1
1.3 大数据技术在证券行业的发展
证券行业较早应用大数据来提升行业IT技术水平,上海证券交易所在2014年11月发布研究报告《证券业大数据创新研究》;南方基金、新浪财经和深圳证券信息公司三方联合推出“南方-新浪大数据100指数”;广发证券、光大证券等机构也已经研究并推出了基于互联网信息的策略和产品;百度基于全网大数据,推出大数据智能选股APP百度股市通等。在海外市场,虽然基于大数据进行投资决策的基金并未取得预期业绩,但将大数据因素纳入投资分析框架已经是许多机构的标配,汤森路透也推出了相应的新闻产品。
随着传统经纪业务同质化竞争的日益加剧,其单一盈利模式的局限性逐渐暴露出来,各大券商纷纷开始寻求创新突破。同时,得益于近四十年经济快速发展的时代机遇,证券公司传统客户群体的分化日益明显,券商传统经纪业务单一简单的服务模式越来越不能满足多元化客户群体的差异化投资理财需求。在此背景下,各大券商纷纷开始探索利用大数据技术对客户价值的深度挖掘,充分利用客户行为数据、社交数据、政府数据等数据源,为客户画像,给客户打上各种标签,提升营销和客户服务水平,利用舆情数据、工商司法大数据等构建征信、风控相关应用,提高业务办理的效率,提高业务水平。
二、证券公司信用业务征信和风控的痛点
在证券业务越来越多样化的今天,信用业务已经成为各大证券公司的核心业务之一。征信和风控正是推动信用业务发展的驱动器。
随着近年来国内个人信贷市场迅速发展,越来越多的金融业务互联网化,欺诈手段也层出不穷,信息不对称、不透明,给信贷市场带来了大量的多头负债风险和欺诈风险。同时,大量的人力资源投入到征信和风控中,并不能够适应现在社会的体系发展。目前,证券公司在征信和风控主要面临着以下问题:
2.1 较为单一的数据资源导致征信体系的不健全
证券公司在对客户进行征信评估的时候,所采用的数据来源依然是以证券交易系统以及券商的周边系统为主,这大大限制了对客户征信额度评估的准确性。客户的征信体系不仅仅是证券公司内部数据所能体现,客户外部行为也是评判客户征信的重要因素。
证券公司在没有完善、充足的数据维度的前提下,每次征信都面临着以下问题:
1、征信人是否为本人,征信人是否使用他人信息;
2、征信人所提供的信息是否真实,例如征信人的身份证、住址、收入、学历、职业等信息;
3、征信人的外部负债如何,征信人是否有足够的偿还能力;
2.2 较大的人力投入无法保证风控的时效性
众所周知,金融的核心是风险控制。当前,部分证券公司在风控手段主要还是依靠人工监督为主,报表资讯数据参考为辅的形式。同时,客户经理在线下尽可能全面的获取客户信息,减少信息不对称,控制风险,但是由于人力资源的匮乏、线下成本较高、内部审批流程较长,部分客户缺乏有效的征信记录等原因,都是制约风控效率的重要因素。并且,这种形式的风控手段已经无法满足大数据时代下的监督手段。
2.3 没有健全的征信风控一体化模型系统
风控与征信都是管理风险的活动,不同的是,风控是指依靠企业自身的数据和资源进行风险管理,而征信是依法收集、整理、保存、加工客户的信用信息,为客户提供信用资源。征信和风控本身就是信用业务组成的重要环节,征信是信用业务的先决条件,是信用业务启动的引擎。风控是信用业务的保障措施,是客户在征信之后的服务保证。
然而目前大部分证券公司的征信系统和风控系统都是两个独立开来的系统。征信系统和风控系统之间的高速通道并未打通,仅仅可能是一些基础数据的共享,并没有形成客户从征信、交易、风控的整个环节的体系流程。
三、大数据征信和风控体系建设
3.1 建立分布式大数据采集、整合平台
证券公司每个交易日都会产生大量的交易数据、行情数据、客户资产数据等,这些数据对于证券行业来说都是质量很好的基本数据。同时,还需进一步扩展数据源,整体架构如图2所示:
图2
1、工商、司法、金融等结构化数据采集
工商、司法、金融、以及行业指标都是证券市场需要考虑和研究的数据,这些数据都由对应的国家组织机构分别对外提供,如果分别去开发接口获取数据会大大增加难度。目前,有很多第三方公司如天眼查、企查查等企业收集、汇总了如全国企业信用信息公示系统,中国司法大数据服务网,中国执行信息公开网,国家知识产权局官方网站,国家工商总局商标局官方网站,国家版权局官方网站等数据,并提供统一的数据查询接口。
2、资讯文本非结构化数据采集
除前面叙述的结构化数据外,还有很多信息都隐藏在了非结构化数据里面,如新闻资讯、股票论坛、公司信息披露、社交数据等等,这些数据来源广、规模大、格式多、增长快、处理复杂,具有大数据的普遍特征。各种新的概念和热点的挖掘、研究报告上的点评和理解,这些都需要对非结构化数据进行分析。
3.2 建立大数据分析、挖掘平台
在大数据采集平台的基础上,收集各个业务系统数据、外部资讯数据、外部工商司法数据以及通过网络爬虫从互联网上分析的舆情数据等,建立统一的大数据指标体系,为大数据建模、大数据监控提供数据基础。
对于工商、司法、金融等结构化数据的指标,将这些数据与券商自由的客户数据、持仓数据、资金数据、交易数据等进行整合,利用大数据分析、挖掘技术,形成一套适用于客户征信、风控的指标体系,如客户信用风险指标、客户资产异常风险指标等。对于非结构化文本数据,利用自然语言处理相关算法计算,从中抽取不同维度的标签,通过态度预测、股票抽取、产品关联、事件关联等技术,将文本数据映射为股票、态度、事件等标签化的资讯内容。整体架构如图3所示:
图3
通过大数据平台,将资讯文本等非结构化数据进行资讯标签化,大大提供了业务人员在风控业务中的工作效率,同时还将资讯化的标签数据应用于融资融券标的风险判断,进一步提高了风险控制的时效性。
3.3 基于大数据平台的征信和风控应用
目前,证券公司在征信和风控的手段主要包括前期控制和后期跟踪。前期控制是指在对客户进行征信的时候,利用证券交易系统、周边系统以及提交的信用业务的申请资料等相关客户数据,通过业务人员设定的评级指标和计算指标,由系统自动计算出客户的信用等级,并确定授信额度。同时,业务人员需进行人员审核及校验,给出客户的最终授信额度。后期跟踪是指业务人员在客户进行了融资融券或者股票质押等业务后,须对客户的持仓信息、舆情信息等进行实时监控,并及时获取客户的信用风险等级信息,防范客户潜在的风险行为,提供高效、及时的风险控制策略。整体架构如图4所示:
图4
1、基于大数据的征信应用
征信应用包含征信评级流程、征信重检流程、客户征信信息查询、征信黑白名单管理、征信参数设置等。一套完整的征信流程应该包含如下步骤:
(1)征信发起
客户在达到征信业务的基本要求之后,能够发起征信申请流程。业务人员在接收到客户征信申请之后,则进入规则判断环节。
(2)自动化规则判断
传统的征信业务中,业务人员在处理征信流程的时候,大部分的规则判断均是由业务人员进行判断,这大大限制了征信的效率和准确度。在基于大数据的征信应用中,业务人员在接收到客户的征信申请时,大数据征信系统会自动对客户进行业务规则判断,对于不符合业务规则的客户进行原因提示,同时由业务人员进行判断是否继续,也可以通过黑白名单对特殊客户在规则外进行特殊处理。对于符合业务规则判断的客户,则进入额度授权环节。
(3)自动化额度授权
以前的征信业务中,由于缺乏对客户工商、司法数据的掌握,仅仅通过客户在券商内部的资产数据进行授信额度计算,这本质上是不准确的,也为授信人提供了漏洞的机会。在基于大数据的征信应用中,征信的计算不仅仅包括券商自由的资产数据,还包括了客户在其他领域的信用、资产数据,系统会依据这些全量指标数据,以及业务人员手工录入的数据,依据大数据征信模型的计算结果,给出最大授信额度。
(4)人工审核
大数据计算的授信额度值并不是最终的结果值,业务人员可根据实际情况调整授信额度或者终止业务申请。流程结束后,系统自动进行客户在公司的授信额度调整,并立即生效。人工审核虽然在一定程度降低了征信的效率,但是也预防了模型失效、三方数据失真等多维度问题。
2、基于大数据的风控应用
风险控制应用主要是通过大数据平台所整理的各个业务系统数据、外部资讯数据、外部工商数据以及通过网络爬虫从互联网上分析的舆情数据等,然后结合公司客户已办理的融资融券、质押约购等业务,实现对客户实时的风险监控。主要包含以下几个方面:
(1)业务日常风险管理
业务人员可通过客户信用风险监控、两融合约信用风险监控、质押约购信用风险监控、标的券风险监控等一系列手段进行常态化监控,可以实时关注客户对应的保证金比例,还可以实时关注交易日标的证券、担保证券公开信息。
借助于智能资讯标签化系统,业务人员不再像以前一样被动的寻找标的证券的负面消息。系统会主动将公司所持有的标的证券所发生的负面消息推送给业务人员,当上市公司基本面发生重大变化时,能够及时对公司标的证券、担保证券范围进行临时调整,以预防系统性风险。同时,还增加实时短信预警、邮件预警订阅等功能,一旦触发报警阈值立马发送通知短信和通知邮件,提高监控时效性。
(2)客户异常交易行为监控
借助于工商、司法大数据以及客户交易数据,可以更加准确的判断客户交易行为的合法性。当客户工商、司法出现异常情况的时候,系统会立即调整客户的风险监控值,并对客户未来所有的交易进行监控。同时,委派专门的业务人员对客户进行追踪和了解,一旦出现不正常交易的情况,应立即进行对应的风控处理。
四、大数据建设展望
4.1 加快信息共享机制的建设
推动政府信息公开和行业之间的信息共享,打破数据壁垒,发挥大数据推动各个行业升级和转型的作用。第一,进一步完善个人信息保护机制,以此避免信息共享带来的数据安全和个人隐私泄露等问题。第二,打破数据垄断,对大数据进行分级管理,将政府掌握的大数据界定为公共品,依法合规向社会开放分享;第三,还需要推动大数据标准化,使政府信息和不同行业之间的数据可以交互式使用,打破信息共享过程中面临的技术壁垒。
4.2 增强数据检验能力,提高数据质量和可靠性
相比于央行征信系统的权威性、数据质量的高可靠性,大数据征信机构虽然数据来源更加宽泛、品种更加丰富,但数据质量、权威性受到质疑。网络上存在的数据往往并不是客户真实面貌的反应。随着我国大数据开放程度的日益扩大,交叉检验等技术的日趋成熟,数据的准确性和时效性才会越来越高。
另外,现存的大量人工审核工作将会被智能审核技术所取代。比如第三方征信机构——芝麻信用积极地寻求外部合作,打通公安、工商、法院部分数据接口。拥有着丰富的内外部大数据,数据种类涵盖衣食住行、生活缴费、投资理财、转账支付、社会公益等数百种生活场景数据。这种高质量的数据才是不断深化、提高征信风控业务质量的核心因素。
4.3 制定大数据发展战略,强化数据化运营思维
大数据其实是一种思维方式,是一种战略思想,是为了让我们在工作实践中摆脱传统的拍脑袋、经验、直觉等方式,合理的运用大数据,科学、有据的进行思考和决策。对于证券行业来说,需要在实际的业务当中养成用数据进行思考、用数据推动业务、用数据进行决策,不断的加强数据化的运营方式。只有大部分人都养成了用数据说话,用数据思考问题、解决问题,那么大数据才算是真正用起来了
大数据变革,给各行各业都带来了巨大的挑战和机遇。对于高速发展的证券市场来说,迎接挑战,抓住机遇,以大数据促进证券市场创新发展,既顺理成章又势在必行。制订大数据战略的过程,也是不断加深对大数据的认识和不断加强对证券市场业务进行反思的过程,只有立足我国资本市场的发展实际、立足证券市场自身的发展实际,才能达到事半功倍的效果。
非常感谢您的报名,请您扫描下方二维码进入沙龙分享群。
非常感谢您的报名,请您点击下方链接保存课件。
点击下载金融科技大讲堂课件本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文版权归原作者所有,如有侵权,请联系删除。