扫描分享
本文共字,预计阅读时间。
10月22-23日,由国际数据管理协会(DAMA)指导的“2021DAMA中国数据管理峰会”在上海成功举办。围绕“数据管理和数字化”主题,各界数据治理大咖、各行业数据治理先锋企业展开了深度讨论。本次活动中,神州信息作为合作伙伴,神州信息首席数据专家黄万忠在会上分享了关于基于数据原生进行数据治理的话题观点。
全文如下:
各位新老朋友,大家下午好,我是神州信息黄万忠,也是DAMA中国理事。去年我们在DAMA峰会畅谈了数据治理实践的十大推进模式,而今年各行各业的数字化转型进行关键阶段,我们从另外一种新的视角和大家来探讨一下数据治理——浅论基于数字原生的数据治理。
大家知道几次工业革命,每一次都推进了人类社会的进步。其中第二次革命是交流电技术的发明和广泛使用。现在数字原生、云原生,恰好就是现在企业数字化转型的“交流电”。数字原生、云原生包括云计算等能力,可以通过业务创新、新技术应用,从业务场景来促使数字化转型,真正实现数字化的业务模式。但是怎样真正用好数字化转型的“交流电”,数据治理是重要一环。
首先,数字原生是企业创新的引擎,是数字化转型的重要驱动力。第一个阶段是信息系统,我们通过认知物理世界的一些业务模型,通过信息系统的建设来提升我们的核心能力。到了第二个阶段,我们发现光信息系统还是不够的,需要做到业务数据化,通过数据平台和BI来实现全流程全要素。这个阶段是对物理世界与现实世界镜像的复制,是用物理世界里面的知识来进行和建模,再在数据世界里解决问题,我们称之为数字孪生。而第三个阶段,在数据世界完全构建自己数据化的自主学习的模型,它会在数据世界里面创新一些新的知识,而这些知识在物理世界是没有的,这就是数字原生。它不但是数字化,而且实现了数据和现实全连接。
从数据治理的角度,基于数字孪生的数据治理是比较艰难的,因为数字化转型还未进行或者不彻底,治理面临着业务、技术、流程、历史等多种因素的挑战。而基于数字原生的数据治理法,业务和战略一致,技术和流程一致,数据治理更容易取得成功。
所以说数字原生企业如互联网金融公司或者新零售公司,做数据治理相对简单一点,且效果更好。
先说下神州信息去年发布的基于数字孪生的数据治理框架,分为三个部分,从下至上依次是数据资产的获得、数据资产的管理和数据资产的使用。从业务系统、数据平台等获得数据,然后进行数据资产管理或数据治理,再让数据资产变现,在数据价值变现过程中发现问题、分析问题并在源头和数据平台进行修正,形成数据治理的闭环。而第二部分又分为三个域,分别是数据管控域、数据管理域和工具域。数据管控域,偏咨询规划,从组织制度流程规划角度来指导自己应该怎么做;数据管理域,偏实践落地,是数据治理真正实践过程,是“下水道”工程;工具域是对咨询和实践的支撑,用工具来实现数据治理自动化、流程化、可视化、可量化。由于数据治理落地很难,究竟是咨询先行,还是实践先行,抑或是工具先行,或者如何几方配合等等,我们又推出了很多种实践模式,去年我们发布了10大数据治理推进实践模式,整体规划模式、数据资产盘点模式、主数据驱动模式、数据分析模式等,这10种实践模式可以灵活进行组合。正是因为是数字孪生,数据和现实业务没有真正的融合,我们用各种方法来弥补这种现实的差异,这是数据孪生数据治理实现的一个方法论。但基于数字原生的数据治理面临的问题跟数据孪生是不太一样的,它有很多新的挑战。
第一个挑战,基于云原生的企业IT基础设施重构:数据采集方面面临新的挑战,如何实现云边端、全连接、低时延、敏捷等。
第二个挑战,基于数据和知识的企业核心竞争力重塑:需要真正实现数据融合,用模型算法多维度、全流程地实现数据融合,满足标准和质量。
第三个挑战,面向场景的业务和技术深度融合与创新:要实现数据创新,比如业务闭环和用户洞察。这个过程需要业务和技术协同。
所以说基于数据原生,数据治理将面临新的挑战,我们需要从三方面入手。第一方面从数据治理的高度上讲,需要更整体的、高度更高的标准,和更加灵活的治理机制,实现多层级的协同。第二方面从数据治理的宽度讲,数据来源更多、数据类型更多,数据形态更多,治理需要全方面覆盖。第三方面,从数据治理的深度上讲,业务流程要更深入、时间维度要更长,需要基于AI技术来实现深度治理。
基于数据原生的数据治理可以从数据生命周期入手,从数据的采集、融合、创新和业务化各阶段进行嵌入式的数据治理。采集阶段保证数据安全和隐私的前提下,实现数据准确性、高性能、高可用、高并发、低延迟。融合阶段,用新技术新理念实现数据的真正融合,而非只是物理集中,比如利用联邦学习实现数据共享和保护安全隐私、利用机器学习实现动态数据整合,不断投入技术资源维持熵值平衡。在创新和业务化阶段,更是需要数据挖掘、人工智能、知识图谱、迁移计算和区块链等技术实现业务创新。
所以基于数字原生的数据治理是和业务创新、新技术天然结合在一起的,缺一不可。往往也是和企业数字化转型紧密结合在一起的,互相依存,互相促进。从技术上讲,基于数字原生的数据治理需要一个数据资产中心,以此来实现资产集中化、资产业务化、资产服务化。数据资产盘点和运营都是基于这个数据资产中心。而为了真正做好基于数据原生的数据治理。站在一个企业或者是金融机构的视角,我们的数据资产中心应该放在哪个位置,是放在数据中台的萃取中心,还是放在数据仓库的模型层,还是放在别的地方?这些都因人而异,需要因地制宜。
接下来给诸位汇报下神州信息在基于数字原生的数据治理的实践方面的一些创新成果。
1、基于动态演变机制机器学习模型的RNA&DNA动态模型整合方法
利用基于动态演变机制的机器学习算法 ,为互联网银行和银行互金业务提供了更加准确、及时的多态数据应用机制。
RNA(脱氧核糖核酸)和DNA(核糖核酸)是生物遗传学上的概念,DNA是遗传物质,RNA是非遗传物质。用在数据治理上,DNA方法就是通过一系列模型整合方法还会让数据保持原来的属性特征,RNA方法则是通过一系列整合方法会让数据丢弃原来部分不够准确的属性特征。
举例来说,RNA方法可用于动态主数据整合,比如可以整合不同渠道产生的客户家庭住址,而这些家庭住址有准确的、也有不准确的,我们利用质量评分方法,进行多维度评分,规则权重则用机器学习算法来控制,最后选取得分最高数据记录进行整合。RNA已经是很大一个进步。
而DNA方法更加先进,它保留了信息的多态,进而创造了知识。比如有一种业务场景是客户有两个手机号码,都是有效的,我们需根据场景整合这两个手机号,并进行标记。记录客户在不同渠道、通过不同手机、进行不同的业务活动,并且进行分析挖掘,更加及时地、精准地响应客户的服务要求,提高满意度,降低金融风险。从地域、用途、渠道、交易事件、喜怒情感等不同维度实现手机号码的多态整合。
神州信息已经将这种动态模型模型整合方法用于金融机构数字化转型的数据整合过程,效果非常显著。但同时因为计算量指数级增加,需要更强大的计算能力和更准确的机器学习算法。
2、基于DATA POINT的数据空间产品
基于欧盟DPM理念和DAMA数据管理,结合中国金融监管的实际,提出适用中国金融监管的数据空间方法论。数据空间由数据点构成,一个数据点(Data Point)是某个监管报告所需的数据元素,具有同样含义的数据元素会共享一个数据点。基于这样的设计,会统一不同监管框架、监管报告中的数据语义,确保监管报告数据的一致性和协调性。
利用基于动态演变机制的机器学习算法 ,为互联网银行和银行互金业务提供了更加准确、及时的多态数据应用机制。
以银行为例,一般银行要面临40多种不同的监管报送要求,有人民银行的、有银保监会的、有国家外管局的等等,不同的监管报送之间可以通过维度划分、度量划分来实现自动组合,同时用语义分词和机器学习方法来自动对监管报送制度进行数据点拆分。从多层次多维度来执行数据加工、计算和查询。
3、“飞流、银河”神州信息数据管理工具全家桶
基于DAMA数据管理数据周期管理理念,结合先进企业的数据模型管控经验,自主研发了“飞流”国产化数据建模工具、“银河”数据资产运营平台,再配合数据管控平台、数据服务平台、数据分析平台实现数据的设计、创建、存储和使用。
“飞流”数据建模工具,包括数据模型设计、正向工程、逆向工程、版本控制和多人协作等功能,同时和数据管控平台的元数据、数据标准管理、数据字典等功能打通。
“银河”数据资产运营平台,包括数据资产盘点、运营、数据资产的分析和服务,管控平台是对业务数据的结构管理。而数据资产平台则是对业务数据的内容进行管理和服务。
数据服务平台是基于ESB技术的数据层面的总线,提供了API配置、API查询和熔断等功能。“银河”数据资产运营平台上盘点和选择的数据资产可以直接发布到数据服务平台或者数据分析平台上,实现资产可盘、资产可管、资产可用等目标。
4、政府基于数据原生的数据治理案例
再介绍一个跟政府相关的数据治理实施的案例。它从数据交换共享平台到原始的数据资源池,再到数据加工中心,通过数据加工中心对外提供数据分析和各种门户的使用,可以实现多维的数据服务。它真正的核心是在中间的数据加工中心,是一个基于某一政府保税区的数据整合。
最后,“行路难,行路难,多歧路”,这是每个数据治理人面临的问题,需要每个数据治理人不断努力,但愿神州信息在数据治理方面的实践经验能够对大家有启发
非常感谢您的报名,请您扫描下方二维码进入沙龙分享群。
非常感谢您的报名,请您点击下方链接保存课件。
点击下载金融科技大讲堂课件本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文版权归原作者所有,如有侵权,请联系删除。