清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

数据是人工智能大模型的基础。经过海量、高质量数据不断训练调整能提高大模型准确性和效率。大模型训练需要通过如数据挖掘、网络爬虫、数据共享、数据开放、合法交易等方式获取数据,通过数据清洗、去重、格式化和人工标注等方式对数据进行处理。一般认为,训练数据生产过程,主要包括训练数据集结构设计、原料数据采集获取、数据加工标注、数据质量检测等环节。

近年来,我国数据标注市场发展迅速。据华经产业研究院统计,2021我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP(Natural Language Processing,缩写 NLP,自然语言处理)类需求占比分别为45.3%、40.5%和14.2%;2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。

一、数据标注

一般认为,数据标注是对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注的类型包括图像标注、语音标注、文本标注、视频标注等,例如对文本进行分词、词性标注和实体识别,对图像进行目标检测和分割。通过数据标注将需要机器识别和分辨的数据打上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

数据标注对人工智能大模型具有重要意义,可以说是人工智能大模型得以有效运行的关键环节之一。具体而言,数据标注可以带来以下几方面的意义。

一是提高机器学习算法的准确度,标注数据可以使机器学习算法更加准确地学习和预测。对于图像分类任务,有标注的图像可以让算法更好地识别图像中的物体和场景,从而提高准确率。

二是加速算法的训练过程。标注数据可以使机器学习算法更快地学习和训练,从而减少算法的训练时间和成本,标注数据广泛应用促进了机器学习技术的发展。

三是促进机器学习技术应用能力。有了标注的数据人们可以更好地利用机器学习技术来解决实际问题,如自然语言处理、计算机视觉、推荐系统等。总之,数据标注是机器学习领域中非常重要的一个环节。

二、数据标注与数据治理

根据数据管理能力成熟度评估模型(GB/T 36073-2018)规定,数据治理(data governance)是对数据进行处置、格式化和规范化的过程。数据治理是数据和数据系统管理的基本要素。数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。

数据标注和数据治理是两个不同的概念。数据治理是指对数据的收集、处理、分析和存储等数据活动统一管理,以确保数据质量和安全性、可靠性使之规范化。数据治理的目标是促进数据的有序、高效和合规使用,从而推动业务决策和业务发展。数据标注是对原始数据进行分类、标注、注释等处理,以作为机器学习或人工智能模型的训练素材的过程。数据标注的目的是提高机器学习模型的准确性和泛化能力,使得模型能够更好地适应实际业务场景。

数据标注和数据治理是相互关联的。数据治理可以确保数据的质量和可靠性,为数据标注提供高质量的原始数据。同时,数据标注的结果也可以为数据治理提供更好的反馈和指导,使得数据治理更加精准和有效。

三、数据标注与数据标准

根据数据管理能力成熟度评估模型(GB/T 36073-2018)规定,数据标准(Data Standard)是指数据的命名、定义、结构和取值的规则。数据标注是数据标准制定和实施的重要环节。数据标准是为保障数据定义和使用的一致性、准确性和完整性的规范性约束。对于企业而言,数据标准是保障数据内外部使用和交换一致性和准确性的规范性约束,有利于打通数据底层的互通性,提升数据的可用性,从而降低数据管理成本。

数据标准可以包括数据结构、数据内容来源、技术业务等方面的标准。数据标准的制定和发布需要结合实际业务需求,通过各种管理活动,推动数据的标准化管理,从而保障数据的完整性、一致性、规范性。数据标准的管理目标是通过统一的数据标准制定和发布,结合完善的数据标准管理体系,实现数据的标准化管理,为后续的数据管理提供标准依据。

数据标注是对数据进行分类、画框、标注、注释等处理,以作为机器学习基础素材的过程。由于数据标注的质量直接关系到机器的智能程度,因此数据标注需要按照严格的质量标准进行。数据标注流程包括数据采集、数据清洗、数据标注、数据质检等环节。其中,数据采集和清洗是准备阶段,数据标注是核心环节,而数据质检则是对标注数据的检验和评估。从具体体现来看,数据标准则是一套经过定义、解释、使用和修订的标准化技术和过程,用于处理数据的采集、表示、交换、分析和管理等方面。

因此,数据标注和数据标准是相互关联的,数据标注是数据标准化的具体实施过程,而数据标准则是数据标注的规范和依据。通过数据标注和数据标准化的结合,可以进一步提高机器学习和人工智能应用的效果和可靠性。

四、数据标注相关规范

数据标注需要遵守包括《中华人民共和国网络安全法》、《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》等数据信息相关基本法律法规。

国家网信办、国家发展改革委、教育部、科技部、工信部、公安部、国家广电总局等七部委发布的于2023年8月15日正式生效的《生成式人工智能服务管理暂行办法》第八条专门对数据标注作出规定,要求在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

根据人力资源社会保障部会同国家市场监督管理总局、国家统计局以2015年版《中华人民共和国职业分类大典》为基础的修订版本《中华人民共和国职业分类大典(2022年版)》,人工智能训练师正式成为新职业并纳入国家职业分类目录。,人工智能训练师主要工作任务包括标注和加工图片、文字、语音等业务的原始数据;分析提炼专业领域特征,训练和评测人工智能产品相关算法、功能和性能;设计人工智能产品的交互流程和应用解决方案;监控、分析、管理人工智能产品应用数据;调整、优化人工智能产品参数和配置等。

人工智能 面向机器学习的数据标注规程(GB/T 42755-2023)是一个推荐性国家标准,将于2023年12月1日起实施,是人工智能中面向机器学习的数据标注规程是一套指导和规范数据标注过程的标准和规则,规定了数据标注操作流程,并对标注任务、标注人员、标注环境;过程控制、质量保证、管理机制;内部质检、数据交付、后期维护等问题作出了规定,以确保数据标注的一致性和准确性,为机器学习算法提供高质量的训练数据。

一些地方标准也值得参考和借鉴。2022年6月,山西省市场监督管理局发布《人工智能 数据标注总体框架》《人工智能 数据标注一般技术要求》《人工智能 数据标注通用工作规程》等3项人工智能数据标注领域省级地方标准。

《人工智能 数据标注总体框架》提供了人工智能机器学习中数据标注生产的生产流程和生产内容的建议,明确数据标注的地位和产业概念。《人工智能 数据标注通用工作规程》规定了人工智能机器学习中数据标注生产所需要的通用工作要求,包括原则、流程、规划等。《人工智能 数据标注一般技术要求》规定了人工智能机器学习中数据标注通用技术要求的术语和定义、通用技术分类和通用技术要求。

2023年6月,中国信息通信研究院牵头,二十余家相关行业重点企业包括联通数科、数据堂、海天瑞声、Testin云测、整数智能、海康威视、美的集团等头部标注企业、AI科技企业和大型行业企业,联合编制了《人工智能数据标注平台技术要求和测试方法》标准,该标准也同步在三大国际标准组织之一国际电信联盟(ITU-T)进行了立项和文稿讨论。标准针对数据标注平台的各个关键环节给出了规范性约束和参考性建议,目前该标准团标已定稿。

除此以外,还有一系列与数据标注相关的国家标准。如《信息技术 大数据 数据资源规划》(GB/T 42450-2023),数据资源规划(Data Resource Planning,简称DRP)是一种信息技术(IT)规划和战略,旨在确保组织能够有效地管理其数据资源,以满足业务需求并确保数据安全和隐私保护。

《数据质量 第8部分:信息和数据质量:概念和测量》(GB/T 42381.8-2023)是一项国家标准,它规定了信息和数据质量的概念和测量方法。该标准由TC159(全国自动化系统与集成标准化技术委员会)归口,TC159SC4(全国自动化系统与集成标准化技术委员会工业数据分会)执行,主管部门为中国机械工业联合会。

《数据质量 第61部分:数据质量管理过程参考模型》(GB/T 42381.61-2023)数据质量管理的过程参考模型是ISO 8000指定的一个标准,用于指导组织如何实施数据质量管理。

五、数据标注产业法律风险

不同业务部门、不同生态之间数据共享与应用过程中,数据标注产业在未来很长一段时间将可能会产生持续需求。

在数据标注中确实也出现了一些不和谐因素,包括数据标注不规范,可能导致数据质量下降,影响后续数据处理和使用;数据标注错误或不准确,影响后续数据处理和应用;数据标注作假,可能导致数据不真实,影响后续数据处理和应用;数据标注过程违反法律法规,导致数据被禁止使用或受到处罚等。

具体而言,数据标注产业在法律方面可能存在以下风险。

一是违反个人信息保护法律法规风险。数据标注可能需要处理大量个人信息,如姓名、身份证号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。如果数据标注产业未能按照相关法律法规要求处理个人信息,可能会导致个人信息泄露、滥用等安全问题,违反了个人信息保护法律法规。

二是违反数据安全法律法规风险。数据标注产业可能需要处理大量敏感数据,如金融数据、医疗数据等。如果数据标注产业未能采取必要安全措施如数据加密、访问控制等,可能会导致数据泄露、篡改等安全问题,违反了数据安全法律法规。

三是违反知识产权法律法规风险。数据标注产业需要处理大量可能包括知识产权的数据。如果数据标注产业未能得到相关知识产权的授权或许可而导致违法违约使用,可能会导致知识产权侵权问题。

四是违反竞争法律法规风险。数据标注产业存在激烈的竞争,一些企业可能通过不正当手段获取竞争对手的数据,或者滥用市场优势地位,违反竞争法律法规侵害相关合法权益。

为了防范这些法律风险,数据标注产业需要加强个人信息保护、数据安全、知识产权和竞争等方面的法律意识和风险管理。同时,政府和社会各界也需要加强对数据标注产业的监管和管理,确保其合法合规经营。

六、数据标注产业法律风险防范

数据标注产业要行稳致远,需要遵守数据标注相关法律、法规和相关标准,规范、准确、高效地进行数据标注。数据标注企业可以通过以下几种方式来防范法律风险。

一是建立健全数据标注规章制度。企业应建立和完善数据标注相关的规章制度,包括数据采集、存储、处理、分析和保护等方面的规定,以确保数据标注的合规性和安全性。建立符合法律法规规章要求的清晰、具体、可操作的数据标注规则,开展数据标注质量评估,抽样核验标注内容的准确性。数据内容安全保障机制,确保坚持社会主义核心价值观、反对各种歧视;完善个人信息和相关合法权益保护机制,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益等;强化数据安全保障措施,数据标注企业应该遵守相关法律法规要求,在数据安全标准与策略的指导下,通过对数据访问的授权、分类分级的控制、监控数据的访问等进行数据安全的管理工作,满足数据安全的业务需要和监管需求,实现组织内部对数据生存周期的数据安全管理。保数据的保密性、完整性和可用性。

二是加强企业合规经营管理。数据标注企业应该遵守相关法律法规要求,规范企业经营行为、尊重合法权益,不得实施垄断和不正当竞争行为。不得采取不正当手段获取竞争对手的数据,不得滥用市场优势地位侵害他人合法知识产权,侵害他人商业秘密;强化合同管理,在与合作方签订合同时,应当明确标注任务的要求、数据使用范围、保密条款等内容,确保合作方了解并遵守相关法律法规,降低违约风险。

四是加强员工培训教育。企业应加强员工法律意识和风险意识培训,加强数据标注操作、个人信息保护、数据安全、知识产权等方面培训和教育,使员工了解数据标注相关法律法规和企业规章制度,提高员工的合规意识和风险防范能力。

五是建立风险管理团队。企业应建立数据监管机制,对标注数据进行实时监管,及时发现并处理不合规的数据,避免因数据质量问题引发的法律风险。建议企业建立专业风险管理团队,对数据标注过程中可能出现的法律风险进行预测和评估,提出相应风险防范建议和措施。

作者:张烽,万商天勤律师事务所合伙人,万商天勤数字法律专业委员会主任,上海市突出贡献专家协会知识产权专业委员会副秘书长,上海区块链技术协会智库专家/科技评价专家,中国移动通信联合会元宇宙产业工作委员会常务委员,未来产业元宇宙50人论坛副理事长。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。