OpenAI：通往人工智能之路的开创性研究

扫描分享

本文共字，预计阅读时间。

导读

成立于2015年4月的OpenAI是一家总部位于美国的人工智能研究机构，致力于“创建造福全人类的安全通用人工智能模型”。OpenAI的研究范围包括自然语言处理、机器学习、机器人技术等多个领域，已开发了多个文本生成、图像生成以及音频生成模型，所发布的ChatGPT产品被认为开启了“人工智能新纪元”。尽管OpenAI在隐私保护与版权方面存在着争议，但其发展前景与商业价值不容小觑，目前其估值已达800亿美元。

【中国金融案例中心文：叶子编辑：谢彬彬】

Part 1 公司简介

1.1 公司概述

OpenAI成立于2015年，是一家位于美国旧金山的人工智能研究公司，现由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成，核心宗旨是“创建造福全人类的安全通用人工智能（AGI）”。OpenAI以大模型为核心开创了AI领域的新一轮创新范式，成为引领通用人工智能的领军企业，在福布斯“2023云计算百强榜”上位列榜首。

OpenAI最早作为非营利组织，2015年12月由埃隆·马斯克、美国创业孵化器Y Combinator总裁萨姆·奥尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。2016年6月，OpenAI宣布了其主要目标——包括制造“通用”机器人和使用自然语言的聊天机器人。同年，OpenAI发布首个产品，即一款开源强化学习工具包——OpenAI Gym和Universe。2017年，“情绪神经元”和OpenAIFive项目的突破，使得OpenAI开始关注大型语言模型和参数规模，实现AGI的信念增强。

2019年，随着马斯克的退出以及大模型对资金超乎预期的需求，OpenAI转向了混合结构，即从非营利性转变为“有上限”的营利性。在非营利母公司主体下，创建了一个限制性营利实体OpenAI LP，引入了上限利润模式，上限为投资的100倍，允许OpenAI LP合法地吸收风险投资和员工持股。2019年7月，微软宣布与OpenAI开展为期多年的合作。微软成为OpenAI的独家云供应商和OpenAI新AI技术商业化的首选合作伙伴。微软的加持使得OpenAI的大模型开发如虎添翼。

2021年5月，OpenAI 宣布成立1亿美元的人工智能创业基金，由投资模式转向孵化器模式。OpenAI通过“资金+技术+战略”支持的方式，支持优质的AI初创公司；被投公司成长起来后，增加OpenAI产品落地的场景需求和产业知识，从而反哺基础技术创新。这一模式使OpenAI可以超前把握未来颠覆性技术的机会，并投资布局未来产业，为嵌入未来海量应用场景和指数型、裂变式增长铺路。

2022年底至今，OpenAI进入快速发展期。2022年11月，OpenAI发布ChatGPT全新聊天机器人模型，这一革命性产品的上线引爆全球，成为用户破亿速度最快的消费级应用，全年营收达到2800万美元。2023年1月，OpenAI的估值达到290亿美元，是2021年的两倍。ChatGPT服务逐渐向全球覆盖，已有200万名开发者使用OpenAI的应用程序接口，92%的财富500强公司使用OpenAI的产品搭建服务，而ChatGPT的周活用户数也达到1亿人。2024年2月16日，OpenAI公布了一种新的人工智能系统Sora（“文字生成视频”大模型），使其成为第一家采用生成视频技术的人工智能公司。用户仅需输入简短一句话，Sora就可以生成一段长达60秒的视频。在Sora发布的同时，OpenAI完成了一项允许员工出售股份的交易，公司估值由此超800亿美元，一年内飙升两倍多。

1.2 融资概况

截至2024年3月，OpenAI已进行了10轮融资，总融资额超140亿美元。成立不到十年的时间里，OpenAI的估值就在2024年2月的融资交易中达到了800亿美元。

其中，微软作为其最大的投资者和合作者，先后对OpenAI进行了3次投资，金额达130亿美元。2019年7月，微软与OpenAI建立独家云计算合作关系，并对其投资10亿美元。2021年1月，OpenAI宣布从微软获得10亿美元的额外投资，并与其签署了一项长期合作协议，将GPT-3模型作为微软云计算服务器Azure的独家许可方，也就是说微软为OpenAI提供算力支持，OpenAI的所有技术都搭建在Azure云服务器上运行。在2023年4月，OpenAI完成103亿美元的新一轮融资，其中有100亿美元来自微软。在两者的合作中，微软可以参与OpenAI利润及股份的分成：在收回投资前，微软有权获得OpenAI公司75%的利润；收回投资后，微软将持有OpenAI公司49%的股份。此外，微软还可以将OpenAI的技术整合至旗下搜索引擎必应、营销软件、Microsoft 365办公软件及GitHub编程工具中，构建AI服务体系。

表1 OpenAI 融资概况

数据来源：Crunchbase、Tracxn

Part 2 商业模式

2.1 市场定位：“安全通用的人工智能”

OpenAI最初设立时的宗旨是“非营利性组织”，而发展到2018年，一份新章程草案将OpenAI未来的发展目标进行了修改，将其调整为“创建造福全人类的安全通用人工智能（AGI）”，这表明企业开始向商业化的方向发展。

2023年，OpenAI又将原先的“大胆”、“深思熟虑”、“朴实无华”、“影响力驱动”、“协作”和“以增长为导向”价值观替换为“聚焦通用人工智能”、“坚韧不拔、勇往直前”“坚守规模化效应”、“制造出让人喜爱的东西”与“团队精神”，明确将 AGI 列为后续工作的重中之重。

2.2 主要产品

据OpenAI官网显示，目前其产品主要分为两类：一类是以应用程序接口（API）为主的产品，其中包括可调用GPT模型、DALL·E模型、Whisper（语音识别模型）和为开发者提供的对话、量化、分析、微调功能；另一类是以ChatGPT对话机器人为核心的产品，分为个人版和企业版。

以上产品包含文本生成、图像生成以及音频生成模型，不仅在技术层面达到了行业领先水平，并且在多个应用场景中都展现出了强大的实用性和潜力。

GPT系列文本生成模型

GPT（Generative Pre-trained Transformer）是OpenAI开发的一系列基于Transformer架构的自然语言处理模型。这些模型通过大规模的预训练，具备了强大的语言理解和生成能力。经过四年半的更新迭代，2023年3月OpenAI 宣布发布GPT-4，能够接受文本或图像输入，能阅读、分析或生成多达 25,000 字的文本，并能用所有主要编程语言编写代码。GPT-4比 GPT-3.5更可靠、更有创造力，而且能处理更细微的指令，在各项最初为人类设计的测试中取得了更高的成绩。

图1 gpt-4与gpt-3.5测试成绩比对

（资料来源：OpenAI官网）

DALL-E系列图像生成模型

DALL-E是OpenAI开发的一款文本到图像的生成模型。用户只需输入一段描述性的文字，DALL-E便能自动生成与之匹配的图像。这款产品的出现，极大地拓宽了人工智能在创意产业中的应用范围，为设计师、艺术家等创意工作者提供了全新的创作工具。

图2 DALL-E功能示意

（资料来源：OpenAI官网）

音乐生成模型

OpenAI在2019年发布了MuseNet产品，这是一个经过训练的深度神经网络，用于预测MIDI音乐文件中的后续音符。它可以生成包含10种乐器、15种风格的歌曲。据美国科技媒体网站The Verge报道，MuseNet生成的歌曲往往开头合理，但播放时间越长就会越混乱。在2020年，网络心理惊悚片《Ben Drowned》就初步应用了这一工具为片中的人物创作音乐。

2020年，OpenAI上线了Jukebox，这是一种开源算法，用于生成带人声的音乐。在对120万个样本进行训练后，系统可以通过输入流派、艺术家和歌词片段输出歌曲样本。OpenAI 表示，这些歌曲显示出局部音乐的连贯性，但也承认这些歌曲缺乏大型音乐的结构，如重复的副歌，并且Jukebox与人类生成的音乐之间还存在明显差距。科技媒体网站The Verge评论道：“尽管Jukebox生成的音乐听起来像是熟悉歌曲的乏味版本，但它在技术上令人印象深刻。”

Sora视频生成模型

Sora是OpenAI最新推出的一款产品。该系统可以根据用户输入的文本内容生成长达一分钟的视频，也可将现有视频向前或向后延展。Sora背后的技术来自于DALL-E3文本到图像模型技术的改编及升级，并使用公开以及获得版权的视频系统进行训练。

图3 Sora功能示意

（资料来源：OpenAI官网）

但是当前的Sora模型仍存在弱点。它可能难以准确模拟复杂场景中的物理现象，无法理解具体的因果关系，还可能混淆提示的空间细节，例如混淆左和右，并难以精确描述随时间发生的事件。

2.3 盈利模式

根据其产品分类，OpenAI产品收费情况如表2所示，主要有两大收入支柱。

一是ChatGPT诞生以来，OpenAI最依仗的按API调用收费的模式。在该模式下，用户几乎可以使用OpenAI所研发的多模态能力，贯穿底层大语言模型、模型部署、模型开发等过程，且价格十分友好，每次调用只需几美分。OpenAI官方并未具体划分使用者是个人用户还是企业，但据外媒报道，除了大量个人用户外，Jasper、Slack、Salesforce、摩根士丹利等知名企业都是其早期用户。

在这个收费模式之下，OpenAI还向微软提供了包括编码、文氏图、ChatGPT等多项功能，并嵌入其微软云服务、搜索、办公软件等多款产品中。OpenAI能从中收益几何尚未可知，但以Azure云业务为例，微软使用上述OpenAI功能的成本与报价一致，同时，OpenAI的所有技术还在微软的Azure云基础设施上免费运行。

二是以ChatGPT产品为主的订阅收费制。早期OpenAI以免费的方式获取了大量的客户及训练数据，也凭借此，OpenAI在9个月内刷新了TikTok和Instagram的用户增长速度，成为最快达到1亿用户数的应用。

表2 OpenAI产品及收费标准

资料来源：公司官网

为微软提供服务、给个人用户“尝鲜”并不是OpenAI的最终目的。2023年6月，ChatGPT用户数在越过峰值后开始出现下滑，OpenAI便开始将经营思路从C端转向B端。自OpenAI企业级ChatGPT产品推出以来，已被超过80%的财富500强公司团队所采用，包括Block、Canva、雅诗兰黛、普华永道等大型企业也已提前试用了ChatGPT企业版的Beta版本。之后，OpenAI也将针对小型机构推出ChatGPT商务版本，并提供更多定制化选项。

OpenAI还致力于构建人工智能生态，采取“月订阅付费+潜在流量变现”的模式。2023年3月，OpenAI发布了ChatGPT插件集，它能将ChatGPT连接到第三方应用程序。5月13日，OpenAI发布推文称，将在下周向所有ChatGPT Plus用户开放联网功能和众多插件，将允许ChatGPT访问互联网并使用70多个第三方插件。目前开放使用的插件包括酒店航班预订、外卖服务、在线购物、法律知识、专业问答、文字生成语音等。插件的专业能力和ChatGPT的自然语言人机交互、通用知识库结合，极大地增强ChatGPT的功能。

Part 3 面临挑战

3.1 数据隐私和安全问题

尽管OpenAI致力于安全，但随着公司所收集数据的增多，这些信息被泄露或滥用的风险也在增加。这可能会导致法律后果以及对公司声誉的损害。

2023年3月，OpenAI的Redis开源库中的错误导致在ChatGPT服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露了用户聊天记录后，意大利数据保护局在3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的相关投诉进行了调查。

2023年6月28日，美国克拉克森律师事务所向旧金山联邦法院提交一份厚达175页的诉讼书，指控“OpenAI秘密从互联网窃取了3000亿个单词，范围包括书籍、文章、网站和贴文，以及未经同意获取的个人信息”。根据诉状，OpenAI大规模盗取互联网用户与该公司产品的互动信息，及集承ChatGPT应用中的隐私数据，并将这些信息用于该公司产品的模型训练。受害者据称可能多达数百万人，潜在损失高达30亿美元。

3.2 侵犯版权争议

2023年12月，《纽约时报》以侵犯版权为由起诉OpenAI及其合作伙伴微软，指控OpenAI和微软“试图搭便车”，非法使用了数百万篇文章来构建人工智能工具。在一些情况下，OpenAI将《纽约时报》刊登的内容逐字复制，提供给向ChatGPT寻求答案的用户。随后，其他几家数字新闻媒体也进入了起诉OpenAI侵权的行列，指控OpenAI违反了联邦版权法《数字千年版权法》，因为OpenAI从采用的文章中删除了作者和标题等版权识别信息。除此之外，还有数名演员、记者、作家以及美国作家协会对OpenAI提出诉讼，称该公司的大型语言模型参与了“大规模的系统盗窃”。

另外，图像生成式产品DALL·E 3也面临版权侵犯的争议。尽管DALL·E 3会拒绝根据受版权保护的文本提示生成图像，但对输入文本稍作修改后，它仍能生成类似的图像。

人工智能工具的繁荣正在考验版权法的边界，内容创作者与人工智能间的版权之争正愈演愈烈。OpenAI到底是侵犯版权还是合理使用，目前还没有明确的答案。美媒“Vox”指出，一方面，技术创新的倡导者认为，人工智能技术充满了希望，最好不要为了过度保护版权而牺牲人工智能训练的效率；另一方面，媒体及内容创作者坚持，即使是令人惊喜的科技公司在使用受版权保护的内容时也需要付费。

Part 4 行业发展前景

OpenAI 所处的生成式人工智能（AIGC）行业持续蓬勃发展，全球AIGC行业的融资总额在2023年达到了人民币1902亿元，融资次数共计282次，这一数字充分体现了投资者对AIGC技术未来应用前景的强烈信心。

4.1 技术创新与产业融合

区块链、边缘计算、物联网、机器学习、自然语言处理、机器人过程自动化、量子计算等新兴技术正在迅速改变企业的运营方式。通过利用这些先进技术，AIGC可以开发出更智能的系统，能够以前所未有的速度和更高的精度执行复杂的任务。

通过不断地创新迭代，AIGC正在颠覆数字内容的生产方式、传播形式和消费模式，使消费者的生活发生快速变化。AIGC技术在自然语言处理、计算机视觉和大模型等领域，为各行各业带来了新的机遇。例如，在游戏开发、影视制作、教育和医疗等领域的应用，AICG展现出了其在提高用户体验和企业创收能力方面的显著效果。

越来越多与AIGC相关的应用被推向了前台。随着AI大模型技术的应用场景越来越多，注重结果、深耕业务场景成为了发展的关键。也许在未来几年，AIGC将逐步从泛娱乐场景过渡到支持社会生产的领域。

4.2 产业规模预测与经济增长潜力

AIGC产业的规模预测揭示了这一领域未来的增长潜力。随着上游技术的不断成熟和下游应用场景的不断拓展，预计AIGC产业将继续吸引大量的投资和资源。AIGC技术有望为全球经济贡献约7.9万亿美元的增长空间，这一预测基于AIGC技术在提高生产效率、降低成本以及创造新的商业模式等方面的潜力。

图4 2022-2030年生成式人工智能市场规模测算，单位：10亿美元

（资料来源：globenewswire.com）

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！首图来自图虫创意。

本文版权归原作者所有，如有侵权，请联系删除。首图来自图虫创意。